home *** CD-ROM | disk | FTP | other *** search
/ The Unsorted BBS Collection / thegreatunsorted.tar / thegreatunsorted / misc / tbweeder.doc < prev    next >
Text File  |  1993-11-26  |  5KB  |  129 lines

  1.  
  2. What is TbWeeder
  3. ----------------
  4.  
  5. TbWeeder is a utility to weed out duplicate files.
  6.  
  7. Virus researchers often receive large virus collections which contain
  8. many duplicate files. Not all anti-virus vendors use the same virus
  9. naming convention, and often a virus sample is renamed to match to the
  10. name printed by the scanner used to identify the virus. These renamed
  11. files are copied into other collections, causing many renamed but equal
  12. files floating around in all kind of virus collections.
  13.  
  14. TbWeeder can help to identify duplicate files, and automatically delete them.
  15.  
  16. Duplicate files are files with the same 32-bit CRC and length. To be
  17. absolutely sure, TbWeeder will perform a full match - byte by byte - of 
  18. the files if both files are available.
  19.  
  20. TbWeeder can also maintain a database so it is not necessary to rescan
  21. all files over and over again to search for duplicates.
  22.  
  23.  
  24. Interesting features
  25. --------------------
  26.  
  27. -   The amount of files TbWeeder can handle is 65534
  28.  
  29. -   TbWeeder can optionally delete duplicate files
  30.  
  31. -   TbWeeder can be used to compare and weed files from one path against
  32.     another path, but also to compare and weed within a single path.
  33.  
  34. -   TbWeeder accepts filename specifications, so it can be used to
  35.     check just one file against a huge collection.
  36.  
  37. -   TbWeeder can maintain two databases, one for the CRC and length
  38.     information, another one for the names of the files in the database.
  39.     To weed out remotely, the relatively small CRC database is sufficient.
  40.  
  41. -   TbWeeder is able to compare files byte for byte for additional security.
  42.  
  43. -   TbWeeder is able to output a report file with all duplicate files.
  44.  
  45. -   TbWeeder is fast (due to a 128Kb hash table and nifty linked lists!).
  46.  
  47.  
  48. Intended purpose
  49. ----------------
  50.  
  51. Example 1:
  52. Suppose you have a virus collection in directory C:\MYVIRS with viruses
  53. sorted out. In directory C:\NEWVIRUS you receive new virus samples.
  54. Enter:
  55.     TbWeeder c:\MyVirs /add
  56. This causes TbWeeder to generate a database with file information.
  57. To find out which viruses in directory C:\NEWVIRS are duplicates, execute:
  58.     TbWeeder c:\NewVirs
  59. You can optionally put all duplicate files in a log file by using option /log
  60. or automatically delete the duplicates by using option /del.
  61.  
  62. Example 2:
  63. Suppose you have a directory VIRUSES and you want to delete all duplicates.
  64. Enter:
  65.     TbWeeder Viruses /add /del
  66. This causes TbWeeder to build a database and delete duplicate files at the
  67. same time!
  68.  
  69. Example 3:
  70. Suppose you want to know whether viruses from someone else's collection
  71. are the same ones you have. Run TbWeeder on your own collection with
  72. option /noname, and distribute TbWeeder and the TbWeeder.Dat file to
  73. the other collection. TbWeeder can now be used to create a log file of
  74. all known viles.
  75.  
  76.  
  77. The database
  78. ------------
  79.  
  80. TbWeeder can only be used with an external database, due to the excessive
  81. amount of data it has to handle when comparing a file against 65000 others!
  82.  
  83. TbWeeder.Dat will contain the 32-bit CRC and length of all files. This
  84. information is usually sufficient to find out whether a file is a duplicate
  85. or not. To become completely sure, TbWeeder can also perform a byte for byte
  86. comparison after it thinks that two files are identical. However, in this
  87. case TbWeeder needs the name of the original file and of course the original
  88. file itself. Therefore TbWeeder will also maintain a name reference, named
  89. TbWeeder.Lst. This file can become quite large, several megabytes is not
  90. unusual. If you don't want these extended features, you can save disk
  91. space by specifying option /noname.
  92.  
  93. Since TbWeeder.Lst will become very large and will only be necessary to
  94. list the name of the first - original - file and to perform a byte by byte
  95. match, you may choose not to distribute this file to others. It can
  96. however be usefull to distribute the other file, TbWeeder.Dat, to others,
  97. to weed out file remotely (to avoid that people send you files you already
  98. have). The maximum size of TbWeeder.Dat is 512Kb (with over 65000 files!).
  99.  
  100.  
  101. Usage
  102. -----
  103.  
  104. Usage:
  105.         TbWeeder [<path>][<filename>] [<options>...]
  106.  
  107. If no options are specified, the specified path will be scanned for
  108. duplicate files. TbWeeder will compare these files against the files
  109. in the TbWeeder.Dat database, and against the files in the specified
  110. path itself.
  111.  
  112. -> IF THERE IS NOT ALREADY A DATABASE YOU NEED TO SPECIFY OPTION /ADD
  113.  
  114. Command line options (abbreviations between brackets).
  115.     help    (h)     displays a help file.
  116.  
  117.     nosub   (s)     do not process sub directories.
  118.  
  119.     add     (a)     The files which have been found to be unique will
  120.                     be stored in the database files.
  121.  
  122.     del     (d)     delete duplicate files.
  123.  
  124.     noname  (n)     do not create or consult the large name reference
  125.                     database. This will disable the full byte by byte
  126.                     comparison as well.
  127.  
  128.     log     (l)     log duplicate files
  129.