home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #26 / NN_1992_26.iso / spool / comp / compress / 3822 < prev    next >
Encoding:
Text File  |  1992-11-12  |  3.1 KB  |  74 lines

  1. Newsgroups: comp.compression
  2. Path: sparky!uunet!stanford.edu!agate!rsoft!mindlink!a7657
  3. From: a7657@mindlink.bc.ca (Stephen H. Kawamoto)
  4. Subject: Re: compression of small files
  5. Organization: MIND LINK! - British Columbia, Canada
  6. Date: Thu, 12 Nov 1992 23:20:45 GMT
  7. Message-ID: <17407@mindlink.bc.ca>
  8. Sender: news@deep.rsoft.bc.ca (Usenet)
  9. Lines: 63
  10.  
  11. > work well: means a good compression ratio, speed is unimportant.
  12. >
  13. > small files: means 1024 bytes or less.
  14. >
  15. > Or would a file of such a size be too small to effectively compress
  16. > ?
  17. Would this be repetitive data as in small database or spreadsheet files,
  18. or text? The minimal size would still have to be greater than 14 bytes.
  19. (My t{sts seem to indicate that the minimal size for a file with repetitive
  20. data to effectively compress is about 14 bytes for LHA and ARJ but 7 bytes
  21. for PKZIP.)
  22.  
  23. What this means is that for the source algorithms for compression within
  24. these compression utilities, the algorithms in LHA and ARJ are probably the
  25. same with minute variations and the smallest size that a stream of characters
  26. can be represented is 13 bytes. On the other hand, PKZIP uses a small stream
  27. of characters size, and the smallest size that can represent a group of data
  28. characters is 6 bytes.
  29.  
  30. Of course the overhead of these methods leaves up with large PKZIP files due
  31. to the large header, and smaller ARJ and LHA files even when the minimum file
  32. size is less than the minimal (less than 14 bytes).
  33.  
  34.  Thus it stand to reason that there has to be a minimal file size that doesnt
  35. result in an INCREASE in file size for the resulting compressed file. For
  36. LHA, that is actually about 42 bytes; for ARJ, 110; and for PKZIP, about 120.
  37. (This information is based on tests using a test file with 8 bytes of data
  38. created by ECHO AAAA>test.txt and compressing the resulting file by each of
  39. the utilities, LHA, ARJ and PKZIP. The resulting filesizes were used to make
  40. a determination of the actually minimal file size. Note that perhaps a file
  41. with a size 6 bytes less than given above might be the absolute minimal. What
  42. this means is LHA has a 36 byte header for a 8 character filename with 6
  43. bytes in it. ARJ, a 104 byte header. And PKZIP, a 114 byte header. Filesizes
  44. also vary according to length of filename and the inclusion|exclusion of
  45. pathnames into the directory structure in the resulting compressed file.)
  46.  
  47.  Of course, there are probably documents with better scientific method than
  48. the ones I've employed (minimal ones in my case). The smallest size of a file
  49. does depend on the filename length, inclusion|exclusion of pathnames as well
  50. as the size of the file itself.
  51.  
  52. So the answer to your question: Or would a file of such a size be too small
  53. to effectively compress ?
  54.  
  55. NO.
  56.  
  57.  
  58.  
  59. --
  60. PGP 384/D7484F Stephen Kawamoto
  61.  
  62. a7657@mindlink.bc.ca.
  63.  
  64.  
  65. UUENCODED on MIND LINK! Fri Oct 30 10:35:08 1992
  66.  
  67.  
  68. begin 666 sign1a.pcx
  69. M"@4!`0`````K`3L`+`$\`````/___P``````````````````````````````
  70. M```````````````````````````!)@``````````````````````````````
  71. M``````````````````````````````````````````````````#E_\'PY?_!
  72. M\.7_P?#E_\'PY?_!\.7_P?#$_\'/X/_!\,3_P<_@_\'PQ/_!Q\W_/]+_P?#$
  73. M_\''S?\
  74.