home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #3 / NN_1993_3.iso / spool / comp / compress / 4760 < prev    next >
Encoding:
Text File  |  1993-01-21  |  1.8 KB  |  40 lines

  1. Newsgroups: comp.compression
  2. Path: sparky!uunet!zaphod.mps.ohio-state.edu!uwm.edu!linac!att!att!dptg!ulysses!allegra!princeton!tyrolia!jmd
  3. From: jmd@tyrolia.Princeton.EDU (John M. Danskin)
  4. Subject: Re: request for compression algorithm for small text buffers
  5. Message-ID: <1993Jan20.143605.4160@Princeton.EDU>
  6. Originator: news@nimaster
  7. Sender: news@Princeton.EDU (USENET News System)
  8. Nntp-Posting-Host: tyrolia.princeton.edu
  9. Reply-To: jmd@tyrolia.Princeton.EDU (John M. Danskin)
  10. Organization: Dept. of Computer Science, Princeton University
  11. References:  <23244@venera.isi.edu>
  12. Date: Wed, 20 Jan 1993 14:36:05 GMT
  13. Lines: 25
  14.  
  15. In article <23244@venera.isi.edu>, sondeen@isi.edu (Jeff Sondeen) writes:
  16. |> I'm looking for a compression routine that I can use for small text
  17. |> buffers accessed separately within huge text files.  For example, a
  18. |> dictionary whose word entries are hashed (ala gdbm) to their
  19. |> definition text -- but I want the definition text strings to be
  20. |> compressed with minimal (space) overhead.  Would the separate "table"
  21. |> overheads of LZ type compressions be a disadvantage compared to a
  22. |> huffman/arithmetic compression based on a fixed table?  Thanks for any
  23. |> tips.
  24. |> 
  25. |> /jeff
  26.  
  27. It seems to me that you could improve on the effect of a fixed huffman table by
  28. generating a standard LZW table from a small sample subset of your dictionary
  29. definitions. When you want to encode a new definition, always start from this
  30. sample table. Sizing the sample table is an interesting trade off between
  31. initial code size and code power. In practice, once you had a system
  32. running, it would be easy to try sample tables resulting in several different
  33. code sizes, and just use the best one.
  34.  
  35.  
  36. John Danskin            |
  37. (609) 258-5386            | Gradual student
  38. (609) 258-1771 fax              | Graphics systems
  39. jmd@cs.princeton.edu        | (efficient low bandwidth graphics?)
  40.