home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #16 / NN_1992_16.iso / spool / comp / compress / 2796 < prev    next >
Encoding:
Internet Message Format  |  1992-07-25  |  2.6 KB

  1. Path: sparky!uunet!zaphod.mps.ohio-state.edu!sdd.hp.com!usc!hacgate!rigel!abirenbo
  2. From: abirenbo@rigel.cel.scg.hac.com (Aaron Birenboim)
  3. Newsgroups: comp.compression
  4. Subject: Re: entropy
  5. Message-ID: <22552@hacgate.SCG.HAC.COM>
  6. Date: 24 Jul 92 18:49:11 GMT
  7. References: <1992Jul22.144104.27576@usenet.ins.cwru.edu>
  8. Sender: news@hacgate.SCG.HAC.COM
  9. Organization: Hughes Aircraft Colorado Engineering Labs
  10. Lines: 45
  11.  
  12. In article <1992Jul22.144104.27576@usenet.ins.cwru.edu> daf10@po.CWRU.Edu (David A. Ferrance) writes:
  13. >
  14. >Right now I compute the entropy of a file by summing the probability of
  15. >each character ocurring times the log (base2) of the reciprocal of that
  16. >probability.  This gives me the theoretical minimum number of bits
  17. >needed to represent each character, on average (from what I understand).
  18. >What I would like to know is, does this number only work for first order
  19. >(1-ary?) compression techniques
  20.  
  21. 2 points for david.  good intuition.  I only stumbled through my
  22. info-theory class, but this would seem to be the case to me.
  23. As soon as you start using some kind of memory, or markov chain,
  24. or dictionary the rules of the game change.
  25.  
  26. >  If it does not serve for the more complex
  27. >techniques (and I suspect it doesn't), is there any way to determine
  28. >entropies for different orders?
  29.  
  30. i dunno.  i'd like to hear some discussion on that though.  I'd immagine
  31. that there are papers out covering this.  anybody care to enlighten us?
  32.  
  33. My guess as to how this works is as follows:
  34.  
  35. Lets talk about entropy as bits/SYMBOL.  If your symbols are
  36. all characters, you have the usual case.  However, if, for
  37. example, you go to a DICTIONARY technique, you start getting
  38. SYMBOLS which are STRINGS of CHARACTERS.  Now...  the usual
  39. (first order ?!?) entropy law still holds.  You can compute
  40. a theoretical minimum number fo bits per SYMBOL, but your
  41. symbol table is much more complex than before.  This is why
  42. most good compression techniques can beat single-character entropy.
  43.  
  44.   Now...  i'd like to see some kind of markov chain applied
  45. to strings of SYMBOLS...  will this be somehow analagous to
  46. say encodeing the error from a predictor of order x.
  47. (like in a DPCM with prediction based of the last X symbols)
  48. This idea fits well to signals, but not so well to language
  49. where DPCM makes less sense... (but is conceivable).
  50.  
  51.   Will the info theory gurus please stand up ! ;-)
  52. --
  53. Aaron Birenboim                                |I am just too tired to think
  54. abirenbo%rigel.cel.scg.hac.com@hac2arpa.hac.com|of a good quote.
  55. abirenbo@isis.cs.du.edu                        |    - ChickenHead
  56. w (303) 344-6486                               |
  57.