home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #16 / NN_1992_16.iso / spool / comp / compress / 2776 < prev    next >
Encoding:
Internet Message Format  |  1992-07-22  |  1.8 KB

  1. Path: sparky!uunet!news.uiowa.edu!ns-mx!pyrite.cs.uiowa.edu
  2. From: jones@pyrite.cs.uiowa.edu (Douglas W. Jones,201H MLH,3193350740,3193382879)
  3. Newsgroups: comp.compression
  4. Subject: Re: entropy
  5. Message-ID: <13282@ns-mx.uiowa.edu>
  6. Date: 22 Jul 92 15:46:14 GMT
  7. References: <1992Jul22.144104.27576@usenet.ins.cwru.edu>
  8. Sender: news@ns-mx.uiowa.edu
  9. Lines: 27
  10.  
  11. From article <1992Jul22.144104.27576@usenet.ins.cwru.edu>, by daf10@po.CWRU.Edu (David A. Ferrance):
  12. > Right now I compute the entropy of a file by summing the probability of
  13. > each character ocurring times the log (base2) of the reciprocal of that
  14. > probability.  This gives me the theoretical minimum number of bits
  15. > needed to represent each character, on average (from what I understand).
  16. > What I would like to know is, does this number only work for first order
  17. > (1-ary?) compression techniques or does it serve also as a limit for
  18. > more complex techniques?
  19.  
  20. This is a universal way to compute entropy, but the answer you get depends
  21. on how you compute the probability of a character occuring.  The first
  22. order entropy is obtained by measuring probabilities in isolation -- the
  23. probability of a letter is taken out of context.  To get the second order
  24. entropy, you look at the probability of each letter in the context of the
  25. immediately preceeding letter.  For the third order, you look at each letter
  26. in the context of each pair of preceeding letters, and so on.
  27.  
  28. The absolute entropy of a bit of text can only be determined if you use an
  29. infinite order model, taking into account every bit of context information
  30. available.  Shannon did a very elegant experiment to measure this by having
  31. human subjects read bits of text up to random points and then guess the next
  32. letter.  This is how he arrived at the estimate that the entropy of English
  33. text is a bit over one bit per character.
  34.  
  35.                 Doug Jones
  36.                 jones@cs.uiowa.edu
  37.