home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #20 / NN_1992_20.iso / spool / comp / compress / 3264 < prev    next >
Encoding:
Text File  |  1992-09-12  |  1.3 KB  |  32 lines

  1. Newsgroups: comp.compression
  2. Path: sparky!uunet!spool.mu.edu!yale.edu!ira.uka.de!rz.uni-karlsruhe.de!stepsun.uni-kl.de!sun.rhrk.uni-kl.de!sun.rhrk.uni-kl.de!marpia
  3. From: marpia@sun.rhrk.uni-kl.de (David Powers [Informatik])
  4. Subject: Compressing English text to 1.75bits or better (80%)
  5. Message-ID: <1992Sep12.103552.24873@rhrk.uni-kl.de>
  6. Summary: Entropy of English is 1.75 bits or less (put in FAQ)
  7. Keywords: FAQ
  8. Sender: news@rhrk.uni-kl.de
  9. Organization: University of Kaiserslautern, Germany
  10. X-Newsreader: Tin 1.1 PL4
  11. Date: Sat, 12 Sep 1992 10:35:52 GMT
  12. Lines: 18
  13.  
  14. I want to draw attention to a journal article which might not other-
  15. wise come to the attention of this group:
  16.  
  17. An Estimate of an Upper Bound for the Entropy of English
  18. Peter L Brown, SA & VJ Della Pietra, JC Lai & Robert L Mercer,
  19. Computational Linguistic V18#1, pp31-40, March 1992, MIT Press/ACL.
  20.  
  21. They used cross-entropy techniques to estimate an UPPER bound for
  22. the 6million word Brown corpus, using a model based on a couple of
  23. dictionary, plus lists of names, addresses and places, etc. and
  24. TRIGRAM prediction.  The article is intended "as a gauntlet thrown
  25. down" to challenge the bettering of this result - which is already
  26. equivalent to achieving around 80% compression.
  27.  
  28. Perhaps this information should go into the FAQ question [73] on
  29. the theoretical limits of compression.
  30.  
  31. David Powers
  32.