home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #23 / NN_1992_23.iso / spool / sci / crypt / 3801 < prev    next >
Encoding:
Internet Message Format  |  1992-10-15  |  1.8 KB

  1. Xref: sparky sci.crypt:3801 alt.security:4571
  2. Path: sparky!uunet!think.com!barmar
  3. From: barmar@think.com (Barry Margolin)
  4. Newsgroups: sci.crypt,alt.security
  5. Subject: Re: Letter Frequency
  6. Date: 15 Oct 1992 16:35:03 GMT
  7. Organization: Thinking Machines Corporation, Cambridge MA, USA
  8. Lines: 51
  9. Message-ID: <1bk6jnINNenm@early-bird.think.com>
  10. References: <1big1qINNrnq@matt.ksu.ksu.edu> <1992Oct15.140918.27296@emr1.emr.ca>
  11. NNTP-Posting-Host: telecaster.think.com
  12.  
  13. In article <1992Oct15.140918.27296@emr1.emr.ca> nyelle@ccrs.emr.ca (Norman Yelle) writes:
  14. >If you have an on-line copy of the dictionnary, then you can do the
  15. >following:
  16. >
  17. >  grep -i e /usr/dict/words | wc
  18. >
  19. >... to find how many words contain the letter 'e'.  You can do this for all
  20. >26 letters.  This is the results I got with a dictionary of 25144 words:
  21.  
  22. That's not a good way to determine the frequency of letters in actual text,
  23. which is what you generally want for cryptanalysis, because it gives
  24. equivalent weight to letters in words that are used with different
  25. frequencies, and doesn't give extra weight to letters that appear multiple
  26. times in a word.  Here's your list sorted by frequency:
  27.  
  28.    e   14835
  29.    a   13190
  30.    r   11533
  31.    i   11428
  32.    t   10599
  33.    o   10285
  34.    n   10256
  35.    s    8700
  36.    l    8625
  37.    c    7204
  38.    u    5989
  39.    d    5324
  40.    m    5320
  41.    p    4929
  42.    h    4844
  43.    b    3862
  44.    g    3756
  45.    y    3523
  46.    f    2342
  47.    w    1907
  48.    v    1848
  49.    k    1848
  50.    x     616
  51.    j     427
  52.    z     380
  53.    q     377
  54.  
  55. Notice how different it is from ETAOIN SHRDLU, the beginning of the usual
  56. letter frequency list.  That's probably mostly because of the extreme
  57. frequency of the word "the" in text; it drags T and H several notches
  58. higher.
  59. -- 
  60. Barry Margolin
  61. System Manager, Thinking Machines Corp.
  62.  
  63. barmar@think.com          {uunet,harvard}!think!barmar
  64.