home *** CD-ROM | disk | FTP | other *** search
/ ftp.itri.bton.ac.uk / 2015-02-03.ftp.itri.bton.ac.uk.tar / ftp.itri.bton.ac.uk / bnc / variances.doc < prev    next >
Text File  |  1996-03-14  |  3KB  |  83 lines

  1. The variance of common words of English: a BNC-based resource
  2. =============================================================
  3.  
  4. Documentation for ftp.itri.bton.ac.uk/pub/bnc/variances
  5.  
  6. Adam Kilgarriff
  7. 15 March 1996
  8.  
  9. RATIONALE
  10.  
  11. It has long been noted that corpus frequencies, taken alone, give a
  12. very limited picture of a word's distribution in a corpus.  As well as
  13. varying in raw frequency, words vary in the extent to which they are
  14. equally spread across the documents on the corpus.  This 'burstiness'
  15. can be measured in a variety of ways (Church and Gale, "Poisson
  16. Mixtures", JNLE 1(2), 1996). One straightforward possibility is to
  17. take a large number of documents, all of the same length; count the
  18. frequency of a word in each of these documents; and calculate the
  19. (mean and) variance of this frequency.
  20.  
  21. The file presents the results of such an exercise. It is potentially
  22. of interest for various statistical approaches to text processing
  23. (e.g. as author identification and information retrieval) as well as
  24. for linguistic studies of how much semantic content different English
  25. words have.
  26.  
  27. METHOD
  28.  
  29. I took the first 5,000 words of all documents (=files) longer than
  30. 5,000 words in the written part of the BNC.  There were 2018 of these,
  31. so I was working from a subcorpus of slightly over 10M words.  (I used
  32. written-only on the premise that the spoken material would be too
  33. different to usefully treat as part of the same population - of
  34. course, one might say this about all sorts of subcorpora, but never
  35. mind.)  Then I produced a frequency list for each of these (truncated)
  36. documents. Then, taking the 8189 word-pos pairs occurring 100 times or
  37. more in the sample, I produced a 2018x8189 table giving the frequency
  38. of each word in each document, and calculated, for each word, the mean
  39. and variance.
  40.  
  41. There were two ways to calculate mean and variance: including the zeros (eg
  42. always dividing by 2018) or excluding them (dividing by the number of
  43. documents the word occurred in).  For most purposes, it is the former
  44. that is of interest so this is what I present. The "exclusive" figures
  45. may readily be reconstructed.
  46.  
  47. FILE FORMAT
  48.  
  49. Columns are
  50.  
  51. (1)     Word        )Using BNC definitions of 'word' and tags
  52. (2)    POS-tag     ) - see README for details
  53. (3)    Total freq (in 10M corpus)
  54. (4)    (Truncated) documents that word-pos pair occurs in (out of 2018)
  55. (5)    Mean (= Total freq./2018)
  56. (6)    Variance
  57. (7)    Variance/mean
  58.  
  59. The last is useful because, for distributions like the normal,
  60. poisson, binomial, variance increases with mean, so, to make the
  61. variance figures comparable for words of different base frequency, it
  62. is necessary to normalise by the mean.  This is the figure that shows
  63. that, e.g., pronouns have very high variability, and prepositions, low
  64. (cf. Kucera and Francis 1982).
  65.  
  66. Words are presented in frequency order.  The file is .4MB
  67. (uncompressed) and .1MB (compressed): both forms are available.
  68.  
  69.  
  70. %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
  71. Adam Kilgarriff                                
  72. Research Fellow                                tel: (44) 1273 642919     
  73. Information Technology Research Institute           (44) 1273 642900 
  74. University of Brighton                         fax: (44) 1273 642908
  75. Lewes Road                        
  76. Brighton BN2 4AT         email:      Adam.Kilgarriff@itri.bton.ac.uk
  77. UK                       http://www.itri.bton.ac.uk/~Adam.Kilgarriff
  78. %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
  79.  
  80.  
  81.  
  82.  
  83.