home *** CD-ROM | disk | FTP | other *** search
/ ftp.itri.bton.ac.uk / 2015-02-03.ftp.itri.bton.ac.uk.tar / ftp.itri.bton.ac.uk / bnc / README < prev    next >
Text File  |  1996-03-14  |  3KB  |  94 lines

  1.  
  2. README for ftp.itri.bton.ac.uk/pub/bnc
  3. ======================================
  4.  
  5. Adam Kilgarriff
  6. 20 Nov 1995
  7. Updated 15 March 1996
  8.  
  9. The files in this directory relate to the British National Corpus (BNC).
  10.     
  11. They are a bibliographical database, various frequency lists,
  12. and a file giving variances of word frequencies (details in
  13. variances.doc).
  14.  
  15. bib-dbase    a one-line-per-file bibliographic database for the
  16.         4124 files in the BNC.  (The first part of the file 
  17.         is the describes the coding scheme.)
  18.  
  19. Frequency lists: 
  20.  
  21.     These are all available in 6 forms:
  22.      
  23.        *   sorted alphabetically ("al") 
  24.                or by frequency (highest frequency first) ("num");
  25.        *   the complete lists, or a smaller file containing only those
  26.                items occurring over five times (suffix "o5");
  27.        *   all lists are available compressed using gzip (".gz").  The
  28.                o5 lists are also available uncompressed (no suffix). 
  29.   
  30. The frequencies are for <CLAWS-word, POS> pairs.  NB some CLAWS words
  31. - eg "in spite of" are not orthographic words, while others are
  32. numbers etc, and some POS's are CLAWS 'portmanteau tags', eg NN1-VVB,
  33. where CLAWS was uncertain as to whether the word was a singular common
  34. noun or base form of a verb. See BNC manual for serious documentation,
  35. also my "Putting frequencies in the dictionary" (available via www home
  36. page, see adddress below) for detailed discussion of frequency lists.
  37.  
  38. The format is: four fields, separated by spaces.
  39.  
  40.     1: frequency
  41.     2: word
  42.     3: pos
  43.     4: number of files the word occurs in
  44.  
  45. For non-orthographic words, spaces are replaced by underscore, giving
  46. eg "in_spite_of"
  47.  
  48.     cg    'context-governed' spoken material    
  49.         (eg meetings, lectures etc)  6.2M tokens,  79,906 types
  50.     demog      'demographic' spoken material        
  51.         (eg conversation)         4.2M tokens,  54,652 types
  52.         written                             89.7M tokens, 921,074 types
  53.     all                                100.1M tokens, 939,028 types
  54.  
  55. Sizes in MB ("al" and "num" variants all the same size)
  56.  
  57.         all uncompressed    .gz    o5    o5.gz
  58. -------------------------------------------------------------
  59. all        18.1            4.8    4.0    1.32
  60. cg         1.4            0.39    0.43    0.15
  61. demog         0.9            0.26    0.25    0.09    
  62. written        17.8            4.7    3.9    1.30
  63. -------------------------------------------------------------
  64.  
  65. For further information on the BNC see
  66.  
  67.     http://info.ox.ac.uk/bnc
  68.  
  69.  
  70. %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
  71. Adam Kilgarriff                                
  72. Research Fellow                                tel: (44) 1273 642919     
  73. Information Technology Research Institute           (44) 1273 642900 
  74. University of Brighton                         fax: (44) 1273 642908
  75. Lewes Road                        
  76. Brighton BN2 4AT         email:      Adam.Kilgarriff@itri.bton.ac.uk
  77. UK                       http://www.itri.bton.ac.uk/~Adam.Kilgarriff
  78. %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
  79.  
  80.  
  81.  
  82.  
  83.  
  84.  
  85.  
  86.  
  87.  
  88.  
  89.  
  90.  
  91.  
  92.  
  93.  
  94.