home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #19 / NN_1992_19.iso / spool / comp / archives / 3277 < prev    next >
Encoding:
Internet Message Format  |  1992-09-03  |  8.4 KB

  1. Path: sparky!uunet!sun-barr!ames!agate!agate!usenet
  2. From: stolfi@src.dec.com (Jorge Stolfi)
  3. Newsgroups: comp.archives
  4. Subject: [sci.lang] Natural language wordlists available
  5. Followup-To: comp.editors
  6. Date: 4 Sep 1992 07:52:41 GMT
  7. Organization: DEC Systems Research Center
  8. Lines: 209
  9. Approved: adam@soda.berkeley.edu
  10. Distribution: world
  11. Message-ID: <1874k9INN1vl@agate.berkeley.edu>
  12. References: <1992Aug24.212359.6906@src.dec.com>
  13. NNTP-Posting-Host: soda.berkeley.edu
  14. Summary: A collection of inflected wordlists for several natural
  15. X-Original-Newsgroups: sci.lang,comp.text,comp.editors
  16. X-Original-Date: 24 Aug 92 21:23:59 GMT
  17.  
  18. Archive-name: auto/sci.lang/Natural-language-wordlists-available
  19.  
  20.  
  21. A few months ago I collected half a dozen natural language wordlists by
  22. anonymous ftp from various places around the world.  I spent a couple
  23. of weeks regularizing the spelling conventions, merging the lists into
  24. one per language, and removing various junk.  The result is now
  25. available through anonymous FTP from 
  26.  
  27.     site:      gatekeeper.dec.com
  28.     directory: pub/misc/stolfi-wordlists
  29.  
  30. The package's README file (below) describes the wordlists and how to
  31. unpack them.  Each wordlist has its separate README file, which gives
  32. more details on the source of the words, spelling conventions, etc.  
  33.  
  34. Note: To save space and transmission time, they were crunched with a
  35. non-standard crunching algorithm specialized for sorted word lists, and
  36. then piped though the Unix utilities "tar" "compress".  The package
  37. includes an un-crunching program (in Unix C).  
  38.  
  39.  
  40. PACKAGE: DEC SRC Collection of Public Domain Wordlists 
  41. VERSION: DEC-SRC-92-04-05
  42.  
  43. EDITOR
  44.  
  45.     Jorge Stolfi 
  46.     
  47.     (Until 92-Aug-24:)
  48.     DEC Systems Research Center
  49.     130 Lytton Avenue, Palo Alto CA 94301
  50.     Phone: [USA] (415) 853-2226
  51.     
  52.     (After 92-Aug-24:) 
  53.     DCC - Universidade Estadual de Campinas
  54.     Caixa Postal 6065 
  55.     13081 Campinas, SP - Brazil
  56.     Phone: +55 (192) 39 8442
  57.     E-Mail: <stolfi@dcc.unicamp.ansp.br>
  58.     
  59. DESCRIPTION
  60.  
  61.   This package contains wordlists for several natural languages, which
  62.   may be useful for linguistic research and text-processing
  63.   applications such as spelling checkers.  They were compiled from
  64.   several publicly available files that I obtained by anonymous FTP
  65.   from various sites around the world.
  66.   
  67.   All the credit for this package should go to the authors of the
  68.   original lists, who did all the actual work and made the results
  69.   available for public use.  In particular, I wish to thank
  70.   
  71.         Anders Ellefsrud
  72.         Andy Tannenbaum
  73.         Arjan de Vet
  74.         Barry Brachman
  75.         Dan Klein
  76.         David Vincenzetti
  77.         Edward Vielmetti
  78.         Geoff Kuenning
  79.         H. Morrow Long
  80.         Hans Bouw
  81.         Henk Smit
  82.         Martien Kuunders
  83.         Neal Dalton
  84.         Paul Stravers
  85.         Stefan Kutsch
  86.         Walt Buehring
  87.         Werner Icking
  88.  
  89.   My role here is only one of editor and collector: basically, I
  90.   feteched, compared, and merged the files, trying to uniformize the
  91.   spelling conventions for each language (such as the encoding of
  92.   accents) and removing obvious typos, non-words, and "foreign" words.
  93.   My efforts were necessarily limited by my ignorance of most of these
  94.   languages, and by the limited time I could spen in the cleanup (a
  95.   couple of days for each list).
  96.   
  97. (NON-)COPYRIGHT STATUS
  98.  
  99.   To the best of my knowledge, all the files I used to build these
  100.   wordlists were available for public distribution and use, at least
  101.   for non-commercial purposes.  I have confirmed this assumption with
  102.   the authors of the lists, whenever they were known.
  103.   
  104.   Therefore, it is safe to assume that the wordlists in this package
  105.   can also be freely copied, distributed, modified, and used for
  106.   personal, educational, and research purposes.  (Use of these files in
  107.   commercial products may require written permission from DEC and/or
  108.   the authors of the original lists.)
  109.   
  110.   Whenever you distribute any of these wordlists, please distribute
  111.   also the accompanying README file.  If you distribute a modified
  112.   copy of one of these wordlists, please include the original README
  113.   file with a note explaining your modifications.  Your users will
  114.   surely appreciate that.
  115.  
  116. (NO-)WARRANTY DISCLAIMER
  117.  
  118.   These files, like the original wordlists on which they are based,
  119.   are still very incomplete, uneven, and inconsitent, and probably
  120.   contain many errors.  They are offered "as is" without any warranty
  121.   of correctness or fitness for any particular purpose.  Neither I nor
  122.   my employer can be held responsible for any losses or damages that
  123.   may result from their use.
  124.  
  125. FILES
  126.  
  127.   This package contains the following sub-directories and files:
  128.  
  129.     README
  130.     
  131.       This file.
  132.       
  133.     unpack-words
  134.     
  135.       A shell script that unpacks the compressed archives (see below).
  136.       
  137.     expanddict.c
  138.     
  139.       A C program used by "unpack-words" to expand the wordlists 
  140.       after extracting them from the archive file.
  141.       
  142.     dutch/
  143.  
  144.        FILE                   CONTENTS                WORDS     BYTES 
  145.       ---------------------  ---------------------  -------- --------- 
  146.        dutch.words            words & names          189249   2137557
  147.        dutch.trash            rejected material        1910     14802
  148.        dutch.maybe            unclassified            43059    579746
  149.  
  150.     english/
  151.  
  152.        FILE                   CONTENTS                WORDS     BYTES 
  153.       ---------------------  ---------------------  -------- --------- 
  154.        english.words          plain words            104206   1055781
  155.        english.names          proper names             6186     54253
  156.        org.names              organizations             154      1229 
  157.        computer.names         computer orgs & prods      88       676 
  158.        misc.names             "foreign" names          2020     16470 
  159.        english.abbrs          abbreviations             671      3086 
  160.        english.trash          rejected material        3123     25210 
  161.        english.maybe          unclassified             5906     57754 
  162.  
  163.     german/
  164.  
  165.        FILE                   CONTENTS                WORDS     BYTES 
  166.       ---------------------  ---------------------  -------- --------- 
  167.        german.words           words & names          174537   2260942
  168.        german.trash           rejected material        2187     16240
  169.  
  170.     italian/
  171.  
  172.        FILE                   CONTENTS                WORDS     BYTES 
  173.       ---------------------  ---------------------  -------- --------- 
  174.        italian.words          plain words             61183    573117
  175.        italian.trash          rejected material        1867     14816
  176.  
  177.     norwegian/
  178.  
  179.        FILE                   CONTENTS                WORDS     BYTES 
  180.       ---------------------  ---------------------  -------- ---------
  181.        norwegian.words        plain words             61839    598547
  182.        norwegian.trash        rejected material           5        30
  183.  
  184.     swedish/
  185.  
  186.        FILE                   CONTENTS                WORDS     BYTES 
  187.       ---------------------  ---------------------  -------- --------- 
  188.        swedish.words          words & names           14944    126412
  189.        swedish.trash          rejected material        8744     79217
  190.  
  191.   In general, 
  192.  
  193.    foo/foo.words   is the main wordlist for language foo.
  194.  
  195.    foo/foo.trash   is a collection of "words" from the original
  196.                    wordlists that I believe are either invalid 
  197.                    or do not belong in foo.words.
  198.  
  199.   For more details, consult the README files in each sub-directory.
  200.  
  201. COMPRESSED ARCHIVES
  202.  
  203.   The package is available for public FTP as a set of compressed "tar"
  204.   files, one per language:
  205.  
  206.     -rw-r--r--  500455 Aug  2 03:17 dutch.tar.Z
  207.     -rw-r--r--  246631 Aug  2 03:13 english.tar.Z
  208.     -rw-r--r--  374418 Aug  2 03:15 german.tar.Z
  209.     -rw-r--r--   68797 Aug  2 03:13 italian.tar.Z
  210.     -rw-r--r--  123145 Aug  2 03:18 norwegian.tar.Z
  211.     -rw-r--r--   61743 Aug  2 03:17 swedish.tar.Z
  212.  
  213.   To recover the wordlists, copy the "unpack-words" script
  214.   and any subset of the archives above to a clean working directory;
  215.   then do "unpack-words <language>" for each language.
  216.  
  217.   The script should uncompress and un-tar the archive,
  218.   compile the 'expanddict.c" filter (included in archive), 
  219.   and pipe each wordlist through it.
  220.  
  221.   I would greatly appreciate any additions corrections to the
  222.   wordlists or to the accompanying documentation, and any pointers to
  223.   additional publicly available wordlists.
  224.  
  225.   --jorge
  226.  
  227.