home *** CD-ROM | disk | FTP | other *** search
/ 200+ Great Games for PDA / 200+PDA.BIN / 200+PalmGames / MasterWord / Agid.txt < prev    next >
Text File  |  2000-08-19  |  10KB  |  237 lines

  1. Automatically Generated Inflection Database (AGID)
  2.  
  3. August 19, 2000
  4. Revision 2
  5.  
  6. Copyright 2000 by Kevin Atkinson <kevina@users.sourceforge.net>
  7.  
  8. The file "infl.txt" is an automatically created database of the
  9. inflected forms of words from an insanely large word list.
  10.  
  11. The latest version can be found at http://aspell.sourceforge.net/wl/.
  12.  
  13. Entries are in the following form.
  14.  
  15. <word> <pos>: <inflected forms>
  16.  
  17. Where <pos> is V for verb, N for noun, or A or adjective or adverb.
  18. If <pos> is followed by a ? that means that the part-of-speech was not
  19. in the part-of-speech database however the inflected forms of the word
  20. where found in the word list.
  21.  
  22. The inflected forms are in the following order for verbs (except for
  23. the verb "be"):
  24.   <past tense>  [<past participle>]  <-ing form>  <plural form>
  25. and for adjective or adverbs:
  26.   <-er form>  <-est form>
  27. There are two spaces between each form.
  28.  
  29. A word in parentheses mean that it is considered a less preferred form
  30. of the previous inflection.  Two parentheses means that the word is
  31. even less preferred, etc.  A / between two words means that the two
  32. words are considered almost equal variants or that is is difficult to
  33. tell which one is the primary form.  They are ordered by preference
  34. however sometime this distinction is so slight it is meaningless.  A
  35. "|" between words means that both inflections are used depending on
  36. the meaning of the word.  If the distinction between the two forms can
  37. be described in a word than that word is found after the word in
  38. braces, for example:
  39.  
  40.   hang V: hung {suspend} | hanged {execute}  hanging  hangs
  41.  
  42. Notice how there is two spaces between the past tense, -ing form and
  43. plural form but not between the alternate forms of the past tense.  In
  44. general, if the "|" symbol would be needed more than once the words
  45. the entry is split up into multiple lines like so:
  46.  
  47.   <word> [{explanation}] <POS>: <inflected forms>
  48.  
  49. However, the past particle as past tense form are considered a single
  50. form. Thus, a "|" may appear more than once when the word contains
  51. both a past participial and past tense form.
  52.  
  53. A /? between words means that both inflections were found in the word
  54. list but the script was not sure which one to use.  A ~ after a word
  55. means that there is a slight chance that it is the plural of a word.
  56. A ! after a word indicates that the word is likely an inflections of a
  57. similar word (generally one ending in e) and not the current word.  A
  58. ? after a word means that the word was not in the word list but if it
  59. was it would be considered an inflected form of the base word.
  60.  
  61. Fell free to send me corrections to correct any of these questionable
  62. words.  I am mostly interested in the preferred form of the word in
  63. the case of /? or words marked with a ~ that are actually valid.
  64.  
  65. Words are in mixed case but all accents have been scripted thus words
  66. like cafΘ are instead cafe.
  67.  
  68. The file "variant" contains a list of alternate inflections.
  69.  
  70. The file "irregular" contains extra information where a noun or verb
  71. has irregular inflected forms.
  72.  
  73. The file "dontuse" contains a list of words not to consider an
  74. inflected form of a word if more than one inflected form of a word is
  75. found.
  76.  
  77. The files "prefixes" and "suffixes" contains a list of common prefixes
  78. and suffixes respectfully.  These files are used by the script to
  79. produce inflected forms for words that end in a word in the
  80. "irregular" file. If the beginning appears in the word list or the
  81. prefixes file and the ending appears in the irregular file I also
  82. consider <prefix>+<irregular inflections>.  If the prefix is 3 letters
  83. or more OR appears in the prefixes file and the suffix is 4 letters or
  84. more OR appears in the suffixes file I consider it the most likely
  85. choice, otherwise I consider it as a possible candidate but not the
  86. most likely choice.
  87.  
  88. The file "make-infl" is the actual Perl script used to create the
  89. data base.
  90.  
  91. CHANGES:
  92.  
  93. From Revision 1 to 2 (August 18, 2000)
  94.  
  95.   Classified variants as either almost equal, also used, or
  96.   secondary.
  97.  
  98.   The / is now used to indicate equal variants.  "/?" is now used to
  99.   mean what "/" used to be.
  100.  
  101.   Lots of additional rules added which greatly improved the results.
  102.  
  103. COPYRIGHT AND SOURCE:
  104.  
  105. The final product is under the following copyright, as well as any
  106. copyrights mentioned below.
  107.  
  108.   Copyright 2000 by Kevin Atkinson
  109.  
  110.   Permission to use, copy, modify, distribute and sell this database,
  111.   the associated scripts, the output created form the scripts and its
  112.   documentation for any purpose is hereby granted without fee,
  113.   provided that the above copyright notice appears in all copies and
  114.   that both that copyright notice and this permission notice appear in
  115.   supporting documentation. Kevin Atkinson makes no representations
  116.   about the suitability of this array for any purpose. It is provided
  117.   "as is" without express or implied warranty.
  118.  
  119. The part-of-speech database used is created form the Moby
  120. part-of-speech database which is in the public domain:
  121.  
  122.     The Moby lexicon project is complete and has
  123.     been place into the public domain. Use, sell,
  124.     rework, excerpt and use in any way on any platform.
  125.     
  126.     Placing this material on internal or public servers is
  127.     also encouraged. The compiler is not aware of any
  128.     export restrictions so freely distribute world-wide.
  129.     
  130.     You can verify the public domain status by contacting
  131.     
  132.     Grady Ward
  133.     3449 Martha Ct.
  134.     Arcata, CA  95521-4884
  135.     
  136.     grady@netcom.com
  137.     grady@northcoast.com
  138.  
  139. and the WordNet database which is under the following copyright:
  140.  
  141.     This software and database is being provided to you, the LICENSEE, by
  142.     Princeton University under the following license.  By obtaining, using  
  143.     and/or copying this software and database, you agree that you have  
  144.     read, understood, and will comply with these terms and conditions.:  
  145.   
  146.     Permission to use, copy, modify and distribute this software and
  147.     database and its documentation for any purpose and without fee or
  148.     royalty is hereby granted, provided that you agree to comply with  
  149.     the following copyright notice and statements, including the disclaimer,  
  150.     and that the same appear on ALL copies of the software, database and  
  151.     documentation, including modifications that you make for internal  
  152.     use or for distribution.  
  153.   
  154.     WordNet 1.6 Copyright 1997 by Princeton University.  All rights reserved.  
  155.   
  156.     THIS SOFTWARE AND DATABASE IS PROVIDED "AS IS" AND PRINCETON  
  157.     UNIVERSITY MAKES NO REPRESENTATIONS OR WARRANTIES, EXPRESS OR  
  158.     IMPLIED.  BY WAY OF EXAMPLE, BUT NOT LIMITATION, PRINCETON  
  159.     UNIVERSITY MAKES NO REPRESENTATIONS OR WARRANTIES OF MERCHANT-  
  160.     ABILITY OR FITNESS FOR ANY PARTICULAR PURPOSE OR THAT THE USE  
  161.     OF THE LICENSED SOFTWARE, DATABASE OR DOCUMENTATION WILL NOT  
  162.     INFRINGE ANY THIRD PARTY PATENTS, COPYRIGHTS, TRADEMARKS OR  
  163.     OTHER RIGHTS.
  164.   
  165.     The name of Princeton University or Princeton may not be used in  
  166.     advertising or publicity pertaining to distribution of the software  
  167.     and/or database.  Title to copyright in this software, database and  
  168.     any associated documentation shall at all times remain with  
  169.     Princeton University and LICENSEE agrees to preserve same.  
  170.  
  171. The word list used is a combination of several word list:
  172.  
  173. 1) Most of the word lists from the Moby Words package:
  174.  
  175.      10196pla.ces 113809of.fic 21986na.mes 256772co.mpo 354984si.ngl
  176.      3897male.nam 4160offi.cia 4946fema.len 6213acro.nym 74550com.mon
  177.    
  178.    The Moby Word package, like the Part-Of-Speech database is in the
  179.    public domain.
  180.  
  181. 2) The ENABLE2K word lists which is in the public domain:
  182.  
  183.      The ENABLE master word list, WORD.LST, is herewith formally
  184.      released into the Public Domain. Anyone is free to use it or
  185.      distribute it in any manner they see fit. No fee or registration
  186.      is required for its use nor are "contributions" solicited (if you
  187.      feel you absolutely must contribute something for your own peace
  188.      of mind, the authors of the ENABLE list ask that you make a
  189.      donation on their behalf to your favorite charity). This word
  190.      list is our gift to the Scrabble community, as an alternate to
  191.      "official" word lists. Game designers may feel free to
  192.      incorporate the WORD.LST into their games. Please mention the
  193.      source and credit us as originators of the list. Note that if
  194.      you, as a game designer, use the WORD.LST in your product, you
  195.      may still copyright and protect your product, but you may *not*
  196.      legally copyright or in any way restrict redistribution of the
  197.      WORD.LST portion of your product. This *may* under law restrict
  198.      your rights to restrict your users' rights, but that is only
  199.      fair.
  200.  
  201. 3) All of the word lists in the ENABLE2K Supplemnt which consists of:
  202.  
  203.      2DICTS.LST  ALSO.LST   LETTERS.LST  OSPDADD.LST  UCACR.LST
  204.      ABLE.LST    LCACR.LST  NOPOS.LST    PLURALS.LST  UPPER.LST
  205.  
  206.    All of these word lists are also in the public domain.
  207.  
  208. 4) The list of signature words from the YAWL package which is in the
  209.    public domain.
  210.  
  211. 5) The UK Advanced Cryptics Dictionary which in under the following
  212.    copyright:
  213.  
  214.      Copyright (c) J Ross Beresford 1993-1999. All Rights Reserved.
  215.  
  216.      The following restriction is placed on the use of this
  217.      publication: if The UK Advanced Cryptics Dictionary is used
  218.      in a software package or redistributed in any form, the
  219.      copyright notice must be prominently displayed and the text
  220.      of this document must be included verbatim.
  221.  
  222.      There are no other restrictions: I would like to see the
  223.      list distributed as widely as possible.
  224.  
  225. 6) Some extra words found in the Part-Of-Speech database that was not
  226.    found in any of the above word list.
  227.  
  228. 7) Words found in the Jargon File Word List package, available at
  229.    http://aspell.sourceforge.net/wl/, which is in the Public Domain.
  230.  
  231. 8) And finally some extra words that I added myself.  These words can be
  232.    found in the file "extra-words"
  233.  
  234. The "dontuse", "irregular", and "variant" file was created by me
  235. (Kevin Atkinson) from numerous sources.
  236.  
  237.