home *** CD-ROM | disk | FTP | other *** search
/ 200+ Great Games for PDA / 200+PDA.BIN / 200+PalmGames / MasterWord / Beale.txt < prev    next >
Text File  |  2000-10-07  |  23KB  |  425 lines

  1. I.  Introduction
  2.  
  3. The three lists contained in this archive are the product of the
  4. "n-dicts" project (n being a variable whose value is currently
  5. 12).  The purpose of this project is to create a list of words
  6. which approximates the common core of the vocabulary of American
  7. Engish.
  8.  
  9. The methodology of the project is to record and correlate the words
  10. listed in a number of small dictionaries.  The number of dictionaries
  11. so recorded is now 12, comprising 8 ESL (English as a Second Language)
  12. dictionaries and 4 "desk dictionaries".  The dictionaries chosen
  13. vary widely by publisher, by style, by completeness and by depth.
  14. One of them is a British dictionary with an international bent; the
  15. remainder are dictionaries of American English (three from British
  16. publishers).  The smallest of them contains about 20,000 entries, and
  17. the largest 44,000.  (All totalled, there are about 76,000 entries,
  18. many of which appear in only a single dictionary.)  All but two of
  19. them were published in the last six years.
  20.  
  21. I hereby dub this edition of 12dicts, finalized October 7, 2000,
  22. as version 2.0.  It differs from previous versions primarily by
  23. inclusion of an additional word list.  Additionally, there have been
  24. many error corrections, as well as changes resulting from new editions
  25. of some of the source dictionaries.
  26.  
  27.  
  28. II.  The 6of12 and 2of12 lists
  29.  
  30. I tried two different ways of winnowing this data to produce lists of
  31. common words.  Both have produced interesting results, included
  32. herein.  One list, the 6of12 list, contains all words and phrases
  33. listed in 6 of the 12 dictionaries.  One way of describing this list
  34. is that it contains those words and phrases which a (seeming) majority
  35. of lexicographers believe are relevant to people learning English,
  36. and/or to everyday usage.  This list contains about 32,000 words and
  37. phrases. The other list, the 2of12 list, is more inclusive in that it
  38. includes words listed in as few as two of the source dictionaries, but
  39. less inclusive in that it excludes items of various sorts, including
  40. multiword phrases, proper names and abbreviations.  This list contains
  41. about 41,000 words.  It is perhaps more suitable for use in areas
  42. like spell checking or word games than the 6of12 list.  (Honesty
  43. compels me to admit that neither of these lists is, by itself, a good
  44. choice for spell checking, due to the absence of inflections, proper
  45. names, Roman numerals, etc.)
  46.  
  47. A third list, 2of12inf.txt, is of a rather different character, and is
  48. discussed later.
  49.  
  50. A more precise description of the criteria by which the above lists
  51. were composed is as follows:
  52.  
  53. 1.  The 6of12 list contains all non-excluded words and phrases which
  54.     appear in 6 or more of the source dictionaries.
  55. 2.  Prefixes and suffixes are excluded.  Abbreviations are included;
  56.     however, if they are entirely lower-case and alphabetic, they are
  57.     terminated with a colon (":") so they can be easily distinguished
  58.     from regular words.
  59. 3.  Inflections of included words are not themselves included unless
  60.     they are separately defined or irregular.
  61. 4.  It sometimes occurs that different spellings of the same word
  62.     are listed in 6 or more dictionaries, even though no single form
  63.     is so listed.  In this case, if one spelling is clearly more
  64.     accepted, this spelling and this spelling only is listed.  If all
  65.     spellings seem equally accepted, one spelling has been selected
  66.     arbitrarily for inclusion.
  67. 5.  The 6of12 list contains a significant number of words which do not
  68.     meet either crierion 1 or 4.  These words, sometimes called
  69.     "signature words", are discussed below.  All of these words are
  70.     listed in at least one of the source dictionaries.
  71. 6.  In addition to the ":" suffix discussed above, other special
  72.     suffix characters are used to mark words with certain character-
  73.     istics, as discussed below.
  74.  
  75. 1.  The 2of12 list contains all non-excluded words which appear in at
  76.     least 2 of the source dictionaries.
  77. 2.  This list excludes capitalized words, multiword phrases, and
  78.     abbreviations, as well as prefixes and suffixes.  It does not
  79.     exclude hyphenated words or contractions.  If a word occurs in
  80.     both a hyphenated and an unhyphenated form, the unhyphenated
  81.     form is listed, even if the hyphenated form is generally
  82.     preferred.
  83. 3.  The list excludes spellings which are considered (by a majority
  84.     of the dictionaries listing it) to be non-American usage.  It
  85.     also excludes secondary spellings which are mentioned by fewer
  86.     than four of the source dictionaries.
  87. 4.  Inflections of included words are not themselves included unless
  88.     they are separately defined, or irregular.
  89. 5.  Several of the source dictionaries include listings for obscure
  90.     currencies, such as markka, khoum and ngwee.  I was unable to
  91.     regard such words as part of the Engish "core vocabulary", and so
  92.     I required citation in over a third of the dictionaries for
  93.     inclusion of monetary units.  A side-effect was the elimination
  94.     of the word "lepton", which, in addition to its use in particle
  95.     physics, is also .01 Greek drachmas.
  96. 6.  This list also includes a small number of signature words, as
  97.     discussed below.
  98.  
  99. As indicated, both lists have been augmented with words (and, in the
  100. case of the 6of12 list, phrases) which fail to meet the formal
  101. requirements for inclusion.  In the case of the 6of12 list, 1024
  102. words were added (about 3 % of the total).  These are all words which,
  103. in the judgment of the compiler, are as familiar as many of the words
  104. which met the criteria for inclusion.  Examples of some of the sorts
  105. of words which were added are:
  106.  
  107. 1.  Words of the same category as other included words.  An example is
  108.     the astrological sign "Cancer", which alone of all the astro-
  109.     logical signs fails to appear in 6 or more of the dictionaries.
  110.     Similarly added were the omitted holidays "Thanksgiving" and
  111.     "Valentine's Day".
  112. 2.  Vulgarities, sexual terms and insults.  Some such words were
  113.     already included, but most of the source dictionaries were quite
  114.     squeamish about them.  These words are very widely known indeed;
  115.     I hold that any list of "common" words which does not include the
  116.     infamous f-word is simply discredited thereby.  Some may feel that
  117.     it would have been better to leave some or all of these terms
  118.     unmentioned.  Nevertheless, the expression of blasphemy,
  119.     unwarranted contempt, and perverse lust, whether in words or in
  120.     deeds, is a very human trait.  Suppressing the evidence of these
  121.     aspects of the human condition in our language makes no more sense
  122.     than excluding "leprosy", "gangrene" and "dementia", no matter how
  123.     unpleasant they may be to contemplate.
  124. 3.  Conventional conversational phrases so common as to be practically
  125.     invisible to native speakers.  Examples are "thank you", "good
  126.     night", "uh-huh", "of course" and "gesundheit".
  127. 4.  Sports terminology, especially for football and baseball.  (If I,
  128.     who am practically sports-blind, noticed this deficiency, it must
  129.     be of major proportions indeed.)
  130.  
  131. Note that the signature words in the 6of12 list can be identified via
  132. the suffix character "+", and eliminated if desired.
  133.  
  134. A much smaller set of words (64) was added to the 2of12 list.  These
  135. were of two sorts:
  136.  
  137. 1.  Signature words from the 6of12 list which were not already present
  138.     in the 2of12 list, and which are not excluded due to being
  139.     abbreviations, phrases, etc.
  140. 2.  Inflections of irregular verbs not explicitly mentioned in 2
  141.     source dictionaries, such as "outfought" and "reheard".
  142.  
  143. Some of the 6of12 list entries are annotated with a suffix character,
  144. giving additional information about the associated word.  The
  145. annotations can be easily removed with an editor or script if
  146. they are unwanted.
  147.  
  148. These annotations are:
  149.  
  150.    : - The word is an othwerwise unmarked abbreviation.  This suffix
  151.        may appear in combination with another suffix.
  152.    & - The word is primarily a non-American usage.
  153.    # - The word is generally held to be a variant or less preferred
  154.        form of another word.
  155.    < - This form of a word is held to be the primary form by fewer
  156.        dictionaries than some other form of the word.
  157.    ^ - This form of the word was selected arbitrarily from a set of
  158.        variants, none of which was clearly preferred.
  159.    = - Roughly, this indicates a "second class" word.  More precisely,
  160.        the word falls into one of the following classes:
  161.        a.  The word is an inflection which was defined in the same
  162.            entry as the base word.
  163.        b.  The word is a derived word (-ly, -ness or -er/or) which
  164.            was not defined in a separate entry.
  165.        c.  The word appeared in a list of undefined words with a
  166.            common prefix, such as un- or re-.
  167.    + - The word is a signature word.
  168.  
  169. The words in the 2of12 list are not annotated.
  170.  
  171.  
  172. III.  The 2of12inf list
  173.  
  174. The 2of12inf list is of a rather different character.  Conceptually,
  175. it is simple.  It consists of all the words in the 2of12 list, plus
  176. their inflections, amounting to about 81,000 words.  This list may
  177. be more useful than the other lists for applications like word games.
  178. It was created to help Kevin Atkinson in his Aspell and SCOWL projects
  179. (for which, see http://aspell.sourceforge.net).  Unlike the 6of12 and
  180. 2of12 lists, this list is not based exclusively on the contents of my
  181. 12 source dictionaries, and for this reason it has, I feel, less
  182. authority than the other 12dicts lists.  It also probably has a
  183. significantly higher error rate than the other lists, for reasons
  184. explained below.
  185.  
  186. The criteria defining the 2of12inf list are as follows:
  187.  
  188. 1.  The 2of12inf list contains all non-excluded words which appear in
  189.     at least 2 of the source dictionaries.
  190. 2.  This list excludes capitalized words, multiword phrases,
  191.     abbreviations, contractions, hyphenated words and single-letter
  192.     words, as well as prefixes and suffixes.
  193. 3.  The list does not exclude secondary spellings, non-American usages
  194.     or monetary units.
  195. 4.  The list includes inflections of all included words.  Any
  196.     inflection mentioned or clearly implied by any of the source
  197.     dictionaries is included (i.e., two citations are not required).
  198.     Additionally, some inflections have been added from other sources.
  199. 5.  Plurals of "uncountable" nouns were included, annotated with the
  200.     "%" suffix character.  See below for an extended discussion of
  201.     the inclusion of these words.
  202. 6.  Signature words from the other lists, plus their inflections, were
  203.     added.  No other signature words were added.
  204.  
  205. Though the 2of12inf list still consists mostly of very common words,
  206. criteria 3 through 5 cause the 2of12inf list to contain a greater
  207. proportion of unfamiliar and unusual words than the other 12dicts
  208. lists.
  209.  
  210. The 2of12inf list was not derived directly from the 12 source
  211. dictionaries.  The starting point was a subset of Kevin Atkinson's
  212. AGID list, a list of words, parts of speech and inflections derived
  213. from public-domain sources, notably Moby Words and WordNet.  (See the
  214. file agid.txt in this archive, which is a copy of the AGID "readme",
  215. for more information on the antecedents of AGID.)  2of12inf was created
  216. by a process of editing the AGID subset to remove spurious entries and
  217. those which reflected a more esoteric English vocabulary than the other
  218. 12dicts lists, and to add inflections which AGID failed to identify.
  219. This process required significantly less effort than would have been
  220. needed to derive the list directly from the source dictionaries.
  221. Unfortunately, a side effect of the process is that the result is
  222. likely to be somewhat less reliable than the other 12dicts lists.
  223. In particular, Moby Words is notoriously unreliable, and I find it
  224. unlikely that I have successfully identified all the spurious
  225. inflections its use has introduced.  It is my hope in the future to
  226. release another edition of 2of12inf which is not derived from AGID,
  227. and therefore not "infected" by Moby Words.
  228.  
  229. Ideally, the 2of12inf list would contain only inflections listed in
  230. one of the 12dicts source dictionaries.  This proved not to be
  231. practical.  The reason for this has to do with the nature of these
  232. sources, which are mostly ESL dictionaries.  An ESL dictionary might
  233. well list the word "esophagus", but, because an English learner is
  234. unlikely to need to talk about this organ in the plural, it will
  235. probably not bother to list the plural form "esophagi".  For words of
  236. this sort, I therefore needed to obtain their inflections from other
  237. sources.  Obviously, the decisions on when to include additional
  238. inflections were judgment calls, as were the choices of which
  239. inflections to add.
  240.  
  241. Adjectival inflections (comparatives and superlatives) proved to be
  242. an especially annoying problem.  Only 2 of my 12 source dictionaries
  243. provided remotely reliable information of this sort.  In fact, such
  244. information is sparse and inconsistent in most dictionaries of any
  245. size.  I relied on a small set of additional dictionaries for this
  246. information, which was mostly disjoint from the sources for plurals
  247. and verb forms.  Several of these sources were Scrabble(r)-related,
  248. and therefore inclined to include forms of little plausibility such
  249. as "iller/illest" or "fertiler/fertilest".  Accordingly, I ended up
  250. rejecting some of the documented inflections on grounds of
  251. implausibility.  I have no doubt that, in the process, I made a number
  252. of errors of both inclusion and exclusion and, in any case, many of
  253. the forms listed have no connection with any of the 12dicts source
  254. dictionaries.
  255.  
  256. One additional problem in the creation of the 2of12inf list was that
  257. of "uncountable" nouns and their plurals.  Some English dictionaries,
  258. especially ESL dictionaries, as well as other linguistic sources,
  259. attest to the existence of nouns which cannot be counted, or used in
  260. the plural.  Examples of such nouns include "mud", "rayon", "oregano",
  261. "chess", "fairness", "wisdom", "aluminum", "training", "materialism"
  262. and "chickenpox".  This is an entirely commonsense notion, but a
  263. difficulty is the fact that the boundary between the countable and the
  264. uncountable is extremely vague and ill-defined.  For example, the word
  265. "coffee" is ordinarily uncountable, but not when ordering in a
  266. restaurant, as is the word "symmetry", except in physics or math.
  267. In general, it is possible to contrive a context where use of the
  268. plural of any noun whatsoever is reasonable.
  269.  
  270. An alternate position, therefore, is that in fact no nouns are
  271. uncountable, and that any noun which is not already plural possesses
  272. a plural.  This position is especially useful in the context of word
  273. games, where words such as "zeals" and "anthraxes" may produce large
  274. scores.  For this reason, the official Scrabble dictionaries list
  275. words such as "thens", "onces" and "mankinds", which most people find
  276. rather unreasonable.  The fact that the 2of12inf list might well be
  277. useful in gaming contexts, together with the fact that the boundary
  278. between countable and uncountable nouns is so ill-defined, served as
  279. a powerful argument for inclusion of all plural forms, whether
  280. commonly used or not, while its derivation from ESL sources argued
  281. for including only the plurals of countable nouns, however
  282. distinguished.
  283.  
  284. In the end, I was unable to resolve this dilemma, and adopted a
  285. compromise.  The 2of12inf list includes all plurals, but with the
  286. plurals of uncountable nouns marked, making it easy to remove them
  287. if they are not wanted.  That left the issue of how to establish
  288. countability.  Five of my source dictionaries included information
  289. on countability, which was adequate to decide the status of most of
  290. the included nouns.  As for the rest, as usual, I used my best
  291. judgment.  I will confess to occasionally overriding the source
  292. dictionaries when I believed they were clearly incorrect.  (For
  293. instance, I chose not to mark the word "hatreds" as an uncountable
  294. plural, in defiance of the opinion of all my sources, on the grounds
  295. that it has been used in too many news stories from Bosnia to be
  296. considered unusual.)  It is interesting to note that most of the
  297. plurals I added from auxiliary sources were of words considered
  298. uncountable.
  299.  
  300. The difficulties listed above, and the fact that I was forced to
  301. exercise personal judgment frequently in creating it, emphasizes a
  302. fundamental difference between this list and the other 12dicts lists.
  303. I have tried to make the 6of12 and 2of12 lists reflect only the source
  304. dictionaries, and to keep my own judgments and opinions out of the
  305. picture (except for my addition of signature words).  This has proved
  306. impossible to achieve for the 2of12inf list, which accordingly
  307. represents a less authoritative and more arbitrary collection.
  308. Additionally, the 2of12inf list has undergone less proofreading and
  309. validation than the other lists, and I suspect the error rate is
  310. considerably higher than the idealistic goal of 0.02 % I advocate
  311. elsewhere in this document.  Nevertheless, I hope it may prove to be
  312. of some use and interest.
  313.  
  314. I wish to offer my special thanks to Kevin Atkinson, for supplying me
  315. with the AGID list, and for encouraging me to add the inflections.  Of
  316. course, any errors that remain in the 2of12inf list are my own
  317. responsibility, and should not be blamed on Kevin, AGID, or even on
  318. Moby.
  319.  
  320.  
  321. IV.  Some history
  322.  
  323. It may have occurred to some to wonder about how something like the
  324. n-dicts project came to be (though I assume that anyone who bothers
  325. to download this archive must already have some idea that such a
  326. project could be of interest).
  327.  
  328. Some years ago, there was a post to the sci.crypt newsgroup, on the
  329. subject of creating PGP passphrases using randomly selected entries
  330. from a supplied list of very short words.  (If this sounds interesting,
  331. see http://world.std.com/~reinhold/diceware.html for an expanded
  332. version of the post.)  The word list, which was extracted from
  333. /usr/dict/words on some UNIX system, seemed to me ill-suited to
  334. its intended purpose.  It included arcane acronyms (bstj, ncr),
  335. misspellings (diety) and words of amazing obscurity (bhoy, kombu).
  336. I decided I could do better (and eventually did).
  337.  
  338. This caused me to start downloading English word lists, of which there
  339. are many, from the Internet.  I was not impressed by the overall
  340. quality of these lists, and the few which were high-quality were all-
  341. inclusive, burying the everyday words under a mountain of archaisms
  342. and esoterica.
  343.  
  344. The flaws of the vast majority of these lists are worth recounting:
  345.  
  346. 1.  Failure to proofread.  Many of these lists are littered with
  347.     misspellings and typos, sometimes approaching gibberish.  (I
  348.     presume, for instance, that the bizarre string "nondploe",
  349.     which was found in a purported Scrabble word list, is a typo
  350.     for something more or less legitimate, but I have no idea what.)
  351.     Working on my own lists has helped me understand that 100 %
  352.     accuracy is a very demanding goal, seldom actually achieved, but
  353.     I still feel it reasonable to expect no more than 1 or 2 errors
  354.     per 10,000 words.
  355. 2.  Acceptance of completely undocumented lazy spellings, such as
  356.     "bullseye" and "courtmartial".
  357. 3.  Failure to respect capitalization.
  358. 4.  Failure to distinguish abbreviations from other entries.
  359. 5.  Treating esoteric computer jargon, and especially UNIX jargon,
  360.     as everyday English.  (Beware any list which includes "emacs",
  361.     "inode" and "lvalue".)
  362. 6.  Apparently random word selection.  The various /usr/dicts/words
  363.     files are compendia of all the above sins.  Noteworthy is the
  364.     inclusion of a large set of apparently randomly chosen personal
  365.     names (uncapitalized, of course, and missing "wanda", "marge",
  366.     "polly" and "sid").
  367. 7.  Inconsistent inflection.  Some lists include all inflections of
  368.     their vocabulary, while others include only singulars and
  369.     infinitives.  Either policy is fine, and has its advantages.  I
  370.     am personally very annoyed when inflected forms appear at random.
  371.     I find this generally happens when a compiler merges several lists
  372.     with different characteristics, with no attempt to reconcile their
  373.     divergent styles.
  374. 8.  Omission of everyday words.   I've seen a list that includes
  375.     "bremsstrahlung", yet omits "log" and "beer".  Or that includes
  376.     "saxophone" but not "sax", and "rhinoceros" but not "rhino".  Of
  377.     course, due to my original purpose in seeking out common short
  378.     words, I found this especially annoying.
  379.  
  380. One result of my frustration with this situation was my working with
  381. Mendel Cooper on ENABLE (for further information, check out
  382. http://personal.riverusers.com/~thegrendel/software.html), which was
  383. close to unique in having an active caretaker, one clearly concerned
  384. with quality, and in being oriented towards American rather than
  385. British English.  (A high-quality list oriented towards British
  386. rather than American English can be downloaded from the URL
  387. http://www.bryson.demon.co.uk/wordlist.html.)  But ENABLE is an
  388. all-encompassing list and, even if it had been complete at the time
  389. I started my search for a list of common words, it would not have been
  390. what I wanted for that reason.
  391.  
  392. I finally decided that only starting from scratch with a systematic
  393. approach was likely to get me what I was looking for, and that
  394. dictionaries intended for non-native speakers of English were the
  395. best possible source for words that are in some cases so familiar
  396. that we never think of them.  This has led to the 12dicts lists,
  397. which I hope have managed to avoid the flaws recited above.
  398.  
  399. (I should acknowledge one form of inconsistency exhibited by the
  400. 12dicts lists, which is that sometimes related words are spelled
  401. inconsistently.  For instance, the 2of12 list contains both
  402. "broadminded" and "broad-mindedness".  This generally occurs as a
  403. result of the methodology used to build the lists.  In the case of
  404. "broadminded", only one dictionary listed "broadmindedness", which was
  405. therefore excluded.  I felt unequal to trying to correct these
  406. inconsistencies, some of which are real and not mere artifacts of
  407. 12dicts, such as the contrast between "self-conscious" and
  408. "unselfconscious".)
  409.  
  410. It is possible that in the future the "n" of n-dicts will increase
  411. again, but, in fact, consideration of an additional dictionary now
  412. seems to result in the discovery that its vocabulary matches 12dicts
  413. pretty closely. At the very least, this phenomenon gives me hope that
  414. the n-dicts lists have at last met their goal, and will now be useful,
  415. or at least interesting, to others.
  416.  
  417. The 12dicts lists were compiled by Alan Beale.  I explicitly release
  418. them to the public domain, but request acknowledgment of their use.
  419. (Actually, the dependency of 2of12inf on AGID prevents its release
  420. into the public domain.  However, I do not impose any additional
  421. requirements on its use beyond those imposed by AGID and its sources,
  422. as described in agid.txt.)  Feel free to send comments, suggestions,
  423. inquiries and/or large sums of money to me at biljir@pobox.com.  If
  424. you find 12dicts useful, I'd love to hear about it.
  425.