home *** CD-ROM | disk | FTP | other *** search
/ In'side Shareware 1995 March / ish0395.iso / win_util / dtsearch / stemming.dat < prev    next >
Text File  |  1994-06-01  |  2KB  |  79 lines

  1. 3+IES  -> Y
  2. 3+ING  ->
  3. SS     -> SS
  4. 3+S    ->
  5. 4+ION  ->
  6. 4+ISM  ->
  7. 4+LY   ->
  8. 3+EED  -> EE
  9. 4+IED  -> Y
  10. 4+ED   ->
  11. 4+ER   ->
  12. 4+NESS ->
  13. 4+FUL  ->
  14. 4+ABLE ->
  15. 4+IBLE ->
  16. 3+V    -> F
  17. 4+E    ->
  18. 3+DD   -> D
  19. 3+GG   -> G
  20. 3+LL   -> L
  21. 3+MM   -> M
  22. 3+NN   -> N
  23. 3+PP   -> P
  24. 3+RR   -> R
  25. 3+SS   -> S
  26. 3+TT   -> T
  27. ------------------------------------------------------------------
  28. Customized Stemming
  29. ===================
  30.  
  31.     Stemming rules vary from one language to another.  dtSearch
  32. includes a set of stemming rules designed to work with English. 
  33. These rules are in the file STEMMING.DAT.  If you need to
  34. implement stemming for a different language, or you want to
  35. modify the English stemming rules, you can create a new set of
  36. stemming rules to be used in place of STEMMING.DAT.
  37.  
  38.     Stemming rules consist of a series of lines like this:
  39.  
  40.      3+IES -> Y
  41.      4+ING ->
  42.      
  43.     The first rule would convert any word with three or more letters
  44. followed by IES to the same initial letters followed by Y.
  45. APPLIES would turn into APPLY.
  46.  
  47.     The second rule would remove the ING from any word with four or
  48. more letters followed by ING.  FISHING would turn into FISH, but
  49. SING would not change.
  50.  
  51.     In general, a rule consists of: a minimum number of letters (not
  52. including the suffix), a + sign, a suffix to be removed, an arrow
  53. (->) and the replacement for the suffix, if any.
  54.  
  55.     When stemming a word, dtSearch will look at each rule in order
  56. until it finds one that applies.  If it finds a rule, dtSearch
  57. will apply the rule and then start over, repeating the process
  58. until the word does not change. The result is the "stem" of the
  59. original word.
  60.  
  61.     Sometimes you may want to create a rule with an exception.  For
  62. example, suppose you want to remove a trailing S in a word,
  63. unless the word ends in SS.  To do this, you would use these two
  64. rules:
  65.  
  66.      3+SS -> SS
  67.      3+S  ->
  68.      
  69.     If a word ends in SS, dtSearch will never get past the first rule
  70. and will give up stemming the word because the rule 3+SS -> SS
  71. does not change the word.  Only words not ending in SS will get
  72. to the next rule, which removes the trailing S.
  73.  
  74.     Setting up stemming rules can be somewhat tricky.  To help,
  75. dtSearch includes the STEMTEST utility.  STEMTEST will allow you
  76. to try out your stemming rules, entering words and seeing what
  77. the resulting stem words are.
  78.  
  79.