home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / lang / pascal / 7934 < prev    next >
Encoding:
Text File  |  1993-01-07  |  1.9 KB  |  56 lines

  1. Newsgroups: comp.lang.pascal
  2. Path: sparky!uunet!spool.mu.edu!agate!rsoft!mindlink!a499
  3. From: Robert_Salesas@mindlink.bc.ca (Robert Salesas)
  4. Subject: Re: Pattern Matching for Spelling Correction
  5. Organization: MIND LINK! - British Columbia, Canada
  6. Date: Thu, 7 Jan 1993 10:21:32 GMT
  7. Message-ID: <19332@mindlink.bc.ca>
  8. Sender: news@deep.rsoft.bc.ca (Usenet)
  9. Lines: 45
  10.  
  11. > Tim Ciceran writes:
  12. >
  13. > Msg-ID: <1993Jan7.054651.25174@spartan.ac.BrockU.CA>
  14. > Posted: Thu, 7 Jan 1993 05:46:51
  15. >
  16. > Org.  : Brock University, St. Catharines Ontario
  17. >
  18. > I'm currently working on the front-end to an information retrieval
  19. > package and would like to incorporate a facility to provide for
  20. > spelling correction. Does anyone have any recommendations for an
  21. > efficient pattern matching algorithm which could be used in this
  22. > capacity?
  23. >
  24. > The dictionary is rather large (but static) and I would prefer having
  25. > the option to search the entries either on disk or through a table
  26. > in memory.
  27. >
  28. > Any insights or references would be especially helpful.
  29. >
  30. > Thanks in advance,
  31. >
  32. > TMC
  33. >
  34.  
  35.  
  36.  
  37. I too would be interested in hearing ideas.  I'd like to get a spell checker
  38. with suggestions working, with a 120000 word dictionary (have it).
  39. Obviously, the way to proceed is with a hash table, and soundex or metaphone
  40. codes for matching.  However, the calcs I made end up with a table of 720
  41. 000Kb, not to mention the dictionary itself!  (6 bytes per word - hash key,
  42. metaphone key, and index to word).  It isn't so obvious any more.  How does
  43. one go about this?  Compression does do much on quasi random data, although I
  44. can get very good string repitition compression on the dictionary itself.
  45. Any ideas?
  46.  
  47.  
  48. Rob
  49.  
  50. --
  51. \------------------------------------------------------------------------/
  52. \ Robert Salesas             | Internet: Robert_Salesas@mindlink.bc.ca   /
  53. \ Eschalon Development Inc.  | CIS:    76625,1320  Tel/Fax: 604-520-1543 /
  54. \------------------------------------------------------------------------/
  55.  
  56.