home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #19 / NN_1992_19.iso / spool / comp / database / 6316 < prev    next >
Encoding:
Text File  |  1992-08-25  |  1.5 KB  |  35 lines

  1. Newsgroups: comp.databases
  2. From: gtoal@pizzabox.demon.co.uk (Graham Toal)
  3. Path: sparky!uunet!pipex!demon!pizzabox.demon.co.uk!gtoal
  4. Subject: free text indexing algorithm refs wanted...
  5. Distribution: world
  6. Organization: Cuddlehogs Anonymous
  7. Lines: 23
  8. Date: Tue, 25 Aug 1992 19:15:21 +0000
  9. Message-ID: <714787738snx@pizzabox.demon.co.uk>
  10. Sender: usenet@gate.demon.co.uk
  11.  
  12. Having implemented a database using a really cool set of algorithms
  13. and data structures, which let us do just about anything, we find it's
  14. depressingly slow compared to some commercial systems.  We've have
  15. worked out what they must be doing by treating them as a black box
  16. and throwing queries at them, and working out the complexity of the
  17. search algorithms they must be using.  Any pointers to papers or
  18. articles on different data structures for free text systems?
  19.  
  20. We're not going to reimplement it now, we're just interested in why
  21. people made particular decisions; where the tradeoffs are etc.  For 
  22. instance, we have hierarchically structred SGML files and can search
  23. for words between arbitrary start and end tags; some systems have
  24. fixed numbers of fields and store the presence of a word in that
  25. field in a bit vector.  It's things like that we're interested in.
  26. Which tradeoffs for speed and size are considered worthwhile by the
  27. users - eg would they be upset that such-and-such a structure doesn't
  28. allow sentence or qualified proximity searching?
  29.  
  30. Replies either here or by email gratefully received.
  31.  
  32. Many thanks
  33.  
  34. Graham
  35.