home *** CD-ROM | disk | FTP | other *** search
/ A Beginner's Guide to the Internet / INTERNET.ISO / text / faqs / wais-hel.txt < prev    next >
Encoding:
Text File  |  1996-05-06  |  7.7 KB  |  156 lines

  1.                        How to Search a WAIS Database
  2.  
  3. The WAIS search engine is at the heart of the WAIS Server and
  4. Workstation products. The WAIS search engine receives a user's
  5. question, searches its database for documents most relevant to the
  6. question, and returns a relevance-ranked list of documents back to the
  7. user. Each document is given a score from 1 to 1000, based on how well
  8. it matched the user's question (how many words it contained, their
  9. importance in the document, etc.).  A question is an expression
  10. containing a combination of natural language, relevant documents, and
  11. boolean terms. Other key features of the WAIS search engine include
  12. fielded search, right truncation (wildcard searching), and relevance
  13. ranking.
  14.  
  15. Natural Language
  16.  
  17. The server can be queried using natural language questions. The server
  18. does not understand the question, rather it takes the words and
  19. phrases in the question and finds documents that have those words and
  20. phrases in them. "Tell me about portable computers." is an example of
  21. a natural language question.  In this example, the WAIS Server would
  22. search for documents containing the words 'portable' and 'computers';
  23. the other words, 'tell', 'me', and 'about', are called "stop words" --
  24. they are so common that they occur in almost every document, so they
  25. are not used for searching a document.
  26.  
  27. Boolean Operators
  28.  
  29. The boolean operators, AND, OR, NOT, and ADJ aid in establishing
  30. logical relationships between concepts expressed in natural language.
  31. These operators are especially useful in narrowing down the search.
  32.  
  33.   o The AND operator is helpful in restricting a search when a particular
  34.     pair of terms is known. For instance, when searching for documents on
  35.     the weather in Boston, a question such as "weather AND Boston" would
  36.     return only those documents that contain both the word "weather" and
  37.     the word "Boston".
  38.  
  39.   o The OR operator is often used to join two different phrases of a
  40.     Boolean search. A question such as "hurricane OR tornado" would search
  41.     for all documents containing either the word "hurricane", or the word
  42.     "tornado", or both. A natural language question is much like having an
  43.     implicit OR between the words, except that the search engine does more
  44.     work in a natural language query to determine the relevance of words
  45.     and their relationships in a phrase.
  46.  
  47.   o The NOT operator is used to reject any documents that contain certain
  48.     words. The question "basketball NOT college" would find all documents
  49.     containing the word "basketball", that also do not contain the word
  50.     "college".  (Note, however, that this question would eliminate
  51.     articles on any professional players that mention their alma maters!)
  52.  
  53.   o The adjacent operator, ADJ, is used to ensure that one word is
  54.     followed by another in the returned document, with no other words in
  55.     between. For example, "cordless ADJ telephone" returns only documents
  56.     with exactly "cordless telephone" and not any documents that only
  57.     contain the words "cordless" and "telephone" separately.  Mixed
  58.     Natural Language And Boolean Operators Unique to the WAIS Inc server
  59.     is the ability for users to combine natural language and boolean
  60.     operators to better target their searches. For example, suppose you
  61.     were looking for documents specifically on portable laptop computers
  62.     that are not made by Apple. The question could then be "Tell me about
  63.     portable laptop computers NOT Apple.".
  64.  
  65. Fielded Search
  66.  
  67. For data collections whose documents are structured in a semi-regular
  68. format, the regular portions of the documents can be tagged by the
  69. WAIS parser as fields. A client can then ask a WAIS server to limit
  70. its search to those documents containing a user-specified value of a
  71. particular field. This is called a "Fielded Search".
  72.  
  73. The mail-or-rmail parse format is an example of a parse format in
  74. which fields are tagged. For this parse format, the WAIS parser
  75. detects the "to" and "cc" fields, the "from" and "sender" fields, the
  76. "subject" field, and the "date" field. An example of a question using
  77. natural language, a boolean operator, and fielded search is: "company
  78. picnic AND from=barbara". The WAIS server would then return documents
  79. containing messages about a company picnic that barbara sent.
  80.  
  81. Right Truncation (Wildcards)
  82.  
  83. A user can specify right truncation by ending a word with the asterisk
  84. ('*') wild card character.  This tells the search engine to search on
  85. words matching the base characters before the '*' and to ignore any
  86. trailing characters. For example, you might use right truncation in a
  87. question such as "geo*", which may retrieve documents containing the
  88. words: geographer, geography, geologist, geometry, geometrical, etc.
  89.  
  90. Grouping Search Terms
  91.  
  92. A user can group search terms and phrases together using parentheses.
  93. For example, if you wished to search for information about snowstorms,
  94. tornadoes, or hurricanes in New York City, you might search for
  95. "(snowstorms OR tornadoes OR hurricanes) AND (New ADJ York ADJ City)."
  96. You can also nest your parentheses; for example, "from = ( (ben ADJ
  97. wais) OR (brewster ADJ think) )" searches for messages from either
  98. ben@wais.com or brewster@think.com.
  99.  
  100. Relevance Ranking
  101.  
  102. Each document is scored based on its relevance to a user's question,
  103. where the most relevant document has the highest score, or rank --
  104. 1000 being the highest, 1 being the lowest. A document receives a
  105. higher score if the words in the question are in the headline, or if
  106. the words appear many times, or if phrases occur as in the question. A
  107. document's score is derived using techniques such as word weighting,
  108. term weighting, proximity relationships, and word density. Note that
  109. questions made up of natural language, relevant documents, and boolean
  110. expressions are all weighted using these techniques.
  111.  
  112. Word Weight
  113.  
  114. If a word in a document is found to match a word in the user's
  115. question, the word is assigned a weight, and this weight adds to the
  116. overall score of the document. The exact weight that a word receives
  117. depends on the emphasis given to the word by the author, and on where
  118. in the document the word was found. For example, a word is weighted
  119. highest if it appears in the headline, lower if the word has all
  120. capital letters or if the first letter of the word is capitalized, and
  121. finally, lowest if it appears only in the text.  The WAIS parser
  122. determines word weights as it reads through the original data
  123. collection.
  124.  
  125. Term Weight
  126.  
  127. Each word used in data collection is assigned a numerical value,
  128. called the term weight, based on the frequency of occurrence of that
  129. word over all documents in the data collection. Words that occur
  130. frequently are not weighted as highly as those that appear less
  131. frequently. Very common words are either ignored or diminished in the
  132. scoring. For example, since the term, "animal", may occur frequently
  133. in many of the documents in a data collection, its term weight is
  134. small compared to a term such as "hippopotamus", which may occur only
  135. a few times.
  136.  
  137. Proximity Relationships
  138.  
  139. Proximity relationships designate that if the words in a natural
  140. language question are located close together in a document, they are
  141. given a higher weight than those found further apart. The idea behind
  142. a proximity relationship is that if a document contains a phrase
  143. similar to one in the user's question, that document is more likely to
  144. be relevant.
  145.  
  146. Word Density
  147.  
  148. The ratio of the number of times a word appears in a document to the
  149. size of the document is called the word density. It is a measure of
  150. how important a word is to the overall content of the document. A
  151. higher word density results in a higher relevance ranking.
  152.  
  153. Courtesy of WAIS Inc.
  154.  
  155. .
  156.