home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1997 December / Internet_Info_CD-ROM_Walnut_Creek_December_1997.iso / rfc / rfc1625 < prev    next >
Text File  |  1994-06-07  |  15KB  |  396 lines

  1.  
  2.  
  3.  
  4.  
  5.  
  6.  
  7. Network Working Group                                      M. St. Pierre
  8. Request for Comments: 1625                                    WAIS, Inc.
  9. Category: Informational                                       J. Fullton
  10.                                                                    CNIDR
  11.                                                                K. Gamiel
  12.                                                                    CNIDR
  13.                                                               J. Goldman
  14.                                                  Thinking Machines Corp.
  15.                                                                 B. Kahle
  16.                                                               WAIS, Inc.
  17.                                                                 J. Kunze
  18.                                                              UC Berkeley
  19.                                                                H. Morris
  20.                                                               WAIS, Inc.
  21.                                                         F. Schiettecatte
  22.                                                            FS Consulting
  23.                                                                June 1994
  24.  
  25.  
  26.                          WAIS over Z39.50-1988
  27.  
  28. Status of this Memo
  29.  
  30.    This memo provides information for the Internet community.  This memo
  31.    does not specify an Internet standard of any kind.  Distribution of
  32.    this memo is unlimited.
  33.  
  34. 1. Introduction
  35.  
  36.    The network publishing system, Wide Area Information Servers (WAIS),
  37.    is designed to help users find information over a computer network.
  38.    The principles guiding WAIS development are:
  39.  
  40.          1. A wide-area networked-based information system for searching,
  41.             browsing, and publishing.
  42.          2. Based on standards.
  43.          3. Easy to use.
  44.          4. Flexible and growth oriented.
  45.  
  46.    From this basis, a large group of developers, publishers, standards
  47.    bodies, libraries, government agencies, schools, and users have been
  48.    helping further the WAIS system.
  49.  
  50.    The WAIS software architecture has four main components: the client,
  51.    the server, the database, and the protocol.  The WAIS client is a
  52.    user-interface program that sends requests for information to local
  53.    or remote servers.  Clients are available for most popular desktop
  54.    environments.  The WAIS server is a program that services client
  55.  
  56.  
  57.  
  58. IIIR Working Group                                              [Page 1]
  59.  
  60. RFC 1625                 WAIS over Z39.50-1988                 June 1994
  61.  
  62.  
  63.    requests, and is available on a variety of UNIX platforms.  The
  64.    server generally runs on a machine containing one or more information
  65.    sources, or WAIS databases.  The protocol, Z39.50-1988, is used to
  66.    connect WAIS clients and servers and is based on the 1988 Version of
  67.    the NISO Z39.50 Information Retrieval Service and Protocol Standard.
  68.    The goal of the WAIS network publishing system is to create an open
  69.    architecture of information clients and servers by using a standard
  70.    computer-to-computer protocol that enables clients to communicate
  71.    with servers.
  72.  
  73.    WAIS development began in October 1989 with the first Internet
  74.    release occurring in April 1991.  From the beginning, WAIS committed
  75.    to use the Z39.50-1988 standard as the information retrieval protocol
  76.    between WAIS clients and servers.  The implementation is still in use
  77.    today by existing WAIS clients and servers resulting in over 50,000
  78.    users of Z39.50-1988 on the Internet.
  79.  
  80. 2. Purpose
  81.  
  82.    The purpose of this memo is to initiate a discussion for a migration
  83.    path of the WAIS technology from Z39.50-1988 Information Retrieval
  84.    Service Definitions and Protocol Specification for Library
  85.    Applications [1] to Z39.50-1992 [2] and then to Z39.50-1994 [3].  The
  86.    purpose of this memo is not to provide a detailed implementation
  87.    specification, but rather to describe the high-level design goals and
  88.    functional assumptions made in the WAIS implementation of Z39.50-
  89.    1988.  WAIS use of Z39.50-1992 and Z39.50-1994 standards will be the
  90.    subject of future RFCs.
  91.  
  92. 3. Historical Design Goals of WAIS
  93.  
  94.    As an aid to understanding the original WAIS implementation and its
  95.    use of Z39.50-1988, the historical design goals of WAIS are presented
  96.    in this section.  Included with each goal is a brief description of
  97.    the assumptions used to meet these design goals.
  98.  
  99.          1. Provide users access to bibliographic and non-bibliographic
  100.             information, including full-text and images.
  101.  
  102.    Because Z39.50-1988 grew out of the bibliographic community,
  103.    additional assumptions with the protocol were required to serve non-
  104.    bibliographic information.  They were also necessary to serve
  105.    documents existing in multiple formats (e.g., rtf, postscript, gif,
  106.    etc.).
  107.  
  108.          2. Keep the client/server interface simple and independent of
  109.             changes in the functionality of the server.
  110.  
  111.  
  112.  
  113.  
  114. IIIR Working Group                                              [Page 2]
  115.  
  116. RFC 1625                 WAIS over Z39.50-1988                 June 1994
  117.  
  118.  
  119.    To achieve this, the text string entered by the user was transmitted
  120.    to the server without parsing the string into a Type-1 RPN (reverse-
  121.    polish notation) query, as is common for bibliographic applications.
  122.    Instead WAIS defined a new Type-3 query containing the text string.
  123.    In this way, knowledge of the Z39.50 Attributes supported by the
  124.    server was no longer required by the client or the user, as is true
  125.    of many existing Z39.50 implementations.  In addition, the client
  126.    software did not require modification to support the evolving
  127.    functionality of the server.
  128.  
  129.          3. Provide relevance feedback capability.
  130.  
  131.    Relevance feedback is the ability to select a document, or portion of
  132.    a document, and find a set of documents similar to the selection.
  133.    WAIS included documents used in relevance feedback as part of the
  134.    Type-3 query.
  135.  
  136.          4. Permit the server to operate in a stateless manner.
  137.  
  138.    A WAIS server was designed to be "stateless", meaning that search
  139.    result sets were not stored by the server.  In Z39.50 terms, the
  140.    server exercised its right to unilaterally delete a result set as
  141.    soon as it sent the search response.  For this reason, the Present
  142.    Facility of Z39.50 was not used, and retrievals were performed using
  143.    the Search Facility.  Relaxing this constraint in future
  144.    implementations may prove the most prudent path.
  145.  
  146.          5. Provide the ability for a client to retrieve documents in
  147.             pieces.
  148.  
  149.    Because retrieval of a portion of a document could be done several
  150.    ways with Z39.50-1988, specific assumptions were made to implement
  151.    this functionality.  Accessing a portion of a document was required
  152.    for both retrieval and for relevance feedback.
  153.  
  154.          6. Run over TCP.
  155.  
  156.    The Z39.50-1988 standard was designed to run in the application layer
  157.    using the presentation services provided by the Open Systems
  158.    Interconnection (OSI) Reference Model.  Due to the popularity of
  159.    TCP/IP and the Internet, WAIS was designed to run over TCP.  Use of
  160.    Z39.50 over TCP is described in [4].
  161.  
  162. 4. WAIS Implementation of Z39.50-1988
  163.  
  164.    By working with the Z39.50 Implementors Group (ZIG), the WAIS
  165.    developers used a recommended subset of Z39.50-1988 and specific
  166.    assumptions to fulfill its requirements.  Over time, many of these
  167.  
  168.  
  169.  
  170. IIIR Working Group                                              [Page 3]
  171.  
  172. RFC 1625                 WAIS over Z39.50-1988                 June 1994
  173.  
  174.  
  175.    requirements have then gone into the definition of subsequent
  176.    versions of Z39.50.  As new requirements become apparent, WAIS will
  177.    document any additional assumptions and work with the ZIG in
  178.    developing extensions.
  179.  
  180.    WAIS supported the Init and Search Facilities of Z39.50-1988.  Both
  181.    search and retrieval were implemented using the Search Facility, as
  182.    described in this section.
  183.  
  184.    Search was initiated by the client with a Search Request APDU
  185.    (Application Protocol Data Unit) using a Type-3 query.  The query
  186.    contained two main fields:
  187.  
  188.          1. The "seed words", or text, typed by the user.
  189.          2. A list of document objects, where a document object is a
  190.             full document, or portion thereof, to be used in relevance
  191.             feedback.  Each document object contains a document
  192.             identifier (Doc-ID) [5], type, chunk-code, and start and
  193.             end locations.  The Doc-ID and type specify the location and
  194.             format, respectively, of the document.  The chuck-code
  195.             determines the unit of measure for the start and end
  196.             locations.  Examples of chunk-codes used include
  197.             byte, line, paragraph, and full document.  If the chunk code
  198.             is a full document, the start and end locations are ignored.
  199.  
  200.    A Search Response APDU returned by the server contained a relevance
  201.    ranked list of records, or WAIS Citations.  A WAIS Citation refers to
  202.    a document on the server.  Each WAIS Citation contains the following
  203.    fields:
  204.  
  205.          1. Headline - a set of words that convey the main idea of the
  206.             document.
  207.          2. Rank - the numerical score of the document based on its
  208.             relevance to the query, normalized to a top score of 1000.
  209.          3. List of available formats - e.g. text, postscript, tiff, etc.
  210.          4. Doc-ID - the location of the document.
  211.          5. Length - the length of the document in bytes.
  212.  
  213.    The number of WAIS Citations returned was limited by the preferred
  214.    message size negotiated during the Init.
  215.  
  216.    Retrieval of a document was initiated by the client with a Search
  217.    Request APDU using a Type-1 query.  The query contained up to four
  218.    terms:
  219.  
  220.          1. Term: Doc-ID
  221.             Use Attribute: system-control-number      code = "un"
  222.             Relation Attribute: equal                 code = "re"
  223.  
  224.  
  225.  
  226. IIIR Working Group                                              [Page 4]
  227.  
  228. RFC 1625                 WAIS over Z39.50-1988                 June 1994
  229.  
  230.  
  231.          2. Term: the requested document format
  232.             Use Attribute: data-type                  code = "wt"
  233.             Relation Attribute: equal                 code = "re"
  234.          3. Term: the start location
  235.             Use Attribute: paragraph, line, byte      code = "wp", "wl",
  236.                                                              "wb"
  237.             Relation Attribute: greater-than-or-equal code = "ro"
  238.          4. Term: the end location
  239.             Use Attribute: paragraph, line, byte      code = "wp", "wl",
  240.                                                              "wb"
  241.             Relation Attribute: less-than             code = "rl"
  242.  
  243.    Because full-text and images were often larger in size than the
  244.    receive buffer of the client, clients were designed to optionally
  245.    retrieve documents in chunks, specifying the start and end positions
  246.    of the chunk in the query.  An example of a fully-specified retrieval
  247.    query is:
  248.  
  249.    query = ( ( use = "un", relation = "re", term = <Doc-ID> )
  250.              AND
  251.              ( use = "wt", relation = "re", term = postscript )
  252.              AND
  253.              ( use = "wb", relation = "ro", term = 0 )
  254.              AND
  255.              ( use = "wb", relation = "ro", term = 2000 )
  256.             )
  257.  
  258.    A retrieval response was issued by the server with a Search Response
  259.    APDU. In this case a single record corresponding to the requested
  260.    document, or portion thereof, was returned in the specified format.
  261.  
  262. 5.  Security Considerations
  263.  
  264.    Security issues are not discussed in this memo.
  265.  
  266. 6.  References
  267.  
  268.    [1] National Information Standards Organization (NISO).  American
  269.        National Standard Z39.50, Information Retrieval Service
  270.        Definition and Protocol Specifications for Library Applications,
  271.        New Brunswick, NJ, Transaction Publishers; 1988.
  272.  
  273.    [2] ANSI/NISO Z30.50-1992 (version 2) Information Retrieval Service
  274.        and Protocol: American National Standard, Information Retrieval
  275.        Application Service Definition and Protocol Specification for
  276.        Open Systems Interconnection, 1992.
  277.  
  278.  
  279.  
  280.  
  281.  
  282. IIIR Working Group                                              [Page 5]
  283.  
  284. RFC 1625                 WAIS over Z39.50-1988                 June 1994
  285.  
  286.  
  287.    [3] Z39.50 Version 3: Draft 8", October 1993.  Maintenance Agency
  288.        Reference: Z39.50MA-034.
  289.  
  290.    [4] Lynch, C., "Using the Z39.50 Information Retrieval Protocol
  291.        in the Internet Environment", Work in Progress, November 1993.
  292.  
  293.    [5] "Document Identifiers, or International Standard Book Numbers
  294.        for the Electronic Age", Brewster Kahle, Thinking Machines
  295.        Corporation, see URL=<ftp://wais.com/pub/protocol/doc-ids.txt>,
  296.        September 1991.
  297.  
  298. 7.  Authors' Addresses
  299.  
  300.    Margaret St. Pierre
  301.    WAIS Incorporated
  302.    1040 Noel Drive
  303.    Menlo Park, California  94025
  304.  
  305.    Phone: (415) 327-WAIS
  306.    Fax:   (415) 327-6513
  307.    EMail: saint@wais.com
  308.  
  309.  
  310.    Jim Fullton
  311.    Clearinghouse for Networked Information
  312.    Discovery & Retrieval
  313.    3021 Cornwallis Road
  314.    Research Triangle Park, North Carolina  27709-2889
  315.  
  316.    Phone: (919)-248-9247
  317.    Fax:   (919)-248-1101
  318.    EMail: jim.fullton@cnidr.org
  319.  
  320.  
  321.    Kevin Gamiel
  322.    Clearinghouse for Networked Information
  323.    Discovery & Retrieval
  324.    3021 Cornwallis Road
  325.    Research Triangle Park, North Carolina  27709-2889
  326.  
  327.    Phone: (919)-248-9247
  328.    Fax:   (919)-248-1101
  329.    EMail: kevin.gamiel@cnidr.org
  330.  
  331.  
  332.  
  333.  
  334.  
  335.  
  336.  
  337.  
  338. IIIR Working Group                                              [Page 6]
  339.  
  340. RFC 1625                 WAIS over Z39.50-1988                 June 1994
  341.  
  342.  
  343.    Jonathan Goldman
  344.    Thinking Machines Corporation
  345.    1010 El Camino Real, Suite 310
  346.    Menlo Park, California  94025
  347.  
  348.    Phone: (415) 329-9300 x229
  349.    Fax:   (415) 329-9329
  350.    EMail: jonathan@think.com
  351.  
  352.  
  353.    Brewster Kahle
  354.    WAIS Incorporated
  355.    1040 Noel Drive
  356.    Menlo Park, California  94025
  357.  
  358.    Phone: (415) 327-WAIS
  359.    Fax:   (415) 327-6513
  360.    EMail: brewster@wais.com
  361.  
  362.  
  363.    John A. Kunze
  364.    UC Berkeley
  365.    289 Evans Hall
  366.    Berkeley, California  94720
  367.  
  368.    Phone: (510) 642-1530
  369.    Fax: (510) 643-5385
  370.    EMail: jak@violet.berkeley.edu
  371.  
  372.  
  373.    Harry Morris
  374.    WAIS Incorporated
  375.    1040 Noel Drive
  376.    Menlo Park, California  94025
  377.  
  378.    Phone: (415) 327-WAIS
  379.    Fax:   (415) 327-6513
  380.    EMail: morris@wais.com
  381.  
  382.  
  383.    Francois Schiettecatte
  384.    FS Consulting
  385.    435 Highland Avenue
  386.    Rochester, New York  14620
  387.  
  388.    Phone: (716) 256-2850
  389.    EMail: francois@wais.com
  390.  
  391.  
  392.  
  393.  
  394. IIIR Working Group                                              [Page 7]
  395.  
  396.