home *** CD-ROM | disk | FTP | other *** search
/ Internet Core Protocols / Oreilly-InternetCoreProtocols.iso / RFCs / rfc2651.txt < prev    next >
Encoding:
Text File  |  1999-10-14  |  42.0 KB  |  1,068 lines

  1.  
  2.  
  3.  
  4.  
  5.  
  6.  
  7. Network Working Group                                           J. Allen
  8. Request for Comments: 2651                                WebTV Networks
  9. Category: Standards Track                                    M. Mealling
  10.                                                  Network Solutions, Inc.
  11.                                                              August 1999
  12.  
  13.  
  14.          The Architecture of the Common Indexing Protocol (CIP)
  15.  
  16. Status of this Memo
  17.  
  18.    This document specifies an Internet standards track protocol for the
  19.    Internet community, and requests discussion and suggestions for
  20.    improvements.  Please refer to the current edition of the "Internet
  21.    Official Protocol Standards" (STD 1) for the standardization state
  22.    and status of this protocol.  Distribution of this memo is unlimited.
  23.  
  24. Copyright Notice
  25.  
  26.    Copyright (C) The Internet Society (1999).  All Rights Reserved.
  27.  
  28. Abstract
  29.  
  30.    The Common Indexing Protocol (CIP) is used to pass indexing
  31.    information from server to server in order to facilitate query
  32.    routing. Query routing is the process of redirecting and replicating
  33.    queries through a distributed database system towards servers holding
  34.    the desired results. This document describes the CIP framework,
  35.    including its architecture and the protocol specifics of exchanging
  36.    indices.
  37.  
  38. 1. Introduction
  39.  
  40. 1.1. History and Motivation
  41.  
  42.    The Common Indexing Protocol (CIP) is an evolution and refinement of
  43.    distributed indexing concepts first introduced in the Whois++
  44.    Directory Service [RFC1913, RFC1914]. While indexing proved useful in
  45.    that system to promote query routing, the centroid index object which
  46.    is passed among Whois++ servers is specifically designed for
  47.    template-based databases searchable by token-based matching.  With
  48.    alternative index objects, the index-passing technology will prove
  49.    useful to many more application domains, not simply Directory
  50.    Services and those applications which can be cast into the form of
  51.    template collections.
  52.  
  53.  
  54.  
  55.  
  56.  
  57.  
  58. Allen & Mealling            Standards Track                     [Page 1]
  59.  
  60. RFC 2651                  The CIP Architecture               August 1999
  61.  
  62.  
  63.    The indexing part of Whois++ is integrated with the data access
  64.    protocol. The goal in designing CIP is to extract the indexing
  65.    portion of Whois++, while abstracting the index objects to apply more
  66.    broadly to information retrieval. In addition, another kind of
  67.    technology reuse has been undertaken by converting the ad-hoc data
  68.    representations used by Whois++ into structures based on the MIME
  69.    specification for structured Internet mail.
  70.  
  71.    Whois++ used a version number field in centroid objects to facilitate
  72.    future growth. The initial version was "1". Version 1 of CIP (then
  73.    embedded in Whois++, and not referred to separately as CIP) had
  74.    support for only ISO-8895-1 characters, and for only the centroid
  75.    index object type.
  76.  
  77.    Version 2 of the Whois++ centroid was used in the Digger software by
  78.    Bunyip Information Systems to notify recipients that the centroid
  79.    carried extra character set information. Digger's centroids can carry
  80.    UTF-8 encoded 16-bit Unicode characters, or ISO-8859-1 characters,
  81.    determined by a field in the headers.
  82.  
  83.    This specification is for CIP version 3.  Version 3 is a major
  84.    overhaul to the protocol.  However, by using of a short negotiation
  85.    sequence, CIP version 3 servers can interoperate with earlier servers
  86.    in an index-passing mesh.
  87.  
  88.    For unclear terms the reader is referred to the glossary in Appendix
  89.    A.
  90.  
  91. 1.2 CIP's place in the Information Retrieval world
  92.  
  93.    CIP facilitates query routing. CIP is a protocol used between servers
  94.    in a network to pass hints which make data access by clients at a
  95.    later date more efficient. Query routing is the act of redirecting
  96.    and replicating queries through a distributed database system towards
  97.    the servers holding the actual results via reference to indexing
  98.    information.
  99.  
  100.    CIP is a "backend" protocol -- it is implemented in and "spoken" only
  101.    among network servers. These same servers must also speak some kind
  102.    of data access protocol to communicate with clients. During query
  103.    resolution in the native protocol implementation, the server will
  104.    refer to the indexing information collected by the CIP implementation
  105.    for guidance on how to route the query.
  106.  
  107.    Data access protocols used with CIP must have some provision for
  108.    control information in the form of a referral. The syntax and
  109.    semantics of these referrals are outside the scope of this
  110.    specification.
  111.  
  112.  
  113.  
  114. Allen & Mealling            Standards Track                     [Page 2]
  115.  
  116. RFC 2651                  The CIP Architecture               August 1999
  117.  
  118.  
  119. 2. Related Documents
  120.  
  121.    This document is one of three documents. This document describes the
  122.    fundamental concepts and framework of CIP.
  123.  
  124.    The document "MIME Object Definitions for the Common Indexing
  125.    Protocol" [CIP-MIME] describes the MIME objects that make up the
  126.    items that are passed by the transport system.
  127.  
  128.    Requirements and examples of several transport systems are specified
  129.    in the "CIP Transport Protocols" [CIP-TRANSPORT] document.
  130.  
  131.    A second set of document describe the various specifications for
  132.    specific index types.
  133.  
  134. 3. Architecture
  135.  
  136. 3.1 CIP in the Information Retrieval World
  137.  
  138. 3.1.1 Information Retrieval in the Abstract
  139.  
  140.    In order to better understand how CIP fits into the information
  141.    retrieval world, we need to first understand the unifying abstract
  142.    features of existing information retrieval technology. Next, we
  143.    discuss why adding indexing technology to this model results in a
  144.    system capable of query routing, and why query routing is useful.
  145.  
  146.    An abstract view of the client/server data retrieval process includes
  147.    data sets and data access protocols. An individual server is
  148.    responsible for handling queries over a fixed domain of data. For the
  149.    purposes of CIP, we call this domain of data the dataset. Clients
  150.    make searches in the dataset and retrieve parts of it via a data
  151.    access protocol. There are many data access protocols, each optimized
  152.    for the data in question. For instance, LDAP and Whois++ are access
  153.    protocols that reflect the needs of the directory services
  154.    application domain. Other data access protocols include HTTP and
  155.    Z39.50.
  156.  
  157. 3.1.2 Indexing Information Facilitates Query Routing
  158.  
  159.    The above description reflects a world without indexing, where no
  160.    server knows about any other server. In some cases (as with X.500
  161.    referrals, and HTTP redirects) a server will, as part of its reply,
  162.    implicate another server in the process of resolving the query.
  163.    However, those servers generate replies based solely on their local
  164.    knowledge. When indexing information is introduced into a server's
  165.    local database, the server now knows not only answers based on the
  166.  
  167.  
  168.  
  169.  
  170. Allen & Mealling            Standards Track                     [Page 3]
  171.  
  172. RFC 2651                  The CIP Architecture               August 1999
  173.  
  174.  
  175.    local dataset, but also answers based on external indices. These
  176.    indices come from peer servers, via an indexing protocol. CIP is one
  177.    such indexing protocol.
  178.  
  179.    Replies based on index information may not be the complete answer.
  180.    After all, an index is not a replicated version of the remote
  181.    dataset, but a possibly reduced version of it. Thus, in addition to
  182.    giving complete replies from the local dataset, the server may give
  183.    referrals to other datasets. These referrals are the core feature
  184.    necessary for effective query routing. When servers use CIP to pass
  185.    indices from server to server, they make a kind of investment. At the
  186.    cost of some resources to create, transmit and store the indices,
  187.    query routing becomes possible.
  188.  
  189.    Query Routing is the process of replicating and moving a query closer
  190.    to datasets which can satisfy the query. In some distributed systems,
  191.    widely distributed searches must be accomplished by replicating the
  192.    query to all sub-datasets. This approach can be wasteful of resources
  193.    both in the network, and on the servers, and is thus sometimes
  194.    explicitly disabled. Using indexing in such a system opens the door
  195.    to more efficient distributed searching.
  196.  
  197.    While CIP-equipped servers provide the referrals necessary to make
  198.    query routing work, it is always the client's responsibility to
  199.    collate, filter, and chase the referrals it receives. This gives the
  200.    end-user (or agent, in the case that there's no human user involved
  201.    in the search) greatest control over the query resolution process.
  202.    The cost of the added client complexity is weighed against the
  203.    benefits of total control over query resolution. In some cases, it
  204.    may also be possible to decouple the referral chasing from the client
  205.    by introducing a proxy, allowing existing simple clients to make use
  206.    of query routing. Such a proxy would transparently resolve referrals
  207.    into concrete results before returning them to the simple-minded
  208.    client.
  209.  
  210. 3.1.3 Abstracting the CIP index object
  211.  
  212.    As useful as indices seem, the fact remains that not all queries can
  213.    benefit from the same type of index. For example, say the index
  214.    consists of a simple list of keywords. With such an index, it is
  215.    impossible to answer queries about whether two keywords were near one
  216.    another, or if a keyword was present in a certain context (for
  217.    instance, in the title).
  218.  
  219.    Because of the need for application domain specific indices, CIP
  220.    index objects are abstract; they must be defined by a separate
  221.    specification. The basic protocols for moving index objects are
  222.    widely applicable, but the specific design of the index, and the
  223.  
  224.  
  225.  
  226. Allen & Mealling            Standards Track                     [Page 4]
  227.  
  228. RFC 2651                  The CIP Architecture               August 1999
  229.  
  230.  
  231.    structure of the mesh of servers which pass a particular type of
  232.    index is dependent on the application domain. This document describes
  233.    only the protocols for moving indices among servers. Companion
  234.    documents describe initial index objects.
  235.  
  236.    The requirements that index type specifications must address are
  237.    specified in the [CIP-MIME] document.
  238.  
  239. 3.2 Architectural Details
  240.  
  241.    CIP implements index passing, providing the forward knowledge
  242.    necessary to generate the referrals used for query routing. The core
  243.    of the protocol is the index object. In the following sections, the
  244.    structure of the index objects themselves is presented. Next, how and
  245.    why indices are passed from server to server is discussed. Finally,
  246.    the circumstances under which a server may synthesize an index object
  247.    based on incoming ones are discussed.
  248.  
  249. 3.2.1 The CIP Index Object
  250.  
  251.    A CIP index object is composed of two parts, the header and the
  252.    payload. The header contains metadata necessary to process and make
  253.    use of the index object being transmitted. The actual index resides
  254.    in the payload.
  255.  
  256.    Three particular headers warrant specific mention at this point.  The
  257.    "type" of the index object selects one of many distinct CIP index
  258.    object specifications which define exactly how the index blocks are
  259.    to be created, parsed and used to facilitate query routing.  Another
  260.    header of note is the "DSI", or Dataset Identifier, which uniquely
  261.    identifies the dataset from which the index was created.  Another
  262.    header that is crucial for generating referrals is the "Base-URI".
  263.    The URI (or URI's) contained in this header form the basis of any
  264.    referrals generated based on this index block. The URI is also used
  265.    as input during the index aggregation process to constrain the kinds
  266.    of aggregation possible, due to multiprotocol constraints.  How that
  267.    URI is used is defined by the aggregation algorithm.  The exact
  268.    syntax of these headers is specified in the CIP MIME specification
  269.    document [CIP-MIME].
  270.  
  271.    The payload is opaque to CIP itself. It is defined exclusively by the
  272.    index object specification associated with the object's MIME type.
  273.    Specifications on how to parse and use the payload are published
  274.    separately as "CIP index object specifications". This abstract
  275.    definition of the index object forms the basis of CIP's applicability
  276.    to indexing needs across multiple application domains.
  277.  
  278.  
  279.  
  280.  
  281.  
  282. Allen & Mealling            Standards Track                     [Page 5]
  283.  
  284. RFC 2651                  The CIP Architecture               August 1999
  285.  
  286.  
  287.    A precise definition of the content and form of a CIP index block can
  288.    be found in the Protocol document [CIP-MIME]
  289.  
  290. 3.2.2 Moving Index Objects: How to Build a Mesh
  291.  
  292.    Indices are transmitted among servers participating in a CIP mesh. By
  293.    distributing this information in anticipation of a query, efficient,
  294.    accurate query routing is possible at the time a query arrives.
  295.  
  296.    A CIP mesh is a set of CIP servers which pass indices of the same
  297.    type among themselves. Typically, a mesh is arranged in a
  298.    hierarchical tree fashion, with servers nearer the root of the tree
  299.    having larger and more comprehensive indices. See Figure 1. However,
  300.    a CIP mesh is explicitly allowed to have lateral links in it, and
  301.    there may be more than one part of the mesh that has the properties
  302.    of a "root". Mesh administrators are encouraged to avoid loops in the
  303.    system, but they are not obliged to maintain a strict tree structure.
  304.    Clients wishing to completely resolve all referrals they receive
  305.    should protect against referral loops while attempting to traverse
  306.    the mesh to avoid wasting time and network resources.  See the
  307.    section on "Navigating the Mesh" for a discussion of this.
  308.  
  309.  
  310.  
  311.  
  312.  
  313.  
  314.  
  315.  
  316.  
  317.  
  318.  
  319.  
  320.  
  321.  
  322.  
  323.  
  324.  
  325.  
  326.  
  327.  
  328.  
  329.  
  330.  
  331.  
  332.  
  333.  
  334.  
  335.  
  336.  
  337.  
  338. Allen & Mealling            Standards Track                     [Page 6]
  339.  
  340. RFC 2651                  The CIP Architecture               August 1999
  341.  
  342.  
  343.      base level             index                    index
  344.      directory             servers                  servers
  345.       servers                for                      for
  346.                           base level               lower-level
  347.                            servers                index servers
  348.      _______
  349.     |       |
  350.     |   A   |__
  351.     |_______|  \            _______
  352.                 \---CIP----|       |
  353.      _______               |   D   |__
  354.     |       |   /---CIP----|_______|  \             ------
  355.     |   B   |__/                       \--CIP------|      |
  356.     |_______|                                      |  F   |
  357.                                        /--CIP------|______|
  358.                                       /
  359.      _______                _______  /
  360.     |       |              |       |-
  361.     |   C   |-------CIP----|   E   |
  362.     |_______|              |_______|-
  363.                                 |    \
  364.                                 r     \
  365.      _______                    e      \            ______
  366.     |       |                   f       \--CIP-----|      |
  367.     |   G   |-------CIP---------e------------------|  H   |
  368.     |_______|                   r                  |______|
  369.             \--referral---|     r      --referral-/
  370.  
  371.                           |     a     |
  372.  
  373.                           |     l     |
  374.  
  375.                           \ 3   | 2   | 1
  376.  
  377.                             \--------/
  378.  
  379.                             |        |
  380.  
  381.                             | client |
  382.  
  383.                             |        |
  384.  
  385.                              --------
  386.  
  387.  
  388.              Figure 1: Sample layout of the Index Service mesh
  389.  
  390.  
  391.  
  392.  
  393.  
  394. Allen & Mealling            Standards Track                     [Page 7]
  395.  
  396. RFC 2651                  The CIP Architecture               August 1999
  397.  
  398.  
  399.    All indices passed in a given mesh are assumed, as of this writing,
  400.    to be of the same type (i.e. governed by the same CIP index object
  401.    specification). It may be possible to create gateways between meshes
  402.    carrying different index objects, but at this time that process is
  403.    undefined and declared to be outside the scope of this specification.
  404.  
  405.    In the case where a CIP server receives an index of a type that it
  406.    does not understand it _can_ pass that index forward untouched.  In
  407.    the case where a server implementation decides not to accept unknown
  408.    indices it should return an appropriate error message to the server
  409.    sending the index. This behavior is to allow mesh implementations to
  410.    attempt heterogeneous meshes. As stated above heterogeneous meshes
  411.    are considered to be ill defined and as such should be considered
  412.    dangerous.
  413.  
  414.    Experience suggests that this index passing activity should take
  415.    place among CIP servers as a parallel (and possibly lower-priority)
  416.    job to their primary job of answering queries. Index objects travel
  417.    among CIP servers by protocol exchanges explicitly defined in this
  418.    document, not via the server's native protocol. This distinction is
  419.    important, and bears repeating:
  420.  
  421.       Queries are answered (and referrals are sent) via the native data
  422.       access protocol.
  423.  
  424.       Index objects are transferred via alternative means, as defined by
  425.       this document.
  426.  
  427.    When two servers cooperate to move indexing information, the pair are
  428.    said to be in a "polling relationship". The server that holds the
  429.    data of interest, and generates the index is called the "polled
  430.    server".  The other server, which is the one that collects the
  431.    generated index, is the "polling server".
  432.  
  433.    In a polling relationship, the polled server is responsible for
  434.    notifying the polling server when it has a new index that the polling
  435.    server might be interested in. In response, the polling server may
  436.    immediately pick up the index object, or it may schedule a job to
  437.    pick up a copy of the new index at a more convenient time. But, a
  438.    polling server is not required to wait on the polled server to notify
  439.    it of changes. The polling server can request a new index at any
  440.    time.
  441.  
  442.    Independent of the symmetric polling relationship, there's another
  443.    way that servers can pass indices using CIP. In an "index pushing"
  444.    relationship, a CIP server simply sends the index to a peer whenever
  445.    necessary, and allows the receiver to handle the index object as it
  446.  
  447.  
  448.  
  449.  
  450. Allen & Mealling            Standards Track                     [Page 8]
  451.  
  452. RFC 2651                  The CIP Architecture               August 1999
  453.  
  454.  
  455.    chooses. The receiving server may refuse it, may accept it, then
  456.    silently discard it, may accept only portions of it (by accepting it
  457.    as is, then filtering it), or may accept it without question.
  458.  
  459.    The index pushing relationship is intended for use by dumb leaf nodes
  460.    which simply want to make their index available to the global mesh of
  461.    servers, but have no interest in implementing the complete CIP
  462.    transaction protocol. It lowers the barriers to entry for CIP leaf
  463.    nodes. For more information on participating in a CIP mesh in this
  464.    restricted manner, see the section below on "Protocol Conformance".
  465.    CIP index passing operations take place across a reliable transport
  466.    mechanisms, including both TCP connections, and Internet mail
  467.    messages. The precise mechanisms are described in the Transport
  468.    document [CIP-Transport].
  469.  
  470. 3.2.3 Index Object Synthesis
  471.  
  472.    From the preceding discussion, it should be clear that indexing
  473.    servers read and write index objects as they pass them around the
  474.    mesh. However, a CIP server need not simply pass the in-bound indices
  475.    through as the out-bound ones. While it is always permissible to pass
  476.    an index object through to other servers, a server may choose to
  477.    aggregate two or more of them, thereby reducing redundancy in the
  478.    index, at the cost of longer referral chains.
  479.  
  480.    A basic premise of index passing is that even while collapsing a body
  481.    of data into an index by lossy compression methods, hints useful to
  482.    routing queries will survive in the resulting index. Since the index
  483.    is not a complete copy of the original dataset, it contains less
  484.    information. Index objects can be passed along unchanged, but as more
  485.    and more information collects in the resulting index object,
  486.    redundancy will creep in again, and it may prove useful to apply the
  487.    compression again, by aggregating two or more index objects into one.
  488.  
  489.    This kind of aggregation should be performed without compromising the
  490.    ability to correctly route queries while avoiding excessive numbers
  491.    of missed results. The acceptable likelihood of false negatives must
  492.    be established on a per-application-domain basis, and is controlled
  493.    by the granularity of the index and the aggregation rules defined for
  494.    it by the particular specification.
  495.  
  496.    However, when CIP is used in a multi-protocol application domain,
  497.    such as a Directory Service (with contenders including Whois++, LDAP,
  498.    and Ph), things get significantly trickier. The fundamental problem
  499.    is to avoid forcing a referral chain to pass through part of the mesh
  500.    which does not support the protocol by which that client made the
  501.    query. If this ever happens, the client loses access to any hits
  502.  
  503.  
  504.  
  505.  
  506. Allen & Mealling            Standards Track                     [Page 9]
  507.  
  508. RFC 2651                  The CIP Architecture               August 1999
  509.  
  510.  
  511.    beyond that point in the referral chain, since it cannot resolve the
  512.    referral in its native data access protocol. This is a failure of
  513.    query routing, which should be avoided.
  514.  
  515.    In addition to multi-protocol considerations, server managers may
  516.    choose not to allow index object aggregation for performance reasons.
  517.    As referral chains lengthen, a client needs to perform more
  518.    transactions to resolve a query. As the number of transactions
  519.    increases, so do the user-perceived delays, the system loads, and the
  520.    global bandwidth demands. In general, there's a tradeoff between
  521.    aggressive aggregation (which leads to reductions in the indexing
  522.    overhead) and aggressive referral chain optimization. This tradeoff,
  523.    which is also sensitive to the particular application domain, needs
  524.    to be explored more in actual operational situations.
  525.  
  526.    Conceptually, a CIP index server has several index objects on hand at
  527.    any given time. If it holds data in addition to indexing information,
  528.    the server has an index object formed from its own data, called the
  529.    "local index". It may have one or more indices from remote servers
  530.    which it has collected via the index passing mechanisms. These are
  531.    called "in-bound indices".
  532.  
  533.       Implementor's Note: It may not be necessary to keep all of these
  534.       structures intact and distinct in the local database. It is also
  535.       not required to keep the out-bound index (or indices) built and
  536.       ready to distribute at all times. The previous paragraph merely
  537.       introduces a useful model for expressing the aggregation rules.
  538.       Implementors are free to model index objects internally however
  539.       they see fit.
  540.  
  541.    The following two rules control how a CIP server formulates its
  542.    outgoing indices:
  543.  
  544.    1. An index server may pass any of the index objects in its local
  545.       index and its in-bound indices through unchanged to polling
  546.       servers.
  547.  
  548.    2. If and only if the following three conditions are true, an index
  549.       server can aggregate two or more index objects into a single new
  550.       index object, to be added to the set of out-bound indices.
  551.  
  552.       a. Each index object to be aggregated covers exactly the same set
  553.          of protocols, as defined by the scheme component of the Base-
  554.          URI's in each index object.
  555.  
  556.       b. The index server supports every one of the data access
  557.          protocols represented by the Base-URI's in the index objects to
  558.          be aggregated.
  559.  
  560.  
  561.  
  562. Allen & Mealling            Standards Track                    [Page 10]
  563.  
  564. RFC 2651                  The CIP Architecture               August 1999
  565.  
  566.  
  567.       c. The specification for the index object type specified by the
  568.          type header of the index objects explicitly defines the
  569.          aggregation operation.
  570.  
  571.       The resulting index object must have Base-URI's characteristic of
  572.       the local server for each protocol it supports. The outgoing
  573.       objects should have the DSI of the local server.
  574.  
  575. 4. Navigating the mesh
  576.  
  577.    With the CIP infrastructure in place to manage index objects, the
  578.    only problem remaining is how to successfully use the indexing
  579.    information to do efficient searches. CIP facilitates query routing,
  580.    which is essentially a client activity. A client connects to one
  581.    server, which redirects the query to servers "closer to" the answer.
  582.    This redirection message is called a referral.
  583.  
  584. 4.1 The Referral
  585.  
  586.    The concept of a referral and the mechanism for deciding when they
  587.    should be issued is described by CIP. However, the referral itself
  588.    must be transferred to the client in the native protocol, so its
  589.    syntax is not directly a CIP issue. The mechanism for deciding that a
  590.    referral needs to be made and generating that referral resides in the
  591.    CIP implementation in the server. The mechanism for sending the
  592.    referral to the client resides in the server's native protocol
  593.    implementation.
  594.  
  595.    A referral is made when a search against the index objects held by
  596.    the server shows that there may be hits available in one of the
  597.    datasets represented by those index objects. If more that one index
  598.    object indicates that a referral must be generated to a given
  599.    dataset, the server should generate only one referral to the given
  600.    dataset, as the client may not be able to detect duplicates.
  601.  
  602.    Though the format of the referral is dependent on the native
  603.    protocol(s) of the CIP server, the baseline contents of the referral
  604.    are constant across all protocols. At the least, a DSI and a URI must
  605.    be returned.  The DSI is the DSI associated with the dataset which
  606.    caused the hit.  This must be presented to the client so that it can
  607.    avoid referral loops. The Base-URI parameter which travels along with
  608.    index objects is used to provide the other required part of a
  609.    referral.
  610.  
  611.    The additional information in the Base-URI may be necessary for the
  612.    server receiving the referred query to correctly handle it. A good
  613.    example of this is an LDAP server, which needs a base X.500
  614.    distinguished name from which to search. When an LDAP server sends a
  615.  
  616.  
  617.  
  618. Allen & Mealling            Standards Track                    [Page 11]
  619.  
  620. RFC 2651                  The CIP Architecture               August 1999
  621.  
  622.  
  623.    centroid-format index object up to a CIP indexing server, it sends a
  624.    Base-URI along with the name of the X.500 subtree for which the index
  625.    was made. When a referral is made, the Base-URI is passed back to the
  626.    client so that it can pass it to the original LDAP server.
  627.  
  628.    As usual, in addition to sending the DSI, a DSI-Description header
  629.    can be optionally sent. Because a client may attempt to check with
  630.    the user before chasing the referral, and because this string is the
  631.    friendliest representation of the DSI that CIP has to offer, it
  632.    should be included in referrals when available (i.e. when it was sent
  633.    along with the index object).
  634.  
  635. 4.2 Cross-protocol Mappings
  636.  
  637.    Each data access protocol which uses CIP will need a clearly defined
  638.    set of rules to map queries in the native protocol to searches
  639.    against an index object. These rules will vary according to the data
  640.    domain. In principle, this could create a bit of a scaling
  641.    difficulty; for N protocols and M data domains, there would be N x M
  642.    mappings required. In practice, this should not be the case, since
  643.    some access protocols will be wholly unsuited to some data domains.
  644.    Consider for example, a LDAP server trying to make a search in an
  645.    index object composed from unorganized text based pages. What would
  646.    the results be? How would the client make sense of the results?
  647.  
  648.    However, as pre-existing protocols are connected to CIP, and as new
  649.    ones are developed to work with CIP, this issue must be examined. In
  650.    the case of Whois++ and the CENTROID index type, there is an
  651.    extremely close mapping, since the two were designed together. When
  652.    hooking LDAP to the CENTROID index type, it will be necessary to map
  653.    the attribute names used in the LDAP system to attribute names which
  654.    are already being used in the CENTROID mesh. It will also be
  655.    necessary to tokenize the LDAP queries under the same rules as the
  656.    CENTROID indexing policy, so that searches will take place correctly.
  657.    These application- and protocol-specific actions must be specified in
  658.    the index object specification, as discussed in the [CIP-MIME]
  659.    document.
  660.  
  661. 4.3 Moving through the mesh
  662.  
  663.    From a client's point of view, CIP simply pushes all the "hard work"
  664.    onto its shoulders. After all, it is the client which needs to track
  665.    down the real data.  While this is true, it is very misleading.
  666.    Because the client has control over the query routing process, the
  667.    client has significant control over the size of the result set, the
  668.    speed with which the query progresses, and the depth of the search.
  669.  
  670.  
  671.  
  672.  
  673.  
  674. Allen & Mealling            Standards Track                    [Page 12]
  675.  
  676. RFC 2651                  The CIP Architecture               August 1999
  677.  
  678.  
  679.    The simplest client implementation provides referrals to the user in
  680.    a raw, ready-to-reuse form, without attempting to follow them. For
  681.    instance, one Whois++ client, which interacts with the user via a
  682.    Web-based form, simply makes referrals into HTML hypertext links.
  683.    Encoded in the link via the HTML forms interface GET encoding rules
  684.    is the data of the referral: the hostname, port, and query. If a user
  685.    chooses to follow the referral link, he executes a new search on the
  686.    new host. A more savvy client might present the referrals to the user
  687.    and ask which should be followed. And, assuming appropriate limits
  688.    were placed on search time and bandwidth usage, it might be
  689.    reasonable to program a client to follow all referrals automatically.
  690.  
  691.    When following all referrals, a client must show a bit of
  692.    intelligence.  Remember that the mesh is defined as an interconnected
  693.    graph of CIP servers. This graph may have cycles, which could cause
  694.    an infinite loop of referrals, wasting the servers' time and the
  695.    client's too. When faced with the job of tacking down all referrals,
  696.    a client must use some form of a mesh traversal algorithm. Such an
  697.    algorithm has been documented for use with Whois++ in RFC-1914. The
  698.    same algorithm can be easily used with this version of CIP. In
  699.    Whois++ the equivalent of a DSI is called a handle. With this
  700.    substitution, the Whois++ mesh traversal algorithm works unchanged
  701.    with CIP.
  702.  
  703.    Finally, the mesh entry point (i.e. the first server queried) can
  704.    have an impact on the success of the query. To avoid scaling issues,
  705.    it is not acceptable to use a single "root" node, and force all
  706.    clients to connect to it. Instead, clients should connect to a
  707.    reasonably well connected (with respect to the CIP mesh, not the
  708.    Internet infrastructure) local server. If no match can be made from
  709.    this entry point, the client can expand the search by asking the
  710.    original server who polls it. In general, those servers will have a
  711.    better "vantage point" on the mesh, and will turn up answers that the
  712.    initial search didn't. The mechanism for dynamically determining the
  713.    mesh structure like this exists, but is not documented here for
  714.    brevity. See RFC-1913 for more information on the POLLED-BY and
  715.    POLLED-FOR commands.
  716.  
  717.    It still should be noted that, while these mesh operations are
  718.    important to optimizing the searches that a client should make, the
  719.    client still speaks its native protocol. This information must be
  720.    communicated to the client without causing the client to have to
  721.    understand CIP.
  722.  
  723.  
  724.  
  725.  
  726.  
  727.  
  728.  
  729.  
  730. Allen & Mealling            Standards Track                    [Page 13]
  731.  
  732. RFC 2651                  The CIP Architecture               August 1999
  733.  
  734.  
  735. 5. Security Considerations
  736.  
  737.    In this section, we discuss the security considerations necessary
  738.    when making use of this specification. There are at least three
  739.    levels at which security considerations come into play. Indexing
  740.    information can leak undesirable amounts of proprietary information,
  741.    unless carefully controlled. At a more fundamental level, the CIP
  742.    protocol itself requires external security services to operate in a
  743.    safe manner. Lastly, CIP itself can be used to propogate false
  744.    information.
  745.  
  746. 5.1 Secure Indexing
  747.  
  748.    CIP is designed to index all kinds of data. Some of this data might
  749.    be considered valuable, proprietary, or even highly sensitive by the
  750.    data maintainer. Take, for example, a human resources database.
  751.    Certain bits of data, in moderation, can be very helpful for a
  752.    company to make public. However, the database in its entirety is a
  753.    very valuable asset, which the company must protect. Much experience
  754.    has been gained in the directory service community over the years as
  755.    to how best to walk this fine line between completely revealing the
  756.    database and making useful pieces of it available. There are also
  757.    legal considerations regarding what data can be collected and shared.
  758.  
  759.    Another example where security becomes a problem is for a data
  760.    publisher who'd like to participate in a CIP mesh. The data that
  761.    publisher creates and manages is the prime asset of the company.
  762.    There is a financial incentive to participate in a CIP mesh, since
  763.    exporting indices of the data will make it more likely that people
  764.    will search your database. (Making profit off of the search activity
  765.    is left as an exercise to the entrepreneur.) Once again, the index
  766.    must be designed carefully to protect the database while providing a
  767.    useful synopsis of the data.
  768.  
  769.    One of the basic premises of CIP is that data providers will be
  770.    willing to provide indices of their data to peer indexing servers.
  771.    Unless they are carefully constructed, these indices could constitute
  772.    a threat to the security of the database. Thus, security of the data
  773.    must be a prime consideration when developing a new index object
  774.    type. The risk of reverse engineering a database based only on the
  775.    index exported from it must be kept to a level consistent with the
  776.    value of the data and the need for fine-grained indexing.
  777.  
  778.    Lastly, mesh organizers should be aware that the insertion of false
  779.    data into a mesh can be used as part of an attack. Depending on the
  780.    type of mesh and aggregation algorithms, an index can selectivly
  781.    prune parts of a mesh. Also, since CIP is used to discover
  782.  
  783.  
  784.  
  785.  
  786. Allen & Mealling            Standards Track                    [Page 14]
  787.  
  788. RFC 2651                  The CIP Architecture               August 1999
  789.  
  790.  
  791.    information, it will be the target for the advertisement of false
  792.    information. CIP does not provide a method for trusting the data that
  793.    it contains.
  794.  
  795. Acknowledgments
  796.  
  797.    Thanks to the many helpful members of the FIND working group for
  798.    discussions leading to this specification.
  799.  
  800.    Specific acknowledgment is given to Jeff Allen formerly of Bunyip
  801.    Information Systems. His original version of these documents helped
  802.    enormously in crystallizing the debate and consensus. Most of the
  803.    actual text in this document was originally authored by Jeff.  Jeff
  804.    is no longer involved with the FIND Working Group or with editing
  805.    this document. His authorship is preserved by a specific decision of
  806.    the current editor.
  807.  
  808. Authors' Addresses
  809.  
  810.    Jeff R. Allen
  811.    246 Hawthorne St.
  812.    Palo Alto, CA 94301
  813.  
  814.    EMail: jeff.allen@acm.org
  815.  
  816.  
  817.    Michael Mealling
  818.    Network Solutions, Inc.
  819.    505 Huntmar Park Drive
  820.    Herndon, VA 22070
  821.  
  822.    Phone: (703) 742-0400
  823.    EMail: michael.mealling@RWhois.net
  824.  
  825.  
  826.  
  827.  
  828.  
  829.  
  830.  
  831.  
  832.  
  833.  
  834.  
  835.  
  836.  
  837.  
  838.  
  839.  
  840.  
  841.  
  842. Allen & Mealling            Standards Track                    [Page 15]
  843.  
  844. RFC 2651                  The CIP Architecture               August 1999
  845.  
  846.  
  847. References
  848.  
  849.    [RFC1913]       Weider, C., Fullton, J. and S. Spero, "Architecture
  850.                    of the Whois++Index Service", RFC 1913, February
  851.                    1996.
  852.  
  853.    [RFC1914]       Faltstrom, P., Schoultz, R. and C. Weider, "How to
  854.                    Interact with a Whois++ Mesh", RFC 1914, February
  855.                    1996.
  856.  
  857.    [CIP-MIME]      Allen, J. and  M. Mealling, "MIME Object Definitions
  858.                    for the Common Indexing Protocol (CIP)", RFC 2652,
  859.                    August 1999.
  860.  
  861.    [CIP-TRANSPORT] Allen, J. and  P. Leach, "CIP Transport Protocols",
  862.                    RFC 2653, August 1999.
  863.  
  864.  
  865.  
  866.  
  867.  
  868.  
  869.  
  870.  
  871.  
  872.  
  873.  
  874.  
  875.  
  876.  
  877.  
  878.  
  879.  
  880.  
  881.  
  882.  
  883.  
  884.  
  885.  
  886.  
  887.  
  888.  
  889.  
  890.  
  891.  
  892.  
  893.  
  894.  
  895.  
  896.  
  897.  
  898. Allen & Mealling            Standards Track                    [Page 16]
  899.  
  900. RFC 2651                  The CIP Architecture               August 1999
  901.  
  902.  
  903. Appendix A: Glossary
  904.  
  905.    application domain:  A problem domain to which CIP is applied which
  906.       has indexing requirements which are not subsumed by any existing
  907.       problem domain. Separate application domains require separate
  908.       index object specifications, and potentially separate CIP meshes.
  909.       See index object specification.
  910.  
  911.    centroid:  An index object type used with Whois++. In CIP versions
  912.       before version 3, the index was not extensible, and could only
  913.       take the form of a centroid. A centroid is a list of (template
  914.       name, attribute name, token) tuples with duplicate removed.
  915.  
  916.    dataset:  A collection of data (real or virtual) over which an index
  917.       is created. When a CIP server aggregates two or more indices, the
  918.       resultant index represents the index from a "virtual dataset",
  919.       spanning the previous two datasets.
  920.  
  921.    Dataset Identifier:  An identifier chosen from any part of the
  922.       ISO/CCITT OID space which uniquely identifies a given dataset
  923.       among all datasets indexed by CIP.
  924.  
  925.    DSI:  See Dataset Identifier.
  926.  
  927.    DSI-description:  A human readable string optionally carried along
  928.       with DSI's to make them more user-friendly. See dataset
  929.       Identifier.
  930.  
  931.    index:  A summary or compressed form of a body of data. Examples
  932.       include a unique list of words, a codified full text analysis, a
  933.       set of keywords, etc.
  934.  
  935.    index object:  The embodiment of the indices passed by CIP. An index
  936.       object consists of some control attributes and an opaque payload.
  937.  
  938.    index object specification:  A document describing an index object
  939.       type for use with the CIP system described in this document. See
  940.       index object and payload.
  941.  
  942.    index pushing:  The act of presenting, unsolicited, an index to a
  943.       peer CIP server.
  944.  
  945.    MIME:  see Multipurpose Internet Mail Extensions
  946.  
  947.  
  948.  
  949.  
  950.  
  951.  
  952.  
  953.  
  954. Allen & Mealling            Standards Track                    [Page 17]
  955.  
  956. RFC 2651                  The CIP Architecture               August 1999
  957.  
  958.  
  959.    Multipurpose Internet Mail Extensions:  A set of rules for encoding
  960.       Internet Mail messages that gives them richer structure. CIP uses
  961.       MIME rules to simplify object encoding issues. MIME is specified
  962.       in RFC-1521 and RFC-1522.
  963.  
  964.    payload:  The application domain specific indexing information stored
  965.       inside an index object. The format of the payload is specified
  966.       externally to this document, and depends on the type of the
  967.       containing index object.
  968.  
  969.    polled server:  A CIP server which receives a request to generate and
  970.       pass an index to a peer server.
  971.  
  972.    polling server:  A CIP server which generates a request to a peer
  973.       server for its index.
  974.  
  975.    referral chain:  The set of referrals generated by the process of
  976.       routing a query. See query routing.
  977.  
  978.    query routing:  Based on reference to indexing information,
  979.       redirecting and replicating queries through a distributed database
  980.       system towards the servers holding the actual results.
  981.  
  982.  
  983.  
  984.  
  985.  
  986.  
  987.  
  988.  
  989.  
  990.  
  991.  
  992.  
  993.  
  994.  
  995.  
  996.  
  997.  
  998.  
  999.  
  1000.  
  1001.  
  1002.  
  1003.  
  1004.  
  1005.  
  1006.  
  1007.  
  1008.  
  1009.  
  1010. Allen & Mealling            Standards Track                    [Page 18]
  1011.  
  1012. RFC 2651                  The CIP Architecture               August 1999
  1013.  
  1014.  
  1015. 6.  Full Copyright Statement
  1016.  
  1017.    Copyright (C) The Internet Society (1999).  All Rights Reserved.
  1018.  
  1019.    This document and translations of it may be copied and furnished to
  1020.    others, and derivative works that comment on or otherwise explain it
  1021.    or assist in its implementation may be prepared, copied, published
  1022.    and distributed, in whole or in part, without restriction of any
  1023.    kind, provided that the above copyright notice and this paragraph are
  1024.    included on all such copies and derivative works.  However, this
  1025.    document itself may not be modified in any way, such as by removing
  1026.    the copyright notice or references to the Internet Society or other
  1027.    Internet organizations, except as needed for the purpose of
  1028.    developing Internet standards in which case the procedures for
  1029.    copyrights defined in the Internet Standards process must be
  1030.    followed, or as required to translate it into languages other than
  1031.    English.
  1032.  
  1033.    The limited permissions granted above are perpetual and will not be
  1034.    revoked by the Internet Society or its successors or assigns.
  1035.  
  1036.    This document and the information contained herein is provided on an
  1037.    "AS IS" basis and THE INTERNET SOCIETY AND THE INTERNET ENGINEERING
  1038.    TASK FORCE DISCLAIMS ALL WARRANTIES, EXPRESS OR IMPLIED, INCLUDING
  1039.    BUT NOT LIMITED TO ANY WARRANTY THAT THE USE OF THE INFORMATION
  1040.    HEREIN WILL NOT INFRINGE ANY RIGHTS OR ANY IMPLIED WARRANTIES OF
  1041.    MERCHANTABILITY OR FITNESS FOR A PARTICULAR PURPOSE.
  1042.  
  1043. Acknowledgement
  1044.  
  1045.    Funding for the RFC Editor function is currently provided by the
  1046.    Internet Society.
  1047.  
  1048.  
  1049.  
  1050.  
  1051.  
  1052.  
  1053.  
  1054.  
  1055.  
  1056.  
  1057.  
  1058.  
  1059.  
  1060.  
  1061.  
  1062.  
  1063.  
  1064.  
  1065.  
  1066. Allen & Mealling            Standards Track                    [Page 19]
  1067.  
  1068.