home *** CD-ROM | disk | FTP | other *** search
/ Education Sampler 1992 [NeXTSTEP] / Education_1992_Sampler.iso / Programming / Source / WAIS / doc / doc-ids.txt < prev    next >
Encoding:
Text File  |  1992-02-02  |  10.3 KB  |  227 lines

  1.  
  2.  
  3.                 Document Identifiers
  4.                     or
  5.     International Standard Book Numbers for the Electronic Age
  6.  
  7.  
  8.                   Brewster Kahle
  9.                  Thinking Machines
  10.                   5/9/90
  11.  
  12.  
  13. A document identifier, if implemented well, will allow a user to know if
  14. she has two references to the same document and provide an address to aid
  15. in retrieval.  This brief paper will suggest and implementation of Document
  16. IDs (Doc-ID) for electronic publications that can be used with the Z39.50
  17. standard.  Further this paper will try to list a set of likely scenarios
  18. that will show how these IDs can be used.  I would like this paper to be a
  19. starting point for discussion; I do not know the history of attempts on
  20. this, but would like to find a workable short-term solution to start the
  21. ball rolling.
  22.  
  23. The simplest use of a Doc-ID is to receive it from a server as a response
  24. to a search, and then retrieve the document by passing it back to the
  25. server. 
  26.  
  27. The rough goals of the implementation of the Doc-ID structure are to
  28. be:
  29.   1) easy to create unique IDs for documents (without a central authority),
  30.   2) possible to retrieve the document using the ID (serve as an address),
  31.   3) allow users of the IDs to know the copyright intent of the publisher,
  32.   4) and be terse.
  33.  
  34. The design I will suggest in this paper has a long form and a short form.
  35. I will describe the long form first and the show how it can be shortened.
  36.  
  37. There are several fields to a Doc-ID, each an arbitrary length string
  38. except the last field:
  39.     Original-server
  40.     Original-database
  41.     Original-local-ID
  42.     Distributor-server        ;;optional
  43.     Distributor-database        ;;optional
  44.     Distributor-local-ID        ;;optional
  45.     Copyright-disposition
  46.  
  47. Roughly, the "original" server/db/local-id triple is the original publisher
  48. of the document.  This can be used to figure out if two documents are
  49. identical even if they have been retrieved through different distributors.
  50. The distributor server/db/local-id triple is a legitimate distributor of
  51. the document so that the original source does not have to be queried each
  52. time a user wants the document.  The copyright-disposition field has one of
  53. three values: copy-without-restriction, all-rights-reserved, and
  54. distribution-restrictions-apply.  More details are below.
  55.  
  56. When the original server gives out a Doc-ID it does not have to supply a
  57. distributor triple since it would be redundant with the origin triple.  In
  58. fact, the original server only has to give out the local-id and the
  59. copyright-disposition since the server and the database is known to the
  60. client.  Short form from the original server is:
  61.     Original-local-id and 
  62.     Copyright-disposition.
  63. The short form from a distributor is:
  64.     Original-server,
  65.     Original-database,
  66.     Original-local-ID,
  67.     Distributor-local-ID, and
  68.     Copyright-disposition.
  69. The client will fill in the rest of the origin slot<s as needed.
  70.  
  71. A Doc-ID will often be sent in a shortened form, but even if it isn't it
  72. should be many fewer than 100 characters long.  
  73.  
  74.  
  75. SERVER
  76.  
  77. The Original-server and Distributor-server are unique identifiers for the
  78. servers.  The suggested way to make it a unique identifier is to use a name
  79. (or an address) of the server machine on a network.  In other words,
  80. if a machine used its IP address, then it is guaranteed to be unique since
  81. Internet addresses are maintained by an organization for this purpose.
  82. Similarly, the server's phone number would also be unique.
  83.  
  84. Further, in many circumstances, this address can be used to direct
  85. retrieval requests.  Thus, the Doc-ID would serve as an address of the
  86. document.  This would be true if the origin (or client) were on the network
  87. that the address is valid for.  If the origin were not, then other contact
  88. addresses can be retrieved from a directory of servers by using the address
  89. as the name.
  90.  
  91. A server, in its directory description, can specify its server name
  92. explicitly; or it can default to its Internet address if any, then phone
  93. number (including country code) if any, then X.25 address if any, in that
  94. order.  In practice, there will be some limit on the length of the address,
  95. but each implementation should obey some minimum (80? 255?).
  96.  
  97. Even in the case of redistribution, is it not legitimate to change the
  98. original-server/db/local-id field.  Similarly, the copyright-disposition
  99. should not be changed.  Changing these fields amounts to claiming ownership
  100. and may be legally wrong.
  101.  
  102.  
  103. DATABASE
  104.  
  105. The original-database and distributor-database are copies of the field used
  106. in a Z39.50 request.  These fields are specific to the server.  An example
  107. database is "DowQuest" to the DowJones server.  Lists of available
  108. databases within a server is presumably available through the explain
  109. service offered by Z39.50.
  110.  
  111.  
  112. LOCAL-ID
  113.  
  114. The original-local-id and the distributor-local-id are unique identifiers
  115. within that database.  Some databases may name them in a human readable
  116. way, such as "NYTimes 3/14/89 #34", or as just a number.  A database on the
  117. server should be able to take a local-id and know what document it refers
  118. to.  Of course, it is possible for the original document to be deleted in
  119. which case, the user will get an error, but real publishers generally try
  120. to keep back copies of old periodicals.
  121.  
  122. ***Do we need versions, and what would they do if we had them***
  123.  
  124.  
  125. COPYRIGHT-DISPOSITION
  126.  
  127. Copyright-disposition is an 8 bit field that has only 3 values defined.
  128. This field is the least thought through; I don't understand the legal
  129. implications to say if this will hold up in court.  This definition is
  130. trying to satisfy a number of known scenarios.
  131.     Value:         Meaning:
  132.     0        copy-without-restriction
  133.     1        all-rights-reserved
  134.     2        distribution-restrictions-apply 
  135.  
  136. This field is set by the original-server and should never be changed.
  137. Question: should we have another value for your-eyes-only which means to
  138. not even redistribute the Doc-ID?  The assumption is that
  139. Doc-IDs are free to be given out; access restrictions are done when
  140. retrieving the document's contents.
  141.  
  142. Copy-without-restriction means that the document may be reproduced in part
  143. or in entirety without contacting the original server.  This does not mean
  144. that the material is not copyrighted.  The text of the document should
  145. contain copyright information in it.  A user that retrieved such a document
  146. could serve it on a local system if she wanted to.  
  147.  
  148. All-rights-reserved means that the document should not be given out to
  149. other users (though the Doc-ID, and maybe some other overview
  150. information like a headline, can be).  The distributor should be contacted
  151. to get a copy.  If no distributor is specified, then the original-server
  152. should be contacted.
  153.  
  154. Distribution-restrictions-apply is a general case to cover unknown future
  155. situations.  The meaning of this value is dependent on the server and
  156. database.  Therefore a publisher could define it to mean that you can
  157. distribute the document within your site, but not externally.  This
  158. negotiation of the meaning is not handled within this protocol, rather it
  159. is defined in the description of the server or some other way.  DowVision,
  160. for instance, will probably have this value on its documents since it can
  161. be distributed within the site from one machine.  Thus DowVision might send
  162. its documents to that select machine with this bit set, but with the
  163. distributor field empty.  Then the select machine would fill the distributor
  164. field but not change the copyright-disposition field (it is not legitimate to
  165. change that field in any circumstances).
  166.  
  167.  
  168. LIKELY SCENARIOS USING DOCUMENT IDs
  169.  
  170. If a client asks a question of a netnews (or some other
  171. unrestricted-access) server the response would come back with the
  172. Original-local-id and copyright-disposition set to
  173. copy-without-restriction.  If the client redistributed this document, then
  174. that machine would fill in the original-server and original-database field
  175. with the correct values.  Also it would generate a distributor-local-id for
  176. the document sometime before it is sent out to a requesting machine.  It is
  177. optional for this machine to fill in the distributor-server and
  178. distributor-database since the requesting machine can fill in these fields.
  179.  
  180. If a client wants to save enough information about the document to look at
  181. it again, then the client would want to save the full Doc-ID (with the
  182. server fields filled in if they are not already) and other information that
  183. might be provided.  The WAIS extensions propose a headline, the best
  184. segment, and the score.
  185.  
  186. If a major publisher is shipping some documents to a redistibutor, then it
  187. would fill in the original-local-id field and the copyright-disposition
  188. fields.  The redistributor would then fill in the original-server and
  189. original-database fields (if needed) and the distributor-local-id field
  190. before redistributing it.  This would guarantee that the distributor was
  191. asked for copies of the document rather than the original server.  If the
  192. copyright-disposition is set to all-rights-reserved or
  193. distribution-restrictions-apply, then no other machines will overwrite the
  194. distributor fields.  If the copyright-disposition is set to
  195. copy-without-restriction, then other machines could overwrite the
  196. distributor field.  A redistributor is not free to change the
  197. copyright-disposition to make it the sole redistributor since the
  198. copyright-disposition is a property that is assigned by the
  199. original-server.
  200.  
  201. If a server created a document specifically for a client (on the fly, say),
  202. then a local-id will only be valid for a short amount of time.  There is no
  203. way, in this scheme, to specify when this ID will turn invalid.  This is a
  204. restriction, but should not impede most uses.
  205.  
  206. Other information about a document might be included in a response from a
  207. server such as the headline, the score (how appropriate the server thought
  208. the document answered the question), and the best segment of the document.
  209. These fields are not included in the Doc-ID.  This is somewhat of an
  210. arbitrary decision, but terseness argues for the minimum in the Doc-ID.
  211. The original field and the copyright fields appear useful even if the
  212. headline is not available.
  213.  
  214.  
  215. PROBLEMS:
  216.  
  217. A useful address for many servers is a telenet or tymnet address.  Since
  218. the phone numbers vary in local areas, this does not make sense.  Should we
  219. invent a syntax such as "dow@telenet.pdn" and the client machine uses a local
  220. telenet number to get in and then knows to type "c dow"?
  221.  
  222. Should the original and distributor fields be an ascii string?  This will
  223. make some implementations easier, but it might make other languages
  224. difficult to support.  Are there international issues in dealing with this
  225. problem?
  226.  
  227.