home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / text / sgml / 1267 < prev    next >
Encoding:
Internet Message Format  |  1993-01-07  |  5.4 KB

  1. Path: sparky!uunet!ralvm13.VNET.IBM.COM
  2. From: drmacro@ralvm13.VNET.IBM.COM
  3. Message-ID: <19930107.090654.710@almaden.ibm.com>
  4. Date: Thu, 7 Jan 93 12:05:39 EST
  5. Newsgroups: comp.text.sgml
  6. Subject: Re: SGML for data querying
  7. Disclaimer: This posting represents the poster's views, not those of IBM
  8. News-Software: UReply 3.1
  9. References: <19930106.155234.608@almaden.ibm.com> <1993Jan7.021616.11906@nuscc.nus.sg>
  10.             <1993Jan7.142852.23671@infodev.cam.ac.uk>
  11. Lines: 85
  12.  
  13. In <1993Jan7.142852.23671@infodev.cam.ac.uk> Alasdair Grant writes:
  14.  
  15. >But support for queries of the form "move to previous <item> element"
  16. >would be difficult to support without storing the entire database in
  17. >fully parsed form.  Then you're not really talking about SGML at
  18. >all, you're talking about a hierarchical database, object-oriented even,
  19. >with facilities for SGML import and export.
  20.  
  21. But it's not that simple.  If you define "SGML import and export" as
  22. being able to import a document and then immediately export, byte for
  23. byte, the original document, then what you are storing in your
  24. database is SGML, even if the internal representation is proprietary.
  25. Thus you must support SGML features like entity references, SDATA,
  26. NDATA, etc., etc.  This support can be added to hierarchical,
  27. object-oriented databases, but just because the storage is implemented
  28. that way makes it no less "SGML".  The key is the logical constructs
  29. and functions that are defined and required by SGML, not the way
  30. the data is stored and accessed.  A typical example of such a system
  31. is OpenText's PAT database coupled with SGML/Search.  PAT is a structured
  32. text database and SGML/Search adds true SGML parsing and querying on
  33. top of it.  The fact that PAT does some magical thing to store the
  34. data makes the data it stores no less SGML because SGML/Search
  35. provides an SGML-compliant and knowledgeable interface to the data.
  36. A system that used SGML/Search to access the SGML data could still
  37. be a conforming SGML system.
  38.  
  39. You're right that providing a function that lets you retrieve data
  40. requires implementing random access into the SGML document and that
  41. the most efficient way to do that is probably to read in the entire
  42. thing and index it for subsequent fast retrieval, but that's not a
  43. hard requirement.   I could just as easily use the source as my
  44. data structure and simply re-parse it for each new query.  It may not
  45. be a good implementation choice, but it works just fine.
  46. Also, there will always be cases where part of the document (or
  47. referenced subdocuments) cannot be parsed until actually queried
  48. for or linked to, so there has to be a facility to dynamically query
  49. and access unpreprocessed SGML data.  This will especially be the case
  50. in dynamic, online presentation and retrieval systems working
  51. against heterogenous databases of SGML and non-SGML information.
  52.  
  53. >In fact thinking of this as SGML could raise many problems, for example
  54. >forcing users to make distinctions between element-attributes and element
  55. >data, and forcing them to know about ordering even when (to the data) it
  56. >might not be significant.  To me, choosing whether to store data in
  57. >content or attributes is one of the real hassles of DTD design.
  58.  
  59. I'm not sure that this is really a problem.   The decision of what to
  60. make content and what to make attributes is made by the application
  61. designer who designs a given element set.  If they've done a good job
  62. they will presumably have logical reasons for what is attributes and
  63. what is data, logic that is consistent, predictable, and documented.
  64. Also, one can reasonably assume that applications of significant
  65. complexity will have tools built for them (e.g., editors, etc.) that
  66. hide the details of the SGML markup in any case, only exposing the
  67. logical constructs (e.g., present input panels to capture data
  68. rather than directly typing tags).  Online query systems can either
  69. remove the need to know the underlying element structure or
  70. provide interfaces for learning the structure as you need it.  EBT's
  71. Dynatext does both of these things, providing accessible tools for
  72. readers to make use of the SGML structure of the document without the
  73. need to know before hand the structure of the markup.  With Dynatext,
  74. it is not even necessary for readers to know it's SGML underneath
  75. because authors can create "canned" queries that readers simply
  76. use.  This lets authors use their, presumably, detailed knowledge
  77. of the documents they create to define optimized, SGML-based searches
  78. that their readers can use directly.  In other words, authors can
  79. use their specialized knowledge to optimize retrieval for readers,
  80. in much the same way they use their specialized knowledge to create
  81. indexes, cross references, and other print retrieval aids today.
  82.  
  83. >                                                                 Surely
  84. >the way to go is define a common view of object-oriented databases, and
  85. >then settle on a way in which these can be imported and exported as SGML.
  86.  
  87. But doesn't SGML define this common view, at least for text data?  The
  88. problem is not to define a common view of object-oriented text
  89. information, but to define the most effective way to express and
  90. support SGML with generic database technology *coupled with* SGML
  91. technology (e.g., parsers and SGML-knowledgeable retrieval systems).
  92.  
  93. Eliot Kimber                      Internet:  drmacro@ralvm13.vnet.ibm.com
  94. Dept E14/B500                     IBMMAIL:   USIB2DK9@IBMMAIL
  95. Network Programs Information Development     Phone: 1-919-543-7091
  96. IBM Corporation
  97. Research Triangle Park, NC 27709
  98.