home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / text / sgml / 1279 < prev    next >
Encoding:
Text File  |  1993-01-10  |  5.5 KB  |  100 lines

  1. Newsgroups: comp.text.sgml
  2. Path: sparky!uunet!mcsun!sunic!aun.uninett.no!nuug!ifi.uio.no!enag
  3. From: Erik Naggum <SGML@ifi.uio.no>
  4. Message-ID: <19930111.002@erik.naggum.no>
  5. Date: 11 Jan 1993 02:49:54 +0100
  6. Subject: Normalization -- a software problem?
  7. Lines: 91
  8.  
  9. During the discussion about data bases and data querying, it looks like
  10. it's been taken for granted that an SGML document must be "normalized" to
  11. be used by an application, such as one feeding a data base.
  12.  
  13. I don't understand this.  Maybe I need to have my view of SGML processing
  14. shaken, but I've always thought that you want to read and process an SGML
  15. document only with an SGML parser because whatever you use to process it
  16. will have to be an SGML parser if it is to do things right.
  17.  
  18. To illustrate: in the very beginning of my contact with SGML, I tried
  19. writing my own "office document application" which was supposed to use
  20. SGML, but of course it only understood a very limited input language,
  21. syntactically SGML-like, but semantically far from SGML, and I've seen and
  22. heard about lots of software that makes basically the same mistake I did.
  23. I assume that the intention with a "normalized" SGML document is to make it
  24. easier for this kind of half-hearted efforts to work with SGML documents.
  25.  
  26. If I'm right, then we have a problem.  SGML has very powerful abstraction
  27. mechanisms that programmers want to access.  SGML is also a notation to
  28. make those abstractions representable in character strings (or files).
  29. When you want to access the abstract level, the element structure, you can
  30. only get at it if you parse the character string, and most programmers are
  31. not likely to want to do this, as it implies a lot of tedium, and some very
  32. intricate details that are hard to get right without imposing application-
  33. specific conventions that only serve to make lifer harder for both users
  34. and programmers, not to mention the documents that have to live with them.
  35.  
  36. The solution to the problem is to put a powerful SGML parser between the
  37. input file and the application.  This sounds obvious, and it is.  The next
  38. problem is that people don't do this, and that they have good reasons for
  39. not doing it: it's not lack of availability of SGML software, but lack of
  40. availability of libraries with a well-defined, clean interface that allows
  41. the program to open any number of parsing instances on any number of
  42. entities (files or character strings) in parallel, access and navigate
  43. through the element structure, and dealing with both the character string
  44. representation and the element structure at the same time.  I'm talking
  45. about the utilities that are all over the place to help us work with text.
  46.  
  47. Where's the "grep" for SGML documents?  Where's the regular expression
  48. matching routines that are aware of the position of a match in the element
  49. structure?  Where's the concrete syntax converters?  Where's the software
  50. to provide us with abstraction from the character set mess out there?
  51.  
  52. My question boils down to this: If we'd had all or some of these utilities,
  53. a good library-type parser that would allow us to read and write SGML
  54. documents, while the programs saw the element structure, etc, why would
  55. anyone need normalization to make life "easier" for application programs?
  56. And would they gripe about short references, data tags, minimization, etc?
  57.  
  58. The way I see it, a conceptually clean layering between the character
  59. string representation and the element structure needs to be established.  I
  60. see some very good arguments about SGML documents on the basis of the
  61. element structure, but they seem to have problems with separating it from
  62. the character string representation, and the attendant features of SGML.
  63. I'm not competent to discuss many of the suggestions I've seen, but I'm
  64. alarmed at the preoccupation with the character string representation, with
  65. comments and tag minimization, etc.
  66.  
  67. Admittedly, I haven't seen a lot of SGML software, but those that I've seen
  68. and heard of have one thing in common: they want to run the show and do
  69. everything themselves.  I, on the other hand, want components from which I
  70. can build applications where the SGML parser is a transparent part of the
  71. I/O subsystem, and the entity manager takes care of all my file system
  72. access needs.  Maybe this exists, but I'm unhappy with the focus on the
  73. user's view, with SGML sensitive editors and more or less support for SGML
  74. at various levels.
  75.  
  76. It seems to me from my point of view that we have a long way to go, and
  77. it's not a matter of technology, but of approach and design philosophy.
  78. Not that this is unique to the SGML community, of course; it's the rampant
  79. user-only orientation and the trend towards a primacy of visual results
  80. that I'd like to see reversed so people could get complicated information
  81. processing tasks done.
  82.  
  83. Maybe I've seen too little of the market and of what people do with SGML,
  84. and I have reason to believe that what I've seen may not be completely
  85. representative, but for most of the "information technology" industry, it's
  86. a sorry sight.  Don't get me wrong: I appreciate better visual results, but
  87. not at the expense of software technology making a 10-year leap backwards
  88. with respect to the things that we want to _do_ with the information.
  89.  
  90. To sum it up: do people need normalization because they only have SGML
  91. parsers tied up in programs that won't let them use components of it?
  92.  
  93. Best regards,
  94. </Erik>
  95. --
  96. Erik Naggum                 ISO  8879 SGML                    +47 295 0313
  97. Oslo, Norway                ISO 10744 HyTime
  98. <erik@naggum.no>            ISO  9899 C                 Memento, terrigena
  99. <SGML@ifi.uio.no>           ISO 10646 UCS             Memento, vita brevis
  100.