home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / std / internat / 1057 < prev    next >
Encoding:
Internet Message Format  |  1993-01-06  |  4.0 KB

  1. Path: sparky!uunet!zaphod.mps.ohio-state.edu!rpi!bu.edu!att!mcdchg!mcdphx!udc!preece
  2. From: preece@urbana.mcd.mot.com (Scott E. Preece)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Language tagging
  5. Message-ID: <PREECE.93Jan6092809@predator.urbana.mcd.mot.com>
  6. Date: 6 Jan 93 15:28:16 GMT
  7. References: <1993Jan3.203017.232@enea.se> <2609@titccy.cc.titech.ac.jp>
  8.     <1iav6tINNee2@life.ai.mit.edu> <1iddeeINN58g@rodan.UU.NET>
  9. Sender: news@urbana.mcd.mot.com (News)
  10. Distribution: comp
  11. Organization: Motorola MCG, Urbana Design Center
  12. Lines: 70
  13. In-Reply-To: avg@rodan.UU.NET's message of 6 Jan 93 01:42:38 GMT
  14. Nntp-Posting-Host: predator.urbana.mcd.mot.com
  15.  
  16. I don't want to get into this too deeply, because I don't feel I really
  17. understand the issues about Unicode and 10646, but I would like to
  18. respond to one particular point in Vadim's presentation.
  19.  
  20.  
  21. In article <1iddeeINN58g@rodan.UU.NET> avg@rodan.UU.NET (Vadim Antonov) writes:
  22. |...
  23. |   Now, i think everybody agrees that the "ultimate encoding" is
  24. |   the one which provides the complete information about which
  25. |   language is used -- it sovles all the problems.
  26. |
  27. |   Such an encoding can be implemented with:
  28. |
  29. |   1) register switching with (say) escape sequences.
  30. |      This is highly impractical; moreover it is impossible
  31. |      to determine the language if the information is available
  32. |      from some point in the middle of file -- this situation
  33. |      is especially troubling with Unix file pointer sharing.
  34. |
  35. |   2) every character code is a pair (language-code, letter-number-in-alphabet)
  36. |      It is hardly practical because of the storage considerations.
  37. |      Codifying languages require at least 10-12 bits, ie. every
  38. |      letter turns into at least 3-byte sequence.
  39. ---
  40. There is an important additional approach:
  41.  
  42.     Text is represented as a sequence of text objects, each of which
  43.     has its own locale and cultural tagging.
  44.  
  45. Much of the arguing in this string is based on the broken notion that
  46. the important notion is "a file" and that a file is "a string of characters"
  47. which may be entered at any point.
  48.  
  49. Someone appears to have heard the phrase "mechanism, not policy" and
  50. decided that it means *nobody* should have policy.  That's stupid.
  51. Any interesting application (or family of cooperating applications) is
  52. going overlay more complex semantics on its basic entities than "a
  53. string of characters".  The real problem is that everyone is so
  54. concerned with maintaining the notion that a file is a string of
  55. characters (which is a perfectly good model for the underlying operating
  56. system) that no common policy has emerged for representing attributed
  57. text *on top of that simple model*.
  58.  
  59. Any piece of text must have significant context associated with it if we
  60. are to process it automatically (for indexing or display or retrieval or
  61. whatever).  The "right" way to sort a list of text entries depends on
  62. the containing context.  A list of German words may sort differently in
  63. an English context than in a German context; moreover, in an English
  64. context a list of German words may sort differently than a list of
  65. lexically identical English words.  This says, to me, that it is
  66. critically important that a useful text processing system be able to
  67. mark a section of text as being a German word and that it be able to
  68. mark a section of text as following AACR2 sorting rules.
  69.  
  70. What we need is a common model for text representation that has more
  71. structure than "a string of characters".  Then we could all build
  72. applications that used the interfaces defined by that model and they
  73. could all work together.  I think the object-oriented model fits this
  74. quite naturally and potentially handles a lot of the problems mentioned
  75. (a text object might provide, for instance, an ordering method which
  76. accepted two text objects as arguments and returned an indication of
  77. their ordering specific to its language and context).
  78.  
  79. scott
  80.  
  81. --
  82. scott preece
  83. motorola/mcg urbana design center    1101 e. university, urbana, il   61801
  84. uucp:    uunet!uiucuxc!udc!preece,     arpa:    preece@urbana.mcd.mot.com
  85. phone:    217-384-8589              fax:    217-384-8550
  86.