home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / std / internat / 1125 < prev    next >
Encoding:
Text File  |  1993-01-09  |  6.0 KB  |  111 lines

  1. Newsgroups: comp.std.internat
  2. Path: sparky!uunet!gatech!usenet.ins.cwru.edu!agate!dog.ee.lbl.gov!hellgate.utah.edu!fcom.cc.utah.edu!cs.weber.edu!terry
  3. From: terry@cs.weber.edu (A Wizard of Earth C)
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Message-ID: <1993Jan10.000115.28150@fcom.cc.utah.edu>
  6. Keywords: Unicode ISO10646 CharacterEncoding
  7. Sender: news@fcom.cc.utah.edu
  8. Organization: Weber State University  (Ogden, UT)
  9. References: <1993Jan8.092754.6344@prl.dec.com> <1993Jan9.024546.26934@fcom.cc.utah.edu> <1in2c8INNmbj@life.ai.mit.edu>
  10. Date: Sun, 10 Jan 93 00:01:15 GMT
  11. Lines: 98
  12.  
  13. In article <1in2c8INNmbj@life.ai.mit.edu> glenn@wheat-chex.ai.mit.edu (Glenn A. Adams) writes:
  14. >In article <1993Jan9.024546.26934@fcom.cc.utah.edu> you write:
  15. >>[ First a clarification of something which is my fault because of my
  16. >>  background in comm software:  I have been informed that the currently
  17. >>  "blessed" correct terminlogy for what I have been calling "Runic
  18. >>  encoding" is "Process code", "File code", or "Interchange code".  I'll
  19. >>  try to call it "Interchange code" from now on (I feel the other terms
  20. >>  imply applications, some of which I disagree with). ]
  21. >
  22. >I should have been more clear.  A "process code" is a fixed-width encoding
  23. >suitable for internal processing, e.g., ASCII, Unicode, 10646 UCS2, and
  24. >10646 UCS4, EUC wide char; a "file code" or "interchange code" is a
  25. >potentially variable length encoding suitable for file storage (non memory
  26. >mapped environments) or interchange, e.g., UTF1 and UTF2 (FSS-UTF),
  27. >Shift JIS, EUC Multibyte.
  28. >
  29. >[My objection to your use of the word "rune" was (1) you weren't clear
  30. >about which of these encodings you were referring to, and (2) I hate
  31. >cute terminology which is opaque when perfectly transparent terminology
  32. >already exists.]
  33. >
  34. >One should not in general use an interchange code (UTF1 or UTF2) for
  35. >processing.  While one may use a process code for interchange, some
  36. >communication channels may have difficulties with data transparency
  37. >(e.g., Unicode and 10646 UCS[24] allow NULL bytes and ISO2022 C0/C1 control
  38. >code bytes in any byte position of their "process codes").
  39.  
  40. I agree; however, given my objections to UTF, the only potential use for
  41. it in my book would be interchange of data between systems, and in
  42. particular, with Plan 9 systems, which are already committed to UTF for
  43. storage, interchange, and processing.
  44.  
  45. In my opinion, UTF and other species of what I have been calling "Runic
  46. encoding" are inappropriate for storage of non per-language attributable
  47. data.  They could be useful in 10646 in the future, or in Vadim or Ohta's
  48. suggested "super character set", but there are other mechanisms required
  49. for language attribution in Unicode and 10646 as it currently sits.  This
  50. *must* be in-band for multilingual Unicode documents if we are to overcome
  51. the (I believe reasonable) objection to the lack of information for display
  52. localization.  For monolingual Unicode documents, or a restricted
  53. localization environment (such as one would need to limit the font data
  54. downloaded to an X server), attributing the data in-band is possible,
  55. but attributing it out-of-band preserves a lot of information that is
  56. destroyed by in-band attribution.
  57.  
  58. The destruction of information, like record boundries or an aritmmetic
  59. relationship between the character count in a document and the number of
  60. bytes in a file, is unavoidable in a Unicode implementation (10646 can
  61. escape this by implementing Vadim or Ohta's "super character set" elsewhere
  62. in the vastly larger space provided by the 32 bit space).  There is other
  63. information and other potential uses disallowed as well; this is simply
  64. by way of example.
  65.  
  66. I think it is acceptable to lose this information and be required to carry
  67. enough baggage to recreate it, or to maintain it in band, for the minority
  68. case of multilingual documents; for the majority case of monolingual
  69. documents in a localized environment, I think the attribution out-of band
  70. can maintain the majority if not all of the information.
  71.  
  72. It is possible to avoid having to do out-of-band attribution for monolingual
  73. by relying on a locale mechanism, and assuming an attribution on all files
  74. of that locale, or by not doing "compact storage" of files which would
  75. otherwise take half the storage in a simple 8-bit clean internationaliztion.
  76.  
  77.  
  78. I think the main problem with non-compact storage is the price paid by
  79. small glyph-set users for internationalization from which they gain no
  80. benefit (as long as they are currently using 8-bit clean systems).  Going
  81. to UTF storage alleviates this for 7-bit ASCII users, but someone who could
  82. use an 8-bit clean system with no penalty still pays extra for characters
  83. not in (or replacing -- not possible in Unicode) the 7-bit ASCII set.  The
  84. further one diverges, the higher the penalty.  What is the benefit to these
  85. users? In short, little or none, since they are paying in storage for
  86. internationalization which they can do without.  The penalty for UTF storage
  87. is exhorbitant for large glyph-set users, like Japanese and Chinese, since
  88. it will almost invariably cost more than simply raw 16-bit storage of the
  89. characters until such time as the high 16 bits of 10646 come into use; even
  90. then, it is questionable as to whether the raw 32 bit storage would still
  91. be less expensive than the UTF encoding (this would depend on whether a
  92. particular character set in the expanded 10646 averaged 4 or less bytes
  93. for encoding the average character.
  94.  
  95. To my mind, the way UTF is formulated seems like a buy-off of the 7-bit
  96. ASCII world, with little benefit to non (or only partial) 7-bit ASCII
  97. users.
  98.  
  99.  
  100.                     Terry Lambert
  101.                     terry@icarus.weber.edu
  102.                     terry_lambert@novell.com
  103. ---
  104. Any opinions in this posting are my own and not those of my present
  105. or previous employers.
  106. -- 
  107. -------------------------------------------------------------------------------
  108.                                         "I have an 8 user poetic license" - me
  109.  Get the 386bsd FAQ from agate.berkeley.edu:/pub/386BSD/386bsd-0.1/unofficial
  110. -------------------------------------------------------------------------------
  111.