home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / std / internat / 1145 < prev    next >
Encoding:
Text File  |  1993-01-11  |  5.9 KB  |  123 lines

  1. Newsgroups: comp.std.internat
  2. Path: sparky!uunet!spool.mu.edu!agate!dog.ee.lbl.gov!hellgate.utah.edu!fcom.cc.utah.edu!cs.weber.edu!terry
  3. From: terry@cs.weber.edu (A Wizard of Earth C)
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Message-ID: <1993Jan11.193710.29580@fcom.cc.utah.edu>
  6. Keywords: Unicode ISO10646 CharacterEncoding
  7. Sender: news@fcom.cc.utah.edu
  8. Organization: Weber State University  (Ogden, UT)
  9. References: <1in2c8INNmbj@life.ai.mit.edu> <1993Jan10.000115.28150@fcom.cc.utah.edu> <1ipo2kINN6g2@life.ai.mit.edu>
  10. Date: Mon, 11 Jan 93 19:37:10 GMT
  11. Lines: 110
  12.  
  13. In article <1ipo2kINN6g2@life.ai.mit.edu> glenn@wheat-chex.ai.mit.edu (Glenn A. Adams) writes:
  14. >The FSS-UTF (UTF2), developed by Ken Thompson, and used in Plan9, had
  15. >a different set of goals which were established by their usage requirements.
  16. >I would not claim that UTF2 is inappropriate given the goals articulated
  17. >by the Plan9 designers; however, I do not believe one should take
  18. >their goals to be those of the Unicode/10646 community at large.  Most
  19. >Unicode/10646 implementors that I'm aware of, tend to use 10646 UCS2
  20. >(Unicode) fixed width 16-bit encodings only, for both processing and
  21. >interchange.
  22.  
  23. I definitely agree with this approach for processing.  I *don't* agree
  24. for interchange, if that interchange takes the form of a non-internationalized
  25. or 8-bit interntationalized (with an 8-bit or smaller character set) NFS
  26. client of an internationalized system.  Storage should be local specific
  27. for interoperability and for storage savings to avoid non-international
  28. users paying the higher price of raw encoding, even if the NFS argument
  29. is thrown out the window.
  30.  
  31. >>In my opinion, UTF and other species of what I have been calling "Runic
  32. >>encoding" are inappropriate for storage of non per-language attributable
  33. >>data.
  34. >
  35. >I think you may be misusing the term as Ken Thompson used it (I believe)
  36. >to refer to fixed width 16-bit 10646 UCS2 (Unicode) encodings, and not to
  37. >the variable width UTF encodings.  The term "multibyte" encoding as
  38. >currently used in the Posix, X/Open, and Unix communities tends to be
  39. >used for what is equivalent to UTF variable length multibyte encodings.
  40.  
  41. This is indeed what I meant.  Variant numbers of bytes per character is
  42. nearly intolerable.
  43.  
  44. >>This [language attribution] *must* be in-band for multilingual Unicode
  45. >>documents if we are to overcome the (I believe reasonable) objection to
  46. >>the lack of information for display localization.
  47. >
  48. >No, this is incorrect.  Language attribution *is not* necessary for
  49. >the legible display of any multilingual Unicode data.  That is, unless
  50. >you consider that font attribution is necessary for display.  Neither
  51. >Ohta-san's claims nor Vadim's claims have shown that language attributes
  52. >are necessary to perform legible display.  If you (or anyone else) can
  53. >demonstrably show this to be the case, then I welcome you to do it.
  54. >Otherwise, you can take my word (having implemented a Unicode rendering
  55. >engine) that language attributes are not necessary.
  56.  
  57. You misunderstand the basis of the objections.  The objections are not
  58. made on the basis of legibility, but rather on the [apparent] imposition
  59. of cultural imperialism on those languages undergoing unification.  The
  60. point is esthetic in many cases, rather than technical.
  61.  
  62. I can say that an English text mixing normal, italic, and bold characters
  63. will "look like hell" when printed in a single font.  The point is
  64. language attribution so that font selection is possible.  In a monolingual
  65. document, the locale information (ala file attribute or per system) is
  66. sufficient to provide the rendering clues; a multilingual document is
  67. a compound document.
  68.  
  69. It *is* possible to seperate out language attribution in a file based on
  70. any compund (multilingual) document by seperating documents by language
  71. per file.  This is unacceptable if the file is, for instance, a document
  72. like Roland Lange's "Japanese Verbs", with drastically mixed text.  The
  73. issue is not that the text is mixed in and of itself, but that the text
  74. is nearly interspersed, and that it isn't practical to seperate it into
  75. files by language, with a document description file to do the compunding.
  76.  
  77. Consider the worst case scenerio: a Japanese text telling how to write
  78. Chinese characters.
  79.  
  80. >I agree that language attribution is desirable for typographically
  81. >correct display; however, so are font and style attributes.
  82.  
  83. Agreed; and a good argument could be made that this is indeed a thin line.
  84.  
  85. >>The destruction of information, like record boundries or an aritmmetic
  86. >>relationship between the character count in a document and the number of
  87. >>bytes in a file, is unavoidable in a Unicode implementation (10646 can
  88. >>escape this by implementing Vadim or Ohta's "super character set" elsewhere
  89. >>in the vastly larger space provided by the 32 bit space).
  90. >
  91. >No, this is incorrect:
  92. >
  93. >  byte_count = unicode_char_count * sizeof (unsigned short)
  94. >
  95. >Your claim is only true in the context of UTF(s), not Unicode (or 10646)
  96. >in general. 
  97.  
  98. Right.  Again, UTF encoding was what I was referring to.
  99.  
  100. >>To my mind, the way UTF is formulated seems like a buy-off of the 7-bit
  101. >>ASCII world, with little benefit to non (or only partial) 7-bit ASCII
  102. >>users.
  103. >
  104. >UTF2 buys significant software backward compatibility with many 8-bit
  105. >clean for ASCII only applications.  I believe that was its design goal,
  106. >so it can't be faulted on that basis.
  107.  
  108. Perhaps not, but there are cleaner mechanism which buy backward compatability
  109. with character sets other than simply 7-bit US ASCII.
  110.  
  111.  
  112.                     Terry Lambert
  113.                     terry@icarus.weber.edu
  114.                     terry_lambert@novell.com
  115. ---
  116. Any opinions in this posting are my own and not those of my present
  117. or previous employers.
  118. -- 
  119. -------------------------------------------------------------------------------
  120.                                         "I have an 8 user poetic license" - me
  121.  Get the 386bsd FAQ from agate.berkeley.edu:/pub/386BSD/386bsd-0.1/unofficial
  122. -------------------------------------------------------------------------------
  123.