home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / std / internat / 1094 < prev    next >
Encoding:
Internet Message Format  |  1993-01-07  |  5.7 KB

  1. Path: sparky!uunet!not-for-mail
  2. From: avg@rodan.UU.NET (Vadim Antonov)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: INTERNATIONALIZATION: JAPAN, FAR EAST
  5. Date: 7 Jan 1993 15:21:49 -0500
  6. Organization: UUNET Technologies Inc, Falls Church, VA
  7. Lines: 112
  8. Message-ID: <1ii3ctINNp4c@rodan.UU.NET>
  9. References: <8490@charon.cwi.nl> <1hvu79INN4qf@rodan.UU.NET> <1993Jan7.063116.14846@fcom.cc.utah.edu>
  10. NNTP-Posting-Host: rodan.uu.net
  11. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  12.  
  13. In article <1993Jan7.063116.14846@fcom.cc.utah.edu> terry@cs.weber.edu (A Wizard of Earth C) writes:
  14. >Multiple potential sort orders give lie to this argument.  At least several
  15. >languages have been mentioned (ie: German) where there are multiple possible
  16. >sort orders.
  17.  
  18. All languages have a default sorting -- namely the one which is used in
  19. dictionaries. Existance of multiple sorting rules does not nullify
  20. the necessity of a default sorting which is sufficient for most cases
  21. and --more imortant-- can be done in an environment lacking the
  22. locale required for specialized sortings.
  23.  
  24. I bet 99% of users will not care WHICH sorting is used as long as they
  25. used to it. Other can have their own personal locale.
  26.  
  27. >Let's call a spade a spade -- collation sequences.  The
  28. >collation sequences for Japanese, for instance, vary on pronuciation.  If
  29. >it were the intent of Unicode to provide a unified collation mechanism,
  30. >this would be a very strong argument against Chinese/Japanese unification.
  31.  
  32. I've heard Japanese don't like that unification.
  33.  
  34. >Luckily, this was not a goal.
  35.  
  36. "This car doesn't move, but luckily it was not a goal."
  37.  
  38. >>Sure, the information can (*must* if you're
  39. >>going to do trivial things like sorting or case-insensitive comparisons)
  40. >>be preserved off-text (in mail headers or in file attributes, for
  41. >>example) but it effectively defeats the very purpose of ISO10646 --
  42. >>why on the Earth do i need to spare bits for encoding glyphs if
  43. >>i already know the language and 8 (or 16 for oriental languages) bits
  44. >>is quite enough to map the alphabet. Don't you see this gap in
  45. >>the logic nullifying all benefits of 10646?
  46. >
  47. >I don't see how this nullifies the benefits of Unicode (which you seem to
  48. >be using 10646 as a synonym for, given that this is the only codified
  49. >portion).
  50.  
  51. That's not my fault that you don't see that if there are two codes
  52. one with N bits and the second with M bits per character (N > M) and
  53. there is an external constraint (aka locale) defining the set of applicable
  54. characters to be subsets of both M and N the M is more memory-efficient.
  55. It is no more complex than 2+2 if someone cares to think a bit.
  56.  
  57. >First, Unicode is not the sole definition of 10646; just the only currently
  58. >defined character set within 10646.  There is no reason to throw out 10646
  59. >because of Unicode (although I could make an argument for 32 bits being a
  60. >nifty reason for doing so).
  61.  
  62. They share the common design philosophy and the same fundamental mistakes.
  63.  
  64. >Second, Unicode buys more than simply another character set; it buys the
  65. >ability to produce non-conflicting monolingual localizations of software
  66. >systems (as opposed to conflicting ones as a result of a lack of standards
  67. >coordination with existing standards). 
  68.  
  69. Who told you that? Sure, ISO happened to introduce so many standards
  70. that it caused a complete havoc in minds. Then, we don't need one
  71. more sloppy standard.
  72.  
  73.  
  74. >It also buys a platform for
  75. >non-conflicting multinationalization (multilingual data processing) given
  76. >a means of compounding documents by language/locale (there may be more than
  77. >one locale per language).  Admittedly, this is not as elegant as a unified
  78. >glyph set for all languages, but it does charge the penalty to the
  79. >multilingual (minority) rather than the localized-monolingual (majority)
  80. >user.
  81.  
  82. 10646 is inadequate for true multinationalization because it breaks
  83. existing OS semantics and i hardly doubt there will not be many people
  84. eager to redesign everything from scratch for the sake of few truly
  85. multilingual applications.
  86.  
  87. >By virtue of the "multiple collating sequences within a single language"
  88. >argument, the same holds true of your soloution -- worse, there are
  89. >exception cases in your soloution, while there is a potential uniform
  90. >impementation on top of Unicode.
  91.  
  92. Huh? Where did you see the exceptions which aren't present in Unicode
  93. as well? Quite opposite -- most variations of local sorting rules
  94. can be reduced to the default algorithm with trivial transliteration.
  95.  
  96. >The Fact is, a multilingual word processor will have to present its menus
  97. >to the user, probably in his native language, by means of a locale
  98. >mechanism.  If a "vi" style implementation is used (no explict commands if
  99. >you ignore ":set" and ":map" and all OS escapes), there is still the
  100. >requirement of localization of error messages and keyboard input.  There
  101. >is no divorcing the language from the application entirely, if the
  102. >application is one which operates on text as data.
  103.  
  104. Nobody told that first; and screen editors aren't applications but the
  105. pieces of SYSTEM software interacting with specific hardware, second.
  106. The fact that all that termcap/terminfo stuff is on user level is nothing
  107. more than the old Unix klugde.
  108.  
  109. >"The simplest explanation which fits the facts is the correct one"
  110. >        -- William of Occam
  111. >
  112.  
  113. If it fits. If it doesn't it becomes a religion. Any religion breeds
  114. fanatics who mindlessly follow authorities who assume their power
  115. by means of hierarchial institutions, ritual phrases and assertion
  116. of superior wisdom of collective bodies. Their speeches are full of
  117. sacral words, references to obscure documents known only to "belonging"
  118. and self-praise for being able to make those collective bodies to
  119. produce the meaningless "words of wisdom" after endless debates on
  120. insufficient deatils.
  121.  
  122. Is't this picture familiar?
  123.  
  124. --vadim
  125.