home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / std / internat / 1107 < prev    next >
Encoding:
Text File  |  1993-01-08  |  9.6 KB  |  200 lines

  1. Newsgroups: comp.std.internat
  2. Path: sparky!uunet!elroy.jpl.nasa.gov!ames!agate!dog.ee.lbl.gov!hellgate.utah.edu!fcom.cc.utah.edu!cs.weber.edu!terry
  3. From: terry@cs.weber.edu (A Wizard of Earth C)
  4. Subject: Re: INTERNATIONALIZATION: JAPAN, FAR EAST
  5. Message-ID: <1993Jan8.072720.9554@fcom.cc.utah.edu>
  6. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  7. Sender: news@fcom.cc.utah.edu
  8. Organization: University of Utah Computer Center
  9. References: <8490@charon.cwi.nl> <1hvu79INN4qf@rodan.UU.NET> <1993Jan7.063116.14846@fcom.cc.utah.edu> <1ii3ctINNp4c@rodan.UU.NET>
  10. Date: Fri, 8 Jan 93 07:27:20 GMT
  11. Lines: 187
  12.  
  13. In article <1ii3ctINNp4c@rodan.UU.NET>, avg@rodan.UU.NET (Vadim Antonov) writes:
  14. |> In article <1993Jan7.063116.14846@fcom.cc.utah.edu> terry@cs.weber.edu (A Wizard of Earth C) writes:
  15. |> >Multiple potential sort orders give lie to this argument.  At least several
  16. |> >languages have been mentioned (ie: German) where there are multiple possible
  17. |> >sort orders.
  18. |> 
  19. |> All languages have a default sorting -- namely the one which is used in
  20. |> dictionaries. Existance of multiple sorting rules does not nullify
  21. |> the necessity of a default sorting which is sufficient for most cases
  22. |> and --more imortant-- can be done in an environment lacking the
  23. |> locale required for specialized sortings.
  24.  
  25. This is an arbitrary designation, and one not supported by the Bundespost.
  26.  
  27. |> I bet 99% of users will not care WHICH sorting is used as long as they
  28. |> used to it. Other can have their own personal locale.
  29.  
  30. I think I could make an argument for the applicability of the "dont care"
  31. state to non-natural collation (one not used at all by the native speakers).
  32. This would be a false argument, but I could make it.  ;-}.
  33.  
  34. The idea of a "personal locale" requires that there be a means of applying
  35. a localized collation.  Since this ability is required to be there, why have
  36. two mechanisms for collation? (The locale version and the lexical version).
  37.  
  38. |> >Let's call a spade a spade -- collation sequences.  The
  39. |> >collation sequences for Japanese, for instance, vary on pronuciation.  If
  40. |> >it were the intent of Unicode to provide a unified collation mechanism,
  41. |> >this would be a very strong argument against Chinese/Japanese unification.
  42. |> 
  43. |> I've heard Japanese don't like that unification.
  44.  
  45. Many don't, for various reasons.  Some are valid; most are not.
  46.  
  47. |> >Luckily, this was not a goal.
  48. |> 
  49. |> "This car doesn't move, but luckily it was not a goal."
  50.  
  51. "This car won't carry 200 people; luckily, the goal was a car, not a bus."
  52.  
  53. You want a bus.  I want a car.
  54.  
  55. |> 
  56. |> >>Sure, the information can (*must* if you're
  57. |> >>going to do trivial things like sorting or case-insensitive comparisons)
  58. |> >>be preserved off-text (in mail headers or in file attributes, for
  59. |> >>example) but it effectively defeats the very purpose of ISO10646 --
  60. |> >>why on the Earth do i need to spare bits for encoding glyphs if
  61. |> >>i already know the language and 8 (or 16 for oriental languages) bits
  62. |> >>is quite enough to map the alphabet. Don't you see this gap in
  63. |> >>the logic nullifying all benefits of 10646?
  64. |> >
  65. |> >I don't see how this nullifies the benefits of Unicode (which you seem to
  66. |> >be using 10646 as a synonym for, given that this is the only codified
  67. |> >portion).
  68. |> 
  69. |> That's not my fault that you don't see that if there are two codes
  70. |> one with N bits and the second with M bits per character (N > M) and
  71. |> there is an external constraint (aka locale) defining the set of applicable
  72. |> characters to be subsets of both M and N the M is more memory-efficient.
  73. |> It is no more complex than 2+2 if someone cares to think a bit.
  74.  
  75. You have once again delete my rationale, and left only the statement.  There
  76. are good reasons (which you keep deleting but not refuting) for a unified character set.  You must agree with them, or you would not argue so fervently
  77. for your own form of unification.  Surely you do not claim the concept of
  78. locale destroys them all?
  79.  
  80. |> >First, Unicode is not the sole definition of 10646; just the only currently
  81. |> >defined character set within 10646.  There is no reason to throw out 10646
  82. |> >because of Unicode (although I could make an argument for 32 bits being a
  83. |> >nifty reason for doing so).
  84. |> 
  85. |> They share the common design philosophy and the same fundamental mistakes.
  86.  
  87. A broad statement for one who has never read the Unicode standard (by your
  88. own admission in "Message-ID: <1i13rrINNars@rodan.UU.NET>":
  89.  
  90. Glenn> If you have a genuine interest in learning about the facts surrounding
  91. Glenn> Unicode and 10646, I would recommend a good reading of the Unicode
  92. Glenn> Standard and the Proceedings of the Unicode Implementor's Workshops.
  93.  
  94. Vadim> Thank you, i've got no time to read things i don't need.
  95.  
  96. |> >Second, Unicode buys more than simply another character set; it buys the
  97. |> >ability to produce non-conflicting monolingual localizations of software
  98. |> >systems (as opposed to conflicting ones as a result of a lack of standards
  99. |> >coordination with existing standards). 
  100. |> 
  101. |> Who told you that? Sure, ISO happened to introduce so many standards
  102. |> that it caused a complete havoc in minds. Then, we don't need one
  103. |> more sloppy standard.
  104.  
  105. They exist, they must be retrofitted, if nothing else because of NFS
  106. crossmounts between new and old systems.
  107.  
  108. |> >It also buys a platform for
  109. |> >non-conflicting multinationalization (multilingual data processing) given
  110. |> >a means of compounding documents by language/locale (there may be more than
  111. |> >one locale per language).  Admittedly, this is not as elegant as a unified
  112. |> >glyph set for all languages, but it does charge the penalty to the
  113. |> >multilingual (minority) rather than the localized-monolingual (majority)
  114. |> >user.
  115. |> 
  116. |> 10646 is inadequate for true multinationalization because it breaks
  117. |> existing OS semantics and i hardly doubt there will not be many people
  118. |> eager to redesign everything from scratch for the sake of few truly
  119. |> multilingual applications.
  120.  
  121. I couldn't agree more.  All the better to make design decisions in
  122. favor of localization as long as you don't make multinationalization 100%
  123. impossible.  Apple did this with the MAC (substitute "user" and "programmer")
  124. and it was an amazing success.
  125.  
  126. |> >By virtue of the "multiple collating sequences within a single language"
  127. |> >argument, the same holds true of your soloution -- worse, there are
  128. |> >exception cases in your soloution, while there is a potential uniform
  129. |> >impementation on top of Unicode.
  130. |> 
  131. |> Huh? Where did you see the exceptions which aren't present in Unicode
  132. |> as well? Quite opposite -- most variations of local sorting rules
  133. |> can be reduced to the default algorithm with trivial transliteration.
  134.  
  135. The "default algorithm" is the exception which is not present in Unicode.
  136. The rule is localized collation, which you admit must be supported.
  137.  
  138. |> >The Fact is, a multilingual word processor will have to present its menus
  139. |> >to the user, probably in his native language, by means of a locale
  140. |> >mechanism.  If a "vi" style implementation is used (no explict commands if
  141. |> >you ignore ":set" and ":map" and all OS escapes), there is still the
  142. |> >requirement of localization of error messages and keyboard input.  There
  143. |> >is no divorcing the language from the application entirely, if the
  144. |> >application is one which operates on text as data.
  145. |> 
  146. |> Nobody told that first; and screen editors aren't applications but the
  147. |> pieces of SYSTEM software interacting with specific hardware, second.
  148. |> The fact that all that termcap/terminfo stuff is on user level is nothing
  149. |> more than the old Unix klugde.
  150.  
  151. That explains why EDT works so wonderfully with my Wyse-50.  What is your
  152. soloution to the termcap/terminfo "kludge"?
  153.  
  154. I may agree with the characterization of a program editor as system software,
  155. but I draw the line at a multilingual word processor.
  156.  
  157. |> 
  158. |> >"The simplest explanation which fits the facts is the correct one"
  159. |> >        -- William of Occam
  160. |> 
  161. |> If it fits. If it doesn't it becomes a religion. Any religion breeds
  162. |> fanatics who mindlessly follow authorities who assume their power
  163. |> by means of hierarchial institutions, ritual phrases and assertion
  164. |> of superior wisdom of collective bodies. Their speeches are full of
  165. |> sacral words, references to obscure documents known only to "belonging"
  166. |> and self-praise for being able to make those collective bodies to
  167. |> produce the meaningless "words of wisdom" after endless debates on
  168. |> insufficient deatils.
  169. |> 
  170. |> Is't this picture familiar?
  171.  
  172. Sounds like the IRS.  8-).
  173.  
  174. Seriously, you sound like you left out a paragraph beginning with "But I,
  175. as a founder of the one *true* religion...".
  176.  
  177. Do you honestly believe that it is physically impossible to implement some
  178. application (like a multilingual word processor) oin top of Unicode?  What
  179. reference implementation would convince *you* to "convert"?  Is it possible
  180. to "convert" you at all (to *anything* other than your suggestion, not to
  181. Unicode in particular)?
  182.  
  183. All of your complaints have been addressed by one persons reply or another;
  184. admittedly, some of the soloutions have been mighty ugly -- I haven't seen
  185. a point yet that doesn't have at least *some* workaround, however.  Do you
  186. still claim "impossible!", or are you willing to back down to "It's too
  187. damn ugly for me!"?
  188.  
  189.  
  190.                     Terry Lambert
  191.                     terry@icarus.weber.edu
  192.                     terry_lambert@novell.com
  193. ---
  194. Any opinions in this posting are my own and not those of my present
  195. or previous employers.
  196. -------------------------------------------------------------------------------
  197.                                         "I have an 8 user poetic license" - me
  198.  Get the 386bsd FAQ from agate.berkeley.edu:/pub/386BSD/386bsd-0.1/unofficial
  199. -------------------------------------------------------------------------------
  200.