home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / std / internat / 1075 < prev    next >
Encoding:
Text File  |  1993-01-07  |  5.2 KB  |  103 lines

  1. Newsgroups: comp.std.internat
  2. Path: sparky!uunet!spool.mu.edu!agate!dog.ee.lbl.gov!hellgate.utah.edu!fcom.cc.utah.edu!cs.weber.edu!terry
  3. From: terry@cs.weber.edu (A Wizard of Earth C)
  4. Subject: Re: INTERNATIONALIZATION: JAPAN, FAR EAST
  5. Message-ID: <1993Jan7.063116.14846@fcom.cc.utah.edu>
  6. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  7. Sender: news@fcom.cc.utah.edu
  8. Organization: Weber State University  (Ogden, UT)
  9. References: <1hu9v5INNbp1@rodan.UU.NET> <8490@charon.cwi.nl> <1hvu79INN4qf@rodan.UU.NET>
  10. Date: Thu, 7 Jan 93 06:31:16 GMT
  11. Lines: 90
  12.  
  13. In article <1hvu79INN4qf@rodan.UU.NET> avg@rodan.UU.NET (Vadim Antonov) writes:
  14. >The idea of visual encoding (and one letter-onr glyph is nothing more
  15. >than a compressed image of the text) is simply wrong because it
  16. >drops valuable information readily available at the point of the CREATION
  17. >of the text but not later.
  18.  
  19. Multiple potential sort orders give lie to this argument.  At least several
  20. languages have been mentioned (ie: German) where there are multiple possible
  21. sort orders. Let's call a spade a spade -- collation sequences.  The
  22. collation sequences for Japanese, for instance, vary on pronuciation.  If
  23. it were the intent of Unicode to provide a unified collation mechanism,
  24. this would be a very strong argument against Chinese/Japanese unification.
  25. Luckily, this was not a goal.  The non-intersecting unification of all sets
  26. such as suggested by yourself and Ohta is not supported by this argument
  27. unless you provide one character set per collation sequence.  This is
  28. folly for single languages with multiple collation sequences.  If one is to
  29. maintain multiple collating sequences for one font, why not all fonts?
  30.  
  31. >Sure, the information can (*must* if you're
  32. >going to do trivial things like sorting or case-insensitive comparisons)
  33. >be preserved off-text (in mail headers or in file attributes, for
  34. >example) but it effectively defeats the very purpose of ISO10646 --
  35. >why on the Earth do i need to spare bits for encoding glyphs if
  36. >i already know the language and 8 (or 16 for oriental languages) bits
  37. >is quite enough to map the alphabet. Don't you see this gap in
  38. >the logic nullifying all benefits of 10646?
  39.  
  40. I don't see how this nullifies the benefits of Unicode (which you seem to
  41. be using 10646 as a synonym for, given that this is the only codified
  42. portion).
  43.  
  44. First, Unicode is not the sole definition of 10646; just the only currently
  45. defined character set within 10646.  There is no reason to throw out 10646
  46. because of Unicode (although I could make an argument for 32 bits being a
  47. nifty reason for doing so).
  48.  
  49. Second, Unicode buys more than simply another character set; it buys the
  50. ability to produce non-conflicting monolingual localizations of software
  51. systems (as opposed to conflicting ones as a result of a lack of standards
  52. coordination with existing standards).  It also buys a platform for
  53. non-conflicting multinationalization (multilingual data processing) given
  54. a means of compounding documents by language/locale (there may be more than
  55. one locale per language).  Admittedly, this is not as elegant as a unified
  56. glyph set for all languages, but it does charge the penalty to the
  57. multilingual (minority) rather than the localized-monolingual (majority)
  58. user.
  59.  
  60. >10646 was meant as an encoding eliminating the necessity to carry off-text
  61. >information (which is not a piece of cake, especially in multi-lingual
  62. >texts). However, the "single glyph" approach ruined the very intent
  63. >because you need the off-text information to do trivial tasks anyway!
  64. >What's the gain? More wasted bits, yeah?
  65.  
  66. By virtue of the "multiple collating sequences within a single language"
  67. argument, the same holds true of your soloution -- worse, there are
  68. exception cases in your soloution, while there is a potential uniform
  69. impementation on top of Unicode.
  70.  
  71. The Fact is, a multilingual word processor will have to present its menus
  72. to the user, probably in his native language, by means of a locale
  73. mechanism.  If a "vi" style implementation is used (no explict commands if
  74. you ignore ":set" and ":map" and all OS escapes), there is still the
  75. requirement of localization of error messages and keyboard input.  There
  76. is no divorcing the language from the application entirely, if the
  77. application is one which operates on text as data.
  78.  
  79. >Take a life, guys. We in Russia did that mistake (DKOI and "GOST" encodings)
  80. >many years ago and came to realize that this solution is too simple to
  81. >be correct.
  82.  
  83. "The simplest explanation which fits the facts is the correct one"
  84.         -- William of Occam
  85.  
  86. I don't see why every soloution which resembles a past soloution (not that
  87. I am claiming a familiarity with "DKOI" or "GOST", so the resemblence is
  88. one which you see) must be incorrect by virtue of that resemblence.  The
  89. Unicode character set solves a number of long standing problems.
  90.  
  91.  
  92.                     Terry Lambert
  93.                     terry@icarus.weber.edu
  94.                     terry_lambert@novell.com
  95. ---
  96. Any opinions in this posting are my own and not those of my present
  97. or previous employers.
  98. -- 
  99. -------------------------------------------------------------------------------
  100.                                         "I have an 8 user poetic license" - me
  101.  Get the 386bsd FAQ from agate.berkeley.edu:/pub/386BSD/386bsd-0.1/unofficial
  102. -------------------------------------------------------------------------------
  103.