home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / unix / bsd / 10903 < prev    next >
Encoding:
Internet Message Format  |  1993-01-04  |  6.0 KB

  1. Path: sparky!uunet!munnari.oz.au!spool.mu.edu!sgiblab!nec-gw!nec-tyo!wnoc-tyo-news!cs.titech!titccy.cc.titech!necom830!mohta
  2. From: mohta@necom830.cc.titech.ac.jp (Masataka Ohta)
  3. Newsgroups: comp.unix.bsd
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  6. Message-ID: <2615@titccy.cc.titech.ac.jp>
  7. Date: 4 Jan 93 18:57:31 GMT
  8. References: <id.M2XV.VTA@ferranti.com> <1992Dec18.043033.14254@midway.uchicago.edu> <1992Dec18.212323.26882@netcom.com> <1992Dec19.083137.4400@fcom.cc.utah.edu> <2564@titccy.cc.titech.ac.jp> <1992Dec28.062554.24144@fcom.cc.utah.edu>
  9. Sender: news@titccy.cc.titech.ac.jp
  10. Organization: Tokyo Institute of Technology
  11. Lines: 131
  12.  
  13. In article <1992Dec28.062554.24144@fcom.cc.utah.edu>
  14.     terry@cs.weber.edu (A Wizard of Earth C) writes:
  15.  
  16. >|> Do you know what Shift JIS is? It's a defacto standard for charcter encoding
  17. >|> established by microsoft, NEC, ASCII etc. and common in Japanese PC market.
  18. >
  19. >I am aware of JIS; however, even you must agree that the Japaneese hardware
  20. >and software markets have not reached the level of "commodity hardware"
  21. >found elsewhere in the world (ie: the US and Europe).
  22.  
  23. Sigh... WIth DOS/V you can use Japanese on  YOUR "commodity hardware".
  24.  
  25. >I think other mechanisms, such as ATOK, Wnn, and KanjiHand deserve to be
  26. >examined.  One method would be to adopt exactly the input mechanism of
  27. >"Ichi-Taro" (the most popular NEC 98 word processer).
  28.  
  29. They run also on IBM/PC.
  30.  
  31. >|> In the workstation market in Japan, some supports Shift JIS, some
  32. >|> supports EUC and some supports both. Of course, many US companies
  33. >|> sell Japanized UNIX on thier workstations.
  34. >
  35. >I think this is precisely what we want to avoid -- localization.  The basic
  36. >difference, to my mind, is that localization invloves the maintenance of
  37. >multiple code sets, whereas internationalization requires maintenance of
  38. >multiple data sets, a much smaller job.
  39.  
  40. >This I don't understand.  The maximum translation table from one 16 bit value
  41. >to another is 16k.
  42.  
  43. WHAAAAT? It's 128KB, not 16k.
  44.  
  45. >This means 2 16k tables for translation into/out of
  46. >Unicode for Input/Output devices,
  47.  
  48. I'm afraid you don't know what Unicode is. What, do you mean, "tables for
  49. translation" is?
  50.  
  51. >I don't see why the storage mechanism in any way effects the validity of the
  52. >data
  53.  
  54. *I* don't see why the storage mechanism in any way effects the validity of the
  55. data
  56.  
  57. >and thus I don't understand *why* you say "with Unicode, we can't
  58. >achieve internationalization."
  59.  
  60. Because we can't process a data mixed with Japanese and Chinese.
  61.  
  62. >I don't understand this, either.  This is like saying PC ASCII can not cover
  63. >both the US and the UK because the American and English pound signs are not
  64. >the same, or that it can't cover German or Dutch because of the 7 characters
  65. >difference needed for support of those languages.
  66.  
  67. Wrong. The US and UK sign are the same character while they might be assigned
  68. different code points in different countryies.
  69.  
  70. Thus, in universal coded character set, it is corrent to assign a
  71. single code point to the single pound sign, even though the character
  72. is used both in US and UK.
  73.  
  74. But, corresponding characters in China/Japan, which do not share the
  75. same graphical representation even on the moderate quality printers
  76. thus different characters, are assigned the same code point in Unicode.
  77.  
  78. >|> Of course, it is possible to LOCALIZE Unicode so that it produces
  79. >|> Japanese characters only or Chinese characters only. But don't we
  80. >|> need internationalization?
  81. >
  82. >The point of an internationalization effort (as *opposed* to a localization
  83. >effort) is the coexistance of languages within the same processing means.
  84. >The point is not to produce something which is capable of "only English" or
  85. >"only French" or "only Japanese" at the flick of an environment variable;
  86. >the point is to produce something which is *data driven* and localized by
  87. >a change of data rather than by a change of code.  To do otherwise would
  88. >require the use of multiple code trees for each language, which was the
  89. >entire impetus for an internationalization effort in the first place.
  90.  
  91. That is THE problem of Unicode.
  92.  
  93. I was informed that MicroSoft will provide a LOCALIZATION mechanism
  94. to print correnponding Chinese/Japanese characters of Unicode
  95. differently.
  96.  
  97. So, HOW can we MIX Chinese and Japanese without LOCALIZATION?
  98.  
  99. >your argument that the lexical order of the
  100. >target language effects the usability of a storage standard is invalid.
  101.  
  102. My argument has nothing to do with lexical ordering.
  103.  
  104. >Sure, the translation mechanisms may be *easier* to code given localization
  105. >of lexical ordering, but that doesn't mean they *can't* be coded otherwise;
  106.  
  107. Of course, any coding is equally OK for translation.
  108.  
  109. >This involves yet another
  110. >set of localization-specific storage tables to translate from an ISO or
  111. >other local font to Unicode and back on attributed file storage.
  112.  
  113. FILE ATTRIBUTE!!!!!????? *IT* *IS* *EVIL*. Do you really know UNIX?
  114.  
  115. How can you "cat" two files with different file attributes?
  116.  
  117. What attribute can you attach to semi binary file, in which some field
  118. contains an ASCII string and some other field contains a JIS string?
  119.  
  120. >To do
  121. >otherwise would require 16 bit sotrage of files, or worse, runic encoding
  122. >of any non-US ASCII characters in a file.  This either doubles the file
  123. >size for all text files (something the west _will_not_accept_),
  124.  
  125. Do you know what UTF is?
  126.  
  127. >or
  128. >"pollutes" the files (all files except those stored in US-ASCII have file
  129. >sizes which no longer reflect true character counts on the file).
  130.  
  131. That's already true for languages like Japanese, whose characters are
  132. NOT ALWAYS (but sometimes) represented with a single byte.
  133.  
  134. But, what's wrong with that?
  135.  
  136. >Admittedly, these mechanisms are adapatable for XPG4 (not widely available)
  137. >and XPG3 (does not support eastern languages), but the MicroSoft adoption
  138. >of Unicode tells us that at least 90% of the market is now committed to
  139. >Unicode, if not now, then in the near future.
  140.  
  141. Do you think MicroSoft will use file attributes?
  142.  
  143.                         Masataka Ohta
  144.