home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / std / internat / 1063 < prev    next >
Encoding:
Internet Message Format  |  1993-01-06  |  4.3 KB

  1. Path: sparky!uunet!europa.asd.contel.com!emory!gatech!enterpoop.mit.edu!mintaka.lcs.mit.edu!ai-lab!wheat-chex!glenn
  2. From: glenn@wheat-chex.ai.mit.edu (Glenn A. Adams)
  3. Newsgroups: comp.std.internat
  4. Subject: Unicode Han Characters [was Re: Language tagging]
  5. Date: 6 Jan 1993 17:59:12 GMT
  6. Organization: MIT Artificial Intelligence Laboratory
  7. Lines: 67
  8. Message-ID: <1if6lgINN6ri@life.ai.mit.edu>
  9. References: <2609@titccy.cc.titech.ac.jp> <1iav6tINNee2@life.ai.mit.edu> <MELBY.93Jan6113951@dove.yk.fujitsu.co.jp>
  10. NNTP-Posting-Host: wheat-chex.ai.mit.edu
  11. Keywords: Unicode ISO10646 Hanzi Kanji Hanja
  12.  
  13. In article <MELBY.93Jan6113951@dove.yk.fujitsu.co.jp> melby@dove.yk.fujitsu.co.jp (John B. Melby) writes:
  14. >If what I have heard about the Unicode standard is accurate, Chinese
  15. >simplified forms are not distinguished from Chinese unsimplified forms
  16. >when they are effectively equivalent.
  17.  
  18. What you have heard is inaccurate.  Simplified Chinese forms are encoded
  19. separately from their traditional counterparts.
  20.  
  21. >Of course, there is one major flaw in the preliminary Unicode version:  the
  22. >Japanese simplified form of "sakura" (ying1hua1 de ying1) is not included.
  23.  
  24. I'm not sure which "preliminary" Unicode version you are referring to;
  25. however, Unicode does have at U+6A31 the character ying1hua1 de ying1.
  26. Is the simplified Japanese form you refer to contained in JISX0208 or
  27. JISX0212?  If it is, then it is in Unicode 1.0.  If it isn't, a second
  28. level of Han characters is now being formulated by the CJK-JRG for inclusion
  29. in a future version of Unicode.  The initial collection of Han characters in
  30. Unicode comprises the Unified Repertoire and Ordering 2.0 produced by
  31. CJK-JRG (CJK Joint Research Group), currently headed by Kato Shigenobu
  32. of Toppan Printing, Japan, with delegation leaders Dominic Cheng (Hong
  33. Kong Information Technologies Federation); Miyazawa Akira (NACSIS),
  34. Japan; Su Liang (Mitac, Taipei Computer Association), Taiwan; Oh Young-Taik
  35. (Korean Bureau of Standards); Zhang Zhoucai (Center for Computer Information
  36. Development Research, Ministry of Machinery and Electronic Industry), China.
  37. The members of the CJK-JRG editorial subcommitte who were responsible
  38. for final review and verification of URO 2.0 were Lee Collins (Taligent), USA;
  39. Kao Tien-Cheu (Institute for Information Industry), Taiwan; Koike Tateo
  40. (Hitachi), Japan; Prof. Lee Choon Tack (Kongju National University), Korea;
  41. and Zhang Zhoucai (CCID/MMEI), China.
  42.  
  43. As is quite clear from this list, the Han Characters in Unicode (10646)
  44. were hardly the sole efforts of USA members.  An extraordinary amount
  45. of expertise, predominantly from the CJK countries themselves, went into
  46. the development of URO 2.0.  As I mentioned above, the work of CJK-JRG
  47. is not complete, as a subsequent collection of characters is now being
  48. developed for inclusion into the Unicode/10646 standard.
  49.  
  50. The first collection of Han characters currently included in Unicode
  51. represent the most important and vast majority of existing CJK character
  52. sets.  These include all characters from GB 2312-80, GB 12345-90, 
  53. GB8565-89, CNS116453 (planes 1 & 2), JIS X 0208-1980, JIS X 0212-1990,
  54. KS C 5601-1989, and KS C 5657-1991.  In addition, some characters of the
  55. unsimplified form of GB 7589-87, the unsimplified form of GB 7590-87,
  56. CNS 11643 (plane 14), the old Chinese telegraph code, and unique characters
  57. from ANSI Z.39.64-1989 were included.  If two characters were distinct
  58. in any character set of the first list of character sets above, then
  59. they are distinct in Unicode -- this is called the Source Set Separation
  60. rule.
  61.  
  62. The second collection of Han characters now being considered by CJK-JRG
  63. include those which were not encoded by any of the above mentioned
  64. character sets and those which are not currently encoded by any character
  65. set.  The analysis and inclusion of these new Han characters into
  66. Unicode will be a major project over the next few years.
  67.  
  68. Because Unicode *does* incorporate all Han characters used by the important
  69. and widely used CJK character sets, implementations based on Unicode will
  70. immediately be able to interoperate with data currently encoded in these
  71. character sets.
  72.  
  73. If you would like to obtain (unofficial) mappings between a number of
  74. these character sets and Unicode, you can find them by anonymous FTP
  75. on METIS.COM [140.186.33.40] in /pub/csets.
  76.  
  77. Glenn Adams
  78.  
  79.  
  80.