home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #19 / NN_1992_19.iso / spool / comp / std / internat / 627 next >
Encoding:
Text File  |  1992-08-25  |  15.2 KB  |  387 lines

  1. Newsgroups: comp.std.internat
  2. Path: sparky!uunet!cs.utexas.edu!sun-barr!ames!data.nas.nasa.gov!taligent!tseng
  3. From: jenkinsj@blowfish.taligent.com (John H. Jenkins)
  4. Subject: Re: ISO 10646 questions (longish)
  5. Message-ID: <jenkinsj-250892105325@tseng.taligent.com>
  6. Followup-To: comp.std.internat
  7. Sender: usenet@taligent.com (More Bytes Than You Can Read)
  8. Organization: Taligent, Inc.
  9. References: <1992Aug25.105342.189801@rrz.uni-koeln.de>
  10. Date: Tue, 25 Aug 1992 19:50:08 GMT
  11. Lines: 374
  12.  
  13. In article <1992Aug25.105342.189801@rrz.uni-koeln.de>,
  14. a0047@aix370.rrz.Uni-Koeln.DE (Andreas Strotmann) wrote:
  15. > - Is there some sort of official press release by ISO describing key
  16. >   features of the new standard?  Where published?
  17. >
  18.  
  19. Not that I'm aware.  Such information is available from Unicode,
  20. however.  
  21.  
  22. >  - There were a couple of topics hotly debated between UniCode and
  23. 10646
  24. >    champions on this group.  I would like to know how these have been 
  25. >    resolved in the unification of these two.  Specifically:
  26. >     * Pre-/Postfix "diacritics" (aka "combining characters",
  27. "non-spacing
  28. >       characters"): Which are they? Is there a limit defined on the
  29. number
  30. >       of these in a row allowed?
  31.  
  32. 10646 now defines three implementation levels.  In Level 1, combining
  33. characters may not be used.  In Level 3 (the old Level 2), they may be
  34. used without restriction (meaning, among other things, there is no limit
  35. on how many you can use one after the other).  A new Level 2 was defined
  36. which allows use of combining marks for anything except Latin, Greek,
  37. and Cyrillic. This reflects the fact that few people objected to their
  38. use with languages like Hebrew where they are practically de rigueur. 
  39. The main objections were to the use of combining marks with Latin,
  40. Greek, and Cyrillic.  
  41.  
  42. The combining marks are all postfix, BTW.  
  43.  
  44. Unicode represents a Level 3 implementation of 10646.  
  45.  
  46. >     * Does 10646 still reserve about a quarter of all possible codes
  47. >       for control characters, a la ISO 8859?
  48.  
  49. No. 
  50.  
  51. >  - Another hot debate was on Han unification ("evil" comes to mind
  52. ;-).
  53. >    Recent postings cite two numbers:  JIS using effectively 14 bits to
  54. >    code their script, and 36000 code points being reserved for
  55. "unified"
  56. >    Han. Now (3x15000)=45000, so unification cannot have been very 
  57. >    extensive, or was it?
  58. >    [15000 because not all code points in JIS are used, 3 for Korean,
  59. >    Japanese, and Chinese]
  60.  
  61. I don't know where these numbers come from. JIS uses a total of about
  62. 12,000 characters, but there were never more than 22,000 cells reserved
  63. for Unified Han.   The following is taken from pp. 19-20 of "The Unicode
  64. standard," vol. 2:
  65.  
  66. # Compatibility with Existing Standards
  67. # The compatibility of the Unicode Han character set with the 
  68. # repertoire of existing standards is assured by the source 
  69. # separation rule described above. The Unicode standard 
  70. # contains additional Han characters that are not included 
  71. # in the unified repertoire, but that do occur in widely-used 
  72. # corporate character sets. This practice is recognized by 
  73. # CJK-JRG. The following table lists all the standards that 
  74. # comprise the Unicode Han character set, and the number of 
  75. # characters included from each.
  76. # Standard                          Number of Characters
  77. # ANSI Z39.64-1989 (EACC)                         13,053
  78. # Big Five                                        13,481
  79. # CCCII, level 1                                   4,808
  80. # CNS 11643-1986                                  13,051
  81. # CNS 11643-1986 User Characters                   3,418
  82. # GB 2312-80 (GB0)                                 6,763
  83. # GB 12345-90 (GB1)                                2,176
  84. # GB 7589-87 (GB3)                                 7,327
  85. # GB 7590-87 (GB5)                                 7,039
  86. # General Use Characters forModern Chinese (GB7)      41
  87. # GB 8565-89 (GB8)                                   287
  88. # GB 12052-89 (Korean)                                94
  89. # IBM Selected Japanese                              360
  90. # IBM Selected Korean                                  6
  91. # JEF (Fujitsu)                                    3,149
  92. # JIS X 0208-1990                                  6,355
  93. # JIS X 0212-1990                                  5,801
  94. # KS C 5601-1989                                   4,888
  95. # KS C 5657-1991                                   2,856
  96. # PRC Telegraph Code                              ~8,000
  97. # Taiwan Telegraph Code                            9,040
  98. # Xerox Chinese                                    9,776
  99. #  
  100. # Total characters covered                      ~121,769
  101. # Total unique characters                         21,001
  102.  
  103. If we had unified the various standards by language but left Japanese,
  104. Korean, and Chinese separate the total unique characters would still
  105. have been on the order of 40,000 to 50,000.  
  106.  
  107. >    In the same thread it was suggested that European scripts should be
  108. >    unified, too [Capital A in latin, greek, cyrillic, e.g.].  Were
  109. they?
  110.  
  111. As I understand it, this was never a serious suggestion, but a straw man
  112. raised by opponents of Han unification.  They were pointing out that
  113. they felt the relationship between Japanese kanji and Chinese characters
  114. is analogous to that between the Latin and Greek alphabets -- since
  115. nobody would ever unify the latter, why unify the former?
  116.  
  117. >  - I'd like to include a couple of statistics in my article:
  118. >  
  119. >     * How many graphic characters are effectively defined in ISO 10646
  120. UCS2?
  121. >     * How many code points are reserved, but not yet assigned in UCS2
  122. >       (i.e. how much can still fit in for the next release)?
  123.  
  124. There are roughly 21,000 Han characters, 7000 precomposed Hangul
  125. syllables and 7000 everything-else.  Additionally, about 6000 cells are
  126. reserved for the user zone. (This is all rounded to the nearest 1000.) 
  127. The total is therefore about 41,000 of 65,000 cells currently allocated.
  128.  That means there are about 24,000 cells left.  
  129.  
  130. That sounds like a lot, but it really isn't.  If you add up all the
  131. things that people would like to add to the BMP, you'll find you have
  132. well over 24,000 pigeons to squeeze into 24,000 pigeonholes.   
  133.  
  134. >     * How many/which modern languages/scripts are covered/not (yet)
  135. covered?
  136. >       Why not if not?
  137.  
  138. The list of blocks in 10646 follows.  Anything not on this list is not
  139. covered.  (This list reflects the second DIS of 10646.  The IS will have
  140. slightly different block allocations.  BTW, remember that some of these
  141. scripts cover a heck of a lot of languages; I'm not sure anyone has
  142. prepared a "languages-covered" list.)
  143.  
  144. IRV-646                 0020 - 007E 
  145. LATIN-1 SUPPLEMENT      00A0 - 00FF 
  146. EXTENDED LATIN-A        0100 - 017F
  147. EXTENDED LATIN-B        0180 - 024F
  148. IPA EXTENSIONS          0250 - 02AF 
  149. SPACING MODIFIER LETTERS    
  150.                         02B0 - 02FF 
  151. COMBINING DIACRITICAL MARKS            
  152.                         0300 - 036F 
  153. GREEK                   0370 - 03FF 
  154. CYRILLIC                0400 - 04FF 
  155. ARMENIAN                0530 - 058F 
  156. HEBREW                  0590 - 05FF
  157. ARABIC                  0600 - 06FF 
  158. DEVANAGARI              0900 - 097F
  159. BENGALI                 0980 - 09FF 
  160. GURMUKHI                0A00 - 0A7F 
  161. GUJARATI                0A80 - 0AFF 
  162. ORIYA                   0B00 - 0B7F 
  163. TAMIL                   0B80 - 0BFF 
  164. TELUGU                  0C00 - 0C7F
  165. KANNADA                 0C80 - 0CFF 
  166. MALAYALAM               0D00 - 0D7F 
  167. THAI                    0E00 - 0E7F 
  168. LAO                     0E80 - 0EFF 
  169. *TIBETAN                1000 - 105F
  170. GEORGIAN                10A0 - 10FF
  171. ADDITIONAL EXTENDED LATIN 
  172.                         1E00 - 1EFF
  173. GREEK EXTENSIONS        1F00 - 1FFF 
  174. GENERAL PUNCTUATION     2000 - 206F 
  175. SUPERSCRIPTS AND SUBSCRIPTS            
  176.                         2070 - 209F 
  177. CURRENCY SYMBOLS        20A0 - 20CF 
  178. COMBINING DIACRITICAL MARKS FOR SYMBOLS    
  179.                         20D0 - 20FF
  180. LETTERLIKE SYMBOLS      2100 - 214F
  181. NUMBER FORMS            2150 - 218F
  182. ARROWS                  2190 - 21FF
  183. MATHEMATICAL OPERATORS
  184.                         2200 - 22FF
  185. MISCELLANEOUS TECHNICAL    
  186.                         2300 - 23FF 
  187. CONTROL PICTURES        2400 - 243F
  188. OPTICAL CHARACTER RECOGNITION
  189.                         2440 - 245F
  190. ENCLOSED ALPHANUMERICS
  191.                         2460 - 24FF
  192. BOX DRAWINGS            2500 - 257F 
  193. BLOCK ELEMENTS          2580 - 259F
  194. GEOMETRIC SHAPES        25A0 - 25FF 
  195. MISCELLANEOUS DINGBATS
  196.                         2600 - 26FF
  197. DINGBATS                2700 - 27BF 
  198. CJK SYMBOLS AND PUNCTUATION
  199.                         3000 - 303F 
  200. HIRAGANA                3040 - 309F 
  201. KATAKANA                30A0 - 30FF 
  202. BOPOMOFO                3100 - 312F 
  203. HANGUL JAMO             3130 - 318F 
  204. CJK MISCELLANEOUS       3190 - 319F
  205. COMBINING HANGUL JAMO   31A0 - 31FF 
  206. ENCLOSED CJK LETTERS AND IDEOGRAPHS        
  207.                         3200 - 32FF 
  208. CJK COMPATIBILITY WORDS
  209.                         3300 - 337F 
  210. CJK SQUARED ABBREVIATIONS
  211.                         3380 - 33FF 
  212. HANGUL                  3400 - 4DFF
  213. CJK UNIFIED IDEOGRAPHS  4E00 - 9FFF  
  214. PRIVATE USE AREA        E000 - F7FF 
  215. CJK COMPATIBILITY IDEOGRAPHS
  216.                         F900 - FAFF
  217. ALPHABETIC PRESENTATION FORMS
  218.                         FB00 - FBFF
  219. ARABIC PRESENTATION FORMS-A
  220.                         FC00 - FDFF
  221. CJK COMPATIBILITY FORMS FE30 - FE4F
  222. SMALL FORM VARIANTS     FE50 - FE6F
  223. ARABIC PRESENTATION FORMS-B
  224.                         FE70 - FEFF
  225. HALFWIDTH AND FULLWIDTH FORMS
  226.                         FF00 - FFEF
  227. SPECIALS                FFF0 - FFFD
  228.  
  229. *Tibetan was withdrawn from the IS.  
  230.  
  231. There are three main reasons why something is _not_ covered.
  232.  
  233. #1. The script is ill-documented.  A number of scripts were excluded
  234. only because nobody ever submitted an authoritative list of characters
  235. they contain (e.g., various Native American languages).  These will be
  236. added at a future date.  
  237.  
  238. #2.  The script is in the main well-documented but there is considerable
  239. controversy as to how it should best be encoded (e.g., Tibetan and
  240. Ethiopian).  These are usually well-known scripts, but are rare enough
  241. that Becker's Second Law kicks in ("The fewer experts there are on a
  242. given subject, the more they disagree") and so there's a lot of
  243. controversy that has to be settled.  Musical notation falls into this
  244. category, too.  These will also be added at a future date.  
  245.  
  246. #3.  The script is well-documented but SO-O-O-O rare that few people
  247. other than specialists have even heard of it (e.g., the Deseret
  248. Alphabet) or  is out-and-out bogus (Klingon, Quenya, the Seuss script
  249. from "On beyond zebra").  The few people who want to use these scripts
  250. can put them into the Private Use Area -- that's what it's for.  
  251.  
  252. >  - Does every UCS2 coded text have to start with the "signature"
  253. mentioned
  254. >    in earlier postings? How about UCS4?
  255.  
  256. No, but it would be nice.  The use of signatures is covered in Annex E,
  257. which is only informative.  
  258.  
  259. >  - Are the names of characters that have been cited in numerous
  260. postings to 
  261. >    this group "defined" by ISO 10646, i.e., standardized, too?  Does
  262. every
  263. >    character have a unique name?  
  264.  
  265. Yes and yes.  
  266.  
  267. >How are (unified) Han characters named?
  268.  
  269. By their code point.  You can't name them by their sound because they
  270. have utterly different pronunciations even in different Chinese
  271. dialects, let alone different languages, and you can't name them by
  272. their meaning because they have too many.  The only real alternative was
  273. to name them by their dictionary position.  
  274.  
  275. >    Example? System?  How about other scripts (arab, indian...)?
  276.  
  277. Character 0000 4E00 is named "CJK UNIFIED IDEOGRAPH-4E00."  You also
  278. have things like "ARABIC LETTER HAH WITH HAMZA ABOVE" and "DEVANAGARI
  279. LETTER KHA."  
  280.  
  281. >  - Does the *current* set of UniCode definitions really cover UCS2 as
  282. voted
  283. >    on?  How can it be obtained? [Sorry, didn't save the answer to this
  284. when
  285. >    I should have.  I tried finding a reference in university on-line
  286. library
  287. >    catalogues around the world - no luck!  Have they sold any copies
  288. at all?]
  289.  
  290. Unicode 1.0 has been published and is slightly different from UCS-2. 
  291. The Unicode Technical Committee formally agreed last month to issue 1.1
  292. of Unicode which will be code-point identical to UCS-2.  
  293.  
  294. Unicode 1.0 is defined in "The Unicode standard," published by
  295. Addison-Wesley.  Your local technical bookstore should know how to
  296. contact them.  Vol. 1 is US$32.95 and ISBN 0-201-56788-1; vol. 2 is
  297. US$29.95 and ISBN 0-201-60845-6.  They are both selling very nicely.  
  298.  
  299. The Unicode Consortium will also be holding its fourth Implementers
  300. Workshop this December in Frankfurt, Germany.  Contact the Consortium
  301. for more information.  
  302.  
  303. Unicode is also opening a European branch to promote the use of Unicode
  304. within Europe.  The fifth Implementers Workshop is planned for Japan
  305. next spring but the details are still being worked out.  
  306.  
  307. >    Who is the UniCode consortium?  [Sorry again]
  308.  
  309. "The Unicode Consortium is a non-profit organization founded in January
  310. of 1991 to promote the use of Unicode as a character standard.  Its
  311. first accomplishment was to formally set the specifications for Unicode
  312. Version 1.0.  The Unicode Consortium now provides technical information
  313. and news about Unicode, and works to maintain the Unicode standard,
  314. expanding and refining it as necessary."  
  315.  
  316. For more information contact the Consortium at:
  317.  
  318. Unicode Consortium, Inc.
  319. 1965 Charleston Road
  320. Mountain View, CA 94043 USA
  321. Phone:  (415) 961-4189
  322. FAX:  (415) 966-1637
  323. Internet:  unicode-inc@HQ.M4.Metaphor.com.  
  324.  
  325. >  - How can one listen in on the 10646 discussion forum mentioned by
  326. one
  327. >    of the experts in a recent posting?  I assume it's going to discuss
  328. >    10646 version 2 once version 1 is published, so it might still be 
  329. >    interesting after most of the work has been done.
  330.  
  331. You subscribe by sending a SUB ISO10646 command to
  332. LISTSERV@JHUVM.BITNET.  It is a rather dull list, though.  :-(  Besides,
  333. there really isn't going to be any work done on 10646 for nearly a year,
  334. so the traffic should be pretty slight for the next several months (say
  335. I with fingers crossed).  
  336.  
  337. >  - Where do you order the 10646 standard?  [Sorry, again]
  338.  
  339. You use whatever resource you usually use to order ISO standards.  You
  340. may try your national standards body.  The IS will not be published
  341. until early next year, however.  
  342.  
  343. >  - Does anyone archive comp.std.internat?  Where?
  344.  
  345. Does anyone want to?  :-)
  346.  
  347. > Finally, a question that's not necessarily relevant for my article:
  348. >  - What's the legal issue on preparing lists from the 10646 definition
  349. >    and providing these on anonymous FTP?  Possible candidates are
  350. >    name lists (probably no problem) or a reference font produced by 
  351. >    scanning in the 10646 standard (almost certainly illegal).
  352.  
  353. Unicode is looking into creating an FTP site with mapping tables, sample
  354. code, names tables, and other delights.  There no word on if or when
  355. this will be available.  Meanwhile, you can always get the names lists
  356. and mapping tables on disk by writing the Consortium.  You can also get
  357. copies of the proceedings of the implementers workshops, I believe. 
  358. Unicode also plans to make available to its members a series of
  359. Macintosh fonts covering everything although, again, I can't guarantee
  360. this will ever materialize.  
  361.  
  362. AFII is hoping to make a 10646 font available.  They are putting an
  363. incredible amount of work into printing the IS, and if they can, in
  364. fact, distribute a font, it should be really top-notch.  
  365.  
  366. ----
  367. John H. Jenkins
  368. John_Jenkins@taligent.com
  369. #include <std_disclaimer.h>
  370.