home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #19 / NN_1992_19.iso / spool / comp / std / internat / 628 < prev    next >
Encoding:
Internet Message Format  |  1992-08-25  |  10.7 KB

  1. Path: sparky!uunet!ogicse!mintaka.lcs.mit.edu!ai-lab!wheat-chex!glenn
  2. From: glenn@wheat-chex.ai.mit.edu (Glenn A. Adams)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: ISO 10646 questions
  5. Message-ID: <27192@life.ai.mit.edu>
  6. Date: 25 Aug 92 22:23:27 GMT
  7. Article-I.D.: life.27192
  8. References: <1992Aug25.105342.189801@rrz.uni-koeln.de>
  9. Sender: news@ai.mit.edu
  10. Organization: MIT Artificial Intelligence Laboratory
  11. Lines: 206
  12.  
  13.  
  14.    From: a0047@aix370.rrz.Uni-Koeln.DE (Andreas Strotmann)
  15.    Message-ID: <1992Aug25.105342.189801@rrz.uni-koeln.de>
  16.    Date: 25 Aug 92 10:53:42 GMT
  17.  
  18.     - Is there some sort of official press release by ISO describing key
  19.       features of the new standard?  Where published?
  20.  
  21. ISO doesn't make press releases.  Contact you local standards organization
  22. (in your case DIN).  The Unicode Consortium has made a number of announcements
  23. describing the result of the merger with Unicode.  You can contact The
  24. Benjamin Group in San Jose, CA for information about these releases.
  25.  
  26.     - There were a couple of topics hotly debated between UniCode and 10646
  27.       champions on this group.  I would like to know how these have been 
  28.       resolved in the unification of these two.  Specifically:
  29.  
  30.        * Pre-/Postfix "diacritics" (aka "combining characters", "non-spacing
  31.      characters"): Which are they? Is there a limit defined on the number
  32.      of these in a row allowed?
  33.  
  34. All non-spacing marks (combining characters, etc.) are encoded in POSTFIX
  35. order, i.e., after the base character to which they are applied.  No limits
  36. are placed on the number or combinations of these characters.  [With the
  37. exception that in implementation level 1, no non-spacing marks are allowed;
  38. in implementation level 2, only those NSMs which are absolutely needed to
  39. represent a language, e.g., Thai or Vowelled Arabic; in implementation level
  40. 3, no restrictions at all.  Since Unicode does not provide implementation
  41. levels, it is to be considered as level 3; however, by subsetting Unicode,
  42. one can operate at either level 2 or level 1.  For example, one can build
  43. a (relatively useless) Unicode implementation which supports the Empty Subset
  44. of 10646 UCS2; this would be a valid Unicode implementation as long as it
  45. observed the Unicode conformance criteria: if you can't interpret a
  46. character, and you intend to interchange it, then you shouldn't damage it
  47. unintentionally, i.e., simply because you can't interpret it.]
  48.  
  49.        * Does 10646 still reserve about a quarter of all possible codes
  50.      for control characters, a la ISO 8859?
  51.  
  52. No "byte values" are reserverd whatsoever.  In particular, NULL byte values
  53. can appear in any byte of either UCS-2 or UCS-4 character encodings.  These
  54. are more accurately treated as 16-bit and 32-bit integer encodings and not
  55. a sequence of bytes.  The entire 65536 encodings of UCS-2 are available for
  56. encoding characters; 6144 encoding values in this space are reserved for
  57. private use by either vendor or end-user.  [An informative annex of 10646
  58. defines a transformation method which can convert either UCS-2 or UCS-4
  59. into an 8-bit byte stream that preserves C0, C1, SPACE, and DEL encodings,
  60. thus allowing transmission over many existing paths.  Copyleft sources for
  61. routines which convert to and from this format can be obtained by anonymous
  62. FTP on the host METIS.COM (140.186.33.40).  See the file pub/utf.c.]
  63.  
  64.     - Another hot debate was on Han unification
  65.       Recent postings cite two numbers:  JIS using effectively 14 bits to
  66.       code their script, and 36000 code points being reserved for "unified"
  67.       Han. Now (3x15000)=45000, so unification cannot have been very 
  68.       extensive, or was it?
  69.  
  70. The initial collection of character sets which served as the source for
  71. the unification process contained over 100,000 characters in all; the end
  72. result of unification produced 20,992 characters.  I judge that to be a very
  73. high rate of unification.
  74.  
  75.       In the same thread it was suggested that European scripts should be
  76.       unified, too [Capital A in latin, greek, cyrillic, e.g.].  Were they?
  77.  
  78. No.  This is a ridiculous suggestion that no one took seriously.  Indeed,
  79. in a fit of satire, I once suggested creating PCCode - ProtoCaananite Code
  80. which would radically unify ALL non-Han scripts.  Needless to say,
  81. I wasn't serious.
  82.  
  83. You must keep in mind that perhaps the highest priority of the choice of
  84. what was a character for 10646 had to do with retaining 1-1 correspondence
  85. with existing character sets; this precludes any sort of coherent theoretic
  86. approach which, in all likelihood, would have produced something quite
  87. unusable.
  88.  
  89.     - I'd like to include a couple of statistics in my article:
  90.  
  91.        * How many graphic characters are effectively defined in ISO 10646 UCS2?
  92.  
  93. I don't have the final count; it's between 35,000 and 40,000 if you count
  94. the private use zone (6144 encodings).  [I will post an accurate character
  95. count shortly.]
  96.  
  97.        * How many code points are reserved, but not yet assigned in UCS2
  98.      (i.e. how much can still fit in for the next release)?
  99.  
  100. Say 25,000 or so = ( 65,536 - whatever number one chooses for the above )
  101.  
  102.        * How many/which modern languages/scripts are covered/not (yet) covered?
  103.      Why not if not?
  104.  
  105. 10646 encodes scripts, not languages; 6 important modern scripts are not yet
  106. included:  Burmese, Ethiopian, Khmer, Mongolian, Sinhalese, and Tibetan.
  107. Perhaps 10-20 less widely used scripts are also not yet present, including
  108. Cree, Lanna Thai, Mangyan, Pollard, Tai Nua, Tifinagh, Yi, and others.  The
  109. reason they are not yet encoded is either because no propoosal has been made
  110. for them yet or the details of their encoding haven't been entirely worked
  111. out.  All of the 6 major scripts above are under review for inclusion in 10646.
  112.  
  113.     - Does every UCS2 coded text have to start with the "signature" mentioned
  114.       in earlier postings? How about UCS4?
  115.  
  116. No signature is required; simply recommended in certain contexts.
  117.  
  118.     - Are the names of characters that have been cited in numerous postings to 
  119.       this group "defined" by ISO 10646, i.e., standardized, too?  Does every
  120.       character have a unique name?  How are (unified) Han characters named?
  121.       Example? System?  How about other scripts (arab, indian...)?
  122.  
  123. Names are both unique and standardized.  These are two essential requirements
  124. for all ISO character set standards.  Han characters are named by using a
  125. hexidecimal symbol equal to their encoding value; no alternative way is
  126. acceptable.
  127.  
  128. Some character names follow:
  129.  
  130. CJK UNIFIED IDEOGRAPH-4E00
  131. HANGUL SYLLABLE SSANGSIOS-AE-LIEUL
  132. THAI LETTER KO KAI
  133. CYRILLIC CAPITAL LETTER KOPPA
  134.  
  135. An informative annex of ISO10646 spells out the structure of character names.
  136.  
  137.     - Does the *current* set of UniCode definitions really cover UCS2 as voted
  138.       on?  How can it be obtained? [Sorry, didn't save the answer to this when
  139.       I should have.  I tried finding a reference in university on-line library
  140.       catalogues around the world - no luck!  Have they sold any copies at
  141.       all?]
  142.  
  143. Some minor differences exist from Unicode 1.0, Volume I to the ISO10646 code
  144. charts.  Some new characters were added in 10646, some minor adjustments were
  145. made to the order of some elements, and a couple of characters have been
  146. deleted.  These changes are largely documented in Unicode 1.0, Volume II,
  147. which documents the differences; furthermore, volume II contains the
  148. unified Han characters of Unicode which are identical to ISO10646.
  149.  
  150. These volumes can be ordered from Addison-Wesley Publishing, Route 128,
  151. Reading, MA 01867 USA, phone 1-800-447-2226.  The ISBN # for volume II
  152. is 0-201-60845-6.  I don't have the number for volume I handy.
  153.  
  154.       Who is the UniCode consortium?  [Sorry again]
  155.  
  156. Member companies now include: Adobe, Apple, Borland, Ecological Linguistics,
  157. Digital, Go, HP, IBM, Lotus Development, Microsoft, NeXT, Novell, Sun,
  158. Taligent, The Research Libraries Group, Symantec, Unisys, Wordperfect, and
  159. Xerox.
  160.  
  161.     - How can one listen in on the 10646 discussion forum mentioned by one
  162.       of the experts in a recent posting?  I assume it's going to discuss
  163.       10646 version 2 once version 1 is published, so it might still be 
  164.       interesting after most of the work has been done.
  165.       Is it archived?  Where?
  166.  
  167. LISTSERV@JHUVM.BITNET; the list name is ISO10646.  Now that the voting
  168. is over, there is little activity on this list.  [I think everyone is
  169. exhausted and needs a rest.]
  170.  
  171.     - Where do you order the 10646 standard?  [Sorry, again]
  172.  
  173. The final form will not be available until early next year.  It is being
  174. edited to reflect the outcome of the last meeting of WG2 in Seoul.
  175.  
  176.     - What's the legal issue on preparing lists from the 10646 definition
  177.       and providing these on anonymous FTP?  Possible candidates are
  178.       name lists (probably no problem) or a reference font produced by 
  179.       scanning in the 10646 standard (almost certainly illegal).
  180.  
  181. Neither of these are illegal.  The Association for Font Information
  182. Interchange (AFII) is responsible for the code page charts of 10646;
  183. they can be contacted at AFII, 2961 Copa de Oro, Los Alamitos, CA 90720 USA.
  184. Personally, I think it would be much better to buy fonts than go through
  185. the effort of scanning.  Anyway, I doubt if anyone will market a single
  186. quality font that covers all of 10646 UCS2; it doesn't make any sense from
  187. a marketing perspective.  Some work is underway to create a 48x48 bitmap
  188. font of Unihan at AFII.  I'm not sure, but they may make this available for
  189. free or a relatively small fee.
  190.  
  191.       Could someone convince the appropriate authorities that they would
  192.       further acceptance and implementation of the standard considerably
  193.       by donating a possibly copy-lefted reference font and character name
  194.       list to be put on anonymous FTP servers so people can start hacking 
  195.       *now*?
  196.  
  197. ISO charges a rather hefty premium for a copy of any standard.  This is how
  198. they recover the reproduction and archiving costs.  The Unicode Consortium
  199. *may* make a namelist available for individual members; contact Unicode, Inc.,
  200. 1965 Charleston Road, Mountain View, CA 94043, USA, phone + 415 966 1637
  201. for more info.
  202.  
  203.       I'm sure there's someone raring to go to do a couple of X11
  204.       applications e.g. since several already exist in 16bit versions for 
  205.       Japanese, Korean and Chinese.
  206.  
  207. The CJK versions of X11 do not process 16-bit character encodings; they
  208. process Double Byte Character Set (DBCS) encodings that intermix single
  209. and double byte encodings.  10646 UCS-2 requires each character encoding
  210. to be processed as a 16-bit integral value, i.e., unsigned short; one cannot
  211. use any existing functions based on the current C definition of char *.
  212.  
  213. The Unicode Implementation Subcommittee is quite interested in participants
  214. who are knowledgeable in implementation issues of Unicode or 10646.  Again,
  215. you can contact the Unicode Consortium address I gave above for more info
  216. on this work.
  217.  
  218. Glenn Adams
  219.