home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #3 / NN_1993_3.iso / spool / comp / std / internat / 1290 < prev    next >
Encoding:
Internet Message Format  |  1993-01-24  |  2.3 KB

  1. Path: sparky!uunet!gatech!destroyer!gumby!yale!mintaka.lcs.mit.edu!ai-lab!wheat-chex!glenn
  2. From: glenn@wheat-chex.ai.mit.edu (Glenn A. Adams)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: European characters (was 8-bit news)
  5. Date: 23 Jan 1993 17:02:28 GMT
  6. Organization: MIT Artificial Intelligence Laboratory
  7. Lines: 51
  8. Message-ID: <1jrtn4INN2b1@life.ai.mit.edu>
  9. References: <1993Jan21.005656.25514@newstand.syr.edu> <2261@blue.cis.pitt.edu> <1993Jan22.122553.4823W@lumina.edb.tih.no>
  10. NNTP-Posting-Host: wheat-chex.ai.mit.edu
  11.  
  12. In article <1993Jan22.122553.4823W@lumina.edb.tih.no> ketil@edb.tih.no (Ketil Albertsen,TIH) writes:
  13. >10646/1 is supposedly a 32-bit identification scheme intended to
  14. >cover just about any printable symbol in the world, while 10646/2, or Unicode,
  15. >is a subset using 16 bit codes for text symbols (characters or Asian-
  16. >style symbols).
  17.  
  18. ISO/IEC 10646-1:1993 (to be published in the first or second quarter this
  19. year) defines one repertoire of characters and two encoding forms
  20. The encoding forms are called UCS4 (Universal Character Set 4-Octet)
  21. and UCS2 (Universal Character Set 2-Octet), the former interpreted as 32-bit
  22. unsigned integers, the latter as 16-bit unsigned integers.  The UCS2 encoding
  23. form is related to the UCS4 encoding form by zero extension; that is, by
  24. zero extending the 16-bit form to 32 bits, the equivalent UCS4 encoding form
  25. is created.
  26.  
  27. No characters are currently assigned to codepoints (bit combinations) outside
  28. of UCS2 (also called the Basic Multilingual Plane or BMP for short).  Out
  29. of the 65,536 distinct bit combinations in UCS2, 34,168 are assigned to
  30. characters, 6,467 are reserved, and 24,901 are available for future assignment.
  31.  
  32. The UCS2 encoding space is divided into sections, whose contents are
  33. characterized below:
  34.  
  35. A-Zone (Alphabetic)    (11,892 assigned, 65 reserved, 8,011 available)
  36.  
  37.   Alphabets
  38.   Hangul Jamo Alphabet
  39.   Latin & Greek Precombined Forms
  40.   Symbols
  41.   CJK Auxiliaries
  42.   Hangul Precombined Syllable Forms
  43.  
  44. I-Zone (Ideographic)    (20,902 assigned, 0 reserved, 90 available)
  45.  
  46.   CJK Unified Ideographs
  47.  
  48. O-Zone (Open)        (0 assigned, 0 reserved, 16,384 available)
  49.  
  50.   Unassigned
  51.  
  52. R-Zone (Restricted)    (1,374 assigned, 6402 reserved, 416 available)
  53.  
  54.   Private Use Area
  55.   CJK Ideograph Compatibility
  56.   Presentation Compatibility
  57.   Other Compatibility & Specials
  58.  
  59. Glenn Adams
  60.  
  61.  
  62.  
  63.