home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / std / internat / 1103 < prev    next >
Encoding:
Text File  |  1993-01-07  |  4.3 KB  |  89 lines

  1. Newsgroups: comp.std.internat
  2. Path: sparky!uunet!haven.umd.edu!darwin.sura.net!gatech!usenet.ins.cwru.edu!agate!dog.ee.lbl.gov!hellgate.utah.edu!fcom.cc.utah.edu!cs.weber.edu!terry
  3. From: terry@cs.weber.edu (A Wizard of Earth C)
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Message-ID: <1993Jan8.031949.6284@fcom.cc.utah.edu>
  6. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  7. Sender: news@fcom.cc.utah.edu
  8. Organization: University of Utah Computer Center
  9. References: <2615@titccy.cc.titech.ac.jp> <1993Jan5.090747.29232@fcom.cc.utah.edu> <id.EAHW.92A@ferranti.com> <1993Jan7.033153.12133@fcom.cc.utah.edu> <1ihfj7EINNhmj@uni-erlangen.de>
  10. Date: Fri, 8 Jan 93 03:19:49 GMT
  11. Lines: 76
  12.  
  13. In article <1ihfj7EINNhmj@uni-erlangen.de>, unrza3@cd4680fs.rrze.uni-erlangen.de (Markus Kuhn) writes:
  14. |> terry@cs.weber.edu (A Wizard of Earth C) writes:
  15. |> 
  16. |> >Consider that Runic encoding is antithetical in terms of single character
  17. |> >changes for fixed record length files by virtue of it's ability to either
  18. |> >change record size (destroying the seek-offset record addressing) or by
  19. |> >changing the amount of data representable in a field (destroying the
  20. |> >ability to use fixed-length fields for input in the front end client).
  21. |> 
  22. |> The C type Rune has been defined in the Tompson paper about Plan 9 Unicode
  23. |> encoding as "unsigned short" = 16bit per character. The 1+ byte encoding is
  24. |> called by all people UTF (there are different versions, Plan 9 uses UTF-2).
  25. |> I believe you mixed up the meanings of UTF encoded and Runic encoding.
  26. |> 
  27. |> It seems to be absolutely obvious that there are many applications,
  28. |> where a fixed length runic encoding with 16 bit/character is useful.
  29. |> That's also the reason, why UTF <-> Rune translation routines (which
  30. |> are very easy to implement) have been included in Plan 9 libraries.
  31. |> 
  32. |> There are also very good reasons to use UTF, especially, where 
  33. |> compatibility with ASCII is of benefit.
  34. |> 
  35. |> Sorry, I don't understand your problem at all.
  36. |> 
  37. |> Markus
  38. |> 
  39. |> -- 
  40. |> Markus Kuhn, Computer Science student -=-=- University of Erlangen, Germany
  41. |> Internet: mskuhn@immd4.informatik.uni-erlangen.de  |  X.500 entry available
  42. |> --- Wer, wie, was? Wieso, weshalb, warum? Wer nichts fragt bleibt dumm. ---
  43.  
  44. Ken Thompson, in the comments utf-fss.c (anonymous FTP to metis.com), the Plan
  45. 9 UTF mechanism:
  46.  
  47.  * Proposed FSS-UTF
  48.  * ----------------
  49.  *
  50.  * The proposed UCS transformation format encodes UCS values in the range
  51.  * [0,0x7fffffff] using multibyte characters of lengths 1, 2, 3, 4, 5,
  52.  * and 6 bytes.  For all encodings of more than one byte, the initial
  53.  * byte determines the number of bytes used and the high-order bit in
  54.  * each byte is set.  Every byte that does not start 10xxxxxx is the
  55.  * start of a UCS character sequence.
  56.  *
  57.  * An easy way to remember this transformation format is to note that the
  58.  * number of high-order 1's in the first byte signifies the number of
  59.  * bytes in the multibyte character:
  60.  *
  61.  * Bits  Hex Min  Hex Max  Byte Sequence in Binary
  62.  *   7  00000000 0000007f 0vvvvvvv
  63.  *  11  00000080 000007FF 110vvvvv 10vvvvvv
  64.  *  16  00000800 0000FFFF 1110vvvv 10vvvvvv 10vvvvvv
  65.  *  21  00010000 001FFFFF 11110vvv 10vvvvvv 10vvvvvv 10vvvvvv
  66.  *  26  00200000 03FFFFFF 111110vv 10vvvvvv 10vvvvvv 10vvvvvv 10vvvvvv
  67.  *  31  04000000 7FFFFFFF 1111110v 10vvvvvv 10vvvvvv 10vvvvvv 10vvvvvv 10vvvvvv
  68.  *
  69.  * The UCS value is just the concatenation of the v bits in the multibyte
  70.  * encoding.  When there are multiple ways to encode a value, for example
  71.  * UCS 0, only the shortest encoding is legal.
  72.  
  73. My problem is not with ANSI-style fixed length Runes, but with this style of
  74. Runic encoding, where the length is *not* fixed for the purposes of
  75. compatability with existing 7-bit US ASCII files (this makes 7-bit ASCII
  76. automatically "encoded" at the expense of all other characters).
  77.  
  78.  
  79.                     Terry Lambert
  80.                     terry@icarus.weber.edu
  81.                     terry_lambert@novell.com
  82. ---
  83. Any opinions in this posting are my own and not those of my present
  84. or previous employers.
  85. -------------------------------------------------------------------------------
  86.                                         "I have an 8 user poetic license" - me
  87.  Get the 386bsd FAQ from agate.berkeley.edu:/pub/386BSD/386bsd-0.1/unofficial
  88. -------------------------------------------------------------------------------
  89.