home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #30 / NN_1992_30.iso / spool / comp / std / internat / 813 < prev    next >
Encoding:
Internet Message Format  |  1992-12-12  |  1.9 KB

  1. Xref: sparky comp.std.internat:813 news.admin.misc:702
  2. Path: sparky!uunet!usc!sdd.hp.com!cs.utexas.edu!uwm.edu!linac!att!att!allegra!alice!andrew
  3. From: andrew@alice.att.com (Andrew Hume)
  4. Newsgroups: comp.std.internat,news.admin.misc
  5. Subject: Re: 16-bit news
  6. Summary: plan 9 utf details
  7. Message-ID: <24388@alice.att.com>
  8. Date: 11 Dec 92 21:47:14 GMT
  9. Article-I.D.: alice.24388
  10. References: <ByuIr9.8o8@ra.nrl.navy.mil> <ByuwAH.ICt@mudos.ann-arbor.mi.us> <1992Dec9.202955.4809@HQ.Ileaf.COM>
  11. Organization: AT&T Bell Laboratories, Murray Hill NJ
  12. Lines: 33
  13.  
  14. In article <1992Dec9.202955.4809@HQ.Ileaf.COM>, walters@HQ.Ileaf.COM (Tim Walters) writes:
  15. > For those of us not attending Usenix, would it be possible to get a
  16. > brief description of the difference between fss-utf and utf? Or is
  17. > there an ftp-able description somewhere?
  18. > -- 
  19. > Tim Walters, Interleaf          uunet!leafusa!walters, walters@HQ.Ileaf.com
  20.  
  21.  
  22.     I have made available a package of the plan 9 utf related
  23. manual pages on netlib. there is an ascii and postscript version
  24. (utfman.asc and utfman.ps) in the directory research/memo.
  25. that's all you nee dto know for netlib; for ftp, login
  26. into research.att.com as netlib.
  27.  
  28. for a quick idea, i quote the man page:
  29.  
  30.           Letting numbers be binary, a rune x is converted to a multi-
  31.           byte UTF sequence as follows:
  32.  
  33.           01. x in [00000000.0bbbbbbb] b 0bbbbbbb
  34.           10. x in [00000bbb.bbbbbbbb] b 110bbbbb, 10bbbbbb
  35.           11. x in [bbbbbbbb.bbbbbbbb] b 1110bbbb, 10bbbbbb, 10bbbbbb
  36.  
  37.           Conversion 01 provides a one-byte sequence that spans the
  38.           ASCII character set in a compatible way.  Conversions 10 and
  39.           11 represent higher-valued characters as sequences of two or
  40.           three bytes with the high bit set.  Plan 9 does not support
  41.           the 4, 5, and 6 byte sequences proposed by X-Open.  When
  42.           there are multiple ways to encode a value, for example rune
  43.           0, the shortest encoding is used.
  44.  
  45.  
  46. andrew
  47.