home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #30 / NN_1992_30.iso / spool / comp / std / internat / 893 < prev    next >
Encoding:
Internet Message Format  |  1992-12-17  |  2.3 KB

  1. Xref: sparky comp.std.internat:893 news.admin.misc:818
  2. Path: sparky!uunet!spool.mu.edu!uwm.edu!zaphod.mps.ohio-state.edu!pacific.mps.ohio-state.edu!linac!att!att!allegra!alice!andrew
  3. From: andrew@alice.att.com (Andrew Hume)
  4. Newsgroups: comp.std.internat,news.admin.misc
  5. Subject: Re: 8-bit representation, plus an X problem
  6. Summary: lets not get carried away here
  7. Message-ID: <24433@alice.att.com>
  8. Date: 17 Dec 92 16:01:33 GMT
  9. Article-I.D.: alice.24433
  10. References: <24426@alice.att.com| <1gpruaINNhfm@frigate.doc.ic.ac.uk>
  11. Organization: AT&T Bell Laboratories, Murray Hill NJ
  12. Lines: 34
  13.  
  14. In article <1gpruaINNhfm@frigate.doc.ic.ac.uk>, rap@news (Ross Paterson) writes:
  15. > It's hard to imagine that FSS-UTF will be popular with users of those
  16. > alphabets (all originating in Asia, BTW) whose letters are going to
  17. > take up 3 bytes, while they take up 2 in UTF-1 and 7 bits or so in
  18. > existing standards.
  19.  
  20.  
  21.     i wish folks would just come out and say the character sets they mean.
  22. if you mean kanji (shift-jis), or chinese (GB2312-80 or Big 5), or korean,
  23. then the existing practice is two bytes per character.
  24.  
  25.     UTF-1 does #00-#9f in one byte, #a0-#4015 in two bytes, and #4106-#ffff
  26. in three bytes. FSS-UTF does #00-#7f in one byte, #80-#7ff in two bytes and
  27. #800-#ffff in three bytes. given the unified han characters now start at #4e00,
  28. i'd say FSS-UTF and UTF-1 had pretty much the same performance here.
  29.  
  30.     certainly, the characters between #800 and #4015 will take 50% more
  31. space in FSS-UTF than UTF-1. from our file command (which guesses at languages),
  32. this would seem to include Devanagari, Bengali, Gurmukhi, Gujarati, Oriya,
  33. Tamil, Telugu, Kannada, Malayalam, Thai, Lao, Tibetan, Georgian,
  34. Japanese (hiragana etc), chinese (some) and korean. (with the exceptions
  35. of the CJK scripts and perhaps georgian, there is no measureable email
  36. traffic in these scripts.)
  37.  
  38.      and even for these scripts, i would guess connectivity (in the sense
  39. of being able to send/receive messages at all) matters more to those folks
  40. than the increase in space (how much of your disk is mail?) or decrease in
  41. bandwidth (in most messages i see, headers are 30-50% of the message).
  42.  
  43.     in any case, i agree there is a space overhead. its up to users
  44. to figure out if its worth it; i just wanted to clear up factual errors.
  45.  
  46.  
  47.             andrew
  48.