home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #30 / NN_1992_30.iso / spool / comp / os / mswindo / programm / win32 / 2502 < prev    next >
Encoding:
Internet Message Format  |  1992-12-16  |  2.7 KB

  1. Path: sparky!uunet!zaphod.mps.ohio-state.edu!cs.utexas.edu!sun-barr!lll-winken!framsparc.ocf.llnl.gov!booloo
  2. From: booloo@framsparc.ocf.llnl.gov (Mark Boolootian)
  3. Newsgroups: comp.os.ms-windows.programmer.win32
  4. Subject: Printable multibyte encodings
  5. Message-ID: <143664@lll-winken.LLNL.GOV>
  6. Date: 17 Dec 92 00:25:29 GMT
  7. Sender: usenet@lll-winken.LLNL.GOV
  8. Organization: Lawrence Livermore National Laboratory
  9. Lines: 51
  10. Nntp-Posting-Host: framsparc.ocf.llnl.gov
  11.  
  12. Following is part of a thread from the ietf mailing list.  I thought it
  13. might be of some interest to the readers of this group (then again, maybe
  14. not...)
  15.  
  16. From: henry@zoo.toronto.edu
  17. Date: Wed, 16 Dec 92 18:54:29 EST
  18. To: ietf@isi.edu
  19. Subject: Re: printable multibyte encodings 
  20.  
  21. >However, people should note that Windows NT, which promises to be a
  22. >very widespread and influential operating system, uses fixed size 16
  23. >bit Unicode through out including file names...  How is this
  24. >going to be handled in FTP, Telnet, etc.?  I believe that the Internet
  25. >should start migrating from predominantly 8 bit byte US ASCII to fixed
  26. >size 16 Unicode in most of its protocols where character strings
  27. >occur.
  28.  
  29. Unfortunately, this breaks *everything*, unless it's negotiated in some
  30. way, in which case we end up with two parallel sets of code which are
  31. identical except for the width of characters handled.
  32.  
  33. However... if you convince the NT versions of telnet etc. to encode their
  34. Unicode characters using the UTF-2 encoding before placing it on the net,
  35. then:
  36.  
  37. (1) So long as the NT crowd sticks to characters found in ASCII, *nothing*
  38.     has to change -- the UTF-2 representation of ASCII characters is
  39.     identical to ASCII.
  40.  
  41. (2) If the other Internet software is willing to tolerate 8-bit octets
  42.     in filenames etc. -- which will mean some adjustments to protocols,
  43.     and probably some reprogramming (but not nearly as much) -- then
  44.     everything works, without multiple versions of the code.  UTF-2
  45.     avoids octets that break things like C string functions.  The
  46.     only code that has to actually *know* that something funny is going
  47.     on is code that has to work with text character-by-character, e.g.
  48.     filename wildcard expanders.
  49.  
  50. (3) For text that is mostly ASCII, only one octet has to be transmitted
  51.     or stored per character.
  52.  
  53. I'm afraid that, in an interoperable world, Windows NT got this wrong and
  54. Bell Labs's Plan 9 got it right.  Using UTF-2 makes the transition a whole
  55. lot less painful, and doesn't break backward compatibility nearly as badly.
  56.  
  57.                                          Henry Spencer at U of Toronto Zoology
  58.                                           henry@zoo.toronto.edu   utzoo!henry
  59.  
  60. -- 
  61. Mark Boolootian        booloo@llnl.gov        +1 510 423 1948
  62. Disclaimer:  My fingers type for me alone.
  63.