home *** CD-ROM | disk | FTP | other *** search
/ Usenet 1994 January / usenetsourcesnewsgroupsinfomagicjanuary1994.iso / sources / std_unix / volume.29 / text0001.txt < prev    next >
Encoding:
Text File  |  1992-12-26  |  1.1 KB  |  31 lines

  1. Submitted-by: david@mks.com (David Rowley)
  2.  
  3. In article <16p6bmINNs1l@ftp.UU.NET> mskuhn@immd4.informatik.uni-erlangen.de (Markus Kuhn) writes:
  4. >But how may UCS-4 files be identified? Do they always begin with 0000feff
  5. >and are converted if they begin with fffe0000 or other permutations?
  6. >Does ISO 10646 say anything about this or will any future POSIX extension do?
  7.  
  8. Being relatively new to ISO 10646, I believe the intent is to
  9. use the UCS Transformation Format (Annex F of 10646) as the
  10. standard external representation format (such as file contents,
  11. etc.).  This multibyte encoding supports both the UCS2 and UCS4
  12. codeplanes.
  13.  
  14. Note that UTF and 8-bit Latin 1 (ISO 8859-1) are identical for
  15. characters 0x00 to 0x9f.  Codepoints above 0x9f are used to
  16. introduce the multibyte sequences.
  17.  
  18. One problem, though, is that the UTF description in ISO 10646 is
  19. informative, rather than normative.  With this being the case
  20. can implementors safely point to UTF as a standard encoding?
  21.  
  22. -- 
  23. David Rowley
  24. Mortice Kern Systems Inc.
  25. 35 King Street North, Waterloo, ON, Canada N2J 2W9
  26. 519/884-2251, FAX 519/884-8861, david@mks.com
  27.  
  28.  
  29. Volume-Number: Volume 29, Number 3
  30.  
  31.