home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #18 / NN_1992_18.iso / spool / comp / std / unix / 393 < prev    next >
Encoding:
Internet Message Format  |  1992-08-18  |  1.9 KB

  1. Path: sparky!uunet!uunet!not-for-mail
  2. From: mohta@necom830.cc.titech.ac.jp (Masataka Ohta)
  3. Newsgroups: comp.std.unix
  4. Subject: Re: ISO 10646 files
  5. Date: 18 Aug 1992 21:29:55 -0700
  6. Organization: Tokyo Institute of Technology
  7. Lines: 43
  8. Sender: sef@ftp.UU.NET
  9. Approved: sef@ftp.uucp (Moderator, Sean Eric Fagan)
  10. Message-ID: <16sio3INN3lr@ftp.UU.NET>
  11. References: <16p6bmINNs1l@ftp.UU.NET>
  12. NNTP-Posting-Host: ftp.uu.net
  13. X-Submissions: std-unix@uunet.uu.net
  14.  
  15. Submitted-by: mohta@necom830.cc.titech.ac.jp (Masataka Ohta)
  16.  
  17. In article <16p6bmINNs1l@ftp.UU.NET>
  18.     mskuhn@immd4.informatik.uni-erlangen.de (Markus Kuhn) writes:
  19.  
  20. >How UCS-2 files have to be handeled under future OS versions (e.g. UNIX)
  21. >seems to be quite obvious:
  22. >
  23. >  - Every UCS-2 file begins with feff. If it begins with fffe, than library
  24. >    routines will activate a 'byte order swap mode' that corrects the
  25. >    data from an otherendian machine.
  26.  
  27. What?
  28.  
  29. How can 'cat' know the file being read is a text file?
  30.  
  31. Do you want to introduce an infamous "FILE TYPE" to UNIX?
  32.  
  33. >  - In this way, every UNIX tool (cc, cat, ...) can easily determine,
  34. >    how the file has to be interpreted, because everything starting
  35. >    with something else is considered to be an 8-bit Latin 1 encoded
  36. >    file (if it is interpreted as a 'text file' at all).
  37.  
  38. What if a 8-bit Latin 1 file begins with 0xfffe?
  39.  
  40. Code points 0xfe and 0xff represent valid Latin 1 characters.
  41.  
  42.     0xfe: LATIN SMALL LETTER THORN
  43.     0xff: LATIN SMALL LETTER Y WITH DIAERESIS
  44.  
  45. Can you still say "quite obvious"?
  46.  
  47. >But how may UCS-4 files be identified? Do they always begin with 0000feff
  48. >and are converted if they begin with fffe0000 or other permutations?
  49. >Does ISO 10646 say anything about this or will any future POSIX extension do?
  50.  
  51. It is one of the well known defects of ISO 10646, which the standardizing
  52. committee simply neglected.
  53.  
  54.                             Masataka Ohta
  55.  
  56.  
  57. Volume-Number: Volume 29, Number 5
  58.