home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #30 / NN_1992_30.iso / spool / comp / std / internat / 914 < prev    next >
Encoding:
Internet Message Format  |  1992-12-21  |  2.7 KB

  1. Xref: sparky comp.std.internat:914 news.admin.misc:861
  2. Path: sparky!uunet!pipex!bnr.co.uk!uknet!mcsun!Germany.EU.net!incom!kostis!blues!kosta
  3. From: kosta@blues.kk.sub.org (Kosta Kostis)
  4. Newsgroups: comp.std.internat,news.admin.misc
  5. Subject: Re: Data tagging (was: 8-bit representation, plus an X problem)
  6. Keywords: magic codes, portable data
  7. Message-ID: <mq62VB1w165w@blues.kk.sub.org>
  8. Date: 20 Dec 92 01:52:45 GMT
  9. References: <1gtrpdINN6c4@corax.udac.uu.se>
  10. Organization: The Blues Family
  11. Lines: 53
  12.  
  13. andersa@Riga.DoCS.UU.SE (Anders Andersson) writes:
  14.  
  15. > [note Followup-To: comp.std.internat]
  16. > In article <1gt5a2EINNin3@uni-erlangen.de>, unrza3@cd4680fs.rrze.uni-erlangen
  17. > > It should also be noted, that at least one existing OS (Windows NT)
  18. > > uses a 2 byte encoding both internally (e.g. in filenames in Fnodes
  19. > > on the disc) as well as in text files. Text files always begin with
  20. >                           ^^
  21. > > FEFF as a magic code for ISO 10646 textes. This code also indicates,
  22. > > whether it is a littleendian file.
  23. > Is this magic code visible to the user without any special tricks,
  24. > or is it filtered away by the operating system when the file is
  25. > opened for reading?  Suppose I obtain a file, that is labeled as
  26. > containing IS 10646 text, via FTP from a server running Windows NT,
  27. > to a client running a different system--will I then get this 0xFEFF
  28. > magic code (which is meaningless on my system) too, or will I get a
  29. > 'clean' IS 10646 text?
  30.  
  31. Well, I guess programs will "see" either "0xFEFF" or "0xFFFE" depending
  32. on whether the file has been written by a big or a little endian.
  33. If you have a system for which ISO 10646 text files is not meaningless,
  34. the "magic" code isn't meaningless.
  35.  
  36. > I remember seeing text files containing an explicit ^Z (0x1A) at
  37. > the end, due to their origin on some home computer where ^Z was the
  38. > ordinary EOF marker, even though I was sitting on a system with
  39. > perfectly functional EOF pointers in the file descriptor blocks...
  40.  
  41. Never mind. That's a totaly different story. 
  42.  
  43. > I hope the above isn't yet another version of that problem (non-
  44. > standard tags or markers floating around with standards-compliant
  45. > data on systems not understanding them)?
  46.  
  47. The tag *is* defined the UniCode standard and so it should be defined
  48. in ISO 10646, too (this is an assumption). All systems capable of
  49. reading/displaying UniCode/ISO 10646-16-bit (the latter is not the
  50. official name) should follow this tagging.
  51.  
  52. > Alternatively, does this magic code have any chance of becoming
  53. > a standard itself?
  54.  
  55. See above.
  56.  
  57.         Kosta
  58.  
  59.  
  60. -- 
  61.   Kosta Kostis, Talstrasse 25, D-6074 Roedermark 3, Germany
  62.   kosta@blues.kk.sub.org                                        (home)
  63.   sw authors: please support ISO 8859-1!        dv|DV\_=aeoeueAEOEUEss
  64.