home *** CD-ROM | disk | FTP | other *** search
/ Usenet 1994 January / usenetsourcesnewsgroupsinfomagicjanuary1994.iso / sources / std_unix / volume.29 / text0009.txt < prev    next >
Encoding:
Text File  |  1992-12-26  |  1.8 KB  |  43 lines

  1. Submitted-by: enag@ifi.uio.no (Erik Naggum)
  2.  
  3. Peter da Silva <peter@ferranti.com> writes:
  4. >In article <16rpgaINNol0@ftp.UU.NET> david@mks.com (David Rowley) writes:
  5. >> Note that UTF and 8-bit Latin 1 (ISO 8859-1) are identical for
  6. >> characters 0x00 to 0x9f.  Codepoints above 0x9f are used to
  7. >> introduce the multibyte sequences.
  8. >
  9. >That seems strange. 0x80 through 0x9f are all controls, and all the
  10. >national characters in Latin-1 are in 0xA0 to 0xFF. Why would they allow
  11. >Latin-1 control codes (CSI, etc) and blow off all the graphics? Are you
  12. >sure they didn't overload the high control range (0x80 to 0x9f)? That
  13. >would seem a much more useful encoding.
  14.  
  15. Character numbers 128 (0x80) through 159 (0x9F) are not used in ISO
  16. 10646, and are not used in UTF, either.  It's highly misleading to claim
  17. that they are used, since, in fact, they aren't even graphic characters
  18. in _any_ ISO 4873-conforming coded character set (of which the ISO 8859
  19. family is an instance), and row 0 of ISO 10646 (but only row 0) conforms
  20. to ISO 4873 with respect to not populating the control character ranges
  21. with graphic characters.
  22.  
  23. ISO 8859-1 characters (i.e. the right half of row 0) are introduced with
  24. character number 160 (0xA0).  Following this "code extension" character
  25. is a single ISO 8859-1 character with the same character number that the
  26. character has in ISO 8859-1.
  27.  
  28. For example, if the original string is (hex) A1 43 61 72 61 6d 62 61 21
  29. ("!Caramba!" with the first ! up-side down) in ISO 8859-1, it will be
  30. (hex) A0 A1 43 61 72 61 6d 62 61 21 in ISO 10646 UTF.
  31.  
  32. Best regards,
  33. </Erik>
  34. --
  35. Erik Naggum             |  ISO  8879 SGML     |      +47 295 0313
  36.                         |  ISO 10744 HyTime   |
  37. <erik@naggum.no>        |  ISO 10646 UCS      |      Memento, terrigena.
  38. <enag@ifi.uio.no>       |  ISO  9899 C        |      Memento, vita brevis.
  39.  
  40.  
  41. Volume-Number: Volume 29, Number 10
  42.  
  43.