home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #30 / NN_1992_30.iso / spool / comp / std / internat / 872 < prev    next >
Encoding:
Internet Message Format  |  1992-12-16  |  4.2 KB

  1. Xref: sparky comp.std.internat:872 news.admin.misc:787
  2. Path: sparky!uunet!cs.utexas.edu!uwm.edu!caen!sol.ctr.columbia.edu!ira.uka.de!news.belwue.de!math.fu-berlin.de!fauern!uni-erlangen.de!not-for-mail
  3. From: unrza3@cd4680fs.rrze.uni-erlangen.de (Markus Kuhn)
  4. Newsgroups: comp.std.internat,news.admin.misc
  5. Subject: Re: 8-bit representation, plus an X problem
  6. Date: 16 Dec 1992 15:32:56 +0100
  7. Organization: Regionales Rechenzentrum Erlangen
  8. Message-ID: <1gnemoEINN3qo@uni-erlangen.de>
  9. References: <171@complex.complex.is> <eaRsVB2w165w@blues.kk.sub.org> <BzBJ0I.34s@ra.nrl.navy.mil>
  10. Reply-To: mskuhn@immd4.informatik.uni-erlangen.de
  11. NNTP-Posting-Host: cd4680fs.rrze.uni-erlangen.de
  12. Lines: 79
  13. Keywords: ISO8859-1 CP850 fidonet gateway
  14.  
  15. atkinson@itd.nrl.navy.mil (Randall Atkinson) writes:
  16.  
  17. >  Shouldn't really take any longer if done correctly.  Certainly the
  18. >good folks at AT&T Bell Labs have shown that it works quite nicely.
  19. >The Bell Labs encoding for ISO-10646 appears to be the leading
  20. >contender for adoption by MIME as the conventional way to encode
  21. >ISO-10646 in MIME email -- and it would be just fine with either 7-bit
  22. >or 8-bit transport (if I understand Andrew Hume correctly).
  23.  
  24. The Plan 9 UTF format is clearly an 8-bit format. So we would get the following
  25. transformation pipeline:
  26.  
  27.  
  28.                1. The Bitmaps of the characters encoded in a local charset
  29.                   with local codes (e.g. Latin 1, IBM CP850, ...)
  30.  
  31.                               |
  32.                               V       ISO 10646
  33.  
  34.                2. The numbers in the rage 0 to 65535
  35.  
  36.                               |
  37.                               V       one of the proposed UTFs (e.g. from P9)
  38.  
  39.                3. A stream of bytes (8-bit!!!)
  40.  
  41.                               |
  42.         only for mail ->      V       an 8-bit transparent 7-bit encoding
  43.  
  44.                4. A printable stream suitable for historical
  45.                   mail systems.
  46.  
  47. The receiving system has to perform the reverse steps. (Yes, I know
  48. that I used the wrong terminology and that there are ISO standards defining
  49. a much more detailed reference model of the character set universe,
  50. but a poor CS student can't even pay the ISO documents that define
  51. them, so how could I read them ... :-( )
  52.  
  53. The only STANDARD which we will have in a few months is a mapping
  54. between the characters (bitmaps) to a space of numbers in a huge table.
  55. Unfortunately, ISO 10646 doesn't tell us a lot about how we should deal
  56. with these numbers. We still have to define the second and third step
  57. in the above pipeline. I heard roumors, that the Plan 9 UTF version will
  58. be added as UTF-2 to an ISO 10646 annex, can anyone confirm this? Perhaps
  59. we really should wait as suggested by Randall Atkinson for the final
  60. version of ISO 10646 before starting to include anything new (e.g.
  61. a 16-bit encoding) in MIME.
  62.  
  63. Will there be other ISO standards (e.g. POSIX, etc.) that define
  64. precisely how to handle the numbers defined by ISO 10646? The Plan 9
  65. stuff seems to be very promising.
  66.  
  67. >Moreover,
  68. >the transported character set and the displayed character set need not
  69. >be the same.
  70.  
  71. Of course. But USENET users will have difficulties in understanding this,
  72. as there isn't currently anything like a presentation layer (as defined in the
  73. OSI reference model) that performs the conversion between the local
  74. representation (e.g. I prefer Latin 1 files) and the encoding used on
  75. the network (e.g. any 8-bit encoding on news and 7-bit encoding on
  76. email). This won't cause any news/email interworking troubles, as
  77. every text has to be converted anyway. (Perhaps in the far future of
  78. ISO 10646 terminals and editors, the presentation layer (e.g. realised
  79. by software converting MIME to/from a local format) might disappear again,
  80. as then the local format and the network format will be the same like
  81. this is today the case with US-ASCII). Yes, MIME is a presentation
  82. layer protocol for USENET and SMPT.
  83.  
  84. Such a model should perhaps more clearly be explained in future MIME 
  85. extending standards.
  86.  
  87. Markus
  88.  
  89. -- 
  90. Markus Kuhn, Computer Science student -=-=- University of Erlangen, Germany
  91. Internet: mskuhn@immd4.informatik.uni-erlangen.de  |  X.500 entry available
  92. ----- Anyone participating in the use of MS-DOS, Heroin or Cocaine is -----
  93. ---- simply not getting the most out of life possible. (Brian Downing) ----
  94.