home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1997 December / Internet_Info_CD-ROM_Walnut_Creek_December_1997.iso / ietf / 822ext / 822ext-minutes-91june.txt < prev    next >
Text File  |  1993-02-17  |  9KB  |  252 lines

  1.  
  2.  
  3.                     Minutes of the June 21
  4.            Message format extensions working group.
  5.  
  6.  
  7. Attendees
  8. ---------
  9.  
  10. Phill Gross              pgross@nis.ans.net
  11. Peter Svanberg           psu@nada.kth.se
  12. Byungnam Chung           bnchung.sokri.etra.re.kr
  13. Bob Kummerfeld           bob@ca.pn.oz.au
  14. Jonny Eriksson           bygg@sunet.se
  15. Jan Michael Rynning      jmr@nada.kth.se
  16. Keld Simonsen            keld.simonsen@dkuug.dk
  17. Greg Vaudreuil           gvaudre@nri.reston.va.us
  18.  
  19. Agenda
  20. ------
  21.  
  22. 1) Character Set Selection
  23.  
  24.    - Status and Input to the ISO 10646 process
  25.      o Unicode <=> ISO 10646 Union?
  26.      o Use of CO and C1 codespace
  27.  
  28.    - Selection of "Common" character sets or schemes
  29.      o ISO 8859-1, ISO 8859-n, Profiles for the use of ISO 2022?
  30.      o Specifying "requiredness"
  31.  
  32.    - Specification of 8 bit character sets in headers
  33.  
  34. Minutes
  35. -------
  36.  
  37. 1) Character Set Issues
  38.  
  39.    a) Unified character set
  40.  
  41.      1) Administrative
  42.  
  43. At last word, the ISO DIS 10646 received 9 YES votes and 14 NO
  44. votes, and work is proceeding to resolve the remaining issues.  An
  45. unofficial but promising effort is the work underway to unify ISO
  46. DIS 10646 and Unicode, another scheme for a global character set.
  47. This effort is being conducted outside the normal ISO
  48. process. This working group was asked to discuss this effort and
  49. endorse it if possible.  The working group discussed this effort,
  50. and agreed that the efforts to combine Unicode and 10646 were in
  51. fact positive.  
  52.  
  53.      2) Technical
  54.  
  55. The unification of ISO DIS 10646 and Unicode requires the
  56. resolution of several technical issues.  The primary
  57. issue,tentatively resolved involves "Han unification" a scheme that
  58. re-uses many of the graphics of the various Kanji character sets.
  59. Other issues involve the use of CO and C1 codespace.  The use of
  60. C0 and C1 codespace involves transport issues and this working
  61. group was asked for its input.
  62.  
  63. C0 codespace consists of the spaces between 0 and 31 and
  64. 127,traditionally used for control characters.  There is a proposal
  65. to use this space in the second octet of a multi-byte character for
  66. graphic characters.  The working group discussed this and rejected
  67. the use of this space.  A graphic character in the C0 space will
  68. likely be interpreted by a transport protocol as a control
  69. character.  Many transport protocols which interpret in-band data
  70. such as SMTP may behave unpredictably in this situation.  One
  71. example is where the sequence of graphics legally sent by a 8 bit
  72. sender may be mis-interpreted by a 7 bit receiver after bit
  73. stripping as a 13-10-46-13-10 sequence terminating the SMTP session
  74. prematurely.  Other related anomalies were envisioned. Unless all
  75. transport protocols are made aware of the multi-byte nature of the
  76. data, an unlikely occurrence any time soon, reuse of C0 space is
  77. not recommended.
  78.  
  79. C1 codespace consists of the spaces between 128-150, space that may
  80. be interpreted as control characters if the high order bit is
  81. stripped.  ISO 8859-n character sets, and the current 10646
  82. proposal reserve this space for control characters only, with an
  83. eye toward backward compatibility with 7 bit systems.  The working
  84. group discussed this and concluded that use of C1 codespace could
  85. be used for graphics if transport protocols could be relied upon
  86. to never strip the high order bit and interpret the resulting
  87. character as control sequences.  The working group did not make a
  88. specific recommendation, only that the use of C1 space to compact
  89. a character set was a positive thing, and future evolution
  90. transport protocols should support the use of this space for
  91. graphics.
  92.  
  93.  
  94.    b) Common Character Sets
  95.  
  96. In the absence of a single international standard character set,the
  97. working group needs to profile the use of a limited number of the
  98. 200+ character sets in use worldwide to facilitate interoperation. 
  99. Keld S. gave an overview of the current character sets in usage.
  100.  
  101. ISO 7 bit family:
  102.      ASCII
  103.      National Versions
  104.        10 National use
  105.        2 Alternate rep # $
  106.      ECMA registry
  107.        7, 8, 16 bit
  108.        ISO 2022 shifts
  109.  
  110. ISO 8 bit 8859 family:
  111.      1 char = 1 octet
  112.      ASCII in pos 0-127
  113.      Pos 160-255
  114.        Latin sets (5)
  115.        Cyrillic
  116.        Greek
  117.        Arabic
  118.        Hebrew
  119.  
  120. ISO 6937-2 family 8/16 bit:
  121.      6937-2, T.61
  122.      Non-Spacing accents
  123.      1 char = 1 or 2 bytes
  124.      about 330 graphical chars
  125.  
  126. Vendor 8 bit sets
  127.      DEC-MCS
  128.      HP Roman8
  129.      IBM PC codepages (5)
  130.        Uses also 128-159 (C1)
  131.      IBM EBCDIC
  132.        Many versions
  133.        Not ASCII Compatible
  134.  
  135. 16 bit char sets
  136.      Japanese: JIS 0208, 0212
  137.      Chinese: GB 1980
  138.      Korean:
  139.      Japanese 8/16 bit: Shift JIS
  140.      Unicode: New vendor charset unifies CN, JP, KO sets
  141.         Incompatible with ISO
  142.  
  143. Multi-byte:
  144.      EUC: Extended UNIX code
  145.        ISO 2022 shifting
  146.        SS1 SS2 SS3
  147.        4 char sets
  148.        8/16/24 bits   
  149.  
  150. 32 Bits:
  151.      ISO 10646
  152.        Also usable in 8, 16, or 24 bit compaction methods
  153.        Proper encoding subsets: ASCII and ISO 8859-1
  154.  
  155. Control Character Sets:
  156.      ISO 646: 0-31, 127
  157.      ISO 6429: 0-31, 127-159
  158.      EBCDIC: as ISO 646  
  159.      
  160. Several ideas were batted around, including strict use of ISO2022,
  161. profiling language to character set mapping, and the use of
  162. "preferred" character sets.  The working group felt that the best
  163. approach was to codify existing practice in the interim,pending
  164. adoption of an "international" character set.  This existing
  165. practice was reduced to the following.
  166.  
  167. If possible, use ISO 8859, with the lowest version number possible,
  168. i.e., use 8859-1 (Latin 1) over 8859-10? (Latin 5?). If the
  169. characters needed are not in the 8859 sets (i.e. Kanji)use the 2022
  170. character switching standard, declaring 2022 in the header of the
  171. document.  While this may lead to the use of any of the many
  172. characters in the ECMA registry, the WG felt that in practice, only
  173. the current Oriental mail systems will use the2022 system and only
  174. with limited character sets.
  175.  
  176.     c) Use of Non-ASCII character sets in headers. 
  177.  
  178.  
  179. What a mess!  The attendees of this meeting spend over an hour
  180. working on various schemes for indicating character sets in the
  181. headers of a message other than ascii.  It was identified as a
  182. requirement that the fields defined as TEXT be able to have
  183. variable character sets.  While this goal was stated, no mechanism
  184. for the implementation was agreed upon.
  185.  
  186. A modification of the BNF notation was suggested by Keld S.     
  187.  
  188. CHAR-EIGHT     = <any Eight-bit character>; (0-377, 0.-255)
  189.  
  190. qtext          = <any CHAR-EIGHT excepting <">,"\" & CR, and
  191.                including linear-white-space>
  192.  
  193. quoted-pair    = "\" CHAR-EIGHT
  194.  
  195. text           = <any CHAR-EIGHT, including bare CR & bare LF but
  196.                NOT including CRLF>
  197.  
  198.  
  199. This notation was accepted by the attendees of the meeting, however
  200. several problems were identified and not resolved.  1)
  201. Identification of the header character set and the need to for
  202. conversion, and 2) Encoding the header character sets in 7 bit
  203. transport format.
  204.  
  205. It was not clear how a conversion gateway would know that the
  206. header was 8 bit and needed encoding.  A suggestion accepted by the
  207. group was that the use of the new BNF requires the use of a header-
  208. charset header line.  This additional header adds complexity to
  209. user agents and conversion gateways by requiring two passes of the
  210. header to determine and convert the header into a passable or
  211. readable form.  It was felt that this was inelegant but do-able.
  212.  
  213. Several proposals were discussed for encoding the 8 bit text
  214. strings when 7 bit transport was required.  It was accepted that
  215. this was a hard requirement.  
  216.  
  217. 1) Variable Substitution
  218.  
  219.      On proposal for the insertion of 8 bit text was to substitute
  220. a variable name in the header for each text string needing 8 bit
  221. characters. The variable could then be defined elsewhere in the
  222. header, including the encoded actual string and a token indicating
  223. the character set.  This was rejected as messy and difficult to
  224. implement in current user agents.  
  225.  
  226. 2) Message Encapsulation
  227.  
  228. Encapsulate the mail message using the message type body part and
  229. a suitable transport encoding, preferable quoted-printable.  This
  230. proposal is controversial among at least one implementor of the
  231. message format standard as having excessive complexity for the user
  232. agent.  It is not clear the encapsulated message will be permitted
  233. to have a transport encoding.
  234.  
  235. 3) Encoded Text Fields
  236.  
  237. This proposal would specify a standard encoding for the header
  238. fields, possibly quoted-readable or quoted-printable and identify
  239. this fact in a header-transport-encoding header or the header-
  240. character-set header.  
  241.  
  242. Conclusions
  243.  
  244. While no one was happy, the group tentatively agreed to not permit
  245. 8 bit text in the headers. The only reasonable way to encode 7 bit
  246. text was to encode the text fields, and insert a new header line. 
  247. With this overhead the group agreed that while not ideal, a
  248. requirement that extended character sets should always be encoded,
  249. eliminating the need for intermediate gateways to parse and convert
  250. the headers.
  251.  
  252.