home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1997 December / Internet_Info_CD-ROM_Walnut_Creek_December_1997.iso / drafts / draft_n_r / draft-rfced-info-tamaru-00.txt < prev    next >
Text File  |  1997-08-26  |  10KB  |  282 lines

  1.  
  2.     
  3. INTERNET DRAFT               EXPIRES FEB 1998            INTERNET DRAFT
  4. Network Working Group                              MicrosoftCorporation
  5. Internet Draft                                                 K.Tamaru
  6.  
  7.  
  8.             Japanese Character Encoding for Internet Messages
  9.                    <draft-rfced-info-tamaru-00.txt>
  10.  
  11.  
  12. Status of This Memo
  13.  
  14. This document is an Internet-Draft.  Internet-Drafts are working
  15. documents of the Internet Engineering Task Force (IETF), its
  16. areas, and its working groups.  Note that other groups may also
  17. distribute working documents as Internet-Drafts.
  18.  
  19. Internet-Drafts are draft documents valid for a maximum of six
  20. months and may be updated, replaced, or obsoleted by other
  21. documents at any time.  It is inappropriate to use Internet-
  22. Drafts as reference material or to cite them other than as
  23. ``work in progress.''
  24.  
  25. To learn the current status of any Internet-Draft, please check
  26. the ``1id-abstracts.txt'' listing contained in the Internet-
  27. Drafts Shadow Directories on ftp.is.co.za (Africa),
  28. nic.nordu.net (Europe), munnari.oz.au (Pacific Rim),
  29. ds.internic.net (US East Coast), or ftp.isi.edu (US West Coast).
  30.  
  31. Distribution of this document is unlimited.
  32.  
  33.  
  34.  
  35.  
  36. 1. Abstract
  37.  
  38.     This memo defines an encoding scheme for the Japanese Characters,
  39.     describes 'ISO-2022-JP', which is used in electronic mail[RFC 822], 
  40.     and network news [RFC 1036]. Also this memo provides a listing of
  41.     the Japanese Character Set that can be used in this encoding scheme.
  42.  
  43. 2. Introduction
  44.  
  45.     RFC 1468 defines the way Japanese Characters are encoded, likewise
  46.     what this memo defines. It defines the use of JIS X 0208 as the 
  47.     double-byte character set in ISO-2022-JP text.
  48.  
  49.     Today, many operating systems support proprietary extended Japanese 
  50.     characters or JIS X 0212, This includes the Unicode character set,
  51.     which does not conform to JIS X 0201 nor JIS X 0208. Therefore,
  52.     this limits the ability to communicate and correspond precise
  53.     information because of the limited availability of Kanji characters.
  54.     Fortunately JIS(Japanese Industry Standard) defines JIS X 0212 as
  55.     "code of the supplementary Japanese graphic character set for
  56.     information interchange". Most Japanese characters which are used
  57.     regular electronic mail in most cases can be accommodated in
  58.     JIS X 0201, JIS X 0208 and JIS X 0212.
  59.  
  60.     Also it is recognized that there is a tendency to use Unicode,
  61.     however, Unicode is not yet widely used and there is a certain
  62.     limitation with old electronic mail system. Furthermore, the
  63.     purpose of this comment is to add the capability of writing out
  64.     JIS X 0212.
  65.  
  66.     This comment does not describe any representation of iso-2022-jp
  67.     version information in addition to JIS X 0212 support.
  68.  
  69. 3. Description
  70.  
  71.     In "ISO-2022-JP" text, the initial character code of the message is
  72.     in ASCII. The "double-byte-seq"(see "Format Syntax" section)
  73.     (ESC "$" "B" / ESC "$" "@" / ESC "$" "(" "D") is the only designator
  74.     that indicates that the following character is double-byte, and it 
  75.     is valid until another escape sequence appears.
  76.  
  77.  
  78.  
  79. Tamaru                                                          [Page 1]
  80. Internet Draft                               Japanese Character Encoding
  81.  
  82.  
  83.     The end of "ISO-2022-JP" text must also be in ASCII. Also it is
  84.     strongly recommended to back up to the ASCII at the end of each
  85.     line rather than JIS X 0201-Roman if there is any none ASCII
  86.     character in middle of a line.  JIS X 0201-Roman is not identical
  87.     to the ASCII with two different characters.
  88.  
  89.     The following list are the escape sequences and character sets that
  90.     can be used in "ISO-2022-JP" text. The registered number in the
  91.     ISO 2375 Register which allow double-byte ideographic scripts to be 
  92.     encoded within ISO/IEC 2022 code structure is indicated as reg#
  93.     below.
  94.  
  95.    reg# character set     ESC sequence                    designated to
  96.     6    ASCII             ESC 2/8 4/2                     ESC ( B   G0
  97.     42   JIS X 0208-1978   ESC 2/4 4/0                     ESC $ @   G0
  98.     87   JIS X 0208-1983   ESC 2/4 4/2                     ESC $ B   G0
  99.     14   JIS X 0201-Roman  ESC 2/8 4/10                    ESC ( J   G0
  100.     159  JIS X 0212-1990   ESC 2/4 2/8 4/4                 ESC $ ( D G0
  101.     
  102.     Other restrictions are given in the Formal Syntax below.
  103.  
  104. 4. Formal Syntax
  105.  
  106.     The notational conventions used here are identical to those used in
  107.     STD 11, RFC 822 [RFC822].
  108.  
  109.     The * (asterisk) convention is as follows:
  110.  
  111.            l*m something
  112.  
  113.     meaning at least l and at most m something, with l and m taking
  114.     default values of 0 and infinity, respectively.
  115.  
  116.     message             =3D headers 1*(CRLF text)
  117.                                 ; see also [MIME1] "body-part"
  118.                                 ; note: must end in ASCII
  119.  
  120.     text                =3D *(single-byte-char *segment
  121.                          single-byte-seq *single-byte-char )
  122.  
  123.     headers             =3D <see [RFC822] "fields" and [MIME1] 
  124.              "body-part">
  125.  
  126.     segment             =3D single-byte-segment / double-byte-segment
  127.  
  128.  
  129.  
  130.  
  131. Tamaru                                                          [Page 2]
  132. Internet Draft                   Japanese Character Encoding
  133.  
  134.  
  135.     single-byte-segment =3D single-byte-seq *single-byte-char
  136.  
  137.     double-byte-segment =3D double-byte-seq *(one-of-94 one-of-94)
  138.  
  139.     reset-seq           =3D ESC "(" ( "B" / "J" )
  140.  
  141.     single-byte-seq     =3D ESC "(" ( "B" / "J" )
  142.  
  143.     double-byte-seq     =3D (ESC "$" ( "@" / "B" )) /
  144.                             (ESC "$" "(" "D" )
  145.  
  146.     CRLF                =3D CR LF
  147.                                                      ;( Octal,  Decimal.)
  148.     ESC                 =3D <ISO 2022 ESC, escape>     ;( 33,     27.   )
  149.  
  150.     SI                  =3D <ISO 2022 SI, shift-in>    ;( 17,     15.   )
  151.  
  152.     SO                  =3D <ISO 2022 SO, shift-out>   ;( 16,     14.   )
  153.  
  154.     CR                  =3D <ASCII CR, carriage return>;( 15,     13.   )
  155.  
  156.     LF                  =3D <ASCII LF, linefeed>       ;( 12,     10.   )
  157.  
  158.     one-of-94           =3D <any one of 94 values>     ;(41-176, 33.-126.)
  159.  
  160.     one-of-96           =3D <any one of 96 values>     ;(40-177, 32.-127.)
  161.  
  162.     7BIT                =3D <any 7-bit value>          ;( 0-177, 0.-127. )
  163.  
  164.     single-byte-char    =3D <any 7BIT, including bare CR & bare LF,
  165.     but NOT including CRLF, and not including ESC, SI, SO>
  166.  
  167. 5. Security Considerations
  168.  
  169.     This draft does not address security issues.
  170.  
  171. 6. MIME Considerations
  172.  
  173.     The name to be used for the Japanese encoding scheme in content is
  174.     "ISO-2022-JP". When this name is used in the MIME message form, it
  175.     would be:
  176.  
  177.         Content-Type: text/plain; charset=3Diso-2022-jp
  178.  
  179.  
  180.  
  181.  
  182.  
  183.  
  184.  
  185. Tamaru                                                          [Page 3]
  186. Internet Draft                               Japanese Character Encoding
  187.  
  188.  
  189.     Since the "ISO-2022-JP" is 7bit encoding, it will be unnecessary to 
  190.     encode in another format by specifying the
  191.     "Content-Trasnfer-Encoding" header. Also applying Based64 or
  192.     Quoted-Printable encoding may cause today's software to fail to
  193.     decode the message.
  194.  
  195.     "ISO-2022-JP" can be used in MIME headers. Also "ISO-2022-JP" text
  196.     can be used with Base64 or Quoted-Printable encoding.
  197.  
  198. 7. Additional Information
  199.  
  200.     As long as mail systems are capable of writing out Unicode, it is
  201.     recommended to also write out Unicode text in addition to
  202.     "ISO-2022-JP" text.
  203.  
  204.     Some mail systems write out 8bits characters in 'parameter' and
  205.     'value' defined in [RFC 822] and [RFC 1521]. All 8bit
  206.     characters must not be used in those fields. The implementation
  207.     of future mail systems should support those only for
  208.     interoperability reasons.
  209.  
  210. 8. References
  211.  
  212. [ISO2022]
  213.           International Organization for Standardization (ISO),
  214.           "Information processing -- ISO 7-bit and 8-bit coded
  215.           character sets -- Code extension techniques",
  216.           International Standard, Ref. No. ISO 2022-1986 (E).
  217.  
  218. [ISOREG] International Organization for Standardization (ISO),
  219.           "International Register of Coded Character Sets To Be Used
  220.           With Escape Sequences".
  221.  
  222. [RFC-822]
  223.           Crocker, D., "Standard for the Format of ARPA Internet
  224.           Text Messages", RFC> 822 August, 1982.
  225.  
  226. [2022JP]
  227.           Murai, J., Crispin, M., and E. van der Poel, "Japanese
  228.           Character Encoding for Internet Messages", RFC 1468, June
  229.           1993.
  230.  
  231. [RFC-1766]
  232.           Alvestrand, H., "Tags for the Identification of
  233.           Languages", RFC 1766, March, 1995.
  234.  
  235.  
  236.  
  237.  
  238.  
  239. Tamaru                                                        [Page =4]
  240. Internet Draft                              Japanese Character Encoding
  241.  
  242.  
  243. [RFC-2045]
  244.           Freed, N. and Borenstein, N., "Multipurpose Internet Mail
  245.           Extensions (MIME) Part One: Format of Internet Message
  246.           Bodies", RFC 2045, Innosoft, First Virtual Holdings,
  247.           December 1996.
  248.  
  249. [RFC-2046]
  250.           Freed, N. and Borenstein, N., "Multipurpose Internet Mail
  251.           Extensions (MIME) Part Two: Media Types", RFC 2046,
  252.           Innosoft, First Virtual Holdings, December 1996.
  253.  
  254. [RFC-2047]
  255.           Moore, K., "Multipurpose Internet Mail Extensions (MIME)
  256.           Part Three: Representation of Non-ASCII Text in Internet
  257.           Message Headers", RFC 2047, University of Tennessee,
  258.           December 1996.
  259.  
  260. [RFC-2048]
  261.           Freed, N., Klensin, J., Postel, J., "Multipurpose
  262.           Internet Mail Extensions (MIME) Part Four: MIME
  263.           Registration Procedures", RFC 2048, Innosoft, MCI, ISI,
  264.           December 1996.
  265.  
  266. [RFC-2049]
  267.           Freed, N. and Borenstein, N., "Multipurpose Internet Mail
  268.           Extensions (MIME) Part Five: Conformance Criteria and
  269.           Examples", RFC 2049, Innosoft, FIrst Virtual Holdings,
  270.           December 1996.
  271.  
  272. 9. Author's Address
  273.  
  274.             Kenzaburo Tamaru
  275.             Microsoft Corporation
  276.             One Microsoft Way
  277.             Redmond, WA 98052-6399
  278.  
  279.             E-Mail: kenzat@microsoft.com
  280.  
  281. INTERNET DRAFT            EXPIRES FEB 1998           INTERNET DRAFT
  282.