home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1997 December / Internet_Info_CD-ROM_Walnut_Creek_December_1997.iso / rfc / rfc1815 < prev    next >
Text File  |  1995-07-14  |  12KB  |  340 lines

  1.  
  2.  
  3.  
  4.  
  5.  
  6.  
  7. Network Working Group                                            M. Ohta
  8. Request For Comments: 1815                 Tokyo Institute of Technology
  9. Category: Informational                                        July 1995
  10.  
  11.  
  12.                Character Sets ISO-10646 and ISO-10646-J-1
  13.  
  14. Status of this Memo
  15.  
  16.    This memo provides information for the Internet community.  This memo
  17.    does not specify an Internet standard of any kind.  Distribution of
  18.    this memo is unlimited.
  19.  
  20. Abstract
  21.  
  22.    Though the ISO character set standard of ISO 10646 is specified
  23.    reasonably well about European characters, it is not so useful in an
  24.    fully internationalized environment.
  25.  
  26.    For the practical use of ISO 10646, a lot of external profiling such
  27.    as restriction of characters, restriction of combination of
  28.    characters and addition of language information is necessary.
  29.  
  30.    This memo provides information on such profiling, along with charset
  31.    names to each profiled instance.
  32.  
  33.    Though all the effort is done to make the resulting charset as useful
  34.    10646 based charset as possible, the result is not so good.  So, the
  35.    charsets defined in this memo are only for reference purpose and its
  36.    use for practical purpose is strongly discouraged.
  37.  
  38. Introduction
  39.  
  40.    This memo describes two text encoding schemes based on ISO 10646
  41.    [10646].
  42.  
  43.    As ISO 10646 specifies too little about how text is visualized, to
  44.    practically use ISO 10646, it is necessary to restrict the standard
  45.    minimally and then add some amount of profiling information.
  46.  
  47.    For ISO 2022 [ISO2022] based national standards, sufficient profiling
  48.    information is provided by national standardization bodies, but, for
  49.    ISO 10646, such a profiling is not yet provided.
  50.  
  51.    As the profiling of ISO 10646 largely affects which character or
  52.    combination of characters could be properly displayed, changes of
  53.    profiling of ISO 10646 are as significant as additions of new
  54.    character sets of ISO 2022.
  55.  
  56.  
  57.  
  58. M. Ohta                      Informational                      [Page 1]
  59.  
  60. RFC 1815       Character Sets ISO-10646 and ISO-10646-J-1      July 1995
  61.  
  62.  
  63.    That is, it's impractical to support the entirety of ISO 10646 (new
  64.    restriction or profiling can always be added), so a client needs to
  65.    know whether some restriction or profiling is being used before it
  66.    can decide whether to display the body part. Thus, it is necessary to
  67.    provide multiple charset names to each variation of ISO 10646.
  68.  
  69.    For example, in Japan with Japanese windows NT, only those Han
  70.    characters already supported by MS Kanji code (mostly equivalent to
  71.    JIS X 0208 [JISX0208]) can be displayed, because no other font
  72.    pattern is commonly provided.
  73.  
  74.    The other problem of ISO 10646 for Han characters is that, to display
  75.    them in quality required for daily plain text processing in
  76.    China/Japan/Korea, it is necessary to add profiling information on
  77.    which one of Chinese/Japanese/Korean the text is using.  It should be
  78.    noted that this feature makes multilingual mixed
  79.    Chinese/Japanese/Korean text with ISO 10646 impractical.
  80.  
  81.    Also, just as [RFC1521] was unclear about how bi-directionality
  82.    should be supported with "ISO-8859-6" and "ISO-8859-8" which was
  83.    corrected by [RFC1556], it is also unclear how bi-directionality
  84.    could be supported with ISO 10646.  There are too much ways to
  85.    support bi- directionality.  So, until some bi-directionality
  86.    mechanism(s) becomes widely supported, it is necessary to exclude
  87.    characters for languages which requires bi-directionality support
  88.    from the minimal variation.  It should be noted that, though ISO
  89.    10646 is intended to be free from long term states, save for some
  90.    profiling information, introduction of bi-directionality with ISO
  91.    10646 do requires the long term states.
  92.  
  93.    Combining characters also cause problems. In many countries where
  94.    combining characters based on [ISO2022] is used, there are
  95.    restrictions on how combining characters are ordered [TIS].  Without
  96.    such restriction, the result of combination is completely meaningless
  97.    which is the current state of ISO 10646.  That is, if some
  98.    combination is allowed in some implementation while the other does
  99.    not support it, communication between them is difficult unless ISO
  100.    10646 is profiled to be least common set of widely supported
  101.    combinations.  So, again, until combination restriction will be
  102.    developed for each language, it is necessary to exclude characters
  103.    for such languages from the minimal variation.
  104.  
  105.    Conjoining characters also, may or may not be supported, which
  106.    requires another profiling.
  107.  
  108.    According to those considerations, this memo defines two variations
  109.    of ISO 10646. They are "ISO-10646" as the minimal basic variation and
  110.    "ISO-10646-J-1" as the variation which could be useful in Japan.
  111.  
  112.  
  113.  
  114. M. Ohta                      Informational                      [Page 2]
  115.  
  116. RFC 1815       Character Sets ISO-10646 and ISO-10646-J-1      July 1995
  117.  
  118.  
  119.    Finally, this memo, by no means, promotes the use of ISO 10646 on the
  120.    Internet.  It's use is strongly discouraged, when there are other
  121.    charsets which can encode the same information, Families of ISO 10646
  122.    based charsets, like ISO 2022 based charsets, only forms set of
  123.    mutually incompatible encoding systems and, unlike ISO 2022 based
  124.    charsets [2022INT], they can not be merged together to be the single
  125.    world wide charset.
  126.  
  127. Description of "ISO-10646"
  128.  
  129.    ISO-10646 is profiled to be the most basic part of the family of
  130.    encodings based on ISO 10646 and contains the following minimal
  131.    graphic characters:
  132.  
  133.       collection number and name      positions      further restriction
  134.       ------------------------------------------------------------------
  135.       1 BASIC LATIN                   0020-007E
  136.       2 LATIN-1 SUPPLEMENT            00A0-00FF
  137.  
  138.    C0 and C1 control characters may also be used as specified in the
  139.    section 16 of ISO 10646.
  140.  
  141.    The text with "ISO-10646" encodes text in 16 bit big endian form.
  142.  
  143.    As no combining characters are included, "ISO-10646" can be used with
  144.    applications at implementation level 1.
  145.  
  146.    Left-to-right directionality should be used.
  147.  
  148.    The encoding is implemented by Windows/NT.
  149.  
  150.    For practical communication, use of "ISO-10646" is discouraged.
  151.    "ISO-8859-1" [RFC1345] should be used instead.
  152.  
  153.  
  154.  
  155.  
  156.  
  157.  
  158.  
  159.  
  160.  
  161.  
  162.  
  163.  
  164.  
  165.  
  166.  
  167.  
  168.  
  169.  
  170. M. Ohta                      Informational                      [Page 3]
  171.  
  172. RFC 1815       Character Sets ISO-10646 and ISO-10646-J-1      July 1995
  173.  
  174.  
  175. Description of "ISO-10646-J-1"
  176.  
  177.    ISO-10646-J-1 is profiled to be useful for Japanese PC users who use
  178.    Japanese version of Windows/NT and contains the following graphic
  179.    characters:
  180.  
  181.       collection number and name         positions  further restrictions
  182.       ------------------------------------------------------------------
  183.       1 BASIC LATIN                      0020-007E
  184.       2 LATIN-1 SUPPLEMENT               00A0-00FF
  185.       8 BASIC GREEK                      0370-03CF
  186.       10 CYRILLIC                        0400-04FF
  187.       32 GENERAL PUNCTUATION             2000-206F  See note 1, below.
  188.       39 MATHEMATICAL OPERATORS          2200-22FF  See note 1, below.
  189.       44 BOX DRAWING                     2500-257F
  190.       49 CJK SYMBOLS AND PUNCTUATION     3000-303F  See note 1, below.
  191.       50 HIRAGANA                        3040-309F
  192.       51 KATAKANA                        30A0-30FF
  193.       60 CJK UNIFIED IDEOGRAPHS          4E00-9FFF  See note 1, below.
  194.       62 CJK COMPATIBILITY IDEOGRAPHS    F900-FAFF  See note 1, below.
  195.       66 CJK COMPATIBILITY FORMS         FE30-FE4F
  196.       69 HALFWIDTH AND FULLWIDTH FORMS   FF00-FFEF
  197.  
  198.    Note 1: Most of the characters are excluded.  That is, only those
  199.    characters of JIS X 0208 [JISX0208] are included. The reason is that
  200.    the Japanese version of Windows/NT have fonts for them only and most
  201.    of the users can not read messages which contains other characters.
  202.  
  203.    C0 and C1 control characters may also be used as specified in the
  204.    section 16 of ISO 10646.
  205.  
  206.    The text with "ISO-10646-J-1" encodes text in 16 bit big endian form.
  207.  
  208.    Shapes of Han characters should be of Japanese Han, that is, those of
  209.    column "J" in section 26 of ISO 10646.
  210.  
  211.    As no combining characters are included, "ISO-10646-J-1" can be used
  212.    with applications at implementation level 1.
  213.  
  214.    Characters in "HALFWIDTH AND FULLWIDTH FORMS" compared to be
  215.    different characters to the normal width characters.
  216.  
  217.    When text is displayed horizontally, left-to-right directionality
  218.    should be used.
  219.  
  220.    For practical communication, use of "ISO-10646-J-1" is discouraged.
  221.    ISO-2022-JP" [2022JP] should be used instead.
  222.  
  223.  
  224.  
  225.  
  226. M. Ohta                      Informational                      [Page 4]
  227.  
  228. RFC 1815       Character Sets ISO-10646 and ISO-10646-J-1      July 1995
  229.  
  230.  
  231. MIME Considerations
  232.  
  233.    The names given to the character encoding methods described in this
  234.    memo are, respectively, "ISO-10646" and "ISO-10646-J-1".  This name
  235.    is intended to be used in MIME messages as follows:
  236.  
  237.                 Content-Type: text/plain; charset=iso-10646
  238.  
  239.    The ISO-10646 and ISO-10646-J-1 encoding are in 16-bit form, so it is
  240.    often necessary to use a Content-Transfer-Encoding header.  Base64
  241.    should be useful.
  242.  
  243.    The ISO-10646 and ISO-10646-J-1 may also be used in MIME Part 2
  244.    headers [RFC1522].  The "B" encoding should be used with them.
  245.  
  246. References
  247.  
  248.    [10646]     International Organization for Standardization (ISO),
  249.                "Universal Multiple-Octet Coded Character Set (UCS)",
  250.                International Standard, Ref. No. ISO/IEC 10646-1:1993
  251.                (E).
  252.  
  253.    [2022INT]   (An Internet Draft "draft-ohta-text-encoding-*.txt" may
  254.                be available).
  255.  
  256.    [2022JP]    Murai, J., Crispin, M., and E. van der Poel, "Japanese
  257.                Character Encoding for Internet Messages", RFC 1468, June
  258.                1993.
  259.  
  260.    [ISO2022]   International Organization for Standardization (ISO),
  261.                "Information processing -- ISO 7-bit and 8-bit coded
  262.                character sets -- Code extension techniques",
  263.                International Standard, Ref. No. ISO 2022-1986 (E).
  264.  
  265.    [JISX0208]  Japanese Standards Association, "Code of the Japanese
  266.                graphic character set for information interchange", JIS X
  267.                0208-1990.
  268.  
  269.    [RFC1345]   Simonsen, K., "Character Mnemonics & Character Sets",
  270.                RFC-1345, Rationel Almen Planlaegning, June 1992.
  271.  
  272.    [RFC1521]   Borenstein, N., and Freed, N., "MIME  (Multipurpose
  273.                Internet Mail Extensions) Part One: Mechanisms for
  274.                Specifying and Describing the Format of Internet Message
  275.                Bodies", RFC 1521, September 1993.
  276.  
  277.  
  278.  
  279.  
  280.  
  281.  
  282. M. Ohta                      Informational                      [Page 5]
  283.  
  284. RFC 1815       Character Sets ISO-10646 and ISO-10646-J-1      July 1995
  285.  
  286.  
  287.    [RFC1522]   Moore, K., "MIME (Multipurpose Internet Mail Extensions)
  288.                Part Two: Message Header Extensions for Non-ASCII Text",
  289.                RFC 1522, September 1993.
  290.  
  291.    [RFC1556]   Nussbacher, H., "Handling of Bi-directional Texts in
  292.                MIME" RFC 1556, Israeli Inter-University Computer Center,
  293.                December 1993.
  294.  
  295.    [TIS]       Thai Industrial Standard for Thai Character Code for
  296.                Computer, TIS 620-2533:1990.
  297.  
  298. Security Considerations
  299.  
  300.    Security issues are not discussed in this memo.
  301.  
  302. Author's Address
  303.  
  304.    Masataka Ohta
  305.    Tokyo Institute of Technology
  306.    2-12-1, O-okayama, Meguro-ku,
  307.    Tokyo 152, JAPAN
  308.  
  309.    Phone: +81-3-5499-7084
  310.    Fax: +81-3-3729-1940
  311.    EMail: mohta@cc.titech.ac.jp
  312.  
  313.  
  314.  
  315.  
  316.  
  317.  
  318.  
  319.  
  320.  
  321.  
  322.  
  323.  
  324.  
  325.  
  326.  
  327.  
  328.  
  329.  
  330.  
  331.  
  332.  
  333.  
  334.  
  335.  
  336.  
  337.  
  338. M. Ohta                      Informational                      [Page 6]
  339.  
  340.