home *** CD-ROM | disk | FTP | other *** search
/ The Hacker's Encyclopedia 1998 / hackers_encyclopedia.iso / rfc / 3 / rfc2278.txt < prev    next >
Encoding:
Text File  |  2003-06-11  |  18.4 KB  |  564 lines

  1.  
  2.  
  3.  
  4.  
  5.  
  6.  
  7. Network Working Group                                           N. Freed
  8. Request for Comments: 2278                                      Innosoft
  9. BCP: 19                                                        J. Postel
  10. Category: Best Current Practice                                      ISI
  11.                                                             January 1998
  12.  
  13.                               IANA Charset
  14.                         Registration Procedures
  15.  
  16. Status of this Memo
  17.  
  18.    This document specifies an Internet Best Current Practices for the
  19.    Internet Community, and requests discussion and suggestions for
  20.    improvements.  Distribution of this memo is unlimited.
  21.  
  22. Copyright Notice
  23.  
  24.    Copyright (C) The Internet Society (1998).  All Rights Reserved.
  25.  
  26. 1.  Abstract
  27.  
  28.    MIME [RFC-2045, RFC-2046, RFC-2047, RFC-2184] and various other
  29.    modern Internet protocols are capable of using many different
  30.    charsets. This in turn means that the ability to label different
  31.    charsets is essential. This registration procedure exists solely to
  32.    associate a specific name or names with a given charset and to give
  33.    an indication of whether or not a given charset can be used in MIME
  34.    text objects. In particular, the general applicability and
  35.    appropriateness of a given registered charset is a protocol issue,
  36.    not a registration issue, and is not dealt with by this registration
  37.    procedure.
  38.  
  39. 2.  Definitions and Notation
  40.  
  41.    The following sections define various terms used in this document.
  42.  
  43. 2.1.  Requirements Notation
  44.  
  45.    This document occasionally uses terms that appear in capital letters.
  46.    When the terms "MUST", "SHOULD", "MUST NOT", "SHOULD NOT", and "MAY"
  47.    appear capitalized, they are being used to indicate particular
  48.    requirements of this specification. A discussion of the meanings of
  49.    these terms appears in [RFC-2119].
  50.  
  51.  
  52.  
  53.  
  54.  
  55.  
  56.  
  57.  
  58. Freed & Postel           Best Current Practice                  [Page 1]
  59.  
  60. RFC 2278                  Charset Registration              January 1998
  61.  
  62.  
  63. 2.2.  Character
  64.  
  65.    A member of a set of elements used for the organisation, control, or
  66.    representation of data.
  67.  
  68. 2.3.  Charset
  69.  
  70.    The term "charset" (see historical note below) is used here to refer
  71.    to a method of converting a sequence of octets into a sequence of
  72.    characters. This conversion may also optionally produce additional
  73.    control information such as directionality indicators.
  74.  
  75.    Note that unconditional and unambiguous conversion in the other
  76.    direction is not required, in that not all characters may be
  77.    representable by a given charset and a charset may provide more than
  78.    one sequence of octets to represent a particular sequence of
  79.    characters.
  80.  
  81.    This definition is intended to allow charsets to be defined in a
  82.    variety of different ways, from simple single-table mappings such as
  83.    US-ASCII to complex table switching methods such as those that use
  84.    ISO 2022's techniques, to be used as charsets.  However, the
  85.    definition associated with a charset name must fully specify the
  86.    mapping to be performed.  In particular, use of external profiling
  87.    information to determine the exact mapping is not permitted.
  88.  
  89.    HISTORICAL NOTE: The term "character set" was originally used in MIME
  90.    to describe such straightforward schemes as US-ASCII and ISO-8859-1
  91.    which consist of a small set of characters and a simple one-to-one
  92.    mapping from single octets to single characters. Multi-octet
  93.    character encoding schemes and switching techniques make the
  94.    situation much more complex. As such, the definition of this term was
  95.    revised to emphasize both the conversion aspect of the process, and
  96.    the term itself has been changed to "charset" to emphasize that it is
  97.    not, after all, just a set of characters. A discussion of these
  98.    issues as well as specification of standard terminology for use in
  99.    the IETF appears in RFC 2130.
  100.  
  101. 2.4.  Coded Character Set
  102.  
  103.    A Coded Character Set (CCS) is a mapping from a set of abstract
  104.    characters to a set of integers. Examples of coded character sets are
  105.    ISO 10646 [ISO-10646], US-ASCII [US-ASCII], and the ISO-8859 series
  106.    [ISO-8859].
  107.  
  108.  
  109.  
  110.  
  111.  
  112.  
  113.  
  114. Freed & Postel           Best Current Practice                  [Page 2]
  115.  
  116. RFC 2278                  Charset Registration              January 1998
  117.  
  118.  
  119. 2.5.  Character Encoding Scheme
  120.  
  121.    A Character Encoding Scheme (CES) is a mapping from a Coded Character
  122.    Set or several coded character sets to a set of octets. A given CES
  123.    is typically associated with a single CCS; for example, UTF-8 applies
  124.    only to ISO 10646.
  125.  
  126. 3.  Registration Requirements
  127.  
  128.    Registered charsets are expected to conform to a number of
  129.    requirements as described below.
  130.  
  131. 3.1.  Required Characteristics
  132.  
  133.    Registered charsets MUST conform to the definition of a "charset"
  134.    given above.  In addition, charsets intended for use in MIME content
  135.    types under the "text" top-level type must conform to the
  136.    restrictions on that type described in RFC 2045. All registered
  137.    charsets MUST note whether or not they are suitable for use in MIME.
  138.  
  139.    All charsets which are constructed as a composition of a CCS and a
  140.    CES MUST either include the CCS and CES they are based on in their
  141.    registration or else cite a definition of their CCS and CES that
  142.    appears elsewhere.
  143.  
  144.    All registered charsets MUST be specified in a stable, openly
  145.    available specification. Registration of charsets whose
  146.    specifications aren't stable and openly available is forbidden.
  147.  
  148. 3.2.  New Charsets
  149.  
  150.    This registration mechanism is not intended to be a vehicle for the
  151.    definition of entirely new charsets. This is due to the fact that the
  152.    registration process does NOT contain adequate review mechanisims for
  153.    such undertakings.
  154.  
  155.    As such, only charsets defined by other processes and standards
  156.    bodies, or specific profiles of such charsets, are eligible for
  157.    registration.
  158.  
  159. 3.3.  Naming Requirements
  160.  
  161.    One or more names MUST be assigned to all registered charsets.
  162.    Multiple names for the same charset are permitted, but if multiple
  163.    names are assigned a single primary name for the charset MUST be
  164.    identified. All other names are considered to be aliases for the
  165.    primary name and use of the primary name is preferred over use of any
  166.    of the aliases.
  167.  
  168.  
  169.  
  170. Freed & Postel           Best Current Practice                  [Page 3]
  171.  
  172. RFC 2278                  Charset Registration              January 1998
  173.  
  174.  
  175.    Each assigned name MUST uniquely identify a single charset.  All
  176.    charset names MUST be suitable for use as the value of a MIME content
  177.    type charset parameter and hence MUST conform to MIME parameter value
  178.    syntax. This applies even if the specific charset being registered is
  179.    not suitable for use with the "text" media type.
  180.  
  181.    Finally, charsets being registered for use with the "text" media type
  182.    MUST have a primary name that conforms to the more restrictive syntax
  183.    of the charset field in MIME encoded-words [RFC-2047, RFC-2184] and
  184.    MIME extended parameter values [RFC-2184]. A combined ABNF definition
  185.    for such names is as follows:
  186.  
  187.    mime-charset = 1*<Any CHAR except SPACE, CTLs, and cspecials>
  188.  
  189.    cspecials    = "(" / ")" / "<" / ">" / "@" / "," / ";" / ":" / "
  190.                   <"> / "/" / "[" / "]" / "?" / "." / "=" / "*"
  191.  
  192.    CHAR         =  <any ASCII character>        ; (  0-177,  0.-127.)
  193.    SPACE        =  <ASCII SP, space>            ; (     40,      32.)
  194.    CTL          =  <any ASCII control           ; (  0- 37,  0.- 31.)
  195.                     character and DEL>          ; (    177,     127.)
  196.  
  197. 3.4.  Functionality Requirement
  198.  
  199.    Charsets must function as actual charsets: Registration of things
  200.    that are better thought of as a transfer encoding, as a media type,
  201.    or as a collection of separate entities of another type, is not
  202.    allowed.  For example, although HTML could theoretically be thought
  203.    of as a charset, it is really better thought of as a media type and
  204.    as such it cannot be registered as a charset.
  205.  
  206. 3.5.  Usage and Implementation Requirements
  207.  
  208.    Use of a large number of charsets in a given protocol may hamper
  209.    interoperability. However, the use of a large number of undocumented
  210.    and/or unlabelled charsets hampers interoperability even more.
  211.  
  212.    A charset should therefore be registered ONLY if it adds significant
  213.    functionality that is valuable to a large community, OR if it
  214.    documents existing practice in a large community. Note that charsets
  215.    registered for the second reason should be explicitly marked as being
  216.    of limited or specialized use and should only be used in Internet
  217.    messages with prior bilateral agreement.
  218.  
  219. 3.6.  Publication Requirements
  220.  
  221.    Charset registrations can be published in RFCs, however, RFC
  222.    publication is not required to register a new charset.
  223.  
  224.  
  225.  
  226. Freed & Postel           Best Current Practice                  [Page 4]
  227.  
  228. RFC 2278                  Charset Registration              January 1998
  229.  
  230.  
  231.    The registration of a charset does not imply endorsement, approval,
  232.    or recommendation by the IANA, IESG, or IETF, or even certification
  233.    that the specification is adequate. It is expected that applicability
  234.    statements for particular applications will be published from time to
  235.    time that recommend implementation of, and support for, charsets that
  236.    have proven particularly useful in those contexts.
  237.  
  238. 3.7.  MIBenum Requirements
  239.  
  240.    Each registered charset MUST also be assigned a unique enumerated
  241.    integer value. These "MIBenum" values are defined by and used in the
  242.    Printer MIB [RFC-1759].
  243.  
  244.    A MIBenum value for each charset will be assigned by IANA at the time
  245.    of registration.
  246.  
  247. 4.  Registration Procedure
  248.  
  249.    The following procedure has been implemented by the IANA for review
  250.    and approval of new charsets.  This is not a formal standards
  251.    process, but rather an administrative procedure intended to allow
  252.    community comment and sanity checking without excessive time delay.
  253.  
  254. 4.1.  Present the Charset to the Community
  255.  
  256.    Send the proposed charset registration to the "ietf-
  257.    charsets@iana.org" mailing list.  This mailing list has been
  258.    established for the sole purpose of reviewing proposed charset
  259.    registrations. Proposed charsets are not formally registered and must
  260.    not be used; the "x-" prefix specified in RFC 2045 can be used until
  261.    registration is complete.
  262.  
  263.    The intent of the public posting is to solicit comments and feedback
  264.    on the definition of the charset and the name chosen for it over a
  265.    two week period.
  266.  
  267. 4.2.  Charset Reviewer
  268.  
  269.    When the two week period has passed and the registration proposer is
  270.    convinced that consensus has been achieved, the registration
  271.    application should be submitted to IANA and the charset reviewer. The
  272.    charset reviewer, who is appointed by the IETF Applications Area
  273.    Director(s), either approves the request for registration or rejects
  274.    it.  Rejection may occur because of significant objections raised on
  275.    the list or objections raised externally.  If the charset reviewer
  276.    considers the registration sufficiently important and controversial,
  277.    a last call for comments may be issued to the full IETF. The charset
  278.  
  279.  
  280.  
  281.  
  282. Freed & Postel           Best Current Practice                  [Page 5]
  283.  
  284. RFC 2278                  Charset Registration              January 1998
  285.  
  286.  
  287.    reviewer may also recommend standards track processing (before or
  288.    after registration) when that appears appropriate and the level of
  289.    specification of the charset is adequate.
  290.  
  291.    Decisions made by the reviewer must be posted to the ietf-charsets
  292.    mailing list within 14 days. Decisions made by the reviewer may be
  293.    appealed to the IESG.
  294.  
  295. 4.3.  IANA Registration
  296.  
  297.    Provided that the charset registration has either passed review or
  298.    has been successfully appealed to the IESG, the IANA will register
  299.    the charset, assign a MIBenum value, and make its registration
  300.    available to the community.
  301.  
  302. 5.  Location of Registered Charset List
  303.  
  304.    Charset registrations will be posted in the anonymous FTP file
  305.    "ftp://ftp.isi.edu/in-notes/iana/assignments/character-sets" and all
  306.    registered charsets will be listed in the periodically issued
  307.    "Assigned Numbers" RFC [currently RFC-1700].  The description of the
  308.    charset may also be published as an Informational RFC by sending it
  309.    to "rfc-editor@isi.edu" (please follow the instructions to RFC
  310.    authors [RFC-2223]).
  311.  
  312. 6.  Registration Template
  313.  
  314.    To: ietf-charsets@iana.org
  315.    Subject: Registration of new charset
  316.  
  317.    Charset name(s):
  318.  
  319.    (All names must be suitable for use as the value of a MIME content-
  320.    type parameter.)
  321.  
  322.    Published specification(s):
  323.  
  324.    (A specification for the charset must be openly available that
  325.    accurately describes what is being registered. If a charset is
  326.    defined as a composition of a CCS and a CES then these defintions
  327.    must either be included or referenced.)
  328.  
  329.    Person & email address to contact for further information:
  330.  
  331.  
  332.  
  333.  
  334.  
  335.  
  336.  
  337.  
  338. Freed & Postel           Best Current Practice                  [Page 6]
  339.  
  340. RFC 2278                  Charset Registration              January 1998
  341.  
  342.  
  343. 7.  Security Considerations
  344.  
  345.    This registration procedure is not known to raise any sort of
  346.    security considerations that are appreciably different from those
  347.    already existing in the protocols that employ registered charsets.
  348.  
  349. 8.  References
  350.  
  351.    [ISO-2022]
  352.         International Standard -- Information Processing -- Character
  353.         Code Structure and Extension Techniques, ISO/IEC 2022:1994, 4th
  354.         ed.
  355.  
  356.    [ISO-8859]
  357.         International Standard -- Information Processing -- 8-bit
  358.         Single-Byte Coded Graphic Character Sets
  359.         - Part 1: Latin Alphabet No. 1, ISO 8859-1:1987, 1st ed.
  360.         - Part 2: Latin Alphabet No. 2, ISO 8859-2:1987, 1st ed.
  361.         - Part 3: Latin Alphabet No. 3, ISO 8859-3:1988, 1st ed.
  362.         - Part 4: Latin Alphabet No. 4, ISO 8859-4:1988, 1st ed.
  363.         - Part 5: Latin/Cyrillic Alphabet, ISO 8859-5:1988, 1st
  364.         ed.
  365.         - Part 6: Latin/Arabic Alphabet, ISO 8859-6:1987, 1st ed.
  366.         - Part 7: Latin/Greek Alphabet, ISO 8859-7:1987, 1st ed.
  367.         - Part 8: Latin/Hebrew Alphabet, ISO 8859-8:1988, 1st ed.
  368.         - Part 9: Latin Alphabet No. 5, ISO/IEC 8859-9:1989, 1st
  369.         ed.
  370.         International Standard -- Information Technology -- 8-bit
  371.         Single-Byte Coded Graphic Character Sets
  372.         - Part 10: Latin Alphabet No. 6, ISO/IEC 8859-10:1992,
  373.         1st ed.
  374.  
  375.    [ISO-10646]
  376.         ISO/IEC 10646-1:1993(E),  "Information technology --
  377.         Universal Multiple-Octet Coded Character Set (UCS) --
  378.         Part 1: Architecture and Basic Multilingual Plane",
  379.         JTC1/SC2, 1993.
  380.  
  381.    [RFC-2048]
  382.         Freed, N., Klensin, J., and J. Postel, "Multipurpose Internet
  383.         Mail Extensions (MIME) Part Four: Registration Procedures", RFC
  384.         2048, November 1996.
  385.  
  386.    [RFC-1700]
  387.         Reynolds, J., and J. Postel, "Assigned Numbers", STD 2, RFC
  388.         1700, October 1994.
  389.  
  390.  
  391.  
  392.  
  393.  
  394. Freed & Postel           Best Current Practice                  [Page 7]
  395.  
  396. RFC 2278                  Charset Registration              January 1998
  397.  
  398.  
  399.    [RFC-1759]
  400.         Smith, R., Wright, F., Hastings, T., Zilles, S., and J.
  401.         Gyllenskog, "Printer MIB", RFC 1759, March 1995.
  402.  
  403.    [RFC-2045]
  404.         Freed, N., and N. Borenstein, "Multipurpose Internet Mail
  405.         Extensions (MIME) Part One: Format of Internet Message Bodies",
  406.         RFC 2045, November 1996.
  407.  
  408.    [RFC-2046]
  409.         Freed, N., and N. Borenstein, "Multipurpose Internet Mail
  410.         Extensions (MIME) Part Two: Media Types", RFC 2046, November
  411.         1996.
  412.  
  413.    [RFC-2047]
  414.         Moore, K., "Multipurpose Internet Mail Extensions (MIME) Part
  415.         Three: Representation of Non-Ascii Text in Internet Message
  416.         Headers", RFC 2047, November 1996.
  417.  
  418.    [RFC-2119]
  419.         Bradner, S., "Key words for use in RFCs to Indicate Requirement
  420.         Levels", BCP 14, RFC 2119, March 1997.
  421.  
  422.    [RFC-2130]
  423.         Weider, C., Preston, C., Simonsen, K., Alvestrand, H., Atkinson,
  424.         R., Crispin, M., and P. Svanberg, "Report from the IAB Character
  425.         Set Workshop", RFC 2130, April 1997.
  426.  
  427.    [RFC-2184]
  428.         Freed, N., and K. Moore, "MIME Parameter Value and Encoded Word
  429.         Extensions: Character Sets, Languages, and Continuations", RFC
  430.         2184, August 1997.
  431.  
  432.    [US-ASCII]
  433.         Coded Character Set -- 7-Bit American Standard Code for
  434.         Information Interchange, ANSI X3.4-1986.
  435.  
  436.  
  437.  
  438.  
  439.  
  440.  
  441.  
  442.  
  443.  
  444.  
  445.  
  446.  
  447.  
  448.  
  449.  
  450. Freed & Postel           Best Current Practice                  [Page 8]
  451.  
  452. RFC 2278                  Charset Registration              January 1998
  453.  
  454.  
  455. 9.  Authors' Addresses
  456.  
  457.    Ned Freed
  458.    Innosoft International, Inc.
  459.    1050 Lakes Drive
  460.    West Covina, CA 91790
  461.    USA
  462.  
  463.    Phone: +1 626 919 3600
  464.    Fax:   +1 626 919 3614
  465.    EMail: ned.freed@innosoft.com
  466.  
  467.  
  468.    Jon Postel
  469.    USC/Information Sciences Institute
  470.    4676 Admiralty Way
  471.    Marina del Rey, CA  90292
  472.    USA
  473.  
  474.    Phone: +1 310 822 1511
  475.    Fax:   +1 310 823 6714
  476.    EMail: Postel@ISI.EDU
  477.  
  478.  
  479.  
  480.  
  481.  
  482.  
  483.  
  484.  
  485.  
  486.  
  487.  
  488.  
  489.  
  490.  
  491.  
  492.  
  493.  
  494.  
  495.  
  496.  
  497.  
  498.  
  499.  
  500.  
  501.  
  502.  
  503.  
  504.  
  505.  
  506. Freed & Postel           Best Current Practice                  [Page 9]
  507.  
  508. RFC 2278                  Charset Registration              January 1998
  509.  
  510.  
  511. Full Copyright Statement
  512.  
  513.    Copyright (C) The Internet Society (1998).  All Rights Reserved.
  514.  
  515.    This document and translations of it may be copied and furnished to
  516.    others, and derivative works that comment on or otherwise explain it
  517.    or assist in its implementation may be prepared, copied, published
  518.    and distributed, in whole or in part, without restriction of any
  519.    kind, provided that the above copyright notice and this paragraph are
  520.    included on all such copies and derivative works.  However, this
  521.    document itself may not be modified in any way, such as by removing
  522.    the copyright notice or references to the Internet Society or other
  523.    Internet organizations, except as needed for the purpose of
  524.    developing Internet standards in which case the procedures for
  525.    copyrights defined in the Internet Standards process must be
  526.    followed, or as required to translate it into languages other than
  527.    English.
  528.  
  529.    The limited permissions granted above are perpetual and will not be
  530.    revoked by the Internet Society or its successors or assigns.
  531.  
  532.    This document and the information contained herein is provided on an
  533.    "AS IS" basis and THE INTERNET SOCIETY AND THE INTERNET ENGINEERING
  534.    TASK FORCE DISCLAIMS ALL WARRANTIES, EXPRESS OR IMPLIED, INCLUDING
  535.    BUT NOT LIMITED TO ANY WARRANTY THAT THE USE OF THE INFORMATION
  536.    HEREIN WILL NOT INFRINGE ANY RIGHTS OR ANY IMPLIED WARRANTIES OF
  537.    MERCHANTABILITY OR FITNESS FOR A PARTICULAR PURPOSE.
  538.  
  539.  
  540.  
  541.  
  542.  
  543.  
  544.  
  545.  
  546.  
  547.  
  548.  
  549.  
  550.  
  551.  
  552.  
  553.  
  554.  
  555.  
  556.  
  557.  
  558.  
  559.  
  560.  
  561.  
  562. Freed & Postel           Best Current Practice                 [Page 10]
  563.  
  564.