home *** CD-ROM | disk | FTP | other *** search
/ Unix System Administration Handbook 1997 October / usah_oct97.iso / rfc / 1800s / rfc1874.txt < prev    next >
Text File  |  1995-12-18  |  13KB  |  340 lines

  1.  
  2.  
  3.  
  4.  
  5.  
  6.  
  7. Network Working Group                                        E. Levinson
  8. Request for Comments: 1874            Accurate Information Systems, Inc.
  9. Category: Experimental                                     December 1995
  10.  
  11.  
  12.                             SGML Media Types
  13.  
  14. Status of this Memo
  15.  
  16.    This memo defines an Experimental Protocol for the Internet
  17.    community.  This memo does not specify an Internet standard of any
  18.    kind.  Discussion and suggestions for improvement are requested.
  19.    Distribution of this memo is unlimited.
  20.  
  21. Abstract
  22.  
  23.    This document proposes new media sub-types of Text/SGML and
  24.    Application/SGML.  These media types can be used in the exchange of
  25.    SGML documents and their entities.  Specific details for the exchange
  26.    or encapsulation of groups of related SGML entities using MIME are
  27.    currently being considered by the mimesgml Working Group <sgml-
  28.    internet@ebt.com>.
  29.  
  30. 1.      Introduction
  31.  
  32.    A need exists for the transfer the elements of documents constructed
  33.    using the Standard Generalized Markup Language (SGML) [ISO-8879].
  34.    While the specific details of such transfers are being considered
  35.    general agreement exists on the need to register basic media types
  36.    for the SGML entities not covered by existing types.
  37.  
  38.    The Standard Generalized Markup Language (SGML) is used to encode
  39.    document structure and a rigorous description of it is left to [ISO-
  40.    8879].  The terms used in the present document attempt to be
  41.    consistent with SGML terminology and usage.
  42.  
  43. 2.       The SGML Media-Types
  44.  
  45.    There are two media-types for SGML parsable entities, Text/SGML and
  46.    Application/SGML.  Both have the same optional parameters.  Text/SGML
  47.    provides a fallback to Text/Plain for those without SGML capability.
  48.    Senders should base the choice between text and application media-
  49.    types on the entity's content.  Text is suggested for entities that
  50.    would be meaningful to a human being without SGML processing.
  51.    Application/SGML is recommended for all others.
  52.  
  53.  
  54.  
  55.  
  56.  
  57.  
  58. Levinson                      Experimental                      [Page 1]
  59.  
  60. RFC 1874                    SGML Media Types               December 1995
  61.  
  62.  
  63. 2.1.  Text/SGML
  64.  
  65.          MIME type name:          Text
  66.          MIME subtype name:       SGML
  67.          Required parameters:     none
  68.          Optional parameters:     charset, SGML-bctf, SGML-boot
  69.          Encoding considerations: may be encoded
  70.          Security considerations: see section 4 below
  71.          Published specification: ISO 8879:1986
  72.          Person and email address to contact for further information:
  73.                                   E. Levinson <ELevinson@Accurate.com>
  74.  
  75.    The Text/SGML media-type can be employed when the contents of the
  76.    SGML entity is intended to be read by a human and is in a readily
  77.    comprehensible form.  That is the content can be easily discerned by
  78.    someone without SGML display software.  Each record in the SGML
  79.    entity, delimited by record start (RS) and record end (RE) codes,
  80.    must correspond to a line in the Text/SGML body part.
  81.  
  82.    SGML entities that do not meet the above requirements should use the
  83.    Application/SGML media-type.
  84.  
  85.    See section 2.3 for a description of the parameters.
  86.  
  87. 2.2.    Application/SGML
  88.  
  89.          MIME type name:          Application
  90.          MIME subtype name:       SGML
  91.          Required parameters:     none
  92.          Optional parameters:     SGML-bctf, SGML-boot
  93.          Encoding considerations: may be encoded
  94.          Security considerations: see section 4 below
  95.          Published specification: ISO-8879
  96.          Person and email address to contact for further information:
  97.                                   E. Levinson <ELevinson@Accurate.com>
  98.  
  99.    Use the Application/SGML media-type for SGML text entities that are
  100.    not appropriate for Text/SGML.  When used, each record start (RS) and
  101.    record end (RE) character shall be explicitly represented by the bit
  102.    combination specified in the SGML declaration.
  103.  
  104.    The parameters are described in the next section.
  105.  
  106.  
  107.  
  108.  
  109.  
  110.  
  111.  
  112.  
  113.  
  114. Levinson                      Experimental                      [Page 2]
  115.  
  116. RFC 1874                    SGML Media Types               December 1995
  117.  
  118.  
  119. 2.3.    SGML Sub-type Parameters
  120.  
  121.    The parameters for the Text/ and Application/SGML subtypes are
  122.    defined below.
  123.  
  124.        charset     The charset parameter for Text/SGML is defined in
  125.                    [RFC-1521], the valid values and their meaning are
  126.                    registered by the Internet Assigned Numbers
  127.                    Authority (IANA) [RFC-1590].  The default charset
  128.                    value for all Text content-types is "us-ascii"
  129.                    [RFC-1521].
  130.  
  131.                    The charset parameter is provided to permit non-
  132.                    SGML capable systems to provide reasonable
  133.                    behavior when Text/SGML defaults to Text/Plain.
  134.                    SGML capable systems will use the SGML-bctf param-
  135.                    eter.
  136.  
  137.        SGML-bctf   The SGML-bctf (SGML bit combination transformation
  138.                    format) parameter describes the method used to
  139.                    transform the entity's sequence of constant width
  140.                    binary numbers (called "bit combinations" in [ISO
  141.                    8879, 4.24]) into the octet stream contained in
  142.                    the MIME body part.
  143.  
  144.                    Valid values for SGML-bctf are the BCTF notation
  145.                    names defined in Annex C of [ISO-10744] and are
  146.                    reproduced for convenience in the Appendix.  The
  147.                    default value is "identity", i.e. perform no
  148.                    transformation.
  149.  
  150.        SGML-boot   The SGML-boot parameter value is the content-ID of
  151.                    a MIME body part (Application/Octet-stream) that
  152.                    satisfies the requirements of the boot attribute
  153.                    in [ISO-10744].  The Appendix contains a summary
  154.                    of those requirements.  The SGML-boot parameter is
  155.                    only applicable if the SGML entity is a document
  156.                    entity.
  157.  
  158. 3.      Security Considerations
  159.  
  160.    SGML entities contain information to be parsed and processed by the
  161.    recipient's SGML system.  Those entities may contain and such systems
  162.    may permit explicit system level commands to be execute while
  163.    processing the data.  To the extent that an SGML system will execute
  164.    arbitrary command strings recipients of SGML entities may be at risk.
  165.  
  166.  
  167.  
  168.  
  169.  
  170. Levinson                      Experimental                      [Page 3]
  171.  
  172. RFC 1874                    SGML Media Types               December 1995
  173.  
  174.  
  175.    Parsable SGML entities may also contain explicit processing
  176.    instructions for a presentation or composition system; use of such
  177.    instructions present concerns similar to those of
  178.    Application/PostScript.
  179.  
  180. 4.      References
  181.  
  182.        [ISO-8879]
  183.             Information processing -- 8-bit Single-Byte Coded Graphic
  184.             Character Sets -- Part 1: Latin Alphabet No. 1, ISO
  185.             8859-1:1987.
  186.  
  187.        [ISO-8879]
  188.             ISO 8879:1986, Information processing -- Text and office
  189.             systems -- Standard Generalized Markup Language (SGML).
  190.  
  191.        [ISO-10744]
  192.             ISO/IEC 10744:1992, Information technology --
  193.             Hypermedia/Time-based Structuring Language (HyTime) (as
  194.             modified by First Proposed Technical Corrigendum, ISO/IEC
  195.             JTC1/SC18 N5027)
  196.  
  197.        [RFC-1521]
  198.             Borenstein, N., and N. Freed, "MIME (Multipurpose Internet
  199.             Mail Extensions) Part One:  Mechanisms for Specifying and
  200.             Describing the Format of Internet Message Bodies", RFC
  201.             1521, Bellcore, Innosoft, September 1993.
  202.  
  203.        [RFC-1590]
  204.             Postel, J., "Media Type Registration Procedure", RFC 1590,
  205.             USC/Information Sciences Institute, March 1994.
  206.  
  207.        [RFC-1642]
  208.             Goldsmith, D., and M. Davis, "UTF-7, A Mail-Safe
  209.             Transformation Format of UNICODE", RFC 1642, Taligent,
  210.             Inc., July 1994.
  211.  
  212. 5.      Author's Address
  213.  
  214.    Ed Levinson
  215.    Accurate Information Systems, Inc.
  216.    2 Industrial Way
  217.    Eatontown, NJ  07724
  218.  
  219.    EMail: ELevinson@Accurate.com
  220.  
  221.  
  222.  
  223.  
  224.  
  225.  
  226. Levinson                      Experimental                      [Page 4]
  227.  
  228. RFC 1874                    SGML Media Types               December 1995
  229.  
  230.  
  231. APPENDIX
  232.  
  233. ISO-10744 BCTF Values and Boot Attribute
  234.  
  235. A.1.    Bit Combination Transformation Format (BCTF) Values
  236.  
  237.    The following list of Bit Combination Transformation Format (BCTF)
  238.    values is provided as a convenience.  The authoritative source is
  239.    [ISO-10744].
  240.  
  241.        identity  Each bit combination is represented by a single
  242.                  octet; this BCTF can be used only for entities all
  243.                  of whose bit combinations have a value not exceeding
  244.                  255.
  245.  
  246.        fixed-2   Each bit combination is represented by exactly 2
  247.                  octets, with the more significant octet first; this
  248.                  BCTF can be used only for entities all of whose bit
  249.                  combinations have a value not exceeding 65535.
  250.  
  251.        fixed-3   Each bit combination is represented by exactly 3
  252.                  octets, with a more significant octet preceding any
  253.                  less significant octets; this BCTF can be used only
  254.                  for entities all of whose bit combinations have a
  255.                  value not exceeding 16777215.
  256.  
  257.        fixed-4   Each bit combination is represented by exactly 4
  258.                  octets, with a more significant octet preceding any
  259.                  less significant octets.
  260.  
  261.        utf-8     Each bit combination is represented by a variable
  262.                  number of octets according to UCS Transformation
  263.                  Format 8 defined in Annex P to be added by the first
  264.                  proposed drafted amendment (PDAM 1) to ISO/IEC
  265.                  10646-1:1993.
  266.  
  267.        utf-7     Each bit combination is represented by a variable
  268.                  number of octets in the range 0 through 127 as
  269.                  described in [RFC-1642]; this BCTF can be used only
  270.                  for entities all of whose bit combinations have a
  271.                  value not exceeding 65535.
  272.  
  273.        euc-jp    Each bit combination is treated as a pair of octets,
  274.                  most significant octet first, encoding a character
  275.                  using the
  276.                  Extended_UNIX_Code_Fixed_Width_for_Japanese charset,
  277.                  and is transformed into the variable length sequence
  278.                  of octets that would encode that character using the
  279.  
  280.  
  281.  
  282. Levinson                      Experimental                      [Page 5]
  283.  
  284. RFC 1874                    SGML Media Types               December 1995
  285.  
  286.  
  287.                  Extended_UNIX_Code_Packed_Format_for_Japanese char-
  288.                  set.
  289.  
  290.        sjis      Each bit combination is treated as a pair of octets,
  291.                  most significant octet first, encoding a character
  292.                  using the
  293.                  Extended_UNIX_Code_Fixed_Width_for_Japanese charset,
  294.                  and is transformed into the variable length sequence
  295.                  of octets that would encode that character using the
  296.                  Shift_JIS charset.
  297.  
  298. A.2.    The Boot Attribute
  299.  
  300.    The body part specified by the SGML-boot parameter contains a
  301.    sequence of triplets of positive integers separated by white space.
  302.    The triplets correspond to the described character set portion [IS0-
  303.    8879, 13.1.1.2] of the SGML declaration.  SGML-boot provides the
  304.    capability to identify the character set of the document's SGML
  305.    declaration when it uses significant SGML characters [ibid., 4.298]
  306.    in the SGML reference concrete syntax [ibid., 13.4] that have a
  307.    character number [ibid., 4.44] in the document's character set that
  308.    differs from us-ascii.  The default value is "0 128 0", all
  309.    characters are us-ascii.
  310.  
  311.    Notes: (1) The triplet, <dscn noc bscn> has the following meaning.
  312.    Starting with character number dscn in the us-ascii character set,
  313.    renumber noc characters starting at bscn and incrementing by one.
  314.    Thus, 0 128 0, represents the identity mapping.  (2) The document's
  315.    declaration itself may also redefine the significant SGML characters;
  316.    the boot attribute is intended to bootstrap the SGML system's parse
  317.    of the declaration.
  318.  
  319.  
  320.  
  321.  
  322.  
  323.  
  324.  
  325.  
  326.  
  327.  
  328.  
  329.  
  330.  
  331.  
  332.  
  333.  
  334.  
  335.  
  336.  
  337.  
  338. Levinson                      Experimental                      [Page 6]
  339.  
  340.