home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1997 December / Internet_Info_CD-ROM_Walnut_Creek_December_1997.iso / rfc / rfc1456 < prev    next >
Text File  |  1993-05-06  |  15KB  |  396 lines

  1.  
  2.  
  3.  
  4.  
  5.  
  6.  
  7. Network Working Group          Vietnamese Standardization Working Group
  8. Request for Comments: 1456                                     May 1993
  9.  
  10.  
  11.             Conventions for Encoding the Vietnamese Language
  12.       VISCII: VIetnamese Standard Code for Information Interchange
  13.              VIQR: VIetnamese Quoted-Readable Specification
  14.                               Revision 1.1
  15.  
  16. Status of this Memo
  17.  
  18.    This memo provides information for the Internet community.  It does
  19.    not specify an Internet standard.  Distribution of this memo is
  20.    unlimited.
  21.  
  22. Abstract
  23.  
  24.    This document provides information to the Internet community on the
  25.    currently used conventions for encoding Vietnamese characters into
  26.    7-bit US ASCII and in an 8-bit form.  These conventions are widely
  27.    used by the overseas Vietnamese who are on the Internet and are
  28.    active in USENET.  This document only provides information and
  29.    specifies no level of standard.
  30.  
  31. 1. Introduction
  32.  
  33.    In this paper we describe two conventions for representing Vietnamese
  34.    characters.  VISCII (pronounced "visky") is an 8-bit character
  35.    encoding that is similar to that used with ISO-8859.  VIQR
  36.    (pronounced "vicker") is a mnemonic encoding of Vietnamese characters
  37.    into US ASCII for use on 7-bit systems.  There is substantial
  38.    existing online freely distributable software that implements these
  39.    conventions for UNIX and personal computers.  These encodings enable
  40.    Vietnamese-language users to take full advantage of powerful tools
  41.    already developed for the English-speaking world, eliminating
  42.    unnecessary reinvention.  This paper describes these conventions in
  43.    part so that MIME-compliant software might also support the
  44.    Vietnamese language.
  45.  
  46.    NOTE: The accented Vietnamese letters are herein represented by their
  47.    VIQR equivalents, offset by enclosing angle brackets.  For example,
  48.    the single letter "a acute" is written as <a'>, where the apostrophe
  49.    is the mnemonic symbol for the acute.
  50.  
  51. 2. LINGUISTIC OVERVIEW
  52.  
  53.    As a romanized language, Vietnamese appears to lend itself readily to
  54.    integration into existing English-based systems.  To cite a simple
  55.  
  56.  
  57.  
  58. Vietnamese Standardization Working Group                        [Page 1]
  59.  
  60. RFC 1456          Conventions for Encoding Vietnamese           May 1993
  61.  
  62.  
  63.    example, consider implementing support for French in such systems.
  64.    One can allocate code positions in the 8-bit space necessary for
  65.    accented letters such as <e^> or <e'>, then provide a means for users
  66.    to access these codes through the keyboard.  The required number of
  67.    "extra" code positions is small (see, e.g., ISO-8859/Latin-1 [1]),
  68.    and the relatively low frequency of occurrence of accented letters
  69.    does not place heavy demand on efficient keyboard input schemes.  The
  70.    same things cannot be said for Vietnamese, where both the number and
  71.    occurrence frequency of accented letters are large.  Apart from the
  72.    alphabetics already available in ASCII, Vietnamese requires an
  73.    additional 134 combinations of a letter and diacritical symbols.
  74.  
  75.    Note that one can resort to a composite encoding scheme to reduce
  76.    this requirement, but that would mean giving up on integration into
  77.    today's computing platforms which for the most part do not support
  78.    such schemes.  In addition, the heavy use of diacritical marks in
  79.    Vietnamese text calls for a keyboard input scheme that does not
  80.    require extra keystrokes such as a special "compose" key to generate
  81.    accented letters.  Because of the large number of possible
  82.    combinations, the scheme should also be easily learned and memorized.
  83.  
  84.    Finally, to integrate Vietnamese into current electronic mail systems
  85.    which are still limited to 7 bits, there should be a representation
  86.    for Vietnamese text that is readily readable in its 7-bit form.
  87.  
  88.    The Viet-Std group, an electronic standardization roundtable, has
  89.    worked over the past few years to draft proposals addressing these
  90.    issues.  This has culminated in the conventions to be described
  91.    briefly in the next two sections.  The detailed technical
  92.    considerations have been reported elsewhere [2].  In this memo we
  93.    give a brief outline of the working standards and describe supporting
  94.    software availability.
  95.  
  96. 3. SPECIFICATION OF VISCII
  97.  
  98.    VISCII stands for VIetnamese Standard Code for Information
  99.    Interchange, an 8-bit encoding specification.  Its salient features
  100.    are:
  101.  
  102.     1.  Encoding of all Vietnamese letters as single units
  103.         rather than separating base vowels and diacritical
  104.         marks.
  105.  
  106.     2.  Retention of the complete ASCII graphics repertoire
  107.         in order to facilitate integration.
  108.  
  109.     3.  Encoding the 6 least-often-used upper-case letters into
  110.         6 least problematic C0 (control) characters.
  111.  
  112.  
  113.  
  114. Vietnamese Standardization Working Group                        [Page 2]
  115.  
  116. RFC 1456          Conventions for Encoding Vietnamese           May 1993
  117.  
  118.  
  119.     4.  Character placement have been designed with
  120.         consideration for Unix/X integration, ISO-8859/Latin-1
  121.         compatibility, coexistence with a wide array of
  122.         existing software, including provisions for single-
  123.         and double-line drawing characters in the IBM graphic
  124.         character set.
  125.  
  126.    The 8-bit VISCII encoding is shown below.  Because of the limitations
  127.    of the 7-bit US ASCII character set, here we use the mnemonic form to
  128.    represent Vietnamese glyphs.  See the VIQR specification below for
  129.    clarification of how diacritical marks are applied.  The online
  130.    PostScript version of reference [2] may also be useful as it does
  131.    display each character correctly.
  132.  
  133.                Table 1.  VISCII 8-bit Encoding Table (v1.1)
  134. *=======================================================================*
  135. |    | 0x  1x  2x  3x  4x  5x  6x  7x | 8x  9x  Ax  Bx  Cx  Dx  Ex  Fx  |
  136. |====|==================================================================|
  137. | x0 | nul dle sp  0   @   P   `   p  | A.  O^` O~  o^` A`  DD  a`  dd  |
  138. | x1 | soh dc1 !   1   A   Q   a   q  | A(' O^? a(' o^? A'  u+' a'  u+. |
  139. | x2 | A(? dc2 "   2   B   R   b   r  | A(` O^~ a(` o^~ A^  O`  a^  o`  |
  140. | x3 | etx dc3 #   3   C   S   c   s  | A(. O^. a(. O+~ A~  O'  a~  o'  |
  141. | x4 | eot Y?  $   4   D   T   d   t  | A^' O+. a^' O+  A?  O^  a?  o^  |
  142. | x5 | A(~ nak %   5   E   U   e   u  | A^` O+' a^` o^. A(  a.  a(  o~  |
  143. | x6 | A^~ syn &   6   F   V   f   v  | A^? O+` a^? o+` a(? y?  u+~ o?  |
  144. | x7 | bel etb '   7   G   W   g   w  | A^. O+? a^. o+? a(~ u+` a^~ o.  |
  145. | x8 | bs  can (   8   H   X   h   x  | E~  I.  e~  i.  E`  u+? e`  u.  |
  146. | x9 | ht  Y~  )   9   I   Y   i   y  | E.  O?  e.  U+. E'  U`  e'  u`  |
  147. | xA | lf  sub *   :   J   Z   j   z  | E^' O.  e^' U+' E^  U'  e^  u'  |
  148. | xB | vt  esc +   ;   K   [   k   {  | E^` I?  e^` U+` E?  y~  e?  u~  |
  149. | xC | ff  fs  ,   <   L   \   l   |  | E^? U?  e^? U+? I`  y.  i`  u?  |
  150. | xD | cr  gs  -   =   M   ]   m   }  | E^~ U~  e^~ o+  I'  Y'  i'  y'  |
  151. | xE | so  Y.  .   >   N   ^   n   ~  | E^. U.  e^. o+' I~  o+~ i~  o+. |
  152. | xF | si  us  /   ?   O   _   o   DEL| O^' Y`  o^' U+  y`  u+  i?  U+~ |
  153. *=======================================================================*
  154.  
  155. 4. SPECIFICATION OF VIQR MNEMONICS
  156.  
  157.    VIQR, VIetnamese Quoted-Readable specification, is not an encoding
  158.    convention but is rather a convention for typing, reading, and
  159.    transferring Vietnamese data using only the 7-bit ASCII character
  160.    set.  With VIQR, accented Vietnamese letters are represented by the
  161.    vowel followed by ASCII characters whose appearances resemble those
  162.    of the corresponding Vietnamese diacritical marks.  For example, the
  163.    phrase "N<u+><o+'>c Vi<e^.>t Nam" is represented in 7-bits by
  164.    "Nu+o+'c Vie^.t Nam".  The complete list of diacritical mark
  165.    equivalents is given in Table 2.  There is also provision in the VIQR
  166.    specification to prevent undesirable composition, for example, to
  167.  
  168.  
  169.  
  170. Vietnamese Standardization Working Group                        [Page 3]
  171.  
  172. RFC 1456          Conventions for Encoding Vietnamese           May 1993
  173.  
  174.  
  175.    avoid getting "How are you?" composed into "How are yo<u?>".  For
  176.    details, please see [2].  VIQR therefore serves the following
  177.    purposes:
  178.  
  179.   1.  It provides for a mnemonic, readable representation of
  180.       Vietnamese in 7-bit form, which makes it easy to
  181.       transfer Vietnamese electronic mail without special
  182.       conversion.  The originator and recipient can
  183.       communicate in Vietnamese without the need for an
  184.       8-bit environment at any point in the data chain.
  185.  
  186.   2.  It provides a bridge for translation between 7- and 8-bit
  187.       environments.  In this context, typing in both 7-bit
  188.       and 8-bit systems requires exactly the same keystrokes,
  189.       the only difference is that the 8-bit user gets to see
  190.       actual Vietnamese on-screen, whereas the 7-bit user
  191.       sees a mnemonic representation thereof.  The same
  192.       options are available for the 7-bit and 8-bit recipients
  193.       of Vietnamese text.
  194.  
  195.    Because of its mnemonic nature, the VIQR typing method is easy to
  196.    learn and remember.  In pure 8-bit environments, special-purpose
  197.    software developers may wish to devise more efficient input schemes,
  198.    but the intent is for all Vietnamese keyboard software to support the
  199.    basic VIQR method to minimize learning time for Vietnamese who will
  200.    already be familiar with the mnemonic method described here.
  201.  
  202.              Table 2.  VIQR Mnemonics for Vietnamese Diacritics
  203.           *=====================================================*
  204.           | Diacritic   | Char |  ASCII Code        | D<a^'>u   |
  205.           |=====================================================|
  206.           | breve       |  (   |  0x28, left paren  | tr<a(>ng  |
  207.           | circumflex  |  ^   |  0x5E, caret       | m<u~>     |
  208.           | horn        |  +   |  0x2B, plus sign   | m<o'>c    |
  209.           |-------------+------+--------------------+-----------|
  210.           | acute       |  '   |  0x27, apostrophe  | s<a('>c   |
  211.           | grave       |  `   |  0x60, backquote   | huy<e^`>n |
  212.           | hook above  |  ?   |  0x3F, question    | h<o?>i    |
  213.           | tilde       |  ~   |  0x7E, tilde       | ng<a~>    |
  214.           | dot below   |  .   |  0x2E, period      | n<a(.>ng  |
  215.           |-------------+------+--------------------+-----------|
  216.           | d bar       |  dd  |  (repeated d)      | <dd>      |
  217.           | D bar       |  DD  |  (repeated D)      | <DD>      |
  218.           *=====================================================*
  219.  
  220.  
  221.  
  222.  
  223.  
  224.  
  225.  
  226. Vietnamese Standardization Working Group                        [Page 4]
  227.  
  228. RFC 1456          Conventions for Encoding Vietnamese           May 1993
  229.  
  230.  
  231. 5. SUPPORTING SOFTWARE
  232.  
  233.    VISCII & VIQR have been successfully implemented on various
  234.    platforms.  The work has been carried out primarily by the TriChlor
  235.    software group, a non-profit spin-off from Viet-Std.  Software by
  236.    other individuals and groups have also been developed.  In addition,
  237.    commercial software entities have indicated that they would support
  238.    the standards in the form of VISCII-compliant keyboards and fonts.
  239.  
  240.    The current software selection from the TriChlor group enables users
  241.    to use Vietnamese on existing Unix, MS-DOS, and Windows systems,
  242.    including such operations as Vietnamese file naming, Vietnamese
  243.    keyboarding within any application, electronic mail and news filters
  244.    for Unix, printing to various printer languages, incorporating
  245.    Vietnamese in such document preparation systems as TeX, Word for
  246.    Windows, WordPerfect, using Vietnamese in databases (e.g., Paradox)
  247.    and spreadsheets (e.g., SC on Unix or Excel in Windows).
  248.    Vietnamese-specific applications are also available and include a
  249.    large song lyric database, several poetry collections in hypertext
  250.    format, a Windows-based fortune teller, a text-based multiple-choice
  251.    test program in Vietnamese, etc.  In short, software exists that
  252.    supports thorough integration of Vietnamese into existing platforms,
  253.    allowing Vietnamese users to take advantage of all the powerful tools
  254.    already available in English-only environments.
  255.  
  256.    Translation between 8-bit VISCII 1.1 and other character sets,
  257.    particularly ISO-10646/Unicode 1.1, has been included in the Plan 9
  258.    operating systems' tcs utility that has been made available by Andrew
  259.    Hume of AT&T Bell Laboratories.
  260.  
  261. 6. MIME CONSIDERATIONS
  262.  
  263.    For use with MIME-compliant software, the value "VISCII" has been
  264.    registered as a charset with the Internet Assigned Numbers Authority
  265.    for the VISCII encoding convention described above, and the value
  266.    "VIQR" has been registered with the Internet Assigned Numbers
  267.    Authority as a charset for the VIQR mnemonic encoding convention
  268.    described above.  Implementation of support for these two MIME
  269.    character set types is not mandatory to comply with RFC-1341.  If the
  270.    encoding conventions described above are used in MIME email or news,
  271.    the appropriate MIME character set type value should be used to label
  272.    the body-part containing such text.
  273.  
  274. 7. SECURITY CONSIDERATIONS
  275.  
  276.    Security issues are not discussed in this memo.
  277.  
  278.  
  279.  
  280.  
  281.  
  282. Vietnamese Standardization Working Group                        [Page 5]
  283.  
  284. RFC 1456          Conventions for Encoding Vietnamese           May 1993
  285.  
  286.  
  287. REFERENCES
  288.  
  289.      [1] International Organization for Standardization. ISO 8859/x: 8-
  290.          bit International Code Sets.  ISO, 1977.
  291.  
  292.      [2] Viet-Std, "A Unified Framework for Vietnamese Information
  293.          Processing-v1.1," published on the Internet, available for FTP
  294.          from Sonygate.Sony.COM:tin/viet-std, September 1992.
  295.  
  296.  
  297.  
  298.  
  299.  
  300.  
  301.  
  302.  
  303.  
  304.  
  305.  
  306.  
  307.  
  308.  
  309.  
  310.  
  311.  
  312.  
  313.  
  314.  
  315.  
  316.  
  317.  
  318.  
  319.  
  320.  
  321.  
  322.  
  323.  
  324.  
  325.  
  326.  
  327.  
  328.  
  329.  
  330.  
  331.  
  332.  
  333.  
  334.  
  335.  
  336.  
  337.  
  338. Vietnamese Standardization Working Group                        [Page 6]
  339.  
  340. RFC 1456          Conventions for Encoding Vietnamese           May 1993
  341.  
  342.  
  343. AUTHORS' ADDRESSES
  344.  
  345.    Cuong T. Nguyen
  346.    Center for Integrated Systems
  347.    CIS 062--MC 4070
  348.    Stanford, CA 94305-4070
  349.  
  350.    Phone: (415) 725-3721
  351.    Email: cuong@haydn.Stanford.EDU
  352.  
  353.  
  354.    Hoc D. Ngo
  355.    Vista Research, Inc.
  356.    100 View St, Suite 200
  357.    P.O. Box 998
  358.    Mountain View, CA 94042
  359.  
  360.    Phone: (415) 966-1171
  361.    Email:  uunet!vri280!hoc
  362.  
  363.  
  364.    Cuong M. Bui
  365.    National Semiconductor Corp.
  366.    3388 Burgundy Dr.
  367.    San Jose, CA 95132
  368.  
  369.    Phone: (408) 721-6873
  370.    Email: bui@berlioz.nsc.com
  371.  
  372.  
  373.    Thanh van Nguyen
  374.    Roche Image Analysis Systems
  375.    95 First Str Suite 110
  376.    Los Altos, CA 94022
  377.  
  378.    Phone: 415-917-2022
  379.    Fax:   415-917-2025
  380.    Email: thanh@rias.com
  381.  
  382.    For more information, please contact the authors at:
  383.    viet-std@haydn.stanford.edu
  384.  
  385.  
  386.  
  387.  
  388.  
  389.  
  390.  
  391.  
  392.  
  393.  
  394. Vietnamese Standardization Working Group                        [Page 7]
  395.  
  396.