home *** CD-ROM | disk | FTP | other *** search
/ InfoMagic Internet Tools 1993 July / Internet Tools.iso / RockRidge / mail / sendmail / sendmail-5.65c+IDA-1.4.4.1 / ida / charset / Design < prev    next >
Encoding:
Text File  |  1991-04-05  |  6.8 KB  |  162 lines

  1. Guidelines for character mnemonics in a minimal character set.
  2.  
  3. By Keld Simonsen, Danish UNIX User Group (DKUUG) Representative to
  4. SC22 WG on Character Set Usage for Danish Standards Association
  5. (DS), Denmark.
  6.  
  7. Draft January 1991.
  8.  
  9. Aim of Character Mnemonics
  10.  
  11. The aim of the mnemonics is to be able to represent all characters
  12. in all standard coded character sets in any standard coded character
  13. set.  Thus all standard coded character sets will be related, and
  14. a conversion can take place.
  15.  
  16. The usage of the character mnemonics is primarily intended within
  17. computer operating systems, programming languages and applications,
  18. and this work with character mnemonics is the current state of work
  19. which has been presented to the ISO working group responsible for
  20. these computer related issues, namely the ISO/IEC JTC1/SC22 special
  21. working group on character set usage.
  22.  
  23. Covered Coded Character Sets
  24.  
  25. Almost all characters in the standard coded character sets have
  26. been given a mnemonic name in the minimal character set.  The
  27. minimal character set is defined as the basic character set of ISO
  28. 646, where 12 positions are left undefined.  The standard coded
  29. character sets are taken as the sum of all ISO defined or ISO
  30. registered character sets.
  31.  
  32. The most significant ISO coded character set is the 10646 coded
  33. character set, whose aim is to code in 32 bits all characters in
  34. the world.  These guidelines can be seen as assigning mnemonic
  35. attributes to most characters in 10646, currently at DIS stage.
  36.  
  37. Other ISO coded character sets covered include all parts of ISO
  38. 8859, ISO 6937-2 and all ISO 646 conforming coded character sets
  39. in the ISO character set registry managed by ECMA according to ISO
  40. 4873.  Some non-ISO character sets are also covered for convenience.
  41.  
  42. The Character Mnemonics Classes
  43.  
  44. The character mnemonics are classified into two groups:
  45.  
  46. 1. A group with two-character mnemonics
  47.    - Primarily intended for alphabetic scripts like Latin, Greek,
  48.      Cyrillian, Hebrew and Arabic, and special characters.
  49. 2. A group with variable-length mnemonics
  50.    - primarily intended for non-alphabetic scripts like Japanese
  51.      and Chinese. 
  52.  
  53. All mnemonics are given a long descriptive name, written in the
  54. reference character set and taken from ISO 10646, if possible.
  55.  
  56.  
  57. The Two-Character mnemonics
  58.      
  59. The two-character mnemonics include various accented Latin letters,
  60. Greek, Cyrillic, Hebrew, Arabic, Hiragana, Katakana and Bopomofo.
  61. Also quite some special characters are included.  Almost all ISO
  62. or ISO registered 7- and 8-bit coded character sets are covered
  63. with these two-character mnemonics.  Thus conversions between these
  64. character sets can be done via a two-character conversion table.
  65.  
  66. The two characters are chosen so the graphical appearence in the
  67. reference set resembles as much as possible (within the posibilities
  68. available) the graphical appearance of the character. The basic
  69. character set of ISO 646 is used as the reference set, as mentioned
  70. above.
  71.  
  72. The characters in the reference character set are chosen to represent
  73. themselves. You may consider them as two-character mnemonics where
  74. the second char is a space.
  75.  
  76. Control characters mnemonics are chosen according to ISO 2047 and ISO 6429 .
  77.  
  78. Letters, including Greek, Cyrillic, Arabic and Hebrew, are represented
  79. with the base letter as the first letter, and the second letter
  80. represents an accent or relation to a non-Latin script.  Non-Latin
  81. letters are translitterated to Latin letters, following
  82. translitteration standards as closely as possible.
  83.  
  84. After a letter, the second character signifies the following:
  85.  
  86.   Exclamation mark           ! Grave
  87.   Apostrophe                 ' Acute accent
  88.   Greater-Than sign          > Circumflex accent
  89.   Question Mark              ? tilde
  90.   Hyphen-Minus               - Macron
  91.   Left parenthesis           ( Breve
  92.   Full Stop                  . Dot Above/Ring above
  93.   Colon                      : Diaeresis
  94.   Comma                      , Cedilla
  95.   Underline                  _ Underline
  96.   Solidus                    / Stroke
  97.   Quotation mark             " Double acute accent
  98.   Semicolon                  ; Ogonek
  99.   Less-Than sign             < Caron
  100.         
  101.   Equals                     = Cyrillian
  102.   Asterisk                   * Greek
  103.   Percent sign               % Greek/Cyrillian special
  104.   Plus                       + smalls: Arabic, capitals: Hebrew
  105.   Four                       4 Bopomofo
  106.   Five                       5 Hiragana
  107.   Six                        6 Katakana
  108.  
  109. The ampersand & is reserved as an intro character, indicating that
  110. the following string is in the mnemonic character set. This character
  111. could also be another character, e.g. in the control character set.
  112. One common choice in the control character set is decimal 29, which
  113. seems to have no effect on almost all current equipment.  The intro
  114. character can be negotiated between the communicating parties, but
  115. the default is the ampersand "&". Two intro characters in a row
  116. signifies the intro character itself.
  117.  
  118. The underscore is reserved for the variable-length mnemonics.  This
  119. use does not eliminate usage as an accent or language identifier.
  120. The right-pointing parenthesis ")" is not in use at the moment for
  121. accent or language identifying.  This is also the case for some
  122. digits.
  123.  
  124. Special characters are encoded with some mnemonic value.  These
  125. are not systematic thruout, but most mnemonics start with a special
  126. character of the reference set.  Special chars with some sort of
  127. reference to the reference character set normally have this character
  128. as the first character in the mnemonic.
  129.  
  130.  
  131. The Variable-length Character Mnemonics
  132.  
  133. The Variable-length Character Mnemonics are primarily meant for
  134. the ideographic characters in larger Asian character sets.  To have
  135. the mnemonics as short as possible, which both saves storage and
  136. is easier to type in, a quite short name is preferred.  Considering
  137. the Chinese standard GB 2312-1980 and the Japanese standards JIS
  138. X0208 and JIS X0212, they are all given by row and  column numbers
  139. between 1 and 99. So two positions for row and column and a character
  140. set identifier of one character would be almost as short as possible.
  141. The following character set identifiers are defined:
  142.  
  143.          c   GB 2312-1980
  144.          j   JIS X0208-1990
  145.          J   JIS X0212-1990
  146.          k   KS C 5601-1987
  147.  
  148. The first idea was to have a name in Latin describing the
  149. pronunciation but that is not possible according to Asian sources.
  150.  
  151. One prominent character in the reference character set is reserved
  152. for identifying variable-length mnemonics, namely the underscore
  153. "_". This character is intended as a delimiter both in the front
  154. and in the end of the mnemonic. An example of its use would be:
  155. (&=intro):
  156.  
  157.           &_j3210_ &_j4436_&_j6530_
  158.  
  159. The Variable-Length Character Mnemonics can also be used for
  160. less-used Latin letters with more than one accent or other less-used
  161. special characters.
  162.