home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #3 / NN_1993_3.iso / spool / comp / std / internat / 1325 < prev    next >
Encoding:
Internet Message Format  |  1993-01-28  |  6.6 KB

  1. Path: sparky!uunet!charon.amdahl.com!pacbell.com!ames!haven.umd.edu!darwin.sura.net!spool.mu.edu!caen!batcomputer!cornell!uw-beaver!micro-heart-of-gold.mit.edu!news.media.mit.edu!mintaka.lcs.mit.edu!ai-lab!wheat-chex!glenn
  2. From: glenn@wheat-chex.ai.mit.edu (Glenn A. Adams)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Alphabets
  5. Date: 26 Jan 1993 18:26:21 GMT
  6. Organization: MIT Artificial Intelligence Laboratory
  7. Lines: 119
  8. Message-ID: <1k3vodINN7qb@life.ai.mit.edu>
  9. References: <8719@charon.cwi.nl> <1k100eINNs9n@life.ai.mit.edu> <8732@charon.cwi.nl>
  10. NNTP-Posting-Host: wheat-chex.ai.mit.edu
  11.  
  12. In article <8732@charon.cwi.nl> dik@cwi.nl (Dik T. Winter) writes:
  13. >In my opinion you can not give absolute criteria.  While Suetterlin is not
  14. >derived from the Latin script and there is no formal similarity, it is
  15. >functionally equivalent.  So, although it is in fact a different script it
  16. >may just as well be viewed as a different font.  I do not think that Unicode
  17. >(where it is extended to extinct scripts) should reserve codepoints for this
  18. >script.
  19.  
  20. I think it is clear from my initial posting on script unification that I
  21. consider pragmatics (utility) to be the most important criteria.  Obviously
  22. there can be no absolute utilitarian judgement on these matters.
  23.  
  24. I do not believe functional equivalence should be given much priority.  It
  25. can, but it introduces problems of its own.  First of all it assumes that
  26. one can identify an unambiguous functional value for each symbol.  However,
  27. no writing system that I know of is purely unique and unambiguous in
  28. assigning functional values to forms.  Some writing systems come pretty close
  29. to being pure in this respect, e.g., Finnish orthography and Japanese Kana;
  30. however, even these are impure in certain cases.  That is, phonographic
  31. writing systems (e.g., English & German) tend to incorporate morphographic
  32. or lexographic functional identifications; whereas, morphographic writing
  33. systems (e.g., Chinese & Japanese) tend to incorporate phonographic
  34. functional identifications.  Because of these impurities, it is quite
  35. impossible to determine a precise functional value for any particular
  36. symbol.
  37.  
  38. Not that this hasn't been tried:  the ISCII character sets, designed to
  39. encode the various scripts of India dervied from the Brahmi script, were
  40. designed to fit into a 7/8-bit encoding space.  The only way to do this with
  41. 9 scripts (Devanagari, Gurmukhi (Punjabi), Gujarati, Bengali, Oriya, Kannada,
  42. Malayalam, Telugu, Tamil) was to unify according to phonemic function,
  43. ignoring form completely.  There are a number of problems in doing this:
  44. (1) the writing systems based on these scripts don't share a single set of
  45. functional units -- they employ different functional units; and (2) these
  46. writing systems (like most others) diverge from a pure functional encoding
  47. of sounds, incorporating a mixture of morphological and lexical values in
  48. various places -- since these morphological and lexical functions have a
  49. reflection in the orthography, e.g., in choosing altenative variant forms,
  50. or orthographic conventions, the encoding must diverge from encoding pure
  51. phonological units, to encoding other kinds of functional units and also
  52. formal units.
  53.  
  54. >What I indicated was that functional equivalence (as you
  55. >correctly stated it) might be the most important deciding factor for some
  56. >scripts.
  57.  
  58. I won't deny that it *may* be useful in some cases, e.g., there is some
  59. opinion that Glagolitic should be considered a font shift from Cyrillic,
  60. even though the two have different forms; however, because Cyrillic has
  61. grown and has incurred a considerable number of innovations (in order to
  62. write various non-Slavic languages), an equivalence would be quite
  63. strained.  Currently, Unicode considers Glagolitic a separate script subject
  64. to distinct encoding.
  65.  
  66. >But I think that the identification process may ignore the actual form.  When
  67. >Suetterlin was used it was mixed with the normal Roman form without change of
  68. >meaning.  It was more or less viewed as a different font, although the letter
  69. >forms are completely different.
  70.  
  71. This raises an interesting point related to the notion of "plain text form."
  72. Unicode requires that the encoding be adquate to display the text in legible
  73. form without the use of language or font shifts (or any other kind of rich text
  74. extensions).  If Suetterlin were unified with Latin, then it would not be
  75. possible to determine which forms to display, Suetterlin forms or Latin forms,
  76. when a plain text string is displayed.  This would argue against unification,
  77. that is, unless it was considered reasonable (from the point of legibility)
  78. to use Latin forms in all cases (even when Suetterlin was expected).
  79.  
  80. >But that is only an afterthought.  How about the Turkish I with and without
  81. >dot?  It would not have cost much to give them separate coding points.  (Yes,
  82. >I understand the compatibility reasons.  Are there other reasons?)
  83.  
  84. There is a general policy against encoding identical forms which differ in
  85. usage alone.  In the case of Turkish <i> vs., Spanish <i> there is
  86. no functional difference.  The <i> character in common character sets
  87. doesn't really even designate a single functional value, but as many values
  88. as the different writing systems that use it give to it; e.g., English
  89. interprets it in a variety of ways depending on context.
  90.  
  91. In the case of Turkish <i> vs., say, Spanish <i>, the only difference is one
  92. of writing system dependent orthographic behavior regarding case convesion.
  93. The case also holds with lowercasing <SS> in German (and <SZ> in Austrian
  94. German); or going between <ck> and <kk> when hyphenating German.
  95.  
  96. About the only way I can figure how to solve the problem of mixing
  97. Turkish and English (French, Spanish, German, etc.) and still get
  98. display and case conversion to work correctly is to do something like
  99. the following:
  100.  
  101. Turkish
  102.  
  103. <dotless i>                     <I>
  104. <dotless i> + <dot above>       <I> + <dot above>
  105.  
  106. English
  107.  
  108. <i>                             <I with dot above>
  109.  
  110. Using this scheme, for the purpose of case conversion and equivalence
  111. testing, we would have:
  112.  
  113.   <i>             !=    <dotless i> + <dot above>
  114.   <I with dot above>    !=    <I> + <dot above>
  115.  
  116. Furthermore, we would have to display <I with dot above> with a dotless
  117. 'I' glyph, violating the formal semantics of the character..
  118.  
  119. Two visual ambiguities are introduced by this scheme:
  120.  
  121. Glyph 'i'    -> <i> or <dotless i> + <dot above>
  122. Glyph 'I'    -> <I> or <I with dot above>
  123.  
  124. However, there is no ambiguity in the encoding as far as display or
  125. case conversion is concerned.
  126.  
  127. If anyone can think a of better way to do this without adding new characters
  128. to Unicode which are different in usage only, then I'd like hear about it.
  129.  
  130. Glenn Adams
  131.