home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #3 / NN_1993_3.iso / spool / comp / std / internat / 1312 < prev    next >
Encoding:
Internet Message Format  |  1993-01-25  |  4.8 KB

  1. Path: sparky!uunet!usc!sol.ctr.columbia.edu!destroyer!gumby!yale!mintaka.lcs.mit.edu!ai-lab!wheat-chex!glenn
  2. From: glenn@wheat-chex.ai.mit.edu (Glenn A. Adams)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Alphabets
  5. Date: 25 Jan 1993 15:12:14 GMT
  6. Organization: MIT Artificial Intelligence Laboratory
  7. Lines: 81
  8. Message-ID: <1k100eINNs9n@life.ai.mit.edu>
  9. References: <1993Jan24.172323.2706@enea.se> <1jutusINNlfa@life.ai.mit.edu> <8719@charon.cwi.nl>
  10. NNTP-Posting-Host: wheat-chex.ai.mit.edu
  11.  
  12. In article <8719@charon.cwi.nl> dik@cwi.nl (Dik T. Winter) writes:
  13.  
  14. >"What is Unicode encoding?".  Scripts?  Writing system?
  15.  
  16. Unicode encodes scripts, and not writing systems (alphabets).
  17.  
  18. >It is not encoding the Latin script I think. Consider for instance the
  19. >German writing systems that have been used.  Fraktur.  Is that a different
  20. >font?
  21.  
  22. Fraktur is a different font typeface.
  23.  
  24. >Suetterlin.  Is that a different font?  Many would think the latter not
  25. >predominantly derived from the symbols used in the Roman alphabet.  I see
  26. >them as being more derived from the Germanic Runes.  Still, there is a 1<->1
  27. >corespondence between the symbols in the Suetterlin script and the German
  28. >version of the Latin script (I think).
  29.  
  30. I assume you refer to the written form developed by von Ludwig Suetterlin
  31. (1865-1917).  I don't have any detailed information on it, so I can't say
  32. for sure.  Without knowing any details, I would be willing to say it was
  33. a distinct script to the extent that Suetterlin created new forms or even
  34. borrowed forms from other scripts, perhaps modifying them in the process.
  35.  
  36. Aside from the issue of encoding utility, I would say that abstracting the
  37. forms of two or more alphabets into a single script should take into account
  38. historical derivation, formal similarity, and perhaps even functional
  39. similarity, although I would give the much less priority than the former two
  40. criteria.
  41.  
  42. >I think you should add that unification of different scripts is possible
  43. >iff the scripts can be viewed as just being font changes (although the
  44. >derivation of the scripts can be completely different).
  45.  
  46. I think you may be confusing "script" as I am using it with "handwriting
  47. form" or possibly "written form."  Clearly the latter would be a matter of
  48. only font changes, and nothing more.  However, I am using "script" in a
  49. different way, namely, to capture the notion of a collection of abstract
  50. symbols which tend to have a fairly clear historical relationship, which
  51. still bear a fairly strong resemblence in form, and which are used to
  52. represent fairly similar functions.  In addition, such a script -- as an
  53. artificial construct -- can include elements which violate these criteria
  54. to some degree.
  55.  
  56. The general process used in Unicode is to identify an alphabet (i.e., the
  57. symbols used in a particular writing system) with some historically known
  58. collection of symbols (a script), attempt to unify the alphabet with the
  59. this collection, and, then, to the extent that the unification is successful
  60. and doesn't interfere with basic processing tasks, replace the script with
  61. the (unified) union of the original script and the forms of the new alphabet.
  62. This produces a new script which may have forms in it that were not in the
  63. original script; e.g., if you look at Unicode Latin blocks, you will find
  64. elements like:  LATIN SMALL LETTER THORN, LATIN SMALL LETTER EXCLAMATION
  65. MARK, LATIN SMALL LETTER BARRED LAMBDA, LATIN CAPITAL LETTER YOGH,
  66. LATIN LETTER TWO BAR, LATIN CAPITAL LETTER TONE FIVE, and so on.  Clearly
  67. none of these are members of the Roman alphabet, or are even close.  In
  68. these cases, alphabets which were largely derived from the core symbols
  69. of the Latin script, i.e., those in the Roman alphabet, were unified with
  70. the Latin script, resulting in unification of some forms, and the addition of
  71. other, novel forms which were innovations in the alphabets being unified.
  72.  
  73. Clearly, none of the different alphabets which share the collection of symbols
  74. referred to as LATIN LETTERS in Unicode actually make use of *all* of the
  75. symbols so identified; therefore, you can't say it is just a font shift.
  76.  
  77. >So while you can unify the Suetterlin and the Latin script, you can not unify
  78. >Latin and Greek script although Latin is derived from Greek.
  79.  
  80. You could unify Latin and Greek if you want, but it would require radical
  81. unification of both form and function.  And it wouldn't buy much as far
  82. as encoding is concerned.  Keep in mind here that a SCRIPT in the Unicode
  83. sense is largely an artificial engineering construct; and not adherent to
  84. any "theory of scripts."  To my knowledge, there is no theory of scripts
  85. anyway.  The problem with written language is that it is based almost
  86. entirely on convention and historical accident; one can't articulate a
  87. theory of writing on the basis of necessity (at least I wouldn't give
  88. credence to any such theory).
  89.  
  90. Glenn Adams
  91.  
  92.  
  93.