home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #20 / NN_1992_20.iso / spool / comp / std / internat / 647 < prev    next >
Encoding:
Internet Message Format  |  1992-09-10  |  3.6 KB

  1. Xref: sparky comp.std.internat:647 soc.culture.turkish:9822 soc.culture.nordic:5592
  2. Path: sparky!uunet!ogicse!mintaka.lcs.mit.edu!ai-lab!wheat-chex!glenn
  3. From: glenn@wheat-chex.ai.mit.edu (Glenn A. Adams)
  4. Newsgroups: comp.std.internat,soc.culture.turkish,soc.culture.nordic
  5. Subject: Re: Latin unification in ISO 10646
  6. Message-ID: <27738@life.ai.mit.edu>
  7. Date: 10 Sep 92 14:18:05 GMT
  8. Article-I.D.: life.27738
  9. References: <HAAVARDF.92Sep8012952@gluon.uio.no> <TT.92Sep9114439@tarzan.jyu.fi> <1992Sep9.163417.8803@corax.udac.uu.se>
  10. Sender: news@ai.mit.edu
  11. Followup-To: comp.std.internat
  12. Organization: MIT Artificial Intelligence Laboratory
  13. Lines: 61
  14.  
  15.  
  16.   In article <1992Sep9.163417.8803@corax.udac.uu.se> andersa@Riga.DoCS.UU.SE (Anders Andersson) writes:
  17.   >In article <TT.92Sep9114439@tarzan.jyu.fi>, tt@tarzan.jyu.fi (Tapani Tarvainen) writes:
  18.   >> In article <1992Sep8.160511.1976@corax.udac.uu.se> andersa@Riga.DoCS.UU.SE (Anders Andersson) writes:
  19.   >> >The Turkish alphabet is different here (and more consistent, in my
  20.   >> >opinion), as it has two different vowels 'i'; one with dot and the
  21.   >> >other without (both letters of course appear in upper- and lowercase).
  22.   >> >I'm afraid even ISO 10646 fails to support them properly...
  23.  
  24. I must disagree that 10646 "fails to support [the Turkish alphabet] properly."
  25. 10646 contains the following characters (UCS2 codes given):
  26.  
  27. 0131 LATIN SMALL LETTER DOTLESS I
  28. 0049 LATIN CAPITAL LETTER I
  29.  
  30. 0069 LATIN SMALL LETTER I (with a dot)
  31. 0130 LATIN CAPITAL LETTER I WITH DOT ABOVE
  32.  
  33. These *adequately* support representations of both European and Turkish
  34. language texts.  The fact that one has to take language into account in
  35. performing case conversion is not relevant.  The coding structure of
  36. 10646 does not represent case transformations nor does it represent
  37. sorting order; an application (or system) must use table lookup to
  38. perform these operations correctly, taking language into account as
  39. necessary.  The efficiencies obtained by programmers using ASCII for
  40. representing English text are simply not possible with a universal character
  41. set.
  42.  
  43. Other examples of language (or regional) differences in case conversion:
  44.  
  45. LATIN SMALL LETTER SHARP S (ESS-ZED) -> "SS" or "SZ" in uppercase, the latter
  46.                        sometimes used in Austrian German
  47.  
  48. LATIN SMALL LETTER E ACUTE         -> "CAPITAL E" or "CAPITAL E ACUTE",
  49.                     the former sometimes used in France
  50.  
  51. An ISO character set is simply a repertoire of characters, their mappings to
  52. code points, and a list of unique names for those characters.  No semantics
  53. regarding usage are specified for "graphic characters."  Other standards
  54. are free to address semantics or particular usages of characters.
  55.  
  56.   >Latin and Cyrillic capital 'M' look the same, while the small forms
  57.   >don't.
  58.  
  59. 10646 encodes the elements of scripts, independent of their use by particular
  60. languages.  Latin and Cyrillic, though both derived from the Greek alphabet
  61. along with influences from Etruscan and Aramaic, are clearly distinct
  62. scripts.  On the other hand, the Han script, as used in China, Japan, Korea,
  63. and Vietnam, is clearly one script, though some innovations were introduced
  64. in its different writing systems.
  65.  
  66. Since Cyrillic, Greek, and Latin are separate scripts, their elements are
  67. encoded separately, even when they happen to have some overlap of form.
  68.  
  69. An even more important reason for their distinction in 10646 is because they
  70. are distinct in ISO8859-5.  The prime directive, as it were, for 10646 was
  71. to facilitate a 1-1 round-trip mapping between 10646 and existing character
  72. sets.  This precludes any unification of the few similar Cyrillic, Greek,
  73. and Latin characters.
  74.  
  75. Glenn Adams
  76.