home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #20 / NN_1992_20.iso / spool / comp / std / internat / 643 < prev    next >
Encoding:
Internet Message Format  |  1992-09-09  |  4.5 KB

  1. Xref: sparky comp.std.internat:643 soc.culture.turkish:9799 soc.culture.nordic:5580
  2. Newsgroups: comp.std.internat,soc.culture.turkish,soc.culture.nordic
  3. Path: sparky!uunet!mcsun!sunic!corax.udac.uu.se!Riga.DoCS.UU.SE!andersa
  4. From: andersa@Riga.DoCS.UU.SE (Anders Andersson)
  5. Subject: Latin unification in ISO 10646
  6. Message-ID: <1992Sep9.163417.8803@corax.udac.uu.se>
  7. Followup-To: comp.std.internat
  8. Sender: news@corax.udac.uu.se
  9. Organization: Uppsala University, Sweden
  10. References: <1992Sep7.195212.2614@boole.uucp> <HAAVARDF.92Sep8012952@gluon.uio.no> <TT.92Sep9114439@tarzan.jyu.fi>
  11. Date: Wed, 9 Sep 1992 16:34:17 GMT
  12. Lines: 79
  13.  
  14. [Note move of thread from soc.culture.nordic to comp.std.internat, as well
  15.  as a single hint to readers of soc.culture.turkish in case of interest.]
  16.  
  17. In article <TT.92Sep9114439@tarzan.jyu.fi>, tt@tarzan.jyu.fi (Tapani Tarvainen) writes:
  18. > In article <1992Sep8.160511.1976@corax.udac.uu.se> andersa@Riga.DoCS.UU.SE (Anders Andersson) writes:
  19. > >The Turkish alphabet is different here (and more consistent, in my
  20. > >opinion), as it has two different vowels 'i'; one with dot and the
  21. > >other without (both letters of course appear in upper- and lowercase).
  22. > >I'm afraid even ISO 10646 fails to support them properly...
  23. > I'm fairly sure even some less ambitious ISO character set
  24. > (probably 8859-n, where n>1) supports Turkish completely, including
  25. > the dotless i (treated as a separate character).
  26.  
  27. I suggest we look at ISO 8859-3 (which I understand is the official name
  28. for Latin Alphabet Nr 3) for reference, as it claims to support Turkish.
  29. In the following, I'm disputing the 'completeness' of that support:
  30.  
  31. Latin-3 contains among other, mostly southern European, characters
  32.  
  33.   0xA9  capital letter I with dot above, and
  34.   0xB9  small letter i without dot above.
  35.  
  36. Of course, these are supposed to be used in conjunction with the
  37. 'normal' ASCII characters of the LH part of the table, in particular
  38.  
  39.   0x49  (Latin) capital letter I, and
  40.   0x69  (Latin) small letter i,
  41.  
  42. to make up the two different kinds of 'i' used in Turkish, each in
  43. upper- and lowercase.  From a mere typographic standpoint (having a
  44. unique code for each visually distinguishable glyph), I consider
  45. this support complete.
  46.  
  47. Programmers are used to being able to perform case conversion on
  48. letters of the ASCII table by simply adding or subtracting a certain
  49. constant to the character code, given that the code is within a
  50. particular range (A-Z or a-z).  With later ISO standards, this is
  51. not quite such a simple task due to the sometimes ad-hoc layout of
  52. lowercase letters with respect to corresponding uppercase letters
  53. (examples available upon request), but it would still be possible
  54. using tables showing the relationship.
  55.  
  56. However, since the same character code is now used for both Latin
  57. capital 'I' and Turkish capital dotless 'I', case conversion is no
  58. longer a trivial matter.  Consider TO_LOWER(TO_UPPER(dotless 'i')).
  59. It ought to be symmetric, but what's the result?
  60.  
  61. Is it somehow understood that automatic case conversion of letters
  62. of the Latin, Greek and Cyrillic alphabets (and possibly others) is
  63. beyond the scope of ISO character standards, or is this just an odd
  64. case having been overlooked?  Judging from the little I've seen of
  65. ISO 10646, it contains no better support for Turkish 'i' variants
  66. than Latin-3 does (see positions 0x0130 and 0x0131 in UCS-2).
  67.  
  68. My proposal: Add two specifically Turkish letters to ISO 10646,
  69. one capital 'I' without dot and one small 'i' with dot, and consider
  70. them different from the Latin 'I' and 'i'.  I have no formal
  71. relationship with any standardization body, so I'll have to leave
  72. this proposal for any interested party to bring it up in the proper
  73. forum.
  74.  
  75. Latin and Cyrillic capital 'M' look the same, while the small forms
  76. don't.  Those capital 'M' letters have different codes in ISO 10646,
  77. though maybe for reasons of systematic tabulation rather than in order
  78. to support case conversion.  We did away with the old typewriter
  79. unification of '1' and 'l' long ago (and the same for '0' and 'O',
  80. if that ever was a problem).  Is Turkish 'i' vs. Latin 'i' in that
  81. different a ballpark?
  82.  
  83. Are there word processors today that know how to case-convert a word
  84. containing Turkish letters?  What are Turkish typists used to?
  85.  
  86. Are there other letters in other alphabets suffering from similar
  87. unification problems in current ISO standards?
  88. --
  89. Anders Andersson, Dept. of Computer Systems, Uppsala University
  90. Paper Mail: Box 325, S-751 05 UPPSALA, Sweden
  91. Phone: +46 18 183170   EMail: andersa@DoCS.UU.SE
  92.