home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #3 / NN_1993_3.iso / spool / comp / std / internat / 1255 < prev    next >
Encoding:
Internet Message Format  |  1993-01-21  |  2.5 KB

  1. Path: sparky!uunet!mcsun!sun4nl!cwi.nl!dik
  2. From: dik@cwi.nl (Dik T. Winter)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Cleanicode
  5. Message-ID: <8689@charon.cwi.nl>
  6. Date: 21 Jan 93 02:34:48 GMT
  7. References: <C138zr.r3@poel.juice.or.jp> <ISHIKAWA.93Jan20182546@ds5200.personal-media.co.jp>
  8. Sender: news@cwi.nl
  9. Organization: CWI, Amsterdam
  10. Lines: 35
  11.  
  12. In article <ISHIKAWA.93Jan20182546@ds5200.personal-media.co.jp> ishikawa@personal-media.co.jp writes:
  13.  > Why not unify Latin/Cyrillic/Greek 'A'?  This simple question also is
  14.  > the cause of uncomfortable feeling many Japanese programmers seem to
  15.  > have (including myself).
  16.  > 
  17. I understand that.  I think some unification might be done with the LCG
  18. glyphs.  But the LCG scripts have the feature that each glyph comes in
  19. two forms: majuscule and minuscule.  The distinction between the two
  20. forms is very small, in many cases it does not matter whether the
  21. majuscule form or the minuscule form is used (e.g. sorting).  But that
  22. breaks down unification of Latin/Cyrillic and Greek 'A' because the
  23. minuscule form is different.  Still worse are examples like 'T' and
  24. 'B' where the minuscule form is different for all three.  On the other
  25. hand, I do not think Unicode is consistent (I do not know for sure, when
  26. I tried to buy the book it was sold out).  I think that Turkish dotless
  27. and dot-having 'I' both share half a code point with the Latin 'I'.  My
  28. preference would be three (times two) code points: Latin 'I', Turkish
  29. 'I' with dot and Turkish 'I' without dot.  But I (as a westerner)
  30. understand why it is not done.  It is impossible to distinguish the
  31. majuscule Latin 'I' from the Turkish majuscule dotless 'I'.  Which
  32. would make it more difficult for the user.  On the other hand, as a
  33. programmer, I see the difficulty in doing a case insensitive search.
  34. With the two Turkish 'I's there will be more false matches unless
  35. language is coded also, but again, that makes it more difficult for
  36. the user.  But I think that unification of those majuscule/minuscule
  37. glyphs that are (upto font differences) identical would make sense.
  38. This includes Latin/Cyrillic 'A/a', 'J/j' (is the latter included
  39. in Cyrillic?) and Latin/Cyrillic/Greek 'O/o'.
  40.  
  41. As I understand it, part of the problems with CJK unification are of
  42. a similar nature.  While the base character is the same there may be
  43. different simplifications.  But that is only as far as I understand it.
  44. -- 
  45. dik t. winter, cwi, kruislaan 413, 1098 sj  amsterdam, nederland
  46. home: bovenover 215, 1025 jn  amsterdam, nederland; e-mail: dik@cwi.nl
  47.