home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / std / internat / 1034 < prev    next >
Encoding:
Internet Message Format  |  1993-01-05  |  2.3 KB

  1. Path: sparky!uunet!wupost!gumby!yale!mintaka.lcs.mit.edu!ai-lab!wheat-chex!glenn
  2. From: glenn@wheat-chex.ai.mit.edu (Glenn A. Adams)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Date: 5 Jan 1993 03:41:46 GMT
  6. Organization: MIT Artificial Intelligence Laboratory
  7. Lines: 34
  8. Message-ID: <1ib01qINNfaf@life.ai.mit.edu>
  9. References: <1993Jan1.094759.8021@fcom.cc.utah.edu> <1i2k09INN4hl@rodan.UU.NET> <id.E1FW.PX5@ferranti.com>
  10. NNTP-Posting-Host: wheat-chex.ai.mit.edu
  11. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  12.  
  13. In article <id.E1FW.PX5@ferranti.com> peter@ferranti.com (peter da silva) writes:
  14. >You have identified two problems with Unicode and ISO 10646: case conversion
  15. >and lexical ordering.
  16.  
  17. I do not agree.  I believe that Vadim thought that similar glyphs were
  18. unified irrespective of script (e.g., Latin T vs Cyrillic T).  Since
  19. this is incorrect, his claim regarding case conversion is unfounded
  20. (though I must admit their are case conversion problems which I didn't
  21. see mentioned, e.g., Turkish i/DOTTED CAPITAL I -- this is an issue
  22. though a bit different than was claimed).
  23.  
  24. As for lexical ordering, no character set can solve this problem
  25. unless it is defined for use with a single writing system.  A universal
  26. character set abstracts the differences between writing systems
  27. (i.e., languages) by encoding scripts; thus no universal character
  28. set which encodes scripts can simultaneously define all requisite
  29. lexical orderings (though it might choose one ordering arbitrarily).
  30.  
  31. Consequently, I would say that these are not problems with Unicode
  32. or 10646; instead, they are problems having to do with text processing
  33. in general.  And, no universal character set which unifies scripts
  34. can solve these problems; furthermore, I would argue that a universal
  35. character set which does not unify scripts (i.e., encodings writing
  36. systems directly) will not only be hopelessly inefficient (because
  37. of the much, much larger encoding space required), but also
  38. hopelessly incomplete (because new writing system are being created
  39. all the time). 
  40.  
  41. Unicode made the correct choice by encoding scripts independently
  42. of writing system (language/orthography); it also made the correct
  43. choice in determining that the problem of lexical ordering is a
  44. higher-level problem, not to be solved by a character set.
  45.  
  46. Glenn Adams 
  47.