home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / std / internat / 1097 < prev    next >
Encoding:
Internet Message Format  |  1993-01-07  |  4.5 KB

  1. Path: sparky!uunet!not-for-mail
  2. From: avg@rodan.UU.NET (Vadim Antonov)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Language tagging
  5. Date: 7 Jan 1993 16:12:20 -0500
  6. Organization: UUNET Technologies Inc, Falls Church, VA
  7. Lines: 90
  8. Message-ID: <1ii6bkINNf6c@rodan.UU.NET>
  9. References: <1iav6tINNee2@life.ai.mit.edu> <1iddeeINN58g@rodan.UU.NET> <TT.93Jan7085019@tarzan.jyu.fi>
  10. NNTP-Posting-Host: rodan.uu.net
  11.  
  12. In article <TT.93Jan7085019@tarzan.jyu.fi> tt@tarzan.jyu.fi (Tapani Tarvainen) writes:
  13. >Let's look at it this way:  How would a Finn want to see Chinese
  14. >names sorted?
  15.  
  16. For many reasoins -- say to print it and send to his Chinese
  17. correspondent. (reminds me an old Soviet anecdote: 
  18. Evening news at 2011: "The fields of Washingtonshina* bring a good
  19. harvest of crops. Today light armed clashed on Finno-Chinese border
  20. had no casualties." [* - a Russified province name in the form
  21. specific to the officiose newspeak])
  22.  
  23. Another problem locales are unable to solve is multilingual sorting,
  24. especially with closely related languages.
  25.  
  26.  If (as is likely) he doesn't know Chinese he either
  27. >couldn't care less, or would want them transliterated into Latin
  28. >characters (and then sorted by Finnish rules).
  29.  
  30. Ever saw Chinese transliterated into Latin? :-) You generally
  31. can't do it and keep it intelligible because phonetic structures
  32. of languages are fairly different.
  33.  
  34. >How about sorting a list of European names (from various Latin-based
  35. >languages) in Japan?  Here a default "proto-Latin" sorting might make
  36. >sense.  However, if the list is to be handed to guests who come from
  37. >various countries it might be desirable to sort it differently for
  38. >each country, or use the most common language (which may but need
  39. >not be English).  A Spanish delegation in Japan would probably
  40. >appreciate seeing their names correctly sorted by Spanish rules.
  41.  
  42. Proto-Latin, proto-Cyrillic etc sorting makes a lot of sense for
  43. business applications, providing uniformed way to deal with
  44. multilingual lists (and such sorting has an attractive quality --
  45. it "automatically" reduces to a national sorting after deletion
  46. of foreighn letters). Somehow, it is a simplified scheme of
  47. sorting large libraries use.
  48.  
  49. >A pure locale-system clearly won't do in multilingual environments.
  50. >Nonetheless some things are, IMHO, best handled with locales.
  51. >Perhaps it should be possible to specify the default language (like,
  52. >in an environment variable) separately for each script one is
  53. >concerned with (setenv LANG 'LATIN:finnish;CYRILLIC:russian;HAN:chinese')
  54. >or whatever) and fall to a default in the rest.
  55.  
  56. It is not enough. Ukrain, say, use characters of both Cyrillic and
  57. Latin scripts, etc.
  58.  
  59. >However, there's another issue with sorting where your proposal is
  60. >disastrous:  A single list of names may need to be sorted differently
  61. >on different occasions depending on the target language.  If Spanish
  62. >ll and ch are considered individual characters, and German and Finnish
  63. >a-umlaut as distinct characters, this means that a Finnish reader must
  64. >know the language a name originated in in order to find it.  It is
  65. >impossible to explain to a layman that M"oller and M"oller are
  66. >different names and in different place in the directory because one is
  67. >German and the other Swedish.
  68.  
  69. Most likely an end user will have a local sorting algorithm which
  70. basically reduces glyphs to the particular language's by
  71. transliteration and then applies the same generic sorting algorithm.
  72. At the same time, if you're sending a monolingual file with
  73. Sweden words to China it would be sorted correctly even if nobody
  74. around knows what the rules are!
  75.  
  76. >Even worse, the problem isn't limited to sorting:  E.g., assume you
  77. >want to search a database for the works of one Mr. M"oller without
  78. >knowing where he comes from.  Or when entering a reference you have
  79. >on paper to a database: how do you know which "o to type?
  80.  
  81. You have this problem with Unicode/ISO10646 right now -- consider, say,
  82. the word BETA -- it can be encoded in more than a hundred ways!
  83. The search routines should simply treat identical glyphs as identical;
  84. you have to do it now anyway.
  85.  
  86. >This is not strictly true, as similarly spelled words occur
  87. >in different languages and are hyphenated differently.
  88.  
  89. Any realistic example? :-)
  90.  
  91. >>The idea is to leave ALL language specifics at the point of input
  92. >>where the language is supposedly known.
  93. >
  94. >That assumption is simply false far too often.  Not only may the
  95. >language of a word be unknown, it may not even exist.  (What language
  96. >is M"oller in this sentence?)
  97.  
  98. I'd say that this word belong to the native language of Mr. M"oller :-)
  99. It's just you didn't specify that.
  100.  
  101. --vadim
  102.