home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / std / internat / 1131 < prev    next >
Encoding:
Text File  |  1993-01-10  |  6.6 KB  |  153 lines

  1. Newsgroups: comp.std.internat
  2. Path: sparky!uunet!mcsun!news.funet.fi!network.jyu.fi!tarzan!tt
  3. From: tt@tarzan.jyu.fi (Tapani Tarvainen)
  4. Subject: Re: Language tagging
  5. In-Reply-To: avg@rodan.UU.NET's message of 7 Jan 1993 16: 12:20 -0500
  6. Message-ID: <TT.93Jan10143855@tarzan.jyu.fi>
  7. Summary: universal sorting and hyphenation are impossible (cute hyphenation
  8.     examples): two "o's would be a royal pain; transliteration is useful.
  9. Originator: tt@tarzan.math.jyu.fi
  10. Sender: news@jyu.fi (News articles)
  11. Nntp-Posting-Host: tarzan.math.jyu.fi
  12. Organization: University of Jyvaskyla
  13. References: <1iav6tINNee2@life.ai.mit.edu> <1iddeeINN58g@rodan.UU.NET>
  14.     <TT.93Jan7085019@tarzan.jyu.fi> <1ii6bkINNf6c@rodan.UU.NET>
  15. Date: Sun, 10 Jan 1993 12:38:55 GMT
  16. Lines: 135
  17.  
  18. In article <1ii6bkINNf6c@rodan.UU.NET> avg@rodan.UU.NET (Vadim Antonov) writes:
  19. [parts deleted and re-ordered]
  20.  
  21. >In article <TT.93Jan7085019@tarzan.jyu.fi> tt@tarzan.jyu.fi (Tapani Tarvainen) writes:
  22. >>Let's look at it this way:  How would a Finn want to see Chinese
  23. >>names sorted?
  24.  
  25. >For many reasoins
  26.  
  27. The question wasn't "why" but "how" -- and my point was that the how
  28. depends on the why.
  29.  
  30.  
  31. >Most likely an end user will have a local sorting algorithm which
  32. >basically reduces glyphs to the particular language's by
  33. >transliteration and then applies the same generic sorting algorithm.
  34. >At the same time, if you're sending a monolingual file with
  35. >Sweden words to China it would be sorted correctly even if nobody
  36. >around knows what the rules are!
  37.  
  38. Who's going to read the words in China?  If he doesn't know Latin
  39. characters at all he won't care how they're sorted.  If he knows
  40. English but not Swedish he'll prefer English sorting rules.  If he
  41. knows Swedish he'll want Swedish sorting -- and can specify Swedish
  42. locale for the purpose.
  43.  
  44. People will not care whether a list of words in a language they don't
  45. know is sorted correctly in that language.  The correct language-
  46. specific ordering is useful only when the reader knows it.
  47. When producing pre-sorted material you generally have an idea of at
  48. least some language the recipient will understand -- if he can't be
  49. expected to know any language that uses the characters in question he
  50. won't care about their ordering (or indeed of the material at all).
  51. Maybe sometimes one'll have to guess -- but a fixed proto-Latin order
  52. would in effect mean making the guess once and for all, a true
  53. procrustean solution.
  54.  
  55.  
  56. >>E.g., assume you
  57. >>want to search a database for the works of one Mr. M"oller without
  58. >>knowing where he comes from.  Or when entering a reference you have
  59. >>on paper to a database: how do you know which "o to type?
  60.  
  61. >You have this problem with Unicode/ISO10646 right now -- consider, say,
  62. >the word BETA -- it can be encoded in more than a hundred ways!
  63. >The search routines should simply treat identical glyphs as identical;
  64. >you have to do it now anyway.
  65.  
  66. Yes, but it isn't sufficient:
  67. If you have a reference in a book (one that's made of paper!) to a
  68. Mr. M"oller whose native languages you don't know: how are you going
  69. to write his name to the file that's going to China?
  70.  
  71. In the case of hypothetical Mr. BETA the problem isn't as likely, for
  72. when books use multiple scripts they usually use sufficiently
  73. different fonts or other means for distinguising them.  (And no,
  74. people won't accept the idea of using different fonts for German and
  75. Swedish whenever they occur together.)  How often have you actually
  76. encountered words of which you don't immediately know whether they're
  77. written in Cyrillic or Latin letters?  Names that can be either
  78. German or Swedish occur _often_.
  79.  
  80. I think the _script_ of the word in question is usually known from
  81. context, even if you can find individual words that look identical.
  82. The same is not true of languages using the same script.
  83. (Are there languages that use a genuine mixture of multiple scripts,
  84. as opposed to one base script and a few letters borrowed from others?)
  85.  
  86.  
  87.  
  88. >>similarly spelled words occur
  89. >>in different languages and are hyphenated differently.
  90.  
  91. >Any realistic example? :-)
  92.  
  93. Why the smiley?  Examples are not hard to come by, even from languages
  94. as different as English and Finnish:
  95. pat-i-na/pa-ti-na, pi-an-o/pia-no, piv-ot/pi-vot, tal-on/ta-lon,
  96. tel-ex/te-lex, home/ho-me, pore/po-re, pure/pu-re, ma-lar-i-a/ma-la-ria,
  97. vale/va-le, gig-o-lo/gi-go-lo, pet-it/pe-tit, des-per-a-do/des-pe-ra-do
  98. (some have same meanings, most don't).
  99. Even more common the situation is with proper names: 
  100. Ev-er-ett/E-ve-rett, Fa-bri-ti-us/Fab-ri-ti-us, Far-a-day/Fa-ra-day,
  101. Fahr-en-heit/Fah-ren-heit, Flem-ing/Fle-ming, Fitz-ger-ald/Fitz-ge-rald, 
  102. Fred-er-ick/Fre-de-rick, Gan-y-mede/Ga-ny-me-de, ... (I presume you'll
  103. argue proper names should be hyphenated according to where the person
  104. in question came from.  I don't think that's possible in practice.)
  105.  
  106. Even worse it gets with two closely related languages like English and
  107. German: des-ig-na-tion/de-si-gna-ti-on, des-per-a-do/de-spe-ra-do,
  108. fight-er/figh-ter, lead-er/lea-der, limon-ade/li-mo-na-de,
  109. meth-od-ist/me-tho-dist, min-i-mal/mi-ni-mal, mod-est/mo-dest,
  110. orig-i-nal/ori-gi-nal, par-the-no-gen-e-sis/par-the-no-ge-ne-sis,
  111. pref-er-ence/pre-fe-rence, pseu-do-nym/pseud-onym, rav-age/ra-va-ge,
  112. re-tal-i-a-tion/re-ta-lia-ti-on, rit-u-al/ri-tu-al, sep-a-ra-tion/
  113. se-pa-ra-ti-on (I know, German nouns should be capitalized, but
  114. capitalization isn't a reliable indicator of language anyway).
  115.  
  116. (Just noticed that "desperado" occurs in all three languages and is
  117. hyphenated three different ways!)
  118.  
  119. In case you're wondering, I have some experience in fixing by hand
  120. Finnish and German texts hyphenated by English rules ...
  121.  
  122. I suggest you forget the idea of language-independent hyphenation.
  123.  
  124.  
  125.  
  126. >Ever saw Chinese transliterated into Latin? :-) You generally
  127. >can't do it and keep it intelligible because phonetic structures
  128. >of languages are fairly different.
  129.  
  130. I see Chinese names transliterated with Latin letters practically
  131. every time I open a newspaper.  Even though a Finn who doesn't know
  132. Chinese can't pronounce them understandably, he can easily remember
  133. them (as he couldn't ideograms he doesn't know), he can talk about
  134. them with other Finns, and he can copy them in writing and be
  135. understood by someone who knows Chinese and the transliteration method
  136. used.
  137.  
  138.  
  139.  
  140. >>>The idea is to leave ALL language specifics at the point of input
  141. >>>where the language is supposedly known.
  142. >>
  143. >>That assumption is simply false far too often.  Not only may the
  144. >>language of a word be unknown, it may not even exist.  (What language
  145. >>is M"oller in this sentence?)
  146.  
  147. >I'd say that this word belong to the native language of Mr. M"oller :-)
  148. >It's just you didn't specify that.
  149.  
  150. Maybe he's bilingual. :-)
  151. --
  152. Tapani Tarvainen  (tt@math.jyu.fi, tarvainen@finjyu.bitnet)
  153.