home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / std / internat / 1083 < prev    next >
Encoding:
Text File  |  1993-01-07  |  8.2 KB  |  197 lines

  1. Newsgroups: comp.std.internat
  2. Path: sparky!uunet!mcsun!news.funet.fi!network.jyu.fi!tarzan!tt
  3. From: tt@tarzan.jyu.fi (Tapani Tarvainen)
  4. Subject: Re: Language tagging
  5. In-Reply-To: avg@rodan.UU.NET's message of 5 Jan 1993 20: 42:38 -0500
  6. Message-ID: <TT.93Jan7085019@tarzan.jyu.fi>
  7. Summary: "o is "o is "o
  8. Originator: tt@tarzan.math.jyu.fi
  9. Sender: news@jyu.fi (News articles)
  10. Nntp-Posting-Host: tarzan.math.jyu.fi
  11. Organization: University of Jyvaskyla
  12. References: <1993Jan3.203017.232@enea.se> <2609@titccy.cc.titech.ac.jp>
  13.     <1iav6tINNee2@life.ai.mit.edu> <1iddeeINN58g@rodan.UU.NET>
  14. Date: Thu, 7 Jan 1993 06:50:19 GMT
  15. Lines: 180
  16.  
  17. In article <1iddeeINN58g@rodan.UU.NET> avg@rodan.UU.NET (Vadim Antonov) writes:
  18. [heavily edited]
  19.  
  20. >Now, i think everybody agrees that the "ultimate encoding" is
  21. >the one which provides the complete information about which
  22. >language is used -- it sovles all the problems.
  23.  
  24. While such an encoding might be called "ultimate", it wouldn't solve
  25. all problems.  In particular, the encoding mustn't force one to
  26. provide information that's irrelevant or not available.
  27.  
  28. A good encoding is one which allows one to provide the information
  29. one wants, no less, no more.  E.g., things like typeface used
  30. may be relevant in some contexts but not always, and I doubt
  31. many would want them in the character set.  Whether language
  32. should be there, or in how great detail, is debatable 
  33. (indeed the subject of the presend debate).
  34.  
  35.  
  36. >Let's analyse the other properties of the ultimate encoding:
  37.  
  38. (I make comments about Vadim's proposed encoding below but I've
  39. deleted the description.  Those interested in this should read Vadim's
  40. article first.)
  41.  
  42. >1) it explicitly distinguises between the natural languages.
  43.  
  44. >   I think this property can be easily dropped.
  45.  
  46. Agreed.
  47.  
  48.  
  49. >2) there is an *algorithm* for converting from upper case to lower case
  50. >   and vice versa.
  51.  
  52. >   This property is extremely useful
  53.  
  54. Agreed.  It is also very difficult to do completely for all languages
  55. without knowing the language.  E.g., in some languages several lower
  56. case characters may map to same upper case character.  Perhaps it
  57. would be sufficient to have a case-insensitive comparison algorithm?
  58. A glyph-based encoding could probably handle that in most cases;  
  59. not all, though (like the Turkish dotless i). 
  60. Here your system clearly wins.
  61.  
  62.  
  63. >3) there is an *algorithm* for lexicographical sorting (and for
  64. >   that matter for range comparisons).
  65.  
  66. >   This is necessary if the now-ubiquotus semantics of regular
  67. >   expressions, shell globbing and sorted directories (and, of
  68. >   course, neat sorted reports) is to be preserved.
  69.  
  70. >   Several people argued that this functionality is not actually
  71. >   necessary because users will want to see strings sorted
  72. >   accordingly to their native language's rules).
  73.  
  74. Rather it isn't sufficient.
  75.  
  76. >   While it is
  77. >   a neat idea it still does not eliminate the necessity of a
  78. >   generic algorithm used as fallback for "customized" sorting
  79. >   algorithsm -- what, for example, is the idea of sorting Chinese
  80. >   using rules of Finnish?
  81.  
  82. Nor does the universal algorithm eliminate the necessity of
  83. language-specific algorithms.  (More about this below.)
  84.  
  85. Nonetheless you make a good point.  Finnish sorting rules are no good
  86. for non-Latin scripts.
  87.  
  88. Let's look at it this way:  How would a Finn want to see Chinese
  89. names sorted?  If (as is likely) he doesn't know Chinese he either
  90. couldn't care less, or would want them transliterated into Latin
  91. characters (and then sorted by Finnish rules).  If he knows Chinese,
  92. he'll want the Chinese ordering -- or one of them, if (as I suspect)
  93. there are several.  Or if he knows another language that uses
  94. the Chinese character set but different sorting he might prefer that.
  95. In any case, he wants an order that makes sense to _him_.
  96.  
  97. How about sorting a list of European names (from various Latin-based
  98. languages) in Japan?  Here a default "proto-Latin" sorting might make
  99. sense.  However, if the list is to be handed to guests who come from
  100. various countries it might be desirable to sort it differently for
  101. each country, or use the most common language (which may but need
  102. not be English).  A Spanish delegation in Japan would probably
  103. appreciate seeing their names correctly sorted by Spanish rules.
  104.  
  105. I don't know how that should be handled.  Nonetheless, since several
  106. languages using the same script have different sorting rules, external
  107. information of the language is still needed and a generic algorithm is
  108. effectively just providing a default language for each script.
  109.  
  110. A pure locale-system clearly won't do in multilingual environments.
  111. Nonetheless some things are, IMHO, best handled with locales.
  112. Perhaps it should be possible to specify the default language (like,
  113. in an environment variable) separately for each script one is
  114. concerned with (setenv LANG 'LATIN:finnish;CYRILLIC:russian;HAN:chinese')
  115. or whatever) and fall to a default in the rest.
  116.  
  117. Your encoding helps here only by making programming easier and that
  118. only if the default is usable often enough -- and even then it can be
  119. harmful by leading programmers to ignore situations where it wouldn't
  120. fit (and consequently no program could sort Finnish correctly,
  121. for I'm sure it wouldn't fit the default anyway; oh well, I guess
  122. that would mean more jobs for Finnish programmers ...).
  123.  
  124. >   Moreover, the usage of a "unversal" algorithm is inavoidable
  125. >   when consumers of the pre-sorted information do not share
  126. >   a cultural background.
  127.  
  128. Any information must be targeted to people who understand the
  129. language it is in.  Sorting multilingual wordlists should
  130. be done according to the language of context, or some language
  131. the recipient is expected to know.  In any case, I don't see this
  132. as requiring anything but a "default" language -- and it might
  133. be different for different groups of consumers.
  134.  
  135. However, there's another issue with sorting where your proposal is
  136. disastrous:  A single list of names may need to be sorted differently
  137. on different occasions depending on the target language.  If Spanish
  138. ll and ch are considered individual characters, and German and Finnish
  139. a-umlaut as distinct characters, this means that a Finnish reader must
  140. know the language a name originated in in order to find it.  It is
  141. impossible to explain to a layman that M"oller and M"oller are
  142. different names and in different place in the directory because one is
  143. German and the other Swedish.
  144.  
  145. Even worse, the problem isn't limited to sorting:  E.g., assume you
  146. want to search a database for the works of one Mr. M"oller without
  147. knowing where he comes from.  Or when entering a reference you have
  148. on paper to a database: how do you know which "o to type?
  149.  
  150.  
  151. >4) indication of the language is useful for hyphenation.
  152.  
  153. Yes.  However, I think it's really useful only if the exact language
  154. is known, and we already agreed not to put than in the character
  155. encoding.
  156.  
  157. >   Dictionary-based hyphenation algorithms do not need the
  158. >   language specification because the words themselves indicate
  159. >   the language;
  160.  
  161. This is not strictly true, as similarly spelled words occur
  162. in different languages and are hyphenated differently.
  163.  
  164. >   if the word is not in the dictionary the
  165. >   generic rules should be applied.
  166.  
  167. >   Therefore it is desireable (though not necessary) that
  168. >   the letter classes (ie. which ones are vowels) are preserved.
  169.  
  170. I doubt any generic rule would do much good.  At least among
  171. languages using Latin characters recognizing vowels won't help
  172. anything.  The only universal hyphenation-related thing I
  173. might put in the character set is a hyphenation hint character.
  174.  
  175.  
  176. >5) typographical-quality fonts often differentiate between
  177. >   "similar" glyhps reproducible on lower-resolution devices.
  178.  
  179. >   The proposed encoding methodology (see later) "automatically"
  180. >   separates graphic sets, so the ability to output typography-
  181. >   quality text is essentially "free" in the proposed encoding.
  182.  
  183. I'm not sure about this one.  Isn't it just a question of
  184. deciding exactly which are considered different glyphs
  185. in a glyph-based encoding?
  186.  
  187.                 ****
  188.  
  189. >The idea is to leave ALL language specifics at the point of input
  190. >where the language is supposedly known.
  191.  
  192. That assumption is simply false far too often.  Not only may the
  193. language of a word be unknown, it may not even exist.  (What language
  194. is M"oller in this sentence?)
  195. --
  196. Tapani Tarvainen  (tt@math.jyu.fi, tarvainen@finjyu.bitnet)
  197.