home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / std / internat / 1140 < prev    next >
Encoding:
Internet Message Format  |  1993-01-10  |  2.2 KB

  1. Path: sparky!uunet!cs.utexas.edu!sun-barr!sh.wide!fgw!fdm!ace!melby
  2. From: melby@dove.yk.fujitsu.co.jp (John B. Melby)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Language tagging
  5. Message-ID: <MELBY.93Jan11132917@dove.yk.fujitsu.co.jp>
  6. Date: 11 Jan 93 13:29:17 GMT
  7. References: <1iav6tINNee2@life.ai.mit.edu> <1iddeeINN58g@rodan.UU.NET>
  8.     <TT.93Jan7085019@tarzan.jyu.fi> <1ii6bkINNf6c@rodan.UU.NET>
  9. Sender: news@ace.yk.fujitsu.co.jp
  10. Organization: Open Systems Group, Fujitsu Limited, Yokohama
  11. Lines: 40
  12. In-reply-to: avg@rodan.UU.NET's message of 7 Jan 93 21:12:20 GMT
  13.  
  14. >>Let's look at it this way:  How would a Finn want to see Chinese
  15. >>names sorted?
  16. >
  17. > If (as is likely) he doesn't know Chinese he either
  18. >>couldn't care less, or would want them transliterated into Latin
  19. >>characters (and then sorted by Finnish rules).
  20. >
  21. >Ever saw Chinese transliterated into Latin? :-) You generally
  22. >can't do it and keep it intelligible because phonetic structures
  23. >of languages are fairly different.
  24.  
  25. It is feasible to sort Chinese names in the Putonghua-Pinyin order.
  26. (Of course, there may be problems if this is done programmatically,
  27. since many characters have two or more pronunciations.)
  28.  
  29. This is even more so in the case of Japanese, where a name like Kouichi
  30. Watanabe could just as easily be Hirokazu Watabe, and the characters
  31. for "hinagata" can also be pronounced "suukei."
  32.  
  33. In Japanese databases, ordering information is stored in a separate
  34. field from the character encoding, making the kanji ordering somewhat
  35. irrelevant for sorting.
  36.  
  37. If one wants to make sense out of an ordered multilingual list, it might
  38. be a good idea to provide the following information for each item:
  39.  
  40. (1) Source language of data item.  The sorting algorithm may or may not
  41.     use this information to arrange different languages into separate
  42.     lists.
  43. (2) Ordering information in source language, where necessary.
  44. (3) Official or arbitrary Romanized equivalent, where necessary.
  45.     (Since people romanize their names differently, the use of this field
  46.      may result in conflicting entries for the same name, such as Otsu,
  47.      Ootsu, Ohtsu, Otu, Ootu, and Ohtu.  There is probably no easy
  48.      solution to this problem.)
  49.  
  50. -----
  51. John B. Melby
  52. Fujitsu Limited, Yokohama
  53. melby%yk.fujitsu.co.jp@fai.com
  54.