home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / std / internat / 1118 < prev    next >
Encoding:
Text File  |  1993-01-08  |  3.9 KB  |  83 lines

  1. Newsgroups: comp.std.internat
  2. Path: sparky!uunet!zaphod.mps.ohio-state.edu!saimiri.primate.wisc.edu!ames!agate!dog.ee.lbl.gov!hellgate.utah.edu!fcom.cc.utah.edu!cs.weber.edu!terry
  3. From: terry@cs.weber.edu (A Wizard of Earth C)
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Message-ID: <1993Jan9.031217.27425@fcom.cc.utah.edu>
  6. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  7. Sender: news@fcom.cc.utah.edu
  8. Organization: Weber State University  (Ogden, UT)
  9. References: <1i2emiINN2td@rodan.UU.NET> <1993Jan7.065611.15193@fcom.cc.utah.edu> <1993Jan8.094119.6795@prl.dec.com>
  10. Date: Sat, 9 Jan 93 03:12:17 GMT
  11. Lines: 70
  12.  
  13. In article <1993Jan8.094119.6795@prl.dec.com> boyd@prl.dec.com (Boyd Roberts) writes:
  14. >In article <1993Jan7.065611.15193@fcom.cc.utah.edu>, terry@cs.weber.edu (A Wizard of Earth C) writes:
  15. >> 
  16. >> Again, sorting can not be safely tied to character set lexical order for
  17. >> all languages.  I disagree with Boyd here.  Localization with Unicode is
  18. >> a piece of cake.  Unicode allows it to be entirely data driven, with no
  19. >> locale-specific algorithms or hard-coded data.
  20. >
  21. >Maybe you should check your attributions, but I have never advocated
  22. >that the code values can be used to do lexical sorting in the general
  23. >case -- far from it.  Your above paragraph contains a contradiction
  24. >as I read it.
  25.  
  26. Sorry if I have misattributed anything.  The disagreement was regarding
  27. the ease of localization.
  28.  
  29. >Tell me how I sort on stroke count in Unicode without ``locale-specific
  30. >algorithms or hard-coded data''?
  31.  
  32. Locale-specific sorting can be done with a generalized algorythm which
  33. is itself data-driven.  The *data* doing the driving, on the other hand,
  34. is *entirely* locale specific.
  35.  
  36. Localization (in terms of providing a native language environment of
  37. commands, interface text, and error messages) can be totally data driven
  38. using locale specific message catalogs.
  39.  
  40. None of this requires either direct manipulation algorithms (ie: not data
  41. driven) or hard-coded data (as in constant character strings compiled into
  42. programs.
  43.  
  44. In previous posts, I (and others) have pointed out why it is fundamentally
  45. impossible to take all sorting issues into account with simple lexical
  46. ordering because of multiple sorting procedures within a given language.
  47. This is because the locale specific character set binds the sorting order
  48. to the lexical order within a single language (unless multiple character
  49. sets are provided for each language with more than one sort order, and
  50. the character set is thus bound to the locale, not to the lexical ordering
  51. within a particular character set for each language.
  52.  
  53. Your stroke count example is well taken, since it is not the only sorting
  54. order in Chinese (for instance, sorting on radicals is frequently used),
  55. but stroke-count (and direction) sorts are highly useful even in English
  56. for handwriting recognition systems.
  57.  
  58. >Re: `san'
  59. >
  60. >    It can be used on either the family name of the first name.
  61. >    This assertion is based on current common practice in Japan.
  62. >
  63. >    If you knew Ohta-san reasonably well (ie. friend or colleague)
  64. >    and were contemporaries you could use `kun' instead of `san'.
  65.  
  66. So, out of curiousity, is "Ohta" his family name or his first name?  I had
  67. assumed it was being used as an honorific (ie: Mr.), in which case the
  68. correct usage in his particular case is still dependant on whether he
  69. was ordering his name for Japanese or for English in his signature.
  70.  
  71.  
  72.                     Terry Lambert
  73.                     terry@icarus.weber.edu
  74.                     terry_lambert@novell.com
  75. ---
  76. Any opinions in this posting are my own and not those of my present
  77. or previous employers.
  78. -- 
  79. -------------------------------------------------------------------------------
  80.                                         "I have an 8 user poetic license" - me
  81.  Get the 386bsd FAQ from agate.berkeley.edu:/pub/386BSD/386bsd-0.1/unofficial
  82. -------------------------------------------------------------------------------
  83.