home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / std / internat / 1121 < prev    next >
Encoding:
Internet Message Format  |  1993-01-09  |  2.6 KB

  1. Path: sparky!uunet!think.com!enterpoop.mit.edu!mintaka.lcs.mit.edu!ai-lab!wheat-chex!glenn
  2. From: glenn@wheat-chex.ai.mit.edu (Glenn A. Adams)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Date: 9 Jan 1993 18:23:18 GMT
  6. Organization: MIT Artificial Intelligence Laboratory
  7. Lines: 42
  8. Message-ID: <1in56mINNnhq@life.ai.mit.edu>
  9. References: <1993Jan7.065611.15193@fcom.cc.utah.edu> <1993Jan8.094119.6795@prl.dec.com> <1993Jan9.031217.27425@fcom.cc.utah.edu>
  10. NNTP-Posting-Host: wheat-chex.ai.mit.edu
  11. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  12.  
  13. In article <1993Jan9.031217.27425@fcom.cc.utah.edu> terry@cs.weber.edu (A Wizard of Earth C) writes:
  14. >In article <1993Jan8.094119.6795@prl.dec.com> boyd@prl.dec.com (Boyd Roberts) writes:
  15. >>Tell me how I sort on stroke count in Unicode without ``locale-specific
  16. >>algorithms or hard-coded data''?
  17.  
  18. If it is Han characters that are being sorted, then Unicode already orders
  19. them according to KangXi radicals (214) and (additional) stroke count.
  20. Characters with simplified radicals immediately follow those with the
  21. traditional radical.  Ties in these orders are broken by using the orders
  22. of KangXi Zidian, Dai Kanwa Ziten, Hanyu Da Zidian, and Dae Jaweon in
  23. this order.  To quote the relevant passage from the Unicode standard,
  24. volume 2 (p. 14):
  25.  
  26.   "When a character is found in the KanXi Zidian, it follows the KangXi
  27.   Zidian order.  When it is not found in the KangXi Zidian and is found in
  28.   Dai Kanwa Ziten, it is given a position extrapolated from the KangXi
  29.   position of the preceding character in Dai Kanwa Ziten.  When it is not
  30.   found in either KangXi or Dai Kanwa, Hanyu Da Zidian and Dae Jaweon
  31.   dictionaries are consulted in a similar manner."
  32.  
  33. Total stroke-count and four-corner (et al.) orderings are typically
  34. used only for input mechanisms.  It is trivial to transform Unicode
  35. Han encodings into any of various weighted indexes for sorting by using
  36. a simple table lookup.
  37.  
  38. If anyone is interested in obtaining a Unicode Kanji Database,
  39. I have one available for interested parties.  It contains the following
  40. information:
  41.  
  42.   Unicode to JISX0208 Mappings
  43.   Onyomi pronunciation(s) in katakana of each Unicode Kanji.
  44.   Kunyomi pronunciation(s) in hiragana of each Unicode Kanji.
  45.   Romaji for each on/kun kana reading (yomi).
  46.   Radical, total stroke count, and added stroke count of each Unicode Kanji.
  47.   
  48.   *Only those Unicode Han characters which are also in JISX0208 are
  49.    present in this database. 
  50.  
  51. Please send mail to <ucjis-request@metis.com> if you would like further
  52. information.
  53.  
  54. Glenn Adams
  55.