home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / std / internat / 1043 < prev    next >
Encoding:
Internet Message Format  |  1993-01-05  |  3.9 KB

  1. Path: sparky!uunet!enterpoop.mit.edu!ira.uka.de!fauern!uni-erlangen.de!not-for-mail
  2. From: unrza3@cd4680fs.rrze.uni-erlangen.de (Markus Kuhn)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Let's develop ISO sorting rules
  5. Date: 5 Jan 1993 18:29:49 +0100
  6. Organization: Regionales Rechenzentrum Erlangen
  7. Message-ID: <1icgidEINN4v3@uni-erlangen.de>
  8. References: <8496@charon.cwi.nl> <C0Cuz5.2wy@flatlin.ka.sub.org> <1ibmdcEINNooe@uni-erlangen.de> <1993Jan5.150305.755@klaava.Helsinki.FI>
  9. Reply-To: mskuhn@immd4.informatik.uni-erlangen.de
  10. NNTP-Posting-Host: cd4680fs.rrze.uni-erlangen.de
  11. Lines: 67
  12. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  13.  
  14. wirzeniu@klaava.Helsinki.FI (Lars Wirzenius) writes:
  15.  
  16. >mskuhn@immd4.informatik.uni-erlangen.de writes:
  17. >>THE SOLUTION IS SIMPLE ONCE YOU ACCEPTED THAT INCOMPATIBILITY WITH
  18. >>EXISTING HISTORICAL RULES IS NECESSARY!
  19.  
  20. >I don't accept it.  Computers have to change to please users, not the
  21. >other way around.
  22.  
  23. The requirements of users change quickly once they see the solutions offered by
  24. computers, especially, if a new solution offered by a computer has
  25. great advantages over the traditional methods people require only
  26. because they know no alternatives. In some situations, the paradigm
  27. 'computers have to change to please users' is a dead end, if the users
  28. don't agree if you ask them the first time and if you implement all
  29. solutions that have been explained to you. (I have had bad experiences
  30. with we-offer-all-possible-solutions-systems recently, I just say OSI).
  31. Simple and efficient solutions have always pleased users. This will
  32. also be true for many internationalization issues.
  33.  
  34. >There is no sorting order that will satisfy everybody.  Thus it is not
  35. >a good idea to embed one into the character set and make everybody use
  36. >it.
  37.  
  38. My vision is NOT a sorting order that is embedded in the character set.
  39. That would be too trivial, of course. The Unicode developpers had good
  40. reasons to embed one into the code table. No, I have a slightly more clever
  41. algorithm in mind, that will do 2 passes:
  42.  
  43.    1. ignore punctuations etc. and group letters together before
  44.       comparing the strings.
  45.  
  46.    2. No. 1 will not offer a total order, which should be supplied by a
  47.       beautiful sorting standard. So if 1 fails than compare the strings
  48.       completely without throwing any trivial information away. Rule 2 must not
  49.       conflict with rule 1, the partial ordering must only be completed.
  50.  
  51. I am playing around with an algorithm that works this way since a few
  52. days, and the results are very promising and easy to understand intuitively.
  53. I believe e.g., that my method is far superior to the complex and 
  54. often non-deterministic rules in the 60 year old German DIN 5007 standard.
  55. In an elegant implementation, 2 passes are not necessary, but the
  56. algorithm is easier to understand if explained with two passes. It might
  57. even be described with 3 passes ... :-)
  58.  
  59. The method deals fine with punctuations in the strings (e.g. in
  60. bibliographic references and person names), is pretty efficient and
  61. easy to implement. Word lists produced by my algorithm are pretty easy
  62. to scan for human eyes. The solution is much more general than simple
  63. upcase conversion before lexicographic character code comparison which
  64. is often used today with US-ASCII.
  65.  
  66. I still don't know, whether I should post the algorithm here, or whether
  67. I should write a paper or techreport first, as it is much more promising
  68. than all character code based lexical orderings that have been proposed here
  69. so far.
  70.  
  71. No, the answer that NO internationally suitable sorting algorithm (not
  72. only sorted character table!) is possible is too simple in my eyes.
  73.  
  74. Markus
  75.  
  76. -- 
  77. Markus Kuhn, Computer Science student -=-=- University of Erlangen, Germany
  78. Internet: mskuhn@immd4.informatik.uni-erlangen.de  |  X.500 entry available
  79. ----- Anyone participating in the use of MS-DOS, Heroin or Cocaine is -----
  80. ---- simply not getting the most out of life possible. (Brian Downing) ----
  81.