home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / std / internat / 1056 < prev    next >
Encoding:
Text File  |  1993-01-06  |  5.6 KB  |  109 lines

  1. Path: sparky!uunet!europa.asd.contel.com!darwin.sura.net!jvnc.net!newsserver.jvnc.net!yale.edu!ira.uka.de!fauern!uni-erlangen.de!not-for-mail
  2. From: unrza3@cd4680fs.rrze.uni-erlangen.de (Markus Kuhn)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Let's develop ISO sorting rules
  5. Date: 6 Jan 1993 16:49:27 +0100
  6. Organization: Regionales Rechenzentrum Erlangen
  7. Message-ID: <1iev27EINNmc4@uni-erlangen.de>
  8. References: <1i0vnmINN352@rodan.UU.NET> <8494@charon.cwi.nl> <1i2durINN2pj@rodan.UU.NET> <8496@charon.cwi.nl> <C0Cuz5.2wy@flatlin.ka.sub.org> <1ibmdcEINNooe@uni-erlangen.de> <1993Jan5.222627.29561@jarvis.csri.toronto.edu>
  9. Reply-To: mskuhn@immd4.informatik.uni-erlangen.de
  10. NNTP-Posting-Host: cd4680fs.rrze.uni-erlangen.de
  11. Lines: 96
  12.  
  13. flaps@dgp.toronto.edu (Alan J Rosenthal) writes:
  14.  
  15. >unrza3@cd4680fs.rrze.uni-erlangen.de (Markus Kuhn) writes:
  16. >>Believe me, German users who know what they are talking about won't
  17. >>complan if "a, "o and "u are not sorted as ae, oe and ue.
  18.  
  19. >I believe you.  I'm sure that the analogous statement is true for French.  But
  20. >I'm almost as sure that Swedish readers won't want "a-circle" to be anywhere
  21. >near "a".  I think your flexibility on this is a language-relative phenomenon.
  22.  
  23. This would be really bad news, could someone from Sweden coment on this?
  24.  
  25. My idea is, that there is one latin alphabet, that is known by everyone
  26. using a latin script:
  27.  
  28.   abcdefghijklmnopqrstuvwxyz
  29.  
  30. And the following rule may be understood by every user within less then
  31. 10 seconds:
  32.  
  33.   sort latin characters with diacritics (e.g. "a, 'a, ^a, ...) near their
  34.   pure latin version a.
  35.  
  36. The time needed to understand this rule is independend of which latin
  37. alphabet based language the user uses normally.
  38.  
  39. Then you still have to insert special characters (e.g. Icelandic Thorn)
  40. at suitable places THAT ONLY NEED TO BE REMEMBERED BY PEOPLES INTERESTED
  41. IN THIS LANGUAGE! That's really simple to understand. Ok, perhaps users
  42. should not be forced to use this standard multilingual sorting, but if it
  43. is offered as one possible 'international locale', I bet many people will
  44. like it very quickly.
  45.  
  46. My algorithm is a kind of generalized upcase conversion: All a letters
  47. (a, A, A-ring, a-ring, "a, "A, ... perhaps even greek alpha and Alpha)
  48. form one group. Without the huge far east character sets, there might
  49. be about 50-80 groups. Each ISO 10646 character is assigned a group
  50. number and members of the same group have the same group numbers.
  51. Then we sort according to group numbers, not according to character
  52. codes. If the comparison between two words fails, because their group
  53. string doesn't differ, than let's compare by the positions within a group.
  54. Each character is also given a group position number, that provides a total
  55. order on all characters within a group. E.g. we might define in the standard,
  56. that ring-above comes always after acute-accent etc. These definitions are
  57. only necessary to offer a total ordering and need NOT be known by 99% of
  58. the users, because they will be significant very rarely (e.g. comes
  59. cooperation before or after co÷peration [÷="o]?). In addition,
  60. there is a punctuation group, that is ignored in the first pass
  61. and a space group. Not to forget 10 digit groups, where all the
  62. different digit versions in Unicode will be summarized, etc.
  63.  
  64. I'd like to discuss here, where the cyrillic, greek etc. letters
  65. should be included. The positions that correspond to the latin letters
  66. used in international transcription systems  might be a good starting
  67. point, if this is possible while preserving the ordering of e.g. the
  68. greek alphabet. If this is absolutely impossible (e.g. with han characters),
  69. than of course completely seperate groups have to be used.
  70.  
  71. I have started to write a full algebraic specification of the algorithm,
  72. but it is really a pain to do this in ASCII. :-) Perhaps a 20-line C
  73. function will be a better specification.
  74.  
  75. It would be possible to encode group number and position within a group
  76. in the character code, but this would increase the number of bits needed,
  77. because there would have to be big gaps in the code space. I prefer
  78. 16-bit ISO 10646 together with a table that gives me a 2x2 byte code 
  79. (group x position in group) for each character. Clever programmers
  80. will store this table efficiently in much less then 128kBytes.
  81.  
  82. >>Word lists produced by my algorithm are pretty easy to scan for human eyes.
  83.  
  84. >is language-relative as well.  If people are used to thinking of a-circle as
  85. >being at the end of the alphabet, it may become a different letter.  For all I
  86. >know they think of it as a circle with an "a" as a diacritical mark rather than
  87. >the other way around.
  88.  
  89. If we want ONE alphabethical order for an international locale, than we
  90. have to use what is easily understood by the majority of the world
  91. population. No one should be forced to use the international sorting,
  92. but for many people, a systematic approach will be very useful.
  93.  
  94. Are there any experts in the Unicode Consortium, that believe, that specifying
  95. the details of this algorithm together with a well designed group table
  96. would be worth the effort? This would be a very nice next standard submitted
  97. by the Unicode Consortium to ISO ... :-) With out it, there will terrible
  98. ISO 10646 sorting methods based on the Unicode code number of each character
  99. become common practice!!! The definition of these groups might perhaps also be
  100. useful for case-and-diacritic-invariant searching, because case-only-invariant
  101. searching is only half a solution in Unicode that was ok with ASCII.
  102.  
  103. Markus
  104.  
  105. -- 
  106. Markus Kuhn, Computer Science student -=-=- University of Erlangen, Germany
  107. Internet: mskuhn@immd4.informatik.uni-erlangen.de  |  X.500 entry available
  108. --- Wer, wie, was? Wieso, weshalb, warum? Wer nichts fragt bleibt dumm. ---
  109.