home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / std / internat / 1078 < prev    next >
Encoding:
Internet Message Format  |  1993-01-07  |  5.0 KB

  1. Path: sparky!uunet!gatech!enterpoop.mit.edu!eru.mt.luth.se!lunic!sunic!corax.udac.uu.se!Riga.DoCS.UU.SE!andersa
  2. From: andersa@Riga.DoCS.UU.SE (Anders Andersson)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Let's develop ISO sorting rules
  5. Message-ID: <1ifr9sINNd0o@corax.udac.uu.se>
  6. Date: 6 Jan 93 23:51:24 GMT
  7. References: <1i0vnmINN352@rodan.UU.NET> <8494@charon.cwi.nl> <1i2durINN2pj@rodan.UU.NET> <8496@charon.cwi.nl> <C0Cuz5.2wy@flatlin.ka.sub.org> <1ibmdcEINNooe@uni-erlangen.de> <1993Jan5.222627.29561@jarvis.csri.toronto.edu> <1iev27EINNmc4@uni-erlangen.de>
  8. Organization: Uppsala University, Sweden
  9. Lines: 87
  10. NNTP-Posting-Host: riga.docs.uu.se
  11.  
  12. In article <1iev27EINNmc4@uni-erlangen.de>, unrza3@cd4680fs.rrze.uni-erlangen.de (Markus Kuhn) writes:
  13. > flaps@dgp.toronto.edu (Alan J Rosenthal) writes:
  14. > >I believe you.  I'm sure that the analogous statement is true for French.  But
  15. > >I'm almost as sure that Swedish readers won't want "a-circle" to be anywhere
  16. > >near "a".  I think your flexibility on this is a language-relative phenomenon.
  17. > This would be really bad news, could someone from Sweden coment on this?
  18.  
  19. I can support Alan's assumption.  The three common Swedish letters
  20. that are the issue here are _always_ sorted after Z when done here
  21. properly.  The only place where I've seen them occur elsewhere is in
  22. foreign-made gazetteers (such as the index of a world atlas), where
  23. it wouldn't make sense to convene readers of Swedish in particular.
  24.  
  25. This of course doesn't mean that we would be totally lost in the
  26. dark if a foreign sorting method were forced down our throats, but
  27. I'm sure a lot of people would complain about it if they were told
  28. it was for the benefit of computer standardization...  I can see
  29. that A and A-ring have a common graphical component, but so what?
  30. We consider them different.  A Swedish typist might consider 'l'
  31. and '1' equivalent, but not A and A-ring.
  32.  
  33. The situation is the same in Finland, Norway and Denmark, though
  34. the relative positions of (and the actual glyphs used for) the
  35. three vowels differ somewhat.  When we sort Norwegian and Danish
  36. words in a Swedish context, we usually regard their vowels as
  37. equivalent to ours based on phonetics (i.e. Danish AE ligature =
  38. = Swedish A-diaeresis).
  39.  
  40. Further, W is sorted as V, and U-diaeresis as Y.  Your suggested
  41. rule does apply to most other accented and special letters of the
  42. Latin alphabet, though, whenever they occur in a Swedish context
  43. (most often E-acute, and in proper names of people).
  44.  
  45. The original language of the sorted word does not matter to us
  46. (I don't think it does to anybody); O-diaeresis comes last in
  47. the alphabet regardless of whether it belongs to a German,
  48. Hungarian, or Turkish name.
  49.  
  50. > And the following rule may be understood by every user within less then
  51. > 10 seconds:
  52. >   sort latin characters with diacritics (e.g. "a, 'a, ^a, ...) near their
  53. >   pure latin version a.
  54.  
  55. The issue is not whether the rule is understood, but whether it's
  56. accepted.  It may not turn into a political issue like the one
  57. about nuclear power, but people generally prefer doing things
  58. the way they have always done them.
  59.  
  60. Btw, where would you put the AE ligature?  With a or with ae?
  61.  
  62. > I'd like to discuss here, where the cyrillic, greek etc. letters
  63. > should be included. The positions that correspond to the latin letters
  64. > used in international transcription systems  might be a good starting
  65. > point, if this is possible while preserving the ordering of e.g. the
  66. > greek alphabet.
  67.  
  68. If you take the Latin alphabet as your frame of reference, then
  69. it's not possible to preserve the alphabetic order of either
  70. Cyrillic (A, B, V, G, D...) or Greek (A, B, G, D, E...) letters.
  71. However, Cyrillic appears to have more in common with Greek than
  72. with Latin.  Maybe we should settle for Greek order? :-)
  73.  
  74. > With out it, there will terrible
  75. > ISO 10646 sorting methods based on the Unicode code number of each character
  76. > become common practice!!! The definition of these groups might perhaps also be
  77. > useful for case-and-diacritic-invariant searching, because case-only-invariant
  78. > searching is only half a solution in Unicode that was ok with ASCII.
  79.  
  80. Why bother, really?  If you need a sorting order that is the same
  81. all over the world, for the purpose of building a database where
  82. ISO 10646 strings are used as keys, then simply use code point order.
  83. We have done that with ASCII for decades; it's not pretty, but it's
  84. probably not intended for human consumption anyway.  If, on the
  85. other hand, the purpose is to produce a human-readable index or
  86. something, then strive to accomodate the human, which means using
  87. the user's preferred sorting order.  If the index is to be printed
  88. once and not changeable thereafter, and to be used by many users,
  89. decide upon one existing natural language, and sort according to
  90. its rules (English has worked fine for the gazetteers I've seen).
  91.  
  92. Do you have an example of where your method would be used?
  93. --
  94. Anders Andersson, Dept. of Computer Systems, Uppsala University
  95. Paper Mail: Box 325, S-751 05 UPPSALA, Sweden
  96. Phone: +46 18 183170   EMail: andersa@DoCS.UU.SE
  97.