home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / std / internat / 1041 < prev    next >
Encoding:
Internet Message Format  |  1993-01-05  |  3.2 KB

  1. Path: sparky!uunet!usc!howland.reston.ans.net!paladin.american.edu!gatech!concert!rutgers!cmcl2!gauss.cims.nyu.edu!mckenney
  2. From: mckenney@gauss.cims.nyu.edu (Alan M. McKenney)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Summary: German has more than one "alphabetical order"
  6. Keywords: ISO10646 Unicode German Sorting
  7. Message-ID: <C0E2H4.B17@cmcl2.nyu.edu>
  8. Date: 5 Jan 93 16:15:02 GMT
  9. References: <8494@charon.cwi.nl> <1i2durINN2pj@rodan.UU.NET> <8496@charon.cwi.nl>
  10. Sender: notes@cmcl2.nyu.edu (Notes Person)
  11. Organization: Courant Institute, NYU, NY, NY, USA
  12. Lines: 63
  13. Nntp-Posting-Host: gauss.cims.nyu.edu
  14.  
  15. In article <8496@charon.cwi.nl> dik@cwi.nl (Dik T. Winter) writes:
  16. >In article <1i2durINN2pj@rodan.UU.NET> avg@rodan.UU.NET (Vadim Antonov) writes:
  17.   ....
  18.  
  19. > > >Moreover, one question: how would you encode the German A-umlaut such that
  20. > > >it sorts properly (i.e. as if it is the letter combination AE)?
  21. > > 
  22. > > The sorting order should be strict -- if you have two identical words
  23. > > with a-umlaut and ae in the middle is it the same word? If it is then
  24. > > ae IS a variation of a-umlaut and should always be treated as a signle
  25. > > letter.
  26. > > 
  27. >I do not think you understand.  From the AVON (Amtliches Verzeichnis der
  28. >Ortnetzkennzahlen) edition 1985, which gives area codes for the places in
  29. >Germany.  The next is a selection of places mentioned ("o is o-umlaut):
  30. >    Modautal
  31. >    M"ockm"uhl
  32. >    ...
  33. >    M"ornsheim
  34. >    Moers
  35. >    M"ossingen
  36. >    ...
  37. >    M"otzingen
  38. >    Mogendorf
  39. >now come up with a coding that allows this (standard German) sorting.
  40.  [and further mentions that "o is equiv. to oe, but oe is not equiv. to
  41.   "o.]
  42.  
  43.      I'm afraid that Dik Winter, as well-informed as he is, has
  44.      oversimplified things a little. :-)  There is not one sorting
  45.      scheme used in Germany, but (at least?) two.
  46.  
  47.      The scheme described by Dik *is* the scheme that is used in
  48.      telephone books, (and generally for proper names?) for very good
  49.      reasons.
  50.  
  51.      It is *not* the sorting that is used in any German dictionary I
  52.      have seen.  In dictionaries, a-umlaut is equivalent to a (not ae)
  53.      for sorting purposes, o-umlaut to o, u-umlaut to u, and "sharp s"
  54.      to ss.
  55.  
  56.      This further complicates Vadim Antonov's scheme for having character
  57.      codes encode sorting order: we would have to somehow specify that
  58.      under certain circumstances  "a  sorts one way, and under others
  59.      it sorts another.
  60.  
  61.      I even seem to recall a third scheme, but I don't remember what
  62.      it was, and it could have been something only used by users
  63.      of English-"speaking" computers.
  64.  
  65.  
  66.      (However, I am inclined to think that totally different alphabets,
  67.      e.g., the Cyrillics and the Latins, should be represented separately.
  68.      I am not familiar with 10646, but some posts here have suggested
  69.      that 10646 uses the same code for all letters that look like, e.g.,
  70.      T -- I can understand someone not being happy with that, if it is
  71.      true.  However, I don't have much experience in producing a unified
  72.      character set.)
  73.  
  74.  
  75. -- 
  76. Alan McKenney        E-mail:  mckenney@cims.nyu.edu         (INTERNET)
  77. Courant Institute,NYU,USA     ...!cmcl2!cims.nyu.edu!mckenney   (UUCP)
  78.