home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / std / internat / 1079 < prev    next >
Encoding:
Text File  |  1993-01-07  |  4.3 KB  |  88 lines

  1. Newsgroups: comp.std.internat
  2. Path: sparky!uunet!zaphod.mps.ohio-state.edu!malgudi.oar.net!caen!hellgate.utah.edu!fcom.cc.utah.edu!cs.weber.edu!terry
  3. From: terry@cs.weber.edu (A Wizard of Earth C)
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Message-ID: <1993Jan7.071324.15413@fcom.cc.utah.edu>
  6. Sender: news@fcom.cc.utah.edu
  7. Organization: Weber State University  (Ogden, UT)
  8. References: <1i0s05INNnfn@rodan.UU.NET> <TT.93Jan1135637@tarzan.jyu.fi> <1i2h7cINN3qj@rodan.UU.NET>
  9. Date: Thu, 7 Jan 93 07:13:24 GMT
  10. Lines: 76
  11.  
  12. In article <1i2h7cINN3qj@rodan.UU.NET> avg@rodan.UU.NET (Vadim Antonov) writes:
  13. >In article <TT.93Jan1135637@tarzan.jyu.fi> tt@tarzan.jyu.fi (Tapani Tarvainen) writes:
  14. >>>Unicode (and for that matter Plan 9 UTF) does not support the last
  15. >>>two mentioned functions. I have yet to see Plan 9 _sort_ which will
  16. >>>sort Russian strings without being told explicitly that it is Russian.
  17. >>
  18. >>So what?
  19. >>I've yet to see anything even planned that would allow sorting
  20. >>both Finnish and German without being told which is wanted.  
  21. >>In fact I can't even imagine one that would make any sense.
  22. >>In the case of a list of names, the very same data could be
  23. >>sorted differently depending on where it is going to be used.
  24. >
  25. >Pfrr, take a look at DEMOS Unix-likes -- they do sort both Russian and English
  26. >without being told which is wanted. [<ah>-<ya>]* in shell really selects
  27. >                      ^    ^ -imagine real cyrillic letters here
  28. >all files startting from lowercase russian letter. lex generates correct
  29. >parsers for languages with russian keywords. Grep works as it is supposed to.
  30. >So far no user complained that there are two o's and two A's in the code.
  31. >
  32. >It is not impossible -- it's rather easy if the right code is choosen.
  33.  
  34. Well, this is a bilingual example, not a multilingual one including East
  35. Asian languages; it's also less than perfect for bilingual mixing of
  36. character sets with intersecting glyph sets: there is not only an implied
  37. lexical order in each language (which *is* not valid for languages with
  38. multiple possible collating sequences, such as German), there is an implied
  39. ordering of languages.
  40.  
  41. Let's say for the sake of argument that someone standardized your suggestion
  42. (no mean feat, considering the number of glyphs you want!), and lets say they
  43. even resolved the problem with your suggestion that hasn't even been mentioned
  44. yet because the majority of us believe there are more significant problems
  45. than you suggest:  Searching for explicit character patterns in a text file
  46. (like searching for "u in a file and expecting it to match every instance of
  47. 'Gr"uen' or other u-umlaut, except it can't because you only typed in one of
  48. the 75 possible u-umlaut's, and it was the wrong one).
  49.  
  50. Accept all that as given.  For the sake of argument, I will.
  51.  
  52. I now demand that English be first in the implied lexical ordering of
  53. character sets within your "super character set" so that *my* files sort
  54. before *your* files.
  55.  
  56. Ut-oh -- another can of worms, I guess...  8-).
  57.  
  58. >>Tying sorting rules to character sets is not a good idea, IMHO.
  59. >
  60. >Would you like to specify the language for every range in every regular
  61. >expression you use?
  62.  
  63. Nah.  As a user, I'll get some programmer to do it for me once, and set
  64. my locale, and never worry about it again.  I'll expect the word processor
  65. to apply the correct sort ordering to the German dictionary my first
  66. client is publishing and the German phone book my other client is publishing,
  67. of course -- you can do that with the "super character set", can't you?
  68.  
  69. >Embedding sorting rules to character sets is not a "good idea" -- it's
  70. >a necessity and you can do nothing about it.
  71.  
  72. Provide me an implementation for a language with multiple collating
  73. sequences, then maybe I'll agree with you, as long as it doesn't apply
  74. equally well to a Unicode character set.
  75.  
  76.  
  77.                     Terry Lambert
  78.                     terry@icarus.weber.edu
  79.                     terry_lambert@novell.com
  80. ---
  81. Any opinions in this posting are my own and not those of my present
  82. or previous employers.
  83. -- 
  84. -------------------------------------------------------------------------------
  85.                                         "I have an 8 user poetic license" - me
  86.  Get the 386bsd FAQ from agate.berkeley.edu:/pub/386BSD/386bsd-0.1/unofficial
  87. -------------------------------------------------------------------------------
  88.