home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / std / internat / 1025 < prev    next >
Encoding:
Text File  |  1993-01-04  |  2.6 KB  |  55 lines

  1. Newsgroups: comp.std.internat
  2. Path: sparky!uunet!psinntp!ficc!peter
  3. From: peter@ferranti.com (peter da silva)
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Message-ID: <id.N4FW.SAC@ferranti.com>
  6. Keywords: ISO10646 Unicode
  7. Organization: Xenix Support, FICC
  8. References: <1i13rrINNars@rodan.UU.NET> <id.68CW.A16@ferranti.com> <1i2m57INN4vr@rodan.UU.NET>
  9. Date: Mon, 4 Jan 1993 17:35:38 GMT
  10. Lines: 43
  11.  
  12. In article <1i2m57INN4vr@rodan.UU.NET> avg@rodan.UU.NET (Vadim Antonov) writes:
  13. > In article <id.68CW.A16@ferranti.com> peter@ferranti.com (peter da silva) writes:
  14. > >In article <1i13rrINNars@rodan.UU.NET> avg@rodan.UU.NET (Vadim Antonov) writes:
  15. > >> We were talking about lexicographical sorting, not abouth phonetics.
  16.  
  17. > >But lexicographic sorting (actually, lexicograhic ordering) is a minor part of
  18. > >this. Most sorting computers do is algorithmic ordering, to optimise some
  19. > >combination of operations on data structures (searching, for example). The
  20. > >character set is irrelevant there.
  21.  
  22. > Wrong-o. Nobody does numerical sorts since invention of secondary
  23. > indices.
  24.  
  25. I'm afraid you'll have to translate this sentence. It parses as valid English,
  26. and uses appropriate sentence structure and terminology for the context, but
  27. seems almost completely irrelevant to anything I said. For efficient lookup
  28. the index needs to be ordered in some fashion whether it's a flat table or a
  29. tree. Unless you find hashing adequate for all possible purposes, perhaps?
  30.  
  31. > The problem is not in searching -- the problem is in presenting
  32. > the information and in regular expressions ([a-z] - does it include "o?)
  33.  
  34. No. The regular expression '[a-z]' is a side effect of the fact that ASCII
  35. happens to be in numerical order for the base alphanumeric characters used
  36. in English computer text. It's invalid for EBCDIC, for example. The POSIX
  37. alternative for what you *mean* here is something like '[:lower:]', and I
  38. would hope that for the long term this be extended to specify localization
  39. information, for example '[:lower/english/usa:]' so that it would allow
  40. loan words like clich'e or na"ive, or names like 'da Silva' (with a non
  41. blank space between the 'a' and 'S').
  42.  
  43. Sure, it's a mouthful, so you'd do this:
  44.  
  45.     setenv LOWER '[:lower/english/usa:]'
  46.  
  47. You need to do that for scripts, anyway, since you want your program to
  48. continue to work when it's downloaded from some site in Finland and used
  49. in London or Beirut.
  50. -- 
  51. Peter da Silva                                            `-_-'
  52. Ferranti International Controls Corporation                'U` 
  53. Sugar Land, TX  77487-5012 USA
  54. +1 713 274 5180                            "Zure otsoa besarkatu al duzu gaur?"
  55.