home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / std / internat / 1109 < prev    next >
Encoding:
Text File  |  1993-01-08  |  2.0 KB  |  47 lines

  1. Newsgroups: comp.std.internat
  2. Path: sparky!uunet!zaphod.mps.ohio-state.edu!news.acns.nwu.edu!nucsrl!hpa
  3. From: hpa@eecs.nwu.edu (H. Peter Anvin N9ITP)
  4. Subject: Re: Language tagging
  5. Message-ID: <1993Jan8.081830.15294@eecs.nwu.edu>
  6. Reply-To: hpa@nwu.edu (H. Peter Anvin)
  7. Organization: You must be kidding!
  8. References: <1iddeeINN58g@rodan.UU.NET> <TT.93Jan7085019@tarzan.jyu.fi> <1ii6bkINNf6c@rodan.UU.NET>
  9. Date: Fri, 8 Jan 1993 08:18:30 GMT
  10. Lines: 35
  11.  
  12. In article <1ii6bkINNf6c@rodan.UU.NET> of comp.std.internat,
  13.   avg@rodan.UU.NET (Vadim Antonov) writes:
  14. > >A pure locale-system clearly won't do in multilingual environments.
  15. > >Nonetheless some things are, IMHO, best handled with locales.
  16. > >Perhaps it should be possible to specify the default language (like,
  17. > >in an environment variable) separately for each script one is
  18. > >concerned with (setenv LANG 'LATIN:finnish;CYRILLIC:russian;HAN:chinese')
  19. > >or whatever) and fall to a default in the rest.
  20. > It is not enough. Ukrain, say, use characters of both Cyrillic and
  21. > Latin scripts, etc.
  22.  
  23. I'd suggest some form of multiple locales, i.e. 
  24. setenv LANG ukranian-swedish-ipa-greek-farsi-japanese
  25.  
  26. In this model, each of the sorting algorithms would assign sorting
  27. values (integers, that may or may not be identical) to each character
  28. recognized in that language.  Any character undefined (e.g. KANJI HITO
  29. for Ukranian) is assigned MAXINT and thus is sorted last.  The sort
  30. proceeds with the first language as the primary key, second language
  31. as the secondary etc.  That means not only that the text in the
  32. different languages will show up in approximately the order listed,
  33. but also that multiscript languages can be easily accommodated.  There
  34. are languages that use characters from at least three scripts, so the
  35. need is there.
  36.  
  37.     /hpa
  38.  
  39. -- 
  40. INTERNET:  hpa@nwu.edu   TALK:      hpa@delta.eecs.nwu.edu
  41. BITNET:    HPA@NUACC     IBMNET:    16331@IBMX400
  42. HAM RADIO: N9ITP         NeXTMAIL:  hpa@lenny.acns.nwu.edu
  43. while ( 1 ) ; cp /dev/zero /dev/null & end
  44.