home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / unix / bsd / 10906 < prev    next >
Encoding:
Internet Message Format  |  1993-01-07  |  2.2 KB

  1. Xref: sparky comp.unix.bsd:10906 comp.std.internat:1023
  2. Newsgroups: comp.unix.bsd,comp.std.internat
  3. Path: sparky!uunet!psinntp!ficc!peter
  4. From: peter@ferranti.com (peter da silva)
  5. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  6. Message-ID: <id.E1FW.PX5@ferranti.com>
  7. Followup-To: comp.std.internat
  8. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  9. Organization: Xenix Support, FICC
  10. References: <1ht8v4INNj7i@rodan.UU.NET> <1993Jan1.094759.8021@fcom.cc.utah.edu> <1i2k09INN4hl@rodan.UU.NET>
  11. Date: Mon, 4 Jan 1993 15:35:27 GMT
  12. Lines: 34
  13.  
  14. In article <1i2k09INN4hl@rodan.UU.NET> avg@rodan.UU.NET (Vadim Antonov) writes:
  15. > You omitted one small "detail" -- you need to know the language of the word
  16. > the letter belongs to to make a conversion.
  17.  
  18. Yes.
  19.  
  20. > Since Unicode does not
  21. > provide for specifying the language it is obvious that is should be
  22. > obtained from user or kept somewhere off the text. In both cases
  23. > as our program ALREADY knows the language from the environment it knows
  24. > the particular (small) alphabet -- no need to use multibyte encodings!
  25.  
  26. Unless you want your document to contain multilingual data. *your* solution
  27. is only useful for documents containing a single language, in which case
  28. why bother with ISO8859.*... a separate character code table for every
  29. language is quite acceptable. For that matter, you can take the next step
  30. and say "why standardise character sets when every application has specific
  31. needs? Financial packages need dozens of currency symbols, for example, and
  32. mathematics needs a whole host of its own symbols... each application knows
  33. the set it needs to use... and for most text documents a 6-bit code is quite
  34. adequate"...
  35.  
  36. You have identified two problems with Unicode and ISO 10646: case conversion
  37. and lexical ordering.
  38.  
  39. > See how Unicode renders itself useless?
  40.  
  41. Unless you want to work on multilingual documents, yes. It could be better,
  42. certainly, but to say it's *useless* is hyperbole.
  43. -- 
  44. Peter da Silva                                            `-_-'
  45. Ferranti International Controls Corporation                'U` 
  46. Sugar Land, TX  77487-5012 USA
  47. +1 713 274 5180                            "Zure otsoa besarkatu al duzu gaur?"
  48.