home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / std / internat / 1031 < prev    next >
Encoding:
Internet Message Format  |  1993-01-05  |  4.7 KB

  1. Path: sparky!uunet!cis.ohio-state.edu!pacific.mps.ohio-state.edu!linac!att!att!allegra!alice!andrew
  2. From: andrew@alice.att.com (Andrew Hume)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Data tagging (was: 8-bit representation, plus an X problem)
  5. Message-ID: <24551@alice.att.com>
  6. Date: 5 Jan 93 02:41:49 GMT
  7. Article-I.D.: alice.24551
  8. References: <24426@alice.att.com| <1gpruaINNhfm@frigate.doc.ic.ac.uk> <2606@titccy.cc.titech.ac.jp>
  9. Organization: AT&T Bell Laboratories, Murray Hill NJ
  10. Lines: 97
  11.  
  12. be warned that my comments here are not meant to be belligerent;
  13. i am just trying to figure out the complaints.
  14.  
  15. In article <2606@titccy.cc.titech.ac.jp>, mohta@necom830.cc.titech.ac.jp (Masataka Ohta) writes:
  16. ~ In article <24494@alice.att.com> andrew@alice.att.com (Andrew Hume) writes:
  17. ~ >    this is a fundamental and persistent misapprehension of
  18. ~ >10646. it was neither designed for, nor can it allowd a system
  19. ~ >to display identical Han characters (same 10646 codepoint)
  20. ~ >in different fonts WITHOUT some other (non-10646) convention.
  21. ~ As it defines the same code point for correnponding Japanese/Chinese
  22. ~ characters, differentiation is impossible.
  23.  
  24.     this is agreeing with me, right?
  25.  
  26. ~ >10646 simply defines codepoints, allowing the unambiguous specification
  27. ~ >of the characters. if you want to set (or switch) fonts, then you
  28. ~ >have to invent some scheme to do it, as say ISO 2022 does
  29. ~ >(in a slightly clumsy way).
  30.  
  31. ~ Then, why you use ISO 10646? Can't we use ISO 2022?
  32.  
  33.     because 2022 is utterly hopeless. in fact, 2022 simply defines
  34. how to interpret byte streams (7 or 8 bit) using special sequences
  35. to load new character sets and to switch between them. to actually know
  36. what characters are meant, you have to know what the special escape
  37. sequences are AND know how that particular small character set works.
  38. furthermore, this is now a stateful encoding, so you can't seek or anything.
  39. just horrible. at least with 10646, i know all teh characters NOW, and there
  40. is no state switching.
  41.  
  42. ~ >    i claim NT has some convention in addition to the locale
  43. ~ >(perhaps, it is part of the lcoale's definition) so it can do this.
  44. ~ >but i don't know.
  45. ~ Then, how can I create a text file which contains both Chinese
  46. ~ and Japanese?
  47.  
  48.     i said i didn't know; presumably, there are magic commands (a la RTF)
  49. that change fonts.
  50.  
  51. ~ >> Shouldn't we use error numbers internally and interprete it by local
  52. ~ >> programs?
  53. ~ >    when the protocol was updated, this was taken out
  54. ~ >and errors are now just text strings (64 bytes i think).
  55. ~ Making everything English text is another fatal misdesign of Plan 9
  56. ~ as an internationalized OS.
  57.  
  58.     damned if i know where i said the text was english. it happens to
  59. be for us for the file server we have for our jukebox. we don't legislate
  60. the language, just that it is 10646 characters (sorry, you can't mix japanes
  61. and chinese within error messages).
  62.  
  63. ~ >    the bottom line is, when you connect to remote services,
  64. ~ >there is simply no way to know what they might report as errors.
  65. ~ If you are connecting to some server, you know the protocol you use
  66. ~ in which meanings on error numbers are contained.
  67.  
  68.     just wrong. i attempt to open a file. an error is returned.
  69. the protocol doesn't define nor restrict how that may have failed.
  70. sure we can guess common ones ('file does not exist'); but what about rare
  71. ones ("its bob's file and he's gone home")?
  72.  
  73. ~ >the problem is that a file server, say, may have an arbitrary
  74. ~ >number of error conditions, many of which may not be known locally.
  75. ~ Or, how can the client program know the severity of the error? Should
  76. ~ client program retry on error? How many times? Or should the client
  77. ~ abort the current transaction and retry? Or should the client
  78. ~ abort the entire job?
  79.  
  80.     good idea (not that it has anything to do with error numbers)!
  81. by default, we assume that file servers are working or not. but in general,
  82. it would be plausible for the file server to prefix its error message
  83. with a convential token indicating whether or not to retry. again, this
  84. should be a file server depependent thing and therefore cannot be tied
  85. to any particular set of error numbers.
  86.  
  87. ~ Even if the version of the server is updated and new error codes are added,
  88. ~ the server should know the version of the client and return old error code.
  89. ~ Or, how can the client program behave? Of course, for purely
  90. ~ informational purpose only, you can still report it, say, as "unknown
  91. ~ error # 42", which is of no help.
  92.  
  93.     not sure what this means. in any case, returning text avoids any
  94. synchronisation problems.
  95.  
  96.  
  97.     and just in case you were wondering why this is being pursued,
  98. it shows why having international character sets isn't the same as i18n.
  99. you have to deal with things like errno and so on.
  100.  
  101.         andrew hume
  102.