home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / std / internat / 1074 < prev    next >
Encoding:
Text File  |  1993-01-07  |  5.9 KB  |  120 lines

  1. Newsgroups: comp.std.internat
  2. Path: sparky!uunet!wupost!crcnis1.unl.edu!moe.ksu.ksu.edu!zaphod.mps.ohio-state.edu!saimiri.primate.wisc.edu!ames!agate!dog.ee.lbl.gov!hellgate.utah.edu!fcom.cc.utah.edu!cs.weber.edu!terry
  3. From: terry@cs.weber.edu (A Wizard of Earth C)
  4. Subject: Re: An alternative I18N paradigm
  5. Message-ID: <1993Jan7.054124.14059@fcom.cc.utah.edu>
  6. Sender: news@fcom.cc.utah.edu
  7. Organization: Weber State University  (Ogden, UT)
  8. References: <1hncs1INN1qq@corax.udac.uu.se> <DAN.92Dec29102634@dan.watson.ibm.com> <1hu9v9INN923@life.ai.mit.edu>
  9. Date: Thu, 7 Jan 93 05:41:24 GMT
  10. Lines: 108
  11.  
  12. Vadim dragged me into this group by referencing an article I posted only in
  13. comp.unix.bsd in a "mass-rebuttal" posted here.  I might as well attempt to
  14. contribute.
  15.  
  16.  
  17. In article <1hu9v9INN923@life.ai.mit.edu> glenn@wheat-chex.ai.mit.edu (Glenn A. Adams) writes:
  18. >The real problem, at least as I see it, is that the locale model
  19. >doesn't distinguish between the consumer of information and the
  20. >producer of information.  It naively assumes that an individual
  21. >end user must choose the manner in which (linguistically and
  22. >culturally sensitive) information is to be presented, and that
  23. >this choice can be determined by one fixed value parameter (i.e.,
  24. >the locale setting).
  25.  
  26. I agree.  A pure locale model is unacceptable for multinationalization (use
  27. in a multilingual environment).  This is the problem with "code pages" in
  28. DOS.  I don't think that a "pure" locale is required, though.
  29.  
  30. [ ... ]
  31. >However, if the producer is another individual, then
  32. >the locale probably should be ignored, and information contained in the
  33. >text itself should be consulted about matters such as character set encoding,
  34. >font(s), language tag(s), or other presentation information.  In this case,
  35. >the locale may be of help only in the case that such explicit information
  36. >(encoding, font, etc.) is absent, and here, it may produce complete garbage
  37. >if it makes the wrong assumptions.
  38.  
  39. Agreed; a compounding mechanism is necessary, potentially combined with
  40. some method of per document attribution for the majority case of monolingual
  41. documents, for use in a multinational implementation of locale to make it
  42. useful.
  43. >
  44. >One may ask where 10646/Unicode fits into all of this?  It provides only
  45. >a small part of the solution; namely, a single universal character set
  46. >encoding rather than many non-universal encodings.  Of course, one might
  47. >propose to solve a small part of the problem by using 10646:  use 10646
  48. >for all encoded text.  However, as has been pointed out by Ohta-san and
  49. >others, this doesn't solve many other problems, e.g., whether to use a
  50. >Chinese or a Japanese font to display a given Han character.  So more
  51. >is needed still.
  52.  
  53. Right; the above mentioned out-of-unicode band mechanisms for achieving
  54. multinationalization, or some similar methodes, such as those used in
  55. the ISO 2022 standard, but with the advantages of Unicode by virtue of
  56. being layered on top of Unicode.
  57.  
  58. I see localized monolingual as the majority case, and multilingual as
  59. the minority case.  Because of the fact that name space information is
  60. not locale specific, you can't have a "/home" for an English user on
  61. the system and a "/casa" for the Spanish user.  This means that an
  62. actual multinational system which is not partitioned by language (chroot
  63. with hard links or a translucent "namespace mount?) must have the ability
  64. to display the character sets of all the languages in use on the system
  65. at any time, if only for consistant opeartion of "ls" in shared or publicly
  66. examinable directories.  This is a heavy burden for minority use to carry.
  67.  
  68. I further believe it to be a long way between the acceptance of a greater
  69. than 16-bit font and the ability of, for instance, the X system to support
  70. 2^20 character glyphs downloaded to the terminal (20 bits has been
  71. consistently used by "Ohta-san" (correctly, the honorific "san" should be
  72. on the surname, and I am not sure if he has chosen a westernized ordering
  73. on his name; you may be using the equivalent of "Glenn-san"... but I
  74. digress 8-)) as a working approximation for his idea of the size requirements
  75. of a non-unified set containing the non-intersecting "unification" of all
  76. existing sets.
  77.  
  78. >I, for one, do not believe that 10646 will become universally used 
  79. >in a fortnight.  Local and other standard encodings will continue to
  80. >exist, probably forever.  So we need to start doing one thing very
  81. >quickly: tagging character data as to its encoding.  Another thing we
  82. >need to do, is add language (or writing system) tags to texts which
  83. >mix multiple languages.  Alternatively, this could be done by tagging
  84. >font runs and then associating languages with those runs [I do not
  85. >advocate this method - I prefer explicit language or writing system
  86. >tags].  Other kinds of tags might be necessary for certain types
  87. >of processing, e.g., yomi (phonetic reading) tags for allowing the
  88. >display of furugana, sort keys for allowing producer specified sorting
  89. >behavior, and so forth.
  90.  
  91. Yes!
  92.  
  93. >10646 will not even address any of these matters.  However, Unicode may
  94. >do so in the form of implementation guidelines or further work on I18N.
  95.  
  96. Yes!
  97.  
  98. >Nonetheless, I think that it is quite important for many parties to begin
  99. >implementing such systems so that development of standard tags and tagging
  100. >systems can proceed.  We need prior art and experience in these areas
  101. >before effective standards can be developed with a reasonable hope of
  102. >success.
  103.  
  104. Yes!
  105.  
  106. Thank you for your succinct statement of the issues!
  107.  
  108.  
  109.                     Terry Lambert
  110.                     terry@icarus.weber.edu
  111.                     terry_lambert@novell.com
  112. ---
  113. Any opinions in this posting are my own and not those of my present
  114. or previous employers.
  115. -- 
  116. -------------------------------------------------------------------------------
  117.                                         "I have an 8 user poetic license" - me
  118.  Get the 386bsd FAQ from agate.berkeley.edu:/pub/386BSD/386bsd-0.1/unofficial
  119. -------------------------------------------------------------------------------
  120.