home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / unix / bsd / 11012 < prev    next >
Encoding:
Text File  |  1993-01-07  |  14.8 KB  |  326 lines

  1. Newsgroups: comp.unix.bsd
  2. Path: sparky!uunet!cs.utexas.edu!wupost!gumby!destroyer!gatech!news.byu.edu!ux1!fcom.cc.utah.edu!cs.weber.edu!terry
  3. From: terry@cs.weber.edu (A Wizard of Earth C)
  4. Subject: Re: Ohta enpitsu inke desu
  5. Message-ID: <1993Jan7.222423.899@fcom.cc.utah.edu>
  6. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  7. Sender: news@fcom.cc.utah.edu
  8. Organization: Weber State University  (Ogden, UT)
  9. References: <2628@titccy.cc.titech.ac.jp> <1993Jan7.045612.13244@fcom.cc.utah.edu> <2637@titccy.cc.titech.ac.jp>
  10. Date: Thu, 7 Jan 93 22:24:23 GMT
  11. Lines: 313
  12.  
  13. In article <2637@titccy.cc.titech.ac.jp> mohta@necom830.cc.titech.ac.jp (Masataka Ohta) writes:
  14. >In article <1993Jan7.045612.13244@fcom.cc.utah.edu>
  15. >    terry@cs.weber.edu (A Wizard of Earth C) writes:
  16. >
  17. >>Before I proceed, I will [ once again ] remove the "dumb Americans" from my
  18. >>original topic line.
  19. >
  20. >I changed the subject to reflect the content better.
  21.  
  22. I changed the subject as you did, to be insulting rather than useful.  My,
  23. aren't we resolving these issues wonderfully.  I expect you to change the
  24. topic again, but hopefully to something germane to the content of the
  25. posting rather than another insult.
  26.  
  27. >>>>>>This I don't understand.  The maximum translation table from one 16
  28. >>>>>>bit value to another is 16k.
  29. >>>>>WHAAAAT? It's 128KB, not 16k.
  30. >>It is still a translation of one 16 bit value to another.  In is *not* an
  31. >>*arbitrary* translation we are talking about, since the spanning sets will
  32. >>be known.
  33. >You wrote MAXIMUM.
  34.  
  35. I was referring to a spanning set less than the full 16 bit set; to anyone
  36. who took these sentences in context (you, obviously, did not so as to
  37. manufacture a situation for you to be able to disagree with me), it is
  38. obvious that by "maximum" I was referring to "maximum translation table
  39. spanning set", not "maximum translation table for the full 16 bit set".
  40.  
  41. Keep this up, and I will be openly insulting.
  42.  
  43. >>>>>>This means 2 16k tables for translation into/out of
  44. >>>>>>Unicode for Input/Output devices,
  45. >>Sorry; I misspoke (mistyped?) here.  
  46. >
  47. >You are dumb.
  48.  
  49. I can speak just fine, thank you, not that a handicap of that nature, were
  50. I to have it, would make me any less of a person.
  51.  
  52. Nice of you to remove the context here, as well.  The statement "you are
  53. dumb" is, of course, a brilliant rebuttal of my point, which follows:
  54.  
  55. >>I meant to refer to any arbitrary 8-bit
  56. >>set for which a localization set is available (example: and ISO 8859-x set).
  57. >
  58. >Do you know what HASHING is? If not, read Knuth. 
  59.  
  60. Hashing involves a loss of information (read Knuth yourself).  I was not
  61. suggesting that information be destroyed in the mapping process (as you
  62. apparenty wish would happen, since it would invalidate my argument).  The
  63. translation would be from 16-bit Unicode through a 16-to-8-bit spanning
  64. table to a specific 8-bit ISO character set.  This is *not* hashing.
  65.  
  66. >>Obviously, by this response, you meant "cat two files to a third file" rather
  67. >>than what you stated,
  68. >
  69. >You don't have to create a third file, as the output might be piped.
  70. >
  71. >>what you stated, which would have resulted in the files going to the
  72. >>screen.  Display device attribution based on supported character
  73. >
  74. >While you may not know UNIX at all, "cat" has nothing to do with display.
  75. >Instead, some device drivers and terminal emulators might.
  76.  
  77. EXCUSE ME, BUT YOUR ORIGINAL STATEMENT WAS:
  78. ] How can you "cat" two files with different file attributes?
  79.  
  80. To which I replied.
  81.  
  82. ] By localizing the display output mechanism.
  83.  
  84. Thinking that, since you did not suggest that the ouput would be other than
  85. the default for cat, I made the mistake of taking your words to mean what
  86. they meant.  To which you intentionally misinterpreted:
  87.  
  88. ] Wow! Apparently he thinks "cat" is a command to display content of
  89. ] files. No wonder he think file attributes good.
  90.  
  91. DO YOU DENY THIS?
  92.  
  93. From that derived the quoted (">") section just above.
  94.  
  95. Any one with half a brain knows that cat can be used to display files, that
  96. the default output of cat is to fd 1 (stdout), and that by the phrasing
  97. `you "cat" two files` you implied with "you" that I would do it
  98. personally rather than as part of a script.  Further, stdout in an
  99. interactive environment is attached to a device driver for a tty or a pty
  100. -- a display device.  You, of all people, are exactly qualified to know
  101. this.
  102.  
  103. >>Obviously what you are asking is "how do I make two monolingual/bilingual/
  104. >>multilingual files of different language attribution into a single bilingual/
  105. >>multilingual file using cat" -- not the question as you have phrased it, nor
  106. >>as I have answered it, but in the context of the discussion, clearly the
  107. >>intended tack.
  108. >
  109. >"How to "cat" files with different attributes" is the classic question
  110. >to piss off attribute-lovers, which all UNIX lovers know.
  111.  
  112. It didn't piss me off; I answered it in good faith, and provided a workable
  113. soloution that you could even call "cat" if you wanted.
  114.  
  115. Yes, it introduced a case where multiple output streamss combined to
  116. produce its input failed; but it worked in all other cases.  We can
  117. name it "cat" instead of "combine" if we choose to say that this is a
  118. case where the beahaviour is undefined.  This is exactly analogous to
  119. the ANSI C standard changing expected behaviour to undefined behaviour
  120. for things like memcpy() to overlapping areas, or similar changes to
  121. the action of system calls under Posix.  I do not see you claiming
  122. that ANSI C is not C or that a Posix compliant UNIX is not UNIX.  My
  123. redefinition of "cat" stands as a potential soloution to your attribute
  124. problems.
  125.  
  126. If there is not a default attribution of files and a default attribution
  127. of all files below a mount point where the mount goes remote via NFS to
  128. an older system, how do you propose to deal with use of non-international
  129. files on an internationalized system?  You may cop out for 7 bit US ASCII,
  130. but whatever your answer, it damn well doesn't hold for existing file
  131. from 8-bit clean internationalizations in Western Europe, Russia, and
  132. elsewhere where small glyph-set character sets are currently in use --
  133. or would you have us all update all our systems and all our software
  134. simultaneously?
  135.  
  136. The reverse case of a non-internationalized system mounting an exported
  137. file system from an internationalized system applies here as well.  How
  138. do you propose to solve this problem with a character set containing
  139. nonintersecting (non-unified) national character sets?
  140.  
  141. Obviously, you will make a snide comment about me, rather than answering the
  142. questions, unless you chose to take that tack that there are bound to
  143. be incompatabilities with existing software *the same answer you berate
  144. me for here).
  145.  
  146. >Of course, there are several other reasons why not to use file attributes,
  147. >which yuu don't know. But, I'm tired.
  148. >
  149. >>Rather than pretending I don't know what you are getting at,
  150. >
  151. >Then, don't post anymore.
  152.  
  153. I should have pretended that I didn't know you were attempting to disguise
  154. the '"cat" of attributed files' problem and let you work up to it over
  155. the period of a week?  Seems like sour grapes on your part.
  156.  
  157. >>The answer is "you don't use 'cat'".  The "cat" command does not deal with
  158. >
  159. >OK, say it in comp.unix.misc and see what happens.
  160.  
  161. If I don't delete the context from this (as you did) and state that the
  162. "cat" command can be replaced with the "combine" command, and that the
  163. "combine" command can be renamed to "cat" as long as you don't construct
  164. wildly pessimistic code, an example of which I pointed out -- I am well
  165. aware of drawbacks in suggestions I make, and, unlike you, I not only
  166. admit them, but point them out.  Did it occur to you that criticism is
  167. necessary only to draw attention to a flaw, and if the originator of
  168. the flaw admits it, perhaps they are looking for suggestions rather
  169. than someone parroting their own words back to them?
  170.  
  171. >>What this means is that all files which are multilingual in nature require
  172. >>a compound document architecture.
  173. >
  174. >No thank you. I do want to grep my multilingual files.
  175.  
  176. Grep for "macro".  It's a Latin word used in many, many western languages;
  177. tell me: how will this match "macro" in Latin, German, and English when
  178. the character sets are not unified?  Is your "grep " going to unify
  179. internally?  How does your suggestion (which does not have a standard
  180. codified for it) resolve this issue?
  181.  
  182. >>What this means is that a utility to combine documents (let's call it
  183. >>"combine") must have the ability to either generate language attributed
  184. >>files (if the source files are all of a single language attribution) or
  185. >>our default compound document format (TBD).
  186. >
  187. >You are making simple problem unsolvable.
  188.  
  189. You are taking information from my posting out of context to make it seem
  190. as if this were the case.  This is not a technique in rational discourse,
  191. it is a sales job.  Salesman.
  192.  
  193. >>The correct approach is to note that since Unicode does not provide a
  194. >>mechanism directly for language attribution, and that file attribution
  195. >>is only a partial soloution,
  196. >
  197. >So, the correct aproach is not to use Unicode as it is.
  198.  
  199. No, the correct approach is to use a full soloution; one potential full
  200. soloution is in my previous posting (following the comma in the
  201. "mysteriously" truncated half line above.
  202.  
  203. >>What this means is that a utility to combine documents (let's call it
  204. >>"combine")
  205. >
  206. >Wow!
  207.  
  208. "Wow" indeed, as you "cleverly" omit the fact that "combine" may be renamed
  209. to "cat" if we omit a single contrived and pessimistic use from the set
  210. of defined behaviours for "cat"... as I stated in my previous posting.
  211.  
  212. >>Does this answer your "cat" question sufficiently?  
  213. >
  214. >Conglaturations! You are now prepared to accept the second question.
  215. >
  216. >Under internationalized environment, we often create a file with Japanese
  217. >name. At the same time,
  218. >
  219. >    1) we might have a file having Chinese name in the same directory.
  220. >    2) we might have a file having Chinese name in the different directory.
  221. >    3) the Japanses file's full pathname might contain Chinese at its
  222. >       intermediate directory name.
  223. >
  224. >Could you design a replacement of "ls" for such a situation?
  225.  
  226. Yes, no problem, since the name space information is not considered to
  227. be multilingual text in common usage, but rather it is considered to be
  228. name space information.
  229.  
  230. Each name in a file is already tagged in the inode as to the nature of
  231. the language to be used within the inode (for monolingual documents).
  232. For documents which are *not* monolingual, the file name must have been
  233. entered in the context of a particualar language-dependant input mechanism
  234. for the file to exist within the file system name space at all.  Thus the
  235. language tagging of the file name itself is also derivable at creation time.
  236.  
  237. This is only untrue if you are proposing the maintenance of multiple name
  238. spaces, one per language used on the machine.  This is both at odds with
  239. your stated intent of minimizing the currently loaded font sets, a natural
  240. requirement of your expansion of the combined font size -- an unworkable
  241. soloution in both Unicode and your suggested environment.  This also has
  242. the ramification of mapping files into other than their creation name space
  243. at creation time, or to save space taken up by directories, on first
  244. reference within a particular name space.  Unless you have personally
  245. solved the machine translation problem, there are attributes which do
  246. not move from language to language in the file system name space itself,
  247. such as file names denoting ownership ("bobs.file") or the contents of the
  248. file ("QuartlySales.Q3.1991").  Thus there is nothing added in doing this
  249. which is unresolovable, unless it is also unresolvable in your suggested
  250. mechanism as well.
  251.  
  252. The only possible argument is collating sequence, and we both know your
  253. proposed soloution breaks down in languages with multiple possible
  254. collation sequences (ie: German dictionary vs. phone book order).  It
  255. requires an exception.  There is no reason not to make the exception the
  256. rule, and provide routines for alpha sort and locale-specific tables
  257. for all languages, instead of just the exceptions.  This soloution is
  258. one that has been proposed for a Unicode-based environment as well.
  259.  
  260. >Then, the third:
  261. >
  262. >>Attribution of output and clever construction of out output device drivers
  263. >>would even allow us to switch fonts as dictated by the compound document
  264. >>architecture controls embedded in the file and/or the attribution of the
  265. >>file descriptor (the absence of such attribution being an indicator of a
  266. >>compund document).
  267. >
  268. >Given the above situation for "ls", I'm afraid that "argv" to any command
  269. >be the compound document. Am I correct? Is it still have a type "char"?
  270. >Do you think the entire OS still UNIX?
  271.  
  272. In order:
  273. No.
  274.  
  275. No, unless you don't mean "byte" by "char",
  276.  
  277. Yes, if POSIX and ANSI C haven't "unUNIXed UNIX" by their specification of
  278. previously non-existant exception cases, No, if you mean SVID -- but
  279. then again, your proposal (or any multibyte proposal) fails this test,
  280. as does 386BSD itself, the OS to which we will be applying the work.
  281.  
  282. >>The problem seemed to
  283. >>be that there was not a means around the problem from your point of view.
  284. >
  285. >Just include language information in character code, and the problem
  286. >disappears.
  287.  
  288. Unfortuantely (or fortunately, since it means I am not culpable and do
  289. not owe you nor anyone else an explanation on the matter), I am not a
  290. member of the responsible standards committee, or I might have done what
  291. you suggest.  If you could suggest a standard that did what you are
  292. suggesting, allowed X11 to operate on 16 bit fonts (since X is our
  293. only possible common user interface at this time and most servers do
  294. not support 32 bit fonts), and allowed language specific compaction by
  295. character set choice as an optimization for monolingual documents (or
  296. did not disallow it!), then I would adopt your approach.  Even a draft
  297. standard which was under serious consideration by a standards committee
  298. would be acceptable.
  299.  
  300. One can not build a palace of bricks when one has only straw; but with
  301. straw, one may build bricks.
  302.  
  303. Unicode is straw.
  304.  
  305. The work on 386BSD is widely distributed, and it is not possible to use
  306. an approach which has not been formally documented when the developers
  307. are so widely seperated geographically.  It is not possible to use a
  308. "standard" where a reference takes the form of "ask Ohta; it's his
  309. standard" (if you had a car accident, we would all be screwed).  It is
  310. useless to use a standard which has no hope of becoming codified by
  311. a respected standards committee... thus it must be a draft standard
  312. under consideration or an actual standard.
  313.  
  314.  
  315.                     Terry Lambert
  316.                     terry@icarus.weber.edu
  317.                     terry_lambert@novell.com
  318. ---
  319. Any opinions in this posting are my own and not those of my present
  320. or previous employers.
  321. -- 
  322. -------------------------------------------------------------------------------
  323.                                         "I have an 8 user poetic license" - me
  324.  Get the 386bsd FAQ from agate.berkeley.edu:/pub/386BSD/386bsd-0.1/unofficial
  325. -------------------------------------------------------------------------------
  326.