home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / std / internat / 1081 < prev    next >
Encoding:
Internet Message Format  |  1993-01-07  |  3.6 KB

  1. Path: sparky!uunet!zaphod.mps.ohio-state.edu!uwm.edu!linac!att!att!allegra!alice!andrew
  2. From: andrew@alice.att.com (Andrew Hume)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  6. Message-ID: <24565@alice.att.com>
  7. Date: 7 Jan 93 07:19:55 GMT
  8. Article-I.D.: alice.24565
  9. References: <2615@titccy.cc.titech.ac.jp> <1993Jan5.090747.29232@fcom.cc.utah.edu> <1993Jan7.033153.12133@fcom.cc.utah.edu>
  10. Organization: AT&T Bell Laboratories, Murray Hill NJ
  11. Lines: 56
  12.  
  13. let me start by thanking terry for a posting full of content.
  14.  
  15. In article <1993Jan7.033153.12133@fcom.cc.utah.edu>, terry@cs.weber.edu (A Wizard of Earth C) writes:
  16. > Consider a newline terminated text database containing fixed length lines,
  17. > or consider a database consisting of variant text records in fixed fields.
  18. > In either case, the amount of data per field is now variant on Runic encoding.
  19. > For instance, if we accept the Plan-9 soloution, an application used in
  20. > both England and the US will vary as to how much data is representable per
  21. > fixed field based on whether or not that data contains the English "#"
  22. > character.  This gets worse the further you get from base ASCII coding.
  23.  
  24.     this is true (and is a bummer) but has been true for a
  25. bunch of folks already who seem to be able to cope.
  26. anyone who uses 2022 (presumably ohta-san) already has a variable
  27. character-to-byte ratio. all you know is that a character (in UTF-2)
  28. cannot take more than 5 bytes (or 3 right now).
  29.  
  30. > Consider that Runic encoding is antithetical in terms of single character
  31. > changes for fixed record length files by virtue of it's ability to either
  32. > change record size (destroying the seek-offset record addressing) or by
  33. > changing the amount of data representable in a field (destroying the
  34. > ability to use fixed-length fields for input in the front end client).
  35.  
  36.     i don't understand this. all runic encoding does is imply that
  37. there MAY be situations where if you change a single character, another
  38. character may need to be dropped. is this such a big deal? fixed-length
  39. records have always had a similiar property; sometimes, you can't add
  40. anything more. if the records are truly fixed size, then they are
  41. of fixed size and you can continue to address them directly.
  42.  
  43. > Padding is unacceptable, both because it destroys the meaning of field width
  44. > in the front end and because of the need for memory-mapping of files.  A
  45. > database program is likely to require the ability to either partially or
  46. > fully control it's own pages.
  47.  
  48.     say what? there seems to be a confusion here between what is visible
  49. to the user and what is stored. lets make it concrete. say we have a fixed length
  50. record of 5 fields, each exactly 7 characters wide. on ascii systems, the
  51. record is almost certainly 35 bytes long. if you have runic (variable-length)
  52. encoding, you would probably (for the current 10646) make the record 105 bytes
  53. long, and right justify each field in a 21 byte space. the padding here
  54. is not visible to the user and clearly has no effect on memory-mapping
  55. or any kind of sharing of data structures. you can say this is wasteful
  56. of space (and i'll agree; that's why we love fixed-length records!), but
  57. it certainly doesn't have the impact you describe.
  58.  
  59. > text deleted, all depicting the advantages of attributed non-runic
  60. > encoding...
  61.  
  62.     your arithmetic makes it seem the attribution is on a per file
  63. basis. that doesn't seem to handle the notion of files containing
  64. characters from multiple character sets. could you please elaborate
  65. a little, or tell me where to look for such an elaboration?
  66.  
  67.  
  68.         andrew hume
  69.