home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / std / internat / 1070 < prev    next >
Encoding:
Internet Message Format  |  1993-01-06  |  1.7 KB

  1. Path: sparky!uunet!spool.mu.edu!darwin.sura.net!sgiblab!nec-gw!nec-tyo!wnoc-tyo-news!cs.titech!titccy.cc.titech!necom830!mohta
  2. From: mohta@necom830.cc.titech.ac.jp (Masataka Ohta)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Dumb Unicoders
  5. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  6. Message-ID: <2632@titccy.cc.titech.ac.jp>
  7. Date: 6 Jan 93 22:15:28 GMT
  8. References: <2608@titccy.cc.titech.ac.jp> <TaaXwB1w165w@blues.kk.sub.org>
  9. Sender: news@titccy.cc.titech.ac.jp
  10. Organization: Tokyo Institute of Technology
  11. Lines: 35
  12.  
  13. In article <TaaXwB1w165w@blues.kk.sub.org>
  14.     kosta@blues.kk.sub.org (Kosta Kostis) writes:
  15.  
  16. >Well, at least one that is "universal" enough from a Japanese point
  17. >of view  ;-), but maybe you're right. So, just to satisfy my curiousity:
  18. >how do you represent 18 or 20 bits with 8-bit octets?
  19.  
  20. As you want. But, according to Shanon, variable length encoding would
  21. be better.
  22.  
  23. >Wouldn't be there be some "wasted" bits?
  24.  
  25. How does that matter? Aren't there unoccupied code points in Unicode?
  26.  
  27. >As I stated before, I think 16-bit UniCode is one step "aside" and one
  28. >into the "right" direction. Does that sound like "fandom"?
  29.  
  30. Unicode is worse than ISO 2022 for its universalness.
  31.  
  32. >> But, as for reg-exp pattern, Vadim's suggestion is quite right.
  33. >
  34. >What do you use reg-exp patterns for?
  35.  
  36. To search some pattern in a large text file(s).
  37.  
  38. >Local versions for that will never go, I believe.
  39.  
  40. What we need is, of course, the universal version of reg-exp.
  41.  
  42. >PS: I am *not* a "UniCode"r, but I strongly feel the need for a universal
  43. >    character set and I want it *implemented* in *this* century. :-)
  44.  
  45. Then, throwaway Unicode as soon as possible, as we have less than 8 years.
  46.  
  47.                             Masataka Ohta
  48.