home *** CD-ROM | disk | FTP | other *** search
/ Usenet 1994 January / usenetsourcesnewsgroupsinfomagicjanuary1994.iso / sources / std_unix / volume.26 / text0016.txt < prev    next >
Encoding:
Text File  |  1992-02-21  |  2.1 KB  |  42 lines

  1. Submitted-by: jfh@rpp386.cactus.org (John F Haugh II)
  2.  
  3. In article <1991Nov21.235529.9196@uunet.uu.net> gwyn@smoke.brl.mil (Doug Gwyn) writes:
  4. >No, to the contrary the existing regexp implementation was acultural;
  5. >you're referring to the idea that "[a-z]" for example ought to mean
  6. >"match any lowercase character in the current locale", but that is
  7. >NOT what it meant.  It actually meant "match any byte having value
  8. >between the values I gave you around the dash-representation" (this
  9. >already was important to understand on machines that preferred
  10. >EBCDIC codesets, for example).  You should keep in mind that you as
  11. >a user are inputting BITS into these patterns, some bytes of which
  12. >have special interpretation ([, ^, -, etc.) and others taken
  13. >literally as standing for their values.  The ethocentricity was
  14. >introduced by 1003.2, presumably because people thought it would be
  15. >"nice" to be able to specify locale-dependent character classes; it
  16. >did not inhere in the previous regexp mechanism.
  17.  
  18. I would say that POSIX completely ignored any codeset which was not
  19. 7-bit clean ASCII.  The simple issue of 8-bit code points being
  20. mangled by ISTRIP is clear proof of this point.  The definition of
  21. this function is in terms of bit widths, rather than character sizes.
  22. Any 8-bit code set (such as the European character sets or even EBCDIC)
  23. are mangled by the translation suggested by ISTRIP.
  24.  
  25. I am certain that the various groups did give some thought to the
  26. issue, but it really is pretty obvious that 1003.1 completely ignored
  27. any system which uses 8 bit character sets.
  28.  
  29. While 1003.1 was off inventing a new tty subsystem, it would have
  30. been nice if they invented an interface for setting any locale-specific
  31. traits of the tty system (a "tcsetlocale()" sort of deal) that would
  32. provide for translations of locale-specific characters (the variously
  33. accented vowels, for example) into something more POSIX-friendly.
  34. -- 
  35. John F. Haugh II        |I am the NRA.     | UUCP: ...!cs.utexas.edu!rpp386!jfh
  36. Ma Bell: (512) 255-8251 |Take a friend shooting.| Domain: jfh@rpp386.cactus.org
  37. " ... expectation is the mother of disappointment."
  38.         -- Brad Konopik
  39.  
  40. Volume-Number: Volume 26, Number 17
  41.  
  42.