home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #30 / NN_1992_30.iso / spool / comp / std / internat / 907 < prev    next >
Encoding:
Internet Message Format  |  1992-12-21  |  6.5 KB

  1. Path: sparky!uunet!zaphod.mps.ohio-state.edu!swrinde!cs.utexas.edu!qt.cs.utexas.edu!yale.edu!ira.uka.de!fauern!uni-erlangen.de!not-for-mail
  2. From: unrza3@cd4680fs.rrze.uni-erlangen.de (Markus Kuhn)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: ISO Latin 1 to 7-bit ASCII conversion (final draft!)
  5. Date: 18 Dec 1992 19:14:12 +0100
  6. Organization: Regionales Rechenzentrum Erlangen
  7. Message-ID: <1gt4dkEINNi5i@uni-erlangen.de>
  8. References: <1gi1rnEINN1cg@uni-erlangen.de> <1992Dec16.165027.9152@admin.kth.se>
  9. Reply-To: mskuhn@immd4.informatik.uni-erlangen.de
  10. NNTP-Posting-Host: cd4680fs.rrze.uni-erlangen.de
  11. Lines: 152
  12. Keywords: character sets, ISO 8859-1, terminals, user interface
  13.  
  14. ojarnef@admin.kth.se, psv@nada.kth.se (Olle Jarnefors) writes:
  15.  
  16. >> Users should know if the text they read has been converted from the 
  17. >> original Latin 1 text. ...
  18.  
  19. >Do you have in mind any specific way of visually indicating that
  20. >conversion takes place?  Underlining converted characters?
  21. >Something else?
  22.  
  23. I had just a good explanation in the documentation and a reminding message
  24. after program start in mind. Extra characters like [(c)] and [x]
  25. again make the replacements longer and destroy the layout even worse.
  26. In some applications, they might be of use, so I'll describe them
  27. as a possible option. If underlining etc. is possible, this would be
  28. more attractive. But powerfull terminals that allow underlining,
  29. bold face etc. often also provide ISO 8859-1 and then we have the
  30. only REAL solution for the whole problem.
  31.  
  32. BTW: Kermit translates <copyright> to @, which looks similar, but has 
  33. confused me already a lot. But reading USENET articels about transcriptions
  34. using a transcription system is always very confusing.
  35.  
  36. >> ... This avoids confusion if e.g. someone asks for
  37. >> sending him a 3<fraction 1/2>" disk [3="], which will be displayed
  38. >> after the conversion as 31/2" (= 15.25").
  39.  
  40. >This particular problem is most easily solved, we suggest, by
  41. >converting the character not to "1/2" but to " 1/2", with an
  42. >initial space character.
  43.  
  44. This was only one example of a long list of possible problems that
  45. can't be solved by a non 1-1 mapping solution. 1-1 mapping solutions
  46. (e.g. [a:] according to RFC 1345) have the problem, that you need
  47. to transform the possible pure ASCII sequences like [, a, : and ] with an
  48. escape mechanism. This will modify even 7-bit textes and that was not
  49. my intention. I don't want to design an strict encoding, but anything
  50. that makes reading e.g. 8-bit USENET articles easier on old terminals.
  51.  
  52. >Two of the "high" characters of ISO 8859-1
  53.  
  54. >160 "A0 '240  NO-BREAK SPACE (NBSP)
  55. >173 "AD '255  SOFT HYPHEN (SHY)
  56.  
  57. >are not ordinary graphic characters but a sort of hybrid
  58. >characters with both a graphic component and a control
  59. >component.
  60.  
  61. >For soft hyphen the graphic component is an ordinary hyphen
  62. >glyph.  The functional component is that this glyph should only
  63. >be displayed or printed if the character is at the end of a
  64. >line.  If it is somewhere else in the line, _nothing_ should be
  65. >displayed or printed.
  66.  
  67. I agree with you completely here, and that is how I would use these
  68. characters if I had to develop a simple text editor with a few
  69. word processing functions. WordStar users will be very familiar with
  70. the SHY and NBSP characters. But the text of ISO 8859-1:1987(E) does
  71. not define the functionality you describe your second and third sentence.
  72.  
  73. >In the simple, context-insensitive conversion that we are
  74. >dealing with here, SHY should be converted to the empty string,
  75. >since it will occur less often at the end of a line than
  76. >elsewhere.
  77.  
  78. NO! I and ISO 8859-1 absolutely disagree here with you. SHY has to be
  79. displayed as something similar to a hyphen. If you remove SHYs that are
  80. not at the end of the line or are not followed by space, than this
  81. might be acceptable, but please NEVER remove SHYs at the end of the line.
  82. Even not in the trival context insensitive case that I selected in order
  83. to keep things simple in the hope that many PD developpers will use the system.
  84.  
  85. >For TABLE 0 we suggest the following changes:
  86.  
  87. >0b: 173 "AD '255  SOFT HYPHEN (SHY)
  88. >    Now:        "-"
  89. >    Suggestion: ""
  90.  
  91. No, see above.
  92.  
  93. >0c: 175 "AF '257  MACRON
  94. >    Now:        SUBST
  95. >    Suggestion: "-"
  96.  
  97. My first suggestion was " ", but Steve Summit insisted on SUB. Perhaps
  98. "-" is the best solution, especially if MACRON becomes popular for
  99. underlining the previous line.
  100.  
  101. >0d: 176 "B0 '260  DEGREE SIGN
  102. >    Now:        SUBST
  103. >    Suggestion: "o"
  104.  
  105. >    This is most often used in numerical data and can, without
  106. >    risk of misunderstanding, be substituted with the lowercase
  107. >    "o", as is often done.
  108.  
  109. A better suggestion was " ", as 25 C and 23 34' 44'' will still be understood.
  110. I'll change this to " ".
  111.  
  112. >0e: 188 "BC '274  VULGAR FRACTION ONE QUARTER
  113. >    Now:        "1/4"
  114. >    Suggestion: " 1/4"
  115.  
  116. One of my goals was to keep the length below 3. There are many other
  117. strings that might cause possible confusion. In a context sensitive
  118. system, this surely would make sense.
  119.  
  120. >    DIVISION SIGN         
  121. >    Suggestion: "-:"
  122.  
  123. >    This symbol has the meaning of subtraction in some countries
  124. >    and some application fields.  In addition, division is
  125. >    in some countries normally indicated by "/" rather than ":".
  126. >    We therefore suggest that the conversion should be neutral
  127. >    by trying to approximate the appearance of the symbol,
  128. >    rather than its meaning.  "-:" is better than ":-", since
  129. >    the "-" can't be misinterpreted as a minus on a following
  130. >    number.
  131.  
  132. I didn't know this, as both DIVISION SIGN and : are used in Germany 
  133. for division. "-:" seems to be quite artificial, so if ":" really causes
  134. much confusion, SUB may be better here. Which countries use ":" for 
  135. substraction?
  136.  
  137. >1f: 187 "BB '273  RIGHT-POINTING DOUBLE ANGLE QUOTATION MARK
  138. >    Now:        '>'
  139. >    Suggestion: '"'
  140.  
  141. Why?
  142.  
  143. >1g: 188 "BC '274  VULGAR FRACTION ONE QUARTER
  144. >    Now:        SUBST
  145. >    Suggestion: "/"
  146.  
  147. >    By using "/" instead of the general fallback character at
  148. >    least we indicate that the real character was a vulgar
  149. >    fraction.
  150.  
  151. The important information has been lost, and I would prefer one single
  152. fallback character.
  153.  
  154. Thank you for your comments. I'll include at least some of them in my text.
  155.  
  156. BTW: There is a serious bug in the Latin1toASCII function and only one
  157. person has detected it so far ...
  158.  
  159. Markus
  160.  
  161. -- 
  162. Markus Kuhn, Computer Science student -=-=- University of Erlangen, Germany
  163. Internet: mskuhn@immd4.informatik.uni-erlangen.de  |  X.500 entry available
  164. ----- Anyone participating in the use of MS-DOS, Heroin or Cocaine is -----
  165. ---- simply not getting the most out of life possible. (Brian Downing) ----
  166.