home *** CD-ROM | disk | FTP | other *** search
/ Columbia Kermit / kermit.zip / e / plain.txt < prev    next >
Text File  |  2020-01-01  |  905KB  |  19,903 lines

  1. 13-May-97  3:48:24-GMT,1383;000000000011
  2. Received: from Unicode.ORG (unicode.org [192.195.185.2])
  3.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id XAA03046
  4.     for <fdc@watsun.cc.columbia.edu>; Mon, 12 May 1997 23:48:23 -0400 (EDT)
  5. Received: by Unicode.ORG (NX5.67g/NX3.0M)
  6.     id AA29045; Mon, 12 May 97 20:13:02 -0700
  7. Message-Id: <9705130313.AA29045@Unicode.ORG>
  8. Errors-To: uni-bounce@Unicode.ORG
  9. Mime-Version: 1.0
  10. Content-Type: text/plain; charset="us-ascii"
  11. X-Uml-Sequence: 2583 (1997-5-13 03:12:48 GMT)
  12. To: Multiple Recipients of <unicode@Unicode.ORG>
  13. Reply-To: "Mark H. David" <mhd@gensym.com>
  14. From: "Unicode Discussion" <unicode@Unicode.ORG>
  15. Date: Mon, 12 May 1997 20:12:48 -0700 (PDT)
  16. Subject: Line Separator Character
  17.  
  18. What is the deal with unicode line separator?  Why would I want to use it,
  19. as opposed to using, say, LF or CRLF?  Microsoft's CF_UNICODETEXT clipboard
  20. format apparently requires CRLF, and their notepad application displays
  21. black blob characters when you feed it the Unicode line separator.  I've
  22. heard reports that Java similarly misdisplays this character, prefering LF
  23. only.  What was the idea behind Unicode line separator.  Is there any
  24. advantage to using it?  It seems to be different just to be different.  If I
  25. chose to use LF or CRLF, at least I'd be compatible with many things.  This
  26. way I'm compatible with just about nothing.  Can anyone provide any further
  27. information or insights?
  28.  
  29.  
  30. 13-May-97 22:32:30-GMT,2225;000000000001
  31. Received: (from fdc@localhost)
  32.     by watsun.cc.columbia.edu (8.8.5/8.8.5) id SAA06966;
  33.     Tue, 13 May 1997 18:32:26 -0400 (EDT)
  34. Date: Tue, 13 May 97 18:32:25 EDT
  35. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  36. To: "Mark H. David" <mhd@gensym.com>
  37. Cc: Multiple Recipients of <unicode@Unicode.ORG>
  38. Subject: Re: Line Separator Character
  39. In-Reply-To: Your message of Mon, 12 May 1997 20:12:48 -0700 (PDT)
  40. Message-ID: <CMM.0.90.4.863562745.fdc@watsun.cc.columbia.edu>
  41.  
  42. > What is the deal with unicode line separator?  Why would I want to use it,
  43. > as opposed to using, say, LF or CRLF?  Microsoft's CF_UNICODETEXT clipboard
  44. > format apparently requires CRLF, and their notepad application displays
  45. > black blob characters when you feed it the Unicode line separator.  I've
  46. > heard reports that Java similarly misdisplays this character, prefering LF
  47. > only.  What was the idea behind Unicode line separator.  Is there any
  48. > advantage to using it?  It seems to be different just to be different.  If I
  49. > chose to use LF or CRLF, at least I'd be compatible with many things.  This
  50. > way I'm compatible with just about nothing.  Can anyone provide any further
  51. > information or insights?
  52. I suppose that as the one who proposed the Unicode line separator, I should
  53. speak to this one.  The following are statements from, or paraphrased from,
  54. the Unicode standard:
  55.  
  56.  . Unicode encodes plain text;
  57.  . Plain text should contain enough information to permit the text to be
  58.    rendered legibly and nothing more;
  59.  . The appearance of the text depends on an upper level protocol and not
  60.    on ASCII or ISO control characters, which are retained only for
  61.    compatibility.
  62.  . Unicode does not prescribe specific semantics for U+000D (CR) and
  63.    U+000A (LF); it is left the application to interpret these codes.
  64.  
  65. In other words, without Line Separator U+2028, there would be no canonical
  66. way to represent line breaks, as in (e.g.) poetry, in Unicode plain text.
  67. Why?  Because the semantics of CR, LF, CRLF, and other control characters
  68. vary from platform to platform (e.g. Macintosh, UNIX, DOS).
  69.  
  70. Furthermore, the conventions for separating paragraphs are also platform
  71. and application-specific.  Thus the Paragraph Separator, U+2029.
  72.  
  73. - Frank
  74.  
  75. 14-May-97  5:29:38-GMT,1893;000000000011
  76. Received: from unicode.unicode.org (unicode.org [192.195.185.2])
  77.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id BAA09866
  78.     for <fdc@watsun.cc.columbia.edu>; Wed, 14 May 1997 01:29:37 -0400 (EDT)
  79. Received: by unicode.unicode.org (NX5.67g/NX3.0M)
  80.     id AA01180; Tue, 13 May 97 21:35:01 -0700
  81. Message-Id: <9705140435.AA01180@unicode.unicode.org>
  82. Errors-To: uni-bounce@unicode.unicode.org
  83. Mime-Version: 1.0
  84. Content-Type: text/plain; charset=iso-2022-jp
  85. Content-Transfer-Encoding: 7bit
  86. X-Uml-Sequence: 2598 (1997-05-14 04:34:36 GMT)
  87. To: Multiple Recipients of <unicode@unicode.unicode.org>
  88. Reply-To: Adrian Havill <havill@threeweb.ad.jp>
  89. From: "Unicode Discussion" <unicode@unicode.unicode.org>
  90. Date: Tue, 13 May 1997 21:34:34 -0700 (PDT)
  91. Subject: Re: Line Separator Character
  92.  
  93. Unicode Discussion wrote:
  94. > In other words, without Line Separator U+2028, there would be no canonical
  95. > way to represent line breaks, as in (e.g.) poetry, in Unicode plain text.
  96. > Why?  Because the semantics of CR, LF, CRLF, and other control characters
  97. > vary from platform to platform (e.g. Macintosh, UNIX, DOS).
  98. > Furthermore, the conventions for separating paragraphs are also platform
  99. > and application-specific.  Thus the Paragraph Separator, U+2029.
  100.  
  101. Does this mean that new applications should refrain from using LF and CR
  102. and use the two new control characters instead? How many Unicode
  103. applications currently understand the Unicode line and paragraph
  104. separators? 
  105.  
  106. As for future Unicode apps what about Unicode supporting e-mail apps?
  107. Will the upcoming Netscape Communicator (most popular commercial Unicode
  108. capable e-mail client I can think of) send e-mail (and understand) with
  109. the new markers (providing they're Unicode encoded, of course).
  110. (targeted towards the Netscape/Unicode group)
  111. -- 
  112. Adrian Havill <URL:http://www.threeweb.ad.jp/>
  113. Engineering Division, System Planning & Production Section
  114.  
  115. 14-May-97  6:31:04-GMT,2078;000000000001
  116. Received: from malmo.trab.se (malmo.trab.se [131.115.48.10])
  117.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id CAA22840
  118.     for <fdc@watsun.cc.columbia.edu>; Wed, 14 May 1997 02:31:02 -0400 (EDT)
  119. Received: from valinor.malmo.trab.se (valinor.malmo.trab.se [131.115.48.20]) by malmo.trab.se (8.7.5/TRAB-primary-2) with ESMTP id IAA24548; Wed, 14 May 1997 08:31:00 +0200 (MET DST)
  120. Received: by valinor.malmo.trab.se (8.7.5/TRM-1-KLIENT); Wed, 14 May 1997 08:30:59 +0200 (MET DST) (MET)
  121. Date: Wed, 14 May 1997 08:30:59 +0200 (MET DST)
  122. From: Dan Oscarsson <Dan.Oscarsson@trab.se>
  123. Message-Id: <199705140630.IAA20207@valinor.malmo.trab.se>
  124. To: unicode@unicode.unicode.org, fdc@watsun.cc.columbia.edu
  125. Subject: Re: Line Separator Character
  126. Mime-Version: 1.0
  127. Content-MD5: JuyMhI2YbpSiZuTwTb2uNw==
  128. Content-Type: text/plain; charset=us-ascii
  129. Content-Transfer-Encoding: 7bit
  130.  
  131.  
  132. > I suppose that as the one who proposed the Unicode line separator, I should
  133. > speak to this one.  The following are statements from, or paraphrased from,
  134. > the Unicode standard:
  135. >  . Unicode encodes plain text;
  136. >  . Plain text should contain enough information to permit the text to be
  137. >    rendered legibly and nothing more;
  138. >  . The appearance of the text depends on an upper level protocol and not
  139. >    on ASCII or ISO control characters, which are retained only for
  140. >    compatibility.
  141. >  . Unicode does not prescribe specific semantics for U+000D (CR) and
  142. >    U+000A (LF); it is left the application to interpret these codes.
  143. > In other words, without Line Separator U+2028, there would be no canonical
  144. > way to represent line breaks, as in (e.g.) poetry, in Unicode plain text.
  145. > Why?  Because the semantics of CR, LF, CRLF, and other control characters
  146. > vary from platform to platform (e.g. Macintosh, UNIX, DOS).
  147.  
  148. Why should we use a new Unicode special character for line separator
  149. when there is a line separator control character: NL (Next Line) defined
  150. in the 0200-0237 range. It would be better to to use that instead of CR/LF and
  151. U+2028. It can also be used in 8-bit byte text.
  152.  
  153.     Dan
  154.  
  155. 14-May-97 11:30:04-GMT,3255;000000000001
  156. Received: from unicode.unicode.org (unicode.org [192.195.185.2])
  157.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id HAA17906
  158.     for <fdc@watsun.cc.columbia.edu>; Wed, 14 May 1997 07:30:01 -0400 (EDT)
  159. Received: by unicode.unicode.org (NX5.67g/NX3.0M)
  160.     id AA02063; Wed, 14 May 97 03:43:11 -0700
  161. Message-Id: <9705141043.AA02063@unicode.unicode.org>
  162. Errors-To: uni-bounce@unicode.unicode.org
  163. Mime-Version: 1.0
  164. Content-Type: text/plain; charset=iso-2022-jp
  165. Content-Transfer-Encoding: 7bit
  166. X-Uml-Sequence: 2600 (1997-05-14 10:41:14 GMT)
  167. To: Multiple Recipients of <unicode@unicode.unicode.org>
  168. Reply-To: Adrian Havill <havill@threeweb.ad.jp>
  169. From: "Unicode Discussion" <unicode@unicode.unicode.org>
  170. Date: Wed, 14 May 1997 03:41:12 -0700 (PDT)
  171. Subject: Re: Line Separator Character
  172.  
  173. Martin J. Duerst wrote:
  174. > Email has very strict restrictions on this. You can't send doublebyte
  175. > UTF-16 or UCS-2 in Email. CRLF always has to be present as a line
  176. > separator. Unicode in Email is possible with UTF-7 (and CRLF as line
  177. > separator) or UTF-8 + BASE64/QuotedPrintable (and CRLF...).
  178. > Please see RFC 2045/6/7 for this.
  179.  
  180. I'm aware of this. Allow me to clarify: encode the Unicode line and
  181. paragraph separators in UTF-7 and transmit no CR and LFs. Some
  182. protocols, such as SMTP, have a line limit (998 octets in the case of
  183. SMTP).
  184.  
  185. However, as the behavior of CR and LF is system dependent, an e-mail
  186. client could theoretically ignore CR LF, etc and go by the UTF-7 encoded
  187. Unicode line and paragraph breaks, when 
  188.  
  189. RFC2046 says '[i]t should not be necessary to add any line breaks to
  190. display "text/plain" correctly....' So why not NOT use them and go with
  191. the Unicode ones? I admit, I am not clear as to whether this phrase was
  192. referring specifically to the ASCII CR and LF control characters, or was
  193. referring to all types of line breaks in general. Is "plain text"
  194. Unicode with Unicode line breaks considered to be "text/plain" or
  195. "text/enriched" (which requires line breaks)?
  196.  
  197. As there are few legacy Unicode-capable e-mail clients, is it not
  198. possible to push to get this functionality added now?
  199.  
  200. Many e-mail clients today have an option which enables them to
  201. wrap/not-wrap long lines. Why not add a similar feature for Unicode
  202. capable clients, which allows a selection (under the "Unicode section"
  203. between "interpret CR and LF codes only", "interpret Unicode line and
  204. paragraph breaks only", "interpret both Unicode line and paragraph
  205. breaks AND CR and LF codes." (I'd also like a feature in future e-mail
  206. clients that says "display Unrenderable Unicode as...")
  207.  
  208. Or am I overlooking something painfully obvious and being obtuse? If so,
  209. my apologies for wasting everybody's time. ;-)
  210.  
  211. I can see how adding this kind of functionality might confuse the
  212. average end-user. But the current end-user which now has to deal with
  213. such cryptic functions such as "encode using MIME quoted-printable" or
  214. "8-bit", so I don't see how this functionality could make e-mail clients
  215. any more complicated, especially if the defaults are set for them for
  216. Unicode.
  217.  
  218. Yet another reason why books like "The Complete Moron's Guide to E-Mail"
  219. continue to sell, I guess. (^_^)
  220. -- 
  221. Adrian Havill <URL:http://www.threeweb.ad.jp/>
  222. Engineering Division, System Planning & Production Section
  223.  
  224. 14-May-97 12:33:46-GMT,2283;000000000001
  225. Received: from unicode.unicode.org (unicode.org [192.195.185.2])
  226.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id IAA27390
  227.     for <fdc@watsun.cc.columbia.edu>; Wed, 14 May 1997 08:33:45 -0400 (EDT)
  228. Received: by unicode.unicode.org (NX5.67g/NX3.0M)
  229.     id AA02381; Wed, 14 May 97 05:05:37 -0700
  230. Message-Id: <9705141205.AA02381@unicode.unicode.org>
  231. Errors-To: uni-bounce@unicode.unicode.org
  232. Mime-Version: 1.0
  233. Content-Type: text/plain; charset=us-ascii
  234. Content-Transfer-Encoding: 7bit
  235. X-Uml-Sequence: 2601 (1997-05-14 12:03:56 GMT)
  236. To: Multiple Recipients of <unicode@unicode.unicode.org>
  237. Reply-To: Dan Oscarsson <Dan.Oscarsson@trab.se>
  238. From: "Unicode Discussion" <unicode@unicode.unicode.org>
  239. Date: Wed, 14 May 1997 05:03:54 -0700 (PDT)
  240. Subject: Re: Line Separator Character
  241.  
  242.  
  243. > On Tue, 13 May 1997, Dan Oscarson wrote:
  244. > > Why should we use a new Unicode special character for line separator
  245. > > when there is a line separator control character: NL (Next Line) defined
  246. > > in the 0200-0237 range. It would be better to to use that instead of CR/LF and
  247. > > U+2028. It can also be used in 8-bit byte text.
  248. > First: Please don't use octal numbers in an environment where everybody
  249. > is firmly used to hexadecimal. I had quite some problems figuring out
  250. > what you ment with the 0200-0237 range :-).
  251. Well, general use i octal if leading zero, hex if leading 0x, U+ is not hex, also
  252. octal is nicer.
  253.  
  254. > Second: Neither ISO 10646 nor Unicode define the CR control characters.
  255. > While for CL, virtually everybody uses the same assignement, and the
  256. > codepoints are even named in UNicode (but not in ISO 10646), there
  257. > are no stable conventions for CR. Many systems and encodings (Mac,
  258. > Windows, UTF-8) use the CR area for graphic characters.
  259. Yes, but neither the lower nor the upper range of control chaarcters is defined
  260. in ISO 10646, but both places are reserved for them, and there is a standard for
  261. both the upper and lower range. If we are going to extend the use of
  262. control characters it is better to use the control codes in the 8-bit range, especially
  263. if it is something as important as line separator. Then it can be used in
  264. many 8-bit character sets too. If is unfortunate that Mac, MS Win and UTF-8 have
  265. decided to use the upper control space for other things.
  266.  
  267.    Dan
  268.  
  269. 14-May-97 17:26:33-GMT,4002;000000000001
  270. Received: from unicode.unicode.org (unicode.org [192.195.185.2])
  271.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id NAA24800
  272.     for <fdc@watsun.cc.columbia.edu>; Wed, 14 May 1997 13:26:29 -0400 (EDT)
  273. Received: by unicode.unicode.org (NX5.67g/NX3.0M)
  274.     id AA03772; Wed, 14 May 97 10:18:12 -0700
  275. Message-Id: <9705141718.AA03772@unicode.unicode.org>
  276. Errors-To: uni-bounce@unicode.unicode.org
  277. X-Uml-Sequence: 2603 (1997-05-14 17:17:01 GMT)
  278. To: Multiple Recipients of <unicode@unicode.unicode.org>
  279. Reply-To: kenw@sybase.com (Kenneth Whistler)
  280. From: "Unicode Discussion" <unicode@unicode.unicode.org>
  281. Date: Wed, 14 May 1997 10:16:59 -0700 (PDT)
  282. Subject: Re: Line Separator Character
  283.  
  284. > > On Tue, 13 May 1997, Dan Oscarson wrote:
  285. > > 
  286. > > > Why should we use a new Unicode special character for line separator
  287. > > > when there is a line separator control character: NL (Next Line) defined
  288. > > > in the 0200-0237 range. It would be better to to use that instead of CR/LF and
  289. > > > U+2028. It can also be used in 8-bit byte text.
  290. > > 
  291. > > First: Please don't use octal numbers in an environment where everybody
  292. > > is firmly used to hexadecimal. I had quite some problems figuring out
  293. > > what you ment with the 0200-0237 range :-).
  294. > Well, general use i octal if leading zero, hex if leading 0x, U+ is not hex, also
  295. > octal is nicer.
  296.  
  297. U+ most assuredly is hex. Not only de facto, but now de jure. I
  298. cite from DAM No. 9 to ISO/IEC 10646-1:1:
  299.  
  300. "The full syntax of the notation of a short identifier, in Backus-Naur form,
  301. is:
  302.     {U|u}[{+}xxxx|{-}xxxxxxxx]
  303. where "x" represents one hexadecimal digit (0 to 9, A to F, or a to f),..."
  304.  
  305. And I concur with the respondent. Some may agree with you that "octal is
  306. nicer", but on this list, octal will generally only confuse instead
  307. of communicating.
  308.  
  309. By the way, octal 0200-0237, for those of you following this issue,
  310. corresponds to U+0080 - U+009F, also known in ISO documents as the
  311. C1 range, and referred to below as the "CR area". So what Dan is
  312. suggesting is making use of C1 controls for linebreak control, instead
  313. of U+2028 LINE SEPARATOR.
  314.  
  315. > > 
  316. > > Second: Neither ISO 10646 nor Unicode define the CR control characters.
  317. > > While for CL, virtually everybody uses the same assignement, and the
  318. > > codepoints are even named in UNicode (but not in ISO 10646), there
  319. > > are no stable conventions for CR. Many systems and encodings (Mac,
  320. > > Windows, UTF-8) use the CR area for graphic characters.
  321. > Yes, but neither the lower nor the upper range of control chaarcters is defined
  322. > in ISO 10646, but both places are reserved for them, and there is a standard for
  323. > both the upper and lower range. If we are going to extend the use of
  324. > control characters it is better to use the control codes in the 8-bit range, especially
  325. > if it is something as important as line separator. Then it can be used in
  326. > many 8-bit character sets too. If is unfortunate that Mac, MS Win and UTF-8 have
  327. > decided to use the upper control space for other things.
  328.  
  329. Use of C1 controls for 8-bit character sets is a logically separate
  330. issue from use of U+2028 LINE SEPARATOR (and U+2029 PARAGRAPH SEPARATOR)
  331. in Unicode. You may consider it unfortunate, but it is reality that in a
  332. world dominated by IBM, Microsoft, Apple, and even Hewlett-Packard
  333. 8-bit character encodings, most 8-bit data makes use of the 0x80..0x9F range
  334. for graphic characters. Implementations of the ISO 8859 series are the
  335. most notable exceptions.
  336.  
  337. And if you want to talk unfortunate, we wouldn't be having nearly
  338. so many problems with the ISO 8-bit character sets if they had been
  339. built in the first place with graphic characters in 0x80..0x9F (an
  340. extra 32) instead of following an ill-conceived ISO 6937 attempt to
  341. extend control functions through character encodings in that space.
  342. For example, 8859-1 would have the French characters that are
  343. currently missing in it, and 8859-2 would not have had to make the
  344. ill-starred compromise between Romanian and Turkish letters!
  345.  
  346. --Ken Whistler
  347.  
  348. >    Dan
  349.  
  350.  
  351. 15-May-97  0:10:05-GMT,3379;000000000001
  352. Received: from unicode.org (unicode.org [192.195.185.2])
  353.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id UAA04177
  354.     for <fdc@watsun.cc.columbia.edu>; Wed, 14 May 1997 20:10:04 -0400 (EDT)
  355. Received: by unicode.org (NX5.67g/NX3.0M)
  356.     id AA04271; Wed, 14 May 97 16:01:54 -0700
  357. Message-Id: <9705142301.AA04271@unicode.org>
  358. Errors-To: uni-bounce@unicode.org
  359. Mime-Version: 1.0
  360. Content-Type: text/plain; charset=us-ascii
  361. Content-Transfer-Encoding: 7bit
  362. X-Uml-Sequence: 2610 (1997-05-14 23:01:30 GMT)
  363. To: Multiple Recipients of <unicode@unicode.org>
  364. Reply-To: Mark Davis <mark_davis@taligent.com>
  365. From: "Unicode Discussion" <unicode@unicode.org>
  366. Date: Wed, 14 May 1997 16:01:28 -0700 (PDT)
  367. Subject: Re: Line Separator Character
  368.  
  369. The discription of LINE SEPARATOR and PARAGRAPH SEPARATOR should be
  370. clear from the discussions on page 6-72 in The Unicode Standard, Version
  371. 2.0.
  372.  
  373. Anyone using The Unicode Standard, Version 1.0 should "upgrade" to
  374. Version 2.0. The full current state of the standard is established by
  375. that document, supplemented by the Errata information on the Unicode web
  376. site (http://unicode.org).
  377.  
  378. (By the way, there is also a listing of the table of contents on the web
  379. site.)
  380.  
  381. Mark
  382.  
  383. Unicode Discussion wrote:
  384. > On 13 May 97 at 19:49, Frank da Cruz wrote:
  385. > >  . Unicode does not prescribe specific semantics for U+000D (CR) and
  386. > >    U+000A (LF); it is left the application to interpret these codes.
  387. > >
  388. > > In other words, without Line Separator U+2028, there would be no canonical
  389. > > way to represent line breaks, as in (e.g.) poetry, in Unicode plain text.
  390. > > Why?  Because the semantics of CR, LF, CRLF, and other control characters
  391. > > vary from platform to platform (e.g. Macintosh, UNIX, DOS).
  392. > This sounded good until I looked up U2028 and found the name LINE
  393. > SEPARATOR and the comment "may be used to represent this semantic
  394. > unambiguously", but no explanation of what the semantic is!  (I am
  395. > quoting from the 1.0 document, so I apologize in advance if this is
  396. > covered in 2.0, which I don't have here.)
  397. > Several interpretations of the idea of LINE SEPARATOR are possible,
  398. > the obvious issue being whether a carriage return is implied.  The
  399. > various EBCDIC character sets use the NEWLINE (NL, X'15') character
  400. > to mean "move to the leftmost position of the next line"; most ASCII-
  401. > like systems infer one of the motions from the other, or require that
  402. > both be specified (CR,LF).  I think this all comes from the different
  403. > mechanical backgrounds: the EBCDIC concept from the IBM 2741
  404. > terminal, which was incapable of executing a carriage return without
  405. > also doing a line feed, but which could line feed and backspace
  406. > independent of carriage return, and the various teletypewriter-like
  407. > devices which generally had no backspace, but could execute
  408. > independent carriage return and line feed.
  409. > So what *is* the semantic represented by U2028 ?  Is it perhaps a
  410. > higher level semantic than the low level detail of whether to return
  411. > to the originating margin ?  If so, then presumably the notion of
  412. > line feed is also at a lower level, and U2028 might be implemented by
  413. > e.g. inserting bullets between the lines of poetry without actually
  414. > spacing down the page.  Somehow this seems like the wrong level of
  415. > stuff to be encoding in a character set standard, though.
  416. > Tony Harminc
  417. > tzha0@juts.ccc.amdahl.com
  418.  
  419. 15-May-97  0:31:38-GMT,4425;000000000001
  420. Received: from unicode.org (unicode.org [192.195.185.2])
  421.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id UAA11230
  422.     for <fdc@watsun.cc.columbia.edu>; Wed, 14 May 1997 20:31:37 -0400 (EDT)
  423. Received: by unicode.org (NX5.67g/NX3.0M)
  424.     id AA04536; Wed, 14 May 97 16:09:45 -0700
  425. Message-Id: <9705142309.AA04536@unicode.org>
  426. Errors-To: uni-bounce@unicode.org
  427. X-Uml-Sequence: 2611 (1997-05-14 23:09:27 GMT)
  428. To: Multiple Recipients of <unicode@unicode.org>
  429. Reply-To: kenw@sybase.com (Kenneth Whistler)
  430. From: "Unicode Discussion" <unicode@unicode.org>
  431. Date: Wed, 14 May 1997 16:09:26 -0700 (PDT)
  432. Subject: Re: Line Separator Character
  433.  
  434. > On 13 May 97 at 19:49, Frank da Cruz wrote:
  435. > >  . Unicode does not prescribe specific semantics for U+000D (CR) and
  436. > >    U+000A (LF); it is left the application to interpret these codes.
  437. > > 
  438. > > In other words, without Line Separator U+2028, there would be no canonical
  439. > > way to represent line breaks, as in (e.g.) poetry, in Unicode plain text.
  440. > > Why?  Because the semantics of CR, LF, CRLF, and other control characters
  441. > > vary from platform to platform (e.g. Macintosh, UNIX, DOS).
  442. > This sounded good until I looked up U2028 and found the name LINE 
  443. > SEPARATOR and the comment "may be used to represent this semantic 
  444. > unambiguously", but no explanation of what the semantic is!  (I am 
  445. > quoting from the 1.0 document, so I apologize in advance if this is 
  446. > covered in 2.0, which I don't have here.)
  447.  
  448. >From the Unicode Standard, Version 2.0, p 6-72:
  449.  
  450. "[discussion of paragraph separator...]
  451. A line separator indicates that a line-break should occur at this
  452. point; although the text continues on the next line, it does not
  453. start a new paragraph: no interparagraph line spacing nor paragraphic
  454. indentation is applied. Since these are separator codes, it is not 
  455. necessary to start the first line or paragraph, nor end the last line
  456. or paragraph with them."
  457.  
  458. In other words, a U+2028 LINE SEPARATOR is to Unicode plain text
  459. formatting approximately as ";" is to Pascal statement syntax.
  460.  
  461. > Several interpretations of the idea of LINE SEPARATOR are possible,
  462. > the obvious issue being whether a carriage return is implied.  The 
  463. > various EBCDIC character sets use the NEWLINE (NL, X'15') character 
  464. > to mean "move to the leftmost position of the next line"; most ASCII-
  465. > like systems infer one of the motions from the other, or require that 
  466. > both be specified (CR,LF).  I think this all comes from the different
  467. > mechanical backgrounds: the EBCDIC concept from the IBM 2741 
  468. > terminal, which was incapable of executing a carriage return without 
  469. > also doing a line feed, but which could line feed and backspace 
  470. > independent of carriage return, and the various teletypewriter-like 
  471. > devices which generally had no backspace, but could execute 
  472. > independent carriage return and line feed.
  473.  
  474. No mechanical background is intended or implied. This is one reason
  475. to depart from the CR/LF/NL control code legacy. The Unicode
  476. LINE SEPARATOR implies a GUI model of text layout and formatting
  477. (although it is possible to implement on a terminal or virtual
  478. terminal).
  479.  
  480. > So what *is* the semantic represented by U2028 ?  Is it perhaps a 
  481. > higher level semantic than the low level detail of whether to return 
  482. > to the originating margin ?  If so, then presumably the notion of 
  483. > line feed is also at a lower level, and U2028 might be implemented by 
  484. > e.g. inserting bullets between the lines of poetry without actually 
  485. > spacing down the page.  Somehow this seems like the wrong level of 
  486. > stuff to be encoding in a character set standard, though.
  487.  
  488. It is the minimum information to encode in plain text to make it
  489. possible for a formatter (which is at a higher level abstraction,
  490. and which, indeed, has notions of margins, line advance, etc.)
  491. requires to render lines and paragraph breaks at appropriate
  492. places.
  493.  
  494. While no one wants to encode all kinds of formatting details
  495. in plain text (it belongs in rich or fancy text protocols),
  496. neither does anyone want "plain text" to just be a completely
  497. unstructured stream of characters with no expressed or expressable
  498. chunking into lines and paragraphs.
  499.  
  500. andifintroductionoflineseparatorandparagraphseparatorin
  501. tothecharacterencodingseemsobjectionableforplaintextrem
  502. embertoothatpunctuationcasingandspaceswereaddedtowritin
  503. gsystemstomakethemmorelegiblekenwhistler
  504.  
  505. > Tony Harminc
  506. > tzha0@juts.ccc.amdahl.com
  507.  
  508. 15-May-97  1:42:05-GMT,4598;000000000011
  509. Received: from halon.sybase.com (halon.sybase.com [192.138.151.33])
  510.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id VAA21873
  511.     for <fdc@watsun.cc.columbia.edu>; Wed, 14 May 1997 21:42:03 -0400 (EDT)
  512. Received: from smtp1.sybase.com (sybgate.sybase.com [130.214.220.35])
  513.           by halon.sybase.com (8.8.4/8.8.4) with SMTP
  514.       id SAA25446; Wed, 14 May 1997 18:03:53 -0700 (PDT)
  515. Received: from birdie.sybase.com by smtp1.sybase.com (4.1/SMI-4.1/SybH3.5-030896)
  516.     id AA04531; Wed, 14 May 97 18:02:03 PDT
  517. Received: by birdie.sybase.com (5.x/SMI-SVR4/SybEC3.5)
  518.     id AA15003; Wed, 14 May 1997 18:00:36 -0700
  519. Date: Wed, 14 May 1997 18:00:36 -0700
  520. From: kenw@sybase.com (Kenneth Whistler)
  521. Message-Id: <9705150100.AA15003@birdie.sybase.com>
  522. To: fdc@watsun.cc.columbia.edu
  523. Subject: Re: C0 contorls (was: Line Separator Character)
  524. Cc: unicode@unicode.org, kenw@sybase.com
  525. X-Sun-Charset: US-ASCII
  526.  
  527. > > Does this mean that new applications should refrain from using LF and CR
  528. > > and use the two new control characters instead? How many Unicode
  529. > > applications currently understand the Unicode line and paragraph
  530. > > separators? 
  531. > > 
  532. > I would say that this would be the intention of the Unicode standard, in
  533. > which traditional control characters are emphatically deprecated.  That would
  534. > include NL also.
  535.  
  536. Yes. But implementation pressure to keep using CR, LF, or CRLF in their
  537. Unicode forms in plain text may result in other outcomes. Cf. Murray's
  538. note regarding Microsoft's de facto usage.
  539.  
  540. > I'm not saying this was necessarily the best decision.  Unicode, although a
  541. > self-proclaimed "plain text" standard, is nevertheless strongly biased towards
  542. > use within systems, rather than between them, and particularly by high-end
  543. > "rendering engines" that can handle all the complexities of composed
  544. > characters, lookahead, and so forth.  Control characters are largely intended
  545. > for use in communications, where it has always been necessary to mix pure
  546. > information in-band with control codes.
  547.  
  548. Although such usage has long been archaic, replaced by clean communication
  549. protocols that transmit arbitrary binary data, or by full-blown device
  550. control languages implemented in plain text (e.g. PostScript). But of
  551. course "archaic" does not mean obsolete, since no computer communication
  552. protocol ever seems to go away. ...Well, maybe paper tape punchcodes.
  553.  
  554. ...
  555. > I don't think the status of control characters in Unicode would have been an
  556. > issue if the C0 control characters had been better defined and used
  557. > consistently throughout history.  If CR (or LF, or CRLF) always meant "end of
  558. > line", there would have been no need for the Unicode Line Separator, but the
  559. > framers of ASCII did not view it as an internal encoding for files, only as an
  560. > interchange code 
  561.  
  562. Yep. Note that the only C0 control character with an assumed and
  563. required semantics in Unicode 2.0 is U+0009 TAB. Nobody implements
  564. a TAB *character* with other than 0x09, and it seemed superfluous
  565. to clone one. U+0009 TAB is referenced in the normative Unicode
  566. bidi algorithm.
  567.  
  568. > (more thought -- or at least experience -- went into the ISO
  569. > C1 control set, but it never really caught on -- how many file systems have
  570. > you seen in which NL is the line terminator?).
  571.  
  572. Exactly. The C1 control set is largely ignored, as far as I can tell.
  573.  
  574. > Unicode is the opposite -- it is an internal encoding, but not an interchange
  575. > code. 
  576.  
  577. I disagree with the implication of this. Unicode is emphatically intended
  578. as an interchange code (as well as an internal encoding, or processing
  579. code). It is just not designed to be consistent with
  580. C0/byte-oriented transmission protocols. It is an interchange code for
  581. plain text, in much the same way that GIF is an interchange code for
  582. graphics. I don't much care what layers of other transmission and
  583. communication protocols are involved in packing it up and delivering
  584. it down the wire, as long as it arrives with the same content that
  585. it left with.
  586.  
  587. > It does not contain the control elements to be one, but rather pushes
  588. > that off on lower levels of the communications architecture (just as it leaves
  589. > rendering issues to higher levels); Unicode is the stuff inside the data
  590. > fields of TCP/X.25/ISDN/etc packets.  But it's not the code on the wire
  591. > between a computer and a terminal or a plain-text printer.  Thus, unlike ASCII
  592. > or ISO 8859-1 (etc), it can't easily be used in a communications setting
  593. > except in combination with "something else" that packages it up for
  594. > transmission, and another "something else" that renders it.
  595.  
  596. Agreed.
  597.  
  598. --Ken Whistler
  599.  
  600. > - Frank
  601.  
  602.  
  603. 15-May-97  3:09:12-GMT,1728;000000000001
  604. Received: from unicode.org (unicode.org [192.195.185.2])
  605.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id XAA02618
  606.     for <fdc@watsun.cc.columbia.edu>; Wed, 14 May 1997 23:09:11 -0400 (EDT)
  607. Received: by unicode.org (NX5.67g/NX3.0M)
  608.     id AA05976; Wed, 14 May 97 19:37:23 -0700
  609. Message-Id: <9705150237.AA05976@unicode.org>
  610. Errors-To: uni-bounce@unicode.org
  611. Mime-Version: 1.0
  612. Content-Type: text/plain; charset="us-ascii"
  613. X-Uml-Sequence: 2614 (1997-05-15 02:37:06 GMT)
  614. To: Multiple Recipients of <unicode@unicode.org>
  615. Reply-To: "Mark H. David" <mhd@gensym.com>
  616. From: "Unicode Discussion" <unicode@unicode.org>
  617. Date: Wed, 14 May 1997 19:37:05 -0700 (PDT)
  618. Subject: Re: Line Separator Character
  619.  
  620. At 04:01 PM 5/14/97 -0700, you wrote:
  621. >The discription of LINE SEPARATOR and PARAGRAPH SEPARATOR should be
  622. >clear from the discussions on page 6-72 in The Unicode Standard, Version
  623. >2.0.
  624.  
  625. Yes, but could this list be used to get practical advice on implementation
  626. and on interpreting what the spec means in the real world?
  627.  
  628. OK, so Unicode recommends LINE SEPARATOR (LS) with the clear description
  629. alluded to above.
  630.  
  631. And let's say Java AWT does not handle LS.  (That's more or less the report
  632. I'm getting, but let's consider this hypothetical for now.)  
  633.  
  634. Can we then conclude that Java AWT is actually not Unicode compliant?  
  635.  
  636. That is, it does handle line separation, but does not assign this semantics
  637. to the appropriate character.  
  638.  
  639. I.e., if Java AWT printed black blobs for LF and for LS, meaning that it
  640. just can't understand the concept of line breaking, that would be
  641. technically Unicode compliant, I guess.  
  642.  
  643. But if it actually can do line breaking, but but doesn't do it for LS, then
  644. that's non-compliant.   Is that correct?
  645.  
  646.  
  647. 15-May-97 11:12:47-GMT,2670;000000000001
  648. Received: from unicode.org (unicode.org [192.195.185.2])
  649.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id HAA06876
  650.     for <fdc@watsun.cc.columbia.edu>; Thu, 15 May 1997 07:12:46 -0400 (EDT)
  651. Received: by unicode.org (NX5.67g/NX3.0M)
  652.     id AA06852; Thu, 15 May 97 03:33:47 -0700
  653. Message-Id: <9705151033.AA06852@unicode.org>
  654. Errors-To: uni-bounce@unicode.org
  655. Mime-Version: 1.0
  656. Content-Type: text/plain; charset=us-ascii
  657. Content-Transfer-Encoding: 7bit
  658. X-Uml-Sequence: 2616 (1997-05-15 10:33:04 GMT)
  659. To: Multiple Recipients of <unicode@unicode.org>
  660. Reply-To: "Kent Karlsson (\e\d\v \E\D\V \e\x\f \E\X\F \i\I)" <keka@im.se>
  661. From: "Unicode Discussion" <unicode@unicode.org>
  662. Date: Thu, 15 May 1997 03:33:03 -0700 (PDT)
  663. Subject: Re: Line Separator Character
  664.  
  665. > "[discussion of paragraph separator...]
  666. > A line separator indicates that a line-break should occur at this
  667. > point; although the text continues on the next line, it does not
  668. > start a new paragraph: no interparagraph line spacing nor paragraphic
  669. > indentation is applied. Since these are separator codes, it is not
  670. > necessary to start the first line or paragraph, nor end the last line
  671. > or paragraph with them."
  672. > In other words, a U+2028 LINE SEPARATOR is to Unicode plain text
  673. > formatting approximately as ";" is to Pascal statement syntax.
  674.  
  675.    No, but U+2029 PARAGRAPH SEPARATOR ("PS") is.  I.e., the PS character
  676. should be the normally occurring character to indicate a new paragraph.
  677. The LINE SEPARATOR is intended only for *rare* occasions where a new
  678. line
  679. is strongly(?) advised, such as within a poetic verse, or saying "it is
  680. good place to break the line here, but don't start a new paragraph".
  681. (This is similar to a soft hyphen.)  I don't know how strong the advice
  682. is, since it says "line-break should...", not "line-break shall...".
  683.  
  684.    If in an HTML-document, I would guess that a U+2029 PARAGRAPH
  685. SEPARATOR
  686. should be interpreted *exactly* as a <p>, and a U+2028 LINE SEPARATOR
  687. should be interpreted as a <br>.  Maybe the strength of the advice
  688. to break should differ between <br> (always break) and LS (perhaps:
  689. break here, if a break is needed and no better place is found),
  690. I don't know.
  691.  
  692.    I make no argument as to the good- or ill-advisedness of having
  693. these characters.  I just note that they are there, and may (or
  694. should) be used.  Also, Unicode is going to be used with "higher level
  695. 'protocols'" (such as HTML), and a clarification of the interpretation
  696. of the PS and LS characters in such contexts is needed, perhaps
  697. exemplified with HTML.  (Note that HTML does NOT interpret NL or CR
  698. as indicating any kind of line break, except in special circumstances
  699. (<pre>).)
  700.  
  701.         /kent karlsson
  702.  
  703. 15-May-97 16:37:45-GMT,2737;000000000001
  704. Received: from unicode.org (unicode.org [192.195.185.2])
  705.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id MAA05854
  706.     for <fdc@watsun.cc.columbia.edu>; Thu, 15 May 1997 12:37:44 -0400 (EDT)
  707. Received: by unicode.org (NX5.67g/NX3.0M)
  708.     id AA07630; Thu, 15 May 97 08:56:34 -0700
  709. Message-Id: <9705151556.AA07630@unicode.org>
  710. Errors-To: uni-bounce@unicode.org
  711. X-Uml-Sequence: 2618 (1997-05-15 15:55:59 GMT)
  712. To: Multiple Recipients of <unicode@unicode.org>
  713. Reply-To: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  714. From: "Unicode Discussion" <unicode@unicode.org>
  715. Date: Thu, 15 May 1997 08:55:57 -0700 (PDT)
  716. Subject: Re: C0 contorls (was: Line Separator Character)
  717.  
  718. > > ... Control characters are largely intended
  719. > > for use in communications, where it has always been necessary to mix pure
  720. > > information in-band with control codes.
  721. > Although such usage has long been archaic, replaced by clean communication
  722. > protocols that transmit arbitrary binary data, or by full-blown device
  723. > control languages implemented in plain text (e.g. PostScript). But of
  724. > course "archaic" does not mean obsolete, since no computer communication
  725. > protocol ever seems to go away.
  726. One can argue the merits and tradeoffs of older and newer protocols, but many
  727. of the older ones were quite successful and continue to be by virtue of the
  728. fact that they were unleashed only after a great deal of thought, and often
  729. only after compromise and concensus among diverse groups with conflicting
  730. interests.
  731.  
  732. I would be very happy if words like "archaic" and "legacy" were dropped from
  733. the lexicon of serious people for use in describing existing practice, and
  734. especially existing practice that conforms to hard-fought and hard-won
  735. national and international standards such as ISO 2022, 8859, or even the early
  736. ANSI standards specifying the use of control characters in communications
  737. protocols, which forms the basis for many of our modern protocols.
  738.  
  739. These are emotionally-toned marketing terms used by greedy corporations that
  740. want to shame you into discarding systems that work perfectly well and buy new
  741. replacements from them.  Maybe new stuff has its advantages, but personally I
  742. don't think that applying epithets to old stuff is the right way to point that
  743. out.  (This is not directed at Ken -- I'm just airing one of my pet peeves.)
  744.  
  745. Speaking of which, on the other end of the spectrum is the profligate use of
  746. the word "comply", which once carried some weight because it was used in
  747. connection with the aforementioned hard-won standards, but now is used with
  748. any three-letter acronym that any company can dream up on its own without any
  749. sort of review, quality control, or concensus.
  750.  
  751. My goodness, nowadays we even have to "comply" with a year!
  752.  
  753. - Frank
  754.  
  755. 15-May-97 19:16:06-GMT,2249;000000000001
  756. Received: from unicode.org (unicode.org [192.195.185.2])
  757.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id PAA10790
  758.     for <fdc@watsun.cc.columbia.edu>; Thu, 15 May 1997 15:16:01 -0400 (EDT)
  759. Received: by unicode.org (NX5.67g/NX3.0M)
  760.     id AA08132; Thu, 15 May 97 11:32:46 -0700
  761. Message-Id: <9705151832.AA08132@unicode.org>
  762. Errors-To: uni-bounce@unicode.org
  763. Mime-Version: 1.0
  764. Content-Type: TEXT/PLAIN; charset=US-ASCII
  765. X-Uml-Sequence: 2620 (1997-05-15 18:32:10 GMT)
  766. To: Multiple Recipients of <unicode@unicode.org>
  767. Reply-To: "Martin J. Duerst" <mduerst@ifi.unizh.ch>
  768. From: "Unicode Discussion" <unicode@unicode.org>
  769. Date: Thu, 15 May 1997 11:32:09 -0700 (PDT)
  770. Subject: Re: Line Separator Character
  771.  
  772. On Thu, 15 May 1997, Unicode Discussion wrote:
  773.  
  774. > I agree with this; the best explanation if you know HTML is: 
  775. > U+2029 PARAGRAPH       =  <p>  
  776. > U+2028 LINE SEPARATOR  =  <br> 
  777. > As you say, there needs to be some clarification of the usage of these
  778. > with HTML, since they occupy the same roles.
  779.  
  780. RFC 2070 has some explanation on some of the "control"-like
  781. characters in Unicode. The main aim when working on RFC 2070
  782. was to assure that some basic quality of display could be
  783. achieved for a wide range of languages, and that where possible,
  784. things could be brought in alignement with Unicode.
  785.  
  786. Because HTML is not plain text, but plain text with markup,
  787. there are two layers. The first is what you see in a raw text
  788. editor (you see the markup). There are line breaks there,
  789. but to be consistent with the rest of HTML around (according
  790. to the reference processing model explained in RFC 2070),
  791. these have to be CR, LF, or CRLF. As explained above,
  792. <p> and <br> are already here for the second level (what
  793. you see in a browser). So the above two characters never
  794. actually came into play. If there is a need for specification,
  795. it would only be preemptive (avoid that different people
  796. start to use it for different purposes). There is no place
  797. where they currently would be needed.
  798.  
  799. That was different for other things, such as SHY (where we
  800. made a recommendation in a Note) and all the "control"
  801. characters needed for BIDI and joining (which are very
  802. instrumental for certain languages and scripts).
  803.  
  804. Any comments wellcome.
  805.  
  806. Regards,    Martin.
  807.  
  808.  
  809. 15-May-97 20:07:15-GMT,2569;000000000001
  810. Received: from unicode.org (unicode.org [192.195.185.2])
  811.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id QAA22628
  812.     for <fdc@watsun.cc.columbia.edu>; Thu, 15 May 1997 16:07:13 -0400 (EDT)
  813. Received: by unicode.org (NX5.67g/NX3.0M)
  814.     id AA08194; Thu, 15 May 97 11:36:22 -0700
  815. Message-Id: <9705151836.AA08194@unicode.org>
  816. Errors-To: uni-bounce@unicode.org
  817. Mime-Version: 1.0
  818. Content-Type: text/plain; charset=us-ascii
  819. Content-Transfer-Encoding: 7bit
  820. X-Uml-Sequence: 2621 (1997-05-15 18:35:58 GMT)
  821. To: Multiple Recipients of <unicode@unicode.org>
  822. Reply-To: Glen Perkins <gperkins@netcom.com>
  823. From: "Unicode Discussion" <unicode@unicode.org>
  824. Date: Thu, 15 May 1997 11:35:57 -0700 (PDT)
  825. Subject: Re: Line Separator Character
  826.  
  827. Mark Davis wrote:
  828. > The discription of LINE SEPARATOR and PARAGRAPH SEPARATOR should be
  829. > clear from the discussions on page 6-72 in The Unicode Standard, Version
  830. > 2.0.
  831.  
  832. Actually, the description of LINE SEPARATOR doesn't seem to state
  833. explicitly whether it means "just advance to the next line" or "both
  834. advance to the next line *and* return to the beginning of the line":
  835.  
  836. >From p. 6-72:
  837. "A line separator indicates that a line-break should occur at this
  838. point; although the text continues on the next line, it does not start a
  839. new paragraph: no inter-paragraph line spacing nor paragraphic
  840. indentation is applied."
  841.  
  842. I assume that "continues on the next line," implies "continues at the
  843. beginning of the next line". That's what the expression "line-break"
  844. means to me, but I'm not completely sure that it *has* to have that
  845. meaning, and that everyone knows that it has that meaning and no other.
  846.  
  847. It probably ought to be stated explicitly since the question of implied
  848. CR is answered differently by unix (LF implies CR) and DOS/Win (LF has a
  849. CR welded to it, at least implying that LF by itself wouldn't return to
  850. the beginning of the following line.) On old line printers, I had no
  851. trouble linefeeding without returning to the beginning of the line,
  852. though I've long since forgotten the char used to do so (I was but a
  853. child.) ;-)
  854.  
  855. This may just be a nit, but while I'm at it, the definition of the PS
  856. includes "this *could* cause, *for example*,..." [emphasis mine.]
  857.  
  858. That sounds as though the PS could just as easily "cause, for example"
  859. something else, so maybe the specific behavior of the LS is also "left
  860. as an exercise for the reader." Perhaps it *could* include an implied CR
  861. in one implementation and not in another, both conforming to the
  862. standard.
  863.  
  864. What was the actual intent?
  865.  
  866. __Glen Perkins__
  867. glen.perkins@NativeGuide.com
  868.  
  869. 16-May-97  1:29:53-GMT,1364;000000000001
  870. Received: from unicode.org (unicode.org [192.195.185.2])
  871.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id VAA14542
  872.     for <fdc@watsun.cc.columbia.edu>; Thu, 15 May 1997 21:29:52 -0400 (EDT)
  873. Received: by unicode.org (NX5.67g/NX3.0M)
  874.     id AA08926; Thu, 15 May 97 14:04:53 -0700
  875. Message-Id: <9705152104.AA08926@unicode.org>
  876. Errors-To: uni-bounce@unicode.org
  877. X-Uml-Sequence: 2624 (1997-05-15 21:01:51 GMT)
  878. To: Multiple Recipients of <unicode@unicode.org>
  879. Reply-To: kenw@sybase.com (Kenneth Whistler)
  880. From: "Unicode Discussion" <unicode@unicode.org>
  881. Date: Thu, 15 May 1997 14:01:49 -0700 (PDT)
  882. Subject: Re: Line Separator Character
  883.  
  884.  
  885. I'll try one more time.
  886.  
  887. U+2028 LINE SEPARATOR indicates the separation of lines.
  888.  
  889. A formatter of Unicode plain text then does with the
  890. separated lines what it will do with separated lines.
  891.  
  892. It is not intended to be abstruse.
  893.  
  894. And it should not be considered in the same context as
  895. the complexity caused by the intermingling of device
  896. control semantics of CR and LF (which after all came from
  897. the world of *physical* TTY platen and print head control)
  898. and the text formatting semantics of CR, LF, and/or CRLF in
  899. Mac, Unix, and/or the DOS/Win worlds as EOL, EOP, newline,
  900. and/or line separators. It is precisely because CR and LF
  901. are such a mess that Unicode has a LINE SEPARATOR and
  902. a PARAGRAPH SEPARATOR distinctly encoded.
  903.  
  904. --Ken
  905.  
  906. 16-May-97  1:30:04-GMT,1690;000000000001
  907. Received: from unicode.org (unicode.org [192.195.185.2])
  908.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id VAA14569
  909.     for <fdc@watsun.cc.columbia.edu>; Thu, 15 May 1997 21:30:00 -0400 (EDT)
  910. Received: by unicode.org (NX5.67g/NX3.0M)
  911.     id AA08662; Thu, 15 May 97 13:07:09 -0700
  912. Message-Id: <9705152007.AA08662@unicode.org>
  913. Errors-To: uni-bounce@unicode.org
  914. Mime-Version: 1.0
  915. Content-Type: text/plain; charset=us-ascii
  916. Content-Transfer-Encoding: 7bit
  917. X-Uml-Sequence: 2623 (1997-05-15 20:06:13 GMT)
  918. To: Multiple Recipients of <unicode@unicode.org>
  919. Reply-To: John Cowan <cowan@locke.ccil.org>
  920. From: "Unicode Discussion" <unicode@unicode.org>
  921. Date: Thu, 15 May 1997 13:06:11 -0700 (PDT)
  922. Subject: Re: Line Separator Character
  923.  
  924. Martin J. Duerst wrote:
  925.  
  926. > That was different for other things, such as SHY (where we
  927. > made a recommendation in a Note) and all the "control"
  928. > characters needed for BIDI and joining (which are very
  929. > instrumental for certain languages and scripts).
  930.  
  931. Line Separator and Paragraph Separator are essential for
  932. BIDI.  Paragraph Separator delimits the maximum scope
  933. of text that the BIDI algorithm must consider all at once
  934. (roughly stated: even if the line width is infinite, paragraphs
  935. are still stacked top to bottom, so there is no need to reverse
  936. any text across a paragraph mark).  Line Separator also
  937. significantly affects BIDI behavior.
  938.  
  939. That said, I think that the suggestion that LS = <BR> and PS = <P>
  940. is very sensible, and BIDI HTML renderers should be licensed to
  941. treat <P> as PS and <BR> as LS for BIDI purposes.  (This would be
  942. a "higher-level protocol" within the meaning of Unicode 2.0.)
  943.  
  944. -- 
  945. John Cowan                        cowan@ccil.org
  946.             e'osai ko sarji la lojban
  947.  
  948. 16-May-97  1:30:04-GMT,3981;000000000001
  949. Received: from unicode.org (unicode.org [192.195.185.2])
  950.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id VAA14619
  951.     for <fdc@watsun.cc.columbia.edu>; Thu, 15 May 1997 21:30:03 -0400 (EDT)
  952. Received: by unicode.org (NX5.67g/NX3.0M)
  953.     id AA08530; Thu, 15 May 97 12:44:39 -0700
  954. Message-Id: <9705151944.AA08530@unicode.org>
  955. Errors-To: uni-bounce@unicode.org
  956. X-Uml-Sequence: 2622 (1997-05-15 19:44:16 GMT)
  957. To: Multiple Recipients of <unicode@unicode.org>
  958. Reply-To: Murray Sargent <murrays@microsoft.com>
  959. From: "Unicode Discussion" <unicode@unicode.org>
  960. Date: Thu, 15 May 1997 12:44:14 -0700 (PDT)
  961. Subject: FW: Line Separator Character
  962.  
  963. > I can report what MS Word and some other MS software products do.
  964. > Microsoft text software typically follows Word's lead.  On PCs,
  965. > Unicode and ANSI plain text files use CRLF for the End Of Paragraph
  966. > (EOP) mark.  This is a little different in function from the Unicode
  967. > Paragraph Separator (U+2029), since it can exist without being
  968. > followed by another paragraph.  On the Mac, the plain-text EOP is just
  969. > a CR, whereas on Unix it's just a LF.  Word97 accepts files with all
  970. > three of these choices (but not U+2029, which doesn't translate,
  971. > sigh), and translates them to a CR for internal use (including in its
  972. > object model) and in Word's .doc file format.  Word uses VT (0xB) for
  973. > a line separator. This is handy, e.g., when you have numbered
  974. > paragraphs and would like to insert a paragraph without the leading
  975. > number.
  976. > In RTF (Word's Rich Text Format), CRLFs are used for readability only,
  977. > with \par representing the EOP and \line representing the line
  978. > separator.  Similarly, HTML uses CRLFs for readability only, using
  979. > <BR> for the line separator and various paragraph tags for paragraph
  980. > identification.  For these rich-text formats, the Unicode PS and LS
  981. > have no defined role and really shouldn't even be used.
  982. > One advantage of using LF through for CR for EOP, etc., is that
  983. > they're relatively efficient to parse: you can single them out as a
  984. > group with a single if statement instead of a more lengthy switch
  985. > statement.  Word uses other ASCII control characters for various
  986. > things, e.g., 0x1F for the soft hyphen (instead of 0xAD, sigh) and 7
  987. > for a table cell end.  Using CRLF particularly for internal use is a
  988. > real pain, since it has some of the navigation problems of DBCS.  Note
  989. > that it's more complicated to handle than the Unicode surrogates,
  990. > since with the latter you always know whether a code is a lead word,
  991. > trail word, or neither.  With CR you have to check to see if it's
  992. > followed by a  LF.  It gets worse on PCs: a "soft carriage return",
  993. > i.e., just a word wrap point is represented by the system edit
  994. > controls as a CRCRLF.  So before you can conclude that a CR is an EOP,
  995. > you have to check the two characters that follow!  Similarly for a LF
  996. > you have to check the preceding two characters.  The silver lining in
  997. > all of this is that it's pretty trivial to generalize such text
  998. > software to handle the Unicode surrogates since they can tag along
  999. > with the CRLF code, thereby keeping the caret where it belongs, etc.
  1000. > Personally I like Word's choices and have used them in the RichEdit
  1001. > 2.0 control, but ideally text software should recognize the Unicode
  1002. > General Punctuation symbols as well.  RichEdit 2.0, for example, does
  1003. > translate U+2029/U+2028 to CR/VT, respectively, on reading in a file
  1004. > or pasting plain text.  On plain-text output though, it uses CRLF and
  1005. > VT, respectively.
  1006. > Unfortunately at this late date, there isn't any unique approach to
  1007. > these issues.  ASCII has been an amazingly successful character set,
  1008. > but one of its worst deficiencies has been in not specifying a single
  1009. > code for an EOP mark.  Unix attempted to remedy the problem by using
  1010. > the LF, but it didn't catch on in general.  My favorite among the
  1011. > alternatives is the lone CR, which as explained above is the default
  1012. > on the Mac and Word.
  1013. > Murray  
  1014.  
  1015. 16-May-97 18:09:29-GMT,2092;000000000001
  1016. Received: from unicode.org (unicode.org [192.195.185.2])
  1017.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id OAA29734
  1018.     for <fdc@watsun.cc.columbia.edu>; Fri, 16 May 1997 14:09:27 -0400 (EDT)
  1019. Received: by unicode.org (NX5.67g/NX3.0M)
  1020.     id AA11467; Fri, 16 May 97 10:29:25 -0700
  1021. Message-Id: <9705161729.AA11467@unicode.org>
  1022. Errors-To: uni-bounce@unicode.org
  1023. X-Uml-Sequence: 2626 (1997-05-16 17:28:03 GMT)
  1024. To: Multiple Recipients of <unicode@unicode.org>
  1025. Reply-To: "Pierre Lewis" <lew@nortel.ca>
  1026. From: "Unicode Discussion" <unicode@unicode.org>
  1027. Date: Fri, 16 May 1997 10:28:00 -0700 (PDT)
  1028. Subject: Re: Line Separator Character
  1029.  
  1030.  
  1031. Context: plain text unicode file.
  1032.  
  1033. Assuming we use LS to separate lines (I guess there's no answer to the
  1034. question "what should I use"), then doesn't that interact negatively
  1035. with bidi markup, in particular embedding markups? Ie. I have to
  1036. reestablish the proper embedding level at each line.
  1037.  
  1038. Say I have two lines, some English with embedded Yiddish (levels shown
  1039. here, in logical order):
  1040.     000 0000 00 00000 RLE 11 1111 NL    |    English RLE Yiddish NL
  1041.     11 11111 1 11111 PDF 00 0000 ...    |    Yiddish PDF English ...
  1042.  
  1043. Now if the newline (NL in above) is indicated by a LS (\u2028), the
  1044. bidi state is reset between the lines. If I now start the second line
  1045. with RLE (so as to say I'm reestablishing an embedding level), I can no
  1046. longer tell whether I have one embedded segment or two (with a 0-level
  1047. space between, where the LS is). Could be an issue if I later reformat
  1048. (reflow) this text (as I might want to do in an editor).
  1049.  
  1050. As a matter of fact, if the second line (after LS) starts with a strong
  1051. R2L character and I don't reissue RLE, won't the base level be set to 1?
  1052. This would put the following English at level 2 (not intended as the
  1053. English isn't embedded in the Yiddish here, but the other way around).
  1054.  
  1055. These problems go away if I use any combinations of CR/LF to indicate
  1056. newline.
  1057.  
  1058. Another question: does PS imply LS? Or would I end a paragraph with LS PS?
  1059. I presume it does.
  1060.  
  1061. Thanks in advance for any clarifications.
  1062.  
  1063. Pierre
  1064. lew@nortel.ca
  1065.  
  1066.  
  1067. 16-May-97 19:12:00-GMT,1113;000000000001
  1068. Received: from unicode.org (unicode.org [192.195.185.2])
  1069.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id PAA08918
  1070.     for <fdc@watsun.cc.columbia.edu>; Fri, 16 May 1997 15:11:48 -0400 (EDT)
  1071. Received: by unicode.org (NX5.67g/NX3.0M)
  1072.     id AA11815; Fri, 16 May 97 11:49:36 -0700
  1073. Message-Id: <9705161849.AA11815@unicode.org>
  1074. Errors-To: uni-bounce@unicode.org
  1075. X-Uml-Sequence: 2627 (1997-05-16 18:49:12 GMT)
  1076. To: Multiple Recipients of <unicode@unicode.org>
  1077. Reply-To: kenw@sybase.com (Kenneth Whistler)
  1078. From: "Unicode Discussion" <unicode@unicode.org>
  1079. Date: Fri, 16 May 1997 11:49:10 -0700 (PDT)
  1080. Subject: Re: Line Separator Character
  1081.  
  1082.  
  1083. Pierre,
  1084.  
  1085. I'll let the bidi experts respond re the first part of your
  1086. query.
  1087.  
  1088. > Another question: does PS imply LS?
  1089.  
  1090. Presence of a paragraph separator would imply a line break.
  1091. It does not imply a LS character.
  1092.  
  1093. > Or would I end a paragraph with LS PS?
  1094.  
  1095. No. You could, but it would imply presence of a blank line
  1096. before the end of the paragraph.
  1097.  
  1098. And keep in mind these are *separators". You don't end a
  1099. paragraph with anything. You separate two paragraphs by
  1100. use of a PS.
  1101.  
  1102. --Ken
  1103.  
  1104.  
  1105. 16-May-97 22:00:09-GMT,14624;000000000001
  1106. Received: from unicode.org (unicode.org [192.195.185.2])
  1107.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id SAA11638
  1108.     for <fdc@watsun.cc.columbia.edu>; Fri, 16 May 1997 18:00:04 -0400 (EDT)
  1109. Received: by unicode.org (NX5.67g/NX3.0M)
  1110.     id AA12353; Fri, 16 May 97 13:10:08 -0700
  1111. Message-Id: <9705162010.AA12353@unicode.org>
  1112. Errors-To: uni-bounce@unicode.org
  1113. Mime-Version: 1.0
  1114. Content-Type: text/plain; charset=us-ascii
  1115. Content-Transfer-Encoding: 7bit
  1116. X-Uml-Sequence: 2630 (1997-05-16 20:09:43 GMT)
  1117. To: Multiple Recipients of <unicode@unicode.org>
  1118. Reply-To: Mark Davis <mark_davis@taligent.com>
  1119. From: "Unicode Discussion" <unicode@unicode.org>
  1120. Date: Fri, 16 May 1997 13:09:42 -0700 (PDT)
  1121. Subject: Re: Line Separator Character
  1122.  
  1123. Pierre,
  1124.  
  1125. Doug Felt here at Taligent was kind enough to take a pass at answering
  1126. your questions. His comments are marked with "**". I have added on in a
  1127. few places, marked with "@@", but haven't looked at the examples as
  1128. carefully as Doug.
  1129.  
  1130. Mark
  1131.  
  1132. ===========================================
  1133.  
  1134. All,
  1135.  
  1136. I've been trying to get a clear picture of what a "plain-text unicode
  1137. file" should look like (wrt control chars, bidi markup, &c.).
  1138.  
  1139. By "plain-text unicode file" I mean something that would be output by a
  1140. plain-text editor, eg. a Unicode-capable vi (Unix) or brief (DOS). No
  1141. HTML
  1142. or Web implications (altho such an editor could certainly be used to
  1143. prepare multi-lingual Web pages).
  1144.  
  1145. I have prepared a short text (not semantically very meaningful) with
  1146. mixed
  1147. directionalites so I can ask some concrete questions. I took the liberty
  1148. to attach the GIF to this message (about same size as the text).
  1149. Postscript and GIF versions of this text can also be seen at URL
  1150.    http://www.centrcn.umontreal.ca/~lewis/LJL/uniplain.html
  1151.  
  1152. Below, the text is shown in logical order (and all in English), with an
  1153. indication of the language in the postscript page (A=Arabic, E=English,
  1154. F=French, G=German, Y=Yiddish), and what I believe the levels should be.
  1155.  
  1156.   Some examples of dates. In Yiddish, "Monday, the 24th February 1997".
  1157. 1 E................................E   Y............................Y
  1158.   000000000000000000000000000000000000011111111111122111111111111222200
  1159.  
  1160.   In German, "Monday, the 24th Febrary 1997".
  1161. 2 E.......E   G...........................G
  1162.   0000000000002222222222222222222222222222200
  1163.  
  1164.   In Arabic, "Saturday March 90\3\10" (March 10, 1990)
  1165. 3 E.......E   A....................A   E............E
  1166.   0000000000001111111111111112222222000000000000000000
  1167.  
  1168.  
  1169.   "Shindler's List", so is called my favorite film. The jew has in the
  1170. 4  E.............E   Y...............................................Y
  1171.   12222222222222221111111111111111111111111111111111111111111111111111
  1172.  
  1173.   ring written: "All who preserve one soul of Israel the book makes up
  1174. to
  1175. 5 Y..........Y  
  1176. H......................................................H
  1177.  
  1178. 11111111111111133333333333333333333333333333333333333333333333333333333
  1179.  
  1180.   him as if he preserved a whole world.".
  1181. 6 H..................................H
  1182.   333333333333333333333333333333333333111
  1183.  
  1184.  
  1185.   The guest has been in Berlin. He has said: "I am 49 years
  1186. 7 Y........................................Y  G...........G
  1187.   111111111111111111111111111111111111111111112222222222222
  1188.  
  1189.   old and am called Boutros". This means in Yiddish: "I am old 49 years
  1190. and
  1191. 8 G...............G A.....A   Y...................Y  
  1192. Y...................Y
  1193.  
  1194. 2222222222222222223333333111111111111111111111111111111111111221111111111
  1195.  
  1196.   am called Boutros" (Pierre in French).
  1197. 9 Y.......Y B.....B   F....F Y.......Y
  1198.   11111111113333333111222222111111111111
  1199.  
  1200. Notes:
  1201.  
  1202. o  Translations are fairly literal (and not always very accurate): just
  1203.    for general orientation. And there are surely imperfections in all
  1204.    but the French (with just my name, I'm pretty safe here).
  1205.  
  1206. o  line 3: I'm not too sure what the logical order of the date in Arabic
  1207.    is. Could be 10\3\90 (levels 2212122 -- three level-2 numbers
  1208. separated by
  1209.    level-1 backslashes) or 90\3\10 (all at level 2). Not too sure of the
  1210.    exact translation of words either.
  1211.  
  1212. ** The logical order is, in general, the spoken order.  The fields of
  1213. the date
  1214. ** would probably appear in the order the putative speaker would say
  1215. them,
  1216. ** however this is one place where writing and speaking can diverge. 
  1217. Here
  1218. ** it depends on the order in which the putative speaker would type
  1219. them.
  1220. ** My description of what follows assumes the order you present is
  1221. correct,
  1222. ** and the desired appearance is what you present on your web site.
  1223. **
  1224. ** Now as to the levels: This is very long, bear with me.
  1225. **
  1226. ** Solidus (Slash) U+002F is a European Number Separator (ES).
  1227. ** Reverse Solidus (Backslash) U+005C is Other Neutral (ON).  You use
  1228. ** reverse solidus but I'm not sure if this is to represent mirroring
  1229. (neither
  1230. ** character is mirrored).  Either way, neither is a strong directional
  1231. ** character.
  1232. **
  1233. ** If the digits are Roman, by rule P0 all these numbers are treated as 
  1234. ** Arabic Numerals because the preceeding strong directional character 
  1235. ** is Arabic text (the 'h' in March).  You may have intended them to be 
  1236. ** Arabic-Indic digits from the start.  Either way, the digits are AN.
  1237. **
  1238. ** If you intended Solidus (ES) this is converted to ON by rule P3.  So
  1239. ** either solidus or reverse solidus is ON.
  1240. **
  1241. ** ON between AN is converted to R by rule N3(c).
  1242. **
  1243. ** The quoted string on line 3 is thus "L R... AN AN R AN R AN AN L"
  1244. where 
  1245. ** the L characters are the quote marks surrounding the text.  The
  1246. ** base line direction is LTR because of the initial L (Roman 'I'), so
  1247. ** the base level is 0.  In rule I1 the levels thus become
  1248. ** "0 1... 2 2 1 2 1 2 2 0".  By application of rule L2 this first
  1249. becomes
  1250. ** "Saturday March 09\3\01" as the level 2 runs are reversed, then
  1251. ** "10\3\90 hcraM yadrutaS" as the levels 1&2 run is reversed.
  1252. **
  1253. ** This is not consistent with the output on your web page.  To force
  1254. the
  1255. ** date to be formatted left to right assuming this logical order, you'd
  1256. ** need to force all date characters to L.  This can be done either
  1257. using an
  1258. LRM
  1259. ** before the first Roman digit, if the digits are roman, or by
  1260. surrounding
  1261. ** the date with LRO..PDF, if the digits are arabic-indic.  Note that
  1262. LRE
  1263. ** won't work because the reverse solidus, being between two AN, would
  1264. ** still convert to R, instead of L as desired.
  1265. **
  1266. ** For example, using "Saturday March [LRE]90\3\10[PDF]", 
  1267. ** assuming Arabic-indic digits, would resolve the levels to
  1268. ** 01111111111111112443434420, progressively resulting in
  1269. ** "Saturday March 09\3\01" -- level 4 reversed
  1270. ** "Saturday March 10\3\90" -- levels 3 and above reversed
  1271. ** "Saturday March 09\3\01" -- levels 2 and above reversed
  1272. ** "10\3\90 hcraM yadrutaS" -- levels 1 and above reversed
  1273. ** This is a direct result of the fact that the date is not a
  1274. ** solid run of left-to-right text, because the solidus is still R.
  1275. **
  1276. ** "Saturday March [LRO]90\3\10[PDF]" however would resolve to
  1277. ** 01111111111111112222222220, progressively resulting in
  1278. ** "Saturday March 01\3\09" -- level 2 reversed
  1279. ** "90\3\10 hcraM yadretaS" -- level 1 reversed.
  1280.  
  1281. o  Quotes aren't the right ones (some should be low quotes, ...).
  1282.  
  1283. Questions
  1284.  
  1285. 1) Do the levels in the above make sense (plus/minus some punctuation)?
  1286.    It may be that I've totally misunderstood levels.
  1287.  
  1288. ** Generally, they make sense, see my discussion above.  Text does not
  1289. ** necessarily change level simply because of a quotation, or because of
  1290. ** a change in language.  So in line 2, the level wouldn't change simply
  1291. ** because of a switch from English to German, since the German
  1292. ** characters would be L.  Only LRE or LRO would do that.  Since you
  1293. ** don't indicate strong formatting characters, I'd have to assume they
  1294. ** were present to force the levels you indicate.
  1295.  
  1296. 2) When embedding L2R in L2R (eg German in English, line 2) or R2L in
  1297. R2L
  1298.    (eg. Arabic in Yiddish, line 9, or Hebrew in Yiddish, line 5), should
  1299.    I use LRE/PDF and RLE/PDF (even though the direction doesn't change)?
  1300.  
  1301. ** Generally, you wouldn't need to.
  1302.  
  1303. 3) The second and third paragraphs are right-aligned (R2L main
  1304. direction).
  1305.    How do I indicate this? I thought of making each paragraph a block
  1306.    (separating them with PS, paragraph separator), and starting each
  1307. block
  1308.    with a strong char of the appropriate directionality. In the second
  1309.    paragraph, this would mean starting the block with RLM (since the
  1310. first
  1311.    letters are English). Ie. if base level is odd, main directionality
  1312. is R2L
  1313.    and the text is right aligned.
  1314.  
  1315.    Or, other possibility, starting a right-adjusted paragraph with RLE?
  1316.    But then what about a left-adjusted paragraph that starts with R2L
  1317. text.
  1318.  
  1319. ** Either way would work.  Alignment depends on the base line direction,
  1320. ** which is determined by the first strong character in the block.  The
  1321. ** explicit directional formatting codes LRE, RLE, LRO, RLO as well as
  1322. ** RLM and LRM are all strong directional characters.  LTR text within
  1323. ** a RLE embedding will still format LTR, but the overall run of text
  1324. ** within the embedding will be RTL.
  1325.  
  1326. 4) What should I use to separate lines? LS or CR or LF or CR/LF? If I
  1327. use
  1328.    LS, which is a block separator, doesn't that interact negatively with
  1329. bidi
  1330.    markup (control chars), in particular embedding markups? Ie. I have
  1331. to
  1332.    reestablish the proper level at each line. And what happens with
  1333. right
  1334.    alignment?
  1335.  
  1336.    Couldn't this cause confusion. If I have two lines (in logical order)
  1337.        000 0000 00 00000 RLE 11 1111 LS    |    English RLE Yiddish LS
  1338.        11 11111 1 11111 00 0000 ...        |    Yiddish English ...
  1339.    and reissue an RLE at start of second, I can no longer tell whether
  1340.    I have one embedded segment or two (with a 0-level space between,
  1341. where
  1342.    the LS is). Could be an issue if I later reformat (reflow) this text
  1343. (as
  1344.    I might want to do in an editor).
  1345.  
  1346.    As a matter of fact, if the second line (after LS) starts with a
  1347. strong
  1348.    R2L character and I don't reissue RLE, won't the base level be set to
  1349. 1?
  1350.    This would put the following English at level 2 (not intended as the
  1351.    English isn't embedded in the Yiddish here, but the other way
  1352. around).
  1353.  
  1354.    (I haven't read the recent thread on LS very carefully yet, but it's
  1355.    not too reassuring: lots of opinions)
  1356.  
  1357. @@ The standard is pretty clear. Most of those opinions are from people
  1358. @@ who have not read it. Think of these characters in terms of what you
  1359. @@ use in a word processor.
  1360. @@ For Microsoft word or FrontPage, think of LS as the 
  1361. @@ character that you get with shift-Return 
  1362. @@ (causing no paragraph spacing or indent),
  1363. @@ and PS as what you get with Return.
  1364. @@ (on the Mac, this would be option-Return).
  1365.  
  1366. ** This is a good observation!  We believe the current standard is in
  1367. ** error and should categorize LS as whitespace instead of as a block 
  1368. ** separator.
  1369. **
  1370. ** This would allow LS characters to be inserted wherever whitespace
  1371. ** appears and not interfere with explicit formatting codes.
  1372. **
  1373. ** That said, the explicit formatting codes are basically intended for
  1374. static
  1375. ** text interchange only.  They pose several problems for editing.  One
  1376. is that it
  1377. ** is easy to radically alter the text by inserting, copying, or
  1378. deleting
  1379. ** one of these codes.  This can reorder the text within the block and
  1380. ** completely change the text on several lines.  Similarly, the default
  1381. ** base line direction rule can be problematic, as changes to the text
  1382. at
  1383. ** the start of a block can change the base line direction.  Users might
  1384. ** have difficulty editing unless the editor provides some support (such
  1385. ** as assisting the user to insert/delete explicit formatting codes and
  1386. ** their matching PDFs as a unit).
  1387. @@ For actual editing of text with different directions, it is far
  1388. easier to have
  1389. @@ out-of-band style information with explicit embedding levels, 
  1390. @@ as mentioned briefly on page 3-22.
  1391. **
  1392. ** Additionally, text reordering after levels are computed is done on a
  1393. ** line by line basis.  Depending on where line breaks occur, different
  1394. ** text may appear on a line, and in different orders.  This is
  1395. independent
  1396. ** of the issue of how to represent line breaks-- if they are
  1397. represented
  1398. ** external to the text (a line break table, based on wrapping to some
  1399. ** width or character count, say) this still happens.  This makes
  1400. rebreaking
  1401. ** lines somewhat more of an issue than it is with ASCII text.
  1402. **
  1403.  
  1404. 5) Does PS imply LS? Or would I end a paragraph with LS PS?
  1405.  
  1406. ** Yes, use only PS to separate paragraphs.
  1407.  
  1408. 6) Imagine I want to start the third paragraph on a new page. Where do I
  1409.    put the FF (wrt the LS/CR/LF/ and bidi markup in the vicinity)?
  1410.  
  1411. ** FF is higher-level formatting, you'd have to interpret it separately.
  1412. @@ In particular, you would definitely interpret it as a block
  1413. separator.
  1414.  
  1415. 7) Any specific bidi markup required around the numerals?
  1416.  
  1417.    In the Arabic date: if levels intended are 2212122, would I need
  1418. extra
  1419.    markup? I would think I would need:
  1420.        LRO number PDF \ LRO number PDF \ LRO number PDF
  1421.    (so that the \s, which are "other neutral", stay at level 1)?
  1422.  
  1423. ** Almost, see my example above.  In your example, the separate runs
  1424. ** of LTR text would occur in RTL order, reversing the year and day of
  1425. ** the date from what your example shows.
  1426.  
  1427. 8) What is the intent (as opposed to the effect which the algo surely
  1428. makes
  1429.    clear) of RLE and LRE?  When are they useful? (Relates to question
  1430. 1).
  1431.  
  1432. ** Quoted text where the text itself contains mixed directions is a
  1433. common
  1434. ** case.  You can see it (implicitly) in the examples for rule L2.  The
  1435. quotes
  1436. ** logically belong to the surrounding text, and the embedding codes are 
  1437. ** just inside the quotes.
  1438. @@ In the vast majority of cases, it is not necessary. The important
  1439. cases are
  1440. @@ those that Doug mentioned.
  1441. @@ RLO and LRO are even more infrequent, and are designed to allow for
  1442. cases
  1443. @@ such part numbers with mixed numbers and letters, where the character
  1444. @@ order is forced.
  1445.  
  1446. 9) A typesetting question. Where do quotes belong in
  1447. mixed-directionality
  1448.    texts (eg. in line 7)? Should they be at the same level as the text
  1449.    introducing the quote? Or at the level of the text being quoted. On
  1450.    line 7, should the quote be at the end of the line instead of where I
  1451.    put it (in the PS file)? Can't say I'm comfortable with either
  1452. solution.
  1453.  
  1454.    And what style of quotes does one use? That of the quoting or of the
  1455.    quoted language?
  1456.  
  1457. ** Quotes are at the same level as the text introducing the quote.
  1458. @@ In general, you expect the style of the quotes to be the same as the
  1459. containing
  1460. @@ text, not the embedded text. However, that is up to the user's
  1461. choice.
  1462.  
  1463. Thanks in advance for any clarifications.
  1464.  
  1465. Pierre
  1466. lew@nortel.ca
  1467.  
  1468. 16-May-97 22:09:47-GMT,4669;000000000001
  1469. Received: from unicode.org (unicode.org [192.195.185.2])
  1470.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id SAA13190
  1471.     for <fdc@watsun.cc.columbia.edu>; Fri, 16 May 1997 18:09:45 -0400 (EDT)
  1472. Received: by unicode.org (NX5.67g/NX3.0M)
  1473.     id AA12505; Fri, 16 May 97 13:19:41 -0700
  1474. Message-Id: <9705162019.AA12505@unicode.org>
  1475. Errors-To: uni-bounce@unicode.org
  1476. Mime-Version: 1.0
  1477. Content-Type: TEXT/PLAIN; charset=US-ASCII
  1478. X-Uml-Sequence: 2632 (1997-05-16 20:19:26 GMT)
  1479. To: Multiple Recipients of <unicode@unicode.org>
  1480. Reply-To: "Martin J. Duerst" <mduerst@ifi.unizh.ch>
  1481. From: "Unicode Discussion" <unicode@unicode.org>
  1482. Date: Fri, 16 May 1997 13:19:24 -0700 (PDT)
  1483. Subject: Re: Line Separator Character
  1484.  
  1485. On Fri, 16 May 1997, Pierre Lewis wrote:
  1486.  
  1487.  
  1488. > Context: plain text unicode file.
  1489.  
  1490. There are basically two models of plain text. The first is line-oriented,
  1491. the second is paragraph-oriented. Email or programm code is the traditional
  1492. example of line-oriented plain text. Descriptive text as it appears in
  1493. word processors, minus formatting, is the typical example of paragraph-
  1494. oriented plain text.
  1495.  
  1496. In traditional encoding (using CR/LF/CRLF) and in "official" Unicode
  1497. encoding (using PS), the two models are made compatible by treating
  1498. each line in the line-oriented plain text as a paragraph. On the other
  1499. hand, the paragraph-oriented model can be reduced to the line-oriented
  1500. model by splitting lines in a particular layout of the paragraph.
  1501. This splitting is again done by paragraph separators (CR/LF/CRLF/PS),
  1502. and not by LS.
  1503.  
  1504. LS is only used for certain effects in the paragraph-oriented model
  1505. that occur inside a paragraph. For example, I use it in some wordprocessors
  1506. to start an new line without having the last line aligned left in a
  1507. justified paragraph and/or without having the new line alligning
  1508. indented like a first line of a paragraph. The use to avoid paragraph
  1509. interspacing has also been mentionned. In summary, LS is an advanced
  1510. device for paragraph-oriented plain text, and not to be used for
  1511. line-oriented plain text.
  1512.  
  1513. That said, let's now look at BIDI:
  1514.  
  1515.  
  1516. > Assuming we use LS to separate lines (I guess there's no answer to the
  1517. > question "what should I use"), then doesn't that interact negatively
  1518. > with bidi markup, in particular embedding markups? Ie. I have to
  1519. > reestablish the proper embedding level at each line.
  1520. > Say I have two lines, some English with embedded Yiddish (levels shown
  1521. > here, in logical order):
  1522. >     000 0000 00 00000 RLE 11 1111 NL    |    English RLE Yiddish NL
  1523. >     11 11111 1 11111 PDF 00 0000 ...    |    Yiddish PDF English ...
  1524. > Now if the newline (NL in above) is indicated by a LS (\u2028), the
  1525. > bidi state is reset between the lines. If I now start the second line
  1526. > with RLE (so as to say I'm reestablishing an embedding level), I can no
  1527. > longer tell whether I have one embedded segment or two (with a 0-level
  1528. > space between, where the LS is). Could be an issue if I later reformat
  1529. > (reflow) this text (as I might want to do in an editor).
  1530. >
  1531. > As a matter of fact, if the second line (after LS) starts with a strong
  1532. > R2L character and I don't reissue RLE, won't the base level be set to 1?
  1533. > This would put the following English at level 2 (not intended as the
  1534. > English isn't embedded in the Yiddish here, but the other way around).
  1535.  
  1536. LS is defined as a block separator, so you are right. When you
  1537. insert an LS to split the lines, your application could insert
  1538. arbitrary additional codepoints such as RLE. What it does insert
  1539. (or not) is outside of the Unicode BIDI spec, which only describes
  1540. static behaviour (what has to happen when the insertions are done),
  1541. and not dynamic interactive behaviour (which can be a lot more
  1542. complex if you want it to follow user's expectations, and given
  1543. that static BIDI is already difficult, I hope you get the point :-).
  1544.  
  1545. But when you edit BIDI text, you really should work with
  1546. paragraph-oriented plain text, without additional LSs. Then
  1547. everything will run more or less smoothly. Reformatting (reflow)
  1548. is done automatically and correctly. In those cases where you
  1549. indeed insert LSs, they will in most cases not be in the middle
  1550. of text, but at some logical interruption point, without the
  1551. need for frequent reflow.
  1552.  
  1553.  
  1554. > These problems go away if I use any combinations of CR/LF to indicate
  1555. > newline.
  1556.  
  1557. This might be a solution for some very special cases. But in general,
  1558. for BIDI you should use paragraph-oriented plain text, with CR/LF/
  1559. CRLF/PS as paragraph separators. I'm pretty sure that when Microsoft
  1560. implements BIDI (or the way they already do it), they will treat
  1561. CR (what they use internally) as a block separator in the BIDI
  1562. algorithm.
  1563.  
  1564.  
  1565. Regards,    Martin.
  1566.  
  1567.  
  1568. 16-May-97 22:25:22-GMT,2878;000000000001
  1569. Received: from unicode.org (unicode.org [192.195.185.2])
  1570.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id SAA15567
  1571.     for <fdc@watsun.cc.columbia.edu>; Fri, 16 May 1997 18:25:21 -0400 (EDT)
  1572. Received: by unicode.org (NX5.67g/NX3.0M)
  1573.     id AA12695; Fri, 16 May 97 13:39:12 -0700
  1574. Message-Id: <9705162039.AA12695@unicode.org>
  1575. Errors-To: uni-bounce@unicode.org
  1576. Mime-Version: 1.0
  1577. Content-Type: TEXT/PLAIN; charset=US-ASCII
  1578. X-Uml-Sequence: 2634 (1997-05-16 20:38:15 GMT)
  1579. To: Multiple Recipients of <unicode@unicode.org>
  1580. Reply-To: "Martin J. Duerst" <mduerst@ifi.unizh.ch>
  1581. From: "Unicode Discussion" <unicode@unicode.org>
  1582. Date: Fri, 16 May 1997 13:38:13 -0700 (PDT)
  1583. Subject: Re: Line Separator character
  1584.  
  1585. On Wed, 14 May 1997, Adrian Havill wrote:
  1586.  
  1587. > Martin J. Duerst wrote:
  1588. > > Email has very strict restrictions on this. You can't send doublebyte
  1589. > > UTF-16 or UCS-2 in Email. CRLF always has to be present as a line
  1590. > > separator. Unicode in Email is possible with UTF-7 (and CRLF as line
  1591. > > separator) or UTF-8 + BASE64/QuotedPrintable (and CRLF...).
  1592. > > Please see RFC 2045/6/7 for this.
  1593. > I'm aware of this. Allow me to clarify: encode the Unicode line and
  1594. > paragraph separators in UTF-7 and transmit no CR and LFs. Some
  1595. > protocols, such as SMTP, have a line limit (998 octets in the case of
  1596. > SMTP).
  1597.  
  1598. SMTP email requires that line breaks be encoded as CRLF for all
  1599. things that are text (i.e. Content-Type: text/*). The user
  1600. (or the user agent) is also asked to limit line length to
  1601. something like 80 characters (actually 80 bytes).
  1602.  
  1603.  
  1604. > However, as the behavior of CR and LF is system dependent, an e-mail
  1605. > client could theoretically ignore CR LF, etc and go by the UTF-7 encoded
  1606. > Unicode line and paragraph breaks, when 
  1607.  
  1608. CR and LF are system dependent, but in mail, it's always CRLF, and
  1609. mail user agents do the conversion.
  1610.  
  1611.  
  1612. > RFC2046 says '[i]t should not be necessary to add any line breaks to
  1613. > display "text/plain" correctly....'
  1614.  
  1615. That's because text/plain (and all of text/*) is already defined
  1616. to have these as CRLF, at 'short' intervals.
  1617.  
  1618.  
  1619. > So why not NOT use them and go with
  1620. > the Unicode ones?
  1621.  
  1622. Because that may (or actually will) break some mail software.
  1623. I know many people don't like that (I don't either), but some
  1624. things in Internet mail are braindead, and will stay braindead.
  1625. Too many influential people are too used to the way things are,
  1626. and too many people are affraid of some software failing to work.
  1627.  
  1628. Of course, what you can do is to have your local user agent
  1629. change from CRLF to whatever line breaking convention you
  1630. use locally, which might very well be the "true" Unicode codes.
  1631.  
  1632. > As there are few legacy Unicode-capable e-mail clients, is it not
  1633. > possible to push to get this functionality added now?
  1634.  
  1635. The problem is not the clients. The problem is all the software
  1636. that the mail passes from one client to the other.
  1637.  
  1638.  
  1639. Regards,    Martin.
  1640.  
  1641.  
  1642. 17-May-97 21:28:56-GMT,4627;000000000011
  1643. Received: from unicode.org (unicode.org [192.195.185.2])
  1644.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id RAA05910
  1645.     for <fdc@watsun.cc.columbia.edu>; Sat, 17 May 1997 17:28:55 -0400 (EDT)
  1646. Received: by unicode.org (NX5.67g/NX3.0M)
  1647.     id AA15437; Sat, 17 May 97 14:09:06 -0700
  1648. Message-Id: <9705172109.AA15437@unicode.org>
  1649. Errors-To: uni-bounce@unicode.org
  1650. Mime-Version: 1.0
  1651. Content-Type: text/plain; charset="us-ascii"
  1652. X-Uml-Sequence: 2642 (1997-05-17 21:08:44 GMT)
  1653. To: Multiple Recipients of <unicode@unicode.org>
  1654. Reply-To: Edward Cherlin <cherlin@cauce.org>
  1655. From: "Unicode Discussion" <unicode@unicode.org>
  1656. Date: Sat, 17 May 1997 14:08:43 -0700 (PDT)
  1657. Subject: Re: Line Separator Character
  1658.  
  1659. "Martin J. Duerst" <mduerst@ifi.unizh.ch> wrote:
  1660. >On Fri, 16 May 1997, Pierre Lewis wrote:
  1661. >
  1662. >
  1663. >> Context: plain text unicode file.
  1664. >
  1665. >There are basically two models of plain text. The first is line-oriented,
  1666. >the second is paragraph-oriented. Email or programm code is the traditional
  1667. >example of line-oriented plain text. Descriptive text as it appears in
  1668. >word processors, minus formatting, is the typical example of paragraph-
  1669. >oriented plain text.
  1670. >
  1671. >In traditional encoding (using CR/LF/CRLF) and in "official" Unicode
  1672. >encoding (using PS), the two models are made compatible by treating
  1673. >each line in the line-oriented plain text as a paragraph. On the other
  1674. >hand, the paragraph-oriented model can be reduced to the line-oriented
  1675. >model by splitting lines in a particular layout of the paragraph.
  1676. >This splitting is again done by paragraph separators (CR/LF/CRLF/PS),
  1677. >and not by LS.
  1678.  
  1679. There are actually several other models for files of 7-bit or 8-bit
  1680. character codes, commonly, but misleadingly, known as ASCII text files.
  1681.  
  1682. The original model was control of a Teletype machine, where several control
  1683. characters called for physical movement of the mechanism. Many of the bad
  1684. habits used in text files are survivals of this model. Others, fortunately,
  1685. have died out. (I am thinking of some of the uses of control characters in
  1686. editors meant for hard copy terminals.)
  1687.  
  1688. CRLF was *required* to initiate a new line, but CR by itself was sometimes
  1689. used for overstriking (if BS was not available), including underlining and
  1690. composition of APL characters, and also for imitating typewriter
  1691. overstrikes such as c| for the cent sign and some accented letters such as
  1692. u" or e`. HT and FF were very commonly used, and some others, such as SI
  1693. and SO, less so, but each of these specified a mechanical action. SI and SO
  1694. allowed a fairly standard way to control some dual-script devices including
  1695. ASCII/Arabic, ASCII/Cyrillic, APL/ASCII, and other combinations.
  1696.  
  1697. Many devices used ASCII control characters for new purposes, so that an
  1698. ASCII character string could specify the hardware behavior needed for bold
  1699. facing and so on. The actual process of printing might call for translation
  1700. from a 'text file' to an ASCII command string file which would produce the
  1701. same printed image by other means. For example, a printer driver for a
  1702. bidirectional printer could save time by printing alternate lines in
  1703. reverse order, with LF and some spacing commands between lines.
  1704.  
  1705. We then had the glass Teletype, or dumb terminal, model, which might treat
  1706. CR and LF as on mechanical devices, or might treat them both as new line
  1707. characters, or might do something else. At the same time, 'text files'
  1708. could still be used to control electronic printers, with varying
  1709. interpretations of some of the control characters.
  1710.  
  1711. Now, on computers with GUIs, we have different systems that expect CR, or
  1712. LF, or CRLF, as the new line signal, and have other interpretations of
  1713. other control characters. System software vendors are going off in all
  1714. directions inventing new misinterpretations of Unicode characters and
  1715. constructing yet other file designs.
  1716.  
  1717. We want to have a uniform, portable definition of the meaning of a file of
  1718. 16-bit character codes interpreted as Unicode, or "Unicode text file" for
  1719. short. At the same time, we have several uses for such files, where
  1720. different interpretations may be desired. If we want to do this right, I
  1721. think we have to find the appropriate organization for defining such file
  1722. formats and uses, and get down to some serious and at times difficult
  1723. standard making. The Unicode character code standard does not seem to be
  1724. the right place to do this.
  1725.  
  1726. --
  1727. Edward Cherlin       Help outlaw Spam     Everything should be made
  1728. Vice President     http://www.cauce.org      as simple as possible,
  1729. NewbieNet, Inc.  1000 members and counting      __but no simpler__.
  1730. http://www.newbie.net/    17 May 97   Attributed to Albert Einstein
  1731.  
  1732.  
  1733.  
  1734. 17-May-97 23:00:51-GMT,6375;000000000001
  1735. Received: from unicode.org (unicode.org [192.195.185.2])
  1736.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id TAA21108
  1737.     for <fdc@watsun.cc.columbia.edu>; Sat, 17 May 1997 19:00:50 -0400 (EDT)
  1738. Received: by unicode.org (NX5.67g/NX3.0M)
  1739.     id AA15658; Sat, 17 May 97 15:40:09 -0700
  1740. Message-Id: <9705172240.AA15658@unicode.org>
  1741. Errors-To: uni-bounce@unicode.org
  1742. X-Uml-Sequence: 2643 (1997-05-17 22:39:47 GMT)
  1743. To: Multiple Recipients of <unicode@unicode.org>
  1744. Reply-To: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  1745. From: "Unicode Discussion" <unicode@unicode.org>
  1746. Date: Sat, 17 May 1997 15:39:45 -0700 (PDT)
  1747. Subject: Re: Line Separator Character
  1748.  
  1749. > There are actually several other models for files of 7-bit or 8-bit
  1750. > character codes, commonly, but misleadingly, known as ASCII text files.
  1751. > The original model was control of a Teletype machine, where several control
  1752. > characters called for physical movement of the mechanism. Many of the bad
  1753. > habits used in text files are survivals of this model.
  1754. >
  1755. I wouldn't call them bad habits necessarily.  The primary bone of contention
  1756. here is the distinction between LF and CR...
  1757.  
  1758. > CRLF was *required* to initiate a new line, but CR by itself was sometimes
  1759. > used for overstriking (if BS was not available), including underlining and
  1760. > composition ...
  1761. >
  1762. Right.  And LF was used by itself to go down one row.
  1763.  
  1764. > We then had the glass Teletype, or dumb terminal, model, which might treat
  1765. > CR and LF as on mechanical devices, or might treat them both as new line
  1766. > characters...
  1767. >
  1768. Actually I think that practically all CRTs treat CR and LF just as the TTY
  1769. did.  CR positions the cursor to the left of the current row, LF moves it
  1770. down one row.
  1771.  
  1772. > Now, on computers with GUIs, we have different systems that expect CR, or
  1773. > LF, or CRLF, as the new line signal, and have other interpretations of
  1774. > other control characters.
  1775. >
  1776. Really the problem started when the UNIX designers decided that it was good
  1777. idea to have a storage model that was different than the tranmsission model.
  1778. This allowed some space to be saved on disk, and it made text processing
  1779. software a bit easier to write.  However, it complicated the tty driver by
  1780. requiring it to substitute CRLF for LF when displaying text files, which in
  1781. turn has led to all sorts of confusion about "raw" vs "cooked" mode, etc,
  1782. and the related distinction between NVT vs binary mode in Telnet protocol.
  1783.  
  1784. (It is a simplification that UNIX was the first disk operating system to store
  1785. textual files differently than it transmitted them, but it may have been the
  1786. first *stream-oriented* one to do so -- or at least the one we remember.)
  1787.  
  1788. Thus CRLF has always been the line terminator in ASCII (in the broad sense of
  1789. "not EBCDIC") text transmission.  Systems that chose to use different internal
  1790. representations have had the obligation to convert back and forth during
  1791. transmission.
  1792.  
  1793. It's interesting to speculate how different the world (of computing) might be
  1794. today if only a few arbitrary and perhaps whimsical decisions had been made
  1795. differently decades ago: if UNIX and several other popular platforms had used
  1796. CRLF rather than LF (or CR) as the line terminator; if DOS had used "forward
  1797. slash" (/) rather than "backward slash" (\) as the directory separator...  How
  1798. many person-eons of effort have gone into addressing the consequences of these
  1799. decisions...
  1800.  
  1801. > HT and FF were very commonly used...
  1802. >
  1803. (And still are...)  Now there's an interesting point.  Unicode has addressed
  1804. the CR/LF/CRLF confusion with LS and PS, but what about formfeed?  Isn't it
  1805. sometimes just as necessary to specify a hard page break as it is to specify a
  1806. hard line or paragraph break?  I suppose there must be a boundary somewhere
  1807. between "Trust your rendering engine" and "Mother, Please! I'd rather do it
  1808. myself!"  I don't have a copy handy, and I might be entirely wrong about this,
  1809. but isn't the Holy Koran a document that must be paginated in a specific way?
  1810.  
  1811. In any case, the strong Use-A-GUI thrust of Unicode will make it increasingly
  1812. difficult for certain kinds of people to operate in the ways to which they
  1813. have become accustomed over the past decades in which plain text was "good
  1814. enough" save that one could not put lots of languages into it.  For example,
  1815. today I can write a letter that spills over to one or more "second sheets" in
  1816. plain text and print it on a plain-text printer without a second thought,
  1817. using any software at all on any platform, embedding hard line, paragraph, and
  1818. page breaks in it, just as most of us still do with email (except for the page
  1819. breaks).  No "templates", "wizards", "profiles", "preferences", or
  1820. "Buzzword-1.0 Compliance" involved.  I can move this letter to practically any
  1821. other platform and it will still be perfectly legible and printable -- no
  1822. export or import or conversion or version skew to worry about.  I think a lot
  1823. of people would be perfectly happy to do the same in a plain-text Unicode
  1824. world using plain-text Unicode terminals and printers, if there were such
  1825. things.  But there's a bigger issue...
  1826.  
  1827. The idea that one must embed Unicode in a higher level wrapper (e.g. a
  1828. Microsoft Word document, or even HTML) to make it useful has a certain
  1829. frightening consequence: the loss of any expectancy of longevity for our new
  1830. breed of documents.  These higher-level systems will be overwhelmingly
  1831. proprietary due to the vast amount of coding that must go into them, the
  1832. voracious nature of the marketplace, etc, and so formats will become obsolete
  1833. with ever-increasing frequency, and it will become ever harder to extract the
  1834. plain-text characters -- the substance -- from them.  That which is perceived
  1835. at a critical moment in time to be worthy of preservation will be converted to
  1836. the new format, the rest discarded or left for decipherment by future
  1837. generations of information archaeologists.  (If you don't believe this is a
  1838. problem, think about what is happening to our (physical) libraries all over
  1839. the world at this moment -- get ready to say goodbye forever to five millenia
  1840. of history that was not worth digitizing.)  (And then to do it all over again
  1841. when the digital formats and media need conversion in another ten years.)
  1842. (And then again five years after that, etc...)
  1843.  
  1844. So let's do our part and make some effort to accommodate traditional
  1845. plain-text applications in Unicode, rather than discourage them :-)
  1846.  
  1847. - Crank (Oops, I mean Frank)
  1848.  
  1849. 18-May-97  0:13:19-GMT,2045;000000000001
  1850. Received: from unicode.org (unicode.org [192.195.185.2])
  1851.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id UAA29722
  1852.     for <fdc@watsun.cc.columbia.edu>; Sat, 17 May 1997 20:13:18 -0400 (EDT)
  1853. Received: by unicode.org (NX5.67g/NX3.0M)
  1854.     id AA15880; Sat, 17 May 97 16:56:42 -0700
  1855. Message-Id: <9705172356.AA15880@unicode.org>
  1856. Errors-To: uni-bounce@unicode.org
  1857. X-Uml-Sequence: 2644 (1997-05-17 23:56:16 GMT)
  1858. To: Multiple Recipients of <unicode@unicode.org>
  1859. Reply-To: Terry Allen <tallen@sonic.net>
  1860. From: "Unicode Discussion" <unicode@unicode.org>
  1861. Date: Sat, 17 May 1997 16:56:15 -0700 (PDT)
  1862. Subject: Re: Line Separator Character
  1863.  
  1864. Frank da Cruz asked:
  1865. >(And still are...)  Now there's an interesting point.  Unicode has addressed
  1866. the CR/LF/CRLF confusion with LS and PS, but what about formfeed?  Isn't it
  1867. sometimes just as necessary to specify a hard page break as it is to specify a
  1868. hard line or paragraph break?  I suppose there must be a boundary somewhere
  1869. between "Trust your rendering engine" and "Mother, Please! I'd rather do it
  1870. myself!"  I don't have a copy handy, and I might be entirely wrong about this,
  1871. but isn't the Holy Koran a document that must be paginated in a specific way?
  1872.  
  1873. It isn't.  My Egyptian Qur'an is one continuous text flow; the heading
  1874. of a surah may even occur right at the bottom of a page.  But there are
  1875. such documents; the example of legal documents was brought up recently
  1876. wrt SGML style sheets.
  1877.  
  1878. >From an SGML point of view, I want to separate lines and paragraphs
  1879. in my SGML markup.  That's how I'd expect to obtain longevity for the
  1880. text, not through LS and PS.  CR and LF and SGML's difficulty in
  1881. dealing with them (now redressed partially in XML) are bad enough.
  1882. In SGML I can't see using LS or PS.
  1883.  
  1884. Regards (and thanks for an interesting discussion),
  1885.  
  1886.   Terry Allen    Electronic Publishing Consultant    tallen[at]sonic.net
  1887.                    http://www.sonic.net/~tallen/
  1888.     Davenport and DocBook:  http://www.ora.com/davenport/index.html
  1889.           T.A. at Passage Systems:  terry.allen[at]passage.com 
  1890.  
  1891.  
  1892. 18-May-97  8:11:08-GMT,1439;000000000011
  1893. Received: from mtshasta.snowcrest.net (mtshasta.snowcrest.net [206.245.192.1])
  1894.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id EAA07970
  1895.     for <fdc@watsun.cc.columbia.edu>; Sun, 18 May 1997 04:11:06 -0400 (EDT)
  1896. Received: from [206.245.192.57] (ttyD0.mtshasta.snowcrest.net [206.245.192.32]) by mtshasta.snowcrest.net (8.8.5/8.6.5) with ESMTP id BAA00515 for <fdc@watsun.cc.columbia.edu>; Sun, 18 May 1997 01:11:02 -0700 (PDT)
  1897. X-Sender: cherlin@snowcrest.net
  1898. Message-Id: <v03007834afa410ceea32@[206.245.192.57]>
  1899. In-Reply-To: <CMM.0.90.4.863908779.fdc@watsun.cc.columbia.edu>
  1900. References: Your message of Sat, 17 May 1997 14:08:43 -0700 (PDT)
  1901. Mime-Version: 1.0
  1902. Content-Type: text/plain; charset="us-ascii"
  1903. Date: Sat, 17 May 1997 18:52:05 -0700
  1904. To: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  1905. From: Edward Cherlin <cherlin@cauce.org>
  1906. Subject: Re: Line Separator Character
  1907.  
  1908. You wrote:
  1909. [snip]
  1910. >So let's do our part and make some effort to accommodate traditional
  1911. >plain-text applications in Unicode, rather than discourage them :-)
  1912. >
  1913. >- Crank (Oops, I mean Frank)
  1914.  
  1915. As you say. So do you think my suggestion of a formal standard for Unicode
  1916. text files has merit?
  1917.  
  1918. --
  1919. Edward Cherlin       Help outlaw Spam     Everything should be made
  1920. Vice President     http://www.cauce.org      as simple as possible,
  1921. NewbieNet, Inc.  1000 members and counting      __but no simpler__.
  1922. http://www.newbie.net/    17 May 97   Attributed to Albert Einstein
  1923.  
  1924.  
  1925.  
  1926. 18-May-97 15:40:32-GMT,1713;000000000001
  1927. Received: (from fdc@localhost)
  1928.     by watsun.cc.columbia.edu (8.8.5/8.8.5) id LAA21787;
  1929.     Sun, 18 May 1997 11:40:31 -0400 (EDT)
  1930. Date: Sun, 18 May 97 11:40:30 EDT
  1931. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  1932. To: Edward Cherlin <cherlin@cauce.org>
  1933. Subject: Re: Line Separator Character
  1934. In-Reply-To: Your message of Sat, 17 May 1997 14:08:43 -0700 (PDT)
  1935. Message-ID: <CMM.0.90.4.863970030.fdc@watsun.cc.columbia.edu>
  1936.  
  1937. Oops, never mind -- it was this:
  1938.  
  1939. > We want to have a uniform, portable definition of the meaning of a file of
  1940. > 16-bit character codes interpreted as Unicode, or "Unicode text file" for
  1941. > short. At the same time, we have several uses for such files, where
  1942. > different interpretations may be desired. If we want to do this right, I
  1943. > think we have to find the appropriate organization for defining such file
  1944. > formats and uses, and get down to some serious and at times difficult
  1945. > standard making. The Unicode character code standard does not seem to be
  1946. > the right place to do this.
  1947. I'm not sure what you're after.  I'm mainly concerned about the continued
  1948. viability of files containing only graphic characters, spaces, line breaks,
  1949. paragraph breaks, and formfeeds.  Plain, literal text that can contain
  1950. poetry, tables, source code, you name it, and stays like it is.
  1951.  
  1952. Pretty much what we have today with 7- and 8-bit plain text, except without
  1953. the confusion over CRLF/CR/LF, etc.  I think that what's really valuable about
  1954. these files is their self-contained and independent expressiveness -- they
  1955. don't need a rendering engine, they don't need any special transport protocol
  1956. -- they contain the text and the minimal control information to be transported
  1957. and understood universally.
  1958.  
  1959. - Frank
  1960.  
  1961. 19-May-97  3:06:29-GMT,1723;000000000001
  1962. Received: from orpheus.amdahl.com (orpheus.amdahl.com [129.212.11.6])
  1963.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id XAA09584
  1964.     for <fdc@watsun.cc.columbia.edu>; Sun, 18 May 1997 23:06:28 -0400 (EDT)
  1965. Received: from minerva.amdahl.com by orpheus.amdahl.com with smtp
  1966.     (Smail3.1.29.1 #3) id m0wTImI-0001JvC; Sun, 18 May 97 20:06 PDT
  1967. Received: from juts.ccc.amdahl.com by minerva.amdahl.com with smtp
  1968.     (Smail3.1.29.1 #5) id m0wTIm0-0002ChC; Sun, 18 May 97 20:06 PDT
  1969. Received: by juts.ccc.amdahl.com (/\../\ Smail3.1.14.4 #14.6)
  1970.     id <m0wTIlv-0000OhC@juts.ccc.amdahl.com>; Sun, 18 May 97 20:06 PDT
  1971. Message-Id: <m0wTIlv-0000OhC@juts.ccc.amdahl.com>
  1972. Comments: Authenticated sender is <tzha0@juts.ccc.amdahl.com>
  1973. From: "Tony Harminc" <tzha0@juts.ccc.amdahl.com>
  1974. To: "Unicode Discussion" <unicode@unicode.org>, fdc@watsun.cc.columbia.edu
  1975. Date: Sun, 18 May 1997 23:04:41 -0400
  1976. MIME-Version: 1.0
  1977. Content-type: text/plain; charset=US-ASCII
  1978. Content-transfer-encoding: 7BIT
  1979. Subject: Re: Line Separator Character
  1980. Priority: normal
  1981. In-reply-to: <9705172240.AA15682@unicode.org>
  1982. X-mailer: Pegasus Mail for Win32 (v2.52)
  1983.  
  1984. On 17 May 97 at 15:39, Frank da Cruz wrote:
  1985.  
  1986. > It's interesting to speculate how different the world (of computing) might be
  1987. > today if only a few arbitrary and perhaps whimsical decisions had been made
  1988. > differently decades ago: if UNIX and several other popular platforms had used
  1989. > CRLF rather than LF (or CR) as the line terminator; if DOS had used "forward
  1990. > slash" (/) rather than "backward slash" (\) as the directory separator...  How
  1991. > many person-eons of effort have gone into addressing the consequences of these
  1992. > decisions...
  1993.  
  1994. If the original IBM PC had used EBCDIC instead of ASCII...
  1995.  
  1996. Tony Harminc
  1997.  
  1998. 19-May-97 17:48:10-GMT,5906;000000000001
  1999. Return-Path: <kenw@sybase.com>
  2000. Received: from halon.sybase.com (halon.sybase.com [192.138.151.33])
  2001.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id NAA16182
  2002.     for <fdc@watsun.cc.columbia.edu>; Mon, 19 May 1997 13:48:05 -0400 (EDT)
  2003. Received: from smtp1.sybase.com (sybgate.sybase.com [130.214.220.35])
  2004.           by halon.sybase.com (8.8.4/8.8.4) with SMTP
  2005.       id KAA10672; Mon, 19 May 1997 10:51:14 -0700 (PDT)
  2006. Received: from birdie.sybase.com by smtp1.sybase.com (4.1/SMI-4.1/SybH3.5-030896)
  2007.     id AA06870; Mon, 19 May 97 10:49:25 PDT
  2008. Received: by birdie.sybase.com (5.x/SMI-SVR4/SybEC3.5)
  2009.     id AA17679; Mon, 19 May 1997 10:47:55 -0700
  2010. Date: Mon, 19 May 1997 10:47:55 -0700
  2011. From: kenw@sybase.com (Kenneth Whistler)
  2012. Message-Id: <9705191747.AA17679@birdie.sybase.com>
  2013. To: fdc@watsun.cc.columbia.edu
  2014. Subject: Unicode plain text (Was: Line Separator Character)
  2015. Cc: unicode@unicode.org, kenw@sybase.com
  2016. X-Sun-Charset: US-ASCII
  2017.  
  2018.  
  2019. Crank, er... Frank,
  2020.  
  2021. >> HT and FF were very commonly used...
  2022. >>
  2023. >(And still are...)  Now there's an interesting point.  Unicode has addressed
  2024. >the CR/LF/CRLF confusion with LS and PS, but what about formfeed?  Isn't it
  2025. >sometimes just as necessary to specify a hard page break as it is to specify a
  2026. >hard line or paragraph break?
  2027.  
  2028. You can still use U+000C FORM FEED in Unicode plain text, and a renderer that
  2029. knows about page breaks can do the "right thing", namely whatever it did with
  2030. ^L for an ASCII text. FORM FEED, like HORIZONTAL TAB, was not considered to
  2031. be ambiguous enough in usage (unlike CR/LF) to require any separate encoding
  2032. in Unicode.
  2033.  
  2034. > In any case, the strong Use-A-GUI thrust of Unicode will make it increasingly
  2035. > difficult for certain kinds of people to operate in the ways to which they
  2036. > have become accustomed over the past decades in which plain text was "good
  2037. > enough" save that one could not put lots of languages into it.
  2038.  
  2039. The goal of Unicode plain text is to recapture that portability in the
  2040. encoding, but also allow you to put lots of languages into it. The "Use-A-GUI
  2041. thrust" of Unicode acknowledges the fact that rendering of complex scripts
  2042. (including the Latin script with generative use of combining marks) requires
  2043. logic that is much more amenable to implementation in a GUI framework than in
  2044. a terminal model. However, appropriate (and very large and useful) subsets of
  2045. Unicode *can* be implemented with simple rendering models. (Cf. Windows NT
  2046. until very recently. :-) )
  2047.  
  2048. > I can move this letter to practically any
  2049. > other platform and it will still be perfectly legible and printable -- no
  2050. > export or import or conversion or version skew to worry about.  I think a lot
  2051. > of people would be perfectly happy to do the same in a plain-text Unicode
  2052. > world using plain-text Unicode terminals and printers, if there were such
  2053. > things.
  2054.  
  2055. That is exactly what Unicode plain text is all about. And, by the way,
  2056. Notepad on Windows NT was pretty close to being a "plain-text Unicode terminal".
  2057.  
  2058. > The idea that one must embed Unicode in a higher level wrapper (e.g. a
  2059. > Microsoft Word document, or even HTML) to make it useful has a certain
  2060. > frightening consequence: the loss of any expectancy of longevity for our new
  2061. > breed of documents.
  2062.  
  2063. There is absolutely nothing new about this. I was warning my linguistic
  2064. colleagues about the longevity of their documents when they started using
  2065. WordStar back around 82/83. 7-bit ASCII is the only encoding that stayed
  2066. stable enough and was widely enough implemented to retain easy transmissibility
  2067. across the computer generations without the intervention of information
  2068. archaeologists. Well, 16-bit Unicode plain text is aimed at no less a
  2069. goal than being the universal wide-ASCII plain text of the 21st century.
  2070.  
  2071. Grumpy aside: This goal is not helped by people who treat Unicode as
  2072. a standards dumping ground for assigning numbers to everybody's favorite
  2073. collection of junk vaguely related to text, or who try to infiltrate
  2074. mechanisms (such as language tags) that do not belong in plain text.
  2075.  
  2076. > So let's do our part and make some effort to accommodate traditional
  2077. > plain-text applications in Unicode, rather than discourage them :-)
  2078.  
  2079. I agree completely. An excellent example of the appropriate place for
  2080. a Unicode plain-text editor would be a Java IDE. If someone writes
  2081. a good Unicode plain-text editor for such an application, it would
  2082. have wider applicability. (I know I often use the editors of C++
  2083. IDE's to create (ASCII) plain text when I don't want it all gummed up
  2084. as a Word or Frame document.)
  2085.  
  2086. Ed Cherlin commented:
  2087.  
  2088. > We want to have a uniform, portable definition of the meaning of a file of
  2089. > 16-bit character codes interpreted as Unicode, or "Unicode text file" for
  2090. > short. At the same time, we have several uses for such files, where
  2091. > different interpretations may be desired. If we want to do this right, I
  2092. > think we have to find the appropriate organization for defining such file
  2093. > formats and uses, and get down to some serious and at times difficult
  2094. > standard making. The Unicode character code standard does not seem to be
  2095. > the right place to do this.
  2096.  
  2097. I disagree about the last point. A Unicode plain text file consists of
  2098. a stream of Unicode characters (and nothing else), interpreted according
  2099. to the Unicode standard. It should be marked with an initial U+FEFF (though
  2100. technically that is optional). This much is already clear from the standard,
  2101. as is the usage of LINE SEPARATOR and PARAGRAPH SEPARATOR for minimal,
  2102. unambiguous, plain text formatting consistent with the bidi algorithm.
  2103.  
  2104. The situation is complicated by the two possible byte orders (which is one
  2105. reason for the U+FEFF) and by the fact that the most widely implemented
  2106. variant, namely that in Windows NT, chose LSB order instead of MSB order.
  2107.  
  2108. But other than that, there is not much more to be said about a Unicode
  2109. plain text file. The usefulness of the concept lies in its simplicity.
  2110.  
  2111. --Ken Whistler
  2112.  
  2113. 20-May-97 20:29:52-GMT,4480;000000000011
  2114. Return-Path: <cherlin@cauce.org>
  2115. Received: from mtshasta.snowcrest.net (mtshasta.snowcrest.net [206.245.192.1])
  2116.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id QAA02464
  2117.     for <fdc@watsun.cc.columbia.edu>; Tue, 20 May 1997 16:29:41 -0400 (EDT)
  2118. Received: from [206.245.192.36] (ttyD23.mtshasta.snowcrest.net [206.245.192.67]) by mtshasta.snowcrest.net (8.8.5/8.6.5) with ESMTP id NAA01464; Tue, 20 May 1997 13:29:30 -0700 (PDT)
  2119. X-Sender: cherlin@snowcrest.net
  2120. Message-Id: <v03007816afa6f5e4125f@[206.245.192.36]>
  2121. In-Reply-To: <CMM.0.90.4.863970030.fdc@watsun.cc.columbia.edu>
  2122. References: Your message of Sat, 17 May 1997 14:08:43 -0700 (PDT)
  2123. Mime-Version: 1.0
  2124. Content-Type: text/plain; charset="us-ascii"
  2125. Date: Mon, 19 May 1997 23:57:56 -0700
  2126. To: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  2127. From: Edward Cherlin <cherlin@cauce.org>
  2128. Subject: Unicode plain text standard? (was Re: Line Separator Character)
  2129. Cc: unicode@Unicode.ORG
  2130.  
  2131. >Oops, never mind -- it was this:
  2132. >
  2133. >> We want to have a uniform, portable definition of the meaning of a file of
  2134. >> 16-bit character codes interpreted as Unicode, or "Unicode text file" for
  2135. >> short. At the same time, we have several uses for such files, where
  2136. >> different interpretations may be desired. If we want to do this right, I
  2137. >> think we have to find the appropriate organization for defining such file
  2138. >> formats and uses, and get down to some serious and at times difficult
  2139. >> standard making. The Unicode character code standard does not seem to be
  2140. >> the right place to do this.
  2141. >>
  2142. >I'm not sure what you're after.  I'm mainly concerned about the continued
  2143. >viability of files containing only graphic characters, spaces, line breaks,
  2144. >paragraph breaks, and formfeeds.  Plain, literal text that can contain
  2145. >poetry, tables, source code, you name it, and stays like it is.
  2146.  
  2147. I can tell you don't know what table building in Sanskrit is like, and you
  2148. don't understand BIDI direction marking.
  2149.  
  2150. >Pretty much what we have today with 7- and 8-bit plain text, except without
  2151. >the confusion over CRLF/CR/LF, etc.
  2152.  
  2153. and the utter incompatibility of the extra 128 characters in the 8-bit sets
  2154. between PC DOS, PC Windows, Mac, various Unix definitions, and all the
  2155. other extended ASCII code sets such as PC code pages and the ISO 8859
  2156. series. Files of 8-bit characters are extremely non-portable.
  2157.  
  2158. Having lived in Korea and Japan, and been a mathematician and APL
  2159. programmer, I lost all faith in ASCII long ago. It is horribly inadequate
  2160. for English, and more so for almost any other language, except for various
  2161. computer programming languages and constructed languages like Lojban, which
  2162. were deliberately built within the limits of ASCII, or in the old days
  2163. EBCDIC.
  2164.  
  2165. >I think that what's really valuable about
  2166. >these files is their self-contained and independent expressiveness -- they
  2167. >don't need a rendering engine, they don't need any special transport protocol
  2168. >-- they contain the text and the minimal control information to be transported
  2169. >and understood universally.
  2170.  
  2171. >- Frank
  2172.  
  2173. I agree on the transport protocol in principle, although today we need
  2174. UTF-7, UTF-8, and other encodings, but the idea of full Unicode text
  2175. without a rendering engine won't fly.
  2176.  
  2177. That's fine for simple alphabetic scripts, and even for Chinese and
  2178. Japanese. It doesn't work right for RTL scripts (Arabic and Hebrew),
  2179. especially for mixtures of RTL and LTR, and for scripts that combine
  2180. characters into larger groups, usually syllables. This includes Korean, all
  2181. of the Indic scripts, Tibetan, and Ethiopic. Arabic script has a very large
  2182. dependence on ligatures, some of them quite complex. There are also
  2183. problems for rendering math expressions in plain text. Then there are
  2184. various deprecated characters, the private use areas, and the surrogate
  2185. character mechanism.
  2186.  
  2187. Anyone who thought the CRLF business was bad should consider how many
  2188. incompatible choices can be made in Unicode. Yes, it is true that the Unix
  2189. file model of a sequence of uninterpreted bytes is very general, and so is
  2190. a file of uninterpreted 16-bit codes, but files have to be interpreted to
  2191. be useful. We gloss over the amount of interpretation we do on ASCII text
  2192. files, but we cannot do that with Unicode.
  2193.  
  2194. --
  2195. Edward Cherlin       Help outlaw Spam     Everything should be made
  2196. Vice President     http://www.cauce.org      as simple as possible,
  2197. NewbieNet, Inc.  1000 members and counting      __but no simpler__.
  2198. http://www.newbie.net/    17 May 97   Attributed to Albert Einstein
  2199.  
  2200.  
  2201. 20-May-97 21:39:41-GMT,7559;000000000001
  2202. Return-Path: <unicode@unicode.org>
  2203. Received: from unicode.org (unicode.org [192.195.185.2])
  2204.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id RAA20335
  2205.     for <fdc@watsun.cc.columbia.edu>; Tue, 20 May 1997 17:39:38 -0400 (EDT)
  2206. Received: by unicode.org (NX5.67g/NX3.0M)
  2207.     id AA25440; Tue, 20 May 97 13:31:38 -0700
  2208. Message-Id: <9705202031.AA25440@unicode.org>
  2209. Errors-To: uni-bounce@unicode.org
  2210. Mime-Version: 1.0
  2211. Content-Type: text/plain; charset="us-ascii"
  2212. X-Uml-Sequence: 2653 (1997-05-20 20:29:36 GMT)
  2213. To: Multiple Recipients of <unicode@unicode.org>
  2214. Reply-To: Edward Cherlin <cherlin@cauce.org>
  2215. From: "Unicode Discussion" <unicode@unicode.org>
  2216. Date: Tue, 20 May 1997 13:29:34 -0700 (PDT)
  2217. Subject: Re: Unicode plain text (Was: Line Separator Character)
  2218.  
  2219. kenw@sybase.com (Kenneth Whistler) wrote:
  2220.  
  2221. [snip]
  2222. >You can still use U+000C FORM FEED in Unicode plain text, and a renderer that
  2223. >knows about page breaks can do the "right thing", namely whatever it did with
  2224. >^L for an ASCII text. FORM FEED, like HORIZONTAL TAB, was not considered to
  2225. >be ambiguous enough in usage (unlike CR/LF) to require any separate encoding
  2226. >in Unicode.
  2227. >
  2228. >> In any case, the strong Use-A-GUI thrust of Unicode will make it
  2229. >>increasingly
  2230. >> difficult for certain kinds of people to operate in the ways to which they
  2231. >> have become accustomed over the past decades in which plain text was "good
  2232. >> enough" save that one could not put lots of languages into it.
  2233. >
  2234. >The goal of Unicode plain text is to recapture that portability in the
  2235. >encoding, but also allow you to put lots of languages into it. The "Use-A-GUI
  2236. >thrust" of Unicode acknowledges the fact that rendering of complex scripts
  2237. >(including the Latin script with generative use of combining marks) requires
  2238. >logic that is much more amenable to implementation in a GUI framework than in
  2239. >a terminal model. However, appropriate (and very large and useful) subsets of
  2240. >Unicode *can* be implemented with simple rendering models. (Cf. Windows NT
  2241. >until very recently. :-) )
  2242. >
  2243. >> I can move this letter to practically any
  2244. >> other platform and it will still be perfectly legible and printable -- no
  2245. >> export or import or conversion or version skew to worry about.  I think
  2246. >>a lot
  2247. >> of people would be perfectly happy to do the same in a plain-text Unicode
  2248. >> world using plain-text Unicode terminals and printers, if there were such
  2249. >> things.
  2250.  
  2251. The Everson Mono fonts would suit such a product admirably, up to a point.
  2252.  
  2253. >That is exactly what Unicode plain text is all about. And, by the way,
  2254. >Notepad on Windows NT was pretty close to being a "plain-text Unicode
  2255. >terminal".
  2256. >
  2257. >> The idea that one must embed Unicode in a higher level wrapper (e.g. a
  2258. >> Microsoft Word document, or even HTML) to make it useful has a certain
  2259. >> frightening consequence: the loss of any expectancy of longevity for our new
  2260. >> breed of documents.
  2261. >
  2262. >There is absolutely nothing new about this. I was warning my linguistic
  2263. >colleagues about the longevity of their documents when they started using
  2264. >WordStar back around 82/83. 7-bit ASCII is the only encoding that stayed
  2265. >stable enough and was widely enough implemented to retain easy
  2266. >transmissibility
  2267. >across the computer generations without the intervention of information
  2268. >archaeologists. Well, 16-bit Unicode plain text is aimed at no less a
  2269. >goal than being the universal wide-ASCII plain text of the 21st century.
  2270. >
  2271. [snip]
  2272. >
  2273. >> So let's do our part and make some effort to accommodate traditional
  2274. >> plain-text applications in Unicode, rather than discourage them :-)
  2275. >
  2276. >I agree completely. An excellent example of the appropriate place for
  2277. >a Unicode plain-text editor would be a Java IDE. If someone writes
  2278. >a good Unicode plain-text editor for such an application, it would
  2279. >have wider applicability. (I know I often use the editors of C++
  2280. >IDE's to create (ASCII) plain text when I don't want it all gummed up
  2281. >as a Word or Frame document.)
  2282. >
  2283. >Ed Cherlin commented:
  2284. >
  2285. >> We want to have a uniform, portable definition of the meaning of a file of
  2286. >> 16-bit character codes interpreted as Unicode, or "Unicode text file" for
  2287. >> short. At the same time, we have several uses for such files, where
  2288. >> different interpretations may be desired. If we want to do this right, I
  2289. >> think we have to find the appropriate organization for defining such file
  2290. >> formats and uses, and get down to some serious and at times difficult
  2291. >> standard making. The Unicode character code standard does not seem to be
  2292. >> the right place to do this.
  2293. >
  2294. >I disagree about the last point. A Unicode plain text file consists of
  2295. >a stream of Unicode characters (and nothing else), interpreted according
  2296. >to the Unicode standard. It should be marked with an initial U+FEFF (though
  2297. >technically that is optional). This much is already clear from the standard,
  2298. >as is the usage of LINE SEPARATOR and PARAGRAPH SEPARATOR for minimal,
  2299. >unambiguous, plain text formatting consistent with the bidi algorithm.
  2300.  
  2301. I'm not concerned about where. If the Unicode standard is an acceptable
  2302. place to do this, I'm in.
  2303.  
  2304. >The situation is complicated by the two possible byte orders (which is one
  2305. >reason for the U+FEFF) and by the fact that the most widely implemented
  2306. >variant, namely that in Windows NT, chose LSB order instead of MSB order.
  2307. >
  2308. >But other than that, there is not much more to be said about a Unicode
  2309. >plain text file. The usefulness of the concept lies in its simplicity.
  2310. >
  2311. >--Ken Whistler
  2312.  
  2313. I disagree about the simplicity of the problem. Some of the leading issues are:
  2314.  
  2315. byte order in storage and transmission
  2316. line, paragraph, and page breaks
  2317. BIDI (Hebrew, Arabic, etc.)
  2318. non-linear scripts (Indic, Korean, Mongolian, Ethiopian, etc.)
  2319. multiply accented characters (IPA, math, several human languages)
  2320. math
  2321. compatibility characters
  2322. private use characters
  2323. control codes
  2324. other deprecated characters
  2325. surrogates, especially unpaired surrogate codes
  2326. non-character values
  2327. text processing algorithms (sorting, upper and lower case, pattern matching)
  2328.  
  2329. Full portability of data requires some rules. If there is no standard,
  2330. users of "Unicode text files" will make every possible choice about each of
  2331. these issues. CRLF will be nothing in comparison. We have begun to see
  2332. programs that can handle CRLF, CR alone, and LF alone, either line-by-line
  2333. or in paragraph format, reading and writing in any option. The range of
  2334. choices for Unicode is far greater, and I don't want to think about how
  2335. long it would take to achieve unity if we don't do it now.
  2336.  
  2337. The process for dealing with byte order is fairly simple in itself, and the
  2338. standard gives clear conformance requirements. Most of the other issues I
  2339. listed have thorns, few in some cases, and many in others.
  2340.  
  2341. When I was in Korea in the 1960s, telegrams were printed linearly, so
  2342. Koreans can read this form of their script if they have to. Indic scripts,
  2343. Ethiopic, and a few others, would require special training to read as
  2344. separate elements in a straight line. Do we wish to say that users of these
  2345. scripts can't have text files? Do we say we have to come up with a suitable
  2346. rendering method for Unicode text files including full BIDI and full
  2347. character-->glyph composition? Do we say that there should be
  2348. implementation levels? None of these alternatives is quite satisfactory at
  2349. present.
  2350.  
  2351. --
  2352. Edward Cherlin       Help outlaw Spam     Everything should be made
  2353. Vice President     http://www.cauce.org      as simple as possible,
  2354. NewbieNet, Inc.  1000 members and counting      __but no simpler__.
  2355. http://www.newbie.net/    17 May 97   Attributed to Albert Einstein
  2356.  
  2357.  
  2358. 20-May-97 22:11:38-GMT,4132;000000000001
  2359. Return-Path: <unicode@unicode.org>
  2360. Received: from unicode.org (unicode.org [192.195.185.2])
  2361.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id SAA25206
  2362.     for <fdc@watsun.cc.columbia.edu>; Tue, 20 May 1997 18:11:32 -0400 (EDT)
  2363. Received: by unicode.org (NX5.67g/NX3.0M)
  2364.     id AA25784; Tue, 20 May 97 14:49:30 -0700
  2365. Message-Id: <9705202149.AA25784@unicode.org>
  2366. Errors-To: uni-bounce@unicode.org
  2367. X-Uml-Sequence: 2655 (1997-05-20 21:49:05 GMT)
  2368. To: Multiple Recipients of <unicode@unicode.org>
  2369. Reply-To: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  2370. From: "Unicode Discussion" <unicode@unicode.org>
  2371. Date: Tue, 20 May 1997 14:49:03 -0700 (PDT)
  2372. Subject: Re: Unicode plain text standard? (was Re: Line Separator Character)
  2373.  
  2374. > >I'm not sure what you're after.  I'm mainly concerned about the continued
  2375. > >viability of files containing only graphic characters, spaces, line breaks,
  2376. > >paragraph breaks, and formfeeds.  Plain, literal text that can contain
  2377. > >poetry, tables, source code, you name it, and stays like it is.
  2378. > I can tell you don't know what table building in Sanskrit is like, and you
  2379. > don't understand BIDI direction marking.
  2380. Not Sanskrit, certainly, but I know a little about Hebrew by virtue of having
  2381. devoted some time to issues of Hebrew terminal emulation in the plain-text
  2382. world, and our Kermit terminal emulators (the software we make here) are quite
  2383. popular in Israel.  But yes, one must go through more than a few contortions
  2384. on one end or the other (or both) to handle BIDI issues in the terminal/host
  2385. setting, to the extent that Hebrew is (according to my sources) hardly used at
  2386. all in email.  The contortions involve generation and interpretation of
  2387. terminal-specific escape sequences for cursor positioning, reversal of writing
  2388. direction, character insertion, etc, and of course character-set invocation
  2389. and designation, all of which obviously add up to something more than plain
  2390. text.
  2391.  
  2392. So sure, of course I agree that plain streams of text are not adequate for
  2393. writing systems that are intrinsically bidirectional (like Hebrew) or for
  2394. which correct rendering is variable and context-dependent (Indic scripts,
  2395. etc).
  2396.  
  2397. (So where, you might ask, is Hebrew terminal emulation used?  As far as I
  2398. know, the major application by far is in library information systems like
  2399. ALEPH; there are some others, like a Hebrew version of the "vi" editor and
  2400. more recently, Mule (Multilingual EMACS).  At one point some years ago I
  2401. thought (naively) that the very same mechanisms could be used for Arabic
  2402. (after all, PCs have an Arabic code page), but in practice, as far as I can
  2403. tell, no speaker of Arabic would be satisfied with a character-cell
  2404. representation of Arabic text, because of the way characters must change
  2405. shape depending on their context (as you point out), which is evidently not
  2406. an issue in Hebrew (although it might be in Yiddish).)
  2407.  
  2408. > Having lived in Korea and Japan, and been a mathematician and APL
  2409. > programmer, I lost all faith in ASCII long ago.
  2410. >
  2411. Right -- I wasn't suggesting we all revert to ASCII -- the ability to write
  2412. text in as many languages as possible is why we're here!  I am looking for the
  2413. option to extend the simplicity (and success) of ASCII to Unicode -- or at
  2414. least to the large subset of it (as Ken said) that can be used "like ASCII".
  2415. To me this means the ability to compose a plain-text message containing a
  2416. certain amount of formatting controls like line breaks, paragraph breaks, and
  2417. page breaks, that are part of the same code, and without application-specific
  2418. metacodes (SGML tags, Microsoft Word codes, etc).  Let Unicode be able to
  2419. stand on its own!  (Of course, also let it be used in other applications --
  2420. but that's not the issue.)
  2421.  
  2422. If additional considerations need to be applied to the world's more complex
  2423. scripts in order to have a standard universal representation for plain text,
  2424. to whatever extent the Unicode 2.0 standard does not already suffice, I'm all
  2425. for it.  Let's not repeat the confusing aspects of ASCII -- particularly
  2426. CRLF/CR/LF semantics, and, as Ed suggests, let's not leave room for this kind
  2427. of confusion in areas that are new to Unicode.
  2428.  
  2429. - Frank
  2430.  
  2431. 21-May-97  0:19:39-GMT,7895;000000000001
  2432. Return-Path: <unicode@unicode.org>
  2433. Received: from unicode.org (unicode.org [192.195.185.2])
  2434.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id UAA14733
  2435.     for <fdc@watsun.cc.columbia.edu>; Tue, 20 May 1997 20:19:36 -0400 (EDT)
  2436. Received: by unicode.org (NX5.67g/NX3.0M)
  2437.     id AA26328; Tue, 20 May 97 17:02:20 -0700
  2438. Message-Id: <9705210002.AA26328@unicode.org>
  2439. Errors-To: uni-bounce@unicode.org
  2440. X-Uml-Sequence: 2656 (1997-05-21 00:01:51 GMT)
  2441. To: Multiple Recipients of <unicode@unicode.org>
  2442. Reply-To: kenw@sybase.com (Kenneth Whistler)
  2443. From: "Unicode Discussion" <unicode@unicode.org>
  2444. Date: Tue, 20 May 1997 17:01:49 -0700 (PDT)
  2445. Subject: Re: Unicode plain text (Was: Line Separator Character)
  2446.  
  2447.  
  2448. I (Ken) commented:
  2449.  
  2450. >But other than that, there is not much more to be said about a Unicode
  2451. >plain text file. The usefulness of the concept lies in its simplicity.
  2452.  
  2453. And Ed Cherlin responded:
  2454.  
  2455. > I disagree about the simplicity of the problem.
  2456.  
  2457. And now I think I understand where we were miscommunicating. I was
  2458. speaking of a Unicode plain text *file*, which I thought was the
  2459. issue. And for that the issue is simple. A Unicode plain text *file*
  2460. is Unicode plain text in a file (preferably marked with U+FEFF
  2461. and in MSB byte order).
  2462.  
  2463. But what Ed is addressing here is the standardization of the meaning
  2464. of Unicode *plain text*--an issue which should be considered outside
  2465. instantiation of that plain text in transmissible computer files.
  2466. On that point I agree that there are a vast number of issues which
  2467. require specification and standardization. And I do believe that the
  2468. Unicode Standard is the correct place to address many of them. I've
  2469. made the point before that one of the big differences between ISO/IEC
  2470. 10646 and the Unicode Standard is that 10646 standardizes the encodings
  2471. and names of the characters, but that the Unicode Standard goes way
  2472. beyond that and attempts to provide enough information (some
  2473. normative and some informative) to enable meaningful and transmissible
  2474. implementations of Unicode plain text.
  2475.  
  2476. Below is Ed's list of leading issues. I've interspersed my comments
  2477. indicating what I think the current Unicode Standard's take is on
  2478. many of them. (Others may disagree, or may feel that things which
  2479. are not covered should be.)
  2480.  
  2481. > Some of the leading issues are:
  2482. > byte order in storage and transmission
  2483.  
  2484. Byte order is addressed by the Unicode Standard.
  2485.  
  2486. > line, paragraph, and page breaks
  2487.  
  2488. The Unicode Standard specifies LINE SEPARATOR and PARAGRAPH SEPARATOR,
  2489. but considers page break to be out of scope.
  2490.  
  2491. > BIDI (Hebrew, Arabic, etc.)
  2492.  
  2493. The normative bidi algorithm is specified in great detail in
  2494. the Unicode Standard.
  2495.  
  2496. > non-linear scripts (Indic, Korean, Mongolian, Ethiopian, etc.)
  2497.  
  2498. The Unicode Standard considers specification of script behavior to
  2499. be part of the desired content of the standard. It doesn't do an
  2500. equally detailed accounting of all cases, mostly due to resource
  2501. and information constraints. But Devanagari and Tamil script
  2502. handling are provided in significant detail as a guide to Indian
  2503. script behavior, and there is an extensive discussion of Arabic
  2504. script shaping behavior. There is a specification
  2505. of normative behavior for Hangul combining jamo. If we could get
  2506. equally detailed expert contributions for each complex script,
  2507. I expect the inclination of the UTC and the editors would be to
  2508. include them in the standard, for everybody's benefit.
  2509.  
  2510. > multiply accented characters (IPA, math, several human languages)
  2511.  
  2512. This is considered an integral part of the Unicode Standard, and
  2513. is detailed with both normative and informative sections.
  2514.  
  2515. > math
  2516.  
  2517. There is a definite gap here, though the topic has been a continuing
  2518. one for the UTC. The consensus seems to be that we would like to
  2519. get a consistent model of plain text math formula construction
  2520. stated, to make such information exchangeable in Unicode plain text.
  2521.  
  2522. > compatibility characters
  2523.  
  2524. These are now completely specified in the Unicode Standard names list.
  2525.  
  2526. > private use characters
  2527.  
  2528. Also specified by the standard, although the interpretation of
  2529. particular usages of private use characters is, by definition, out
  2530. of scope for the standard. But there has been some effort by people
  2531. to make available specifications of their particular private or
  2532. corporate private usage repertoires of private use characters.
  2533.  
  2534. > control codes
  2535.  
  2536. If you mean by this, U+0000 .. U+001F, U+0080..U+009F and the
  2537. control chimera U+007F, then the Unicode Standard does provide
  2538. a answer. It doesn't try to reinvent control function standards,
  2539. but it says those characters should be interpreted as if they
  2540. were 16-bit analogues of the 8-bit encodings of the corresponding
  2541. control functions. Maybe unsatisfying, but probably the best we
  2542. can expect, given existing control code usage.
  2543.  
  2544. > other deprecated characters
  2545.  
  2546. There may be room for improvement here, but the Unicode Standard
  2547. has had to tread a little carefully here. There are political
  2548. consequences in crying out too loudly that xyz are *deprecated*
  2549. when xyz may be somebody else's favorite set they lobbied hard
  2550. to get in!
  2551.  
  2552. > surrogates, especially unpaired surrogate codes
  2553.  
  2554. Surrogate usage (in general, as opposed to particular encodings
  2555. for surrogate pairs, none of which exist yet) is fully specified
  2556. by the Unicode Standard.
  2557.  
  2558. > non-character values
  2559.  
  2560. As opposed to unassigned character values, there are only two
  2561. non-character values in Unicode: 0xFFFE and 0xFFFF. The standard
  2562. specifies that 0xFFFE is the illegal byte-swapped version of
  2563. U+FEFF. The use of 0xFFFF is deliberately unspecified and is
  2564. untransmissible by design.
  2565.  
  2566. > text processing algorithms (sorting, upper and lower case, pattern matching)
  2567.  
  2568. Default case mapping is provided as an informative part of the
  2569. Unicode Standard. Language-specific casing is effectively also
  2570. a part of the standard, since everybody knows the few instances
  2571. in question: Turkish i, the debatable French accents, German á▀, etc.,
  2572. and they are discussed in the standard.
  2573.  
  2574. Beyond that, sorting, pattern matching, etc. are out of scope of
  2575. the Unicode Standard (though some implementation guidelines are
  2576. provided), and, in my opinion, appropriately belong to other standards
  2577. under development.
  2578.  
  2579. > Full portability of data requires some rules. If there is no standard,
  2580. > users of "Unicode text files" will make every possible choice about each of
  2581. > these issues. CRLF will be nothing in comparison. We have begun to see
  2582. > programs that can handle CRLF, CR alone, and LF alone, either line-by-line
  2583. > or in paragraph format, reading and writing in any option. The range of
  2584. > choices for Unicode is far greater, and I don't want to think about how
  2585. > long it would take to achieve unity if we don't do it now.
  2586.  
  2587. Yes, but... The goal is interchangeable plain text that is legible
  2588. when interpreted and rendered in accord with the standard. The goal
  2589. is not to force everyone to "spell" multilingual text exactly the
  2590. same way. The drafters of the Unicode Standard tried to place normative
  2591. requirements on plain text where failure to do so would lead to
  2592. complete chaos. Obvious examples are specification that combining
  2593. marks must follow (not precede) their base character, and specification
  2594. of the complete bidi algorithm. Failure to specify either of these
  2595. would clearly have led to uninterpretable gibberish if everyone
  2596. made up their own rules, and that was clearly understood by the
  2597. members of the Unicode Technical Committee.
  2598.  
  2599. But one draws the line somewhere. No one wants to legislate against
  2600. people, for example, making cross-linguistic puns in text by
  2601. spelling out Russian words with Latin letters, or any other
  2602. "inappropriate" or creative usage of the characters at
  2603. their disposal, once Unicode implementations become more widely
  2604. available. Half the joy of having universal multilingual text
  2605. implemented on computers will be seeing what creative and fantastic
  2606. new inventions millions of users put it to.
  2607.  
  2608. --Ken Whistler
  2609.  
  2610. 21-May-97  1:32:55-GMT,2729;000000000001
  2611. Return-Path: <unicode@unicode.org>
  2612. Received: from unicode.org (unicode.org [192.195.185.2])
  2613.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id VAA24596
  2614.     for <fdc@watsun.cc.columbia.edu>; Tue, 20 May 1997 21:32:53 -0400 (EDT)
  2615. Received: by unicode.org (NX5.67g/NX3.0M)
  2616.     id AA26556; Tue, 20 May 97 18:14:20 -0700
  2617. Message-Id: <9705210114.AA26556@unicode.org>
  2618. Errors-To: uni-bounce@unicode.org
  2619. Mime-Version: 1.0
  2620. Content-Type: text/plain; charset=ISO-8859-1
  2621. X-Uml-Sequence: 2657 (1997-05-21 01:13:31 GMT)
  2622. To: Multiple Recipients of <unicode@unicode.org>
  2623. Reply-To: clarkcb@corp.sykes.com
  2624. From: "Unicode Discussion" <unicode@unicode.org>
  2625. Date: Tue, 20 May 1997 18:13:29 -0700 (PDT)
  2626. Subject: Unicode Plain Text
  2627. Content-Transfer-Encoding: 8bit
  2628. X-MIME-Autoconverted: from quoted-printable to 8bit by watsun.cc.columbia.edu id VAA24596
  2629.  
  2630. I'm a little confused by this recent thread.  I get the feeling that some 
  2631. people think Unicode needs additional features to be useable, whereas I 
  2632. think that the necessary features need to be present in Unicode-supporting 
  2633. applications and fonts.  Maybe I'm misunderstanding, but I'll continue 
  2634. anyway.
  2635.  
  2636. I think maybe the problem is that the definition of "plain text" needs some 
  2637. refining with respect to Unicode.  To me, a Unicode plain text file would 
  2638. contain ANY Unicode character.  It would be the writer's responsibility 
  2639. (together with an input editor, perhaps) to make sure the file contained the 
  2640. minimum necessary information to render correctly, eg. proper placement of 
  2641. directional indicators, etc., and it would in turn be the application's 
  2642. responsibility to render the file in a readable fashion, given the 
  2643. information contained in the file.  Keep in mind that even 7-bit ASCII text 
  2644. still must be "rendered" by an editor on the screen.  Also, keep in mind 
  2645. that, according to the Unicode Standard, compliance does not necessarily 
  2646. mean full support.  An application might not have bidirectional rendering 
  2647. capabilities, but that does not mean that a Unicode file with a mixture or 
  2648. English and Hebrew/Arabic with directional indicators is not a plain text 
  2649. file.
  2650.  
  2651. What makes a plain text file different from any other electronic document, 
  2652. in my opinion, is the lack vs. the presence of "style" information, such as 
  2653. font, font size, margins, etc., and additionally, in the case of SGML 
  2654. instances, procedural markup.
  2655.  
  2656. As for usage standards, such as CRLF vs. CR vs. LF vs. LS vs. PS, etc., we 
  2657. have two options:
  2658. 1.  agree on definitive standards now, and support nothing but, or
  2659. 2.  support everything
  2660. Now, I have done enough programming to know that supporting more means more 
  2661. headaches, but I still feel that the second option is the better one at this 
  2662. time.  Feedback?
  2663.  
  2664. Cary
  2665.  
  2666. 21-May-97 19:00:12-GMT,5614;000000000001
  2667. Return-Path: <unicode@unicode.org>
  2668. Received: from unicode.org (unicode.org [192.195.185.2])
  2669.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id OAA04479
  2670.     for <fdc@watsun.cc.columbia.edu>; Wed, 21 May 1997 14:59:51 -0400 (EDT)
  2671. Received: by unicode.org (NX5.67g/NX3.0M)
  2672.     id AA29248; Wed, 21 May 97 11:11:19 -0700
  2673. Message-Id: <9705211811.AA29248@unicode.org>
  2674. Errors-To: uni-bounce@unicode.org
  2675. X-Uml-Sequence: 2661 (1997-05-21 18:10:29 GMT)
  2676. To: Multiple Recipients of <unicode@unicode.org>
  2677. Reply-To: "Pierre Lewis" <lew@nortel.ca>
  2678. From: "Unicode Discussion" <unicode@unicode.org>
  2679. Date: Wed, 21 May 1997 11:10:27 -0700 (PDT)
  2680. Subject: Re: Unicode plain-text file
  2681.  
  2682. Doug/Mark,
  2683. Thanks a lot for your answers. They clarify a lot of things.
  2684.  
  2685. > ** This is not consistent with the output on your web page.  To force the
  2686. > ** date to be formatted left to right assuming this logical order, you'd
  2687. > ** need to force all date characters to L.  This can be done either using an LRM
  2688. > ** before the first Roman digit, if the digits are roman, or by surrounding
  2689. > ** the date with LRO..PDF, if the digits are arabic-indic.  Note that LRE
  2690. > ** won't work because the reverse solidus, being between two AN, would
  2691. > ** still convert to R, instead of L as desired.
  2692.  
  2693. I finally had a chance to chat with my Arab friend to whom I owe this
  2694. short fragment. It is visually correct (on GIF/PS), but my logical
  2695. ordering was worng. The logical order is 10\3\90. So it seems that
  2696. things should automatically fall into place with no extra markup.
  2697.  
  2698. It is a reverse solidus. The digits are arabic-indic (U+066x).
  2699. So the reverse solidus, an ON, stays R as needed by virtue of the ANs
  2700. being treated as Rs for the purpose of resolving neutrals. Not simple,
  2701. but effective. That section of the standard really requires careful
  2702. reading and exploring :-).
  2703.  
  2704. >    ...                  So in line 2, the level wouldn't change simply
  2705. > ** because of a switch from English to German, since the German
  2706. > ** characters would be L.  Only LRE or LRO would do that.  Since you
  2707. > ** don't indicate strong formatting characters, I'd have to assume they
  2708. > ** were present to force the levels you indicate.
  2709.  
  2710. The levels as shown are what I believe(d) they should be. I didn't
  2711. include the required BIDI markup, but would assume that the application
  2712. that outputs the file for this text would include whatever is necessary
  2713. to achieve this result. So you assumed correctly.
  2714.  
  2715. > @@ The standard is pretty clear. Most of those opinions are from people
  2716. > @@ who have not read it. Think of these characters in terms of what you
  2717. > @@ use in a word processor.
  2718. > @@ For Microsoft word or FrontPage, think of LS as the
  2719. > @@ character that you get with shift-Return
  2720. > @@ (causing no paragraph spacing or indent),
  2721. > @@ and PS as what you get with Return.
  2722. > @@ (on the Mac, this would be option-Return).
  2723.  
  2724. Thinking in terms of a word processor is what I'm trying to get away
  2725. from, because it's not really open. (And I live on Unix :-))
  2726.  
  2727. When I open up a file using vi on Unix, I can't tell if this file was
  2728. created with vi, emacs, pine, ed, sed, awk or whatever. There are still
  2729. issues (CR/LF/CRLF, TAB, FF placement, top 128 codes) with plain-text
  2730. ASCII files, but still, it is a very useful concept. Imagine if I had
  2731. to open mail from user A with vi, from user B with emacs, from user C
  2732. with pine because that's what each used to write to me. It would be
  2733. chaos.
  2734.  
  2735. Unfortunately, if we can't agree on some conventions for plain-text
  2736. Unicode files, we're going to get into this situation to some extent.
  2737. Right now, if I want to be as flexible as possible (in an editor, say),
  2738. I have to deal with 4 new-line conventions (maybe 5): CR, LF, CRLF, LS,
  2739. maybe NL. I have to deal with various placements of FFs. And I may have
  2740. to deal with various uses and misuses of some of the new codes.
  2741.  
  2742. > ** This is a good observation!  We believe the current standard is in
  2743. > ** error and should categorize LS as whitespace instead of as a block
  2744. > ** separator.
  2745.  
  2746. I'll consider it changed.
  2747.  
  2748. > ** That said, the explicit formatting codes are basically intended for static
  2749. > ** text interchange only.  They pose several problems for editing.  One is that it
  2750. > ** is easy to radically alter the text by inserting, copying, or deleting
  2751.  
  2752. I wouldn't let a user directly input/modify BIDI markup! Rather I'd have
  2753. him/her tell the editor what a piece of text should look like, then let
  2754. the editor issue whatever markup is required to achieve this at the time
  2755. the file is written out.
  2756.  
  2757. > ** FF is higher-level formatting, you'd have to interpret it separately.
  2758. > @@ In particular, you would definitely interpret it as a block separator.
  2759.  
  2760. That's one area where I'd love more guidance from Unicode. FF is, I think,
  2761. a reasonable requirement for plain-text files, so I would have liked
  2762. Unicode to tell me more about it, or provide a PAS -- page separator.
  2763.  
  2764. Pierre
  2765. lew@nortel.ca
  2766.  
  2767.  
  2768. P.S.1. I was shocked, when I visited the IUC10 Web site, to find HTML
  2769. pages in Unicode, but no plain-text files. Yes, let Unicode be able to
  2770. stand on its own (as fdc@watsun.cc.columbia.edu writes)!
  2771.  
  2772. P.S.2. Btw, one thing I love about "plain-text" files is that they have
  2773. the best chances of surviving. If I write stuff today that my 3-year
  2774. old will want to read when he turns 33, my only choice is plain text.
  2775. To write for him in French, plain-text ASCII (with the Latin1
  2776. assumption) is just fine. But if I wanted to add some notes in Greek,
  2777. Russian or Yiddish, I need more than just the ASCII conventions and
  2778. Latin1 codepage.
  2779.  
  2780. P.S.3. Someone in this thread stated that LF was a paragraph separator
  2781. in Unix. I see it as a line separator.
  2782.  
  2783. 22-May-97  8:33:13-GMT,1687;000000000001
  2784. Return-Path: <unicode@unicode.org>
  2785. Received: from unicode.org (unicode.org [192.195.185.2])
  2786.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id EAA13940
  2787.     for <fdc@watsun.cc.columbia.edu>; Thu, 22 May 1997 04:33:12 -0400 (EDT)
  2788. Received: by unicode.org (NX5.67g/NX3.0M)
  2789.     id AA01595; Thu, 22 May 97 01:07:55 -0700
  2790. Message-Id: <9705220807.AA01595@unicode.org>
  2791. Errors-To: uni-bounce@unicode.org
  2792. Mime-Version: 1.0
  2793. Content-Type: text/plain; charset="us-ascii"
  2794. X-Uml-Sequence: 2666 (1997-05-22 08:07:03 GMT)
  2795. To: Multiple Recipients of <unicode@unicode.org>
  2796. Reply-To: Edward Cherlin <cherlin@cauce.org>
  2797. From: "Unicode Discussion" <unicode@unicode.org>
  2798. Date: Thu, 22 May 1997 01:06:53 -0700 (PDT)
  2799. Subject: Re: Unicode plain-text file
  2800.  
  2801.  
  2802. >> ** FF is higher-level formatting, you'd have to interpret it separately.
  2803. >> @@ In particular, you would definitely interpret it as a block separator.
  2804.  
  2805. No, no, please, no! Whitespace, please, or some new category. FF can come
  2806. in the middle of a paragraph, or a sentence, or even a word.
  2807.  
  2808.  
  2809. >That's one area where I'd love more guidance from Unicode. FF is, I think,
  2810. >a reasonable requirement for plain-text files, so I would have liked
  2811. >Unicode to tell me more about it, or provide a PAS -- page separator.
  2812.  
  2813.  
  2814. >P.S.3. Someone in this thread stated that LF was a paragraph separator
  2815. >in Unix. I see it as a line separator.
  2816.  
  2817. Another good example of the confusion we need to prevent.
  2818.  
  2819. --
  2820. Edward Cherlin       Help outlaw Spam     Everything should be made
  2821. Vice President     http://www.cauce.org      as simple as possible,
  2822. NewbieNet, Inc.  1000 members and counting      __but no simpler__.
  2823. http://www.newbie.net/    17 May 97   Attributed to Albert Einstein
  2824.  
  2825.  
  2826. 22-May-97  9:31:20-GMT,4440;000000000001
  2827. Return-Path: <unicode@unicode.org>
  2828. Received: from unicode.org (unicode.org [192.195.185.2])
  2829.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id FAA19614
  2830.     for <fdc@watsun.cc.columbia.edu>; Thu, 22 May 1997 05:31:18 -0400 (EDT)
  2831. Received: by unicode.org (NX5.67g/NX3.0M)
  2832.     id AA01475; Thu, 22 May 97 01:04:38 -0700
  2833. Message-Id: <9705220804.AA01475@unicode.org>
  2834. Errors-To: uni-bounce@unicode.org
  2835. Mime-Version: 1.0
  2836. Content-Type: text/plain; charset="us-ascii"
  2837. X-Uml-Sequence: 2663 (1997-05-22 08:03:46 GMT)
  2838. To: Multiple Recipients of <unicode@unicode.org>
  2839. Reply-To: Edward Cherlin <cherlin@cauce.org>
  2840. From: "Unicode Discussion" <unicode@unicode.org>
  2841. Date: Thu, 22 May 1997 01:03:44 -0700 (PDT)
  2842. Subject: Unicode plain text standard? (was Re: Line Separator Character)
  2843.  
  2844. >Oops, never mind -- it was this:
  2845. >
  2846. >> We want to have a uniform, portable definition of the meaning of a file of
  2847. >> 16-bit character codes interpreted as Unicode, or "Unicode text file" for
  2848. >> short. At the same time, we have several uses for such files, where
  2849. >> different interpretations may be desired. If we want to do this right, I
  2850. >> think we have to find the appropriate organization for defining such file
  2851. >> formats and uses, and get down to some serious and at times difficult
  2852. >> standard making. The Unicode character code standard does not seem to be
  2853. >> the right place to do this.
  2854. >>
  2855. >I'm not sure what you're after.  I'm mainly concerned about the continued
  2856. >viability of files containing only graphic characters, spaces, line breaks,
  2857. >paragraph breaks, and formfeeds.  Plain, literal text that can contain
  2858. >poetry, tables, source code, you name it, and stays like it is.
  2859.  
  2860. I can tell you don't know what table building in Sanskrit is like, and you
  2861. don't understand BIDI direction marking.
  2862.  
  2863. >Pretty much what we have today with 7- and 8-bit plain text, except without
  2864. >the confusion over CRLF/CR/LF, etc.
  2865.  
  2866. and the utter incompatibility of the extra 128 characters in the 8-bit sets
  2867. between PC DOS, PC Windows, Mac, various Unix definitions, and all the
  2868. other extended ASCII code sets such as PC code pages and the ISO 8859
  2869. series. Files of 8-bit characters are extremely non-portable.
  2870.  
  2871. Having lived in Korea and Japan, and been a mathematician and APL
  2872. programmer, I lost all faith in ASCII long ago. It is horribly inadequate
  2873. for English, and more so for almost any other language, except for various
  2874. computer programming languages and constructed languages like Lojban, which
  2875. were deliberately built within the limits of ASCII, or in the old days
  2876. EBCDIC.
  2877.  
  2878. >I think that what's really valuable about
  2879. >these files is their self-contained and independent expressiveness -- they
  2880. >don't need a rendering engine, they don't need any special transport protocol
  2881. >-- they contain the text and the minimal control information to be transported
  2882. >and understood universally.
  2883.  
  2884. >- Frank
  2885.  
  2886. I agree on the transport protocol in principle, although today we need
  2887. UTF-7, UTF-8, and other encodings, but the idea of full Unicode text
  2888. without a rendering engine won't fly.
  2889.  
  2890. That's fine for simple alphabetic scripts, and even for Chinese and
  2891. Japanese. It doesn't work right for RTL scripts (Arabic and Hebrew),
  2892. especially for mixtures of RTL and LTR, and for scripts that combine
  2893. characters into larger groups, usually syllables. This includes Korean, all
  2894. of the Indic scripts, Tibetan, and Ethiopic. Arabic script has a very large
  2895. dependence on ligatures, some of them quite complex. There are also
  2896. problems for rendering math expressions in plain text. Then there are
  2897. various deprecated characters, the private use areas, and the surrogate
  2898. character mechanism.
  2899.  
  2900. Anyone who thought the CRLF business was bad should consider how many
  2901. incompatible choices can be made in Unicode. Yes, it is true that the Unix
  2902. file model of a sequence of uninterpreted bytes is very general, and so is
  2903. a file of uninterpreted 16-bit codes, but files have to be interpreted to
  2904. be useful. We gloss over the amount of interpretation we do on ASCII text
  2905. files, but we cannot do that with Unicode.
  2906.  
  2907. --
  2908. Edward Cherlin       Help outlaw Spam     Everything should be made
  2909. Vice President     http://www.cauce.org      as simple as possible,
  2910. NewbieNet, Inc.  1000 members and counting      __but no simpler__.
  2911. http://www.newbie.net/    17 May 97   Attributed to Albert Einstein
  2912.  
  2913.  
  2914. Ed Cherlin    cherlin@cauce.org
  2915. Support the anti-Spam amendment
  2916. Text at <http://www.cauce.org/>
  2917. Free signature--Inquire within.
  2918.  
  2919.  
  2920. 22-May-97 10:02:07-GMT,7689;000000000001
  2921. Return-Path: <unicode@unicode.org>
  2922. Received: from unicode.org (unicode.org [192.195.185.2])
  2923.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id GAA23212
  2924.     for <fdc@watsun.cc.columbia.edu>; Thu, 22 May 1997 06:02:05 -0400 (EDT)
  2925. Received: by unicode.org (NX5.67g/NX3.0M)
  2926.     id AA01479; Thu, 22 May 97 01:04:41 -0700
  2927. Message-Id: <9705220804.AA01479@unicode.org>
  2928. Errors-To: uni-bounce@unicode.org
  2929. Mime-Version: 1.0
  2930. Content-Type: text/plain; charset="us-ascii"
  2931. X-Uml-Sequence: 2664 (1997-05-22 08:04:06 GMT)
  2932. To: Multiple Recipients of <unicode@unicode.org>
  2933. Reply-To: Edward Cherlin <cherlin@cauce.org>
  2934. From: "Unicode Discussion" <unicode@unicode.org>
  2935. Date: Thu, 22 May 1997 01:04:05 -0700 (PDT)
  2936. Subject: Re: Unicode plain text (Was: Line Separator Character)
  2937.  
  2938. kenw@sybase.com (Kenneth Whistler) wrote:
  2939.  
  2940. [snip]
  2941. >You can still use U+000C FORM FEED in Unicode plain text, and a renderer that
  2942. >knows about page breaks can do the "right thing", namely whatever it did with
  2943. >^L for an ASCII text. FORM FEED, like HORIZONTAL TAB, was not considered to
  2944. >be ambiguous enough in usage (unlike CR/LF) to require any separate encoding
  2945. >in Unicode.
  2946. >
  2947. >> In any case, the strong Use-A-GUI thrust of Unicode will make it
  2948. >>increasingly
  2949. >> difficult for certain kinds of people to operate in the ways to which they
  2950. >> have become accustomed over the past decades in which plain text was "good
  2951. >> enough" save that one could not put lots of languages into it.
  2952. >
  2953. >The goal of Unicode plain text is to recapture that portability in the
  2954. >encoding, but also allow you to put lots of languages into it. The "Use-A-GUI
  2955. >thrust" of Unicode acknowledges the fact that rendering of complex scripts
  2956. >(including the Latin script with generative use of combining marks) requires
  2957. >logic that is much more amenable to implementation in a GUI framework than in
  2958. >a terminal model. However, appropriate (and very large and useful) subsets of
  2959. >Unicode *can* be implemented with simple rendering models. (Cf. Windows NT
  2960. >until very recently. :-) )
  2961. >
  2962. >> I can move this letter to practically any
  2963. >> other platform and it will still be perfectly legible and printable -- no
  2964. >> export or import or conversion or version skew to worry about.  I think
  2965. >>a lot
  2966. >> of people would be perfectly happy to do the same in a plain-text Unicode
  2967. >> world using plain-text Unicode terminals and printers, if there were such
  2968. >> things.
  2969.  
  2970. The Everson Mono fonts would suit such a product admirably, up to a point.
  2971.  
  2972. >That is exactly what Unicode plain text is all about. And, by the way,
  2973. >Notepad on Windows NT was pretty close to being a "plain-text Unicode
  2974. >terminal".
  2975. >
  2976. >> The idea that one must embed Unicode in a higher level wrapper (e.g. a
  2977. >> Microsoft Word document, or even HTML) to make it useful has a certain
  2978. >> frightening consequence: the loss of any expectancy of longevity for our new
  2979. >> breed of documents.
  2980. >
  2981. >There is absolutely nothing new about this. I was warning my linguistic
  2982. >colleagues about the longevity of their documents when they started using
  2983. >WordStar back around 82/83. 7-bit ASCII is the only encoding that stayed
  2984. >stable enough and was widely enough implemented to retain easy
  2985. >transmissibility
  2986. >across the computer generations without the intervention of information
  2987. >archaeologists. Well, 16-bit Unicode plain text is aimed at no less a
  2988. >goal than being the universal wide-ASCII plain text of the 21st century.
  2989. >
  2990. [snip]
  2991. >
  2992. >> So let's do our part and make some effort to accommodate traditional
  2993. >> plain-text applications in Unicode, rather than discourage them :-)
  2994. >
  2995. >I agree completely. An excellent example of the appropriate place for
  2996. >a Unicode plain-text editor would be a Java IDE. If someone writes
  2997. >a good Unicode plain-text editor for such an application, it would
  2998. >have wider applicability. (I know I often use the editors of C++
  2999. >IDE's to create (ASCII) plain text when I don't want it all gummed up
  3000. >as a Word or Frame document.)
  3001. >
  3002. >Ed Cherlin commented:
  3003. >
  3004. >> We want to have a uniform, portable definition of the meaning of a file of
  3005. >> 16-bit character codes interpreted as Unicode, or "Unicode text file" for
  3006. >> short. At the same time, we have several uses for such files, where
  3007. >> different interpretations may be desired. If we want to do this right, I
  3008. >> think we have to find the appropriate organization for defining such file
  3009. >> formats and uses, and get down to some serious and at times difficult
  3010. >> standard making. The Unicode character code standard does not seem to be
  3011. >> the right place to do this.
  3012. >
  3013. >I disagree about the last point. A Unicode plain text file consists of
  3014. >a stream of Unicode characters (and nothing else), interpreted according
  3015. >to the Unicode standard. It should be marked with an initial U+FEFF (though
  3016. >technically that is optional). This much is already clear from the standard,
  3017. >as is the usage of LINE SEPARATOR and PARAGRAPH SEPARATOR for minimal,
  3018. >unambiguous, plain text formatting consistent with the bidi algorithm.
  3019.  
  3020. I'm not concerned about where. If the Unicode standard is an acceptable
  3021. place to do this, I'm in.
  3022.  
  3023. >The situation is complicated by the two possible byte orders (which is one
  3024. >reason for the U+FEFF) and by the fact that the most widely implemented
  3025. >variant, namely that in Windows NT, chose LSB order instead of MSB order.
  3026. >
  3027. >But other than that, there is not much more to be said about a Unicode
  3028. >plain text file. The usefulness of the concept lies in its simplicity.
  3029. >
  3030. >--Ken Whistler
  3031.  
  3032. I disagree about the simplicity of the problem. Some of the leading issues are:
  3033.  
  3034. byte order in storage and transmission
  3035. line, paragraph, and page breaks
  3036. BIDI (Hebrew, Arabic, etc.)
  3037. non-linear scripts (Indic, Korean, Mongolian, Ethiopian, etc.)
  3038. multiply accented characters (IPA, math, several human languages)
  3039. math
  3040. compatibility characters
  3041. private use characters
  3042. control codes
  3043. other deprecated characters
  3044. surrogates, especially unpaired surrogate codes
  3045. non-character values
  3046. text processing algorithms (sorting, upper and lower case, pattern matching)
  3047.  
  3048. Full portability of data requires some rules. If there is no standard,
  3049. users of "Unicode text files" will make every possible choice about each of
  3050. these issues. CRLF will be nothing in comparison. We have begun to see
  3051. programs that can handle CRLF, CR alone, and LF alone, either line-by-line
  3052. or in paragraph format, reading and writing in any option. The range of
  3053. choices for Unicode is far greater, and I don't want to think about how
  3054. long it would take to achieve unity if we don't do it now.
  3055.  
  3056. The process for dealing with byte order is fairly simple in itself, and the
  3057. standard gives clear conformance requirements. Most of the other issues I
  3058. listed have thorns, few in some cases, and many in others.
  3059.  
  3060. When I was in Korea in the 1960s, telegrams were printed linearly, so
  3061. Koreans can read this form of their script if they have to. Indic scripts,
  3062. Ethiopic, and a few others, would require special training to read as
  3063. separate elements in a straight line. Do we wish to say that users of these
  3064. scripts can't have text files? Do we say we have to come up with a suitable
  3065. rendering method for Unicode text files including full BIDI and full
  3066. character-->glyph composition? Do we say that there should be
  3067. implementation levels? None of these alternatives is quite satisfactory at
  3068. present.
  3069.  
  3070. --
  3071. Edward Cherlin       Help outlaw Spam     Everything should be made
  3072. Vice President     http://www.cauce.org      as simple as possible,
  3073. NewbieNet, Inc.  1000 members and counting      __but no simpler__.
  3074. http://www.newbie.net/    17 May 97   Attributed to Albert Einstein
  3075.  
  3076.  
  3077. Ed Cherlin    cherlin@cauce.org
  3078. Support the anti-Spam amendment
  3079. Text at <http://www.cauce.org/>
  3080. Free signature--Inquire within.
  3081.  
  3082.  
  3083. 22-May-97 10:24:51-GMT,10338;000000000001
  3084. Return-Path: <unicode@unicode.org>
  3085. Received: from unicode.org (unicode.org [192.195.185.2])
  3086.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id GAA26796
  3087.     for <fdc@watsun.cc.columbia.edu>; Thu, 22 May 1997 06:24:49 -0400 (EDT)
  3088. Received: by unicode.org (NX5.67g/NX3.0M)
  3089.     id AA01571; Thu, 22 May 97 01:07:10 -0700
  3090. Message-Id: <9705220807.AA01571@unicode.org>
  3091. Errors-To: uni-bounce@unicode.org
  3092. Mime-Version: 1.0
  3093. Content-Type: text/plain; charset="iso-8859-1"
  3094. X-Uml-Sequence: 2665 (1997-05-22 08:06:33 GMT)
  3095. To: Multiple Recipients of <unicode@unicode.org>
  3096. Reply-To: Edward Cherlin <cherlin@cauce.org>
  3097. From: "Unicode Discussion" <unicode@unicode.org>
  3098. Date: Thu, 22 May 1997 01:06:32 -0700 (PDT)
  3099. Subject: Re: Unicode plain text (Was: Line Separator Character)
  3100. Content-Transfer-Encoding: 8bit
  3101. X-MIME-Autoconverted: from quoted-printable to 8bit by watsun.cc.columbia.edu id GAA26796
  3102.  
  3103. kenw@sybase.com (Kenneth Whistler), commenting on my previous message, did
  3104. an admirable job of summarizing the state of the problem of Unicode plain
  3105. text in terms of what the Unicode standard does and does not cover, and the
  3106. fact that a standard for use of such files must address many more issues. I
  3107. (Ed) agree with his summary entirely. My added comments here address the
  3108. issues of function of editors and renderers.
  3109.  
  3110.  
  3111. >I (Ken) commented:
  3112. >
  3113. >>But other than that, there is not much more to be said about a Unicode
  3114. >>plain text file. The usefulness of the concept lies in its simplicity.
  3115. >
  3116. >And Ed Cherlin responded:
  3117. >
  3118. >>
  3119. >> I disagree about the simplicity of the problem.
  3120. >
  3121. >And now I think I understand where we were miscommunicating. I was
  3122. >speaking of a Unicode plain text *file*, which I thought was the
  3123. >issue. And for that the issue is simple. A Unicode plain text *file*
  3124. >is Unicode plain text in a file (preferably marked with U+FEFF
  3125. >and in MSB byte order).
  3126. >
  3127. >But what Ed is addressing here is the standardization of the meaning
  3128. >of Unicode *plain text*--an issue which should be considered outside
  3129. >instantiation of that plain text in transmissible computer files.
  3130. >On that point I agree that there are a vast number of issues which
  3131. >require specification and standardization. And I do believe that the
  3132. >Unicode Standard is the correct place to address many of them. I've
  3133. >made the point before that one of the big differences between ISO/IEC
  3134. >10646 and the Unicode Standard is that 10646 standardizes the encodings
  3135. >and names of the characters, but that the Unicode Standard goes way
  3136. >beyond that and attempts to provide enough information (some
  3137. >normative and some informative) to enable meaningful and transmissible
  3138. >implementations of Unicode plain text.
  3139. >
  3140. >Below is Ed's list of leading issues. I've interspersed my comments
  3141. >indicating what I think the current Unicode Standard's take is on
  3142. >many of them. (Others may disagree, or may feel that things which
  3143. >are not covered should be.)
  3144. >
  3145. >> Some of the leading issues are:
  3146.  
  3147.  
  3148. >> byte order in storage and transmission
  3149. >
  3150. >Byte order is addressed by the Unicode Standard.
  3151.  
  3152. No problem there. We might want to go further and *require* a byte order mark.
  3153.  
  3154.  
  3155. >> line, paragraph, and page breaks
  3156. >
  3157. >The Unicode Standard specifies LINE SEPARATOR and PARAGRAPH SEPARATOR,
  3158. >but considers page break to be out of scope.
  3159.  
  3160. That would have to be addressed, because it will be used.
  3161.  
  3162.  
  3163. >> BIDI (Hebrew, Arabic, etc.)
  3164. >
  3165. >The normative bidi algorithm is specified in great detail in
  3166. >the Unicode Standard.
  3167.  
  3168. So Unicode text editors should be required to implement it correctly, if
  3169. they handle BIDI at all.
  3170.  
  3171.  
  3172. >> non-linear scripts (Indic, Korean, Mongolian, Ethiopian, etc.)
  3173. >
  3174. >The Unicode Standard considers specification of script behavior to
  3175. >be part of the desired content of the standard. It doesn't do an
  3176. >equally detailed accounting of all cases, mostly due to resource
  3177. >and information constraints. But Devanagari and Tamil script
  3178. >handling are provided in significant detail as a guide to Indian
  3179. >script behavior, and there is an extensive discussion of Arabic
  3180. >script shaping behavior. There is a specification
  3181. >of normative behavior for Hangul combining jamo. If we could get
  3182. >equally detailed expert contributions for each complex script,
  3183. >I expect the inclination of the UTC and the editors would be to
  3184. >include them in the standard, for everybody's benefit.
  3185.  
  3186. That would be a very great improvement.
  3187.  
  3188.  
  3189. >> multiply accented characters (IPA, math, several human languages)
  3190. >
  3191. >This is considered an integral part of the Unicode Standard, and
  3192. >is detailed with both normative and informative sections.
  3193.  
  3194. So should it be required in all editors? I think so.
  3195.  
  3196.  
  3197. >> math
  3198. >
  3199. >There is a definite gap here, though the topic has been a continuing
  3200. >one for the UTC. The consensus seems to be that we would like to
  3201. >get a consistent model of plain text math formula construction
  3202. >stated, to make such information exchangeable in Unicode plain text.
  3203.  
  3204. There has been some good work on this reported at IUC conferences. An
  3205. option in an editor, for now anyway.
  3206.  
  3207.  
  3208. >> compatibility characters
  3209. >
  3210. >These are now completely specified in the Unicode Standard names list.
  3211.  
  3212. It should be possible to use them, but the user should have to choose to
  3213. activate them.
  3214.  
  3215.  
  3216. >> private use characters
  3217. >
  3218. >Also specified by the standard, although the interpretation of
  3219. >particular usages of private use characters is, by definition, out
  3220. >of scope for the standard. But there has been some effort by people
  3221. >to make available specifications of their particular private or
  3222. >corporate private usage repertoires of private use characters.
  3223.  
  3224. I don't know of any particular behavior that could be required of software,
  3225. other than the option of marking them all as unrecognized.
  3226.  
  3227.  
  3228. >> control codes
  3229. >
  3230. >If you mean by this, U+0000 .. U+001F, U+0080..U+009F and the
  3231. >control chimera U+007F, then the Unicode Standard does provide
  3232. >a answer. It doesn't try to reinvent control function standards,
  3233. >but it says those characters should be interpreted as if they
  3234. >were 16-bit analogues of the 8-bit encodings of the corresponding
  3235. >control functions. Maybe unsatisfying, but probably the best we
  3236. >can expect, given existing control code usage.
  3237.  
  3238. More precision is required, I think, at least for CR, LF, HT, and FF.
  3239.  
  3240.  
  3241. >> other deprecated characters
  3242. >
  3243. >There may be room for improvement here, but the Unicode Standard
  3244. >has had to tread a little carefully here. There are political
  3245. >consequences in crying out too loudly that xyz are *deprecated*
  3246. >when xyz may be somebody else's favorite set they lobbied hard
  3247. >to get in!
  3248.  
  3249. We can't just forbid them, certainly.
  3250.  
  3251.  
  3252. >> surrogates, especially unpaired surrogate codes
  3253. >
  3254. >Surrogate usage (in general, as opposed to particular encodings
  3255. >for surrogate pairs, none of which exist yet) is fully specified
  3256. >by the Unicode Standard.
  3257.  
  3258. OK. Unpaired surrogate codes should be marked in some way in rendering
  3259. plain text.
  3260.  
  3261.  
  3262. >> non-character values
  3263. >
  3264. >As opposed to unassigned character values, there are only two
  3265. >non-character values in Unicode: 0xFFFE and 0xFFFF. The standard
  3266. >specifies that 0xFFFE is the illegal byte-swapped version of
  3267. >U+FEFF. The use of 0xFFFF is deliberately unspecified and is
  3268. >untransmissible by design.
  3269.  
  3270. Why do I think someone is going to decide to use it? :(
  3271.  
  3272.  
  3273. >> text processing algorithms (sorting, upper and lower case, pattern matching)
  3274. >
  3275. >Default case mapping is provided as an informative part of the
  3276. >Unicode Standard. Language-specific casing is effectively also
  3277. >a part of the standard, since everybody knows the few instances
  3278. >in question: Turkish i, the debatable French accents, German ■, etc.,
  3279. >and they are discussed in the standard.
  3280. >
  3281. >Beyond that, sorting, pattern matching, etc. are out of scope of
  3282. >the Unicode Standard (though some implementation guidelines are
  3283. >provided), and, in my opinion, appropriately belong to other standards
  3284. >under development.
  3285.  
  3286. The question is to some degree whether there is or will be a standard
  3287. library of string functions, as there has been in C and C++. Of course I
  3288. recognize that there were many such libraries, and perhaps that is
  3289. unavoidable.
  3290.  
  3291.  
  3292. >> Full portability of data requires some rules. If there is no standard,
  3293. >> users of "Unicode text files" will make every possible choice about each of
  3294. >> these issues. CRLF will be nothing in comparison. We have begun to see
  3295. >> programs that can handle CRLF, CR alone, and LF alone, either line-by-line
  3296. >> or in paragraph format, reading and writing in any option. The range of
  3297. >> choices for Unicode is far greater, and I don't want to think about how
  3298. >> long it would take to achieve unity if we don't do it now.
  3299. >
  3300. >Yes, but... The goal is interchangeable plain text that is legible
  3301. >when interpreted and rendered in accord with the standard. The goal
  3302. >is not to force everyone to "spell" multilingual text exactly the
  3303. >same way. The drafters of the Unicode Standard tried to place normative
  3304. >requirements on plain text where failure to do so would lead to
  3305. >complete chaos. Obvious examples are specification that combining
  3306. >marks must follow (not precede) their base character, and specification
  3307. >of the complete bidi algorithm. Failure to specify either of these
  3308. >would clearly have led to uninterpretable gibberish if everyone
  3309. >made up their own rules, and that was clearly understood by the
  3310. >members of the Unicode Technical Committee.
  3311.  
  3312. I think the best way to discuss this is over some sample texts.
  3313.  
  3314. I don't know how much time I can put into this, but if I can I will go
  3315. through the standard and see if I can pick out anything else that might be
  3316. a problem.
  3317.  
  3318.  
  3319. >But one draws the line somewhere. No one wants to legislate against
  3320. >people, for example, making cross-linguistic puns in text by
  3321. >spelling out Russian words with Latin letters, or any other
  3322. >"inappropriate" or creative usage of the characters at
  3323. >their disposal, once Unicode implementations become more widely
  3324. >available. Half the joy of having universal multilingual text
  3325. >implemented on computers will be seeing what creative and fantastic
  3326. >new inventions millions of users put it to.
  3327. >
  3328. >--Ken Whistler
  3329.  
  3330. Think of the smilies we can make. %-]
  3331.  
  3332. --
  3333. Edward Cherlin       Help outlaw Spam     Everything should be made
  3334. Vice President     http://www.cauce.org      as simple as possible,
  3335. NewbieNet, Inc.  1000 members and counting      __but no simpler__.
  3336. http://www.newbie.net/    17 May 97   Attributed to Albert Einstein
  3337.  
  3338.  
  3339. 22-May-97 22:24:46-GMT,1378;000000000011
  3340. Return-Path: <unicode@unicode.org>
  3341. Received: from unicode.org (unicode.org [192.195.185.2])
  3342.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id SAA27950
  3343.     for <fdc@watsun.cc.columbia.edu>; Thu, 22 May 1997 18:24:43 -0400 (EDT)
  3344. Received: by unicode.org (NX5.67g/NX3.0M)
  3345.     id AA05533; Thu, 22 May 97 13:37:39 -0700
  3346. Message-Id: <9705222037.AA05533@unicode.org>
  3347. Errors-To: uni-bounce@unicode.org
  3348. X-Uml-Sequence: 2673 (1997-05-22 20:37:12 GMT)
  3349. To: Multiple Recipients of <unicode@unicode.org>
  3350. Reply-To: "Tony Harminc" <tzha0@juts.ccc.amdahl.com>
  3351. From: "Unicode Discussion" <unicode@unicode.org>
  3352. Date: Thu, 22 May 1997 13:37:11 -0700 (PDT)
  3353. Subject: Re: Unicode plain text 
  3354.  
  3355. How do record oriented file systems fit into this discussion ?  
  3356.  
  3357. (Remember those file systems that ruled the world before the UNIX 
  3358. idea of the byte stream came along...)
  3359.  
  3360. I imagine the short answer is "they don't", and the longer one is 
  3361. something about record oriented files being fine, as long as the 
  3362. semantics of the defined control characters are honoured.
  3363.  
  3364. What I'm getting at, though, is whether there is anything in the 
  3365. definition of Unicode plain text that disallows such files.  Is there 
  3366. a mapping between the out-of-band record markers and Unicode 
  3367. separators ?  It seems trivially obvious to map to/from <NL>.  Or is 
  3368. this something that no one thinks should even be addressed ?
  3369.  
  3370. Tony Harminc
  3371.  
  3372. 22-May-97 22:26:48-GMT,2034;000000000001
  3373. Return-Path: <unicode@unicode.org>
  3374. Received: from unicode.org (unicode.org [192.195.185.2])
  3375.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id SAA28229
  3376.     for <fdc@watsun.cc.columbia.edu>; Thu, 22 May 1997 18:26:46 -0400 (EDT)
  3377. Received: by unicode.org (NX5.67g/NX3.0M)
  3378.     id AA05800; Thu, 22 May 97 14:34:52 -0700
  3379. Message-Id: <9705222134.AA05800@unicode.org>
  3380. Errors-To: uni-bounce@unicode.org
  3381. X-Uml-Sequence: 2674 (1997-05-22 21:34:21 GMT)
  3382. To: Multiple Recipients of <unicode@unicode.org>
  3383. Reply-To: Timothy Partridge <timpart@perdix.demon.co.uk>
  3384. From: "Unicode Discussion" <unicode@unicode.org>
  3385. Date: Thu, 22 May 1997 14:34:17 -0700 (PDT)
  3386. Subject: Re: Unicode plain-text file
  3387.  
  3388. In message <9705220812.AA01704@unicode.org> you recently said:
  3389.  
  3390. > >> ** FF is higher-level formatting, you'd have to interpret it separately.
  3391. > >> @@ In particular, you would definitely interpret it as a block separator.
  3392. > No, no, please, no! Whitespace, please, or some new category. FF can come
  3393. > in the middle of a paragraph, or a sentence, or even a word.
  3394.  
  3395. I'm not sure I understand your reasoning. During rendering a page break can occur
  3396. anywhere in the same way that a new line may be started anywhere as a line becomes
  3397. too full. (I'm using anywhere rather loosely.) Wasn't the question about *forcing*
  3398. a page break - surely this wouldn't normally be done within a paragraph or smaller
  3399. part. (Or were you thinking of text streams that have already been formatted by
  3400. some other process but are now plain text with line breaks etc. added by where
  3401. the formatting process felt they ought to be.)
  3402.  
  3403. I feel that adding FF may be part of a slippery slope to pretty text. What about
  3404. starting a new column or keeping text together?
  3405.  
  3406. Someone else suggested that New Line should just be white space not a block
  3407. separator. I don't agree - surely a paragraph is (usully) a new line with
  3408. some extra white space added - this implies the semantics should be similar.
  3409.  
  3410.    Tim 
  3411.  
  3412. -- 
  3413. Tim Partridge. Any opinions expressed are mine only and not those of my employer
  3414.  
  3415. 22-May-97 23:00:17-GMT,2344;000000000001
  3416. Return-Path: <fdc>
  3417. Received: (from fdc@localhost)
  3418.     by watsun.cc.columbia.edu (8.8.5/8.8.5) id TAA04612;
  3419.     Thu, 22 May 1997 19:00:12 -0400 (EDT)
  3420. Date: Thu, 22 May 97 19:00:11 EDT
  3421. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  3422. To: "Tony Harminc" <tzha0@juts.ccc.amdahl.com>
  3423. Cc: Multiple Recipients of <unicode@unicode.org>
  3424. Subject: Re: Unicode plain text
  3425. In-Reply-To: Your message of Thu, 22 May 1997 13:37:11 -0700 (PDT)
  3426. Message-ID: <CMM.0.90.4.864342011.fdc@watsun.cc.columbia.edu>
  3427.  
  3428. > How do record oriented file systems fit into this discussion ?  
  3429. > (Remember those file systems that ruled the world before the UNIX 
  3430. > idea of the byte stream came along...)
  3431. They are far from dead; IBM VM/CMS and Digital (Open)VMS, to name
  3432. two, are still widespread.  But VM/CMS and other IBM mainframe
  3433. and midrange operating systems use EBCDIC text encoding and I am
  3434. not aware of any movement to support Unicode in this setting,
  3435. at least not internally.
  3436.  
  3437. In VMS, most text files are record oriented -- usually variable
  3438. length records, with end of line *implied* for each record, but
  3439. not recorded in any particular format.  This is actually quite a
  3440. sensible approach, given the wide variety of text-stream formats
  3441. that abound for no good reason.
  3442.  
  3443. In principle, it should be just as possible to fill records with 
  3444. Unicode as it is to fill them with ASCII, Latin-1, or JIS X 0208.
  3445.  
  3446. The VMS file system also supports the notion of "carriage control",
  3447. of which there are many types (like the once-familiar Fortran
  3448. Hollerith style, in which the first character specified whether the
  3449. line was to overprint the previous line, appear on the next line,
  3450. appear 2 lines down, etc, or start on a new page).  The carriage
  3451. control information, again, is separate from the file's data.  So
  3452. again, in principle, there should be no clash with Unicode.
  3453.  
  3454. In fact, I think a VMS implementation of Unicode text might be an
  3455. interesting exercise.  But this too begs the question of how to
  3456. map Unicode plain text into this environment, which in turn calls
  3457. for a Unicode plain-text standard for such things as page breaks.
  3458.  
  3459. And no, I don't think this brings us anywhere near any slippery slopes.
  3460. Page breaks have been an integral part of plain text since the 1950s
  3461. when we were programming IBM 409 Electric Accounting Machines by
  3462. sticking little wires into plugboards.
  3463.  
  3464. - Frank
  3465.  
  3466. 22-May-97 23:59:19-GMT,1434;000000000001
  3467. Return-Path: <unicode@unicode.org>
  3468. Received: from unicode.org (unicode.org [192.195.185.2])
  3469.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id TAA13839
  3470.     for <fdc@watsun.cc.columbia.edu>; Thu, 22 May 1997 19:59:18 -0400 (EDT)
  3471. Received: by unicode.org (NX5.67g/NX3.0M)
  3472.     id AA06394; Thu, 22 May 97 15:59:25 -0700
  3473. Message-Id: <9705222259.AA06394@unicode.org>
  3474. Errors-To: uni-bounce@unicode.org
  3475. X-Uml-Sequence: 2676 (1997-05-22 22:59:12 GMT)
  3476. To: Multiple Recipients of <unicode@unicode.org>
  3477. Reply-To: kenw@sybase.com (Kenneth Whistler)
  3478. From: "Unicode Discussion" <unicode@unicode.org>
  3479. Date: Thu, 22 May 1997 15:59:10 -0700 (PDT)
  3480. Subject: Re: Unicode plain-text file
  3481.  
  3482. Tim Partridge wrote:
  3483.  
  3484. > Someone else suggested that New Line should just be white space not a block
  3485. > separator. I don't agree - surely a paragraph is (usully) a new line with
  3486. > some extra white space added - this implies the semantics should be similar.
  3487.  
  3488. Please be extra careful here. The suggestion specifically was that
  3489. U+2028 LINE SEPARATOR (not NL nor LF functioning as newline) should be
  3490. considered WS (a technical category of the bidi algorithm, not white space
  3491. as processed, for example in a C preprocessor, or white space meaning
  3492. unprinted area on a text page) rather than BS (another technical category
  3493. of the bidi algorithm which is used to determine the boundaries of directional
  3494. blocks).
  3495.  
  3496. Cf. pages 3-15 and 3-17 of the Unicode Standard.
  3497.  
  3498. --Ken Whistler
  3499.  
  3500.  
  3501. 23-May-97  1:27:28-GMT,3553;000000000011
  3502. Return-Path: <murrays@microsoft.com>
  3503. Received: from mail2.microsoft.com (mail2.microsoft.com [131.107.3.42])
  3504.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id VAA26026
  3505.     for <fdc@watsun.cc.columbia.edu>; Thu, 22 May 1997 21:27:28 -0400 (EDT)
  3506. Received: by INET-02-IMC with Internet Mail Service (5.0.1458.30)
  3507.     id <LNPZDNZG>; Thu, 22 May 1997 18:27:29 -0700
  3508. Message-ID: <61CDD2C9A961CF11B6A000805FD40AA90368E0AC@RED-84-MSG.dns.microsoft.com>
  3509. From: Murray Sargent <murrays@microsoft.com>
  3510. To: "'Frank da Cruz'" <fdc@watsun.cc.columbia.edu>
  3511. Cc: "'unicode@unicode.org'" <unicode@unicode.org>
  3512. Subject: RE: Unicode plain text
  3513. Date: Thu, 22 May 1997 18:27:26 -0700
  3514. X-Priority: 3
  3515. X-Mailer: Internet Mail Service (5.0.1458.30)
  3516.  
  3517. I think page breaks given by <FF> (0xC) belong in the block separator
  3518. category and imply an end of paragraph.  Page breaks that come in the
  3519. middle of a paragraph or word should be called _soft_ page breaks much
  3520. as we have soft line breaks.  We could talk about adding an optional
  3521. page-break analogous to the optional hyphen (0xAD), but computer
  3522. folklore of the years clearly indicates that <FF> shouldn't be
  3523. overloaded for this purpose.  (Off hand, I don't think an optional
  3524. pagebreak would be a useful code to have, since you'd really like to
  3525. have the semantic "eject if within n lines of the page bottom."  Such a
  3526. semantic requires the number n, which doesn't fit into a single code
  3527. position.)
  3528.  
  3529. Murray 
  3530.  
  3531. > -----Original Message-----
  3532. > From:    Unicode Discussion [SMTP:unicode@unicode.org]
  3533. > Sent:    Thursday, May 22, 1997 4:00 PM
  3534. > To:    Multiple Recipients of
  3535. > Subject:    Re: Unicode plain text
  3536. > > How do record oriented file systems fit into this discussion ?  
  3537. > > (Remember those file systems that ruled the world before the UNIX 
  3538. > > idea of the byte stream came along...)
  3539. > > 
  3540. > They are far from dead; IBM VM/CMS and Digital (Open)VMS, to name
  3541. > two, are still widespread.  But VM/CMS and other IBM mainframe
  3542. > and midrange operating systems use EBCDIC text encoding and I am
  3543. > not aware of any movement to support Unicode in this setting,
  3544. > at least not internally.
  3545. > In VMS, most text files are record oriented -- usually variable
  3546. > length records, with end of line *implied* for each record, but
  3547. > not recorded in any particular format.  This is actually quite a
  3548. > sensible approach, given the wide variety of text-stream formats
  3549. > that abound for no good reason.
  3550. > In principle, it should be just as possible to fill records with 
  3551. > Unicode as it is to fill them with ASCII, Latin-1, or JIS X 0208.
  3552. > The VMS file system also supports the notion of "carriage control",
  3553. > of which there are many types (like the once-familiar Fortran
  3554. > Hollerith style, in which the first character specified whether the
  3555. > line was to overprint the previous line, appear on the next line,
  3556. > appear 2 lines down, etc, or start on a new page).  The carriage
  3557. > control information, again, is separate from the file's data.  So
  3558. > again, in principle, there should be no clash with Unicode.
  3559. > In fact, I think a VMS implementation of Unicode text might be an
  3560. > interesting exercise.  But this too begs the question of how to
  3561. > map Unicode plain text into this environment, which in turn calls
  3562. > for a Unicode plain-text standard for such things as page breaks.
  3563. > And no, I don't think this brings us anywhere near any slippery
  3564. > slopes.
  3565. > Page breaks have been an integral part of plain text since the 1950s
  3566. > when we were programming IBM 409 Electric Accounting Machines by
  3567. > sticking little wires into plugboards.
  3568. > - Frank
  3569.  
  3570. 23-May-97  1:28:50-GMT,4054;000000000001
  3571. Return-Path: <kenw@sybase.com>
  3572. Received: from halon.sybase.com (halon.sybase.com [192.138.151.33])
  3573.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id VAA26150
  3574.     for <fdc@watsun.cc.columbia.edu>; Thu, 22 May 1997 21:28:49 -0400 (EDT)
  3575. Received: from smtp1.sybase.com (sybgate.sybase.com [130.214.220.35])
  3576.           by halon.sybase.com (8.8.4/8.8.4) with SMTP
  3577.       id SAA03968; Thu, 22 May 1997 18:32:06 -0700 (PDT)
  3578. Received: from birdie.sybase.com by smtp1.sybase.com (4.1/SMI-4.1/SybH3.5-030896)
  3579.     id AA28055; Thu, 22 May 97 18:30:19 PDT
  3580. Received: by birdie.sybase.com (5.x/SMI-SVR4/SybEC3.5)
  3581.     id AA23641; Thu, 22 May 1997 18:28:46 -0700
  3582. Date: Thu, 22 May 1997 18:28:46 -0700
  3583. From: kenw@sybase.com (Kenneth Whistler)
  3584. Message-Id: <9705230128.AA23641@birdie.sybase.com>
  3585. To: fdc@watsun.cc.columbia.edu
  3586. Subject: Re: Unicode plain text
  3587. Cc: unicode@unicode.org, kenw@sybase.com
  3588. X-Sun-Charset: US-ASCII
  3589.  
  3590. > > How do record oriented file systems fit into this discussion ?  
  3591. > > (Remember those file systems that ruled the world before the UNIX 
  3592. > > idea of the byte stream came along...)
  3593. > > 
  3594. [snip]
  3595. > In principle, it should be just as possible to fill records with 
  3596. > Unicode as it is to fill them with ASCII, Latin-1, or JIS X 0208.
  3597.  
  3598. And in practice. The portable Unicode backend library I have
  3599. written merrily reads and writes Unicode plain text into MVS and
  3600. VMS filing systems through standard C file interfaces. No problem.
  3601. I just don't depend on MVS or VMS to provide any specific interpretations
  3602. of *anything* in those files, nor would I want to, to stay portable.
  3603.  
  3604. > The VMS file system also supports the notion of "carriage control",
  3605. > of which there are many types (like the once-familiar Fortran
  3606. > Hollerith style, in which the first character specified whether the
  3607. > line was to overprint the previous line, appear on the next line,
  3608. > appear 2 lines down, etc, or start on a new page).  The carriage
  3609. > control information, again, is separate from the file's data.  So
  3610. > again, in principle, there should be no clash with Unicode.
  3611. > In fact, I think a VMS implementation of Unicode text might be an
  3612. > interesting exercise.
  3613.  
  3614. Only *interesting* in the sense you mean if you depended on VMS
  3615. for anything other than basic system services underneath a C
  3616. library. To be portable, everything else would be built on layers
  3617. of support libraries independent of VMS.
  3618.  
  3619. > But this too begs the question of how to
  3620. > map Unicode plain text into this environment, which in turn calls
  3621. > for a Unicode plain-text standard for such things as page breaks.
  3622.  
  3623. I agree with Tim that page breaks are on the slippery slope to pretty
  3624. text. Pagination is not necessary for legibility of plain text in
  3625. the same sense that line breaking (forced in some instances) or
  3626. paragraph breaking (required among other things for bidi directional
  3627. control) are. Furthermore, since pagination assumes much more
  3628. about actual rendering devices, forced pagination is as often a
  3629. source of illegibility. (Think of all those preformatted documents
  3630. you've seen at one time or another that on your device display or print
  3631. with one or two lines spilled over to the next page for each forced
  3632. page.) I suspect that the device dependency of pagination is one
  3633. of the reasons why HTML doesn't use a built-in concept of page-break
  3634. on display or FF.
  3635.  
  3636. > And no, I don't think this brings us anywhere near any slippery slopes.
  3637. > Page breaks have been an integral part of plain text since the 1950s
  3638. > when we were programming IBM 409 Electric Accounting Machines by
  3639. > sticking little wires into plugboards.
  3640.  
  3641. Again, think device dependency here. FF used to literally be the
  3642. electronic control for the "Form Feed" on a particular device. It
  3643. moved a mechanical device that shoved paper out and new paper in.
  3644.  
  3645. In modern Page Description Languages such as PostScript, an operator
  3646. such as showpage is a high-level operation that dumps a frame buffer
  3647. to a smart raster device. Trying to control such operations by
  3648. embedding an FF control character in plain text is pretty klutzy.
  3649.  
  3650. --Ken
  3651.  
  3652. > - Frank
  3653.  
  3654. 23-May-97  4:12:51-GMT,4953;000000000001
  3655. Return-Path: <unicode@unicode.org>
  3656. Received: from unicode.org (unicode.org [192.195.185.2])
  3657.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id AAA17192
  3658.     for <fdc@watsun.cc.columbia.edu>; Fri, 23 May 1997 00:12:50 -0400 (EDT)
  3659. Received: by unicode.org (NX5.67g/NX3.0M)
  3660.     id AA07465; Thu, 22 May 97 20:50:55 -0700
  3661. Message-Id: <9705230350.AA07465@unicode.org>
  3662. Errors-To: uni-bounce@unicode.org
  3663. X-Uml-Sequence: 2682 (1997-05-23 03:50:06 GMT)
  3664. To: Multiple Recipients of <unicode@unicode.org>
  3665. Reply-To: Murray Sargent <murrays@microsoft.com>
  3666. From: "Unicode Discussion" <unicode@unicode.org>
  3667. Date: Thu, 22 May 1997 20:50:05 -0700 (PDT)
  3668. Subject: RE: Unicode plain text
  3669.  
  3670. But back in the '60s and early '70s we had line printers (with
  3671. fixed-width characters) and would ship "plain-text" documents to them
  3672. preformatted with the desired line and page breaks.  Such breaks
  3673. consisted of hard CRLFs and FFs to control the line printer, and they
  3674. could appear in the middle of a paragraph or word.  Similarly these
  3675. codes create such breaks on most modern printers.  So in this sense, an
  3676. FF can come in the middle of a paragraph or even a word.  But this
  3677. should be something down at the printer device-driver level.  It would
  3678. be a bad choice for file storage (unless it's a printer file).
  3679.  
  3680. To date, Unicode has avoided defining control characters except for the
  3681. TAB and NULL, precisely because there were multiple uses for these
  3682. characters.  The Unicode Standard states that "the others may be
  3683. interpreted according to ISO/IEC 6429".  Nevertheless, Frank's
  3684. recommendation that Unicode fill in some of the other control-character
  3685. semantics seems compelling, if only on a recommendation basis.  We
  3686. could, for example, enumerate the most common usages of the control
  3687. characters CR, LF, VT, and FF in contemporary software.
  3688.  
  3689. Murray 
  3690.  
  3691. > -----Original Message-----
  3692. > From:    Unicode Discussion [SMTP:unicode@unicode.org]
  3693. > Sent:    Thursday, May 22, 1997 6:27 PM
  3694. > To:    Multiple Recipients of
  3695. > Subject:    RE: Unicode plain text
  3696. > I think page breaks given by <FF> (0xC) belong in the block separator
  3697. > category and imply an end of paragraph.  Page breaks that come in the
  3698. > middle of a paragraph or word should be called _soft_ page breaks much
  3699. > as we have soft line breaks.  We could talk about adding an optional
  3700. > page-break analogous to the optional hyphen (0xAD), but computer
  3701. > folklore of the years clearly indicates that <FF> shouldn't be
  3702. > overloaded for this purpose.  (Off hand, I don't think an optional
  3703. > pagebreak would be a useful code to have, since you'd really like to
  3704. > have the semantic "eject if within n lines of the page bottom."  Such
  3705. > a
  3706. > semantic requires the number n, which doesn't fit into a single code
  3707. > position.)
  3708. > Murray 
  3709. > > -----Original Message-----
  3710. > > From:    Unicode Discussion [SMTP:unicode@unicode.org]
  3711. > > Sent:    Thursday, May 22, 1997 4:00 PM
  3712. > > To:    Multiple Recipients of
  3713. > > Subject:    Re: Unicode plain text
  3714. > > 
  3715. > > > How do record oriented file systems fit into this discussion ?  
  3716. > > > (Remember those file systems that ruled the world before the UNIX 
  3717. > > > idea of the byte stream came along...)
  3718. > > > 
  3719. > > They are far from dead; IBM VM/CMS and Digital (Open)VMS, to name
  3720. > > two, are still widespread.  But VM/CMS and other IBM mainframe
  3721. > > and midrange operating systems use EBCDIC text encoding and I am
  3722. > > not aware of any movement to support Unicode in this setting,
  3723. > > at least not internally.
  3724. > > 
  3725. > > In VMS, most text files are record oriented -- usually variable
  3726. > > length records, with end of line *implied* for each record, but
  3727. > > not recorded in any particular format.  This is actually quite a
  3728. > > sensible approach, given the wide variety of text-stream formats
  3729. > > that abound for no good reason.
  3730. > > 
  3731. > > In principle, it should be just as possible to fill records with 
  3732. > > Unicode as it is to fill them with ASCII, Latin-1, or JIS X 0208.
  3733. > > 
  3734. > > The VMS file system also supports the notion of "carriage control",
  3735. > > of which there are many types (like the once-familiar Fortran
  3736. > > Hollerith style, in which the first character specified whether the
  3737. > > line was to overprint the previous line, appear on the next line,
  3738. > > appear 2 lines down, etc, or start on a new page).  The carriage
  3739. > > control information, again, is separate from the file's data.  So
  3740. > > again, in principle, there should be no clash with Unicode.
  3741. > > 
  3742. > > In fact, I think a VMS implementation of Unicode text might be an
  3743. > > interesting exercise.  But this too begs the question of how to
  3744. > > map Unicode plain text into this environment, which in turn calls
  3745. > > for a Unicode plain-text standard for such things as page breaks.
  3746. > > 
  3747. > > And no, I don't think this brings us anywhere near any slippery
  3748. > > slopes.
  3749. > > Page breaks have been an integral part of plain text since the 1950s
  3750. > > when we were programming IBM 409 Electric Accounting Machines by
  3751. > > sticking little wires into plugboards.
  3752. > > 
  3753. > > - Frank
  3754.  
  3755. 23-May-97 14:50:25-GMT,5993;000000000001
  3756. Return-Path: <fdc>
  3757. Received: (from fdc@localhost)
  3758.     by watsun.cc.columbia.edu (8.8.5/8.8.5) id KAA08237;
  3759.     Fri, 23 May 1997 10:50:06 -0400 (EDT)
  3760. Date: Fri, 23 May 97 10:50:06 EDT
  3761. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  3762. To: Murray Sargent <murrays@microsoft.com>
  3763. Cc: "'unicode@unicode.org'" <unicode@unicode.org>
  3764. Subject: RE: Unicode plain text
  3765. In-Reply-To: Your message of Thu, 22 May 1997 18:27:26 -0700
  3766. Message-ID: <CMM.0.90.4.864399006.fdc@watsun.cc.columbia.edu>
  3767.  
  3768. Murray Sargent <murrays@microsoft.com> wrote:
  3769. > I think page breaks given by <FF> (0xC) belong in the block separator
  3770. > category and imply an end of paragraph.  Page breaks that come in the
  3771. > middle of a paragraph or word should be called _soft_ page breaks much
  3772. > as we have soft line breaks.  ...
  3773. >
  3774. This is GUI thinking.  Think "plain text", no rendering engines.  <FF> is a
  3775. hard, unconditional page break.  Think of running off monthly paychecks on
  3776. your lineprinter, or addressing envelopes (and spelling peoples' names
  3777. correctly in hundreds of languages -- imagine that!).
  3778.  
  3779. kenw@sybase.com (Kenneth Whistler) wrote:
  3780. > > In principle, it should be just as possible to fill records with 
  3781. > > Unicode as it is to fill them with ASCII, Latin-1, or JIS X 0208.
  3782. > And in practice. The portable Unicode backend library I have
  3783. > written merrily reads and writes Unicode plain text into MVS and
  3784. > VMS filing systems through standard C file interfaces. No problem.
  3785. > I just don't depend on MVS or VMS to provide any specific interpretations
  3786. > of *anything* in those files, nor would I want to, to stay portable.
  3787. It's funny how the pendulum swings.  Back in the old days we didn't even
  3788. have file systems, just boxes of cards.  Then we developed complex file
  3789. systems based on punched-card ideas (look at your old OS/360 JCL manual).  
  3790. Then we reacted against all of that complexity and said "a file is just a 
  3791. stream of bytes" with imbedded control information.  Now the simplicity of 
  3792. the stream approach is coming back to bite us because of all the differing
  3793. interpretations of the imbedded controls, since no standard was ever set for
  3794. their use in files.
  3795.  
  3796. Now we see that there is something to be said for keeping the control
  3797. information out of band -- it makes it really simple to change coding systems.
  3798. But anybody who has ever done VMS Record Management System programming knows
  3799. that the price is complexity and loss of portability.  You can't just "copy"
  3800. a VMS file to DOS or UNIX, you have to "export" it from the file system and
  3801. convert its record information to the appropriate stream format.  Nor can you
  3802. run an RMS program on a non-VMS system.
  3803.  
  3804. If we had it all to do over again -- and we do -- we could retain the
  3805. simplicity of the stream model without the confusion by precisely defining
  3806. a set of controls that may be imbedded, as we have done for LS and PS.
  3807. This will allow for both portable data AND portable software.
  3808.  
  3809. > I agree with Tim that page breaks are on the slippery slope to pretty
  3810. > text. Pagination is not necessary for legibility of plain text in
  3811. > the same sense that line breaking (forced in some instances) or
  3812. > paragraph breaking (required among other things for bidi directional
  3813. > control) are. Furthermore, since pagination assumes much more
  3814. > about actual rendering devices, forced pagination is as often a
  3815. > source of illegibility. (Think of all those preformatted documents
  3816. > you've seen at one time or another that on your device display or print
  3817. > with one or two lines spilled over to the next page for each forced
  3818. > page.) I suspect that the device dependency of pagination is one
  3819. > of the reasons why HTML doesn't use a built-in concept of page-break
  3820. > on display or FF.
  3821. This is all true, but that does not mean there should be no such thing as
  3822. a forced page break.  Paychecks.  Envelopes.  Like any tool, a hard page
  3823. break can be used for good or evil.  It's not the tool's fault.
  3824.  
  3825. > Again, think device dependency here. FF used to literally be the
  3826. > electronic control for the "Form Feed" on a particular device. It
  3827. > moved a mechanical device that shoved paper out and new paper in.
  3828. Yes, we still do these things.
  3829.  
  3830. Murray Sargent <murrays@microsoft.com> said:
  3831. >
  3832. > But back in the '60s and early '70s we had line printers (with
  3833. > fixed-width characters) and would ship "plain-text" documents to them
  3834. > preformatted with the desired line and page breaks.  Such breaks
  3835. > consisted of hard CRLFs and FFs to control the line printer, and they
  3836. > could appear in the middle of a paragraph or word.  Similarly these
  3837. > codes create such breaks on most modern printers.  So in this sense, an
  3838. > FF can come in the middle of a paragraph or even a word.  But this
  3839. > should be something down at the printer device-driver level.  It would
  3840. > be a bad choice for file storage (unless it's a printer file).
  3841. Again, printer files are common practice, and they are not sent only to
  3842. printers.  They are also viewed on terminals, "straight no chaser" or in
  3843. a text editor, and they are shipped around among diverse platforms.  There
  3844. is no reason to try to stamp out this practice.  It has its legitimate uses.
  3845.  
  3846. > To date, Unicode has avoided defining control characters except for the
  3847. > TAB and NULL, precisely because there were multiple uses for these
  3848. > characters.  The Unicode Standard states that "the others may be
  3849. > interpreted according to ISO/IEC 6429".
  3850. >
  3851. I agree that ASCII and ISO 6429 control characters are mess, and that is
  3852. why it is important to precisely define a minimal set for use in Unicode
  3853. plain text.  This might be done by defining semantics for the existing C0
  3854. and C1 control characters, or by adding new ones.
  3855.  
  3856. This will not only make Unicode able to stand on its own, but it will
  3857. allow export and import of fancy text between incompatible GUI
  3858. applications.  And it will provide a Common Intermediate Representation
  3859. for plain text that can last for decades, while the corporations slug it
  3860. out in the marketplace over their three-letter acronyms du jour.
  3861.  
  3862. - Frank
  3863.  
  3864. 24-May-97  0:29:40-GMT,1048;000000000001
  3865. Return-Path: <unicode@unicode.org>
  3866. Received: from unicode.org (unicode.org [192.195.185.2])
  3867.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id UAA16623
  3868.     for <fdc@watsun.cc.columbia.edu>; Fri, 23 May 1997 20:29:39 -0400 (EDT)
  3869. Received: by unicode.org (NX5.67g/NX3.0M)
  3870.     id AA10499; Fri, 23 May 97 16:59:08 -0700
  3871. Message-Id: <9705232359.AA10499@unicode.org>
  3872. Errors-To: uni-bounce@unicode.org
  3873. X-Uml-Sequence: 2686 (1997-05-23 23:58:54 GMT)
  3874. To: Multiple Recipients of <unicode@unicode.org>
  3875. Reply-To: "Pierre Lewis" <lew@nortel.ca>
  3876. From: "Unicode Discussion" <unicode@unicode.org>
  3877. Date: Fri, 23 May 1997 16:58:53 -0700 (PDT)
  3878. Subject: Re: Unicode plain text
  3879.  
  3880. In message "Re: Unicode plain text",
  3881. 'fdc@watsun.cc.columbia.edu' writes:
  3882.  
  3883. > And no, I don't think this brings us anywhere near any slippery slopes.
  3884. > Page breaks have been an integral part of plain text since the 1950s
  3885. > when we were programming IBM 409 Electric Accounting Machines by
  3886. > sticking little wires into plugboards.
  3887.  
  3888. I have to agree. Don't RFCs all come with FFs in them?
  3889.  
  3890. Pierre
  3891.  
  3892. 25-May-97  7:08:25-GMT,2860;000000000001
  3893. Return-Path: <unicode@unicode.org>
  3894. Received: from unicode.org (unicode.org [192.195.185.2])
  3895.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id DAA02704
  3896.     for <fdc@watsun.cc.columbia.edu>; Sun, 25 May 1997 03:08:24 -0400 (EDT)
  3897. Received: by unicode.org (NX5.67g/NX3.0M)
  3898.     id AA13201; Sat, 24 May 97 23:43:12 -0700
  3899. Message-Id: <9705250643.AA13201@unicode.org>
  3900. Errors-To: uni-bounce@unicode.org
  3901. Mime-Version: 1.0
  3902. Content-Type: text/plain; charset="us-ascii"
  3903. X-Uml-Sequence: 2689 (1997-05-25 06:42:40 GMT)
  3904. To: Multiple Recipients of <unicode@unicode.org>
  3905. Reply-To: Edward Cherlin <cherlin@cauce.org>
  3906. From: "Unicode Discussion" <unicode@unicode.org>
  3907. Date: Sat, 24 May 1997 23:42:37 -0700 (PDT)
  3908. Subject: Re: Unicode plain text
  3909.  
  3910. Timothy Partridge <timpart@perdix.demon.co.uk> wrote:
  3911.  
  3912. >We seem to have two different requirements for plain text here.
  3913. >Now my assumption was that we would mostly want to use one type, whereas
  3914. >there seems to be a strong demand for another. At the risk of teaching
  3915. >you all to suck eggs I will contrast and compare them at some length.
  3916. >I hope you will find a useful point or two.
  3917.  
  3918. This is exactly what I was trying to get at in earlier messages. I would
  3919. say that there are other requirements in other cases, and it would be worth
  3920. our while to make a stab at enumerating them so we have some idea of what
  3921. we are talking about.
  3922.  
  3923. Here are some of the common uses of "plain text", each having a different
  3924. purpose and different constraints:
  3925.  
  3926. E-mail
  3927. Printer command files--ASCII, PostScript
  3928. Source code--programming, SGML, HTML, TeX
  3929. Encoded binaries--UUencode, UTF-7
  3930. Transfer formats--RTF, APL Workspace Interchange
  3931. Archiving
  3932. Portability
  3933. Database
  3934. Application file formats
  3935.  
  3936. Constraints on line length vary widely. I have seen database files with
  3937. lines of nearly 1000 characters, and of course there is the theorem that
  3938. any computable function can be expressed in one line of APL. :-)
  3939.  
  3940. Other constraints will also vary widely. We must allow for this variation,
  3941. and only specify what we have to.
  3942.  
  3943. >First the type I had assumed as the default.
  3944. >I would call this logical formatting.
  3945. [snip]
  3946. >     The second type I would call physical formatting.
  3947. [snip]
  3948.  
  3949. The snipped analysis was quite good, although a few points might be argued.
  3950.  
  3951. One of the best points is that we can require a certain competence from a
  3952. Unicode renderer. The implementor can decide which character ranges to
  3953. support, but having done that must support certain features in the way
  3954. specified in the standard. This mechanism can be extended to cover some of
  3955. the requirements of various text file usages.
  3956.  
  3957. --
  3958. Edward Cherlin       Help outlaw Spam     Everything should be made
  3959. Vice President     http://www.cauce.org      as simple as possible,
  3960. NewbieNet, Inc.  1000 members and counting      __but no simpler__.
  3961. http://www.newbie.net/    17 May 97   Attributed to Albert Einstein
  3962.  
  3963.  
  3964. 25-May-97 15:45:55-GMT,4499;000000000001
  3965. Return-Path: <unicode@unicode.org>
  3966. Received: from unicode.org (unicode.org [192.195.185.2])
  3967.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id LAA23257
  3968.     for <fdc@watsun.cc.columbia.edu>; Sun, 25 May 1997 11:45:54 -0400 (EDT)
  3969. Received: by unicode.org (NX5.67g/NX3.0M)
  3970.     id AA13742; Sun, 25 May 97 08:01:25 -0700
  3971. Message-Id: <9705251501.AA13742@unicode.org>
  3972. Errors-To: uni-bounce@unicode.org
  3973. X-Uml-Sequence: 2691 (1997-05-25 15:01:09 GMT)
  3974. To: Multiple Recipients of <unicode@unicode.org>
  3975. Reply-To: "Pierre Lewis" <lew@nortel.ca>
  3976. From: "Unicode Discussion" <unicode@unicode.org>
  3977. Date: Sun, 25 May 1997 08:01:07 -0700 (PDT)
  3978. Subject: Re: Unicode plain text
  3979.  
  3980. In message "Re: Unicode plain text", 'timpart@perdix.demon.co.uk'
  3981. writes:
  3982.  
  3983. > We seem to have two different requirements for plain text here.
  3984. > ...
  3985. >
  3986. > First the type I had assumed as the default.
  3987. > I would call this logical formatting.
  3988. > ...
  3989.  
  3990. This first type (usually the result of "save as text" from some WP)
  3991. always causes me trouble and I usually have to reformat it before I can
  3992. do anything with it (such as printing it).
  3993.  
  3994. >      The second type I would call physical formatting.
  3995. >      The text has already been formatted by the author into lines and
  3996. > paragraphs...
  3997.  
  3998. I think the second type is by far the most common and is what I
  3999. consider to be plain text:
  4000.  
  4001. o  It's the format of all RFCs, perhaps the most widely-read plain-text
  4002.    files around,
  4003.  
  4004. o  It's the format of the vast majority of email and Usenet posts I read
  4005.    (but I do see some type 1 stuff),
  4006.  
  4007. o  It's the format of much e-documentation that comes with many S/W
  4008.    (eg. linux, TeX (at least installation), X.11, ...),
  4009.  
  4010. o  It's the natural format of all a2ps (ascii-to-postscript) converters
  4011.    I've come across, and (last but not least)
  4012.  
  4013. o  It's the format chosen by project Gutenberg, the wonderful collection
  4014.    of English texts. I have a dream here, of a multi-lingual project
  4015.    Gutenberg with classics in various languages, and, of course, in
  4016.    plain-text Unicode....
  4017.  
  4018.    (URL: ftp://uiarchive.cso.uiuc.edu/pub/etext/ )
  4019.  
  4020. I'd be really curious to see how one would express RFC2070, on
  4021. "Internationalization of the Hypertext Markup Language", as a type 1
  4022. plain-text file (for those looking for a challenge: type 2 plain-text
  4023. file of this RFC is at: http://ds.internic.net/rfc/rfc2070.txt).
  4024.  
  4025. Of course, type 2 means some assumptions.
  4026.  
  4027. >    * The author knows exactly how many characters fit on a line. (Often
  4028. >      there is also the assumption that each character is fixed width.)
  4029.  
  4030. True enough, and that may break down somewhat with ideograms (surely
  4031. one can't fit 80 of those on a line). But, in general, staying under 80
  4032. chars will give a plain-text file that most can print. I rarely have
  4033. trouble printing a plain-text file of this second type. And I think this
  4034. will work with a lot of scripts, eg. Russian, Greek, Hebrew, Arabic.
  4035.  
  4036. >    * The author knows exactly how many lines fit on a page.
  4037.  
  4038. Most plain-text files have no FFs, but when they do (as RFCs do), it's
  4039. not too difficult to be conservative so that again most folks can print
  4040. them with no problem. I don't see FFs as being on the slippery slope to
  4041. pretty text. Besides their use in RFCs (so the TOC can be paginated),
  4042. they're also often used to separate "chapters". For example, I'll save
  4043. all the posts on the current threads, and I'll probably put an FF
  4044. between each one so that, if/when I print the whole thing, I'll get
  4045. each post to start on a new page.
  4046.  
  4047. >    * The author knows in which sequence the characters in a line will
  4048. >      be printed. (Usually assumes left to right without any reordering.)
  4049.  
  4050. That's where it gets interesting (and why I had a few questions a few
  4051. days ago). The only ordering possible within the plain-text Unicode
  4052. file is of course logical. So that means a bit more intelligence in the
  4053. a2ps conversion or in the display engines. Or, in despair, such a file
  4054. could be put thru a filter that would reorder it into visual ordering
  4055. for local consumption.
  4056.  
  4057. In summary, notwithstanding some difficulties, I still think a
  4058. plain-text Unicode file of the second type above makes perfect sense
  4059. and would be very useful. I'm still not too sure how exactly I would
  4060. encode it (wrt controls), but this thread has been quite helpful.
  4061.  
  4062. Btw, this type 1 vs type 2 is a very useful distinction, and I think
  4063. therein lies the source of much confusion in the current threads.
  4064.  
  4065. Pierre
  4066. lew@nortel.ca
  4067.  
  4068. P.S. It's probable that my view of things is somewhat colored by my
  4069. Unix bigotry. But still...
  4070.  
  4071. 25-May-97 23:42:24-GMT,3079;000000000001
  4072. Return-Path: <unicode@unicode.org>
  4073. Received: from unicode.org (unicode.org [192.195.185.2])
  4074.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id TAA17171
  4075.     for <fdc@watsun.cc.columbia.edu>; Sun, 25 May 1997 19:42:23 -0400 (EDT)
  4076. Received: by unicode.org (NX5.67g/NX3.0M)
  4077.     id AA14407; Sun, 25 May 97 16:23:13 -0700
  4078. Message-Id: <9705252323.AA14407@unicode.org>
  4079. Errors-To: uni-bounce@unicode.org
  4080. X-Uml-Sequence: 2692 (1997-05-25 23:22:41 GMT)
  4081. To: Multiple Recipients of <unicode@unicode.org>
  4082. Reply-To: "Pierre Lewis" <lew@nortel.ca>
  4083. From: "Unicode Discussion" <unicode@unicode.org>
  4084. Date: Sun, 25 May 1997 16:22:39 -0700 (PDT)
  4085. Subject: RE: Unicode plain text
  4086.  
  4087. In message "RE: Unicode plain text", Murray writes:
  4088.  
  4089. > The preformatted plain text works OK as long as you have no plans to
  4090. > modify it.  If you want to edit it, then you have to worry about
  4091. > reflowing the lines ...
  4092.  
  4093. Most decent plain-text editors have facilities for that.
  4094.  
  4095. > ...       But even much older software was adept at formatting text.
  4096. > E.g., troff and TeX have been around for years and do beautiful jobs of
  4097. > formatting text.
  4098.  
  4099. Of course, so does HTML today. But none of that is plain text, troff,
  4100. TeX and HTML require some processing intelligence that may no longer be
  4101. around in 30 years. That may not be available everywhere.
  4102.  
  4103. Is there a specification somewhere that tells me how type 1 plain text
  4104. (using Tim's terminology again for a moment) will be formatted for
  4105. display and printing? Will things such as the following be dealt with
  4106. properly?
  4107.  
  4108.    This is a recursive bulleted list.
  4109.  
  4110.    o  Bullet one, a very long line.....
  4111.       that folds:
  4112.       - subbullet one a, another long line....
  4113.         that folds;
  4114.       - a second subbullet
  4115.  
  4116.    o  Bullet two.
  4117.  
  4118. Can I rely on this intelligence to always yield something that reflects
  4119. my intentions? With recursive bullet lists? With tables. Etc.
  4120.  
  4121. Ah, maybe that's what some folks mean when they ask for a standard for
  4122. plain text in Unicode?!
  4123.  
  4124. Or am I not more likely to see things such as what your email software
  4125. did to my original post:
  4126.  
  4127. > > o  It's the format of all RFCs, perhaps the most widely-read
  4128. > > plain-text
  4129. > >    files around,
  4130.  
  4131. The middle line got folded, but the software didn't realize it was a
  4132. bulleted list :-)
  4133.  
  4134. > Within the Microsoft email system, we use rich text ...
  4135.  
  4136. Well I hope you won't send me such, as I won't know what to do with it.
  4137. Is it HTML-like markup? Of course rich text can be nice, but only if
  4138. everyone has it. The nice thing about plain text *is* that everyone has
  4139. it by default. But I think that applies only to type 2, ie. plain text
  4140. with hard line breaks, ie. preformatted.
  4141.  
  4142. The big advantage I see of the type 2 plain text (with hard line
  4143. breaks) is that it requires *no* intelligence to render correctly. Well
  4144. Unicode requires BIDI I guess (and let's hope that won't change in the
  4145. next 30 years). But otherwise, just adjust to line length convention
  4146. (by chosing a decent point size) and you're in business. No reliance on
  4147. some S/W to do some undefined reformatting and hope it won't
  4148. misrepresent your intentions.
  4149.  
  4150. Pierre
  4151.  
  4152. 26-May-97 12:40:12-GMT,2068;000000000001
  4153. Return-Path: <unicode@unicode.org>
  4154. Received: from unicode.org (unicode.org [192.195.185.2])
  4155.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id IAA10853
  4156.     for <fdc@watsun.cc.columbia.edu>; Mon, 26 May 1997 08:40:11 -0400 (EDT)
  4157. Received: by unicode.org (NX5.67g/NX3.0M)
  4158.     id AA15892; Mon, 26 May 97 05:16:43 -0700
  4159. Message-Id: <9705261216.AA15892@unicode.org>
  4160. Errors-To: uni-bounce@unicode.org
  4161. Mime-Version: 1.0
  4162. Content-Type: TEXT/PLAIN; charset=US-ASCII
  4163. X-Uml-Sequence: 2696 (1997-05-26 12:16:14 GMT)
  4164. To: Multiple Recipients of <unicode@unicode.org>
  4165. Reply-To: "Martin J. Duerst" <mduerst@ifi.unizh.ch>
  4166. From: "Unicode Discussion" <unicode@unicode.org>
  4167. Date: Mon, 26 May 1997 05:16:12 -0700 (PDT)
  4168. Subject: Re: Unicode plain text
  4169.  
  4170. On Mon, 26 May 1997, Otto Stolz wrote:
  4171.  
  4172. > On May 24, 11:04, Timothy Partridge <timpart@perdix.demon.co.uk> wrote:
  4173. > > We seem to have two different requirements for plain text here.
  4174. > ...
  4175. > > The text has already been formatted by the author into lines and
  4176. > > paragraphs. (Just as I have done with this e-mail. [...]
  4177. > > Since NL usually does not denote any logical division in the text
  4178. > > it is extremely annoying if the BiDi algorithm treats it as a new
  4179. > > block.
  4180. > In contrary, it is annoying if it doesn't -- see below.
  4181.  
  4182. The example you give doesn't apply. Independently of whether
  4183. LS is a block separator or treated as whitespace, there will
  4184. never be any text part B a line higher than a text part A
  4185. when logically, text part A is before text part B. This is
  4186. the very basic principle of the BIDI algorithm.
  4187.  
  4188. What is affected by the decision whether LS is a block separator
  4189. or treated as whitespace is whether bidirectional embeding and
  4190. overwrite codes are terminated (at the block boundary) or not.
  4191. As long as you don't have any of these, the only effect may be
  4192. that in the absence of any other convention, the first character
  4193. of a block defines the block's base directionality. Thus if LS
  4194. is a block separator, you risk that the second part of the
  4195. paragraph has a different base directionality than the first.
  4196.  
  4197. Regards,    Martin.
  4198.  
  4199. 26-May-97 15:26:43-GMT,4060;000000000001
  4200. Return-Path: <fdc>
  4201. Received: (from fdc@localhost)
  4202.     by watsun.cc.columbia.edu (8.8.5/8.8.5) id LAA01862;
  4203.     Mon, 26 May 1997 11:26:38 -0400 (EDT)
  4204. Date: Mon, 26 May 97 11:26:38 EDT
  4205. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  4206. To: Timothy Partridge <timpart@perdix.demon.co.uk>
  4207. Cc: Multiple Recipients of <unicode@unicode.org>
  4208. Subject: Re: Unicode plain text
  4209. In-Reply-To: Your message of Sat, 24 May 1997 11:04:00 -0700 (PDT)
  4210. Message-ID: <CMM.0.90.4.864660398.fdc@watsun.cc.columbia.edu>
  4211.  
  4212. > We seem to have two different requirements for plain text here.
  4213. > Now my assumption was that we would mostly want to use one type, whereas
  4214. > there seems to be a strong demand for another.
  4215. > ...
  4216. > First the type I had assumed as the default.
  4217. > I would call this logical formatting.
  4218. > Paragraph Separator is most commonly used. Text usually runs on without
  4219. > any control characters until a new paragraph is needed. Since this
  4220. > is logical formatting the author does not know or care whether a
  4221. > paragraph is indicated by a completly blank line or a new line is
  4222. > started with an indent or some other convention.
  4223. I suppose this is, indeed, a form of plain text, but I would call it "input
  4224. for a text formatter", not text to be used and viewed on its own as it stands.
  4225. It is a degenerate case of a larger class, e.g. input for TeX, Scribe, Troff,
  4226. IPFC, SGML, or HTML (for text formatting).  It is only in the last few years
  4227. that I began to receive "long-line" text in email, and I can only suppose that
  4228. it was generated by some sort of editor that does its own word wrapping during
  4229. input, but does not send the line breaks on the mistaken assumption that every
  4230. email client in the world is (or should be) also a text formatter.
  4231.  
  4232. [The second type of plain text...]
  4233.  
  4234. >      The assumptions behind this explicit approach include:
  4235. >      * The text will go straight to a printer that is not very bright.
  4236. >      * The author knows exactly how many characters fit on a line. (Often
  4237. >        there is also the assumption that each character is fixed width.)
  4238. >      * The author knows exactly how many lines fit on a page.
  4239. >      * The author knows in which sequence the characters in a line will
  4240. >        be printed. (Usually assumes left to right without any reordering.)
  4241. Right -- this is the kind people have been using for more decades than many of
  4242. us have been alive.  It does not deserve the bad rap.  Of course we all find
  4243. it irritating when the composer of such text assumes wider or longer pages
  4244. than we have, but that is not a reason to abolish this, the most common form
  4245. of plain text -- in fact, it is all the more reason to set standards for its
  4246. use.  "Standard lines are so wide; standard pages are so long", etc.  Such
  4247. standards tend to be set of their own volution, e.g. among e-mail and netnews
  4248. users, where recipients of badly formatted messages tend to take it on
  4249. themselves to educate the senders as to common practice.
  4250.  
  4251. Ideally, preformatted plain text can also be fed into your favorite rendering
  4252. engine to produce the effect that most pleases your eye, and indeed we have
  4253. been doing this sort of thing for decades with many formatters.  I grant that
  4254. automatic recognition of nested bullet lists or meticulously formatted tables
  4255. might be a stretch, but it is certainly not difficult to treat blank lines as
  4256. paragraph separators, and otherwise to ignore line breaks when reformatting
  4257. prose such as this.  But once any kind of markup ("this is a table", "this is
  4258. a bullet list", "this is a section of preformatted text") is introduced, our
  4259. plain text becomes "input for a text formatter".
  4260.  
  4261. Incidentally, another form of plain text is "output from a text formatter",
  4262. which often has been hyphenated.  Such text is an end result, not intended for
  4263. further processing.
  4264.  
  4265. I think that living in a world of email has demonstrated the value of plain
  4266. text, at least to most people.  The lesson is that this is the only text form
  4267. that can be sent without prior prearrangement with any reasonable expectation
  4268. that it will be readable at its destination.
  4269.  
  4270. - Frank
  4271.  
  4272. 26-May-97 15:48:20-GMT,2862;000000000001
  4273. Return-Path: <unicode@unicode.org>
  4274. Received: from unicode.org (unicode.org [192.195.185.2])
  4275.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id LAA06491
  4276.     for <fdc@watsun.cc.columbia.edu>; Mon, 26 May 1997 11:48:19 -0400 (EDT)
  4277. Received: by unicode.org (NX5.67g/NX3.0M)
  4278.     id AA16506; Mon, 26 May 97 07:38:18 -0700
  4279. Message-Id: <9705261438.AA16506@unicode.org>
  4280. Errors-To: uni-bounce@unicode.org
  4281. Mime-Version: 1.0
  4282. Content-Type: text/plain; charset=iso-8859-1
  4283. X-Uml-Sequence: 2698 (1997-05-26 14:37:52 GMT)
  4284. To: Multiple Recipients of <unicode@unicode.org>
  4285. Reply-To: Otto Stolz <Otto.Stolz@uni-konstanz.de>
  4286. From: "Unicode Discussion" <unicode@unicode.org>
  4287. Date: Mon, 26 May 1997 07:37:50 -0700 (PDT)
  4288. Subject: Rare Writing Directions
  4289. Content-Transfer-Encoding: 8bit
  4290. X-MIME-Autoconverted: from quoted-printable to 8bit by watsun.cc.columbia.edu id LAA06491
  4291.  
  4292. Some scripts are neither left-to-right, nor right-to-left.
  4293.  
  4294. 1.
  4295.  
  4296. Mongolian is written top-to-bottom; Japanese and Chinese used
  4297. to be written this way, the lines were stacked right-to-left.
  4298.  
  4299. Recently, somebody (sorry, I haven't kept that note) has said that
  4300. mixing Latin with Japanese was impossible, hence modern Japanese is
  4301. written left-to-right. However, there is a way to mix top-to-bottom
  4302. with horizontally written scripts: about twenty years ago I have seen
  4303. a book in Japanese, written top-to-bottom, with German proper, and
  4304. place, names imbedded. These were also written top-to-bottom, with
  4305. the glyphs rotated by 90 degrees; so you could turn the book counter-
  4306. clockwise to read these names, in the usual way. This imebedding
  4307. method would also work with left-to-right phrases in Mongolian text.
  4308. For righ-to-left scripts, you would have to turn the glyphs the other
  4309. way.
  4310.  
  4311. I think, it would be useful to have this method described in a
  4312. forthcoming Unicode standard.
  4313.  
  4314. 2.
  4315.  
  4316. Some old scripts (Greek, Latin, Hethitic, Runes) were used to write
  4317. boustropheda. A boustrophedon runs back and forth like a ploughing
  4318. ox (thence the name), i.e. the lines are written, alternatingly,
  4319. left-to-right and right-to-left.
  4320.  
  4321. As Unicode will adopt the Runes alphabet (or rather: fu■ark), it
  4322. would propbably be useful to have boustrophedon-markers akin to the
  4323. existing LEFT-TO-RIGHT MARK and its siblings, U+200E .. U+200F and
  4324. U+202A .. U+202E. These markers could be used to mark plain, logically
  4325. formatted, Unicode text. (To mark physically formatted text, you could
  4326. probably use the OVERRIDE characters, U+202D and U+202E.)
  4327.  
  4328. Also a normative boustrophedon algorithm, akin to the existing bidi
  4329. algorithm would probably be nice to have. I guess, this algorithm
  4330. could be much simpler than the bidi algorithm, as the boustrophedon
  4331. feature will apply only to whole paragraphs (it is more like a layout
  4332. style, which does not have to allow for intrinsic character features).
  4333.  
  4334.  
  4335. Opinions? Am I wrong, again?
  4336.  
  4337. Best wishes,
  4338.    Otto Stolz
  4339.  
  4340. 26-May-97 16:18:23-GMT,1285;000000000011
  4341. Return-Path: <unicode@unicode.org>
  4342. Received: from unicode.org (unicode.org [192.195.185.2])
  4343.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id MAA10524
  4344.     for <fdc@watsun.cc.columbia.edu>; Mon, 26 May 1997 12:18:22 -0400 (EDT)
  4345. Received: by unicode.org (NX5.67g/NX3.0M)
  4346.     id AA16649; Mon, 26 May 97 08:21:01 -0700
  4347. Message-Id: <9705261521.AA16649@unicode.org>
  4348. Errors-To: uni-bounce@unicode.org
  4349. X-Uml-Sequence: 2699 (1997-05-26 15:20:37 GMT)
  4350. To: Multiple Recipients of <unicode@unicode.org>
  4351. Reply-To: "Pierre Lewis" <lew@nortel.ca>
  4352. From: "Unicode Discussion" <unicode@unicode.org>
  4353. Date: Mon, 26 May 1997 08:20:35 -0700 (PDT)
  4354. Subject: re:Multi-Lingual Project Gutenberg (was: Unicode plain text)
  4355.  
  4356. In message "Multi-Lingual Project Gutenberg (was: Unicode plain text)",
  4357. 'Otto.Stolz@uni-konstanz.de' writes:
  4358.  
  4359. > You'll find the German project Gutenberg (in German, of course), under
  4360. > <http://www.informatik.uni-hamburg.de/gutenb/gutenb.htm>. The format
  4361. > is currently HTML, in ISO 8859-1 encoding.
  4362.  
  4363. Thanks for the pointer, I don't think I had it. Well done (just had a
  4364. look at Max and Moritz).
  4365.  
  4366. HTML certainly is an interesting alternative to plain text because it
  4367. is so universal (and, hopefully, with a stable foundation). And it
  4368. allows to include illustrations, annotations, &c.
  4369.  
  4370. Pierre
  4371.  
  4372. 26-May-97 16:43:54-GMT,2364;000000000001
  4373. Return-Path: <fdc>
  4374. Received: (from fdc@localhost)
  4375.     by watsun.cc.columbia.edu (8.8.5/8.8.5) id MAA15283;
  4376.     Mon, 26 May 1997 12:42:51 -0400 (EDT)
  4377. Date: Mon, 26 May 97 12:42:51 EDT
  4378. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  4379. To: "Pierre Lewis" <lew@nortel.ca>
  4380. Cc: Multiple Recipients of <unicode@unicode.org>
  4381. Subject: re:Multi-Lingual Project Gutenberg (was: Unicode plain text)
  4382. In-Reply-To: Your message of Mon, 26 May 1997 08:20:35 -0700 (PDT)
  4383. Message-ID: <CMM.0.90.4.864664971.fdc@watsun.cc.columbia.edu>
  4384.  
  4385. > HTML certainly is an interesting alternative to plain text because it
  4386. > is so universal (and, hopefully, with a stable foundation). And it
  4387. > allows to include illustrations, annotations, &c.
  4388. There is an infinite number of alternatives to plain text.  Anybody, anywhere
  4389. can make up whatever such alternatives they like -- and they do.  HTML is
  4390. controlled by Netscape and Microsoft, and changes every five minutes as each
  4391. attempts to outdo and undercut the other.
  4392.  
  4393. Plain text is an interesting alternative to HTML because nobody controls it
  4394. but "just us chickens", and it alone stands a chance of surviving year after
  4395. year, decade after decade, as the corporate giants pull the rug out from each
  4396. other (and us) on a weekly basis, with their proclamations of ever more
  4397. complex proprietary "standards" with which we all must "comply".
  4398.  
  4399. This is not to say that a simple and stable form of HTML -- say 1.0, but
  4400. augmented by some minimally adequate method of coping with character sets --
  4401. is not a suitable method for publishing literary classics on the Web -- after
  4402. all, this is the sort of thing the Web was originally designed for, lest we
  4403. forget...
  4404.  
  4405. But this is not to say that even a stable form of HTML could be thought of as
  4406. a replacement for plain text.  My printer does not render HTML; my email
  4407. client is not a Web browser.  My text editor is not an HTML authoring system.
  4408. My C compiler does not compile HTML.  My Telnet client does not interpret
  4409. HTML.  And perhaps most important, the incomprehensibly enormous corpus of
  4410. existing plain-text information does not need to be converted to HTML or
  4411. anything else (except perhaps Unicode plain text), especially since any such
  4412. requirement would leave most of it behind, and even that which was deemed
  4413. worthy of conversion would become obsolete as soon as HTML is replaced by the
  4414. next thing.
  4415.  
  4416. - Frank
  4417.  
  4418. 26-May-97 18:29:49-GMT,2166;000000000001
  4419. Return-Path: <unicode@unicode.org>
  4420. Received: from unicode.org (unicode.org [192.195.185.2])
  4421.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id OAA01077
  4422.     for <fdc@watsun.cc.columbia.edu>; Mon, 26 May 1997 14:29:48 -0400 (EDT)
  4423. Received: by unicode.org (NX5.67g/NX3.0M)
  4424.     id AA17491; Mon, 26 May 97 10:23:48 -0700
  4425. Message-Id: <9705261723.AA17491@unicode.org>
  4426. Errors-To: uni-bounce@unicode.org
  4427. X-Uml-Sequence: 2706 (1997-05-26 17:23:31 GMT)
  4428. To: Multiple Recipients of <unicode@unicode.org>
  4429. Reply-To: "Pierre Lewis" <lew@nortel.ca>
  4430. From: "Unicode Discussion" <unicode@unicode.org>
  4431. Date: Mon, 26 May 1997 10:23:30 -0700 (PDT)
  4432. Subject: re:Multi-Lingual Project Gutenberg (was: Unicode plain text)
  4433.  
  4434. In message "re:Multi-Lingual Project Gutenberg (was: Unicode plain text)",
  4435. 'fdc@watsun.cc.columbia.edu' writes:
  4436.  
  4437. > ...                                                               HTML is
  4438. > controlled by Netscape and Microsoft, and changes every five minutes as each
  4439. > attempts to outdo and undercut the other.
  4440.  
  4441. I thought at least some baseline HTML came from more neutral bodies
  4442. than these two corporations?! Of course, HTML is an acceptable
  4443. alternative to plain text *only* if it is corporation-neutral,
  4444. widespread, and reasonably stable.
  4445.  
  4446. I certainly wouldn't agree to any MSIE-or NN-specific extensions being
  4447. used in the texts offered by these projects, but this specific site is
  4448. quite legible with lynx, so I assume it doesn't use too many fancy
  4449. features.
  4450.  
  4451. > Plain text is an interesting alternative to HTML because nobody controls it
  4452. > but "just us chickens", and it alone stands a chance of surviving year after
  4453. > year, decade after decade, ...
  4454.  
  4455. Well put.
  4456.  
  4457. > This is not to say that a simple and stable form of HTML -- say 1.0, but
  4458. > augmented by some minimally adequate method of coping with character sets --
  4459.  
  4460. Since the German Gutenberg project uses latin 1 (the HTML default),
  4461. they don't even need any extensions over HTML 1.0.
  4462.  
  4463. > ...                        My printer does not render HTML; my email
  4464. > client is not a Web browser. ...
  4465.  
  4466. Same here. Still, browsers are getting pretty common, so for a project
  4467. Gutenberg, it's probably a reasonable choice.
  4468.  
  4469. Pierre
  4470.  
  4471. 26-May-97 19:25:43-GMT,4512;000000000001
  4472. Return-Path: <unicode@unicode.org>
  4473. Received: from unicode.org (unicode.org [192.195.185.2])
  4474.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id PAA10016
  4475.     for <fdc@watsun.cc.columbia.edu>; Mon, 26 May 1997 15:25:41 -0400 (EDT)
  4476. Received: by unicode.org (NX5.67g/NX3.0M)
  4477.     id AA17805; Mon, 26 May 97 11:35:09 -0700
  4478. Message-Id: <9705261835.AA17805@unicode.org>
  4479. Errors-To: uni-bounce@unicode.org
  4480. X-Uml-Sequence: 2707 (1997-05-26 18:34:53 GMT)
  4481. To: Multiple Recipients of <unicode@unicode.org>
  4482. Reply-To: Timothy Partridge <timpart@perdix.demon.co.uk>
  4483. From: "Unicode Discussion" <unicode@unicode.org>
  4484. Date: Mon, 26 May 1997 11:34:50 -0700 (PDT)
  4485. Subject: Re: Unicode plain text
  4486.  
  4487. Pierre Lewis recently said:
  4488.  
  4489. > This first type (usually the result of "save as text" from some WP)
  4490. > always causes me trouble and I usually have to reformat it before I can
  4491. > do anything with it (such as printing it).
  4492.  
  4493. In my opinion a Unicode renderer should cope with this automatically
  4494. and divide paragraphs up into lines for you. This is mostly because
  4495. of the intelligence of the BiDi algorithm. What you won't get is
  4496. page headers and footers and page numbers since there is no way to
  4497. specify them in Unicode plain text. Is there general agreement that
  4498. text that is only split into paragraphs should be rendered properly
  4499. by a Unicode engine? I.e. it is acceptable as plain text.
  4500.  
  4501. > I think the second type is by far the most common and is what I
  4502. > consider to be plain text:
  4503. > o  It's the format of all RFCs, perhaps the most widely-read plain-text
  4504. >    files around,
  4505. [snip]
  4506. > o  It's the format chosen by project Gutenberg, the wonderful collection
  4507. >    of English texts. I have a dream here, of a multi-lingual project
  4508. >    Gutenberg with classics in various languages, and, of course, in
  4509. >    plain-text Unicode....
  4510. >    (URL: ftp://uiarchive.cso.uiuc.edu/pub/etext/ )
  4511. > I'd be really curious to see how one would express RFC2070, on
  4512. > "Internationalization of the Hypertext Markup Language", as a type 1
  4513. > plain-text file (for those looking for a challenge: type 2 plain-text
  4514. > file of this RFC is at: http://ds.internic.net/rfc/rfc2070.txt).
  4515.  
  4516. Can I have the original source please! I suspect that documents like this
  4517. have been prepared in some markup language and sent through something like
  4518. troff.
  4519.  
  4520. > Of course, type 2 means some assumptions.
  4521. > >    * The author knows exactly how many characters fit on a line. (Often
  4522. > >      there is also the assumption that each character is fixed width.)
  4523. > True enough, and that may break down somewhat with ideograms (surely
  4524. > one can't fit 80 of those on a line). But, in general, staying under 80
  4525. > chars will give a plain-text file that most can print. I rarely have
  4526. > trouble printing a plain-text file of this second type. And I think this
  4527. > will work with a lot of scripts, eg. Russian, Greek, Hebrew, Arabic.
  4528.  
  4529. I'm not so sure that fixed width Arabic will look good but the general point
  4530. holds. But should I need to fiddle with point sizes if Unicode renderers will
  4531. accept type 1 text.
  4532.  
  4533. Type 2 text is very common. And it is the published form. In some cases the
  4534. original marked up text will have been lost. Where it hasn't a Unicode type 1
  4535. style plain text file could be produced from the original.
  4536.  
  4537. I dug out some troff documentation and it says that the plain text output is
  4538. a representation that is an approximation to the printed page. I suggest
  4539. that much of the type 2 text is in this form, i.e. Formatting *including* BiDi
  4540. has already been carried out. Does anyone have examples of mixed direction
  4541. text in RFC style format that could confirm this?
  4542.  
  4543. I think that for type 2 physical format files Unicode rendering is *too*
  4544. intelligent and would scramble the preformatted lines if they contained BiDi
  4545. text. (As well as getting horribly confused by the NLs which presumably have
  4546. been converted to Line Separator.)
  4547.  
  4548. I would propose a new control code - Disable BiDirectional Processing which
  4549. would switch off BiDi altogether. It could be used with physical format files
  4550. so that they come out as intended. (There needs to be an Enable code as well.)
  4551.  
  4552. I'll also allow you a Page Separator. This would be treated as a block
  4553. separator by BiDi and would cause a new page to be started.
  4554.  
  4555. The introduction of a new control code would mean that existing text that uses
  4556. the current standard would work in the same way, but additional control could
  4557. be given to text that needs it.
  4558.  
  4559.    Tim
  4560.  
  4561.  
  4562. -- 
  4563. Tim Partridge. Any opinions expressed are mine only and not those of my employer
  4564.  
  4565. 27-May-97 14:26:28-GMT,1209;000000000001
  4566. Return-Path: <unicode@unicode.org>
  4567. Received: from unicode.org (unicode.org [192.195.185.2])
  4568.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id KAA28296
  4569.     for <fdc@watsun.cc.columbia.edu>; Tue, 27 May 1997 10:26:27 -0400 (EDT)
  4570. Received: by unicode.org (NX5.67g/NX3.0M)
  4571.     id AA21401; Tue, 27 May 97 06:34:30 -0700
  4572. Message-Id: <9705271334.AA21401@unicode.org>
  4573. Errors-To: uni-bounce@unicode.org
  4574. X-Uml-Sequence: 2718 (1997-05-27 13:33:37 GMT)
  4575. To: Multiple Recipients of <unicode@unicode.org>
  4576. Reply-To: "Pierre Lewis" <lew@nortel.ca>
  4577. From: "Unicode Discussion" <unicode@unicode.org>
  4578. Date: Tue, 27 May 1997 06:33:36 -0700 (PDT)
  4579. Subject: re:Multi-Lingual Project Gutenberg (was: Unicode plain text)
  4580.  
  4581. With waivering faith I wrote:
  4582.      :-)
  4583.  
  4584. > HTML certainly is an interesting alternative to plain text because it
  4585. > is so universal (and, hopefully, with a stable foundation). And it
  4586. > allows to include illustrations, annotations, &c.
  4587.  
  4588. Coincidently, I was reading last nite (ironically, in "iX", a German
  4589. magazine) about XML (eXtensible Markup Language) which, says the
  4590. article, could replace (in the mid term) HTML as the lingua franca of
  4591. the Web. So much for that idea...
  4592.  
  4593. Es lebe plain text!  (long live ~)
  4594. Pierre
  4595.  
  4596. 27-May-97 17:30:54-GMT,2490;000000000011
  4597. Return-Path: <unicode@unicode.org>
  4598. Received: from unicode.org (unicode.org [192.195.185.2])
  4599.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id NAA03642
  4600.     for <fdc@watsun.cc.columbia.edu>; Tue, 27 May 1997 13:30:52 -0400 (EDT)
  4601. Received: by unicode.org (NX5.67g/NX3.0M)
  4602.     id AA22032; Tue, 27 May 97 09:17:26 -0700
  4603. Message-Id: <9705271617.AA22032@unicode.org>
  4604. Errors-To: uni-bounce@unicode.org
  4605. Mime-Version: 1.0
  4606. Content-Type: TEXT/PLAIN; charset=US-ASCII
  4607. X-Uml-Sequence: 2720 (1997-05-27 16:16:36 GMT)
  4608. To: Multiple Recipients of <unicode@unicode.org>
  4609. Reply-To: John Fieber <jfieber@indiana.edu>
  4610. From: "Unicode Discussion" <unicode@unicode.org>
  4611. Date: Tue, 27 May 1997 09:16:34 -0700 (PDT)
  4612. Subject: re:Multi-Lingual Project Gutenberg (was: Unicode plain text)
  4613.  
  4614. On Tue, 27 May 1997, Pierre Lewis <lew@nortel.ca>
  4615.  
  4616. > With waivering faith I wrote:
  4617. >      :-)
  4618. > > HTML certainly is an interesting alternative to plain text because it
  4619. > > is so universal (and, hopefully, with a stable foundation). And it
  4620. > > allows to include illustrations, annotations, &c.
  4621. > Coincidently, I was reading last nite (ironically, in "iX", a German
  4622. > magazine) about XML (eXtensible Markup Language) which, says the
  4623. > article, could replace (in the mid term) HTML as the lingua franca of
  4624. > the Web. So much for that idea...
  4625.  
  4626. Both HTML and XML rest on a very stable foundation: SGML.  The
  4627. unicode standard defers quite a number of things to "higher level
  4628. protocols".  SGML just such a protocol, XML represents a profile
  4629. of the SGML standard that makes writing processing applications a
  4630. lot easier.
  4631.  
  4632. If you invest a lot of energy building a document system around
  4633. HTML, you will be SOL when HTML falls out of fashion.  If you
  4634. spend the same energy building a document system on the SGML
  4635. foundation, you can automatically deal with HTML and all its
  4636. variants, XML, or whatever the next fad is.  Real SGML tools are
  4637. polymorphic.
  4638.  
  4639. > Es lebe plain text!  (long live ~)
  4640.  
  4641. I find this a tragic position.  Before unicode, the common
  4642. denominator for cross-platform data transfer was 7 bit ASCII. 
  4643. Unicode charged ahead to raise the common denominator but
  4644. statements like this essentially say that the common denominator
  4645. should go no further.  This is counter to the spirit that
  4646. inspired Unicode and counter to the standard itself which
  4647. explicitly defers a number of important dimensions of text
  4648. processing to higher level protocols.
  4649.  
  4650. Plain text is simply not an option for most anyone serious about
  4651. their documents.
  4652.  
  4653. -john
  4654.  
  4655. 27-May-97 18:42:14-GMT,2820;000000000001
  4656. Return-Path: <fdc>
  4657. Received: (from fdc@localhost)
  4658.     by watsun.cc.columbia.edu (8.8.5/8.8.5) id OAA23125;
  4659.     Tue, 27 May 1997 14:40:39 -0400 (EDT)
  4660. Date: Tue, 27 May 97 14:40:38 EDT
  4661. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  4662. To: John Fieber <jfieber@indiana.edu>
  4663. Subject: re:Multi-Lingual Project Gutenberg (was: Unicode plain text)
  4664. In-Reply-To: Your message of Tue, 27 May 1997 09:16:34 -0700 (PDT)
  4665. Message-ID: <CMM.0.90.4.864758438.fdc@watsun.cc.columbia.edu>
  4666.  
  4667. > > Es lebe plain text!  (long live ~)
  4668. > I find this a tragic position.  Before unicode, the common
  4669. > denominator for cross-platform data transfer was 7 bit ASCII. 
  4670. > Unicode charged ahead to raise the common denominator but
  4671. > statements like this essentially say that the common denominator
  4672. > should go no further.  This is counter to the spirit that
  4673. > inspired Unicode and counter to the standard itself which
  4674. > explicitly defers a number of important dimensions of text
  4675. > processing to higher level protocols.
  4676. But that is to say that Unicode is useless except in combination
  4677. with a higher level protocol over which it has no control.  I
  4678. have absolutely no faith in any higher level protocol.  They come
  4679. into fashion and then exit ignominiously with astounding speed.
  4680.  
  4681. So perhaps the need for plain text is "tragic" (so too would be the
  4682. fact that many citizens of earth do not possess high-end bit-mapped
  4683. rendering engines, let alone sufficient food to eat), but it is
  4684. nonetheless real.
  4685.  
  4686. I think a lot of Unicoders have little idea what the real world is
  4687. like.  They know it is populated by people who speak many languages
  4688. written in diverse writing systems, which is a step forward.  But
  4689. they don't pay much attention to the "low tech" computer-related
  4690. components of everyday life -- not only in the less "developed"
  4691. countries, but even in the rich ones.  They seem to believe that the
  4692. only use for computers any more is Web browsing and composition of
  4693. glossy (multilingual) sales brochures.
  4694.  
  4695. Try to remember all the real work that computers are doing every
  4696. day in hidden places: medical and laboratory equipment, manufacturing
  4697. equipment, telecommunications equipment, traffic control, POS, EDI, etc.
  4698.  
  4699. Case in point: the imbedded microprocessors and microcontrollers
  4700. whose interface to the outside world is a lowly serial port, and
  4701. which have only a few K available for their control program.
  4702. Countless millions of them, chosen precisely for their low cost.
  4703.  
  4704. Now, isn't it our goal for Unicode to become, eventually, the world's
  4705. one-and-only character set?  Good!  Then let's not lock out the low
  4706. end.  Let's see if we can't separate the concept of character set
  4707. from the *necessity* for higher (and lower) level protocols and the
  4708. need for a high-end rendering engine.  (Sure, use them if you want,
  4709. but that's a totally separate issue.)
  4710.  
  4711. - Frank
  4712.  
  4713. 27-May-97 21:05:57-GMT,2979;000000000001
  4714. Return-Path: <jfieber@fallout.campusview.indiana.edu>
  4715. Received: from fallout.campusview.indiana.edu (fallout.campusview.indiana.edu [149.159.1.1])
  4716.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id RAA00789
  4717.     for <fdc@watsun.cc.columbia.edu>; Tue, 27 May 1997 17:05:54 -0400 (EDT)
  4718. Received: from localhost (jfieber@localhost)
  4719.     by fallout.campusview.indiana.edu (8.8.5/8.8.5) with SMTP id QAA01376
  4720.     for <fdc@watsun.cc.columbia.edu>; Tue, 27 May 1997 16:05:45 -0500 (EST)
  4721. Date: Tue, 27 May 1997 16:05:44 -0500 (EST)
  4722. From: John Fieber <jfieber@indiana.edu>
  4723. To: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  4724. Subject: re:Multi-Lingual Project Gutenberg (was: Unicode plain text)
  4725. In-Reply-To: <CMM.0.90.4.864758438.fdc@watsun.cc.columbia.edu>
  4726. Message-ID: <Pine.BSF.3.96.970527155039.29423H-100000@fallout.campusview.indiana.edu>
  4727. MIME-Version: 1.0
  4728. Content-Type: TEXT/PLAIN; charset=US-ASCII
  4729.  
  4730. On Tue, 27 May 1997, Frank da Cruz wrote:
  4731.  
  4732. > > > Es lebe plain text!  (long live ~)
  4733. > > 
  4734. > > I find this a tragic position.  Before unicode, the common
  4735. > > denominator for cross-platform data transfer was 7 bit ASCII. 
  4736. > > Unicode charged ahead to raise the common denominator but
  4737. > > statements like this essentially say that the common denominator
  4738. > > should go no further.  This is counter to the spirit that
  4739. > > inspired Unicode and counter to the standard itself which
  4740. > > explicitly defers a number of important dimensions of text
  4741. > > processing to higher level protocols.
  4742. > > 
  4743. > But that is to say that Unicode is useless except in combination
  4744. > with a higher level protocol over which it has no control.
  4745.  
  4746. I never said and most certainly did not mean to imply that
  4747. Unicode is "useless" without higher level protocols.  That
  4748. proposition is absurd.
  4749.  
  4750. > I have absolutely no faith in any higher level protocol.  They come
  4751. > into fashion and then exit ignominiously with astounding speed.
  4752.  
  4753. Your opinion does not change the fact that a great many
  4754. applications would be impossible without higher level protocols,
  4755. transient or otherwise.  (I'd hardly describe SGML as transient
  4756. though--it dates back into the 1960s and has continuously gained
  4757. in pouplarity ever since with no sign of fading in the future.)
  4758.  
  4759. [statements about the real world]
  4760.  
  4761. > Now, isn't it our goal for Unicode to become, eventually, the world's
  4762. > one-and-only character set?  Good!  Then let's not lock out the low
  4763. > end.  Let's see if we can't separate the concept of character set
  4764. > from the *necessity* for higher (and lower) level protocols and the
  4765. > need for a high-end rendering engine.
  4766.  
  4767. ...but I never said anything about a monolithic standard
  4768. including low and high level protocols!  I'd be the first to say
  4769. it would be a Bad Idea for exactly the reasons you cite.  I would
  4770. also add that separation is critical because different
  4771. applications may need different high level protocols.  SGML works
  4772. great for publishing type applications, but it certainly is not
  4773. an answer to every text processing applications. 
  4774.  
  4775. -john
  4776.  
  4777. 27-May-97 21:19:35-GMT,3042;000000000001
  4778. Return-Path: <unicode@unicode.org>
  4779. Received: from unicode.org (unicode.org [192.195.185.2])
  4780.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id RAA03062
  4781.     for <fdc@watsun.cc.columbia.edu>; Tue, 27 May 1997 17:19:31 -0400 (EDT)
  4782. Received: by unicode.org (NX5.67g/NX3.0M)
  4783.     id AA23523; Tue, 27 May 97 13:04:30 -0700
  4784. Message-Id: <9705272004.AA23523@unicode.org>
  4785. Errors-To: uni-bounce@unicode.org
  4786. Mime-Version: 1.0
  4787. Content-Type: TEXT/PLAIN; charset=US-ASCII
  4788. X-Uml-Sequence: 2726 (1997-05-27 20:04:01 GMT)
  4789. To: Multiple Recipients of <unicode@unicode.org>
  4790. Reply-To: John Fieber <jfieber@indiana.edu>
  4791. From: "Unicode Discussion" <unicode@unicode.org>
  4792. Date: Tue, 27 May 1997 13:03:59 -0700 (PDT)
  4793. Subject: re:Multi-Lingual Project Gutenberg (was: Unicode plain text)
  4794.  
  4795. On Tue, 27 May 1997, Marion Gunn <mgunn@egt.ie>
  4796.  
  4797. > The general consensus there was that
  4798. > incipient XML was being very heavily pushed as an alternative to html by
  4799. > SUN and MICROSOFT in collaboration 
  4800.  
  4801. Sun has been actively involved in the development of XML, so
  4802. their position is no surprise.  Lately Microsoft has been jumping
  4803. on the "standards" bandwagon (witness the ditching of WINS for
  4804. DNS, adoption of Kerberos, etc.) and a move to XML in particular
  4805. represents taking a distinctly different direction than Netscape,
  4806. whose founder has publicly stated that SGML is stupid--a position
  4807. I firmly believe will only hasten Netscape's death if it
  4808. persists.
  4809.  
  4810. > (as an alternative which would eliminate
  4811. > markup language altogether from the actual text to be transferred).
  4812.  
  4813. This is nonsensical.
  4814.  
  4815. In the world of HTML, you have a fixed set of tags you can use in
  4816. your documents, and you must assume that the browser knows how to
  4817. do something sensible with them (not always safe).  With XML, or
  4818. SGML for that matter, your document gets marked up using tags
  4819. appropriate for the data being marked up.  The document gets sent
  4820. to the browser along with a style sheet so that the browser can
  4821. do something sensible when it encounters the markup.  This allows
  4822. for (a) more concise and precise markup of the document and (b) 
  4823. more precise control over the ultimate rendering by the browser. 
  4824.  
  4825. The push for XML represents a "back to the roots" movement.  The
  4826. basic premise of SGML is that it is impossible to define a markup
  4827. language that is both general and precise.  Thus, SGML is a
  4828. meta-language; a language for defining markup languages.  At a
  4829. technical level, SGML standardizes parsing--how to distinguish
  4830. markup from data.  HTML is just a single markup language defined
  4831. in terms of SGML.  However, the promotion of HTML as a universal
  4832. exchange format is fundamentally at odds with the spirit of SGML.
  4833.  
  4834. A problem with using SGML in a web environment is the complexity
  4835. of the software required to implement the parsing rules.  Enter
  4836. XML.  XML basically does away with numerous non-essential
  4837. features of SGML that complicate parsing, things like tag
  4838. omission and minimization, shortrefs and the like.  XML also
  4839. raises the compliance bar on character encoding from 7 bit ASCII
  4840. to Unicode.
  4841.  
  4842. -john
  4843.  
  4844. 27-May-97 21:23:11-GMT,2405;000000000001
  4845. Return-Path: <unicode@unicode.org>
  4846. Received: from unicode.org (unicode.org [192.195.185.2])
  4847.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id RAA03727
  4848.     for <fdc@watsun.cc.columbia.edu>; Tue, 27 May 1997 17:23:10 -0400 (EDT)
  4849. Received: by unicode.org (NX5.67g/NX3.0M)
  4850.     id AA23596; Tue, 27 May 97 13:08:43 -0700
  4851. Message-Id: <9705272008.AA23596@unicode.org>
  4852. Errors-To: uni-bounce@unicode.org
  4853. X-Uml-Sequence: 2727 (1997-05-27 20:08:24 GMT)
  4854. To: Multiple Recipients of <unicode@unicode.org>
  4855. Reply-To: "Pierre Lewis" <lew@nortel.ca>
  4856. From: "Unicode Discussion" <unicode@unicode.org>
  4857. Date: Tue, 27 May 1997 13:08:22 -0700 (PDT)
  4858. Subject: re:Multi-Lingual Project Gutenberg (was: Unicode plain text)
  4859.  
  4860. In message "re:Multi-Lingual Project Gutenberg (was: Unicode plain text)",
  4861. 'jfieber@indiana.edu' writes:
  4862.  
  4863. > > Es lebe plain text!  (long live ~)
  4864. >
  4865. > I find this a tragic position.  Before unicode, the common
  4866. > denominator for cross-platform data transfer was 7 bit ASCII.
  4867.  
  4868. First, don't take anything I write too literally. I make available most
  4869. of my project documentation in HTML. So I'm not religious about these
  4870. things. The above is not an exclusive statement. HTML serves a most
  4871. useful purpose and I'm not saying to ban it!
  4872.  
  4873. Second, Unicode is something more or less orthogonal to the notion of
  4874. plain text. So I don't really understand your comment above. Plain text
  4875. does not mean 7-bit ASCII. It could just as well mean UTF-8 Unicode.
  4876.  
  4877. Third, for all the great things that can be said for SGML, HTML, XML,
  4878. and <whatever>ML, it still remains that plain text is the most portable
  4879. format, the simplest to deal with (on all platforms), and the only one
  4880. that is likely to be legible in 30 years. For some things, it's still
  4881. the best solution.
  4882.  
  4883. > Plain text is simply not an option for most anyone serious about
  4884. > their documents.
  4885.  
  4886. That depends on the purpose. For example, I'm writing some biographical
  4887. notes on myself (how pretentious can one get :-)?) so my son will know
  4888. a bit about me should I leave early. I can't think of a better medium
  4889. for that than plain text (Latin 1 here). Surely not some WP that will
  4890. be so badly out of style by the time he gets to read the stuff (he
  4891. doesn't talk yet)...
  4892.  
  4893. And look at a typical novel. Plain text is all that's required to
  4894. capture it. Marketing glossies are another matter of course. And so is
  4895. most technical documentation.
  4896.  
  4897. Anyway, getting off topic again!
  4898. Pierre
  4899.  
  4900. 27-May-97 22:15:20-GMT,2216;000000000001
  4901. Return-Path: <unicode@unicode.org>
  4902. Received: from unicode.org (unicode.org [192.195.185.2])
  4903.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id SAA20653
  4904.     for <fdc@watsun.cc.columbia.edu>; Tue, 27 May 1997 18:15:18 -0400 (EDT)
  4905. Received: by unicode.org (NX5.67g/NX3.0M)
  4906.     id AA24108; Tue, 27 May 97 14:24:35 -0700
  4907. Message-Id: <9705272124.AA24108@unicode.org>
  4908. Errors-To: uni-bounce@unicode.org
  4909. X-Uml-Sequence: 2729 (1997-05-27 21:24:18 GMT)
  4910. To: Multiple Recipients of <unicode@unicode.org>
  4911. Reply-To: Timothy Partridge <timpart@perdix.demon.co.uk>
  4912. From: "Unicode Discussion" <unicode@unicode.org>
  4913. Date: Tue, 27 May 1997 14:24:16 -0700 (PDT)
  4914. Subject: Re: re:Multi-Lingual Project Gutenberg (was: Unicode plain text)
  4915.  
  4916. Pierre Lewis recently said:
  4917.  
  4918. > With waivering faith I wrote:
  4919. >      :-)
  4920. > > HTML certainly is an interesting alternative to plain text because it
  4921. > > is so universal (and, hopefully, with a stable foundation). And it
  4922. > > allows to include illustrations, annotations, &c.
  4923. > Coincidently, I was reading last nite (ironically, in "iX", a German
  4924. > magazine) about XML (eXtensible Markup Language) which, says the
  4925. > article, could replace (in the mid term) HTML as the lingua franca of
  4926. > the Web. So much for that idea...
  4927. > Es lebe plain text!  (long live ~)
  4928.  
  4929. And what about the Standard Generalised Markup Language (SGML)? This has been
  4930. around for ages. It lets you define a set of markup tags and then use them.
  4931. HTML is a particular set of SGML tags and the SGML definition of HTML (the DTD)
  4932. is available from W3. If you are writing text in HTML I would strongly recommend
  4933. that you put a DTD version declaration at the top. e.g. 
  4934. <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN"> which is English with HTML 3.2
  4935. markup. Then syntax check the HTML with a SGML parser to make sure it conforms.
  4936. Finally keep a copy of the DTD somewhere safe along with a copy of the matching
  4937. HTML standard so that future generations can always understand your text. (The
  4938. copy of 3.2 that I have is about 12K in size.)
  4939. You might want a copy of the SGML standard too - I don't know where to get a
  4940. machine readable copy from.
  4941.  
  4942.    Tim
  4943.  
  4944. -- 
  4945. Tim Partridge. Any opinions expressed are mine only and not those of my employer
  4946.  
  4947. 28-May-97  0:12:27-GMT,2766;000000000001
  4948. Return-Path: <unicode@unicode.org>
  4949. Received: from unicode.org (unicode.org [192.195.185.2])
  4950.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id UAA10920
  4951.     for <fdc@watsun.cc.columbia.edu>; Tue, 27 May 1997 20:12:26 -0400 (EDT)
  4952. Received: by unicode.org (NX5.67g/NX3.0M)
  4953.     id AA24725; Tue, 27 May 97 16:51:28 -0700
  4954. Message-Id: <9705272351.AA24725@unicode.org>
  4955. Errors-To: uni-bounce@unicode.org
  4956. X-Uml-Sequence: 2731 (1997-05-27 23:51:00 GMT)
  4957. To: Multiple Recipients of <unicode@unicode.org>
  4958. Reply-To: kenw@sybase.com (Kenneth Whistler)
  4959. From: "Unicode Discussion" <unicode@unicode.org>
  4960. Date: Tue, 27 May 1997 16:50:58 -0700 (PDT)
  4961. Subject: Unstable foundations and wavering faith
  4962.  
  4963. > With waivering faith I wrote:
  4964. >      :-)
  4965. > > HTML certainly is an interesting alternative to plain text because it
  4966. > > is so universal (and, hopefully, with a stable foundation).
  4967.  
  4968. > Es lebe plain text!  (long live ~)
  4969.  
  4970. It is no accident that Silicon Valley thrives in Earthquake country.
  4971.  
  4972. But while everything seems to be in constant turmoil, and yesterday's
  4973. hot new item is today's trash -- try to take the long view.
  4974.  
  4975. 1. The Information Technology industry is still in its adolescent
  4976. phase (no longer its infancy, certainly), but maturing rapidly. As
  4977. industrial technology matures, it tends to stabilize into well-
  4978. understood, efficient patterns, with competition for innovations just
  4979. fizzing around the edges. Handling of multilingual text as part of
  4980. the general problem of automated information technology is still
  4981. in ferment, but we can see the beginnings of the crystallizations
  4982. of well-understood, accepted ways of dealing with the issues on
  4983. computers.
  4984.  
  4985. 2. Unicode is laying the (firm, we hope) foundation for plain text
  4986. representation through the next century--perhaps longer. In any
  4987. case, like ASCII, it should last long enough to gain the lustrous,
  4988. comfortable patina of trusted age. Just as my nieces now find it hard
  4989. to conceive of a political age before Ronald Reagan, people just
  4990. being introduced to computer science and programming in Java will
  4991. find it hard to conceive of character sets before Unicode.
  4992.  
  4993. --Ken (Color me rosy) Whistler
  4994.  
  4995. P.S. For those who, like me, worry that all electronic data
  4996. not in plain text (and ASCII plain text at that) is in constant
  4997. danger of disappearing into the enormous historical bit bucket
  4998. of undecipherable formats using undecipherable encodings on
  4999. obsolete media, consider the following: Perhaps the greatest source
  5000. of information loss in the longrun was the shift by the publishing
  5001. industry to use of cheap high-acid papers early in this century.
  5002. Ask librarians about the conditions of their pre-War collections
  5003. (my nieces just asked, "The Gulf war?") of books. Or how about
  5004. all the nitrate movie film stock collapsing into dust?
  5005.  
  5006. 28-May-97  1:36:52-GMT,2584;000000000001
  5007. Return-Path: <unicode@unicode.org>
  5008. Received: from unicode.org (unicode.org [192.195.185.2])
  5009.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id VAA24050
  5010.     for <fdc@watsun.cc.columbia.edu>; Tue, 27 May 1997 21:36:49 -0400 (EDT)
  5011. Received: by unicode.org (NX5.67g/NX3.0M)
  5012.     id AA25007; Tue, 27 May 97 18:18:07 -0700
  5013. Message-Id: <9705280118.AA25007@unicode.org>
  5014. Errors-To: uni-bounce@unicode.org
  5015. Mime-Version: 1.0
  5016. Content-Type: TEXT/PLAIN; charset=US-ASCII
  5017. X-Uml-Sequence: 2733 (1997-05-28 01:17:40 GMT)
  5018. To: Multiple Recipients of <unicode@unicode.org>
  5019. Reply-To: Giles S Martin <ulgsm@dewey.newcastle.edu.au>
  5020. From: "Unicode Discussion" <unicode@unicode.org>
  5021. Date: Tue, 27 May 1997 18:17:35 -0700 (PDT)
  5022. Subject: Re: Unstable foundations and wavering faith
  5023.  
  5024. It's getting a little off-topic, but ... .  Arguably the single 
  5025. event causing the greatest information loss was the destruction of the 
  5026. library at Alexandria, which broke countless links in chains of 
  5027. transmission of unique manuscripts.  Acid paper and nitrate film have 
  5028. destroyed lots of copies, but most information of any signnificance 
  5029. produced in this era has been reproduced in lots of copies, and 
  5030. procographically recopied at a trivial cost compared to the cost of 
  5031. copying a manuscript by hand (which is why there were so many unique 
  5032. copies in Alexandria).
  5033.  
  5034. Giles
  5035.  
  5036.           ####    ##       Giles Martin
  5037.        #######   ####      Quality Control Section
  5038.      #################     University of Newcastle Libraries
  5039.    ####################    New South Wales, Australia
  5040.    ###################*    E-mail: ulgsm@dewey.newcastle.edu.au
  5041.     #####      ## ###      Phone:   +61 49 215 828 (International)
  5042.                            Fax:     +61 49 215 833 (International)
  5043.                   ##
  5044.  The web of our life is of a mingled yarn, good and ill together
  5045.                         -- All's Well That Ends Well, IV.iii.98-99
  5046.  
  5047. On Tue, 27 May 1997, Kenneth Whistler wrote:
  5048.  
  5049. > P.S. For those who, like me, worry that all electronic data
  5050. > not in plain text (and ASCII plain text at that) is in constant
  5051. > danger of disappearing into the enormous historical bit bucket
  5052. > of undecipherable formats using undecipherable encodings on
  5053. > obsolete media, consider the following: Perhaps the greatest source
  5054. > of information loss in the longrun was the shift by the publishing
  5055. > industry to use of cheap high-acid papers early in this century.
  5056. > Ask librarians about the conditions of their pre-War collections
  5057. > (my nieces just asked, "The Gulf war?") of books. Or how about
  5058. > all the nitrate movie film stock collapsing into dust?
  5059.  
  5060. 28-May-97  2:32:39-GMT,3210;000000000001
  5061. Return-Path: <unicode@unicode.org>
  5062. Received: from unicode.org (unicode.org [192.195.185.2])
  5063.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id WAA01024
  5064.     for <fdc@watsun.cc.columbia.edu>; Tue, 27 May 1997 22:32:38 -0400 (EDT)
  5065. Received: by unicode.org (NX5.67g/NX3.0M)
  5066.     id AA25197; Tue, 27 May 97 18:53:00 -0700
  5067. Message-Id: <9705280153.AA25197@unicode.org>
  5068. Errors-To: uni-bounce@unicode.org
  5069. Mime-Version: 1.0
  5070. Content-Type: TEXT/PLAIN; charset=US-ASCII
  5071. X-Uml-Sequence: 2734 (1997-05-28 01:52:43 GMT)
  5072. To: Multiple Recipients of <unicode@unicode.org>
  5073. Reply-To: John Fieber <jfieber@indiana.edu>
  5074. From: "Unicode Discussion" <unicode@unicode.org>
  5075. Date: Tue, 27 May 1997 18:52:41 -0700 (PDT)
  5076. Subject: re:Multi-Lingual Project Gutenberg (was: Unicode plain text)
  5077.  
  5078. On Tue, 27 May 1997, Pierre Lewis <lew@nortel.ca>
  5079.  
  5080. > In message "re:Multi-Lingual Project Gutenberg (was: Unicode plain text)",
  5081. > 'jfieber@indiana.edu' writes:
  5082. > > > Es lebe plain text!  (long live ~)
  5083. > >
  5084. > > I find this a tragic position.  Before unicode, the common
  5085. > > denominator for cross-platform data transfer was 7 bit ASCII.
  5086. > Second, Unicode is something more or less orthogonal to the notion of
  5087. > plain text. So I don't really understand your comment above. Plain text
  5088. > does not mean 7-bit ASCII. It could just as well mean UTF-8 Unicode.
  5089.  
  5090. >From other replies I've received I guess I wasn't clear about my
  5091. point.  Within the domain of "plain text" Unicode is doing a lot
  5092. to raise the common denominator.  This is great, but a sentiment
  5093. has been expressed in this thread that higher level protocols are
  5094. a hopeless mess and if you want portability, stick with plain
  5095. text.  In the near term that may be a reality but Unicode was
  5096. born out of frustration with the existing mess of character
  5097. encoding standards and a determination to make things better.
  5098.  
  5099. I was simply making the observation that swearing off high level
  5100. protocols because they are messy now seems very out of character
  5101. with the spirit of Unicode.
  5102.  
  5103. To clarify another posting, I did not say or mean to imply that
  5104. higher level protocols should be addressed by the Unicode
  5105. standard.  That would be a Bad Thing for numerous reasons I'm
  5106. sure you can all figure out.
  5107.  
  5108. > Third, for all the great things that can be said for SGML, HTML, XML,
  5109. > and <whatever>ML, it still remains that plain text is the most portable
  5110. > format, the simplest to deal with (on all platforms), and the only one
  5111. > that is likely to be legible in 30 years. For some things, it's still
  5112. > the best solution.
  5113.  
  5114. Explain to me how SGML is less portable than plain text?  If you
  5115. don't have something that understand the tags, any reasonable
  5116. text editor can strip them out leaving you with plain text.  You
  5117. don't need anything fancier than a text editor to create and view
  5118. SGML documents. You are no *worse* off using SGML than you would
  5119. be using plain text, but chances are good that you will be better
  5120. off.  In 30 years, SGML will still be legible because, unlike
  5121. other markup schemes, it is a public standard not bound to a
  5122. particular transient software product.  This is why you find SGML
  5123. in places like the aircraft industry where documents have active
  5124. lifespans longer than most software companies. 
  5125.  
  5126. -john
  5127.  
  5128.  
  5129. 28-May-97  3:24:59-GMT,2803;000000000001
  5130. Return-Path: <unicode@unicode.org>
  5131. Received: from unicode.org (unicode.org [192.195.185.2])
  5132.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id XAA06051
  5133.     for <fdc@watsun.cc.columbia.edu>; Tue, 27 May 1997 23:24:58 -0400 (EDT)
  5134. Received: by unicode.org (NX5.67g/NX3.0M)
  5135.     id AA25358; Tue, 27 May 97 19:22:40 -0700
  5136. Message-Id: <9705280222.AA25358@unicode.org>
  5137. Errors-To: uni-bounce@unicode.org
  5138. Mime-Version: 1.0
  5139. Content-Type: TEXT/PLAIN; charset=US-ASCII
  5140. X-Uml-Sequence: 2736 (1997-05-28 02:21:41 GMT)
  5141. To: Multiple Recipients of <unicode@unicode.org>
  5142. Reply-To: John Fieber <jfieber@indiana.edu>
  5143. From: "Unicode Discussion" <unicode@unicode.org>
  5144. Date: Tue, 27 May 1997 19:21:39 -0700 (PDT)
  5145. Subject: Re: Unstable foundations and wavering faith
  5146.  
  5147. On Tue, 27 May 1997, Unicode Discussion wrote:
  5148.  
  5149. > --Ken (Color me rosy) Whistler
  5150. > P.S. For those who, like me, worry that all electronic data
  5151. > not in plain text (and ASCII plain text at that) is in constant
  5152. > danger of disappearing into the enormous historical bit bucket
  5153. > of undecipherable formats using undecipherable encodings on
  5154. > obsolete media, consider the following: Perhaps the greatest source
  5155. > of information loss in the longrun was the shift by the publishing
  5156. > industry to use of cheap high-acid papers early in this century.
  5157. > Ask librarians about the conditions of their pre-War collections
  5158.  
  5159. No need to worry about electronic data disappearing in the
  5160. future, it has been disappearing for quite some time now thanks
  5161. to being stored on flakey or obsolete media, or in undocumented
  5162. data formats of long extinct software.  In a former life as a
  5163. librarian, I spent quite a bit of time dealing with electronic
  5164. data sneaking into the library inside the back covers of books
  5165. and in other ways. 
  5166.  
  5167. Librarians have been fretting over digital data for some time
  5168. now.  Unlike computer scientists, we have been through the
  5169. preservation thing many times.  It is true, a book published in
  5170. the 1700 is as good as new (okay, I exagerate a bit...) while
  5171. relatively recent publications turn to dust thanks to cheap
  5172. paper.  Most of the computer science literature has been
  5173. published after the "acid incident" so as a discipline, they tend
  5174. to be are blissfully ignorant of the event. 
  5175.  
  5176. The problem is not really that data isn't in plain text format,
  5177. although that is sometimes helpful, but that the formats are (a) 
  5178. not documented and (b) there are way too many of them.  Even if
  5179. they were documented, condition (b) makes it too expensive to
  5180. deal with unless it is *really* important data.  SGML makes a
  5181. serious attack on both problems.  I just hope the marriage of
  5182. SGML and Unicode in the form of XML is successful in bringing
  5183. portable, durable documents to the masses.  Then continue ironing
  5184. out the storage media qirks and librarians will be happy.  :)
  5185.  
  5186. -john
  5187.  
  5188. 28-May-97  3:40:48-GMT,4183;000000000001
  5189. Return-Path: <unicode@unicode.org>
  5190. Received: from unicode.org (unicode.org [192.195.185.2])
  5191.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id XAA09453
  5192.     for <fdc@watsun.cc.columbia.edu>; Tue, 27 May 1997 23:40:48 -0400 (EDT)
  5193. Received: by unicode.org (NX5.67g/NX3.0M)
  5194.     id AA25292; Tue, 27 May 97 19:17:48 -0700
  5195. Message-Id: <9705280217.AA25292@unicode.org>
  5196. Errors-To: uni-bounce@unicode.org
  5197. Mime-Version: 1.0
  5198. Content-Type: text/plain; charset="ISO-8859-1"
  5199. X-Uml-Sequence: 2735 (1997-05-28 02:17:31 GMT)
  5200. To: Multiple Recipients of <unicode@unicode.org>
  5201. Reply-To: "Pierre Lewis" <lew@nortel.ca>
  5202. From: "Unicode Discussion" <unicode@unicode.org>
  5203. Date: Tue, 27 May 1997 19:17:30 -0700 (PDT)
  5204. Subject: re:Multi-Lingual Project Gutenberg (was: Unicode plain text)
  5205. Content-Transfer-Encoding: 8bit
  5206. X-MIME-Autoconverted: from quoted-printable to 8bit by watsun.cc.columbia.edu id XAA09453
  5207.  
  5208. In message "re:Multi-Lingual Project Gutenberg (was: Unicode plain text)",
  5209. 'jfieber@indiana.edu' writes:
  5210.  
  5211. > I was simply making the observation that swearing off high level
  5212. > protocols because they are messy now seems very out of character
  5213. > with the spirit of Unicode.
  5214.  
  5215. I don't see them as messy, just as short-lived. I don't perceive
  5216. HTML as messy, quite the opposite (notwithstanding frequent abuse by
  5217. authors such as using <Hn> tags to get bold/bigger), but I don't expect
  5218. to still use it in 30 years. For my part, I'm not swearing off high
  5219. level protocols, but I think a very good point can be made for plain
  5220. text, and I had a few questions I wished clarified wrt Unicode. That's
  5221. all.
  5222.  
  5223. > Explain to me how SGML is less portable than plain text?  If you
  5224. > don't have something that understand the tags, any reasonable
  5225. > text editor can strip them out leaving you with plain text.
  5226.  
  5227. I don't know SGML, but let's try the exercise with an HTML page I
  5228. wrote (chosen randomly amongst the ones I can show outside):
  5229.  
  5230. HTML source
  5231.  
  5232.    <H1><A NAME="_nr_9">Connecting an HP LaserJet 5M at home</A></H1>
  5233.    <EM>By Pierre Lewis (aka tΘlΘLew).</EM>
  5234.    <P>This short page provides some notes on using an HP LaserJet 5M
  5235.    connected to a home setup.
  5236.    If you have comments or encounter problems, don't hesitate to call me
  5237.    (x8207).
  5238.    <P>
  5239.    The description is specific to the HP LaserJet 5M. Some
  5240.    useful information can also be found on the page about
  5241.    <A HREF="lw2ntx.html">connecting a LaserWriter II NTX to a home NCD</A>.
  5242.    <H2><A NAME="_nr_21">Basic connectivity</A></H2>
  5243.    <UL>
  5244.    <P><LI>The normal way to connect the LJ5M to your home setup
  5245.    is via the Ethernet port.
  5246.    This requires some kind of hub to interconnect the Gandalf box, the NCD
  5247.  
  5248. Same with tags stripped (almost illegible: headings, bullets gone)
  5249.  
  5250.    Connecting an HP LaserJet 5M at home
  5251.    By Pierre Lewis (aka tΘlΘLew).
  5252.    This short page provides some notes on using an HP LaserJet 5M
  5253.    connected to a home setup.
  5254.    If you have comments or encounter problems, don't hesitate to call me
  5255.    (x8207).
  5256.  
  5257.    The description is specific to the HP LaserJet 5M. Some
  5258.    useful information can also be found on the page about
  5259.    connecting a LaserWriter II NTX to a home NCD.
  5260.    Basic connectivity
  5261.  
  5262.    The normal way to connect the LJ5M to your home setup
  5263.    is via the Ethernet port.
  5264.    This requires some kind of hub to interconnect the Gandalf box, the NCD
  5265.  
  5266. Same as a decent plain text file (formatted by lynx -- Tim's type 2)
  5267.  
  5268.                         Connecting an HP LaserJet 5M at home
  5269.  
  5270.       _By Pierre Lewis (aka tΘlΘLew)._
  5271.  
  5272.       This short page provides some notes on using an HP LaserJet 5M
  5273.       connected to a home setup. If you have comments or encounter
  5274.       problems, don't hesitate to call me (x8207).
  5275.  
  5276.       The description is specific to the HP LaserJet 5M. Some useful
  5277.       information can also be found on the page about [1]connecting a
  5278.       LaserWriter II NTX to a home NCD.
  5279.  
  5280.    Basic connectivity
  5281.  
  5282.         * The normal way to connect the LJ5M to your home setup is via
  5283.           the Ethernet port. This requires some kind of hub to
  5284.           interconnect the Gandalf box, the NCD
  5285.  
  5286.    ...
  5287.  
  5288.    References
  5289.  
  5290.       1. file://localhost/tmp/lw2ntx.html
  5291.  
  5292. Wonder what the SGML version of above would look like.
  5293.  
  5294. Pierre
  5295.  
  5296. 28-May-97 13:18:29-GMT,1533;000000000001
  5297. Return-Path: <unicode@unicode.org>
  5298. Received: from unicode.org (unicode.org [192.195.185.2])
  5299.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id JAA13596
  5300.     for <fdc@watsun.cc.columbia.edu>; Wed, 28 May 1997 09:18:28 -0400 (EDT)
  5301. Received: by unicode.org (NX5.67g/NX3.0M)
  5302.     id AA26845; Wed, 28 May 97 05:56:52 -0700
  5303. Message-Id: <9705281256.AA26845@unicode.org>
  5304. Errors-To: uni-bounce@unicode.org
  5305. Mime-Version: 1.0
  5306. Content-Type: text/plain; charset=us-ascii
  5307. Content-Transfer-Encoding: 7bit
  5308. X-Uml-Sequence: 2737 (1997-05-28 12:56:14 GMT)
  5309. To: Multiple Recipients of <unicode@unicode.org>
  5310. Reply-To: Kent Karlsson <keka@im.se>
  5311. From: "Unicode Discussion" <unicode@unicode.org>
  5312. Date: Wed, 28 May 1997 05:56:12 -0700 (PDT)
  5313. Subject: SGML (Was: Re: Multi-Lingual Project Gutenberg (was: Unicode plain text))
  5314.  
  5315. Hi!
  5316.  
  5317. Sorry for asking a maybe trivial question (and for
  5318. getting a bit off-track):
  5319.  
  5320. >  <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN"> 
  5321. >  which is English with HTML 3.2 markup
  5322.  
  5323. What "in English"?  English markup or English
  5324. "proper text"?
  5325.  
  5326. I could imagine (though there is none now)
  5327. HTML 3.2 markup in, say, Swedish.
  5328.  
  5329. But are you saying that if the "proper text"
  5330. of the document is in, say, Swedish, I should write
  5331. <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//SV">
  5332. at the top, even if the markup is "in English"?
  5333. (I thought that the "EN" meant that the
  5334. **markup** is based on English words.)
  5335.  
  5336. And language attributes are to become a part
  5337. of HTML, suitable also for multilingual
  5338. "proper texts"...
  5339.  
  5340.     (Sorry, I don't know SGML.)
  5341.         /kent k
  5342.  
  5343. 28-May-97 15:48:53-GMT,3968;000000000001
  5344. Return-Path: <unicode@unicode.org>
  5345. Received: from unicode.org (unicode.org [192.195.185.2])
  5346.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id LAA15268
  5347.     for <fdc@watsun.cc.columbia.edu>; Wed, 28 May 1997 11:48:47 -0400 (EDT)
  5348. Received: by unicode.org (NX5.67g/NX3.0M)
  5349.     id AA27338; Wed, 28 May 97 07:27:59 -0700
  5350. Message-Id: <9705281427.AA27338@unicode.org>
  5351. Errors-To: uni-bounce@unicode.org
  5352. X-Uml-Sequence: 2741 (1997-05-28 14:27:34 GMT)
  5353. To: Multiple Recipients of <unicode@unicode.org>
  5354. Reply-To: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  5355. From: "Unicode Discussion" <unicode@unicode.org>
  5356. Date: Wed, 28 May 1997 07:27:32 -0700 (PDT)
  5357. Subject: re:Multi-Lingual Project Gutenberg (was: Unicode plain text)
  5358.  
  5359. > From other replies I've received I guess I wasn't clear about my
  5360. > point.  Within the domain of "plain text" Unicode is doing a lot
  5361. > to raise the common denominator.  This is great, but a sentiment
  5362. > has been expressed in this thread that higher level protocols are
  5363. > a hopeless mess and if you want portability, stick with plain
  5364. > text.  In the near term that may be a reality but Unicode was
  5365. > born out of frustration with the existing mess of character
  5366. > encoding standards and a determination to make things better.
  5367. > I was simply making the observation that swearing off high level
  5368. > protocols because they are messy now seems very out of character
  5369. > with the spirit of Unicode.
  5370. Nobody advocates stamping out higher level protocols, even if that were
  5371. possible.  We all use them all the time.  I, for one, use them with my
  5372. eyes open -- i.e. with full knowledge that all the work I put into
  5373. creating a "rich" document will need to be done again at some point when
  5374. the current "standard" for richness has been replaced by a new one if I
  5375. want the document to survive.  And again.  And again.
  5376.  
  5377. I remember the excitement when it first became possible to produce
  5378. typeset-quality documents with Troff, R, DSR, Scribe, TeX, and their
  5379. relatives.  But I also continued to produce plain-text "documents" on a
  5380. daily basis: email; netnews; computer programs in assembly language,
  5381. Sail, Simula, C, Fortran, Pascal, PL/I, etc; online documentation that
  5382. had to be portable to hundreds of platforms; plain-text record-oriented
  5383. databases -- mailing lists for example.  There is no reason for most of
  5384. this sort of information to be "rich" and that this type of work should
  5385. not continue in Unicode.
  5386.  
  5387. What is needed is emphatic allowance and support for Unicode plain text
  5388. in the Unicode standard, i.e. a precise and thorough definition of what
  5389. constitutes a self-contained preformatted plain-text document.  This is
  5390. primarily a matter of adopting a small but complete set of control codes
  5391. needed for line breaks, paragraph breaks, page breaks, and direction
  5392. control (most of these are already there), and a clear statement of the
  5393. role of the "traditional" control characters at U+0000 - U+001F, U+007F,
  5394. and U+0100 - U+011F.
  5395.  
  5396. And outside the scope of the Unicode standard is the problem of properly
  5397. tagging files in the file system.  This has never been done right, on
  5398. any operating system.  The use of the "extension" (the part of the name
  5399. after the dot, e.g. "DOC") is just plain silly, especially now that
  5400. GUI-based operating systems are using this to associate applications
  5401. with files -- click on a data file, launch the associated application on
  5402. that file.  What's silly about it is that anybody can name a file any
  5403. way they please and there is no registration authority for extensions;
  5404. conflicts inevitably arise -- sometimes with disastrous consequences.
  5405. Even sillier is the idea the each file must belong to one and only one
  5406. application.
  5407.  
  5408. Plain text files can be used by many applications, but how do we mark
  5409. them as being written in Unicode?  Or Latin-1?  Or JIS X 0208, etc.
  5410. Ideally there should be information in the directory entry to specify
  5411. the file type and encoding.  That's an issue for each OS maker, but one
  5412. whose resolution is long overdue.
  5413.  
  5414. - Frank
  5415.  
  5416. 28-May-97 23:08:37-GMT,7018;000000000001
  5417. Return-Path: <jfieber@fallout.campusview.indiana.edu>
  5418. Received: from fallout.campusview.indiana.edu (fallout.campusview.indiana.edu [149.159.1.1])
  5419.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id TAA12580
  5420.     for <fdc@watsun.cc.columbia.edu>; Wed, 28 May 1997 19:08:34 -0400 (EDT)
  5421. Received: from localhost (jfieber@localhost)
  5422.     by fallout.campusview.indiana.edu (8.8.5/8.8.5) with SMTP id QAA04102;
  5423.     Wed, 28 May 1997 16:14:11 -0500 (EST)
  5424. Date: Wed, 28 May 1997 16:14:10 -0500 (EST)
  5425. From: John Fieber <jfieber@indiana.edu>
  5426. Reply-To: John Fieber <jfieber@indiana.edu>
  5427. To: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  5428. cc: Multiple Recipients of <unicode@unicode.org>
  5429. Subject: Plain text vs. markup (was: re:Multi-Lingual Project Gutenberg) 
  5430. In-Reply-To: <CMM.0.90.4.864829653.fdc@watsun.cc.columbia.edu>
  5431. Message-ID: <Pine.BSF.3.96.970528105611.29423S-100000@fallout.campusview.indiana.edu>
  5432. MIME-Version: 1.0
  5433. Content-Type: TEXT/PLAIN; charset=US-ASCII
  5434.  
  5435. On Wed, 28 May 1997, Frank da Cruz wrote:
  5436.  
  5437. > Nobody advocates stamping out higher level protocols, even if that were
  5438. > possible.  We all use them all the time.  I, for one, use them with my
  5439. > eyes open -- i.e. with full knowledge that all the work I put into
  5440. > creating a "rich" document will need to be done again at some point when
  5441. > the current "standard" for richness has been replaced by a new one if I
  5442. > want the document to survive.  And again.  And again.
  5443. >
  5444. > I remember the excitement when it first became possible to produce
  5445. > typeset-quality documents with Troff, R, DSR, Scribe, TeX, and their
  5446. > relatives.
  5447.  
  5448. The transient nature of these markup languages is not a trait of
  5449. markup languages, but a product of having a one-to-one
  5450. relationship between the markup language and a specific piece of
  5451. application software.  TeX files go with TeX, troff files go with
  5452. troff, Scribe files go with Scribe, WordPerfect files go with
  5453. WordPerfect, MS-Word files go with MS-Word.  If the application
  5454. falls out of favor, it takes its markup language and data with
  5455. it. 
  5456.  
  5457. Exactly the same thing happens if you depend on software that
  5458. uses its own unique character encoding, or the glyph encoding of
  5459. some oddball font.
  5460.  
  5461. It is percicely this fatal one-to-one markup/application
  5462. relationship that SGML is targeted at.  SGML is very different
  5463. beast and it is a mistake to throw it in with the rest.  Claiming
  5464. that SGML is just another transient markup language that doesn't
  5465. address document portability is similar to saying that Unicode is
  5466. just another transient character encoding scheme that doesn't
  5467. address multilingual computing.   Absurd?  Of course.
  5468.  
  5469. > But I also continued to produce plain-text "documents" on a
  5470. > daily basis: email; netnews; computer programs in assembly language,
  5471. > Sail, Simula, C, Fortran, Pascal, PL/I, etc;
  5472.  
  5473. I think we differ on the notion of "plain text" and "markup". 
  5474. Lets see. In email for example, what is the difference between
  5475. this markup: 
  5476.  
  5477.   From: jfieber@indiana.edu
  5478.   To: Whoever@somewhere
  5479.   Subject: la de da
  5480.  
  5481.   blah blah blah blah...
  5482.  
  5483. and this markup:
  5484.  
  5485.   <from>jfieber@indiana.edu</from>
  5486.   <to>Whoever@somewhere</to>
  5487.   <subject>la de da</subject>
  5488.  
  5489.   <body>blah blah blah blah...</body>
  5490.  
  5491. Semantically identical. Furthermore, the correct delivery of mail
  5492. and news depends critically on markup as does netnews.  However
  5493. you delimit it, it is still markup.  Same for the computer
  5494. languages. What are braces, semicolons, parentheses, and comment
  5495. delimiters in C if not markup to guide the compiler in parsing
  5496. the program?  Incidentally, most computer languages could be
  5497. expressed in SGML markup (although the utility would be dubious).
  5498.  
  5499. Unlike other markup languages, SGML makes no assumptions about
  5500. the processing application.  SGML merely provides a standard way
  5501. for an application to distinguish markup from data.  This allows
  5502. SGML to be used as a foundation for a much broader range of
  5503. applications and helps ensure a long life.  On the other hand, as
  5504. you may guess, SGML is not a complete solution--if typesetting is
  5505. your domain, for example, you will still need some software to do
  5506. the layout of your data (TeX works quite well)--but SGML serves
  5507. to protect your data from dependencies on specific applications.
  5508.  
  5509. That protection facilitates exchange between applications.  In
  5510. one case you feed your document to a typesetter, in another case
  5511. you feed it to a database, in a third case, an on-line document
  5512. viewer.  Portability between applications extrapolates to
  5513. portability across time.  HTML may be out of fashion in 20 years,
  5514. but any SGML compliant application can still process it even if
  5515. the degigners never heard of HTML.  (You might have to make up a
  5516. style sheet, but that is orders of magnitude easier than the
  5517. digital archaeology required to re-invent, say troff, from a
  5518. couple sample document.  SGML documents come with their own
  5519. rosetta stone--the DTD, or document type definition.)
  5520.  
  5521. In an SGML world, the data drives the application, not the other
  5522. way around as is the status quo currently.  That is the
  5523. fundamental shift that sets SGML apart from the other markup
  5524. languages cited here as examples of why markup languages are to
  5525. be avoided when document portability is a concern.
  5526.  
  5527. > What is needed is emphatic allowance and support for Unicode plain text
  5528. > in the Unicode standard, i.e. a precise and thorough definition of what
  5529. > constitutes a self-contained preformatted plain-text document.  This is
  5530. > primarily a matter of adopting a small but complete set of control codes
  5531. > needed for line breaks, paragraph breaks, page breaks, and direction
  5532. > control (most of these are already there), and a clear statement of the
  5533. > role of the "traditional" control characters at U+0000 - U+001F, U+007F,
  5534. > and U+0100 - U+011F.
  5535.  
  5536. I think the notion of "plain text" is a little muddy as these
  5537. sorts of codes represent markup that is conceptually no different
  5538. than, say, SGML.  I fully agree, however, that there is room and
  5539. a historical precedent for a small set of control (markup) codes
  5540. in Unicode, but getting people to agree on what constitues
  5541. "complete" is another matter.  :) 
  5542.  
  5543. I would propose that "complete" be defined as a minimal set of
  5544. markup codes necessary to make a document understandable by a
  5545. human without resorting to anything outside the Unicode standard.
  5546. Machine processing, beyond doing the Right Thing with whitespace
  5547. should not be a criteria. Except for directional control, most of
  5548. the necessary markup should be covered by addressing
  5549. compatibility with ASCII, although clarification would be
  5550. helpful. 
  5551.  
  5552. > Plain text files can be used by many applications, but how do we mark
  5553. > them as being written in Unicode?  Or Latin-1?  Or JIS X 0208, etc.
  5554.  
  5555. SGML offers some options here by hiding file system (or any
  5556. storage mechanism) behind an entity manager which provides for
  5557. such tagging.  The details are not currently covered by the
  5558. standard (which treats the entity manager pretty much as a black
  5559. box), but the entity manager in James Clark's SP system offers a
  5560. good example of how it might be done. 
  5561.  
  5562. -john
  5563.  
  5564.  
  5565.  
  5566. 28-May-97 23:24:54-GMT,4953;000000000001
  5567. Return-Path: <unicode@unicode.org>
  5568. Received: from unicode.org (unicode.org [192.195.185.2])
  5569.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id TAA14930
  5570.     for <fdc@watsun.cc.columbia.edu>; Wed, 28 May 1997 19:24:53 -0400 (EDT)
  5571. Received: by unicode.org (NX5.67g/NX3.0M)
  5572.     id AA29376; Wed, 28 May 97 15:30:28 -0700
  5573. Message-Id: <9705282230.AA29376@unicode.org>
  5574. Errors-To: uni-bounce@unicode.org
  5575. X-Uml-Sequence: 2747 (1997-05-28 22:29:45 GMT)
  5576. To: Multiple Recipients of <unicode@unicode.org>
  5577. Reply-To: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  5578. From: "Unicode Discussion" <unicode@unicode.org>
  5579. Date: Wed, 28 May 1997 15:29:43 -0700 (PDT)
  5580. Subject: Re: Plain text vs. markup (was: re:Multi-Lingual Project Gutenberg)
  5581.  
  5582. > It is percicely this fatal one-to-one markup/application
  5583. > relationship that SGML is targeted at.  SGML is very different
  5584. > beast and it is a mistake to throw it in with the rest.  Claiming
  5585. > that SGML is just another transient markup language that doesn't
  5586. > address document portability ...
  5587. >
  5588. I don't think anybody did that.  But this does not mean SGML can
  5589. be used for everything. 
  5590.  
  5591. > Unlike other markup languages, SGML makes no assumptions about
  5592. > the processing application.
  5593. >
  5594. Except that it can parse SGML.  I'm not arguing against SGML --
  5595. quite the opposite: I'm heavily in favor of (almost) anything that
  5596. has survived the international standards process AND sees use in
  5597. the real world, as opposed to schemes that companies make up and
  5598. unilaterally proclaim to be standards.
  5599.  
  5600. But SGML is to mark up text for later formatting to fit the
  5601. requirements of some output device or application that understands
  5602. this kind of markup.  As distinguished from plain text as we have
  5603. known it since the 1960s, in which a repertoire of graphic
  5604. characters is mixed with a small number of control codes (call
  5605. them markup if you wish) for simple actions like line breaks and
  5606. so on, in order to achieve the *final* result, not (necessarily) to
  5607. be input for a higher-level reformatter.
  5608.  
  5609. > I would propose that "complete" be defined as a minimal set of
  5610. > markup codes necessary to make a document understandable by a
  5611. > human without resorting to anything outside the Unicode standard.
  5612. > Machine processing, beyond doing the Right Thing with whitespace
  5613. > should not be a criteria. Except for directional control, most of
  5614. > the necessary markup should be covered by addressing
  5615. > compatibility with ASCII, although clarification would be
  5616. > helpful. 
  5617. Right.  Something like the following (ignoring BIDI for the moment):
  5618.  
  5619.  . LS is a hard line break.  The next graphic character appears
  5620.    at the left margin of the following line.  Equivalent to CR and
  5621.    LF on a Teletype.
  5622.  
  5623.  . Two LSs result in a blank line.
  5624.  
  5625.  . Three LSs result in two blank lines, and so on.
  5626.  
  5627.  . PS is a hard paragraph break (more about this below).
  5628.  
  5629.  . <FS> (form separator), whatever its instantiation (a new
  5630.    Unicode character, or ASCII Formfeed with a well-defined use in
  5631.    Unicode), starts a new page.  The next graphic character
  5632.    appears on the top line, leftmost position of the new page.
  5633.  
  5634.  . Two FSs result in a blank page, and so on.
  5635.  
  5636. Plus whatever is needed for specifying writing direction,
  5637. including expanding on what is meant by "left", "top", etc, in the
  5638. preceding items.
  5639.  
  5640. That should do it.  Personally, I find text to be most portable
  5641. when it is displayed in fixed-width font, and spaces are used to
  5642. line things up, rather than tabs (because tabs require external
  5643. agreement about the tab settings).  I don't think Vertical Tab or
  5644. other obscure formatting controls (such as Line Feed taken
  5645. literally) are of any use; in my experience they have always been
  5646. treated as "synonyms" for the controls listed above.
  5647.  
  5648. Then what to do about ASCII controls in Unicode text?  I'd say
  5649. that since ASCII (and Latin-x, etc) must be converted to Unicode,
  5650. then it is the responsibility of the conversion agent to
  5651. understand the local conventions for line breaks (etc) in the
  5652. source text, and to convert to the well-defined Unicode controls.
  5653.  
  5654. About Paragraph Separator...  It seems to me that this one was
  5655. designed with the "export from word processor" type of file in
  5656. mind (those files we were discussing earlier in which each
  5657. paragraph is a long line, terminated by a "paragraph separator"
  5658. such as CR).  I would not call this type of file plain text --
  5659. I would call it "input for a text formatter"; it needs further
  5660. processing to be readable.  (For example, if I print such a file
  5661. on the local Laserwriter, the long lines are truncated -- thus
  5662. I only see the first 80 characters of each paragraph.)
  5663.  
  5664. Clearly we can become increasingly epistemological about what
  5665. constitutes plain text (yes, C source code is input for a C
  5666. compiler, but it is also text to be read, understood, and edited
  5667. by people, sent by email without being reformatted, etc).
  5668.  
  5669. And obviously some details still need working out: treatment of
  5670. soft hyphens and such.  But I think we're on the right track.
  5671.  
  5672. - Frank
  5673.  
  5674. 29-May-97  4:14:06-GMT,3937;000000000001
  5675. Return-Path: <jfieber@fallout.campusview.indiana.edu>
  5676. Received: from fallout.campusview.indiana.edu (fallout.campusview.indiana.edu [149.159.1.1])
  5677.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id AAA24371
  5678.     for <fdc@watsun.cc.columbia.edu>; Thu, 29 May 1997 00:14:05 -0400 (EDT)
  5679. Received: from localhost (jfieber@localhost)
  5680.     by fallout.campusview.indiana.edu (8.8.5/8.8.5) with SMTP id XAA06831;
  5681.     Wed, 28 May 1997 23:14:04 -0500 (EST)
  5682. Date: Wed, 28 May 1997 23:14:03 -0500 (EST)
  5683. From: John Fieber <jfieber@indiana.edu>
  5684. To: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  5685. cc: Multiple Recipients of <unicode@unicode.org>
  5686. Subject: Re: Plain text vs. markup (was: re:Multi-Lingual Project Gutenberg)
  5687. In-Reply-To: <CMM.0.90.4.864858134.fdc@watsun.cc.columbia.edu>
  5688. Message-ID: <Pine.BSF.3.96.970528222952.29423T-100000@fallout.campusview.indiana.edu>
  5689. MIME-Version: 1.0
  5690. Content-Type: TEXT/PLAIN; charset=US-ASCII
  5691.  
  5692. On Wed, 28 May 1997, Frank da Cruz wrote:
  5693.  
  5694. > > It is percicely this fatal one-to-one markup/application
  5695. > > relationship that SGML is targeted at.  SGML is very different
  5696. > > beast and it is a mistake to throw it in with the rest.  Claiming
  5697. > > that SGML is just another transient markup language that doesn't
  5698. > > address document portability ...
  5699.  
  5700. > I don't think anybody did that.  But this does not mean SGML can
  5701. > be used for everything. 
  5702.  
  5703. No, but its useful range of applications is quite a bit wider
  5704. than any other markup scheme I know of.  That helps a lot in
  5705. building a solid foundation that won't fade away.
  5706.  
  5707. > But SGML is to mark up text for later formatting to fit the
  5708. > requirements of some output device or application that understands
  5709. > this kind of markup.
  5710.  
  5711. SGML is explicitly *not* about text formatting.  It is about
  5712. marking up documents describing what content *is*, not what to do
  5713. with it. If markup represents typesetting instructions, that
  5714. markup is good for little else.  If your markup describes what
  5715. the content is, you have far more options.
  5716.  
  5717. For example, the introduction of a new term in a technical manual
  5718. may be rendered in italics.  You could mark it up like: <it>new
  5719. term</it> which would be fine if the end target is a typesetter,
  5720. but if you mark it up with: <firstterm>new term</firstterm>, you
  5721. can still render it as italic, but you can also automatically add
  5722. it to the index as the defining location of the term, or in an
  5723. on-line environment if you encounter a unfamiliar term, the
  5724. search engine can seek out the defining occurence if it exists.
  5725.  
  5726. But back to your point:
  5727.  
  5728. > As distinguished from plain text as we have
  5729. ...
  5730. > so on, in order to achieve the *final* result, not (necessarily) to
  5731. > be input for a higher-level reformatter.
  5732.  
  5733. Yes, though I would argue at length why SGML markup is well worth
  5734. the extra effort, I'll also agree that this minimalist approach
  5735. to document portability deserves support.
  5736.  
  5737. > Then what to do about ASCII controls in Unicode text?  I'd say
  5738. > that since ASCII (and Latin-x, etc) must be converted to Unicode,
  5739. > then it is the responsibility of the conversion agent to
  5740. > understand the local conventions for line breaks (etc) in the
  5741. > source text, and to convert to the well-defined Unicode controls.
  5742.  
  5743. The only hitch for 7-bit ASCII is utf-8, which can be seen as a
  5744. convenient way to avoid the explicit conversion process of legacy
  5745. data.  If your external storage is utf-8, how can you reliably
  5746. tell what has been converted and what has not?
  5747.  
  5748. > Clearly we can become increasingly epistemological about what
  5749. > constitutes plain text (yes, C source code is input for a C
  5750. > compiler, but it is also text to be read, understood, and edited
  5751. > by people, sent by email without being reformatted, etc).
  5752.  
  5753. After pondering it for awhile, I cut that section out of my last
  5754. post. :)  One sentence summary: some markup scheme cater to human
  5755. processing, others to machine processing, and yet others, most
  5756. notably programming languages, work hard to satisfy both needs.
  5757.  
  5758. -john
  5759.  
  5760. 29-May-97 14:32:08-GMT,1718;000000000001
  5761. Return-Path: <unicode@unicode.org>
  5762. Received: from unicode.org (unicode.org [192.195.185.2])
  5763.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id KAA14517
  5764.     for <fdc@watsun.cc.columbia.edu>; Thu, 29 May 1997 10:32:07 -0400 (EDT)
  5765. Received: by unicode.org (NX5.67g/NX3.0M)
  5766.     id AA01680; Thu, 29 May 97 06:53:02 -0700
  5767. Message-Id: <9705291353.AA01680@unicode.org>
  5768. Errors-To: uni-bounce@unicode.org
  5769. X-Uml-Sequence: 2753 (1997-05-29 13:52:26 GMT)
  5770. To: Multiple Recipients of <unicode@unicode.org>
  5771. Reply-To: "Pierre Lewis" <lew@nortel.ca>
  5772. From: "Unicode Discussion" <unicode@unicode.org>
  5773. Date: Thu, 29 May 1997 06:52:24 -0700 (PDT)
  5774. Subject: Re: Plain text vs. markup (was: re:Multi-Lingual Project Gutenberg)
  5775.  
  5776. In message "Re: Plain text vs. markup (was: re:Multi-Lingual Project Gutenberg)",
  5777. 'fdc@watsun.cc.columbia.edu' writes:
  5778.  
  5779. > Right.  Something like the following (ignoring BIDI for the moment):
  5780. > ... (details removed)
  5781.  
  5782. BIDI is what I think makes it difficult. Without BIDI, I would be tempted
  5783. to stick to local Unix/MAC/DOS conventions for C0 chars, add maybe BOM and
  5784. ISS (or whatever).
  5785.  
  5786. But BIDI works in blocks. Currently both LS and PS are block separators.
  5787. It's been said here that probably LS shouldn't be a BIDI block separator.
  5788. That leaves PS. And I have to use it (in partic. if I have both right-
  5789. and left-aligned sections). So can I mix PS with LS (or LF) and FF? Looks
  5790. funny.
  5791.  
  5792. Maybe it is an error to have PS function as both a paragraph separator
  5793. (whatever that is -- I too feel it probably comes from WP context) *and*
  5794. a BIDI block separator.
  5795.  
  5796. Maybe it would have been better to have a BIDI block separator as a
  5797. separate Unicode control char, independant of any formatting intents.
  5798.  
  5799. Just a thought,
  5800.  
  5801. Pierre
  5802.  
  5803.  6-Jun-97  2:39:06-GMT,3185;000000000001
  5804. Return-Path: <unicode@unicode.org>
  5805. Received: from mail-out1.apple.com (A17-254-0-52.apple.com [17.254.0.52])
  5806.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id WAA10937
  5807.     for <fdc@watsun.cc.columbia.edu>; Thu, 5 Jun 1997 22:39:05 -0400 (EDT)
  5808. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  5809.     by mail-out1.apple.com (8.8.5/8.8.5) with SMTP id TAA14624;
  5810.     Thu, 5 Jun 1997 19:25:14 -0700
  5811. Received: by unicode.org (NX5.67g/NX3.0S)
  5812.     id AA00269; Thu, 5 Jun 97 19:21:45 -0700
  5813. Message-Id: <9706060221.AA00269@unicode.org>
  5814. Errors-To: uni-bounce@unicode.org
  5815. Mime-Version: 1.0
  5816. Content-Type: text/plain; charset=iso-2022-jp
  5817. Content-Transfer-Encoding: 7bit
  5818. X-Uml-Sequence: 2832 (1997-06-06 02:21:05 GMT)
  5819. To: Multiple Recipients of <unicode@unicode.org>
  5820. Reply-To: Adrian Havill <havill@threeweb.ad.jp>
  5821. From: "Unicode Discussion" <unicode@unicode.org>
  5822. Date: Thu, 5 Jun 1997 19:21:03 -0700 (PDT)
  5823. Subject: Re: Comments on <draft-ietf-acap-mlsf-00.txt>?
  5824.  
  5825. Tim Partridge wrote:
  5826. > I agree with his point of view that the tags
  5827. > should be at the character level and not just
  5828. > in the UTF-8 format.
  5829. > How about using Escape sequences?
  5830.  
  5831. Ugh. The relatively few escape sequences at the character level is what
  5832. makes Unicode so ATTRACTIVE, esp. to those that currently use escape
  5833. sequence based character sets. (Tools to repair broken escape codes in
  5834. JIS are almost standard equipment with most Japanese computer systems)
  5835. Not to mention the complexity they add to simple and elegant string
  5836. manipulation functions... processing escape codes can sometimes bump the
  5837. algorithm efficiency up by one O() level.
  5838.  
  5839. Put in escape codes at the character level, and Unicode begins to lose
  5840. the simplicity factor, and becomes just another mammoth character set
  5841. that nobody can or will implement--there are plenty out there. If I
  5842. wanted escape sequences, I could choose from a lot of other character
  5843. sets that are already out there. 
  5844.  
  5845. If you want a complicated character system that does tags and
  5846. everything, there are plenty to choose from-- Unicode basher Prof. Ken
  5847. Sakamura (U. of Tokyo) and Co. would be more than happy to tout the
  5848. virtues of TRON, which is loaded with escape sequences galore. The TRON
  5849. project has made a religion out of bad-mouthing Unicode, much like the
  5850. computer industry has made a religion out of bad-mouthing a certain
  5851. software firm in Redmond, Washington (who make a darn fine Unicode based
  5852. OS, I might add). They have to-- they have to justify that the years of
  5853. blood, sweat, tears (and most importantly, money) they've used making
  5854. -their- worldwide standard character set has not repeated work that's
  5855. already here and in use and better.
  5856.  
  5857. (see
  5858. <URL:http://www.personal-media.co.jp/vs/mltp96/keynote/keynote_e.html>
  5859. and
  5860. <URL:http://www.super-nova.co.jp/tronshow96/html_e/multi.html>)
  5861.  
  5862. Granted, Unicode is complicated. It will get more complicated. This is a
  5863. fact of life as representing languages is complicated. But I'd hope the
  5864. character level stays as simple as possible, for those that need
  5865. simplicity.
  5866.  
  5867. I do NOT agree that tags should be at the character level.
  5868. -- 
  5869. Adrian Havill <URL:http://www.threeweb.ad.jp/>
  5870. Engineering Division, System Planning & Production Section
  5871.  
  5872.  6-Jun-97 14:37:44-GMT,2109;000000000011
  5873. Return-Path: <unicode@unicode.org>
  5874. Received: from mail-out1.apple.com (A17-254-0-52.apple.com [17.254.0.52])
  5875.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id KAA18800
  5876.     for <fdc@watsun.cc.columbia.edu>; Fri, 6 Jun 1997 10:37:43 -0400 (EDT)
  5877. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  5878.     by mail-out1.apple.com (8.8.5/8.8.5) with SMTP id HAA12466;
  5879.     Fri, 6 Jun 1997 07:22:02 -0700
  5880. Received: by unicode.org (NX5.67g/NX3.0S)
  5881.     id AA02593; Fri, 6 Jun 97 07:16:28 -0700
  5882. Message-Id: <9706061416.AA02593@unicode.org>
  5883. Errors-To: uni-bounce@unicode.org
  5884. X-Uml-Sequence: 2847 (1997-06-06 14:14:18 GMT)
  5885. To: Multiple Recipients of <unicode@unicode.org>
  5886. Reply-To: "Pierre Lewis" <lew@nortel.ca>
  5887. From: "Unicode Discussion" <unicode@unicode.org>
  5888. Date: Fri, 6 Jun 1997 07:14:17 -0700 (PDT)
  5889. Subject: Re: Comments on <draft-ietf-acap-mlsf-00.txt>?
  5890.  
  5891. In message "Re: Comments on <draft-ietf-acap-mlsf-00.txt>?",
  5892. 'glenn@spyglass.com' writes:
  5893.  
  5894. > I'd like to briefly summarize some of the positions taken on various
  5895. > sides in this discussion.
  5896.  
  5897. Thanks, very useful (esp. for one who didn't have the time to read
  5898. all the posts carefully).
  5899.  
  5900. I haven't read the MLSF yet (will do this weekend), but I'm sure I
  5901. still won't agree with putting this tagging in UTF-8. UTF-8 is nothing
  5902. more than one of many possible transformation formats, and it must
  5903. always be possible to move between it and UCS-2 and other UTFs. Filters
  5904. surely will (and almost certainly already do) exist to transform
  5905. between these various CESs. What would they do with language tagging?
  5906.  
  5907. > My personal position on the above is that an alternative non-UCD (i.e.,
  5908. > standard code assignment) approach is preferred. Its only negatives are
  5909. > (a) opposition from (1) above and (b) the time required to make actual
  5910. > code assignments.
  5911.  
  5912. Sounds to me like the only possible approach, assuming language tagging
  5913. is needed at the plain-text level (I don't have the knowledge to comment
  5914. on that).
  5915.  
  5916. Pierre
  5917.  
  5918. P.S. What happened to the "unicode plain-text file" thread? Seems it
  5919. died very suddenly (with no closure)! Maybe it was displaced by this
  5920. new thread :-).
  5921.  
  5922.  6-Jun-97 15:15:46-GMT,1789;000000000001
  5923. Return-Path: <unicode@unicode.org>
  5924. Received: from mail-out1.apple.com (A17-254-0-52.apple.com [17.254.0.52])
  5925.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id LAA26420
  5926.     for <fdc@watsun.cc.columbia.edu>; Fri, 6 Jun 1997 11:15:45 -0400 (EDT)
  5927. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  5928.     by mail-out1.apple.com (8.8.5/8.8.5) with SMTP id IAA11222;
  5929.     Fri, 6 Jun 1997 08:03:32 -0700
  5930. Received: by unicode.org (NX5.67g/NX3.0S)
  5931.     id AA02791; Fri, 6 Jun 97 07:57:13 -0700
  5932. Message-Id: <9706061457.AA02791@unicode.org>
  5933. Errors-To: uni-bounce@unicode.org
  5934. X-Uml-Sequence: 2848 (1997-06-06 14:56:16 GMT)
  5935. To: Multiple Recipients of <unicode@unicode.org>
  5936. Reply-To: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  5937. From: "Unicode Discussion" <unicode@unicode.org>
  5938. Date: Fri, 6 Jun 1997 07:56:15 -0700 (PDT)
  5939. Subject: Re: Comments on <draft-ietf-acap-mlsf-00.txt>?
  5940.  
  5941. > P.S. What happened to the "unicode plain-text file" thread? Seems it
  5942. > died very suddenly (with no closure)! Maybe it was displaced by this
  5943. > new thread :-).
  5944. It seems as if this is trying to become a plain-text issue.  I hope not.
  5945. Plain text is supposed to be a simple sequence of *characters* and minimal
  5946. formatting information (hard spaces, line breaks, page breaks, and in the
  5947. case of Unicode, directionality indicators), irrespective of language,
  5948. containing no mysterious metacodes.  (Let's agree that hard line and page
  5949. breaks are not mysterious metacodes.)
  5950.  
  5951. In view of the temperature surrounding the language-tagging issue, the
  5952. solution is not going to be simple or stable or soon to come, and therefore
  5953. I believe it falls outside the scope of plain text, which by definition
  5954. should be simple and stable and long-lasting.  Language tags will be
  5955. constantly changing and surrounded by politics and emotion.
  5956.  
  5957. - Frank
  5958.  
  5959.  7-Jun-97 16:38:53-GMT,1467;000000000001
  5960. Return-Path: <unicode@unicode.org>
  5961. Received: from mail-out2.apple.com (A17-254-0-51.apple.com [17.254.0.51])
  5962.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id MAA02679
  5963.     for <fdc@watsun.cc.columbia.edu>; Sat, 7 Jun 1997 12:38:52 -0400 (EDT)
  5964. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  5965.     by mail-out2.apple.com (8.8.5/8.8.5) with SMTP id JAA07384;
  5966.     Sat, 7 Jun 1997 09:27:30 -0700
  5967. Received: by unicode.org (NX5.67g/NX3.0S)
  5968.     id AA07340; Sat, 7 Jun 97 09:24:48 -0700
  5969. Message-Id: <9706071624.AA07340@unicode.org>
  5970. Errors-To: uni-bounce@unicode.org
  5971. X-Uml-Sequence: 2857 (1997-06-07 16:24:32 GMT)
  5972. To: Multiple Recipients of <unicode@unicode.org>
  5973. Reply-To: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  5974. From: "Unicode Discussion" <unicode@unicode.org>
  5975. Date: Sat, 7 Jun 1997 09:24:30 -0700 (PDT)
  5976. Subject: Re: Plane 14 codes for language tagging?
  5977.  
  5978. > > > My personal preference is for number 2. I kind of like Martin's proposal 
  5979. > > > for introducing a plain-text language tag using a control code, and I 
  5980. > > > think the existing control codes are fine.
  5981. > Good idea. Indeed the C1 area is not used in the Internet as far as I know.
  5982. There are still such things as terminals that use C1 control codes such as
  5983. CSI, APC, OSC, etc (primarily VT220 and higher, which are the predominant
  5984. types used by emulators such Kermit, Xterm, DECterm, etc).  Do we intend that
  5985. Unicode and terminal-to-host communication will become mutually exclusive
  5986. concepts?
  5987.  
  5988. - Frank
  5989.  
  5990.  7-Jun-97 17:14:31-GMT,1996;000000000011
  5991. Return-Path: <mduerst@ifi.unizh.ch>
  5992. Received: from josef.ifi.unizh.ch (josef.ifi.unizh.ch [130.60.48.10])
  5993.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with SMTP id NAA07882
  5994.     for <fdc@watsun.cc.columbia.edu>; Sat, 7 Jun 1997 13:14:30 -0400 (EDT)
  5995. Received: from ifi.unizh.ch by josef.ifi.unizh.ch with SMTP (PP) 
  5996.           id <18036-0@josef.ifi.unizh.ch>; Sat, 7 Jun 1997 19:14:30 +0200
  5997. Date: Sat, 7 Jun 1997 19:14:28 +0200 (MET DST)
  5998. From: "Martin J. Duerst" <mduerst@ifi.unizh.ch>
  5999. Sender: mduerst@enoshima
  6000. To: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  6001. cc: Multiple Recipients of <unicode@unicode.org>,
  6002.         MLSF discussion -- IETF Languages <ietf-languages@uninett.no>,
  6003.         Multiple Recipients of <unicode@unicode.org>
  6004. Subject: Re: Plane 14 codes for language tagging?
  6005. In-Reply-To: <CMM.0.90.4.865700692.fdc@watsun.cc.columbia.edu>
  6006. Message-ID: <Pine.SUN.3.96.970607191125.6204A-100000@enoshima>
  6007. MIME-Version: 1.0
  6008. Content-Type: TEXT/PLAIN; charset=US-ASCII
  6009.  
  6010. On Sat, 7 Jun 1997, Frank da Cruz wrote:
  6011.  
  6012. > > > > My personal preference is for number 2. I kind of like Martin's proposal 
  6013. > > > > for introducing a plain-text language tag using a control code, and I 
  6014. > > > > think the existing control codes are fine.
  6015. > > 
  6016. > > Good idea. Indeed the C1 area is not used in the Internet as far as I know.
  6017. > > 
  6018. > There are still such things as terminals that use C1 control codes such as
  6019. > CSI, APC, OSC, etc (primarily VT220 and higher, which are the predominant
  6020. > types used by emulators such Kermit, Xterm, DECterm, etc).  Do we intend that
  6021. > Unicode and terminal-to-host communication will become mutually exclusive
  6022. > concepts?
  6023.  
  6024. Frank - I understand your concerns. But one way of looking at what we
  6025. need is some tagging format possibly used in ACAP and IMAP, which
  6026. MUST not leak to other places. And what you probably worry about
  6027. is the C1 area in terms of octets (which is already gone with UTF-8)
  6028. and not the C1 character space in Unicode, which turns up as two bytes
  6029. in UTF-8.
  6030.  
  6031. Regards,    Martin.
  6032.  
  6033.  8-Jun-97  8:27:08-GMT,2730;000000000001
  6034. Return-Path: <unicode@unicode.org>
  6035. Received: from mail-out1.apple.com (mail-out1.apple.com [17.254.0.52])
  6036.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id EAA06491
  6037.     for <fdc@watsun.cc.columbia.edu>; Sun, 8 Jun 1997 04:27:07 -0400 (EDT)
  6038. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  6039.     by mail-out1.apple.com (8.8.5/8.8.5) with SMTP id BAA08438;
  6040.     Sun, 8 Jun 1997 01:14:24 -0700
  6041. Received: by unicode.org (NX5.67g/NX3.0S)
  6042.     id AA09568; Sun, 8 Jun 97 01:11:13 -0700
  6043. Message-Id: <9706080811.AA09568@unicode.org>
  6044. Errors-To: uni-bounce@unicode.org
  6045. X-Uml-Sequence: 2866 (1997-06-08 08:10:50 GMT)
  6046. To: Multiple Recipients of <unicode@unicode.org>
  6047. Reply-To: "Pierre Lewis" <lew@nortel.ca>
  6048. From: "Unicode Discussion" <unicode@unicode.org>
  6049. Date: Sun, 8 Jun 1997 01:10:49 -0700 (PDT)
  6050. Subject: Re: Comments on <draft-ietf-acap-mlsf-00.txt>
  6051.  
  6052. Finally got around to reading the MLSF Internet Draft.
  6053. Couple of comments:
  6054.  
  6055. 1) One thing really made me jump: the first sentence in the Abstract.
  6056.  
  6057.       "While UTF-8 solves most internationalization (I18N) problems, ..."
  6058.  
  6059.    That makes as much sense to me as saying that QuotedPrintable solves
  6060.    most I18N problems for Western Europe. It's not QP which does that,
  6061.    it's ISO 8859-1. QP is just one way to encode 8859-1 text so it can
  6062.    past most mail relays without corruption. But Base64 is another
  6063.    way to do the same thing (which can make statistical sense for some
  6064.    languages).
  6065.  
  6066.    Similarly, it's not UTF-8 which solves the wider problem of
  6067.    world-wide I18N, it's Unicode (and/or ISO 10646). The canonical
  6068.    representation of Unicode is 16-bit quantities (UCS-2). UTF-8 is
  6069.    nothing more than one of many possible transformations (UTF-7 is
  6070.    another that's already defined: RFC 2152). If I understood right,
  6071.    UTF-8 was created mainly to make Unicode coexist reasonably well
  6072.    with existing OSs that use 8-bit characters, for example Unix.
  6073.  
  6074.    Not that I agree with the proposal, but the MLSF Internet Draft
  6075.    should make clear what the implications are of trying to put
  6076.    language tags into UTF-8 (for example, assumption that UTF-8 becomes
  6077.    the canonical representation of Unicode, loss of tagging when
  6078.    converting to other CESs). I guess the pros and cons have been
  6079.    discussed at length here.
  6080.  
  6081. 2) It would have been nice to put a few examples of actual UTF-8 strings
  6082.    with language tags (in hex of course) in the document.
  6083.  
  6084. As to the fundamental issue of whether language tagging belongs in
  6085. plain-text Unicode, I must say I'm pretty neutral at this point. I
  6086. think they could be useful. But, as Frank was saying, if it's going
  6087. to take 10 years to converge to an acceptable solution, then it
  6088. doesn't belong in plain text, but at a higher level.
  6089.  
  6090. Pierre
  6091.  
  6092.  9-Jun-97  3:10:12-GMT,1193;000000000001
  6093. Return-Path: <glenn@spyglass.com>
  6094. Received: from cam.spyglass.com (sapir.cam.spyglass.com [208.203.148.66])
  6095.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id XAA24496
  6096.     for <fdc@watsun.cc.columbia.edu>; Sun, 8 Jun 1997 23:10:11 -0400 (EDT)
  6097. Received: from mykhe.cam.spyglass.com (shivacam-1.cam.spyglass.com [208.203.149.181]) by cam.spyglass.com (8.7.5/8.7.3) with SMTP id XAA00525 for <fdc@watsun.cc.columbia.edu>; Sun, 8 Jun 1997 23:10:22 -0400 (EDT)
  6098. Message-Id: <3.0.32.19970608224316.006e9e50@mailhost.cam.spyglass.com>
  6099. X-Sender: glenn@mailhost.cam.spyglass.com
  6100. X-Mailer: Windows Eudora Pro Version 3.0 (32)
  6101. Date: Sun, 08 Jun 1997 22:57:16 -0400
  6102. To: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  6103. From: Glenn Adams <glenn@spyglass.com>
  6104. Subject: Re: Plane 14 codes for language tagging?
  6105. Mime-Version: 1.0
  6106. Content-Type: text/plain; charset="us-ascii"
  6107.  
  6108. At 10:32 AM 6/7/97 -0700, you wrote:
  6109. >and escape sequences would take in a "Unicode terminal"?  Would it use
  6110. >octets or hextets?
  6111.  
  6112. The Unicode standard is clear that escape sequences and controls in
  6113. canonical Unicode are encoded using 16-bit codes.  Of course another encoding
  6114. system which employs Unicode may choose a different tack.
  6115.  
  6116. G.
  6117.  
  6118.  4-Jul-97  0:38:37-GMT,4502;000000000001
  6119. Return-Path: <unicode@unicode.org>
  6120. Received: from mail-out2.apple.com (mail-out2.apple.com [17.254.0.51])
  6121.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id UAA01503
  6122.     for <fdc@watsun.cc.columbia.edu>; Thu, 3 Jul 1997 20:38:35 -0400 (EDT)
  6123. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  6124.     by mail-out2.apple.com (8.8.5/8.8.5) with SMTP id RAA37606;
  6125.     Thu, 3 Jul 1997 17:27:11 -0700
  6126. Received: by unicode.org (NX5.67g/NX3.0S)
  6127.     id AA11841; Thu, 3 Jul 97 17:22:24 -0700
  6128. Message-Id: <9707040022.AA11841@unicode.org>
  6129. Errors-To: uni-bounce@unicode.org
  6130. Mime-Version: 1.0
  6131. Content-Type: text/plain; charset=us-ascii
  6132. Content-Transfer-Encoding: 7bit
  6133. X-Uml-Sequence: 3064 (1997-07-04 00:22:02 GMT)
  6134. To: Multiple Recipients of <unicode@unicode.org>
  6135. Reply-To: Randy Presuhn <rpresuhn@peer.com>
  6136. From: "Unicode Discussion" <unicode@unicode.org>
  6137. Date: Thu, 3 Jul 1997 17:22:01 -0700 (PDT)
  6138. Subject: UTF-8 in SNMPv3
  6139.  
  6140. Hi - 
  6141.  
  6142. The SNMPv3 working group of the IETF is hoping to make use of UTF-8
  6143. for some human-readable information in the MIBs used to manage SNMPv3.
  6144.  
  6145. The convention currently used for this kind of information is described
  6146. on page 4 of RFC 1903.  (For easy reference, I've appended the text
  6147. to the end of this message.)  We would like to define a new convention
  6148. formulated in terms of UTF-8 for use in new MIBs.
  6149.  
  6150. What we've not yet reached agreement on is the question of "non-printable
  6151. stuff".  Some believe that NVT ASCII's control characters are somehow
  6152. less problematic than those of 10646, others find the problems equivalent.
  6153. The questions that come to my mind are:
  6154.  
  6155.     1) Is there any merit to the argument that the "non-printable
  6156.        stuff" in 10646 is any better or worse than the NVT ASVII
  6157.        definition?
  6158.  
  6159.     2) Can we use standard character properties to identify a
  6160.        "printable" subset that would not break for any language?
  6161.            (The folks that want these also want to have CRLF...)
  6162.  
  6163. Background information:
  6164.     In the SNMP protocol notions of equality and ordering have no
  6165.     "locale" component.  There is no notion of character equivalence.
  6166.     It is very much a "bits is bits" environment.
  6167.  
  6168.     The concerns of working group members appear to be arising from:
  6169.         1) what does it mean to "support 10646"
  6170.         2) how to display "wierd stuff"
  6171.         3) how to input "wierd stuff"
  6172.         4) the old CR/LF problem
  6173.  
  6174. Is there a nice, concise, convincing answer I can take back to the
  6175. working group?
  6176.  
  6177.  ========== Excerpt from RFC 1903, DisplayString Textual convention ==========
  6178.             "Represents textual information taken from the NVT ASCII
  6179.             character set, as defined in pages 4, 10-11 of RFC 854.
  6180.  
  6181.             To summarize RFC 854, the NVT ASCII repertoire specifies:
  6182.  
  6183.               - the use of character codes 0-127 (decimal)
  6184.  
  6185.               - the graphics characters (32-126) are interpreted as
  6186.                 US ASCII
  6187.  
  6188.               - NUL, LF, CR, BEL, BS, HT, VT and FF have the special
  6189.                 meanings specified in RFC 854
  6190.  
  6191.               - the other 25 codes have no standard interpretation
  6192.  
  6193.               - the sequence 'CR LF' means newline
  6194.  
  6195.               - the sequence 'CR NUL' means carriage-return
  6196.  
  6197.               - an 'LF' not preceded by a 'CR' means moving to the
  6198.                 same column on the next line.
  6199.  
  6200.               - the sequence 'CR x' for any x other than LF or NUL is
  6201.                 illegal.  (Note that this also means that a string may
  6202.                 end with either 'CR LF' or 'CR NUL', but not with CR.)
  6203.  
  6204.             Any object defined using this syntax may not exceed 255
  6205.             characters in length."
  6206.  ========== End Excerpt ===============
  6207.  
  6208.  ---------------------------------------------------------------------
  6209.  Randy Presuhn            BMC Software, Inc. (Silicon Valley Division)
  6210.  Voice: +1 408 556-0720   (Formerly PEER Networks)  http://www.bmc.com
  6211.  Fax:   +1 408 556-0735   1190 Saratoga Avenue, Suite 130
  6212.  Email: rpresuhn@bmc.com  San Jose, California 95129-3433  USA
  6213.  ---------------------------------------------------------------------
  6214.  In accordance with the BMC Communications Systems Use and Security
  6215.  Policy memo dated December 10, 1996, page 2, item (g) (the first of
  6216.  two), I explicitly state that although my affiliation with BMC may be
  6217.  apparent, implied, or provided, my opinions are not necessarily those
  6218.  of BMC Software and that all external representations on behalf of
  6219.  BMC must first be cleared with a member of "the top management team."
  6220.  ---------------------------------------------------------------------
  6221.  
  6222. 30-Jun-99 19:29:47-GMT,1992;000000000001
  6223. Return-Path: <unicode@unicode.org>
  6224. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  6225.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id PAA19372
  6226.     for <fdc@watsun.cc.columbia.edu>; Wed, 30 Jun 1999 15:29:45 -0400 (EDT)
  6227. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  6228.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id MAA342738
  6229.     ; Wed, 30 Jun 1999 12:18:25 -0700
  6230. Received: by unicode.org (NX5.67g/NX3.0S)
  6231.     id AA07842; Wed, 30 Jun 99 12:01:45 -0700
  6232. Message-Id: <9906301901.AA07842@unicode.org>
  6233. Errors-To: uni-bounce@unicode.org
  6234. X-Uml-Sequence: 8249 (1999-06-30 19:01:34 GMT)
  6235. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  6236. To: Unicode List <unicode@unicode.org>
  6237. Cc: Unicode List <unicode@unicode.org>
  6238. Date: Wed, 30 Jun 1999 12:01:33 -0700 (PDT)
  6239. Subject: Re: Unicode selections for X11 (cont'd)
  6240.  
  6241. Juliusz Chroboczek <jec@dcs.ed.ac.uk> wrote:
  6242.  
  6243. > I've got a question about the C0 and C1 control character ranges.
  6244. > I call them `legacy control characters'.  Do people object to this
  6245. > terminology?
  6246. I hope so!  The word "legacy" is emotionally toned and value-laden.
  6247. It denigrates 30+ years of computing practice and standards activities,
  6248. and it implies that plain text is a relic of the past to be discarded
  6249. with all possible haste, and those who haven't done so yet have some
  6250. sort of "character" defect.
  6251.  
  6252. In fact, plain text is the only immutable format in computing.  GUI
  6253. and WYSIWYG formats change faster than anybody can keep up with them,
  6254. and information encoded in these formats rapidly becomes inaccessible
  6255. (or accessible only by utilities (like UNIX "strings") that extract
  6256. the plain text from them, if there is any).
  6257.  
  6258. > Does anyone have a better name?
  6259. >
  6260. C0 and C1 control characters.  These are ISO standard character sets
  6261. and ISO-standard terminology is available to refer to them.
  6262.  
  6263. Finally, please remember that Unicode is a plain-text standard.  The
  6264. control characters are there for a reason: you need them in plain text.
  6265.  
  6266. - Frank
  6267.  
  6268. 30-Jun-99 19:54:27-GMT,2968;000000000011
  6269. Return-Path: <unicode@unicode.org>
  6270. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  6271.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id PAA29133
  6272.     for <fdc@watsun.cc.columbia.edu>; Wed, 30 Jun 1999 15:54:26 -0400 (EDT)
  6273. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  6274.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id MAA188082
  6275.     ; Wed, 30 Jun 1999 12:50:57 -0700
  6276. Received: by unicode.org (NX5.67g/NX3.0S)
  6277.     id AA08427; Wed, 30 Jun 99 12:36:54 -0700
  6278. Message-Id: <9906301936.AA08427@unicode.org>
  6279. Errors-To: uni-bounce@unicode.org
  6280. Mime-Version: 1.0 (generated by tm-edit 7.104)
  6281. Content-Type: text/plain; charset=US-ASCII
  6282. X-Uml-Sequence: 8252 (1999-06-30 19:36:20 GMT)
  6283. From: Juliusz Chroboczek <jec@dcs.ed.ac.uk>
  6284. To: Unicode List <unicode@unicode.org>
  6285. Date: Wed, 30 Jun 1999 12:36:18 -0700 (PDT)
  6286. Subject: Re: Unicode selections for X11 (cont'd)
  6287.  
  6288. >> I've got a question about the C0 and C1 control character ranges.
  6289. >> I call them `legacy control characters'.  Do people object to this
  6290. >> terminology?
  6291.  
  6292. Frank da Cruz <fdc@watsun.cc.columbia.edu>:
  6293.  
  6294. FdC> I hope so!  The word "legacy" is emotionally toned and
  6295. FdC> value-laden.  It denigrates 30+ years of computing practice and
  6296. FdC> standards activities, and it implies that plain text is a relic
  6297. FdC> of the past to be discarded with all possible haste,
  6298.  
  6299. It cannot be said that the C0 and C1 control characters are the
  6300. greatest achievement of these ``30+ years etc.''
  6301.  
  6302. FdC> In fact, plain text is the only immutable format in computing.
  6303.  
  6304. Agreed.  And the only reason it is not portable is the poor
  6305. standardisation of the C0 and C1 control characters.
  6306.  
  6307. I've seen the following forms of plain text:
  6308.  
  6309.   NL is a line break, there's no paragraphs: Unix
  6310.   NL is a line break, NL NL is a paragraph separator: Unix
  6311.   NL is a paragraph separator, line breaks are implicit: ports of
  6312.     MS-DOS applications to Unix.
  6313.   CR LF is a line break: MS-DOS
  6314.   CR LF is a paragraph separator, line breaks are implicit: MS-DOS.
  6315.   CR LF is a paragraph separator, CR (or was it LF?) is a line break:
  6316.     MS-DOS.
  6317.   CR is a line break: MacOS.
  6318.   CR is a paragraph separator: MacOS.
  6319.  
  6320. without counting, of course, systems on which record information is
  6321. kept out-of-band (such as VMS).
  6322.  
  6323. >> Does anyone have a better name?
  6324.  
  6325. FdC> C0 and C1 control characters.  These are ISO standard character
  6326. FdC> sets and ISO-standard terminology is available to refer to them.
  6327.  
  6328. Okay.  Changed.
  6329.  
  6330. FdC> Finally, please remember that Unicode is a plain-text standard.
  6331. FdC> The control characters are there for a reason: you need them in
  6332. FdC> plain text.
  6333.  
  6334. You need a paragraph separator and possibly a line break (and perhaps
  6335. a page break).  Unicode defines well-standardised codepoints for
  6336. those.  If you use other control characters, such as SO/SI for
  6337. controlling boldface or italics, or BS (or CR) for overstriking, or
  6338. terminal control sequences, it ain't plain text no more.
  6339.  
  6340.                                         J.
  6341.  
  6342. 30-Jun-99 20:08:23-GMT,4025;000000000011
  6343. Return-Path: <unicode@unicode.org>
  6344. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  6345.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id QAA03904
  6346.     for <fdc@watsun.cc.columbia.edu>; Wed, 30 Jun 1999 16:08:22 -0400 (EDT)
  6347. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  6348.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id MAA200106
  6349.     ; Wed, 30 Jun 1999 12:52:24 -0700
  6350. Received: by unicode.org (NX5.67g/NX3.0S)
  6351.     id AA08371; Wed, 30 Jun 99 12:35:22 -0700
  6352. Message-Id: <9906301935.AA08371@unicode.org>
  6353. Errors-To: uni-bounce@unicode.org
  6354. Mime-Version: 1.0
  6355. Content-Type: text/plain; charset="us-ascii"
  6356. X-Uml-Sequence: 8250 (1999-06-30 19:35:08 GMT)
  6357. From: Asmus Freytag <asmusf@ix.netcom.com>
  6358. To: Unicode List <unicode@unicode.org>
  6359. Date: Wed, 30 Jun 1999 12:35:07 -0700 (PDT)
  6360. Subject: Re: Superscript asterisk
  6361.  
  6362. Being able to do "plain text" math is one of the goals of the Unicode
  6363. Technical Committee now. Since the publication of Unicode 2.0, three years
  6364. ago, we have had a lot of expert input on what plain text math capabilities
  6365. are needed, and also, where our existing repertoire of math operators is
  6366. insufficient. (We are, incidentally, also interested in evaluating and
  6367. improving our other technical symbol collections, but so far have not had
  6368. the long and sustained input from experts in other fields, as we had for
  6369. mathematics).
  6370.  
  6371. Full layout of mathematical expressions will need some form of markup,
  6372. although many formulas that do not need the full generality can be laid out
  6373. correctly if the mathematical operator characters in Unicode are
  6374. interpreted semantically.
  6375.  
  6376. Semantics for formatting that one needs to distinguish e.g. between
  6377. summation sign and sigma. They look the same, but summation sign can take
  6378. limit expressions etc.
  6379.  
  6380. Another aspect of semantics is the mathematical semantics. Here it's
  6381. necessary to make enough distinctions so that, if a small and large form of
  6382. an operator can occur in the same text, that they can be distinguished by
  6383. their character code without recourse to font information. Doing so, allows
  6384. plain text searches for math formula.
  6385.  
  6386. Caveat: If and where mathematicians have used 'operator overloading', to
  6387. borrow a C++ term, and deliberately used the same operator with different
  6388. mathemtical meaning in another sub-discipline, we would not sub-divide the
  6389. character, as the larger context would be enough to determine its meaning.
  6390.  
  6391. Our foremost goal has therefore been to complete our repertoire and where
  6392. necessary introduce additional distinctions for the two reasons I mentioned.
  6393.  
  6394. In the case of ASTERISK, the analysis that is needed, and that, as far as I
  6395. have seen, has not been made, is to present evidence that cases exist (or
  6396. are easily conceivable) where *both* the ASCII asterisk and yet another
  6397. asterisk are needed in the same text, and with consistent distinction in
  6398. use or formatting.
  6399.  
  6400. Ricardo has said that one could use the proposed asterisk in conjunction with
  6401. the ASCII asterisk do denote a regular expression of zero or more asterisks.
  6402. This is the one example that cannot serve, since by extension, it would
  6403. require an infinite series of asterisks (suppose I wanted to define a
  6404. regular expression consisting of zero or more instances of the proposed
  6405. asterisk!).
  6406.  
  6407. Typographically, asterisk may indeed show a variation betweem full-size and
  6408. superscript forms. For standard text fonts, the full-size form of asterisk
  6409. occurs only occasionally.
  6410.  
  6411. In the vast majority of fonts on my system, as well as in the Unicode
  6412. Standard, and ISO/IEC10646-1, ASTERISK is clearly depicted as a
  6413. superscripted symbol (i.e. it's 1/2 height and extends upwards from the
  6414. centerline of the font, which is just slightly below the x height). The
  6415. asterisk and superscript 2 have the same location and dimension. Therefore,
  6416. unless Ricardo is proposing a character that has the same dimension as a
  6417. *superscripted* SUPERSCRIPT TWO, my conclusion would be that we already
  6418. _have_ the character he wants, and that he is using a poor font for his
  6419. purpose.
  6420.  
  6421. A./
  6422.  
  6423. 30-Jun-99 20:24:18-GMT,2893;000000000001
  6424. Return-Path: <unicode@unicode.org>
  6425. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  6426.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id QAA08593
  6427.     for <fdc@watsun.cc.columbia.edu>; Wed, 30 Jun 1999 16:24:17 -0400 (EDT)
  6428. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  6429.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id NAA188518
  6430.     ; Wed, 30 Jun 1999 13:10:34 -0700
  6431. Received: by unicode.org (NX5.67g/NX3.0S)
  6432.     id AA08959; Wed, 30 Jun 99 13:00:48 -0700
  6433. Message-Id: <9906302000.AA08959@unicode.org>
  6434. Errors-To: uni-bounce@unicode.org
  6435. X-Uml-Sequence: 8253 (1999-06-30 20:00:25 GMT)
  6436. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  6437. To: Unicode List <unicode@unicode.org>
  6438. Cc: unicode@unicode.org
  6439. Date: Wed, 30 Jun 1999 13:00:24 -0700 (PDT)
  6440. Subject: Re: Unicode selections for X11 (cont'd)
  6441.  
  6442. > It cannot be said that the C0 and C1 control characters are the
  6443. > greatest achievement of these ``30+ years etc.''
  6444. Actually they served us all rather well considering how few of them
  6445. there are and how long they lasted (and continue to last).  We've
  6446. covered this ground before...  But (to cite only one example) do you
  6447. know how many terminals and terminal emulators are "still" in use?
  6448. I would venture to say the number has not declined significantly since
  6449. the 1980s.  It might well have increased.  It's just that they are no
  6450. longer the *only* form of online access, and they work well, so we
  6451. ignore them.
  6452.  
  6453. > FdC> In fact, plain text is the only immutable format in computing.
  6454. > Agreed.  And the only reason it is not portable is the poor
  6455. > standardisation of the C0 and C1 control characters.
  6456. The CR/LF/CRLF confusion is annoying of course, but we've lived with
  6457. it all these years, and continue to live with it.  But you're talking
  6458. about file formats.  The use of control characters in data communications
  6459. is fairly well standardized, pretty much along the lines of a Teletype:
  6460. CR moves the print head to the left margin, LF moves it down one line,
  6461. and ESC introduces a device-dependent escape or control sequence, etc.
  6462.  
  6463. > FdC> Finally, please remember that Unicode is a plain-text standard.
  6464. > FdC> The control characters are there for a reason: you need them in
  6465. > FdC> plain text.
  6466. > You need a paragraph separator and possibly a line break (and perhaps
  6467. > a page break).  Unicode defines well-standardised codepoints for
  6468. > those.  If you use other control characters, such as SO/SI for
  6469. > controlling boldface or italics, or BS (or CR) for overstriking, or
  6470. > terminal control sequences, it ain't plain text no more.
  6471. But Unicode and the terminal acess model are not mutually exclusive.
  6472. There can be (and are) Unicode-based terminal emulators, capable of
  6473. handling (e.g.) UTF-8 on the wire.  And when you have terminal 
  6474. communications, you have control characters.  (When you emulate, say,
  6475. a VT320, you have LOTS of control characters :-)
  6476.  
  6477. - Frank
  6478.  
  6479. 30-Jun-99 21:45:11-GMT,2978;000000000011
  6480. Return-Path: <unicode@unicode.org>
  6481. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  6482.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id RAA04617
  6483.     for <fdc@watsun.cc.columbia.edu>; Wed, 30 Jun 1999 17:45:10 -0400 (EDT)
  6484. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  6485.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id OAA339770
  6486.     ; Wed, 30 Jun 1999 14:33:51 -0700
  6487. Received: by unicode.org (NX5.67g/NX3.0S)
  6488.     id AA09734; Wed, 30 Jun 99 14:17:35 -0700
  6489. Message-Id: <9906302117.AA09734@unicode.org>
  6490. Errors-To: uni-bounce@unicode.org
  6491. Mime-Version: 1.0
  6492. Content-Type: text/plain; charset=us-ascii
  6493. X-Uml-Sequence: 8255 (1999-06-30 21:17:25 GMT)
  6494. From: Markus Kuhn <Markus.Kuhn@cl.cam.ac.uk>
  6495. To: Unicode List <unicode@unicode.org>
  6496. Date: Wed, 30 Jun 1999 14:17:23 -0700 (PDT)
  6497. Subject: Re: Plain Text
  6498.  
  6499. Juliusz Chroboczek wrote on 1999-06-30 19:36 UTC:
  6500. > You need a paragraph separator and possibly a line break (and perhaps
  6501. > a page break).  Unicode defines well-standardised codepoints for
  6502. > those.  If you use other control characters, such as SO/SI for
  6503. > controlling boldface or italics, or BS (or CR) for overstriking, or
  6504. > terminal control sequences, it ain't plain text no more.
  6505.  
  6506. The only thing that is clear about "plain text" is that it is not well
  6507. defined at all. There is certainly no ISO standard that gives you any
  6508. indication of what "plain text" is. The Unix community feels somewhat
  6509. confident about the notion of plain text, just because they have editors
  6510. such as ed, vi, emacs, etc. that agree on a common text format that is
  6511. so simple that it has become customary to refer to it as plaintext.
  6512.  
  6513. Many aspects of "plain text" are ill-defined these days:
  6514.  
  6515.   a) how do you terminate lines and paragraphs
  6516.   b) is there a terminator after the last line/paragraph
  6517.   c) is the line formatting the task of the sending or the receiving
  6518.      process?
  6519.  
  6520. For Unix the answers used to be
  6521.  
  6522.   a) LF and no paragraph concept
  6523.   b) yes
  6524.   c) the sender has to insert line breaks
  6525.  
  6526. but thanks to the heterogenity of the Internet, these strict rules have
  6527. for some years been weakened significantly in common practice. Some
  6528. aspects of the classical Unix plaintext definition (which came
  6529. originally from tty output hardware interfaces) do not make sense any
  6530. more. For example, the insertation of LFs in the middle of paragraphs,
  6531. causes these LFs to move around whenever a few words are changed, which
  6532. seriously disrupts revision control systems (e.g., diff and RCS) and it
  6533. is not adequate anymore at all today with reformatting web browsers now
  6534. being a dominating output device and not 1960s ttys.
  6535.  
  6536. I think the Unix community should slowly get used to the idea of
  6537. abandoning LFs in the middle of paragraphs in plain text documents and
  6538. let the editor and display tool perform the reformatting at display
  6539. time.
  6540.  
  6541. Markus
  6542.  
  6543. -- 
  6544. Markus G. Kuhn, Computer Laboratory, University of Cambridge, UK
  6545. Email: mkuhn at acm.org,  WWW: <http://www.cl.cam.ac.uk/~mgk25/>
  6546.  
  6547. 30-Jun-99 22:46:24-GMT,2237;000000000001
  6548. Return-Path: <unicode@unicode.org>
  6549. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  6550.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id SAA22071
  6551.     for <fdc@watsun.cc.columbia.edu>; Wed, 30 Jun 1999 18:46:24 -0400 (EDT)
  6552. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  6553.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id PAA187464
  6554.     ; Wed, 30 Jun 1999 15:36:20 -0700
  6555. Received: by unicode.org (NX5.67g/NX3.0S)
  6556.     id AA10018; Wed, 30 Jun 99 15:25:38 -0700
  6557. Message-Id: <9906302225.AA10018@unicode.org>
  6558. Errors-To: uni-bounce@unicode.org
  6559. Mime-Version: 1.0
  6560. Content-Type: text/plain; charset=US-ASCII
  6561. Content-Transfer-Encoding: 7bit
  6562. X-Uml-Sequence: 8256 (1999-06-30 22:25:27 GMT)
  6563. From: John Cowan <cowan@locke.ccil.org>
  6564. To: Unicode List <unicode@unicode.org>
  6565. Date: Wed, 30 Jun 1999 15:25:26 -0700 (PDT)
  6566. Subject: Re: Plain Text
  6567. Content-Transfer-Encoding: 7bit
  6568.  
  6569. Markus Kuhn scripsit:
  6570.  
  6571. > The only thing that is clear about "plain text" is that it is not well
  6572. > defined at all. There is certainly no ISO standard that gives you any
  6573. > indication of what "plain text" is.
  6574.  
  6575. What a pity.  Perhaps there should be one (no :-)).
  6576.  
  6577. > The Unix community feels somewhat
  6578. > confident about the notion of plain text, just because they have editors
  6579. > such as ed, vi, emacs, etc. that agree on a common text format that is
  6580. > so simple that it has become customary to refer to it as plaintext.
  6581.  
  6582. The notion of plain text long predates Unix: it was exactly the same,
  6583. for example, on the PDP-8, which is where I first learned computing.
  6584. (Terminator was CR/LF, and the character code was 7-bit-ASCII-with-8th-bit-
  6585. set, for uniformity with Model 33 Teletypes).
  6586.  
  6587. > I think the Unix community should slowly get used to the idea of
  6588. > abandoning LFs in the middle of paragraphs in plain text documents and
  6589. > let the editor and display tool perform the reformatting at display
  6590. > time.
  6591.  
  6592. AFAIK, the "reformatting web browsers" you refer to do not reformat
  6593. plain text at all, which means that infinite-line-length alleged
  6594. plain text can be read only with difficulty and much scrolling, and
  6595. printing is impossible.
  6596.  
  6597. -- 
  6598. John Cowan                                   cowan@ccil.org
  6599.        I am a member of a civilization. --David Brin
  6600.  
  6601. 30-Jun-99 22:54:43-GMT,3347;000000000001
  6602. Return-Path: <unicode@unicode.org>
  6603. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  6604.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id SAA23739
  6605.     for <fdc@watsun.cc.columbia.edu>; Wed, 30 Jun 1999 18:54:43 -0400 (EDT)
  6606. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  6607.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id PAA57670
  6608.     ; Wed, 30 Jun 1999 15:46:45 -0700
  6609. Received: by unicode.org (NX5.67g/NX3.0S)
  6610.     id AA10105; Wed, 30 Jun 99 15:33:04 -0700
  6611. Message-Id: <9906302233.AA10105@unicode.org>
  6612. Errors-To: uni-bounce@unicode.org
  6613. X-Uml-Sequence: 8257 (1999-06-30 22:32:56 GMT)
  6614. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  6615. To: Unicode List <unicode@unicode.org>
  6616. Cc: unicode@unicode.org
  6617. Date: Wed, 30 Jun 1999 15:32:55 -0700 (PDT)
  6618. Subject: Re: Plain Text
  6619.  
  6620. > The only thing that is clear about "plain text" is that it is not well
  6621. > defined at all.
  6622. >
  6623. Actually, it tends to be well-defined for each platform.  And then the
  6624. interchange methods among platforms tend to converge on a few simple
  6625. conventions: ASCII (or the appropriate ISO character set, or now UTF-8 or
  6626. other form of Unicode), as opposed to EBCDIC (or Baudot, or Sixbit); CRLFs
  6627. separating lines, and paragraphs separated by blank lines.  Somewhat less
  6628. well defined, but nevertheless in common use, are bare Carriage Return or
  6629. Backspace for overstriking, Formfeed for "new page", and Tab for tabbing
  6630. (with several different conventions about tabstops).
  6631.  
  6632. Lines are terminated at somewhere between 72 and 80 characters by
  6633. convention, because that's how wide terminal screens are, and before them
  6634. the Teletype carriage, and before that the most common kind of punchcard.
  6635. Or for that matter, typewriters and sheets of paper (A4 or US, take your
  6636. pick :-)
  6637.  
  6638. To this day, we follow these conventions in newsgroups and email, although
  6639. now it might be more a matter of "netiquette" than necessity (as in the
  6640. BITNET days, when e-mail was, quite literally, 80-column card images).
  6641.  
  6642. These simple conventions let us format our text exactly the way we want to.
  6643. We can indent or not, we can put line breaks where we want them, we can have
  6644. columns of numbers or other tabular presentations, mathematical expressions,
  6645. and idiosyncratic forms of emphasis.  Many people want their text to stay
  6646. the way they wrote it.  And many people also are not fond of receiving email
  6647. in every kind of bizarre format than any application developer can dream up
  6648. when it contains, in fact, nothing but words (but I stray).
  6649.  
  6650. > I think the Unix community should slowly get used to the idea of
  6651. > abandoning LFs in the middle of paragraphs in plain text documents and
  6652. > let the editor and display tool perform the reformatting at display
  6653. > time.
  6654. But what IS plain text?  Maybe some people might like to have their email
  6655. reformatted, but I don't think they want their C or Fortran or PostScript
  6656. programs to receive the same treatment.  Nor, for that matter poetry or any
  6657. other forms of text where line breaks, indentation, and blank lines serve a
  6658. purpose.  As in, for example, the preceding paragraph.
  6659.  
  6660. No more plain-text bashing!  No more "legacy" saying!  Our focus should be
  6661. not on stamping out plain text, but on promoting international multilingual
  6662. communication through a universal character set that does not impose a
  6663. a particular modus vivendi upon its users.
  6664.  
  6665. - Frank
  6666.  
  6667. 30-Jun-99 23:19:45-GMT,1376;000000000001
  6668. Return-Path: <unicode@unicode.org>
  6669. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  6670.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id TAA26033
  6671.     for <fdc@watsun.cc.columbia.edu>; Wed, 30 Jun 1999 19:19:43 -0400 (EDT)
  6672. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  6673.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id QAA258932
  6674.     ; Wed, 30 Jun 1999 16:07:28 -0700
  6675. Received: by unicode.org (NX5.67g/NX3.0S)
  6676.     id AA10518; Wed, 30 Jun 99 15:53:44 -0700
  6677. Message-Id: <9906302253.AA10518@unicode.org>
  6678. Errors-To: uni-bounce@unicode.org
  6679. Mime-Version: 1.0
  6680. Content-Type: text/plain; charset=US-ASCII
  6681. Content-Transfer-Encoding: 7bit
  6682. X-Uml-Sequence: 8258 (1999-06-30 22:53:34 GMT)
  6683. From: John Cowan <cowan@locke.ccil.org>
  6684. To: Unicode List <unicode@unicode.org>
  6685. Date: Wed, 30 Jun 1999 15:53:33 -0700 (PDT)
  6686. Subject: Re: Plain Text
  6687. Content-Transfer-Encoding: 7bit
  6688.  
  6689. Frank da Cruz scripsit:
  6690.  
  6691. > No more plain-text bashing!  No more "legacy" saying!  Our focus should be
  6692. > not on stamping out plain text, but on promoting international multilingual
  6693. > communication through a universal character set that does not impose a
  6694. > a particular modus vivendi upon its users.
  6695.  
  6696. Hear, hear!
  6697.  
  6698. Unicode (n.):  The *last* legacy character set.
  6699.  
  6700. -- 
  6701. John Cowan                                   cowan@ccil.org
  6702.        I am a member of a civilization. --David Brin
  6703.  
  6704.  1-Jul-99 20:12:49-GMT,3132;000000000001
  6705. Return-Path: <fdc>
  6706. Received: (from fdc@localhost)
  6707.     by watsun.cc.columbia.edu (8.8.5/8.8.5) id QAA02796;
  6708.     Thu, 1 Jul 1999 16:11:21 -0400 (EDT)
  6709. Date: Thu, 1 Jul 99 16:11:21 EDT
  6710. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  6711. To: Otto Stolz <Otto.Stolz@uni-konstanz.de>
  6712. cc: unicode@unicode.org
  6713. Subject: Re: Plain Text
  6714. In-Reply-To: Your message of Thu, 1 Jul 1999 03:57:30 -0700 (PDT)
  6715. Message-ID: <CMM.0.90.4.930859881.fdc@watsun.cc.columbia.edu>
  6716.  
  6717. > Am 1999-06-30 um 14:17 h PDT hat Markus Kuhn geschrieben:
  6718. > > The only thing that is clear about "plain text" is that it is not well
  6719. > > defined at all.
  6720. > Am 1999-06-30 um 15:32 h PDT hat Frank da Cruz geschrieben:
  6721. > > Actually, it tends to be well-defined for each platform.
  6722. > In MS-DOS (or PC-DOS and other DOS variants) on the PC, it is not
  6723. > well defined, at all:
  6724. Not to prolong this discussion, which took place once before, at great
  6725. length, in May to July 1997...
  6726.  
  6727. > - '0D0A'x (CR+LF) means either line-break or pararaph separator,
  6728. >
  6729. When/if it means pararaph separator it's not plain text.  Plain text is
  6730. what you TYPE at the DOS prompt.  In such files (e.g. a READ.ME file)
  6731. CRLF means Carriage Return (move the cursor to the left margin) and
  6732. Line Feed (move the cursor down one row).
  6733.  
  6734. > - '09'x (HT) means either a tabulator (and nobody knows where the
  6735. >   tab positions are supposed to be) or a line-break,
  6736. >
  6737. In DOS, when you TYPE a file at the DOS prompt, a Tab character is expanded
  6738. to enough blanks to bring us to the next tab stop, which are set according
  6739. to the most common convention: 1, 9, 17, ... (1-based).
  6740.  
  6741. > - '1A'x (SUB, aka Ctrl-Z) either means end of text, or a
  6742. >   right-pointing arrow; when it is used as an end-of-text marker,
  6743. >   the remainder of the storage block may contain arbitrary characters
  6744. >   with some programs and must contain '00'x with other programs (nice
  6745. >   feature when one of the former writes a file one of the latter is
  6746. >   supposed to read).
  6747. >
  6748. That's not a plain-text issue, it's a character encoding and file format
  6749. issue.  Ctrl-Z as an EOF indicator is a relic of CP/M, carried forward into
  6750. DOS for compatibility, used by some apps and ignored by others.
  6751.  
  6752. Two years ago I suggested that we come up with a standard for Unicode plain
  6753. text that can be used as a baseline when converting files from DOS, UNIX, the
  6754. Macintosh, etc, to Unicode, and that says what control characters (C0, C1,
  6755. as well as Line Separator, Paragraph Separator, etc) mean in a plain-text
  6756. file or data stream.  We made some good progress but eventually the discussion
  6757. fizzled out.  If I can summarize it briefly:
  6758.  
  6759.  . Yes, but plain text in this sense is inadequate for representing
  6760.    (list of writing systems that need higher-level formatting assistance,
  6761.    rendering engines, etc.)
  6762.  
  6763.  . Fine, but they need that anyway.  For many other languages, plain text
  6764.    is possible, and there should be no reason not to settle on a standard
  6765.    representation for it in those cases where it can be used.
  6766.  
  6767. If anybody would like to revisit that discussion, I've uploaded it to:
  6768.  
  6769.   ftp://kermit.columbia.edu/kermit/e/plain.txt
  6770.  
  6771. (about 300K of plain text :-)
  6772.  
  6773. - Frank
  6774.  
  6775.  2-Jul-99  7:37:25-GMT,6658;000000000011
  6776. Return-Path: <unicode@unicode.org>
  6777. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  6778.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id DAA21905
  6779.     for <fdc@watsun.cc.columbia.edu>; Fri, 2 Jul 1999 03:37:24 -0400 (EDT)
  6780. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  6781.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id AAA206792
  6782.     ; Fri, 2 Jul 1999 00:29:42 -0700
  6783. Received: by unicode.org (NX5.67g/NX3.0S)
  6784.     id AA18813; Fri, 2 Jul 99 00:08:06 -0700
  6785. Message-Id: <9907020708.AA18813@unicode.org>
  6786. Errors-To: uni-bounce@unicode.org
  6787. Mime-Version: 1.0
  6788. Content-Type: text/plain; charset="us-ascii"
  6789. X-Uml-Sequence: 8285 (1999-07-02 07:07:55 GMT)
  6790. From: Edward Cherlin <edward.cherlin.sy.67@aya.yale.edu>
  6791. To: Unicode List <unicode@unicode.org>
  6792. Cc: unicode@unicode.org
  6793. Date: Fri, 2 Jul 1999 00:07:54 -0700 (PDT)
  6794. Subject: Re: Plain Text
  6795.  
  6796. At 15:32 -0700 6/30/1999, Frank da Cruz wrote:
  6797. >> The only thing that is clear about "plain text" is that it is not well
  6798. >> defined at all.
  6799.  
  6800. My experience is that ASCII plain text is sufficiently well defined but has
  6801. been incredibly badly implemented, due in part to the requirement in the
  6802. 1960s and 1970s for keeping programs as small as possible, and in part to
  6803. the rarity of cross-platform file transfer until the 1990s.
  6804.  
  6805. The original definition, as John Cowan has pointed out, was anything a
  6806. Teletype could reliably render, including overstrikes. Thinking of ASCII as
  6807. printer commands rather than text makes it easier to understand the origins
  6808. of its problems. (I have used printing terminals and video terminals that
  6809. permitted overstrikes, designed for APL in particular and for what you will
  6810. in general. Overstriking used to be taught in typing textbooks for creating
  6811. signs like cent,  c BS /.
  6812.  
  6813. The problems we have with ASCII plain text come mainly from a small set of
  6814. common variant practices.
  6815.  
  6816. Using CR, LF, or CR/LF as a line or paragraph end
  6817. Different tab spacings
  6818. Optional line wrap
  6819. Formfeed codes vs. computed page breaks
  6820. BS = DEL or BS-overstrike
  6821.  
  6822. In the past, editors on one platform, or written for one purpose, ignored
  6823. all other practices. I use two text editors, Alpha for Macintosh and
  6824. Notespad (note extra 's') for Windows, which can handle all of these
  6825. variations according to my preferences, including the ability to read and
  6826. write text files with Mac, Windows, or Unix line break codes. Notespad even
  6827. maintains an extensible list of file types where line breaking is never to
  6828. be changed by the editor (mostly programming language source code). Alpha
  6829. asks whether to wrap paragraphs when opening files.
  6830.  
  6831. >Actually, it tends to be well-defined for each platform.  And then the
  6832. >interchange methods among platforms tend to converge on a few simple
  6833. >conventions: ASCII (or the appropriate ISO character set, or now UTF-8 or
  6834. >other form of Unicode), as opposed to EBCDIC (or Baudot, or Sixbit); CRLFs
  6835. >separating lines, and paragraphs separated by blank lines.  Somewhat less
  6836. >well defined, but nevertheless in common use, are bare Carriage Return or
  6837. >Backspace for overstriking, Formfeed for "new page", and Tab for tabbing
  6838. >(with several different conventions about tabstops).
  6839.  
  6840. That is, we agree on everything except our variant usages.
  6841.  
  6842. >Lines are terminated at somewhere between 72 and 80 characters by
  6843. >convention, because that's how wide terminal screens are, and before them
  6844. >the Teletype carriage, and before that the most common kind of punchcard.
  6845. >Or for that matter, typewriters and sheets of paper (A4 or US, take your
  6846. >pick :-)
  6847. >
  6848. >To this day, we follow these conventions in newsgroups and email, although
  6849. >now it might be more a matter of "netiquette" than necessity (as in the
  6850. >BITNET days, when e-mail was, quite literally, 80-column card images).
  6851.  
  6852.      As long as e-mail readers cannot correctly reformat messages with bad
  6853. line breaks
  6854.      (like this), it will be a matter of real necessity.
  6855.  
  6856. >These simple conventions let us format our text exactly the way we want to.
  6857. >We can indent or not, we can put line breaks where we want them, we can have
  6858. >columns of numbers or other tabular presentations, mathematical expressions,
  6859.  
  6860. which actually require several hundred non-ASCII characters, unless you
  6861. mean, as so many do, arithmetic expressions.
  6862.  
  6863. >and idiosyncratic forms of emphasis.  Many people want their text to stay
  6864. >the way they wrote it.  And many people also are not fond of receiving email
  6865. >in every kind of bizarre format than any application developer can dream up
  6866. >when it contains, in fact, nothing but words (but I stray).
  6867.  
  6868. When I want my text to stay as I wrote it, I put it into a PDF, not a text
  6869. file. Others prefer TeX for this purpose, or PostScript.
  6870.  
  6871. >> I think the Unix community should slowly get used to the idea of
  6872. >> abandoning LFs in the middle of paragraphs in plain text documents and
  6873. >> let the editor and display tool perform the reformatting at display
  6874. >> time.
  6875. >>
  6876. >But what IS plain text?  Maybe some people might like to have their email
  6877. >reformatted, but I don't think they want their C or Fortran or PostScript
  6878. >programs to receive the same treatment.  Nor, for that matter poetry or any
  6879. >other forms of text where line breaks, indentation, and blank lines serve a
  6880. >purpose.  As in, for example, the preceding paragraph.
  6881.  
  6882. Yes, it's that old Devil cross-cultural ignorance again. It wouldn't
  6883. surprise me if some people here had never even read a Fortran program.
  6884.  
  6885. >No more plain-text bashing!  No more "legacy" saying!  Our focus should be
  6886. >not on stamping out plain text, but on promoting international multilingual
  6887. >communication through a universal character set that does not impose a
  6888. >a particular modus vivendi upon its users.
  6889. >
  6890. >- Frank
  6891.  
  6892. We raised the question of defining a Unicode plain text format about two
  6893. years ago, but nothing seemed to come of it. We also discussed the
  6894. possibility of actually *using* Unicode text in this discussion, but
  6895. nothing came of that either. Does anyone else here feel excessively
  6896. constrained by our lack of glyphs for the characters we talk about? Would
  6897. anyone else like to get UTF-8-capable mailers and extensive sets of Unicode
  6898. fonts and see what effect they have on our deliberations?
  6899.  
  6900. I have made the suggestion before, but here goes again--Alis Technologies
  6901. offers a 30-day free trial period of its Tango Browser with Tango E-mail,
  6902. downloadable from http://www.alis.com/internet_products/try_form.html. It
  6903. runs on Windows 95, 98, and NT. Would anyone care to try it with me?
  6904. --
  6905. Edward Cherlin                        President
  6906. Coalition Against Unsolicited Commercial E-mail
  6907. Help outlaw Spam.       <http://www.cauce.org/>
  6908. Talk to us at             <news:comp.org.cauce>
  6909.  
  6910.  2-Jul-99 16:04:55-GMT,11158;000000000001
  6911. Return-Path: <fdc>
  6912. Received: (from fdc@localhost)
  6913.     by watsun.cc.columbia.edu (8.8.5/8.8.5) id MAA17085;
  6914.     Fri, 2 Jul 1999 12:02:27 -0400 (EDT)
  6915. Date: Fri, 2 Jul 99 12:02:27 EDT
  6916. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  6917. To: Edward Cherlin <edward.cherlin.sy.67@aya.yale.edu>
  6918. Subject: Re: Plain Text
  6919. In-Reply-To: Your message of Fri, 2 Jul 1999 00:07:54 -0700 (PDT)
  6920. Cc: unicode@unicode.org
  6921. Message-ID: <CMM.0.90.4.930931347.fdc@watsun.cc.columbia.edu>
  6922.  
  6923. > The problems we have with ASCII plain text come mainly from a small set of
  6924. > common variant practices.
  6925. > Using CR, LF, or CR/LF as a line or paragraph end
  6926. > Different tab spacings
  6927. > Optional line wrap
  6928. > Formfeed codes vs. computed page breaks
  6929. > BS = DEL or BS-overstrike
  6930. We all have dealt with these annoyances throughout our careers.  They are
  6931. indeed annoying, but not impassible impediments.  Also, let's not mix up:
  6932.  
  6933.  . File storage format
  6934.  . Interchange format
  6935.  . Data entry format
  6936.  
  6937. > Using CR, LF, or CR/LF as a line or paragraph end
  6938. >
  6939. As a line end:
  6940.   This is a file storage issue.
  6941.  
  6942. As a paragraph end:
  6943.   There is no such thing as a paragraph end or paragraph separator in
  6944.   traditional plain text.
  6945.  
  6946. Here I am sitting at my VT100 terminal, which is plugged in to my UNIX
  6947. computer.  I type:
  6948.  
  6949.   This is a line
  6950.  
  6951. Then I push the Return key (sometimes marked Enter), which sends a Carriage
  6952. Return.  I would enter a line in exactly the same way no matter what
  6953. computer was on the far end of the wire.  Now:
  6954.  
  6955.  . The UNIX terminal driver turns the CR into a LF before giving it
  6956.    to the application.  If the application is storing the line into a
  6957.    file, the file gets "This is a line<LF>".  Ditto for some other
  6958.    operating systems, like AOS/VS.
  6959.  
  6960.  . If I had OS-9 on the far end, it would store "This is a line<CR>".
  6961.  
  6962.  . If I had TOPS-10, TOPS-20, RT-11, etc, on the far end, it would
  6963.    store "This is a line<CR><LF>".
  6964.  
  6965.  . If I had VMS, VOS, VM/CMS, MVS/TSO or other complex file system on
  6966.    the far end, who knows how the line would be stored -- it depends on
  6967.    chosen the file organization and record format.
  6968.  
  6969. The point is, it doesn't matter.  Each platform has its own format for
  6970. internal use, but a standardized interface to the outside world.  To further
  6971. demonstrate this fact, if I then tell the computer on the far end to "type"
  6972. or "cat" the file, it will, invariably, send:
  6973.  
  6974.   This is a line<CR><LF>
  6975.  
  6976. So who cares what the file format is -- except of course when we want to
  6977. transfer the file to another platform.  In that case, it is the
  6978. responsibility of each file-transfer agent to convert between its peculiar
  6979. local format and the common one.  And that is exactly what they do, just
  6980. as is done at the terminal/terminal-driver/data-entry level.  FTP and Kermit
  6981. are two examples that show it is not that hard to convert plain-text file
  6982. record formats from one platform to another.  (And in Kermit's case, the
  6983. character set too.)
  6984.  
  6985. Of course life would have been simpler if there had been only ONE standard
  6986. text-file format used on all platforms.  But the early days of computing
  6987. was a time of "Let the Hundred Flowers Bloom", and they did.  Now, however,
  6988. we are in a position to start over, and it is an opportunity we are not
  6989. likely to have again.
  6990.  
  6991. > Different tab spacings
  6992. >
  6993. I used to say this too, but the last platform I know about that did not
  6994. assume tabstops at 1,9,17,25,... was MULTICS.  Of course tabs are variable
  6995. in word processors, etc, but that is not plain text.
  6996.  
  6997. > Optional line wrap
  6998. >
  6999. This is a feature of the terminal or the application, not of "plain text".
  7000. Files that do not contain line breaks and must rely on some form of
  7001. postprocessing to insert line breaks at appropriate points is not really
  7002. plain text, it is "input for a text formatter".  Prior to the advent of
  7003. word processors, the idea of "long line as paragraph" never came up.
  7004.  
  7005. > Formfeed codes vs. computed page breaks
  7006. >
  7007. Page breaks are an issue worth discussing, and we discussed them at some
  7008. length two years ago.  Basically, you can let your "rendering engine" or
  7009. printer driver insert them for you, or you can insert them yourself.  One
  7010. should be allowed the choice.  (Why would anybody want "hard" page breaks?
  7011. Because they are printing paychecks, invoices, envelopes, etc.)
  7012.  
  7013. > BS = DEL or BS-overstrike
  7014. >
  7015. This is a data entry issue, unless you mean including BS in a file for
  7016. overstriking.  But in that case, there is never any confusion between BS and
  7017. DEL, since DEL is never used for that purpose.  In other words, the only
  7018. confusion is at data entry, and this is entirely irrelevant to the
  7019. definition of plain text.
  7020.  
  7021. > >Lines are terminated at somewhere between 72 and 80 characters by
  7022. > >convention, because that's how wide terminal screens are, and before them
  7023. > >the Teletype carriage, and before that the most common kind of punchcard.
  7024. > >Or for that matter, typewriters and sheets of paper (A4 or US, take your
  7025. > >pick :-)
  7026. > >
  7027. > >To this day, we follow these conventions in newsgroups and email, although
  7028. > >now it might be more a matter of "netiquette" than necessity (as in the
  7029. > >BITNET days, when e-mail was, quite literally, 80-column card images).
  7030. >      As long as e-mail readers cannot correctly reformat messages with bad
  7031. > line breaks                           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
  7032. >      (like this), it will be a matter of real necessity.
  7033. What does "correctly reformat messages" mean?  How can your mail client read
  7034. my mind?  How does it know that the message I sent you was not already
  7035. formatted exactly the way I wanted it?
  7036.  
  7037. Notice that to illustrate my point, I need your original formatting (above)
  7038. preserved, with the "> " quote indicators added at the left margin, and with
  7039. my emphasis added under the appropriate words.  What is a "correct" mail
  7040. client supposed to do with this?  Something like this?:
  7041.  
  7042.     > As long as e-mail readers cannot correctly
  7043.     reformat messages with bad > line breaks
  7044.     ^^^^^^^^^^^^^^^^^^^^^^^^^^^ > (like this),
  7045.     it will be a matter of real necessity.
  7046.  
  7047. No, a correct email client will leave it alone.  Whether I want my email
  7048. reformatted by your client should be my choice, since only I know what my
  7049. intentions are in sending it.
  7050.  
  7051. Granted, plain text requires some minimal level of agreement, for example
  7052. that your screen is 72 (or 76, or 79) columns wide.  I maintain that this
  7053. convention is universal, except for Kanji, etc, which are displayed in two
  7054. character cells each.  People who use email, netnews, and other forms of
  7055. open, interplatform communication have learned these conventions.  We use
  7056. them ourselves on this mailing list.  Those of us who do not are often
  7057. excoriated for our antisocial behavior.
  7058.  
  7059. Especially when we send email or netnews in some application-specific
  7060. format, assuming that everybody else uses the same platform and applications
  7061. we do.
  7062.  
  7063. > >These simple conventions let us format our text exactly the way we want
  7064. > >to.  We can indent or not, we can put line breaks where we want them, we
  7065. > >can have columns of numbers or other tabular presentations, mathematical
  7066. > >expressions,
  7067. > which actually require several hundred non-ASCII characters, unless you
  7068. > mean, as so many do, arithmetic expressions.
  7069. Yes, that's what I meant, thanks.  (All of us here recognize the
  7070. shortcomings of ASCII -- that's why we're here!  But let's not forget that
  7071. ASCII can be used to write, say, Fortran programs that can handle far more
  7072. in the way of mathematics than the repertoire of ASCII might suggest, and
  7073. that people send Fortran-like expressions back and forth in email, etc,
  7074. which could easily lose their meaning when reformatted.)
  7075.  
  7076. > When I want my text to stay as I wrote it, I put it into a PDF, not a text
  7077. > file. Others prefer TeX for this purpose, or PostScript.
  7078. My point exactly.  And how do I read your PDF if I don't have a PDF reader?
  7079. (Don't say "get one" -- I'm reading your mail on a DOS PC or a PDP-11, or a
  7080. Cray supercomputer.)  How do I read TeX if I don't have the software?  How
  7081. do I read PostScript if I don't have a PostScript printer or rendering
  7082. engine.  But the crucial point is:
  7083.  
  7084.       How will I read your PDF file 200 years from now, when
  7085.       PDF itself has been consigned to the "legacy" trashheap
  7086.       for the past 195 years?
  7087.  
  7088. > We raised the question of defining a Unicode plain text format about two
  7089. > years ago, but nothing seemed to come of it.
  7090. >
  7091. Then let's try again.  Let me get the ball rolling with the following simple
  7092. suggestion for Unicode Plain-Text File and Interchange Format:
  7093.  
  7094. A monospaced character-cell display device is assumed for the purposes of
  7095. line breaking.  Characters that are too wide for a character cell (such as
  7096. Kanjis) occupy a double-width cell.  Of course, Unicode Plain Text can also
  7097. be displayed on any other kind of device, in any font, monospaced or not, in
  7098. which case "all bets are off", just as they are now with traditional plain
  7099. text when displayed in a proportional font.
  7100.  
  7101. Conversely, it is recognized that a monospaced (or duospaced) character-cell
  7102. device might be inadequate for display of certain writing systems, such as
  7103. Arabic or Indic scripts, and in this case intelligent rendering engines
  7104. might very well be required.  This should, nevertheless, be possible with
  7105. plain text, without the aid of any particular markup scheme.
  7106.  
  7107. Plain text is composed only of Unicode characters, with no meta-level
  7108. of formatting information, presentation hints, etc, except:
  7109.  
  7110.  1. Spaces, such as U+0020 and U+00A0, which are are "kept" (e.g. 
  7111.     adjacent spaces are not collapsed).
  7112.  
  7113.  2. Horizontal Tabs are indicated by the HT character, U+0009.  Tab
  7114.     stops shall be assumed every 8 columns, starting at the first.  (This
  7115.     provision is primarily to facilitate conversion of ASCII and 8-bit
  7116.     text to Unicode.  Alternatively, it would be OK to force all
  7117.     horizontal alignment to be accomplished by spaces.)
  7118.  
  7119.  3. Line breaks are indicated by Line Separator, U+2028.  Preformatted
  7120.     text must break lines at column 79 or less to avoid unwanted
  7121.     reformatting.  Column numbers are 1-based, relative to the left or
  7122.     right margin, according to the previaling directionality, with
  7123.     single-width characters as the counting unit.  A line break is
  7124.     required at the end of the final line if it is to be considered a
  7125.     line.  (This is to allow append operations to work in the expected
  7126.     fashion.)
  7127.  
  7128.  4. Paragraph breaks are indicated by two successive Line Separators
  7129.     or by Paragraph Separator, U+2029.
  7130.  
  7131.  5. Hard page breaks are indicated by FF, U+000C.
  7132.  
  7133. C0 and C1 control characters other than HT and FF have no function
  7134. whatsoever in Unicode Plain Text.  (If there were Unicode Horizontal Tab and
  7135. Page Break characters, we wouldn't need C0 at all; however, the UTC -- or at
  7136. least members of it, in previous discussions -- indicated that there is no
  7137. good reason to duplicate the C0 characters that are already in Unicode.)
  7138.  
  7139. A Unicode plain-text "rendering engine" shall not mess with the format of a
  7140. plain-text file except, optionally, at the user's discretion, to wrap lines
  7141. that are longer than the display or printing device.  Higher-level rendering
  7142. engines, of course, can do whatever they want.
  7143.  
  7144. - Frank
  7145.  
  7146.  2-Jul-99 16:32:42-GMT,2273;000000000001
  7147. Return-Path: <unicode@unicode.org>
  7148. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  7149.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id MAA25758
  7150.     for <fdc@watsun.cc.columbia.edu>; Fri, 2 Jul 1999 12:32:41 -0400 (EDT)
  7151. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  7152.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id JAA248914
  7153.     ; Fri, 2 Jul 1999 09:27:18 -0700
  7154. Received: by unicode.org (NX5.67g/NX3.0S)
  7155.     id AA21218; Fri, 2 Jul 99 09:18:02 -0700
  7156. Message-Id: <9907021618.AA21218@unicode.org>
  7157. Errors-To: uni-bounce@unicode.org
  7158. X-Uml-Sequence: 8293 (1999-07-02 16:17:51 GMT)
  7159. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  7160. To: Unicode List <unicode@unicode.org>
  7161. Date: Fri, 2 Jul 1999 09:17:48 -0700 (PDT)
  7162. Subject: Plain text: Amendment 1
  7163.  
  7164. 90 seconds later...  
  7165.  
  7166.  1. Spaces, such as U+0020 and U+00A0, which are are "kept" (e.g.
  7167.     adjacent spaces are not collapsed).
  7168.  
  7169.  2. Horizontal Tabs are indicated by the HT character, U+0009.  Tab
  7170.     stops shall be assumed every 8 columns, starting at the first.  (This
  7171.     provision is primarily to facilitate conversion of ASCII and 8-bit
  7172.     text to Unicode.  Alternatively, it would be OK to force all
  7173.     horizontal alignment to be accomplished by spaces.)
  7174.  
  7175.  3. Line breaks are indicated by Line Separator, U+2028.  Preformatted
  7176.     text must break lines at column 79 or less to avoid unwanted
  7177.     reformatting.  Column numbers are 1-based, relative to the left or
  7178.     right margin, according to the previaling directionality, with
  7179.     single-width characters as the counting unit.  A line break is
  7180.     required at the end of the final line if it is to be considered a
  7181.     line.  (This is to allow append operations to work in the expected
  7182.     fashion.)
  7183.  
  7184.  4. Paragraph breaks are indicated by two successive Line Separators
  7185.     or by Paragraph Separator, U+2029.
  7186.  
  7187.  5. Hard page breaks are indicated by FF, U+000C.
  7188.  
  7189. Change (4) to:
  7190.  
  7191.  4. Paragraph breaks are indicated by Paragraph Separator, U+2029.
  7192.  
  7193. Add to (3):
  7194.  
  7195.     A blank line is indicated by two successive Line Separators.
  7196.     Two blank lines are indicated by three of them, etc.
  7197.  
  7198. This is to allow paragraphs like this one, which contain embedded
  7199. "displays" set off by blank lines that are NOT paragraph separators.
  7200.  
  7201. - Frank
  7202.  
  7203.  2-Jul-99 17:17:52-GMT,4232;000000000011
  7204. Return-Path: <unicode@unicode.org>
  7205. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  7206.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id NAA07783
  7207.     for <fdc@watsun.cc.columbia.edu>; Fri, 2 Jul 1999 13:17:51 -0400 (EDT)
  7208. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  7209.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id KAA281172
  7210.     ; Fri, 2 Jul 1999 10:08:26 -0700
  7211. Received: by unicode.org (NX5.67g/NX3.0S)
  7212.     id AA21632; Fri, 2 Jul 99 09:58:39 -0700
  7213. Message-Id: <9907021658.AA21632@unicode.org>
  7214. Errors-To: uni-bounce@unicode.org
  7215. Mime-Version: 1.0
  7216. Content-Type: text/plain; charset=us-ascii
  7217. Content-Transfer-Encoding: 7bit
  7218. X-Uml-Sequence: 8294 (1999-07-02 16:58:29 GMT)
  7219. From: Geoffrey Waigh <anzu@home.com>
  7220. To: Unicode List <unicode@unicode.org>
  7221. Date: Fri, 2 Jul 1999 09:58:27 -0700 (PDT)
  7222. Subject: Re: Plain Text
  7223. Content-Transfer-Encoding: 7bit
  7224.  
  7225.  
  7226.  
  7227. Frank da Cruz wrote:
  7228. > Then let's try again.  Let me get the ball rolling with the following simple
  7229. > suggestion for Unicode Plain-Text File and Interchange Format:
  7230. > A monospaced character-cell display device is assumed for the purposes of
  7231. > line breaking.  Characters that are too wide for a character cell (such as
  7232. > Kanjis) occupy a double-width cell.  Of course, Unicode Plain Text can also
  7233. > be displayed on any other kind of device, in any font, monospaced or not, in
  7234. > which case "all bets are off", just as they are now with traditional plain
  7235. > text when displayed in a proportional font.
  7236.  
  7237. Why are you specifying font characteristics for plain text?
  7238.  
  7239. > Conversely, it is recognized that a monospaced (or duospaced) character-cell
  7240. > device might be inadequate for display of certain writing systems, such as
  7241. > Arabic or Indic scripts, and in this case intelligent rendering engines
  7242. > might very well be required.  This should, nevertheless, be possible with
  7243. > plain text, without the aid of any particular markup scheme.
  7244.  
  7245. And then saying that you don't really need a monospace font and it is
  7246. still plain text even when you have to do a proper job of rendering it?
  7247.  
  7248. > Plain text is composed only of Unicode characters, with no meta-level
  7249. > of formatting information, presentation hints, etc, except:
  7250. >  1. Spaces, such as U+0020 and U+00A0, which are are "kept" (e.g.
  7251. >     adjacent spaces are not collapsed).
  7252.  
  7253. I don't see how barring all the other spacing and presentation codes
  7254. (e.g. ZWNJ) improves plain text.
  7255.  
  7256. >  2. Horizontal Tabs are indicated by the HT character, U+0009.  Tab
  7257. >     stops shall be assumed every 8 columns, starting at the first.  (This
  7258. >     provision is primarily to facilitate conversion of ASCII and 8-bit
  7259. >     text to Unicode.  Alternatively, it would be OK to force all
  7260. >     horizontal alignment to be accomplished by spaces.)
  7261. >  3. Line breaks are indicated by Line Separator, U+2028.  Preformatted
  7262. >     text must break lines at column 79 or less to avoid unwanted
  7263. >     reformatting.  Column numbers are 1-based, relative to the left or
  7264. >     right margin, according to the previaling directionality, with
  7265. >     single-width characters as the counting unit.  A line break is
  7266. >     required at the end of the final line if it is to be considered a
  7267. >     line.  (This is to allow append operations to work in the expected
  7268. >     fashion.)
  7269.  
  7270. I don't see how specifying the maximum text width is in the purview of
  7271. "plain text."  That is suggesting that running my terminal in 132 column
  7272. mode (or printing on wide paper/with narrow fonts,) involves something
  7273. special.  I suspect that all the attention to cell widths, column
  7274. counting and what not is to make tab processing map nicely to the
  7275. character cell terminal model.  That model is responsible for some
  7276. horrible hacks when it migrated to other countries and I believe the
  7277. difficulties in adapting software that depends on it to writing systems
  7278. it does not work for has been a serious drag on more advanced Unicode
  7279. implementations.
  7280.  
  7281. >  4. Paragraph breaks are indicated by two successive Line Separators
  7282. >     or by Paragraph Separator, U+2029.
  7283.  
  7284. If we are supporting Unicode and have a notion of Paragraph it seems
  7285. reasonable to specify it is denoted with U+2029.
  7286.  
  7287. >  5. Hard page breaks are indicated by FF, U+000C.
  7288.  
  7289. Geoffrey
  7290.  
  7291.  2-Jul-99 18:15:24-GMT,5607;000000000001
  7292. Return-Path: <unicode@unicode.org>
  7293. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  7294.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id OAA24570
  7295.     for <fdc@watsun.cc.columbia.edu>; Fri, 2 Jul 1999 14:15:23 -0400 (EDT)
  7296. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  7297.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id LAA270448
  7298.     ; Fri, 2 Jul 1999 11:10:54 -0700
  7299. Received: by unicode.org (NX5.67g/NX3.0S)
  7300.     id AA22476; Fri, 2 Jul 99 10:54:55 -0700
  7301. Message-Id: <9907021754.AA22476@unicode.org>
  7302. Errors-To: uni-bounce@unicode.org
  7303. X-Uml-Sequence: 8297 (1999-07-02 17:54:45 GMT)
  7304. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  7305. To: Unicode List <unicode@unicode.org>
  7306. Cc: unicode@unicode.org
  7307. Date: Fri, 2 Jul 1999 10:54:44 -0700 (PDT)
  7308. Subject: Re: Plain Text
  7309.  
  7310. > Why are you specifying font characteristics for plain text?
  7311. Only for purposes of getting across the idea that "long line = paragraph,
  7312. break where you please" should not be considered well-formed plain text.
  7313. Or, to look at it the other way, that plain text must allow for hard line
  7314. breaks, and there should be a convention as to how long we might reasonably
  7315. expect lines to be.  "Columns" are the only measurement that makes sense
  7316. (surely not picas, inches, millimeters, pixels, ...) and this presupposes 
  7317. fixed spacing. 
  7318.  
  7319. This might be a farfetched notion except that it is completely consonent
  7320. with current practice.
  7321.  
  7322. The fact that monospaced fonts have fallen out of fashion should not cloud
  7323. our judgement.  Naturally they present some difficulties for multilingual
  7324. text, but they also provide numerous benefits.  They let me compose a text
  7325. document that anybody can read in -- barring "rendering engine" interference
  7326. -- the same form in which I composed it.  Tables line up, columns of numbers
  7327. add up, comments in my C program are aligned, etc.  All this without our
  7328. having to agree in advance on which rendering engine or markup language to
  7329. use.
  7330.  
  7331. Parenthetically, look at the mess the craze for the typeset appearance has
  7332. gotten us into.  If I want to make a table on a Web page or in a typeset
  7333. document, I have to use some kind of markup language or "table" package,
  7334. rather than just spacing or tabbing the items appropriately.  Which is fine
  7335. until you consider that any markup language or tables package you are using
  7336. today will be long forgotten a few years from now, and so your laboriously
  7337. constructed document will either require conversion or be lost forever (or
  7338. humans will need to read the markup language directly).
  7339.  
  7340. As noted, I grant that the monospace-font model does not apply equally well
  7341. to all writing systems, but for the many to which it does apply -- Roman,
  7342. Hebrew, Cyrillic, Armenian, Greek, Georgian, etc, and to some extent CJK
  7343. since, at least in Japan, they have been using mono- and duospaced fonts on
  7344. terminals and PCs for decades, and care as much about things lining up as
  7345. anybody else -- should guidelines not be stated up front?
  7346.  
  7347. > >  1. Spaces, such as U+0020 and U+00A0, which are are "kept" (e.g.
  7348. > >     adjacent spaces are not collapsed).
  7349. > I don't see how barring all the other spacing and presentation codes
  7350. > (e.g. ZWNJ) improves plain text.
  7351. They aren't barred -- they are Unicode characters that are not C0 or C1
  7352. control characters.  And they aren't a higher-level markup language.
  7353.  
  7354. > I don't see how specifying the maximum text width is in the purview of
  7355. > "plain text."  That is suggesting that running my terminal in 132 column
  7356. > mode (or printing on wide paper/with narrow fonts,) involves something
  7357. > special.  I suspect that all the attention to cell widths, column
  7358. > counting and what not is to make tab processing map nicely to the
  7359. > character cell terminal model.  That model is responsible for some
  7360. > horrible hacks when it migrated to other countries and I believe the
  7361. > difficulties in adapting software that depends on it to writing systems
  7362. > it does not work for has been a serious drag on more advanced Unicode
  7363. > implementations.
  7364. I suppose you're right about the intention.  That's what the discussion is
  7365. for -- to find suitable language for expressing a model for "text that is
  7366. already formatted and stands on its own without additional formatting from
  7367. any higher intelligence and that can displayed by the most minimalistic
  7368. plain-text viewer", like this email message.
  7369.  
  7370. You might be right about specifying a maximum line length.  And yet,
  7371. if there is to be such a thing as preformatted plain text, and none of us
  7372. can deny that there already is such a thing since this is how we commicate,
  7373. should there not be some form of guideline as to what is a safe default
  7374. line-length, in the absence of any prior agreement to set a different one?
  7375. That's what we do now, implicitly.  Why not make it explicit?  So how should
  7376. the guideline be expressed?
  7377.  
  7378. Let's assume you are composing some plain text, and you don't care how it's
  7379. rendered.  Then don't include Line Separators and let the viewer "flow" the
  7380. text.  That's fine for ordinary prose, but it assumes a viewer that knows
  7381. how to flow text, and I'm not sure that a text-flowing viewer should be
  7382. assumed or required.  As somebody mentioned earlier, most printers will
  7383. truncate long lines, as will many terminals and other display devices.
  7384.  
  7385. If you do care how the text is rendered, include Line Separators.
  7386.  
  7387. > >  4. Paragraph breaks are indicated by two successive Line Separators
  7388. > >     or by Paragraph Separator, U+2029.
  7389. > If we are supporting Unicode and have a notion of Paragraph it seems
  7390. > reasonable to specify it is denoted with U+2029.
  7391. Agreed and amended already.
  7392.  
  7393. - Frank
  7394.  
  7395.  2-Jul-99 18:32:33-GMT,4626;000000000001
  7396. Return-Path: <kenw@sybase.com>
  7397. Received: from inergen.sybase.com (inergen.sybase.com [192.138.151.43])
  7398.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id OAA29877
  7399.     for <fdc@watsun.cc.columbia.edu>; Fri, 2 Jul 1999 14:32:32 -0400 (EDT)
  7400. Received: from smtp1.sybase.com (sybgate.sybase.com [130.214.220.35])
  7401.     by inergen.sybase.com  with ESMTP id LAA07740;
  7402.     Fri, 2 Jul 1999 11:33:15 -0700 (PDT)
  7403. Received: from birdie.sybase.com (birdie.sybase.com [130.214.140.3])
  7404.     by smtp1.sybase.com  with SMTP id LAA03792;
  7405.     Fri, 2 Jul 1999 11:32:11 -0700 (PDT)
  7406. Received: by birdie.sybase.com (5.x/SMI-SVR4/SybEC3.5)
  7407.     id AA03974; Fri, 2 Jul 1999 11:32:11 -0700
  7408. Date: Fri, 2 Jul 1999 11:32:11 -0700
  7409. From: kenw@sybase.com (Kenneth Whistler)
  7410. Message-Id: <9907021832.AA03974@birdie.sybase.com>
  7411. To: fdc@watsun.cc.columbia.edu
  7412. Subject: Re: Plain text: Amendment 1
  7413. Cc: unicode@unicode.org, kenw@sybase.com
  7414. X-Sun-Charset: US-ASCII
  7415.  
  7416. The problem I am having with Frank's suggestions boil down
  7417. essentially this:
  7418.  
  7419. The Unicode concept of plain text is of a text stream consisting
  7420. only of Unicode characters, interpreted according to the rules
  7421. of the standard, and not including (or not interpreting the
  7422. inclusion of) higher-level markup, however expressed. It does
  7423. not involve specification of particular font behavior (including
  7424. monospacing), details of terminal interaction, or line length.
  7425.  
  7426. It is that concept of Unicode plain text that we intend and
  7427. hope will be stable for the next century. Given the text stream
  7428. itself, basic textual content should be derivable, although not
  7429. necessarily any detailed layout information.
  7430.  
  7431. The intended invariant is textual content, rather than document
  7432. form including textual content.
  7433.  
  7434. To specify invariant document form, it is clear that a higher-level
  7435. protocol must be specified. And I see Frank's Unicode plain text
  7436. proposal as just the bare-bottom, minimal common denominator for
  7437. a document description standard. In that respect it is no different
  7438. from PDF, except in complexity and faithfulness to original appearance
  7439. of a document in all details.
  7440.  
  7441. Some of the difficulty of this discussion, of course, derives from
  7442. the fact that the Unicode Standard unavoidably had to contain some
  7443. bare minimum of format control characters. We have had to specify
  7444. format semantics for CR, LF, TAB, VT, FF because there was no way
  7445. we were going to get from the past to the future without people
  7446. converting existing documents using these (or carrying analogous
  7447. practice into new documents); and LS and PS were added to provide
  7448. a minimum, unambiguous set of format controls to organize plain
  7449. text. Bidi format controls were added because they had to be: otherwise,
  7450. you run into situations where intended content is inexpressible, or
  7451. existing content is uninterpretable in plain text.
  7452.  
  7453. And on the other hand, the situation is muddied by plain text markup
  7454. conventions where the markup is carried around in the plain text:
  7455.  
  7456. <TR>
  7457. <TD>9/23/98</TD>
  7458. <TD>38 widgets sold</TD>
  7459. <TD align=right>65,416</TD>
  7460. <TD align=center>---</TD>
  7461. <TD align=right>65,416</TD>
  7462. </TR>
  7463.  
  7464. Where the "plain text" is:
  7465.  
  7466. "<TR>NLF<TD>9/23/98</TD>NLF<TD>38 widgets sold</TD>NLF<TD ali
  7467. gn=right>65,416</TD>NLF<TD align=center>---</TD>NLF<TD align=
  7468. right>65,416</TD>NLF</TR>"
  7469.  
  7470. But the plain text of the content is 5 strings:
  7471.  
  7472. "9/23/98"  "38 widgets sold"  "65,416"  "---"  "65,416"
  7473.  
  7474. And the full document desription is, of course, not just these
  7475. 5 strings, but includes the fact that they constitute a row embedded in 
  7476. a table, and are aligned in specified ways within the cells in that row.
  7477.  
  7478. The Unicode vision is that the character encoding standard itself
  7479. should be as robust and useful in its larger domain as the 7-bit ASCII
  7480. standard was in its own contrained textual domain.
  7481.  
  7482. But given the enormous complexities that are inherent in trying to
  7483. deal with *all* of the writing systems of the world, it is inevitable
  7484. that plain text *layout* conventions involving Unicode are going to
  7485. be considerably more complex than plain text *layout* conventions
  7486. involving ASCII only. At the bare minimum, for example, plain text
  7487. in Unicode *must* take bidirectional layout into account--otherwise,
  7488. you would be saying that you could express Unicode content in plain
  7489. text, as long as you avoided Hebrew, Arabic, and Syriac characters.
  7490.  
  7491. In some respects, the entire content of the Unicode Standard beyond
  7492. just the code charts and names lists is an elaborate attempt to
  7493. describe what it means to deal with plain text layout and interpretation
  7494. for all of the Unicode characters. It cannot be encapsulated in
  7495. the kind of constraints that Frank has suggested, in my opinion.
  7496.  
  7497. --Ken
  7498.  
  7499.  2-Jul-99 18:51:30-GMT,5169;000000000011
  7500. Return-Path: <anzu@home.com>
  7501. Received: from mail.rdc1.bc.home.com (ha1.rdc1.bc.wave.home.com [24.2.10.66])
  7502.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id OAA05270
  7503.     for <fdc@watsun.cc.columbia.edu>; Fri, 2 Jul 1999 14:51:28 -0400 (EDT)
  7504. Received: from home.com ([24.113.28.108]) by mail.rdc1.bc.home.com
  7505.           (InterMail v4.01.01.00 201-229-111) with ESMTP
  7506.           id <19990702185120.ZXVS29070.mail.rdc1.bc.home.com@home.com>;
  7507.           Fri, 2 Jul 1999 11:51:20 -0700
  7508. Message-ID: <377D0A96.86F53390@home.com>
  7509. Date: Fri, 02 Jul 1999 11:53:10 -0700
  7510. From: Geoffrey Waigh <anzu@home.com>
  7511. X-Mailer: Mozilla 4.5 [en] (Win98; I)
  7512. X-Accept-Language: en
  7513. MIME-Version: 1.0
  7514. To: unicode@unicode.org
  7515. Subject: Re: Plain Text
  7516. References: <CMM.0.90.4.930938405.fdc@watsun.cc.columbia.edu>
  7517. Content-Type: text/plain; charset=us-ascii
  7518. Content-Transfer-Encoding: 7bit
  7519.  
  7520.  
  7521.  
  7522. Frank da Cruz wrote:
  7523. > > Why are you specifying font characteristics for plain text?
  7524. > >
  7525. > Only for purposes of getting across the idea that "long line = paragraph,
  7526. > break where you please" should not be considered well-formed plain text.
  7527. > Or, to look at it the other way, that plain text must allow for hard line
  7528. > breaks, and there should be a convention as to how long we might reasonably
  7529. > expect lines to be.  "Columns" are the only measurement that makes sense
  7530. > (surely not picas, inches, millimeters, pixels, ...) and this presupposes
  7531. > fixed spacing.
  7532.  
  7533. See below for comments on maximum line length.  When considering why other
  7534. measurements were inappropriate I realized it is because "preformatted"
  7535. plain text has no control over font size and thus cannot do position
  7536. based formatting as someone would do on a sheet of paper.  The cell
  7537. model allows people to position text without recourse to a markup system
  7538. but at the sacrafice of which scripts can be properly rendered.  It
  7539. happens that many of the commercially significant languages can cope
  7540. with the cell model which is part of the reason it has survived so long.
  7541. Unfortunately it just helps keep the hard writing systems in the ghetto
  7542. because it isn't nearly as profitable and requires dealing with many
  7543. cans of worms when trying to fit them to a system that depends on
  7544. implicit positioning.
  7545.  
  7546. > The fact that monospaced fonts have fallen out of fashion should not cloud
  7547. > our judgement.  Naturally they present some difficulties for multilingual
  7548. > text, but they also provide numerous benefits.  They let me compose a text
  7549. > document that anybody can read in -- barring "rendering engine" interference
  7550. > -- the same form in which I composed it.  Tables line up, columns of numbers
  7551. > add up, comments in my C program are aligned, etc.  All this without our
  7552. > having to agree in advance on which rendering engine or markup language to
  7553. > use.
  7554.  
  7555. Presumably the markup language specifies the semantics well enough to be
  7556. rendering engine independent - if the rendering engine is capable of
  7557. displaying the text as described.  For text that is being sent without
  7558. any markup, then monospace for the bulk of the text is probably what
  7559. the reader should use (at least if they believe the text to have
  7560. horizontal structure.)  I just don't think that it should be enforced.
  7561.  
  7562. As for the concerns about the ephemeral nature of markup languages,
  7563. hopefully we will someday reach some stability for systems that
  7564. don't require a proprietary encoder, do not require extensive
  7565. computer training to grok and do not have flavour of the week
  7566. problems.  These difficulties are not inherent in the design of
  7567. markup languages but an artifact of the political and economic
  7568. forces driving them.
  7569.  
  7570. > You might be right about specifying a maximum line length.  And yet,
  7571. > if there is to be such a thing as preformatted plain text, and none of us
  7572. > can deny that there already is such a thing since this is how we commicate,
  7573. > should there not be some form of guideline as to what is a safe default
  7574. > line-length, in the absence of any prior agreement to set a different one?
  7575. > That's what we do now, implicitly.  Why not make it explicit?  So how should
  7576. > the guideline be expressed?
  7577.  
  7578. Because if it is made explicit, software writers will feel free to take
  7579. such a limit as a hard one and do silly things for text that exceeds it.
  7580. Right now most software will handle long lines albeit sometimes awkwardly.
  7581. If someone preformats their text for 200 columns, then that is what they
  7582. should get if the output device can cope.  If it cannot, they need to
  7583. consider why they think it has to be 200 columns.  In the case of Usenet
  7584. and public mailing lists people have to curtail their lines if they don't
  7585. want them mangled.
  7586.  
  7587. > Let's assume you are composing some plain text, and you don't care how it's
  7588. > rendered.  Then don't include Line Separators and let the viewer "flow" the
  7589. > text.  That's fine for ordinary prose, but it assumes a viewer that knows
  7590. > how to flow text, and I'm not sure that a text-flowing viewer should be
  7591. > assumed or required.  As somebody mentioned earlier, most printers will
  7592. > truncate long lines, as will many terminals and other display devices.
  7593. > If you do care how the text is rendered, include Line Separators.
  7594.  
  7595. I agree with this.
  7596.  
  7597. Geoffrey
  7598.  
  7599.  2-Jul-99 20:08:21-GMT,3467;000000000001
  7600. Return-Path: <unicode@unicode.org>
  7601. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  7602.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id QAA25355
  7603.     for <fdc@watsun.cc.columbia.edu>; Fri, 2 Jul 1999 16:08:20 -0400 (EDT)
  7604. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  7605.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id MAA91712
  7606.     ; Fri, 2 Jul 1999 12:56:37 -0700
  7607. Received: by unicode.org (NX5.67g/NX3.0S)
  7608.     id AA24684; Fri, 2 Jul 99 12:47:49 -0700
  7609. Message-Id: <9907021947.AA24684@unicode.org>
  7610. Errors-To: uni-bounce@unicode.org
  7611. X-Uml-Sequence: 8306 (1999-07-02 19:47:40 GMT)
  7612. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  7613. To: Unicode List <unicode@unicode.org>
  7614. Cc: unicode@unicode.org
  7615. Date: Fri, 2 Jul 1999 12:47:39 -0700 (PDT)
  7616. Subject: Re: Plain Text
  7617.  
  7618. OK, then perhaps the idea of "recommended maximum line length" is an
  7619. unnecessary complication.  Perhaps it is enough to say that Line
  7620. Separator means what it says.  If I put one in my text, then it means
  7621. to start a new line.  If I make sure that there are no more than 79
  7622. characters between line separators (or whatever else is appropriate
  7623. to my writing system), I'll get the desired effect.
  7624.  
  7625. > As for the concerns about the ephemeral nature of markup languages,
  7626. > hopefully we will someday reach some stability for systems that
  7627. > don't require a proprietary encoder, do not require extensive
  7628. > computer training to grok and do not have flavour of the week
  7629. > problems.  These difficulties are not inherent in the design of
  7630. > markup languages but an artifact of the political and economic
  7631. > forces driving them.
  7632. Right, of course.  But we can we trust the market to settle on a simple
  7633. standard for plain text?  Of course not; there's no money in it.
  7634.  
  7635. Does the market want an immutable standard for plain-text documents that
  7636. can last for a century or an eon?  Of course not.  The market wants
  7637. everything to change all the time, so everybody will have to "upgrade"
  7638. constantly.
  7639.  
  7640. That's great for business but bad for preservation of history and 
  7641. culture.  And it shortens the productive lives of "content providers".
  7642. There are ways to make money that don't require artificially induced
  7643. instability.
  7644.  
  7645. Furthermore, I would not like to think that in the Unicode world of
  7646. the future, that it will not be possible to send preformatted email
  7647. or netnews without the assistance of some specific markup language
  7648. or embedded proprietary word-processor codes.  Email has already
  7649. deteriorated significantly from its original openness thanks to MIME's
  7650. blessing of any kind of proprietary gewgaw any vendor wants to add
  7651. to their GUI email clients.  Thus a perfect application for Unicode
  7652. plain text would be as a MIME type, specifically intended to proclaim
  7653. and promote the adherence to a simple, universal, vendor-independent,
  7654. self-contained standard.  Hopefully the IETF would have the sense to
  7655. see the value of a Unicode successor to RFC822.
  7656.  
  7657. So I'd like to see a definition for plain text in the Unicode standard,
  7658. that is totally independent of any external product, that allows a
  7659. file or stream of Unicode text to stand on its own, for all time, and
  7660. retain a minimum level of formatting, in those cases where the author
  7661. of the text feels formatting is important.  (In fact, all of us do,
  7662. otherwise we wouldn't care so much about fonts and rendering engines
  7663. and markup languages).  I think email and netnews are two areas where
  7664. the need for such a standard is evident.
  7665.  
  7666. - Frank
  7667.  
  7668.  2-Jul-99 20:31:40-GMT,1251;000000000001
  7669. Return-Path: <unicode@unicode.org>
  7670. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  7671.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id QAA01309
  7672.     for <fdc@watsun.cc.columbia.edu>; Fri, 2 Jul 1999 16:31:39 -0400 (EDT)
  7673. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  7674.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id NAA185114
  7675.     ; Fri, 2 Jul 1999 13:26:21 -0700
  7676. Received: by unicode.org (NX5.67g/NX3.0S)
  7677.     id AA25362; Fri, 2 Jul 99 13:17:37 -0700
  7678. Message-Id: <9907022017.AA25362@unicode.org>
  7679. Errors-To: uni-bounce@unicode.org
  7680. Mime-Version: 1.0
  7681. Content-Type: text/plain;
  7682.     charset="iso-8859-1"
  7683. X-Uml-Sequence: 8308 (1999-07-02 20:17:28 GMT)
  7684. From: "Paul Dempsey (Exchange)" <paulde@exchange.microsoft.com>
  7685. To: Unicode List <unicode@unicode.org>
  7686. Date: Fri, 2 Jul 1999 13:17:27 -0700 (PDT)
  7687. Subject: RE: Plain Text
  7688.  
  7689. This would be a fine standard.  However, it doesn't have to be part of the
  7690. _Unicode_ standard, and I don't think it belongs as a normative part of
  7691. Unicode.  As minimal as it may be, it still falls into the domain of file
  7692. formats and "higher-level protocol".
  7693.  
  7694. It's a tribute to the success of Unicode that people want to piggyback on
  7695. it's success to solve closely related problems. 
  7696.  
  7697. --- Paul
  7698.  
  7699.  2-Jul-99 23:30:54-GMT,1326;000000000001
  7700. Return-Path: <unicode@unicode.org>
  7701. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  7702.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id TAA29893
  7703.     for <fdc@watsun.cc.columbia.edu>; Fri, 2 Jul 1999 19:30:53 -0400 (EDT)
  7704. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  7705.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id QAA194924
  7706.     ; Fri, 2 Jul 1999 16:24:01 -0700
  7707. Received: by unicode.org (NX5.67g/NX3.0S)
  7708.     id AA28898; Fri, 2 Jul 99 16:10:32 -0700
  7709. Message-Id: <9907022310.AA28898@unicode.org>
  7710. Errors-To: uni-bounce@unicode.org
  7711. Mime-Version: 1.0
  7712. Content-Type: text/plain; charset=US-ASCII
  7713. Content-Transfer-Encoding: 7bit
  7714. X-Uml-Sequence: 8321 (1999-07-02 23:10:02 GMT)
  7715. From: John Cowan <cowan@locke.ccil.org>
  7716. To: Unicode List <unicode@unicode.org>
  7717. Date: Fri, 2 Jul 1999 16:10:01 -0700 (PDT)
  7718. Subject: Re: Plain text: Amendment 1
  7719. Content-Transfer-Encoding: 7bit
  7720.  
  7721. Frank da Cruz scripsit:
  7722.  
  7723. > This is to allow paragraphs like this one, which contain embedded
  7724. > "displays" set off by blank lines that are NOT paragraph separators.
  7725.  
  7726. A great thing.  It is only in plain text that I can compare
  7727.  
  7728. 1)    example A
  7729.  
  7730. with
  7731.  
  7732. 2)    example B
  7733.  
  7734. in a single paragraph without confusion.
  7735.  
  7736. -- 
  7737. John Cowan                                   cowan@ccil.org
  7738.        I am a member of a civilization. --David Brin
  7739.  
  7740.  3-Jul-99  0:50:17-GMT,1114;000000000001
  7741. Return-Path: <unicode@unicode.org>
  7742. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  7743.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id UAA08384
  7744.     for <fdc@watsun.cc.columbia.edu>; Fri, 2 Jul 1999 20:50:16 -0400 (EDT)
  7745. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  7746.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id RAA339856
  7747.     ; Fri, 2 Jul 1999 17:46:29 -0700
  7748. Received: by unicode.org (NX5.67g/NX3.0S)
  7749.     id AA00424; Fri, 2 Jul 99 17:34:34 -0700
  7750. Message-Id: <9907030034.AA00424@unicode.org>
  7751. Errors-To: uni-bounce@unicode.org
  7752. Mime-Version: 1.0
  7753. Content-Type: text/plain;
  7754.     charset="iso-8859-1"
  7755. X-Uml-Sequence: 8325 (1999-07-03 00:34:07 GMT)
  7756. From: "Christopher J.  Fynn" <cfynn@dircon.co.uk>
  7757. To: Unicode List <unicode@unicode.org>
  7758. Date: Fri, 2 Jul 1999 17:34:05 -0700 (PDT)
  7759. Subject: RE: Plain Text [**NOT**]
  7760. Content-Transfer-Encoding: 8bit
  7761. X-MIME-Autoconverted: from quoted-printable to 8bit by watsun.cc.columbia.edu id UAA08384
  7762.  
  7763. Edward Cherlin wrote:
  7764.  
  7765. > I know of no device which required the user to enter a CR followed 
  7766. > by an LF
  7767.  
  7768. The manual typewriter?
  7769.  
  7770. - Chris
  7771.  
  7772.  3-Jul-99  1:13:59-GMT,1390;000000000001
  7773. Return-Path: <unicode@unicode.org>
  7774. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  7775.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id VAA09857
  7776.     for <fdc@watsun.cc.columbia.edu>; Fri, 2 Jul 1999 21:13:59 -0400 (EDT)
  7777. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  7778.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id SAA251700
  7779.     ; Fri, 2 Jul 1999 18:07:10 -0700
  7780. Received: by unicode.org (NX5.67g/NX3.0S)
  7781.     id AA00795; Fri, 2 Jul 99 17:51:32 -0700
  7782. Message-Id: <9907030051.AA00795@unicode.org>
  7783. Errors-To: uni-bounce@unicode.org
  7784. X-Uml-Sequence: 8326 (1999-07-03 00:51:19 GMT)
  7785. From: kenw@sybase.com (Kenneth Whistler)
  7786. To: Unicode List <unicode@unicode.org>
  7787. Cc: unicode@unicode.org, kenw@sybase.com
  7788. Date: Fri, 2 Jul 1999 17:51:17 -0700 (PDT)
  7789. Subject: RE: Plain Text [**NOT**]
  7790.  
  7791. Chris Fynn suggested:
  7792.  
  7793. > Edward Cherlin wrote:
  7794. > > I know of no device which required the user to enter a CR followed 
  7795. > > by an LF
  7796. > The manual typewriter?
  7797.  
  7798. Hehe, not even that, since when you pull the "carriage return lever" to return 
  7799. the carriage to the left margin, the ratchet setting (for single space
  7800. or double space) automatically feeds the line (or lines) on the platen to the
  7801. ratchet stop before the lever locks and allows you to drag the
  7802. carriage back.
  7803.  
  7804. So nice try, but CRLF was already mechanically automated decades ago.
  7805.  
  7806. --Ken
  7807.  
  7808. > - Chris
  7809.  
  7810.  3-Jul-99  3:06:18-GMT,1372;000000000001
  7811. Return-Path: <unicode@unicode.org>
  7812. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  7813.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id XAA20716
  7814.     for <fdc@watsun.cc.columbia.edu>; Fri, 2 Jul 1999 23:06:17 -0400 (EDT)
  7815. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  7816.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id UAA266332
  7817.     ; Fri, 2 Jul 1999 20:01:53 -0700
  7818. Received: by unicode.org (NX5.67g/NX3.0S)
  7819.     id AA01966; Fri, 2 Jul 99 19:48:33 -0700
  7820. Message-Id: <9907030248.AA01966@unicode.org>
  7821. Errors-To: uni-bounce@unicode.org
  7822. Mime-Version: 1.0
  7823. Content-Type: text/plain
  7824. X-Uml-Sequence: 8330 (1999-07-03 02:48:22 GMT)
  7825. From: "Hohberger, Clive P." <CPHOHBER@zebra.com>
  7826. To: Unicode List <unicode@unicode.org>
  7827. Date: Fri, 2 Jul 1999 19:48:20 -0700 (PDT)
  7828. Subject: RE: Plain Text [**NOT**]
  7829.  
  7830. The Teletypes did, up through at least the KSR 33 and ASR 35, at least.
  7831. That's why CR and LF were made part of the control character set...
  7832. along with alot of other Teletype commands (SI, SO, HT, etc)
  7833. Clive
  7834.  
  7835. > -----Original Message-----
  7836. > From:    Christopher J.  Fynn [SMTP:cfynn@dircon.co.uk]
  7837. > Sent:    Friday, July 02, 1999 7:34 PM
  7838. > To:    Unicode List
  7839. > Subject:    RE: Plain Text [**NOT**]
  7840. > Edward Cherlin wrote:
  7841. > > I know of no device which required the user to enter a CR followed 
  7842. > > by an LF
  7843. > The manual typewriter?
  7844. > - Chris
  7845.  
  7846.  3-Jul-99  3:41:00-GMT,1740;000000000001
  7847. Return-Path: <unicode@unicode.org>
  7848. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  7849.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id XAA24627
  7850.     for <fdc@watsun.cc.columbia.edu>; Fri, 2 Jul 1999 23:40:59 -0400 (EDT)
  7851. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  7852.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id UAA268562
  7853.     ; Fri, 2 Jul 1999 20:33:54 -0700
  7854. Received: by unicode.org (NX5.67g/NX3.0S)
  7855.     id AA02522; Fri, 2 Jul 99 20:21:14 -0700
  7856. Message-Id: <9907030321.AA02522@unicode.org>
  7857. Errors-To: uni-bounce@unicode.org
  7858. Mime-Version: 1.0
  7859. Content-Type: text/plain; charset="us-ascii"
  7860. X-Uml-Sequence: 8332 (1999-07-03 03:20:58 GMT)
  7861. From: Edward Cherlin <edward.cherlin.sy.67@aya.yale.edu>
  7862. To: Unicode List <unicode@unicode.org>
  7863. Date: Fri, 2 Jul 1999 20:20:57 -0700 (PDT)
  7864. Subject: Re: Plain Text
  7865.  
  7866. At 11:45 -0700 7/2/1999, Geoffrey Waigh wrote:
  7867. >Frank da Cruz wrote:
  7868. >>
  7869. >> > Why are you specifying font characteristics for plain text?
  7870. >> >
  7871. >> Only for purposes of getting across the idea that "long line = paragraph,
  7872. >> break where you please" should not be considered well-formed plain text.
  7873. >> Or, to look at it the other way, that plain text must allow for hard line
  7874. >> breaks, and there should be a convention as to how long we might reasonably
  7875. >> expect lines to be.
  7876. [much snippage]
  7877.  
  7878. There cannot be an enforceable line length limit on plain text. One of the
  7879. uses of plain text is for database interchange, where any number of fields
  7880. of any length, plus separators, may constitute a line.
  7881. --
  7882. Edward Cherlin                        President
  7883. Coalition Against Unsolicited Commercial E-mail
  7884. Help outlaw Spam.       <http://www.cauce.org/>
  7885. Talk to us at             <news:comp.org.cauce>
  7886.  
  7887.  3-Jul-99  3:46:36-GMT,22091;000000000001
  7888. Return-Path: <unicode@unicode.org>
  7889. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  7890.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id XAA25014
  7891.     for <fdc@watsun.cc.columbia.edu>; Fri, 2 Jul 1999 23:46:35 -0400 (EDT)
  7892. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  7893.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id UAA186618
  7894.     ; Fri, 2 Jul 1999 20:35:16 -0700
  7895. Received: by unicode.org (NX5.67g/NX3.0S)
  7896.     id AA02526; Fri, 2 Jul 99 20:21:17 -0700
  7897. Message-Id: <9907030321.AA02526@unicode.org>
  7898. Errors-To: uni-bounce@unicode.org
  7899. Mime-Version: 1.0
  7900. Content-Type: text/plain; charset="us-ascii"
  7901. X-Uml-Sequence: 8333 (1999-07-03 03:21:01 GMT)
  7902. From: Edward Cherlin <edward.cherlin.sy.67@aya.yale.edu>
  7903. To: Unicode List <unicode@unicode.org>
  7904. Cc: unicode@unicode.org
  7905. Date: Fri, 2 Jul 1999 20:20:59 -0700 (PDT)
  7906. Subject: Re: Plain Text
  7907.  
  7908. At 08:58 -0700 7/2/1999, Frank da Cruz wrote:
  7909. [failing to mention that Ed Cherlin wrote:]
  7910. >> The problems we have with ASCII plain text come mainly from a small set of
  7911. >> common variant practices.
  7912. >>
  7913. >> Using CR, LF, or CR/LF as a line or paragraph end
  7914. >> Different tab spacings
  7915. >> Optional line wrap
  7916. >> Formfeed codes vs. computed page breaks
  7917. >> BS = DEL or BS-overstrike
  7918. >>
  7919. >We all have dealt with these annoyances throughout our careers.  They are
  7920. >indeed annoying, but not impassible impediments.  Also, let's not mix up:
  7921. >
  7922. > . File storage format
  7923. > . Interchange format
  7924. > . Data entry format
  7925.   . Rendering options
  7926.  
  7927. On looking through the remainder of this message, I conclude that I
  7928. disagree with Frank's attempts to make his own limited experience
  7929. normative, but I heartily agree that his proposal for a bottom-level plain
  7930. text Unicode format is on the right track, and that it allows us to deal
  7931. with some of the issues listed above as file format issues, specifically
  7932. line and paragraph ends and other control codes. Tab stops, wrapping, and
  7933. page breaking must be left to the user's choice when rendering, since they
  7934. are not file format issues.
  7935.  
  7936. >> Using CR, LF, or CR/LF as a line or paragraph end
  7937. >>
  7938. >As a line end:
  7939. >  This is a file storage issue.
  7940. >
  7941. >As a paragraph end:
  7942. >  There is no such thing as a paragraph end or paragraph separator in
  7943. >  traditional plain text.
  7944. >
  7945. >Here I am sitting at my VT100 terminal, which is plugged in to my UNIX
  7946. >computer.
  7947.  
  7948. Here *I* am, sitting at my Mac, and recalling what I have been doing on an
  7949. NT system and Silicon Graphics Indy and O2 computers running Irix for the
  7950. last year and a half, when I was shuttling files back and forth between
  7951. them. (The Indy is used as an embedded controller in a 750 kg laser
  7952. microscope system for semiconductor wafer inspection, and the O2 to run the
  7953. microscope software without the hardware for demos and simulations, none of
  7954. which matters to this discussion.)
  7955.  
  7956. >I type:
  7957. >
  7958. >  This is a line
  7959. >
  7960. >Then I push the Return key (sometimes marked Enter), which sends a Carriage
  7961. >Return.
  7962.  
  7963. Whereas my VT100 simulator used to get its CR from the keyboard buffer,
  7964. where it was deposited after the keyboard driver translated from the
  7965. keyboard scan codes. Anyway, input technology is not at issue here.
  7966.  
  7967. >I would enter a line in exactly the same way no matter what
  7968. >computer was on the far end of the wire.  Now:
  7969. >
  7970. > . The UNIX terminal driver turns the CR into a LF before giving it
  7971. >   to the application.  If the application is storing the line into a
  7972. >   file, the file gets "This is a line<LF>".  Ditto for some other
  7973. >   operating systems, like AOS/VS.
  7974. >
  7975. > . If I had OS-9 on the far end, it would store "This is a line<CR>".
  7976.                  ^or Mac OS
  7977.  
  7978. > . If I had TOPS-10, TOPS-20, RT-11, etc, on the far end, it would
  7979. >   store "This is a line<CR><LF>".
  7980. >
  7981. > . If I had VMS, VOS, VM/CMS, MVS/TSO or other complex file system on
  7982. >   the far end, who knows how the line would be stored -- it depends on
  7983. >   chosen the file organization and record format.
  7984. >
  7985. >The point is, it doesn't matter.  Each platform has its own format for
  7986. >internal use, but a standardized interface to the outside world.  To further
  7987. >demonstrate this fact, if I then tell the computer on the far end to "type"
  7988. >or "cat" the file, it will, invariably, send:
  7989. >
  7990. >  This is a line<CR><LF>
  7991.  
  7992. Your cultural ignorance/sheltered life-experience is showing. *You* may
  7993. live in an environment where these changes are made automatically, but a
  7994. lot of us don't.
  7995.  
  7996. >So who cares what the file format is -- except of course when we want to
  7997. >transfer the file to another platform.
  7998.  
  7999. And since I don't use a VT100 simulator anymore, I only encounter this
  8000. issue when transfering files to another platform, and as a result I care
  8001. all the time.
  8002.  
  8003. >In that case, it is the
  8004. >responsibility of each file-transfer agent
  8005.  
  8006. When reading floppy disks?
  8007.  
  8008. >to convert between its peculiar
  8009. >local format and the common one.  And that is exactly what they do, just
  8010. >as is done at the terminal/terminal-driver/data-entry level.  FTP and Kermit
  8011. >are two examples that show it is not that hard to convert plain-text file
  8012. >record formats from one platform to another.  (And in Kermit's case, the
  8013. >character set too.)
  8014. >
  8015. >Of course life would have been simpler if there had been only ONE standard
  8016. >text-file format used on all platforms.  But the early days of computing
  8017. >was a time of "Let the Hundred Flowers Bloom", and they did.  Now, however,
  8018. >we are in a position to start over, and it is an opportunity we are not
  8019. >likely to have again.
  8020.  
  8021. Yes, yes, everything *could* have been made to work, except for the parts
  8022. that couldn't, you see, because management wouldn't allow the extra time
  8023. and space required to make things portable, or worse still, was trying to
  8024. lock customers into proprietary data formats.
  8025.  
  8026. >> Different tab spacings
  8027. >>
  8028. >I used to say this too, but the last platform I know about that did not
  8029. >assume tabstops at 1,9,17,25,... was MULTICS.  Of course tabs are variable
  8030. >in word processors, etc, but that is not plain text.
  8031.  
  8032. Your limited experience again. I have rarely used an editor with fixed tab
  8033. stops since about 1982 (EDLIN, IIRC). I once knew the escape sequences for
  8034. IBM, Diablo, and Qume *printing* terminal tab settings by heart.
  8035.  
  8036. >> Optional line wrap
  8037. >>
  8038. >This is a feature of the terminal or the application, not of "plain text".
  8039.  
  8040. This is a feature found in ASCII *files* which were written either with or
  8041. without explicit line breaks, requiring a choice for appropriate
  8042. rendering--a choice which the editor should be able to make, but which the
  8043. user should actually make.
  8044.  
  8045. >Files that do not contain line breaks and must rely on some form of
  8046. >postprocessing to insert line breaks at appropriate points is not really
  8047. >plain text, it is "input for a text formatter".
  8048.  
  8049. But the text editor is frequently the chosen text reformatter. You are
  8050. still claiming that text files as they occur in your computer subculture
  8051. are for some reason normative for the rest of us.
  8052.  
  8053. >Prior to the advent of
  8054. >word processors, the idea of "long line as paragraph" never came up.
  8055.  
  8056. Word processing began in the 1960s. I gather you had a later date in mind.
  8057. Did you mean specifically WYSIWYG word processors, invented at Xerox in the
  8058. late 1970s?
  8059.  
  8060. >> Formfeed codes vs. computed page breaks
  8061. >>
  8062. >Page breaks are an issue worth discussing, and we discussed them at some
  8063. >length two years ago.  Basically, you can let your "rendering engine" or
  8064. >printer driver insert them for you, or you can insert them yourself.  One
  8065. >should be allowed the choice.  (Why would anybody want "hard" page breaks?
  8066. >Because they are printing paychecks, invoices, envelopes, etc.)
  8067.  
  8068. If we can establish that general principle and apply it to the previous
  8069. cases, the problem will be solved in short order. The application
  8070. determines the requirements for tab stops, page breaks, and paragraph or
  8071. line formatting.
  8072.  
  8073. >> BS = DEL or BS-overstrike
  8074. >>
  8075. >This is a data entry issue, unless you mean including BS in a file for
  8076. >overstriking.  But in that case, there is never any confusion between BS and
  8077. >DEL, since DEL is never used for that purpose.  In other words, the only
  8078. >confusion is at data entry, and this is entirely irrelevant to the
  8079. >definition of plain text.
  8080. >
  8081. >> >Lines are terminated at somewhere between 72 and 80 characters by
  8082. >> >convention, because that's how wide terminal screens are, and before them
  8083. >> >the Teletype carriage, and before that the most common kind of punchcard.
  8084. >> >Or for that matter, typewriters and sheets of paper (A4 or US, take your
  8085. >> >pick :-)
  8086. >> >
  8087. >> >To this day, we follow these conventions in newsgroups and email, although
  8088. >> >now it might be more a matter of "netiquette" than necessity (as in the
  8089. >> >BITNET days, when e-mail was, quite literally, 80-column card images).
  8090. >>
  8091. >>      As long as e-mail readers cannot correctly reformat messages with bad
  8092. >> line breaks                           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
  8093. >>      (like this), it will be a matter of real necessity.
  8094. >>
  8095. >What does "correctly reformat messages" mean?  How can your mail client read
  8096. >my mind?  How does it know that the message I sent you was not already
  8097. >formatted exactly the way I wanted it?
  8098.  
  8099. I mean that it should have the ability to reformat such badly broken text,
  8100. to use when I decide. Right now I have to reformat such text by hand, or
  8101. leave it severely broken. Well, maybe I should learn Perl, but I prefer
  8102. that someone else learn Perl and write the routines I and many others need.
  8103. If any reader is interested, the spec is as follows.
  8104.  
  8105. 1) Reflow paragraphs, removing extra white space, while preserving quoting
  8106. marks '>' in the left margin. Don't get confused by angle brackets in the
  8107. text.
  8108.  
  8109. 2) Realign tables with "tab damage". Tables that are too wide should be
  8110. broken into pages, rather than having lines folded.
  8111.  
  8112. If you can manage those two, you're good, and I have some more little jobs
  8113. for you. E-mail users will be eternally grateful (for a week or two,
  8114. anyway, on Net time).
  8115.  
  8116. >Notice that to illustrate my point, I need your original formatting (above)
  8117. >preserved, with the "> " quote indicators added at the left margin, and with
  8118. >my emphasis added under the appropriate words.  What is a "correct" mail
  8119. >client supposed to do with this?  Something like this?:
  8120. >
  8121. >    > As long as e-mail readers cannot correctly
  8122. >    reformat messages with bad > line breaks
  8123. >    ^^^^^^^^^^^^^^^^^^^^^^^^^^^ > (like this),
  8124. >    it will be a matter of real necessity.
  8125. >
  8126. >No, a correct email client will leave it alone.  Whether I want my email
  8127. >reformatted by your client should be my choice, since only I know what my
  8128. >intentions are in sending it.        ^^^^^^^^^
  8129.  
  8130. However, it actually is the recipient's choice, and you can't stop us. The
  8131. "correct" reformatting I had in mind would look like this.
  8132.  
  8133. >>      As long as e-mail readers cannot correctly reformat messages with bad
  8134. >>      line breaks (like this), it will be a matter of real necessity.
  8135.  
  8136. or possibly
  8137.  
  8138. >>As long as e-mail readers cannot correctly reformat messages with bad
  8139. >>line breaks (like this), it will be a matter of real necessity.
  8140.  
  8141. (**my choice**)
  8142.  
  8143. >Granted, plain text requires some minimal level of agreement, for example
  8144. >that your screen is 72 (or 76, or 79) columns wide.  I maintain that this
  8145. >convention is universal, except for Kanji, etc, which are displayed in two
  8146. >character cells each.  People who use email, netnews, and other forms of
  8147. >open, interplatform communication have learned these conventions.  We use
  8148. >them ourselves on this mailing list.  Those of us who do not are often
  8149. >excoriated for our antisocial behavior.
  8150.  
  8151. Universal, of course, except where it isn't, you know. No matter where we
  8152. set the right margin, text quoted from e-mails will break against it if it
  8153. can't be reflowed.
  8154.  
  8155. >Especially when we send email or netnews in some application-specific
  8156. >format, assuming that everybody else uses the same platform and applications
  8157. >we do.
  8158. >
  8159. >> >These simple conventions let us format our text exactly the way we want
  8160. >> >to.  We can indent or not, we can put line breaks where we want them, we
  8161. >> >can have columns of numbers or other tabular presentations, mathematical
  8162. >> >expressions,
  8163. >>
  8164. >> which actually require several hundred non-ASCII characters, unless you
  8165. >> mean, as so many do, arithmetic expressions.
  8166. >>
  8167. >Yes, that's what I meant, thanks.  (All of us here recognize the
  8168. >shortcomings of ASCII -- that's why we're here!  But let's not forget that
  8169. >ASCII can be used to write, say, Fortran programs that can handle far more
  8170. >in the way of mathematics than the repertoire of ASCII might suggest, and
  8171. >that people send Fortran-like expressions back and forth in email, etc,
  8172. >which could easily lose their meaning when reformatted.)
  8173.  
  8174. How do you express a vector inner product in FORTRAN? In TeX it's something
  8175. like $\Sigma_(i=0)^n a_i \times b_i$, and in APL it's nearly "A+.xB", but
  8176. with a real times symbol.
  8177.  
  8178. >> When I want my text to stay as I wrote it, I put it into a PDF, not a text
  8179. >> file. Others prefer TeX for this purpose, or PostScript.
  8180. >>
  8181. >My point exactly.
  8182.  
  8183. No, your point was that ASCII text files stay formatted the way you write
  8184. them. That would be true, I suppose, if we agreed with you that we could
  8185. outlaw differences in tab stops, line breaking, and other options on
  8186. different platforms, because your subworld is normative and there aren't
  8187. any variant practices worthy of consideration.
  8188.  
  8189. >And how do I read your PDF if I don't have a PDF reader?
  8190. >(Don't say "get one" -- I'm reading your mail on a DOS PC or a PDP-11, or a
  8191. >Cray supercomputer.)
  8192.  
  8193. Yes, we had the same problem with SGI Irix 5.2, which doesn't support a PDF
  8194. reader. But the field engineers have Windows on their laptops, so it's only
  8195. a problem for the user manual, not the service manual, and only becomes
  8196. vitally important in paperless fabs.
  8197.  
  8198. >How do I read TeX if I don't have the software?  How
  8199. >do I read PostScript if I don't have a PostScript printer or rendering
  8200. >engine.  But the crucial point is:
  8201. >
  8202. >      How will I read your PDF file 200 years from now, when
  8203. >      PDF itself has been consigned to the "legacy" trashheap
  8204. >      for the past 195 years?
  8205.  
  8206. along with ASCII, 8859, and 2022, and all of our removable storage media.
  8207. Do you know someone with a functioning Teletype paper tape reader who can
  8208. read legacy ASCII files from 1970? What would you suggest I archive my
  8209. life's work on for the ages to come (if anyone cares)?
  8210.  
  8211. >> We raised the question of defining a Unicode plain text format about two
  8212. >> years ago, but nothing seemed to come of it.
  8213.  
  8214.  
  8215.  
  8216. >Then let's try again.  Let me get the ball rolling with the following simple
  8217. >suggestion for Unicode Plain-Text File and Interchange Format:
  8218.                 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  8219.  
  8220. The following discusses a file format and a number of rendering options,
  8221. but fails to address interchange. UTF-8 is usually recommended for
  8222. interchange, since it avoids the Endianness question, but transfer of files
  8223. in other encodings will occur, and must be provided for.
  8224.  
  8225. The file format must define permitted character codes and code sequences. I
  8226. suggest that we permit any character code that can represent a character,
  8227. even if no character is defined for that code, but that we not permit
  8228. unmatched surrogate characters or codes which are defined not to have the
  8229. possibility of representing a character. Error behavior for the rendering
  8230. process when there are illegal codes or code sequences can be undefined, or
  8231. we could specify error messages and continuation policies.
  8232.  
  8233. The display rendering process does not change the file, so any display
  8234. options such as word wrap, tab stops, character width, ligatures, combining
  8235. characters, and so on are orthogonal to the file format. The user can
  8236. change the text and save in the new form, but the software isn't allowed to
  8237. on its own.
  8238.  
  8239. Rendering behavior of control codes and other non-printing characters must
  8240. be defined.
  8241.  
  8242. >A monospaced character-cell display device is assumed for the purposes of
  8243. >line breaking.  Characters that are too wide for a character cell (such as
  8244. >Kanjis) occupy a double-width cell.
  8245.  
  8246. Users may choose to display all characters in cells of the same width, or
  8247. to mix single- and double-cell display. Note that this is not the same as
  8248. half-width and full-width CJK characters, which have been defined as
  8249. separate characters.
  8250.  
  8251. >Of course, Unicode Plain Text can also
  8252. >be displayed on any other kind of device, in any font, monospaced or not, in
  8253. >which case "all bets are off", just as they are now with traditional plain
  8254. >text when displayed in a proportional font.
  8255.  
  8256. Specifically, we will permit rendering in ATSUI on the Mac, in Java, on
  8257. NT2K, in Plan 9, and on other platforms, all with whatever level of Unicode
  8258. rendering and fonts happen to be available, and we will specify what should
  8259. happen for missing characters, lack of BIDI capability, lack of ligatures,
  8260. etc.
  8261.  
  8262. >Conversely, it is recognized that a monospaced (or duospaced) character-cell
  8263. >device might be inadequate for display of certain writing systems, such as
  8264. >Arabic or Indic scripts, and in this case intelligent rendering engines
  8265. >might very well be required.
  8266.  
  8267. For some purposes a monospaced LTR rendering of these characters may be
  8268. useful, and is permitted as a user option and as a fallback.
  8269.  
  8270. >This should, nevertheless, be possible with
  8271. >plain text, without the aid of any particular markup scheme.
  8272.  
  8273. But with the use of Unicode markup characters, such as explicit ordering
  8274. and joining characters.
  8275.  
  8276. >Plain text is composed only of Unicode characters,
  8277.                                        ^printing    ^including surrogate
  8278. character pairs,
  8279.  
  8280. >with no meta-level
  8281. >of formatting information, presentation hints, etc, except:
  8282. >
  8283. > 1. Spaces, such as U+0020 and U+00A0, which are are "kept" (e.g.
  8284. >    adjacent spaces are not collapsed).
  8285.  
  8286. including spaces defined at code points U+2000-U+200B.
  8287.  
  8288. > 2. Horizontal Tabs are indicated by the HT character, U+0009.  Tab
  8289. >    stops shall be assumed every 8 columns, starting at the first.  (This
  8290. >    provision is primarily to facilitate conversion of ASCII and 8-bit
  8291. >    text to Unicode.  Alternatively, it would be OK to force all
  8292. >    horizontal alignment to be accomplished by spaces.)
  8293.  
  8294. As on a typewriter, we have no control of the user's tab stop settings. I
  8295. recommend that we legislate alignment of monospaced text using spaces only,
  8296. and forget HT. That's what I have taught people to do for tabular e-mail
  8297. such as resumes.
  8298.  
  8299. > 3. Line breaks are indicated by Line Separator, U+2028.  Preformatted
  8300. >    text must break lines at column 79 or less to avoid unwanted
  8301. >    reformatting.
  8302.  
  8303. At present software is free to truncate long lines, wrap at the last
  8304. column, or word wrap. I would recommend that we forbid truncation and allow
  8305. the user to choose wrapping style.
  8306.  
  8307. >Column numbers are 1-based, relative to the left or
  8308. >    right margin, according to the previaling directionality, with
  8309. >    single-width characters as the counting unit.  A line break is
  8310. >    required at the end of the final line if it is to be considered a
  8311. >    line.  (This is to allow append operations to work in the expected
  8312. >    fashion.)
  8313. >
  8314. > 4. Paragraph breaks are indicated by two successive Line Separators
  8315.  
  8316. legacy, deprecated in new software
  8317.  
  8318. >    or by Paragraph Separator, U+2029.
  8319. >
  8320. > 5. Hard page breaks are indicated by FF, U+000C.
  8321.  
  8322.   6. BIDI modifiers: U+200E, LEFT-TO-RIGHT MARK; U+200F, RIGHT-TO-LEFT MARK
  8323.  
  8324.   7. Joining modifiers: U+200C, ZERO-WIDTH NON-JOINER; U+200D ZERO-WIDTH JOINER
  8325.  
  8326.   8. Combining characters: numerous accents; vowels in Hebrew, Arabic,
  8327. Indic scripts, etc.
  8328.  
  8329.   9. FEFF  ZERO-WIDTH NO-BREAK SPACE=BYTE ORDER MARK should be the first
  8330. character in a Unicode text file in 16-bit encoding (is that UTF-16? I
  8331. can't keep them all straight.) BOM is not required in UTF-8 encoding.
  8332.  
  8333.  
  8334. Non-normative comment:
  8335. >C0 and C1 control characters other than HT and FF have no function
  8336. >whatsoever in Unicode Plain Text.  (If there were Unicode Horizontal Tab and
  8337. >Page Break characters, we wouldn't need C0 at all; however, the UTC -- or at
  8338. >least members of it, in previous discussions -- indicated that there is no
  8339. >good reason to duplicate the C0 characters that are already in Unicode.)
  8340. End comment.
  8341.  
  8342. >A Unicode plain-text "rendering engine" shall not mess with the format of a
  8343.                                                    \\\\\\\\\change
  8344.  
  8345. >plain-text file except, optionally, at the user's discretion, to wrap lines
  8346.                 \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\. It may
  8347.  
  8348. on the display
  8349. >that are longer than the display or printing device.  Higher-level rendering
  8350.                                                     ^line length
  8351.  
  8352. >engines, of course, can do whatever they want.
  8353.  
  8354. And plain text can contain any markup for such engines using Unicode
  8355. characters that is defined for a specific use, such as HTML, TeX source
  8356. code, RTF, etc.
  8357. >- Frank
  8358. Ed
  8359.  
  8360. The following non-printing characters may occur in the file, but will be
  8361. treated as unavailable characters.
  8362.      U+206A INHIBIT SYMMETRIC SWAPPING
  8363.      U+206B ACTIVATE SYMMETRIC SWAPPING
  8364.      U+206C INHIBIT ARABIC SHAPING
  8365.      U+206D ACTIVATE ARABIC SHAPING
  8366.      U+206E NATIONAL DIGIT SHAPES
  8367.      U+206F NOMINAL DIGIT SHAPES
  8368. Unicode Standard 2.0 describes them as "Alternate format characters (usage
  8369. strongly discouraged)"
  8370.  
  8371. Behavior for unavailable characters should be defined. Options include a
  8372. single glyph for any unavailable character, glyphs indicating the code
  8373. block of unavailable characters, and numeric rendering.
  8374.  
  8375. Behavior for non-printing characters with no semantic significance in plain
  8376. text should be defined. Should they be treated as unavailable characters,
  8377. or as though they aren't there?
  8378.  
  8379. A growing number of standards specify the use of Unicode text files,
  8380. without explicitly defining them. If we get anywhere with this, we will
  8381. have to run our proposal past these other groups, including the IETF, the
  8382. POSIX committee, programming language standards committees, etc.
  8383.  
  8384. --
  8385. Edward Cherlin                        President
  8386. Coalition Against Unsolicited Commercial E-mail
  8387. Help outlaw Spam.       <http://www.cauce.org/>
  8388. Talk to us at             <news:comp.org.cauce>
  8389.  
  8390.  3-Jul-99 11:14:03-GMT,1857;000000000001
  8391. Return-Path: <unicode@unicode.org>
  8392. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  8393.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id HAA14406
  8394.     for <fdc@watsun.cc.columbia.edu>; Sat, 3 Jul 1999 07:14:03 -0400 (EDT)
  8395. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  8396.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id EAA276564
  8397.     ; Sat, 3 Jul 1999 04:11:00 -0700
  8398. Received: by unicode.org (NX5.67g/NX3.0S)
  8399.     id AA06070; Sat, 3 Jul 99 03:53:40 -0700
  8400. Message-Id: <9907031053.AA06070@unicode.org>
  8401. Errors-To: uni-bounce@unicode.org
  8402. Content-Type: text/plain
  8403. X-Uml-Sequence: 8345 (1999-07-03 10:53:24 GMT)
  8404. From: dickey@clark.net
  8405. To: Unicode List <unicode@unicode.org>
  8406. Cc: unicode@unicode.org
  8407. Date: Sat, 3 Jul 1999 03:53:23 -0700 (PDT)
  8408. Subject: Re: Plain Text
  8409.  
  8410. > At 08:58 -0700 7/2/1999, Frank da Cruz wrote: 
  8411. > [failing to mention that Ed Cherlin wrote:] 
  8412. > >> The problems we have with ASCII plain text come mainly from a small set of 
  8413. > >> common variant practices. 
  8414. > >> 
  8415. > >> Using CR, LF, or CR/LF as a line or paragraph end 
  8416. > >> Different tab spacings 
  8417. > >> Optional line wrap 
  8418. > >> Formfeed codes vs. computed page breaks 
  8419. > >> BS = DEL or BS-overstrike 
  8420. > >> 
  8421. > >We all have dealt with these annoyances throughout our careers.  They are 
  8422. > >indeed annoying, but not impassible impediments.  Also, let's not mix up: 
  8423. > > 
  8424. > > . File storage format 
  8425. > > . Interchange format 
  8426. > > . Data entry format 
  8427. >   . Rendering options 
  8428. >  
  8429. > On looking through the remainder of this message, I conclude that I 
  8430. > disagree with Frank's attempts to make his own limited experience 
  8431.  
  8432. Perhaps you should introduce yourself - I know who Frank is, and the other
  8433. contributors to this list at least give the impression of being polite
  8434. and knowledgable.
  8435.  
  8436. -- 
  8437. Thomas E. Dickey
  8438. dickey@clark.net
  8439. http://www.clark.net/pub/dickey
  8440.  
  8441.  3-Jul-99 22:53:44-GMT,2716;000000000001
  8442. Return-Path: <unicode@unicode.org>
  8443. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  8444.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id SAA19468
  8445.     for <fdc@watsun.cc.columbia.edu>; Sat, 3 Jul 1999 18:53:43 -0400 (EDT)
  8446. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  8447.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id PAA321514
  8448.     ; Sat, 3 Jul 1999 15:49:25 -0700
  8449. Received: by unicode.org (NX5.67g/NX3.0S)
  8450.     id AA08130; Sat, 3 Jul 99 15:36:24 -0700
  8451. Message-Id: <9907032236.AA08130@unicode.org>
  8452. Errors-To: uni-bounce@unicode.org
  8453. Mime-Version: 1.0
  8454. Content-Type: text/plain; charset="us-ascii"
  8455. X-Uml-Sequence: 8350 (1999-07-03 22:36:12 GMT)
  8456. From: Edward Cherlin <edward.cherlin.sy.67@aya.yale.edu>
  8457. To: Unicode List <unicode@unicode.org>
  8458. Cc: unicode@unicode.org
  8459. Date: Sat, 3 Jul 1999 15:36:11 -0700 (PDT)
  8460. Subject: Re: Plain Text
  8461.  
  8462. At 03:56 -0700 7/3/1999, dickey@clark.net wrote:
  8463. >>
  8464. >> At 08:58 -0700 7/2/1999, Frank da Cruz wrote:
  8465. >> [failing to mention that Ed Cherlin wrote:]
  8466. >> >> The problems we have with ASCII plain text come mainly from a small
  8467. >>set of
  8468. >> >> common variant practices.
  8469. >> >>
  8470. >> >> Using CR, LF, or CR/LF as a line or paragraph end
  8471. >> >> Different tab spacings
  8472. >> >> Optional line wrap
  8473. >> >> Formfeed codes vs. computed page breaks
  8474. >> >> BS = DEL or BS-overstrike
  8475. >> >>
  8476. >> >We all have dealt with these annoyances throughout our careers.  They are
  8477. >> >indeed annoying, but not impassible impediments.  Also, let's not mix up:
  8478. >> >
  8479. >> > . File storage format
  8480. >> > . Interchange format
  8481. >> > . Data entry format
  8482. >>   . Rendering options
  8483. >>
  8484. >> On looking through the remainder of this message, I conclude that I
  8485. >> disagree with Frank's attempts to make his own limited experience
  8486. >
  8487. >Perhaps you should introduce yourself - I know who Frank is, and the other
  8488. >contributors to this list at least give the impression of being polite
  8489. >and knowledgable.
  8490. >
  8491. >--
  8492. >Thomas E. Dickey
  8493. >dickey@clark.net
  8494. >http://www.clark.net/pub/dickey
  8495.  
  8496. Well, in no particular order, I am
  8497.  
  8498. Edward Cherlin
  8499. Spam fighter
  8500. Participant in standards processes for APL, I18N, Unicode
  8501. Experience in production of documents including APL, math, music, Chinese,
  8502. Korean, Japanese, Greek, Russian, Hebrew, Yiddish
  8503. Author and publisher of The Worldwide Impact of the Unicode Character Set
  8504. Standard, 1994.
  8505. BA Honors Math & Philosophy Yale 1967
  8506. Buddhist priest
  8507. Author of The New Newbie Pages at http://www.newbie.net
  8508. Member of this list for several years.
  8509.  
  8510. I was part of the discussion with Frank about a Unicode text standard two
  8511. years ago.
  8512.  
  8513. Ed Cherlin, President, CAUCE <http://www.cauge.org>
  8514.  "Everything should be made as simple as possible,
  8515. __but no simpler__."  Attributed to Albert Einstein
  8516.  
  8517.  3-Jul-99 23:14:02-GMT,1568;000000000001
  8518. Return-Path: <unicode@unicode.org>
  8519. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  8520.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id TAA20747
  8521.     for <fdc@watsun.cc.columbia.edu>; Sat, 3 Jul 1999 19:14:02 -0400 (EDT)
  8522. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  8523.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id QAA323778
  8524.     ; Sat, 3 Jul 1999 16:09:39 -0700
  8525. Received: by unicode.org (NX5.67g/NX3.0S)
  8526.     id AA08393; Sat, 3 Jul 99 16:00:26 -0700
  8527. Message-Id: <9907032300.AA08393@unicode.org>
  8528. Errors-To: uni-bounce@unicode.org
  8529. Content-Type: text/plain
  8530. X-Uml-Sequence: 8351 (1999-07-03 23:00:16 GMT)
  8531. From: dickey@clark.net
  8532. To: Unicode List <unicode@unicode.org>
  8533. Cc: unicode@unicode.org
  8534. Date: Sat, 3 Jul 1999 16:00:15 -0700 (PDT)
  8535. Subject: Re: Plain Text
  8536.  
  8537. > Well, in no particular order, I am 
  8538. >  
  8539. > Edward Cherlin 
  8540. > Spam fighter 
  8541. > Participant in standards processes for APL, I18N, Unicode 
  8542. > Experience in production of documents including APL, math, music, Chinese, 
  8543. > Korean, Japanese, Greek, Russian, Hebrew, Yiddish 
  8544. > Author and publisher of The Worldwide Impact of the Unicode Character Set 
  8545. > Standard, 1994. 
  8546. > BA Honors Math & Philosophy Yale 1967 
  8547. > Buddhist priest 
  8548. > Author of The New Newbie Pages at http://www.newbie.net 
  8549. > Member of this list for several years. 
  8550.  
  8551. so?  (I don't see any clue for berating Frank about "limited experience",
  8552. except possibly your implied age ~55 -- for the rest, I don't see anything
  8553. that matters much)
  8554.   
  8555. -- 
  8556. Thomas E. Dickey
  8557. dickey@clark.net
  8558. http://www.clark.net/pub/dickey
  8559.  
  8560.  4-Jul-99  9:31:30-GMT,3005;000000000001
  8561. Return-Path: <unicode@unicode.org>
  8562. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  8563.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id FAA18134
  8564.     for <fdc@watsun.cc.columbia.edu>; Sun, 4 Jul 1999 05:31:29 -0400 (EDT)
  8565. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  8566.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id CAA258396
  8567.     ; Sun, 4 Jul 1999 02:24:16 -0700
  8568. Received: by unicode.org (NX5.67g/NX3.0S)
  8569.     id AA09766; Sun, 4 Jul 99 02:16:33 -0700
  8570. Message-Id: <9907040916.AA09766@unicode.org>
  8571. Errors-To: uni-bounce@unicode.org
  8572. Mime-Version: 1.0
  8573. Content-Type: text/plain; charset="us-ascii"
  8574. X-Uml-Sequence: 8355 (1999-07-04 09:16:18 GMT)
  8575. From: Edward Cherlin <edward.cherlin.sy.67@aya.yale.edu>
  8576. To: Unicode List <unicode@unicode.org>
  8577. Cc: unicode@unicode.org
  8578. Date: Sun, 4 Jul 1999 02:16:17 -0700 (PDT)
  8579. Subject: Re: Plain Text
  8580.  
  8581. At 16:00 -0700 7/3/1999, dickey@clark.net wrote:
  8582. [failing to note that Ed Cherlin wrote in reply to his request for
  8583. identification]
  8584. >> Well, in no particular order, I am
  8585. >>
  8586. >> Edward Cherlin
  8587. >> Spam fighter
  8588. >> Participant in standards processes for APL, I18N, Unicode
  8589. >> Experience in production of documents including APL, math, music, Chinese,
  8590. >> Korean, Japanese, Greek, Russian, Hebrew, Yiddish
  8591. >> Author and publisher of The Worldwide Impact of the Unicode Character Set
  8592. >> Standard, 1994.
  8593. >> BA Honors Math & Philosophy Yale 1967
  8594. >> Buddhist priest
  8595. >> Author of The New Newbie Pages at http://www.newbie.net
  8596. >> Member of this list for several years.
  8597.  
  8598. [and also omitting Ed's statement about having been in a similar discussion
  8599. with Frank on this list two years ago, about creating a Unicode text format
  8600. standard.]
  8601. >
  8602. >so?  (I don't see any clue for berating Frank about "limited experience",
  8603.  
  8604. Are you berating me? You didn't ask me for "clues for berating Frank", just
  8605. who I am. Do you mean that my experience is irrelevant in discussing his
  8606. experience?
  8607.  
  8608. Frank? Am I being mean to you? Is my criticism too harsh? If so, I
  8609. apologize. What did you think about my suggestions for the Unicode text
  8610. standard?
  8611.  
  8612. >except possibly your implied age ~55 -- for the rest, I don't see anything
  8613. >that matters much)
  8614.  
  8615. Frank's "limited experience" is not youth but insularity. He cites
  8616. practices current on UNIX systems as though they applied universally.
  8617.  
  8618. I have used UNIX, DOS, Windows, CP/M, Apple ][, IBM mainframes via
  8619. timesharing, and several other kinds of computers, dealing with character
  8620. set problems well outside Frank's range of experience. I forgot to mention
  8621. that I instigated and managed a software development project for a highly
  8622. portable APL that came out in English, French, German, Finnish, Russian,
  8623. and Japanese, on a variety of computer architectures.
  8624.  
  8625. >--
  8626. >Thomas E. Dickey
  8627. >dickey@clark.net
  8628. >http://www.clark.net/pub/dickey
  8629.  
  8630. --
  8631. Edward Cherlin                        President
  8632. Coalition Against Unsolicited Commercial E-mail
  8633. Help outlaw Spam.       <http://www.cauce.org/>
  8634. Talk to us at             <news:comp.org.cauce>
  8635.  
  8636.  4-Jul-99 11:25:19-GMT,3107;000000000001
  8637. Return-Path: <unicode@unicode.org>
  8638. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  8639.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id HAA04675
  8640.     for <fdc@watsun.cc.columbia.edu>; Sun, 4 Jul 1999 07:25:19 -0400 (EDT)
  8641. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  8642.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id EAA204984
  8643.     ; Sun, 4 Jul 1999 04:19:18 -0700
  8644. Received: by unicode.org (NX5.67g/NX3.0S)
  8645.     id AA10393; Sun, 4 Jul 99 04:04:37 -0700
  8646. Message-Id: <9907041104.AA10393@unicode.org>
  8647. Errors-To: uni-bounce@unicode.org
  8648. Content-Type: text/plain
  8649. X-Uml-Sequence: 8357 (1999-07-04 11:04:25 GMT)
  8650. From: dickey@clark.net
  8651. To: Unicode List <unicode@unicode.org>
  8652. Cc: unicode@unicode.org
  8653. Date: Sun, 4 Jul 1999 04:04:23 -0700 (PDT)
  8654. Subject: Re: Plain Text
  8655.  
  8656. [omitted previous discussion]
  8657.  
  8658. > [and also omitting Ed's statement about having been in a similar discussion 
  8659. > with Frank on this list two years ago, about creating a Unicode text format 
  8660. > standard.] 
  8661. [this appeared redundant, except as a note that you had been introduced to Frank]
  8662.  
  8663. > > 
  8664. > >so?  (I don't see any clue for berating Frank about "limited experience", 
  8665. >  
  8666. > Are you berating me? You didn't ask me for "clues for berating Frank", just 
  8667.  
  8668. hmm (though the nearest dictionary does not convey this, my sense of
  8669. 'berating' is related to the repetition of the "limited experience".
  8670.  
  8671. There are indeed degrees here - but then we can argue about shades of meaning.
  8672.  
  8673. > who I am. Do you mean that my experience is irrelevant in discussing his 
  8674. > experience? 
  8675.  
  8676. It doesn't make a good argument - and most of your listeners stop at that
  8677. point.  (If you wish to be convincing, leave that out and point out the
  8678. places where his posting leaves out information - and _why_ that is more
  8679. important than than what he's presenting).
  8680.   
  8681. > Frank? Am I being mean to you? Is my criticism too harsh? If so, I 
  8682. > apologize. What did you think about my suggestions for the Unicode text 
  8683. > standard? 
  8684.  
  8685. I have a hunch that Frank is home for the weekend.
  8686.   
  8687. > >except possibly your implied age ~55 -- for the rest, I don't see anything 
  8688. > >that matters much) 
  8689. >  
  8690. > Frank's "limited experience" is not youth but insularity. He cites 
  8691. > practices current on UNIX systems as though they applied universally. 
  8692. >  
  8693. > I have used UNIX, DOS, Windows, CP/M, Apple ][, IBM mainframes via 
  8694. > timesharing, and several other kinds of computers, dealing with character 
  8695. > set problems well outside Frank's range of experience. I forgot to mention 
  8696.  
  8697. I wouldn't be surprised if many people on this list have also used
  8698. a variety of systems (otherwise they'd not be reading this list ;-).
  8699.  
  8700. > that I instigated and managed a software development project for a highly 
  8701. > portable APL that came out in English, French, German, Finnish, Russian, 
  8702. > and Japanese, on a variety of computer architectures. 
  8703.  
  8704. I suppose so - but APL itself has little to do with the natural language
  8705. aspect (perhaps you managed the message library - that would be relevant
  8706. to your statement).
  8707.  
  8708. -- 
  8709. Thomas E. Dickey
  8710. dickey@clark.net
  8711. http://www.clark.net/pub/dickey
  8712.  
  8713.  4-Jul-99 16:49:34-GMT,1507;000000000001
  8714. Return-Path: <unicode@unicode.org>
  8715. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  8716.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id MAA12217
  8717.     for <fdc@watsun.cc.columbia.edu>; Sun, 4 Jul 1999 12:49:33 -0400 (EDT)
  8718. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  8719.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id JAA272994
  8720.     ; Sun, 4 Jul 1999 09:42:06 -0700
  8721. Received: by unicode.org (NX5.67g/NX3.0S)
  8722.     id AA12324; Sun, 4 Jul 99 09:27:16 -0700
  8723. Message-Id: <9907041627.AA12324@unicode.org>
  8724. Errors-To: uni-bounce@unicode.org
  8725. Mime-Version: 1.0
  8726. Content-Type: text/plain; charset="us-ascii"
  8727. X-Uml-Sequence: 8364 (1999-07-04 16:27:00 GMT)
  8728. From: Curtis Clark <jcclark@csupomona.edu>
  8729. To: Unicode List <unicode@unicode.org>
  8730. Cc: unicode@unicode.org
  8731. Date: Sun, 4 Jul 1999 09:26:58 -0700 (PDT)
  8732. Subject: Dickey vs. Cherlin, was Re: Plain Text
  8733.  
  8734. I haven't been on this list long (I've found it interesting and useful),
  8735. and I don't claim any qualifications at all; but I wonder, are these sorts
  8736. of exchanges common? I can understand that Unicode could generate some
  8737. strident differences of opinion, but I sense that I'm missing something
  8738. here.
  8739.  
  8740.  
  8741. ----------------------------------------------------------------
  8742. Curtis Clark                  http://www.csupomona.edu/~jcclark/
  8743. Biological Sciences Department             Voice: (909) 869-4062
  8744. California State Polytechnic University      FAX: (909) 869-4078
  8745. Pomona CA 91768-4032  USA                  jcclark@csupomona.edu
  8746.  
  8747.  4-Jul-99 16:51:03-GMT,1926;000000000001
  8748. Return-Path: <unicode@unicode.org>
  8749. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  8750.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id MAA12504
  8751.     for <fdc@watsun.cc.columbia.edu>; Sun, 4 Jul 1999 12:51:03 -0400 (EDT)
  8752. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  8753.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id JAA263944
  8754.     ; Sun, 4 Jul 1999 09:45:02 -0700
  8755. Received: by unicode.org (NX5.67g/NX3.0S)
  8756.     id AA12328; Sun, 4 Jul 99 09:27:17 -0700
  8757. Message-Id: <9907041627.AA12328@unicode.org>
  8758. Errors-To: uni-bounce@unicode.org
  8759. Mime-Version: 1.0
  8760. Content-Type: text/plain; charset="us-ascii"
  8761. X-Uml-Sequence: 8365 (1999-07-04 16:27:01 GMT)
  8762. From: Curtis Clark <jcclark@csupomona.edu>
  8763. To: Unicode List <unicode@unicode.org>
  8764. Date: Sun, 4 Jul 1999 09:26:59 -0700 (PDT)
  8765. Subject: Re: dotless j
  8766.  
  8767. At 07:40 AM 7/4/99 -0700, Jeroen Hellingman wrote:
  8768. > The semantics of both i and j
  8769. >should be that
  8770. >they loose their dots if you put an accent on top of them, so there never
  8771. >should be a problem.
  8772.  
  8773. I'm puzzled by this:
  8774.  
  8775. 1. Precomposed accented characters, I have read, are included in support of
  8776. legacy character sets; the ideal is to use a combining accent with a
  8777. non-accented character.
  8778.  
  8779. 2. There are issues with combining accents needing to account for the
  8780. height of the base letter, dots, as well, no doubt, as ascenders and
  8781. descenders. These are semantic issues, which should be handled by the
  8782. software.
  8783.  
  8784. 3. Unicode, it is said, is a plain text standard.
  8785.  
  8786. (2) and (3) seem to be at odds, unless programs that display plain text
  8787. become a lot more sophisticated.
  8788.  
  8789.  
  8790. ----------------------------------------------------------------
  8791. Curtis Clark                  http://www.csupomona.edu/~jcclark/
  8792. Biological Sciences Department             Voice: (909) 869-4062
  8793. California State Polytechnic University      FAX: (909) 869-4078
  8794. Pomona CA 91768-4032  USA                  jcclark@csupomona.edu
  8795.  
  8796.  4-Jul-99 17:41:35-GMT,2050;000000000001
  8797. Return-Path: <unicode@unicode.org>
  8798. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  8799.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id NAA24093
  8800.     for <fdc@watsun.cc.columbia.edu>; Sun, 4 Jul 1999 13:41:35 -0400 (EDT)
  8801. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  8802.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id KAA196170
  8803.     ; Sun, 4 Jul 1999 10:37:54 -0700
  8804. Received: by unicode.org (NX5.67g/NX3.0S)
  8805.     id AA13836; Sun, 4 Jul 99 10:24:07 -0700
  8806. Message-Id: <9907041724.AA13836@unicode.org>
  8807. Errors-To: uni-bounce@unicode.org
  8808. Mime-Version: 1.0
  8809. Content-Type: text/plain; charset=US-ASCII
  8810. Content-Transfer-Encoding: 7bit
  8811. X-Uml-Sequence: 8370 (1999-07-04 17:23:59 GMT)
  8812. From: John Cowan <cowan@locke.ccil.org>
  8813. To: Unicode List <unicode@unicode.org>
  8814. Date: Sun, 4 Jul 1999 10:23:57 -0700 (PDT)
  8815. Subject: Re: dotless j
  8816. Content-Transfer-Encoding: 7bit
  8817.  
  8818. Curtis Clark scripsit:
  8819.  
  8820. > 1. Precomposed accented characters, I have read, are included in support of
  8821. > legacy character sets; the ideal is to use a combining accent with a
  8822. > non-accented character.
  8823.  
  8824. Just so.
  8825.  
  8826. > 2. There are issues with combining accents needing to account for the
  8827. > height of the base letter, dots, as well, no doubt, as ascenders and
  8828. > descenders. These are semantic issues, which should be handled by the
  8829. > software.
  8830.  
  8831. I don't know what you mean by "semantic".  They are *rendering* issues,
  8832. which must be handled by displaying-and-printing software.   Much
  8833. other software doesn't care a bit.  For example, you can write
  8834. Java code with comments and identifier names in Yoruba, using combining
  8835. characters as needed.
  8836.  
  8837. > 3. Unicode, it is said, is a plain text standard.
  8838.  
  8839. So it is.
  8840.  
  8841. > (2) and (3) seem to be at odds, unless programs that display plain text
  8842. > become a lot more sophisticated.
  8843.  
  8844. So they must, if they are to handle all of Unicode: BIDI, conjoining
  8845. Hangul jamo, etc. etc.  This is the escape from your dilemma.
  8846.  
  8847. -- 
  8848. John Cowan                                   cowan@ccil.org
  8849.        I am a member of a civilization. --David Brin
  8850.  
  8851.  4-Jul-99 18:00:36-GMT,1450;000000000001
  8852. Return-Path: <unicode@unicode.org>
  8853. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  8854.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id OAA27757
  8855.     for <fdc@watsun.cc.columbia.edu>; Sun, 4 Jul 1999 14:00:36 -0400 (EDT)
  8856. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  8857.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id KAA321522
  8858.     ; Sun, 4 Jul 1999 10:54:52 -0700
  8859. Received: by unicode.org (NX5.67g/NX3.0S)
  8860.     id AA14163; Sun, 4 Jul 99 10:40:44 -0700
  8861. Message-Id: <9907041740.AA14163@unicode.org>
  8862. Errors-To: uni-bounce@unicode.org
  8863. Mime-Version: 1.0
  8864. Content-Type: TEXT/PLAIN; charset=US-ASCII
  8865. X-Uml-Sequence: 8371 (1999-07-04 17:40:36 GMT)
  8866. From: Roozbeh Pournader <roozbeh@sina.sharif.ac.ir>
  8867. To: Unicode List <unicode@unicode.org>
  8868. Cc: Unicode List <unicode@unicode.org>
  8869. Date: Sun, 4 Jul 1999 10:40:34 -0700 (PDT)
  8870. Subject: Re: dotless j
  8871.  
  8872.  
  8873.  
  8874. On Sun, 4 Jul 1999, Curtis Clark wrote:
  8875.  
  8876. > 3. Unicode, it is said, is a plain text standard.
  8877. > (2) and (3) seem to be at odds, unless programs that display plain text
  8878. > become a lot more sophisticated.
  8879.  
  8880. Yes! Don't consider simple scripts like Latin only. If one likes to have
  8881. plain text Arabic, what should he do?  He needs sofisticated software to
  8882. do that.  Unicode is there for all scripts.  When it sees that some
  8883. processing is needed for scripts like Arabic or Devanagari, it allows some
  8884. processing for scripts like Latin, to solve ambiguities etc.
  8885.  
  8886. --Roozbeh
  8887.  
  8888.  
  8889.  4-Jul-99 18:19:02-GMT,8795;000000000001
  8890. Return-Path: <unicode@unicode.org>
  8891. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  8892.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id OAA01657
  8893.     for <fdc@watsun.cc.columbia.edu>; Sun, 4 Jul 1999 14:19:01 -0400 (EDT)
  8894. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  8895.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id LAA187394
  8896.     ; Sun, 4 Jul 1999 11:11:02 -0700
  8897. Received: by unicode.org (NX5.67g/NX3.0S)
  8898.     id AA14272; Sun, 4 Jul 99 10:51:50 -0700
  8899. Message-Id: <9907041751.AA14272@unicode.org>
  8900. Errors-To: uni-bounce@unicode.org
  8901. X-Uml-Sequence: 8372 (1999-07-04 17:51:37 GMT)
  8902. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  8903. To: Unicode List <unicode@unicode.org>
  8904. Cc: unicode@unicode.org
  8905. Date: Sun, 4 Jul 1999 10:51:36 -0700 (PDT)
  8906. Subject: Re: Plain Text
  8907.  
  8908. > I conclude that I disagree with Frank's attempts to make his own limited
  8909. > experience normative...
  8910. >
  8911. I'm not sure why my experience has become an issue in this discussion but
  8912. I can assure you I have a fair amount.  My first programming experience
  8913. was with plugboards and little wires on IBM EAM equipment.  My current
  8914. project, now in its 18th year, is precisely the interchange of text among
  8915. divergent platforms, with full conversion of both record format and
  8916. character set.  I have written software to do this that has run, at one
  8917. time or another, on more than 700 different hardware-and-OS platforms,
  8918. many long dead, and at present on more than 150.  This project, which I
  8919. manage, also produces (and/or collects and distributes, and supports)
  8920. similar software written by other people both here and abroad, and the
  8921. entire collection spans practically every computer and operating system
  8922. that has existed over the past 25-30 years with just a few exceptions.
  8923.  
  8924. Part of the project is the definition of a protocol for meaningful text
  8925. transfer.  The protocol requires conversion of local formats and character
  8926. sets to standard ones when sending, and the reverse procedure when
  8927. receiving.  Only international standard character sets are used on the
  8928. wire, and are tagged using standard ISO-registered identifiers.  This
  8929. protocol has been in production for more than 10 years and is used in many
  8930. parts parts of the world, especially Eastern and Western Europe, Isreal,
  8931. Greece, the former USSR, Japan, and the Americas.
  8932.  
  8933. One of the key questions in designing and implementing such a protocol is
  8934. "what is a text file?"  What distinguishes it from a non-text, or "binary"
  8935. file?  Constant day-to-day experience with a worldwide user base helps me
  8936. to form what I hope is an adequate grasp of the issues.
  8937.  
  8938. > >The point is, it doesn't matter.  Each platform has its own format for
  8939. > >internal use, but a standardized interface to the outside world.  To
  8940. > >further demonstrate this fact, if I then tell the computer on the far
  8941. > >end to "type" or "cat" the file, it will, invariably, send:
  8942. > >
  8943. > >  This is a line<CR><LF>
  8944. > Your cultural ignorance/sheltered life-experience is showing. *You* may
  8945. > live in an environment where these changes are made automatically, but a
  8946. > lot of us don't.
  8947. Then please give counterexamples.
  8948.  
  8949. > >So who cares what the file format is -- except of course when we want to
  8950. > >transfer the file to another platform.
  8951. > And since I don't use a VT100 simulator anymore, I only encounter this
  8952. > issue when transfering files to another platform, and as a result I care
  8953. > all the time.
  8954. > >In that case, it is the
  8955. > >responsibility of each file-transfer agent
  8956. > When reading floppy disks?
  8957. Of course.  One of the biggest problems facing any of us who wishes to live
  8958. in a world of computing diversity is the failure of file system designers to
  8959. develop a rational method for tagging files, and indeed, for developing
  8960. standard interchange formats.  That's what we're trying to do here.
  8961.  
  8962. Consider a minimal platform like DOS.  You can set up your DOS system to
  8963. load different code pages, such as CP850 for West European languages, CP866
  8964. for Cyrillic, and so on.  Then you can use standard DOS utilities to create
  8965. and edit text files in many languages (but only one per file).  However, no
  8966. record is kept of the encoding (character set) of each file.  This presents
  8967. rather significant problems even when we stay on the PC, before we ever
  8968. think about interchanging files.
  8969.  
  8970. So at minimum, a text file should be tagged according to character set.  To
  8971. my knowledge, this has never been done at the file-system level.
  8972.  
  8973. What about file type and record format?  Data interchange can be done in
  8974. various ways.  One way involves cooperating agents at each end -- e.g. FTP
  8975. client and server.  They can use their own application-specific protocol
  8976. to control the process.  For example, one can say "I'm DOS" and the other
  8977. "I'm UNIX" and then apply the appropriate conversions.  Of course as
  8978. platforms multiply, we have an n x n problem.  Therefore we settle upon
  8979. standard formats to be used on the wire.  Each transfer partner converts to
  8980. and from these standard formats.
  8981.  
  8982. Moving files by magnetic media present numerous problems, but only because
  8983. we have forgotten how to do it.  Back in the 1970s, ANSI developed standards
  8984. for data interchange by magnetic media (e.g. ANSI X3.26-1978) that worked
  8985. perfectly well until the personal computer revolution came along and
  8986. standards went out of style.  A DOS (or Macintosh or IRIX or any other)
  8987. diskette is simply not intended for export to other platforms.
  8988.  
  8989. This is the kind of situation we would like to avoid in the future.  Hence
  8990. this discussion.
  8991.  
  8992. > You are still claiming that text files as they occur in your computer
  8993. > subculture are for some reason normative for the rest of us.
  8994. >
  8995. Actually I am attempting to achieve an agreement a precise definition of
  8996. Unicode plain text that allows the text to be already formatted, one that
  8997. gives us the same capability that we have always had with ASCII (and Latin-x
  8998. etc) of encoding and presenting information without *requiring* the use of
  8999. any higher intelligence beyond what is needed to interpret Space, LS, PS,
  9000. HT, and FF characters, plus whatever else is needed to accommodate bidi,
  9001. etc.
  9002.  
  9003. > >Prior to the advent of
  9004. > >word processors, the idea of "long line as paragraph" never came up.
  9005. > Word processing began in the 1960s. I gather you had a later date in mind.
  9006. > Did you mean specifically WYSIWYG word processors, invented at Xerox in the
  9007. > late 1970s?
  9008. And, before it, NLS, used at government research institutes in the 1960s.
  9009. But again, that's not plain text.  It's "input for a text formatter".  It
  9010. does not stand on its own.
  9011.  
  9012. > >No, a correct email client will leave it alone.  Whether I want my email
  9013. > >reformatted by your client should be my choice, since only I know what my
  9014. > >intentions are in sending it.        ^^^^^^^^^
  9015. > However, it actually is the recipient's choice, and you can't stop us.
  9016. >
  9017. This sounds like quibbling but it's an important point.  If I have the
  9018. capability to compose and format a plain-text message exactly as I want you
  9019. to see it, the mail system should allow me to mark it as "preformatted plain
  9020. text" and then you would have to go out of your way to reformat it.  Whereas
  9021. if my mail client sends long lines with no formatting, it should mark it as
  9022. "plain text to be flowed".
  9023.  
  9024. Email issues, especially MIME, are a whole new topic, and a controversial
  9025. one, best avoided here.  But a clear statement from the Unicode Consortium
  9026. on plain text that addresses the issue of formatting might motivate the
  9027. "email community" to deal with these issues in a productive way.
  9028.  
  9029. > A growing number of standards specify the use of Unicode text files,
  9030. > without explicitly defining them. If we get anywhere with this, we will
  9031. > have to run our proposal past these other groups, including the IETF, the
  9032. > POSIX committee, programming language standards committees, etc.
  9033. Good.  Let's try to keep making progress.
  9034.  
  9035. We all have an intuitive grasp of the meaning of preformatted plain text.
  9036. You'll find it in many places:
  9037.  
  9038.  . READ.ME files on your software disks.
  9039.  
  9040.  . Program source code.
  9041.  
  9042.  . Traditional (not "legacy") email and netnews.
  9043.  
  9044.  . Voluminous full-text information already online.
  9045.  
  9046. and so on.  We should find a way to carry this notion forward for Unicode
  9047. in a way that:
  9048.  
  9049.  . Avoids the pitfalls of platform-dependent formatting conventions.
  9050.  
  9051.  . Allows straightforward and unambiguous conversion of 8-bit data to
  9052.    Unicode (and, to the extent possible, vice-versa).
  9053.  
  9054.  . Is independent of any higher-level protocol, markup language,
  9055.    product, or even standard.  In other words, the Unicode definition
  9056.    should stand entirely on its own so that files encoded (or transmitted)
  9057.    in this format will be universally understood for years, decades,
  9058.    centuries to come, no matter what else might change, as long as Unicode
  9059.    itself lives on.
  9060.  
  9061. - Frank
  9062.  
  9063.  4-Jul-99 18:24:28-GMT,2544;000000000001
  9064. Return-Path: <unicode@unicode.org>
  9065. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  9066.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id OAA02663
  9067.     for <fdc@watsun.cc.columbia.edu>; Sun, 4 Jul 1999 14:24:28 -0400 (EDT)
  9068. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  9069.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id LAA266440
  9070.     ; Sun, 4 Jul 1999 11:17:45 -0700
  9071. Received: by unicode.org (NX5.67g/NX3.0S)
  9072.     id AA14818; Sun, 4 Jul 99 11:04:45 -0700
  9073. Message-Id: <9907041804.AA14818@unicode.org>
  9074. Errors-To: uni-bounce@unicode.org
  9075. Mime-Version: 1.0
  9076. Content-Type: text/plain; charset=us-ascii
  9077. X-Uml-Sequence: 8376 (1999-07-04 18:04:20 GMT)
  9078. From: Markus Kuhn <Markus.Kuhn@cl.cam.ac.uk>
  9079. To: Unicode List <unicode@unicode.org>
  9080. Date: Sun, 4 Jul 1999 11:04:16 -0700 (PDT)
  9081. Subject: Re: Frank and Plain Text 
  9082.  
  9083. Edward Cherlin wrote on 1999-07-04 09:16 UTC:
  9084. > Frank's "limited experience" is not youth but insularity. He cites
  9085. > practices current on UNIX systems as though they applied universally.
  9086. > I have used UNIX, DOS, Windows, CP/M, Apple ][, IBM mainframes via
  9087. > timesharing, and several other kinds of computers, dealing with character
  9088. > set problems well outside Frank's range of experience.
  9089.  
  9090. Just for the record, let me quickly introduce your discussion partners:
  9091.  
  9092. Frank da Cruz <fdc@watsun.cc.columbia.edu>, whom you attested "limited
  9093. experience" in the field of inter-platform plaintext exchange, is the
  9094. author of KERMIT. KERMIT is a widely ported classic terminal emulator
  9095. with build-in file transmission software. It is most likely available on
  9096. *all* the platforms that you have ever used, and as the implementor of
  9097. KERMIT's text-file transmission mechanism, Frank certainly had to worry
  9098. about the plain text file conventions used on all these systems. He his
  9099. probably one of the most qualified experts on matters related to the
  9100. emulation of historic data-entry terminals and inter-platform plain-text
  9101. format convention. (In case you have never used or heard about KERMIT,
  9102. please draw the appropriate conclusions regarding the scope of your own
  9103. experience.)
  9104.  
  9105. Thomas Dickey <dickey@clark.net> is the maintainer of xterm, probably
  9106. the currently most widely used VT100 terminal emulator on this planet,
  9107. and the application that primarily has to process all plaintext on Unix
  9108. workstations in the end. (If you have never heard of xterm, same
  9109. conclusion.)
  9110.  
  9111. Markus
  9112.  
  9113. -- 
  9114. Markus G. Kuhn, Computer Laboratory, University of Cambridge, UK
  9115. Email: mkuhn at acm.org,  WWW: <http://www.cl.cam.ac.uk/~mgk25/>
  9116.  
  9117.  4-Jul-99 19:05:41-GMT,1529;000000000001
  9118. Return-Path: <unicode@unicode.org>
  9119. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  9120.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id PAA12778
  9121.     for <fdc@watsun.cc.columbia.edu>; Sun, 4 Jul 1999 15:05:41 -0400 (EDT)
  9122. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  9123.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id LAA190184
  9124.     ; Sun, 4 Jul 1999 11:57:31 -0700
  9125. Received: by unicode.org (NX5.67g/NX3.0S)
  9126.     id AA16486; Sun, 4 Jul 99 11:44:25 -0700
  9127. Message-Id: <9907041844.AA16486@unicode.org>
  9128. Errors-To: uni-bounce@unicode.org
  9129. Mime-Version: 1.0
  9130. Content-Type: text/plain; charset=US-ASCII
  9131. Content-Transfer-Encoding: 7bit
  9132. X-Uml-Sequence: 8380 (1999-07-04 18:44:09 GMT)
  9133. From: John Cowan <cowan@locke.ccil.org>
  9134. To: Unicode List <unicode@unicode.org>
  9135. Date: Sun, 4 Jul 1999 11:44:08 -0700 (PDT)
  9136. Subject: Re: Plain Text
  9137. Content-Transfer-Encoding: 7bit
  9138.  
  9139. Frank da Cruz scripsit:
  9140.  
  9141. > One of the key questions in designing and implementing such a protocol is
  9142. > "what is a text file?"
  9143.  
  9144. Indeed.  The GNU utilities go to great lengths to process all 256 bytes
  9145. even in purely text utilities, but none of them (except specific conversion
  9146. programs) handle multibyte text.
  9147.  
  9148. > So at minimum, a text file should be tagged according to character set.  To
  9149. > my knowledge, this has never been done at the file-system level.
  9150.  
  9151. Either that, or there needs to be only one character set!
  9152. :-)
  9153.  
  9154. -- 
  9155. John Cowan                                   cowan@ccil.org
  9156.        I am a member of a civilization. --David Brin
  9157.  
  9158.  4-Jul-99 20:08:35-GMT,2740;000000000001
  9159. Return-Path: <unicode@unicode.org>
  9160. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  9161.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id QAA26524
  9162.     for <fdc@watsun.cc.columbia.edu>; Sun, 4 Jul 1999 16:08:35 -0400 (EDT)
  9163. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  9164.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id NAA255332
  9165.     ; Sun, 4 Jul 1999 13:01:26 -0700
  9166. Received: by unicode.org (NX5.67g/NX3.0S)
  9167.     id AA17563; Sun, 4 Jul 99 12:45:51 -0700
  9168. Message-Id: <9907041945.AA17563@unicode.org>
  9169. Errors-To: uni-bounce@unicode.org
  9170. Mime-Version: 1.0
  9171. Content-Type: text/plain;
  9172.     charset="iso-8859-1"
  9173. X-Uml-Sequence: 8386 (1999-07-04 19:45:25 GMT)
  9174. From: "Paul Dempsey (Exchange)" <paulde@exchange.microsoft.com>
  9175. To: Unicode List <unicode@unicode.org>
  9176. Date: Sun, 4 Jul 1999 12:45:20 -0700 (PDT)
  9177. Subject: RE: Plain Text
  9178.  
  9179. > > Frank da Cruz:
  9180. > > So at minimum, a text file should be tagged according to character set.
  9181. To
  9182. > > my knowledge, this has never been done at the file-system level.
  9183. > John Cowan:
  9184. > Either that, or there needs to be only one character set! :-)
  9185.  
  9186. We'll have to deal with multiple untagged codepages/encodings/charsets for a
  9187. long time yet. It's unlikely we'll get file systems to carry any
  9188. meta-information beyond the filename in any portable way and certainly not
  9189. retroactively. 
  9190.  
  9191. What we CAN do is use encoding signatures for all Unicode files. The various
  9192. forms of Unicode are still relatively new and we still have a chance to
  9193. establish the conventions.
  9194.  
  9195. The Unicode standard lists signatures for _some_ Unicode encodings, in
  9196. section 13.6 Specials, Encoding Form Signature:
  9197.  
  9198. UCS-2(UTF-16)  FE FF
  9199. UCS-4          00 00  FE FF
  9200.  
  9201. However, this is incomplete. The most important thing we're missing from the
  9202. standard is:
  9203.  
  9204. UTF-8           EF BB BF
  9205.  
  9206. These are all the ZERO WIDTH NO BREAK SPACE (a.k.a BYTE ORDER MARK) in the
  9207. corresponding representation.
  9208.  
  9209. Without a signature for UTF-8, you can't reliably assume you're working with
  9210. UTF-8 and not some other MBCS. A number of Microsoft programs (Notepad,
  9211. Visual Studio, richedit) are using this signature for UTF-8.
  9212.  
  9213. For the rest of what constitutes "plain text", the Unicode standard covers
  9214. most of the issues, but not  explicitly in one place. The grayer part of
  9215. this discussion is about what constitutes "preformatted plain text". I don't
  9216. think this can be standardized to practical effect. That is, you could write
  9217. a standard, but would anyone use it? This quickly gets into the domain of
  9218. presentation and document structure, which is beyond the scope of the
  9219. Unicode standard proper. It is still worthwhile to capture the common
  9220. conventions and make recommendations.
  9221.  
  9222. --- Paul Chase Dempsey
  9223. Microsoft Visual Studio Text Editor Development
  9224.  
  9225.  4-Jul-99 20:46:36-GMT,2397;000000000001
  9226. Return-Path: <unicode@unicode.org>
  9227. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  9228.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id QAA05825
  9229.     for <fdc@watsun.cc.columbia.edu>; Sun, 4 Jul 1999 16:46:36 -0400 (EDT)
  9230. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  9231.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id NAA12582
  9232.     ; Sun, 4 Jul 1999 13:41:38 -0700
  9233. Received: by unicode.org (NX5.67g/NX3.0S)
  9234.     id AA19319; Sun, 4 Jul 99 13:33:13 -0700
  9235. Message-Id: <9907042033.AA19319@unicode.org>
  9236. Errors-To: uni-bounce@unicode.org
  9237. X-Uml-Sequence: 8391 (1999-07-04 20:33:04 GMT)
  9238. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  9239. To: Unicode List <unicode@unicode.org>
  9240. Cc: unicode@unicode.org
  9241. Date: Sun, 4 Jul 1999 13:33:03 -0700 (PDT)
  9242. Subject: RE: Plain Text
  9243.  
  9244. > We'll have to deal with multiple untagged codepages/encodings/charsets
  9245. > for a long time yet. It's unlikely we'll get file systems to carry any
  9246. > meta-information beyond the filename in any portable way and certainly
  9247. > not retroactively.
  9248. And I most emphatically recommend against using filenames for this
  9249. purpose for at least the following reasons:
  9250.  
  9251.  . Different platforms have different filename formats and restrictions
  9252.    as to what can be in a filename, how long it can be, etc.
  9253.  
  9254.  . There is no central registry for filename associations.  Horrible
  9255.    confusion arises when different software vendors choose the same
  9256.    association for two different products or, worse, when files are
  9257.    transferred across platforms that have different associations.
  9258.  
  9259. > For the rest of what constitutes "plain text", the Unicode standard
  9260. > covers most of the issues, but not explicitly in one place. The grayer
  9261. > part of this discussion is about what constitutes "preformatted plain
  9262. > text". I don't think this can be standardized to practical effect. That
  9263. > is, you could write a standard, but would anyone use it?
  9264. >
  9265. Those who needed a guaranteed way to record preformatted plain text in
  9266. documents that can persist over long periods of time and across all
  9267. applications and platforms would use it.
  9268.  
  9269. Even now, there exists such a standard, albeit unwritten, for 8-bit text.
  9270. For example, almost every word processor and web browser has a "Save as"
  9271. option for "plain text with line breaks" which, in the general case, is the
  9272. only reliable interchange format.  What will be the Unicode equivalent?
  9273.  
  9274. - Frank
  9275.  
  9276.  4-Jul-99 20:58:13-GMT,2175;000000000001
  9277. Return-Path: <paulde@Exchange.Microsoft.com>
  9278. Received: from dfssl.exchange.microsoft.com (dfssl.exchange.microsoft.com [131.107.88.59])
  9279.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id QAA07800
  9280.     for <fdc@watsun.cc.columbia.edu>; Sun, 4 Jul 1999 16:58:13 -0400 (EDT)
  9281. Received: by dfssl with Internet Mail Service (5.5.2648.0)
  9282.     id <3DSG1TJV>; Sun, 4 Jul 1999 13:57:07 -0700
  9283. Message-ID: <01D6C7224936D211BA450000F805D5380809563E@TOTO>
  9284. From: "Paul Dempsey (Exchange)" <paulde@Exchange.Microsoft.com>
  9285. To: "'Frank da Cruz'" <fdc@watsun.cc.columbia.edu>,
  9286.         "Paul Dempsey (Exchange)" <paulde@Exchange.Microsoft.com>
  9287. Cc: unicode@unicode.org
  9288. Subject: RE: Plain Text
  9289. Date: Sun, 4 Jul 1999 13:56:57 -0700 
  9290. MIME-Version: 1.0
  9291. X-Mailer: Internet Mail Service (5.5.2648.0)
  9292. Content-Type: text/plain;
  9293.     charset="iso-8859-1"
  9294.  
  9295. > > Paul Chase Dempsey:
  9296. > > We'll have to deal with multiple untagged codepages/encodings/charsets
  9297. > > for a long time yet. It's unlikely we'll get file systems to carry any
  9298. > > meta-information beyond the filename in any portable way and certainly
  9299. > > not retroactively.
  9300. > Frank da Cruz 
  9301. > I most emphatically recommend against using filenames for this purpose ..
  9302.  
  9303. I emphatically agree. I meant to say that the name is the only information
  9304. you can expect a file system to maintain apart the data in the file. I did
  9305. not mean to imply that the name should be used to encode any other
  9306. information. If I did, I would have proposed a notation. 
  9307.  
  9308. Without a reliable means to capture the encoding external to the bits in the
  9309. file itself, I suggest the standardization of Unicode file signatures. These
  9310. are already in common use except for UTF-8, and it's useful to extend the
  9311. practice to UTF-8.
  9312.  
  9313. ...
  9314.  
  9315. > Frank da Cruz 
  9316. > Even now, there exists such a standard, albeit unwritten, for 8-bit text.
  9317. > For example, almost every word processor and web browser has a "Save as"
  9318. > option for "plain text with line breaks" which, in the general case, is
  9319. the
  9320. > only reliable interchange format.  What will be the Unicode equivalent?
  9321.  
  9322. Exactly the same, except Unicode data intead of 8-bit MBCS data. 
  9323.  
  9324. So let's write down the unwritten!
  9325.  
  9326. Regards,
  9327. --- Paul Chase Dempsey
  9328.  
  9329.  
  9330.  
  9331.  4-Jul-99 22:58:59-GMT,2175;000000000011
  9332. Return-Path: <keld@light.dkuug.dk>
  9333. Received: from light.dkuug.dk (55.ppp1-10.image.dk [212.54.73.247])
  9334.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id SAA04769
  9335.     for <fdc@watsun.cc.columbia.edu>; Sun, 4 Jul 1999 18:58:57 -0400 (EDT)
  9336. Received: (from keld@localhost)
  9337.     by light.dkuug.dk (8.9.3/8.9.3) id AAA03372;
  9338.     Mon, 5 Jul 1999 00:58:56 +0200
  9339. Date: Mon, 5 Jul 1999 00:58:56 +0200
  9340. From: keld@dkuug.dk
  9341. To: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  9342. Cc: Unicode List <unicode@unicode.org>
  9343. Subject: Re: Plain text: Amendment 1
  9344. Message-ID: <19990705005856.B3289@light.dkuug.dk>
  9345. References: <9907021618.AA21230@unicode.org>
  9346. Mime-Version: 1.0
  9347. Content-Type: text/plain; charset=us-ascii
  9348. X-Mailer: Mutt 0.95.4us
  9349. In-Reply-To: <9907021618.AA21230@unicode.org>; from Frank da Cruz on Fri, Jul 02, 1999 at 09:17:48AM -0700
  9350.  
  9351. On Fri, Jul 02, 1999 at 09:17:48AM -0700, Frank da Cruz wrote:
  9352. > 90 seconds later...  
  9353. >  3. Line breaks are indicated by Line Separator, U+2028.  Preformatted
  9354. >     text must break lines at column 79 or less to avoid unwanted
  9355. >     reformatting.  Column numbers are 1-based, relative to the left or
  9356. >     right margin, according to the previaling directionality, with
  9357. >     single-width characters as the counting unit.  A line break is
  9358. >     required at the end of the final line if it is to be considered a
  9359. >     line.  (This is to allow append operations to work in the expected
  9360. >     fashion.)
  9361. >  4. Paragraph breaks are indicated by two successive Line Separators
  9362. >     or by Paragraph Separator, U+2029.
  9363. > Change (4) to:
  9364. >  4. Paragraph breaks are indicated by Paragraph Separator, U+2029.
  9365. > Add to (3):
  9366. >     A blank line is indicated by two successive Line Separators.
  9367. >     Two blank lines are indicated by three of them, etc.
  9368. > This is to allow paragraphs like this one, which contain embedded
  9369. > "displays" set off by blank lines that are NOT paragraph separators.
  9370.  
  9371. could one not use C0 or C1 characters for these, so that the conventions
  9372. could equally apply to say 8859 character sets? 
  9373.  
  9374. 3) could be something like one out of 3:
  9375.  
  9376. 1. CR
  9377. 2. LF
  9378. 3. CR LF
  9379.  
  9380.  
  9381. 4) could we use something like one of the C0 characers for that?
  9382.  
  9383. Keld
  9384.  
  9385.  4-Jul-99 23:42:12-GMT,3430;000000000001
  9386. Return-Path: <unicode@unicode.org>
  9387. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  9388.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id TAA15758
  9389.     for <fdc@watsun.cc.columbia.edu>; Sun, 4 Jul 1999 19:42:11 -0400 (EDT)
  9390. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  9391.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id QAA270558
  9392.     ; Sun, 4 Jul 1999 16:32:52 -0700
  9393. Received: by unicode.org (NX5.67g/NX3.0S)
  9394.     id AA20741; Sun, 4 Jul 99 16:13:35 -0700
  9395. Message-Id: <9907042313.AA20741@unicode.org>
  9396. Errors-To: uni-bounce@unicode.org
  9397. X-Uml-Sequence: 8397 (1999-07-04 23:13:11 GMT)
  9398. From: Kermit Software Support <kermit-support@columbia.edu>
  9399. To: Unicode List <unicode@unicode.org>
  9400. Cc: unicode@unicode.org
  9401. Date: Sun, 4 Jul 1999 16:13:04 -0700 (PDT)
  9402. Subject: Re: Plain text: Amendment 1
  9403.  
  9404. Keld wrote:
  9405. >
  9406. > Frank Wrote:
  9407. > >
  9408. > >  4. Paragraph breaks are indicated by two successive Line Separators
  9409. > >     or by Paragraph Separator, U+2029.
  9410. > > 
  9411. > > Change (4) to:
  9412. > > 
  9413. > >  4. Paragraph breaks are indicated by Paragraph Separator, U+2029.
  9414. > > 
  9415. > > Add to (3):
  9416. > > 
  9417. > >     A blank line is indicated by two successive Line Separators.
  9418. > >     Two blank lines are indicated by three of them, etc.
  9419. > > 
  9420. > > This is to allow paragraphs like this one, which contain embedded
  9421. > > "displays" set off by blank lines that are NOT paragraph separators.
  9422. > could one not use C0 or C1 characters for these, so that the conventions
  9423. > could equally apply to say 8859 character sets? 
  9424. They could be, but I think we want to standardize on true Unicode characters
  9425. whenever we can, since we have the power to define their semantics.  The C0
  9426. and C1 sets are included for compatibility with existing sets over which the
  9427. Unicode Consortium has no control, and over which we have been haggling the
  9428. past few days ("the Mac does this, the PC does that, UNIX does something
  9429. else"...)
  9430.  
  9431. Anyway, we can't go back and change existing Latin-Alphabet or PC Code Page
  9432. files to use consistent record formats -- that's an operating system and
  9433. programming language issue, not to mention a conversion task that not even
  9434. Hercules (or Xena) could handle.
  9435.  
  9436. > 3) could be something like one out of 3:
  9437. > 1. CR
  9438. > 2. LF
  9439. > 3. CR LF
  9440. This is exactly why we should use LS rather than any of the above in
  9441. Unicode text.  Then converting existing 8-bit text to Unicode will have
  9442. the happy by-product of erasing these differences.
  9443.  
  9444. As noted previously, I would not object to adding two more "control
  9445. characters" to Unicode to remove our dependence on C0 and C1 completely:
  9446.  
  9447.  1. UHT "Unicode Horizontal Tab", which is just like C0 HT except that
  9448.     the tabstops are well-defined (should the tabbing concept be
  9449.     carried forward into Unicode Plain Text, rather than using only
  9450.     spaces).  How to define them is, of course, another question.
  9451.  
  9452.  2. UFF "Unicode Form Feed", like C0 Formfeed, except not in C0.
  9453.  
  9454. I can't think of any applications for C0 Form Feed other than page feed
  9455. or page eject, or the analogous action on video terminals, namely clear
  9456. screen.  But I'm sure that C0 FF has been misused in ways I never heard
  9457. of and therefore a more clearly defined Unicode version might be warranted.
  9458.  
  9459. However, I'm perfectly happy to stick with C0 HT and FF as long as they
  9460. are given precise definitions for Unicode Plain Text, and nobody says
  9461. "legacy" when referring to them :-)
  9462.  
  9463. Whatever is chosen, let's keep it simple.
  9464.  
  9465. - Frank
  9466.  
  9467.  5-Jul-99  3:32:35-GMT,2165;000000000001
  9468. Return-Path: <unicode@unicode.org>
  9469. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  9470.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id XAA18456
  9471.     for <fdc@watsun.cc.columbia.edu>; Sun, 4 Jul 1999 23:32:34 -0400 (EDT)
  9472. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  9473.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id UAA268622
  9474.     ; Sun, 4 Jul 1999 20:27:50 -0700
  9475. Received: by unicode.org (NX5.67g/NX3.0S)
  9476.     id AA22629; Sun, 4 Jul 99 20:11:42 -0700
  9477. Message-Id: <9907050311.AA22629@unicode.org>
  9478. Errors-To: uni-bounce@unicode.org
  9479. Mime-Version: 1.0
  9480. Content-Type: text/plain; charset="us-ascii"
  9481. X-Uml-Sequence: 8402 (1999-07-05 03:11:31 GMT)
  9482. From: Jonathan Rosenne <rosenne@qsm.co.il>
  9483. To: Unicode List <unicode@unicode.org>
  9484. Date: Sun, 4 Jul 1999 20:11:30 -0700 (PDT)
  9485. Subject: Re: Plain Text
  9486.  
  9487. I agree with John. The interchange standard should be UTF-8 or UTF-16. The
  9488. sending and receiving systems should handle conversions. If the receiving
  9489. system does not tag files, and uses just one encoding, it should convert
  9490. the file as best it can.
  9491.  
  9492. This way, the receiving system does not need to recognize a large number of
  9493. character sets, only those it wishes to support.
  9494.  
  9495. Since the meaning of CR, LF, CRLF, FF cannot be agreed, I agree additional
  9496. Unicode characters look like a good solution. And again, the sending and
  9497. receiving systems should handle conversions.
  9498.  
  9499. I don't think tabs are needed. Spaces are sufficient. 
  9500.  
  9501. Jony
  9502.  
  9503. At 11:44 04/07/99 -0700, John Cowan wrote:
  9504. >Frank da Cruz scripsit:
  9505. >
  9506. >> One of the key questions in designing and implementing such a protocol is
  9507. >> "what is a text file?"
  9508. >
  9509. >Indeed.  The GNU utilities go to great lengths to process all 256 bytes
  9510. >even in purely text utilities, but none of them (except specific conversion
  9511. >programs) handle multibyte text.
  9512. >
  9513. >> So at minimum, a text file should be tagged according to character set.  To
  9514. >> my knowledge, this has never been done at the file-system level.
  9515. >
  9516. >Either that, or there needs to be only one character set!
  9517. >:-)
  9518. >
  9519. >-- 
  9520. >John Cowan                                   cowan@ccil.org
  9521. >       I am a member of a civilization. --David Brin
  9522.  
  9523.  
  9524.  5-Jul-99  3:44:29-GMT,2096;000000000001
  9525. Return-Path: <unicode@unicode.org>
  9526. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  9527.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id XAA19615
  9528.     for <fdc@watsun.cc.columbia.edu>; Sun, 4 Jul 1999 23:44:29 -0400 (EDT)
  9529. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  9530.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id UAA188358
  9531.     ; Sun, 4 Jul 1999 20:38:11 -0700
  9532. Received: by unicode.org (NX5.67g/NX3.0S)
  9533.     id AA22757; Sun, 4 Jul 99 20:26:13 -0700
  9534. Message-Id: <9907050326.AA22757@unicode.org>
  9535. Errors-To: uni-bounce@unicode.org
  9536. Mime-Version: 1.0
  9537. Content-Type: text/plain; charset="us-ascii"
  9538. X-Uml-Sequence: 8403 (1999-07-05 03:26:05 GMT)
  9539. From: Edward Cherlin <edward.cherlin.sy.67@aya.yale.edu>
  9540. To: Unicode List <unicode@unicode.org>
  9541. Cc: unicode@unicode.org
  9542. Date: Sun, 4 Jul 1999 20:26:03 -0700 (PDT)
  9543. Subject: Re: Dickey vs. Cherlin, was Re: Plain Text
  9544.  
  9545. At 09:26 -0700 7/4/1999, Curtis Clark wrote:
  9546. >I haven't been on this list long (I've found it interesting and useful),
  9547. >and I don't claim any qualifications at all; but I wonder, are these sorts
  9548. >of exchanges common? I can understand that Unicode could generate some
  9549. >strident differences of opinion, but I sense that I'm missing something
  9550. >here.
  9551. >
  9552. >
  9553. >----------------------------------------------------------------
  9554. >Curtis Clark                  http://www.csupomona.edu/~jcclark/
  9555. >Biological Sciences Department             Voice: (909) 869-4062
  9556. >California State Polytechnic University      FAX: (909) 869-4078
  9557. >Pomona CA 91768-4032  USA                  jcclark@csupomona.edu
  9558.  
  9559. I have to say it surprises me. I wasn't trying to flame Frank, and we
  9560. haven't had anyone take exception to the tone of the discussion in the
  9561. several years I've been here. We do tell each other quite plainly when an
  9562. opinion seems ill-founded, as in Michael's comments on my notion of
  9563. encoding IPA extensions using XML.
  9564. --
  9565. Edward Cherlin                        President
  9566. Coalition Against Unsolicited Commercial E-mail
  9567. Help outlaw Spam.       <http://www.cauce.org/>
  9568. Talk to us at             <news:comp.org.cauce>
  9569.  
  9570.  5-Jul-99  5:59:35-GMT,2826;000000000001
  9571. Return-Path: <unicode@unicode.org>
  9572. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  9573.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id BAA01699
  9574.     for <fdc@watsun.cc.columbia.edu>; Mon, 5 Jul 1999 01:59:34 -0400 (EDT)
  9575. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  9576.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id WAA261196
  9577.     ; Sun, 4 Jul 1999 22:53:27 -0700
  9578. Received: by unicode.org (NX5.67g/NX3.0S)
  9579.     id AA23597; Sun, 4 Jul 99 22:43:55 -0700
  9580. Message-Id: <9907050543.AA23597@unicode.org>
  9581. Errors-To: uni-bounce@unicode.org
  9582. Mime-Version: 1.0
  9583. Content-Type: text/plain; charset="us-ascii"
  9584. X-Uml-Sequence: 8405 (1999-07-05 05:43:43 GMT)
  9585. From: Edward Cherlin <edward.cherlin.sy.67@aya.yale.edu>
  9586. To: Unicode List <unicode@unicode.org>
  9587. Date: Sun, 4 Jul 1999 22:43:42 -0700 (PDT)
  9588. Subject: Frank & Ed
  9589.  
  9590. Evidently my diagnosis, that Frank da Cruz had insufficient experience in a
  9591. cross-platform environment, was completely wrong, so I apologize for
  9592. writing it.
  9593.  
  9594. It puzzles me even more, then, that Frank writes in his Unicode text file
  9595. proposal as if Unix practice, or more particularly his own practice
  9596. (including practice in file format conversions in cross-platform data
  9597. transfers), is normative, not just for other software, but for file formats
  9598. on other platforms, without saying how this norm is to be implemented so
  9599. that file format conversion ceases to be a problem for all applications.
  9600.  
  9601. Also:
  9602.  
  9603. How do we get agreement on such a standard from, e.g., Microsoft?
  9604.  
  9605. How do we get users to stop using current methods?
  9606.  
  9607. How do we deal with delimited database transfer files with a fixed limit on
  9608. line length?
  9609.  
  9610. How do we deal with legacy data?
  9611.  
  9612. I find myself dealing with Unicode text created by Windows and Windows
  9613. applications quite frequently now, with line ends marked in little-endian
  9614. fashion as
  9615.  
  9616. 0D 00 0A 00
  9617.  
  9618. What do we do about that?
  9619.  
  9620. I entirely agree that cross-platform protocols should be defined so that we
  9621. stop having conversion problems (such as translating text file formats upon
  9622. transfer, as ftp does), but it can't be done within a character set
  9623. standard, nor by defining a text file format without file format handling
  9624. for applications on different platforms.
  9625.  
  9626. I have had to collect or in some cases write conversion routines for text
  9627. file transfer, including text files in ASCII, 8-bit character sets, and
  9628. Unicode. I would much rather have the operating systems do it. If someone
  9629. can explain to me how Frank's proposal will lead to that desired goal
  9630. better than Frank's proposal with my suggested amendments, I'll be happy to
  9631. go along. So can we discuss the issues now?
  9632. --
  9633. Edward Cherlin                        President
  9634. Coalition Against Unsolicited Commercial E-mail
  9635. Help outlaw Spam.       <http://www.cauce.org/>
  9636. Talk to us at             <news:comp.org.cauce>
  9637.  
  9638.  5-Jul-99  9:13:48-GMT,8259;000000000001
  9639. Return-Path: <unicode@unicode.org>
  9640. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  9641.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id FAA19730
  9642.     for <fdc@watsun.cc.columbia.edu>; Mon, 5 Jul 1999 05:13:47 -0400 (EDT)
  9643. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  9644.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id CAA258406
  9645.     ; Mon, 5 Jul 1999 02:01:43 -0700
  9646. Received: by unicode.org (NX5.67g/NX3.0S)
  9647.     id AA25036; Mon, 5 Jul 99 01:46:42 -0700
  9648. Message-Id: <9907050846.AA25036@unicode.org>
  9649. Errors-To: uni-bounce@unicode.org
  9650. Mime-Version: 1.0
  9651. Content-Type: text/plain; charset="us-ascii"
  9652. X-Uml-Sequence: 8410 (1999-07-05 08:46:30 GMT)
  9653. From: Edward Cherlin <edward.cherlin.sy.67@aya.yale.edu>
  9654. To: Unicode List <unicode@unicode.org>
  9655. Cc: unicode@unicode.org
  9656. Date: Mon, 5 Jul 1999 01:46:28 -0700 (PDT)
  9657. Subject: Re: Plain Text
  9658.  
  9659. At 10:51 -0700 7/4/1999, Frank da Cruz wrote:
  9660. [Ed Cherlin wrote:]
  9661. >> I conclude that I disagree with Frank's attempts to make his own limited
  9662. >> experience normative...
  9663. [snip]
  9664. I withdraw the remark, in view of other information received, and the
  9665. answers to my objections which Frank has provided, like the next.
  9666. [Frank]
  9667. >> >So who cares what the file format is -- except of course when we want to
  9668. >> >transfer the file to another platform.
  9669. >> >
  9670. >> >In that case, it is the
  9671. >> >responsibility of each file-transfer agent
  9672. >>
  9673. [Ed]
  9674. >> When reading floppy disks?
  9675. >>
  9676. [Frank]
  9677. >Of course.  One of the biggest problems facing any of us who wishes to live
  9678. >in a world of computing diversity is the failure of file system designers to
  9679. >develop a rational method for tagging files, and indeed, for developing
  9680. >standard interchange formats.  That's what we're trying to do here.
  9681. >
  9682. >Consider a minimal platform like DOS.  You can set up your DOS system to
  9683. >load different code pages, such as CP850 for West European languages, CP866
  9684. >for Cyrillic, and so on.  Then you can use standard DOS utilities to create
  9685. >and edit text files in many languages (but only one per file).  However, no
  9686. >record is kept of the encoding (character set) of each file.  This presents
  9687. >rather significant problems even when we stay on the PC, before we ever
  9688. >think about interchanging files.
  9689. >
  9690. >So at minimum, a text file should be tagged according to character set.  To
  9691. >my knowledge, this has never been done at the file-system level.
  9692. >
  9693. >What about file type and record format?  Data interchange can be done in
  9694. >various ways.  One way involves cooperating agents at each end -- e.g. FTP
  9695. >client and server.  They can use their own application-specific protocol
  9696. >to control the process.  For example, one can say "I'm DOS" and the other
  9697. >"I'm UNIX" and then apply the appropriate conversions.  Of course as
  9698. >platforms multiply, we have an n x n problem.  Therefore we settle upon
  9699. >standard formats to be used on the wire.  Each transfer partner converts to
  9700. >and from these standard formats.
  9701. >
  9702. >Moving files by magnetic media present numerous problems, but only because
  9703. >we have forgotten how to do it.  Back in the 1970s, ANSI developed standards
  9704. >for data interchange by magnetic media (e.g. ANSI X3.26-1978) that worked
  9705. >perfectly well until the personal computer revolution came along and
  9706. >standards went out of style.  A DOS (or Macintosh or IRIX or any other)
  9707. >diskette is simply not intended for export to other platforms.
  9708. >
  9709. >This is the kind of situation we would like to avoid in the future.  Hence
  9710. >this discussion.
  9711. >
  9712. >> You are still claiming that text files as they occur in your computer
  9713. >> subculture are for some reason normative for the rest of us.
  9714. >>
  9715. >Actually I am attempting to achieve an agreement a precise definition of
  9716. >Unicode plain text that allows the text to be already formatted, one that
  9717. >gives us the same capability that we have always had with ASCII (and Latin-x
  9718. >etc) of encoding and presenting information without *requiring* the use of
  9719. >any higher intelligence beyond what is needed to interpret Space, LS, PS,
  9720. >HT, and FF characters, plus whatever else is needed to accommodate bidi,
  9721. >etc.
  9722. [snip]
  9723. [Frank]
  9724. >> >Whether I want my email
  9725. >> >reformatted by your client should be my choice, since only I know what my
  9726. >> >intentions are in sending it.        ^^^^^^^^^
  9727. >>
  9728. >> However, it actually is the recipient's choice, and you can't stop us.
  9729. >>
  9730. >This sounds like quibbling but it's an important point.  If I have the
  9731. >capability to compose and format a plain-text message exactly as I want you
  9732. >to see it, the mail system should allow me to mark it as "preformatted plain
  9733. >text" and then you would have to go out of your way to reformat it.  Whereas
  9734. >if my mail client sends long lines with no formatting, it should mark it as
  9735. >"plain text to be flowed".
  9736.  
  9737. This is the key point for me. You acknowledge the need for flavors of text
  9738. other than your preformatted plain text. I thought you were holding out for
  9739. one flavor only. Now we can discuss the flavors, such as delimited database
  9740. interchange files with lines of arbitrary length. Presumably we can define
  9741. them using some of the apparatus that is becoming available in XML or as
  9742. MIME data types. Would it make sense, then, to create a formal XML
  9743. definition of plain text files, with a leading BOM, no interpretations for
  9744. any tags, the minimum set of control characters, and the appropriate set of
  9745. transformation formats? That would get around my earlier objection, about
  9746. how to make an implementation available on all platforms. What about
  9747. corresponding MIME types?
  9748.  
  9749. >Email issues, especially MIME, are a whole new topic, and a controversial
  9750. >one, best avoided here.  But a clear statement from the Unicode Consortium
  9751. >on plain text that addresses the issue of formatting might motivate the
  9752. >"email community" to deal with these issues in a productive way.
  9753. >
  9754. >> A growing number of standards specify the use of Unicode text files,
  9755. >> without explicitly defining them. If we get anywhere with this, we will
  9756. >> have to run our proposal past these other groups, including the IETF, the
  9757. >> POSIX committee, programming language standards committees, etc.
  9758. >>
  9759. >Good.  Let's try to keep making progress.
  9760. >
  9761. >We all have an intuitive grasp of the meaning of preformatted plain text.
  9762. >You'll find it in many places:
  9763. >
  9764. > . READ.ME files on your software disks.
  9765.  
  9766. Preformatted or reflowable.
  9767.  
  9768. > . Program source code.
  9769.  
  9770. Preformatted.
  9771.  
  9772. > . Traditional (not "legacy") email and netnews.
  9773.  
  9774. There is presently no way to specify preformatted or reflowable.
  9775.  
  9776. > . Voluminous full-text information already online.
  9777.  
  9778. Including Unicode tables and other database interchange formats.
  9779.  
  9780. >and so on.  We should find a way to carry this notion forward for Unicode
  9781. >in a way that:
  9782. >
  9783. > . Avoids the pitfalls of platform-dependent formatting conventions.
  9784. >
  9785. > . Allows straightforward and unambiguous conversion of 8-bit data to
  9786. >   Unicode (and, to the extent possible, vice-versa).
  9787. >
  9788. > . Is independent of any higher-level protocol, markup language,
  9789. >   product, or even standard.  In other words, the Unicode definition
  9790. >   should stand entirely on its own so that files encoded (or transmitted)
  9791. >   in this format will be universally understood for years, decades,
  9792. >   centuries to come, no matter what else might change, as long as Unicode
  9793. >   itself lives on.
  9794.  
  9795. Hear, hear.
  9796.  
  9797. >- Frank
  9798.  
  9799. To summarize your answer to my objections, we are defining a new format
  9800. independent of previous conventions, in which we can specify usage of the
  9801. minimal set of formatting characters regardless of usage in text files of
  9802. 7-bit ASCII and 8-bit character sets of any kind, while allowing for a few
  9803. variant flavors of text, such as preformatted, reflowable, and database. To
  9804. which I add, that we can specify a portable implementation, too, and not
  9805. have to wait for computer and OS vendors to get on board.
  9806.  
  9807. Well, apparently there are no hard feelings from Frank over my earlier
  9808. harsh words, so perhaps nobody else need be offended on his behalf. In case
  9809. anybody missed it elsewhere, I apologize for misunderstanding Frank, and
  9810. for giving the impression that I was attacking him personally.
  9811. --
  9812. Edward Cherlin                        President
  9813. Coalition Against Unsolicited Commercial E-mail
  9814. Help outlaw Spam.       <http://www.cauce.org/>
  9815. Talk to us at             <news:comp.org.cauce>
  9816.  
  9817.  5-Jul-99  9:30:53-GMT,1554;000000000001
  9818. Return-Path: <unicode@unicode.org>
  9819. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  9820.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id FAA21152
  9821.     for <fdc@watsun.cc.columbia.edu>; Mon, 5 Jul 1999 05:30:53 -0400 (EDT)
  9822. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  9823.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id CAA93992
  9824.     ; Mon, 5 Jul 1999 02:23:20 -0700
  9825. Received: by unicode.org (NX5.67g/NX3.0S)
  9826.     id AA25135; Mon, 5 Jul 99 02:04:54 -0700
  9827. Message-Id: <9907050904.AA25135@unicode.org>
  9828. Errors-To: uni-bounce@unicode.org
  9829. Mime-Version: 1.0
  9830. Content-Type: text/plain; charset="iso-8859-1"
  9831. X-Uml-Sequence: 8411 (1999-07-05 09:04:46 GMT)
  9832. From: Michael Everson <everson@indigo.ie>
  9833. To: Unicode List <unicode@unicode.org>
  9834. Date: Mon, 5 Jul 1999 02:04:44 -0700 (PDT)
  9835. Subject: Re: Plain Text
  9836. Content-Transfer-Encoding: 8bit
  9837. X-MIME-Autoconverted: from quoted-printable to 8bit by watsun.cc.columbia.edu id FAA21152
  9838.  
  9839. Ar 10:51 -0700 1999-07-04, scrφobh Frank da Cruz:
  9840.  
  9841. >Moving files by magnetic media present numerous problems, but only because
  9842. >we have forgotten how to do it.
  9843.  
  9844. Oh, is that the reason? I thought it was a Y2K thing, that on January 1 all
  9845. the magnetic tapes would go "fzzzzzzzzzzst!" like in Mission Impossible.
  9846.  
  9847. Frivolously,
  9848.  
  9849. --
  9850. Michael Everson * Everson Gunn Teoranta * http://www.indigo.ie/egt
  9851. 15 Port Chaeimhghein ═ochtarach; Baile ┴tha Cliath 2; ╔ire/Ireland
  9852. Guthßn: +353 1 478 2597 ** Facsa: +353 1 478 2597 (by arrangement)
  9853. 27 Pßirc an FhΘithlinn;  Baile an Bh≤thair;  Co. ┴tha Cliath; ╔ire
  9854.  
  9855.  
  9856.  5-Jul-99 14:53:48-GMT,1211;000000000001
  9857. Return-Path: <unicode@unicode.org>
  9858. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  9859.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id KAA24315
  9860.     for <fdc@watsun.cc.columbia.edu>; Mon, 5 Jul 1999 10:53:48 -0400 (EDT)
  9861. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  9862.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id HAA278358
  9863.     ; Mon, 5 Jul 1999 07:44:56 -0700
  9864. Received: by unicode.org (NX5.67g/NX3.0S)
  9865.     id AA29395; Mon, 5 Jul 99 07:31:40 -0700
  9866. Message-Id: <9907051431.AA29395@unicode.org>
  9867. Errors-To: uni-bounce@unicode.org
  9868. Mime-Version: 1.0
  9869. Content-Type: text/plain; charset=US-ASCII
  9870. Content-Transfer-Encoding: 7bit
  9871. X-Uml-Sequence: 8426 (1999-07-05 14:31:31 GMT)
  9872. From: Peter_Constable@sil.org
  9873. To: Unicode List <unicode@unicode.org>
  9874. Date: Mon, 5 Jul 1999 07:31:30 -0700 (PDT)
  9875. Subject: NLF (was Frank and Ed, was Plain Text) 
  9876. Content-Transfer-Encoding: 7bit
  9877.  
  9878.  
  9879.  
  9880. >I find myself dealing with Unicode text created by Windows and Windows
  9881. applications quite frequently now, with line ends marked in little-endian
  9882. fashion as
  9883.  
  9884. 0D 00 0A 00
  9885.  
  9886. Indeed, this practice has surprised me.
  9887.  
  9888. Chris Pratley: can you comment on why Word 97 does this rather than using PS?
  9889.  
  9890. Peter
  9891.  
  9892.  
  9893.  
  9894.  
  9895.  5-Jul-99 15:00:09-GMT,3951;000000000001
  9896. Return-Path: <unicode@unicode.org>
  9897. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  9898.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id LAA25531
  9899.     for <fdc@watsun.cc.columbia.edu>; Mon, 5 Jul 1999 11:00:09 -0400 (EDT)
  9900. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  9901.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id HAA187530
  9902.     ; Mon, 5 Jul 1999 07:46:42 -0700
  9903. Received: by unicode.org (NX5.67g/NX3.0S)
  9904.     id AA29478; Mon, 5 Jul 99 07:33:11 -0700
  9905. Message-Id: <9907051433.AA29478@unicode.org>
  9906. Errors-To: uni-bounce@unicode.org
  9907. Mime-Version: 1.0
  9908. Content-Type: text/plain; charset=US-ASCII
  9909. Content-Transfer-Encoding: 7bit
  9910. X-Uml-Sequence: 8427 (1999-07-05 14:32:44 GMT)
  9911. From: Peter_Constable@sil.org
  9912. To: Unicode List <unicode@unicode.org>
  9913. Date: Mon, 5 Jul 1999 07:32:43 -0700 (PDT)
  9914. Subject: Re: Plain Text 
  9915. Content-Transfer-Encoding: 7bit
  9916.  
  9917.  
  9918.  
  9919. >Of course.  One of the biggest problems facing any of us who wishes to live in
  9920. a world of computing diversity is the failure of file system designers to
  9921. develop a rational method for tagging files, and indeed, for developing standard
  9922. interchange formats.  That's what we're trying to do here.
  9923.  
  9924. ..
  9925.  
  9926. >What about file type and record format?...
  9927.  
  9928. >Actually I am attempting to achieve an agreement a precise definition of
  9929. Unicode plain text that allows the text to be already formatted, one that gives
  9930. us the same capability that we have always had with ASCII (and Latin-x etc) of
  9931. encoding and presenting information without *requiring* the use of any higher
  9932. intelligence beyond what is needed to interpret Space, LS, PS, HT, and FF
  9933. characters...
  9934.  
  9935. I find myself in agreement with Ken W's comments a few messages back. I'm also
  9936. inclined to say that you are wanting to define (in effect) a MIME type, and that
  9937. part of the confusion / disagreement that has arisen in this thread comes about
  9938. by calling this type "plain text".
  9939.  
  9940. You want a file that is tagged with null markup to be interpreted in a specific
  9941. way (as a text document as opposed, e.g. to a database) and with specific layout
  9942. formatting. As was pointed out in an earlier message, and as we are all familiar
  9943. with, sometime files that contain only text characters and no tagging are used
  9944. for purposes other than this, such as the CSV database. Also, there are times
  9945. when I've had such text files in which I intend all of the text that exists
  9946. between instances of { BOF, EOF, NLF } to appear on a single line, regardless of
  9947. length (e.g. in source code), and other times when I expect it to wrap to
  9948. whatever width is appropriate for the window in which it is viewed.
  9949.  
  9950. All of these are legitimate things to want to be able to do with a file in this
  9951. format that we have always known as "plain text". Neither the intended meaning
  9952. of the content, nor the intended appearance have ever been part of the
  9953. definition of plain text. Thus, I think you should expect some objection to any
  9954. suggestion that "plain text" should refer to a file that is intended to be
  9955. interpreted in a specific way, i.e. as a text document with specific layout
  9956. formatting. Plain text can be neither more nor less than what is has always
  9957. been. As we apply plain text to the Unicode context, Ken's comments were on the
  9958. mark.
  9959.  
  9960. That is not to say that it isn't reasonable, or desireable, to specify a file
  9961. format to be used for text documents with specific layout formatting such that
  9962. it will always appear as the author intended, and such that no markup is used
  9963. beyond a standard interpretation of the characters (separating this file format
  9964. from others such as PDF). We'd all benefit from it, if an agreement can be made.
  9965. I just think that we may need to call it something else. And this is what Frank
  9966. has acknowledged, though he may not have done so consciously:
  9967.  
  9968. >the mail system should allow me to mark it as "preformatted plain text"
  9969.  
  9970.  
  9971. We're not just talking about plain text here, we're talking about a specific
  9972. kind of plain text.
  9973.  
  9974. Peter
  9975.  
  9976.  
  9977.  
  9978.  
  9979.  5-Jul-99 17:04:57-GMT,7653;000000000001
  9980. Return-Path: <unicode@unicode.org>
  9981. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  9982.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id NAA24261
  9983.     for <fdc@watsun.cc.columbia.edu>; Mon, 5 Jul 1999 13:04:57 -0400 (EDT)
  9984. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  9985.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id KAA246240
  9986.     ; Mon, 5 Jul 1999 10:00:25 -0700
  9987. Received: by unicode.org (NX5.67g/NX3.0S)
  9988.     id AA01854; Mon, 5 Jul 99 09:45:38 -0700
  9989. Message-Id: <9907051645.AA01854@unicode.org>
  9990. Errors-To: uni-bounce@unicode.org
  9991. X-Uml-Sequence: 8434 (1999-07-05 16:45:27 GMT)
  9992. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  9993. To: Unicode List <unicode@unicode.org>
  9994. Cc: Unicode List <unicode@unicode.org>
  9995. Date: Mon, 5 Jul 1999 09:45:26 -0700 (PDT)
  9996. Subject: Re: Plain Text
  9997.  
  9998. [Ed wrote...]
  9999. > It puzzles me even more, then, that Frank writes in his Unicode text
  10000. > file proposal as if Unix practice, or more particularly his own practice
  10001. > (including practice in file format conversions in cross-platform data
  10002. > transfers), is normative, not just for other software, but for file
  10003. > formats on other platforms, without saying how this norm is to be
  10004. > implemented so that file format conversion ceases to be a problem for
  10005. > all applications.
  10006. I'll try to be more explicit.
  10007.  
  10008. Whether we know it or not, text interchange methods are well-established in
  10009. the pre-Unicode world, at least at the record-format level (character sets
  10010. are another matter, but we know that).
  10011.  
  10012. When I sit at my { terminal, terminal emulator, xterm window } and tell the
  10013. host to "type" or "cat" a file, the internal text format is translated to
  10014. the de facto canonical one, primarily that the local convention for line
  10015. separation/termination is translated to CRLF.  When I transfer a text file
  10016. with FTP or any other file transfer protocol I know about, the same thing
  10017. happens (see, e.g. RFC959).
  10018.  
  10019. However, many of us are confused by the fact that local conventions differ,
  10020. and perceive this as an obstacle to interchange because, for example, it is
  10021. difficult to read a PC diskette on a UNIX workstation or a Macintosh, or
  10022. because of the increasing amounts of email we get that uses some encoding or
  10023. format we don't understand.
  10024.  
  10025. These are problems that we have an opportunity to solve in the conversion of
  10026. 8-bit text to Unicode.
  10027.  
  10028. > How do we get agreement on such a standard from, e.g., Microsoft?
  10029. Hopefully Microsoft's representatives to the Unicode Consortium will be
  10030. supportive, as some of the commentary already seems to indicate.
  10031.  
  10032. > How do we get users to stop using current methods?
  10033. We don't have to.  If the Unicode Standard defines what plain text is,
  10034. then conversion of 8-bit text to Unicode will put all the divergent
  10035. platform-specific formats into the same Unicode format.
  10036.  
  10037. > How do we deal with delimited database transfer files with a fixed 
  10038. > limit on line length?
  10039. I don't see how these files would be affected.  You can put line separators
  10040. in them if you want, or leave them out.
  10041.  
  10042. > How do we deal with legacy data?
  10043. How do convert existing 7-bit and 8-bit plain-text files to Unicode plain
  10044. text?  The straightforward conversion is:
  10045.  
  10046.  . Source line -> Destination line terminated by LS.
  10047.  
  10048. This is according to whatever the local definition of "line" is (UNIX,
  10049. Macintosh, DOS, VMS, MVS, ...).  And of course:
  10050.  
  10051.  . Source character set converted to Unicode.
  10052.  
  10053. This seems obvious.  C0 control characters are kept, including Horizontal
  10054. Tab and Form Feed.  C1 control characters are kept if the source character
  10055. set has them (e.g. a Latin Alphabet) and translated otherwise (e.g. CP850).
  10056.  
  10057. Additional wrinkles (options) might include:
  10058.  
  10059.  . Tabs expanded to spaces based on the desired tab stops, which should 
  10060.    be 1,9,17,35,... BY DEFAULT (meaning you can supply your own tab stops).
  10061.  
  10062.  . Heuristics might be used to identify paragraphs and to separate them
  10063.    by Paragraph Separator.  For example, a blank line is replaced by PS.
  10064.    Obviously there are pitfalls.
  10065.  
  10066.  . Any conversion program would probably need an option to deal with
  10067.    files with "word processor" record format, in which a line is really
  10068.    a paragraph.
  10069.  
  10070. > I find myself dealing with Unicode text created by Windows and Windows
  10071. > applications quite frequently now, with line ends marked in
  10072. > little-endian fashion as
  10073. > 0D 00 0A 00
  10074. > What do we do about that?
  10075. I would say that this practice should be discouraged ("be conservative in
  10076. what you 'send'") in any application that creates or saves Unicode text
  10077. files.  But it should be allowed for ("be liberal in what you 'receive'") in
  10078. any conversion/import program.
  10079.  
  10080. > I entirely agree that cross-platform protocols should be defined so that
  10081. > we stop having conversion problems (such as translating text file formats
  10082. > upon transfer, as ftp does), but it can't be done within a character set
  10083. > standard, nor by defining a text file format without file format handling
  10084. > for applications on different platforms.
  10085. I don't think anybody can presume to offer a panacea for differing
  10086. application formats, other than to define a text-file format that can be
  10087. used for export/import/interchange, as we have now with most popular
  10088. applications.  We simply need to extend this idea to Unicode.
  10089.  
  10090. > I have had to collect or in some cases write conversion routines for text
  10091. > file transfer, including text files in ASCII, 8-bit character sets, and
  10092. > Unicode. I would much rather have the operating systems do it.
  10093. >
  10094. The operating system doesn't know what format or encoding is used in a
  10095. file.  It would be nice if this information was saved along with the file,
  10096. but it usually isn't.  If, in the transition to an all-Unicode computing
  10097. environment, we specify not only the encoding but also a standard record
  10098. format for interchange of plain text -- including (but not requiring)
  10099. preformatted plain text -- we won't have to worry about operating systems,
  10100. file systems, or presentation-layer issues in text-file transfer ever
  10101. again.
  10102.  
  10103. Obviously we will always have to worry about format conversions between
  10104. applications that do NOT use plain text data files.  But by defining a
  10105. low-level baseline format for plain text, there will always be a method for
  10106. recording and transmitting textual information that rises above ("sinks
  10107. below") those differences, and that can always be used across platforms,
  10108. distance, and time.
  10109.  
  10110. > ... You acknowledge the need for flavors of text
  10111. > other than your preformatted plain text. I thought you were holding out
  10112. > for one flavor only. Now we can discuss the flavors, such as delimited
  10113. > database interchange files with lines of arbitrary length. Presumably we
  10114. > can define them using some of the apparatus that is becoming available in
  10115. > XML or as MIME data types.
  10116. >
  10117. No, thase are higher-level protocols that will go out of fashion some day,
  10118. probably sooner than you think.  Of course you can define or use all the
  10119. higher level protocols you want, but you should bear in mind they are
  10120. ephemeral.  If you want something that lasts forever, do it in Unicode
  10121. without reference to MIME, *ML, or anything else, and keep it extremely 
  10122. simple.
  10123.  
  10124. > To summarize your answer to my objections, we are defining a new format
  10125. > independent of previous conventions, in which we can specify usage of the
  10126. > minimal set of formatting characters regardless of usage in text files of
  10127. > 7-bit ASCII and 8-bit character sets of any kind, while allowing for a few
  10128. > variant flavors of text, such as preformatted, reflowable, and
  10129. > database.
  10130. >
  10131. Yes.
  10132.  
  10133. > To which I add, that we can specify a portable implementation,
  10134. > too, and not have to wait for computer and OS vendors to get on board.
  10135. Double yes.
  10136.  
  10137. - Frank
  10138.  
  10139.  5-Jul-99 18:06:41-GMT,4435;000000000001
  10140. Return-Path: <unicode@unicode.org>
  10141. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  10142.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id OAA08662
  10143.     for <fdc@watsun.cc.columbia.edu>; Mon, 5 Jul 1999 14:06:40 -0400 (EDT)
  10144. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  10145.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id LAA185694
  10146.     ; Mon, 5 Jul 1999 11:02:46 -0700
  10147. Received: by unicode.org (NX5.67g/NX3.0S)
  10148.     id AA02161; Mon, 5 Jul 99 10:50:02 -0700
  10149. Message-Id: <9907051750.AA02161@unicode.org>
  10150. Errors-To: uni-bounce@unicode.org
  10151. X-Uml-Sequence: 8435 (1999-07-05 17:49:51 GMT)
  10152. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  10153. To: Unicode List <unicode@unicode.org>
  10154. Cc: Unicode List <unicode@unicode.org>
  10155. Date: Mon, 5 Jul 1999 10:49:50 -0700 (PDT)
  10156. Subject: Re: Plain Text
  10157.  
  10158. [Peter wrote]
  10159. > I find myself in agreement with Ken W's comments a few messages back. I'm
  10160. > also inclined to say that you are wanting to define (in effect) a MIME
  10161. > type, and that part of the confusion / disagreement that has arisen in
  10162. > this thread comes about by calling this type "plain text".
  10163. I most emphatically do not want to define a MIME type, because MIME will
  10164. disappear some day but Unicode will last forever (if we do it right).
  10165.  
  10166. > You want a file that is tagged with null markup to be interpreted in a
  10167. > specific way (as a text document as opposed, e.g. to a database) and with
  10168. > specific layout formatting. As was pointed out in an earlier message, and
  10169. > as we are all familiar with, sometime files that contain only text
  10170. > characters and no tagging are used for purposes other than this, such as
  10171. > the CSV database.  Also, there are times when I've had such text files in
  10172. > which I intend all of the text that exists between instances of { BOF,
  10173. > EOF, NLF } to appear on a single line, regardless of length (e.g. in
  10174. > source code), and other times when I expect it to wrap to whatever width
  10175. > is appropriate for the window in which it is viewed.
  10176. All of that is fine.  I'm only proposing that we codify existing practice.
  10177. If Unicode has a Line Separator (and it does), then if I put it in a file,
  10178. it should serve its purpose.  Ditto for Paragraph Separator.  Ditto for
  10179. C0 HT and FF (even though those purposes might be ill-defined), in the
  10180. absence of "native" Unicode replacements for them.
  10181.  
  10182. I agree that marking a "plain-text" stream as "preformatted" or "to be
  10183. flowed" is a higher-level issue.  However, we must also agree that plain text 
  10184. CAN be preformatted and not ALWAYS flowed, and that Unicode already contains
  10185. the mechanisms to do it.
  10186.  
  10187. > All of these are legitimate things to want to be able to do with a file in
  10188. > this format that we have always known as "plain text". Neither the
  10189. > intended meaning of the content, nor the intended appearance have ever
  10190. > been part of the definition of plain text. Thus, I think you should expect
  10191. > some objection to any suggestion that "plain text" should refer to a file
  10192. > that is intended to be interpreted in a specific way, i.e. as a text
  10193. > document with specific layout formatting. Plain text can be neither more
  10194. > nor less than what is has always been. As we apply plain text to the
  10195. > Unicode context, Ken's comments were on the mark.
  10196. > That is not to say that it isn't reasonable, or desireable, to specify a
  10197. > file format to be used for text documents with specific layout formatting
  10198. > such that it will always appear as the author intended, and such that no
  10199. > markup is used beyond a standard interpretation of the characters
  10200. > (separating this file format from others such as PDF). We'd all benefit
  10201. > from it, if an agreement can be made.  I just think that we may need to
  10202. > call it something else.
  10203. >
  10204. "Preformatted plain text"?  It's not catchy but I think it says what it means.
  10205.  
  10206. > I certainly empathise with a desire to have a standard for preformatted
  10207. > plain text. Here's the first paragraph of something in a message sent to
  10208. > me recently.
  10209. >
  10210. Yes, "fractured plain text" comes from a flawed conversion algorithm, e.g.
  10211. when pasting from a web page into an email window (a "double-ended break"
  10212. in this case: misinterpretation of the left margin as leading spaces by the
  10213. copier and gratuitous word wrapping by the paster).  Obviously that's an
  10214. application issue.  However, I do believe that if we can establish a
  10215. baseline for preformatted plain text, makers of such applications will have
  10216. a better idea of how to interchange text.
  10217.  
  10218. - Frank
  10219.  
  10220.  5-Jul-99 20:45:18-GMT,3272;000000000001
  10221. Return-Path: <unicode@unicode.org>
  10222. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  10223.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id QAA14621
  10224.     for <fdc@watsun.cc.columbia.edu>; Mon, 5 Jul 1999 16:45:17 -0400 (EDT)
  10225. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  10226.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id NAA243178
  10227.     ; Mon, 5 Jul 1999 13:39:10 -0700
  10228. Received: by unicode.org (NX5.67g/NX3.0S)
  10229.     id AA04382; Mon, 5 Jul 99 13:21:31 -0700
  10230. Message-Id: <9907052021.AA04382@unicode.org>
  10231. Errors-To: uni-bounce@unicode.org
  10232. Mime-Version: 1.0
  10233. Content-Type: text/plain; charset=US-ASCII
  10234. Content-Transfer-Encoding: 7BIT
  10235. X-Uml-Sequence: 8444 (1999-07-05 20:20:07 GMT)
  10236. From: "Jonathan Coxhead" <jonathan@doves.demon.co.uk>
  10237. To: Unicode List <unicode@unicode.org>
  10238. Date: Mon, 5 Jul 1999 13:20:06 -0700 (PDT)
  10239. Subject: Re: Plain text: Amendment 1
  10240. Content-Transfer-Encoding: 7BIT
  10241.  
  10242.  | As noted previously, I would not object to adding two more "control
  10243.  | characters" to Unicode to remove our dependence on C0 and C1
  10244.  | completely:
  10245.  | 
  10246.  |  1. UHT "Unicode Horizontal Tab", which is just like C0 HT except
  10247.  |  that
  10248.  |     the tabstops are well-defined (should the tabbing concept be
  10249.  |     carried forward into Unicode Plain Text, rather than using only
  10250.  |     spaces).  How to define them is, of course, another question.
  10251.  
  10252.    My thoughts on this indicate that explicit tab widths are not 
  10253. appropriate: the only real requirement for plain text is that the 
  10254. columns line up. So we could have a character
  10255.  
  10256.       COLUMN SEPARATOR
  10257.  
  10258. (CSEP) to go with LINE SEPARATOR (LSEP) and PARAGRAPH SEPARATOR (PSEP). 
  10259. It should interact with these as follows.
  10260.  
  10261.    "Within a paragraph that contains a CSEP, each LSEP-delimited 
  10262. line represents a row of a table. The table has as many columns as the 
  10263. maximum number of CSEP characters in any line. Each column should be 
  10264. wide enough to accommodate the longest column-contents in any line in 
  10265. that column. No inter-column spacing is provided: if there is to be 
  10266. space between columns, one column or the other must contain explicit 
  10267. space chatacters."
  10268.  
  10269.    So the general form of a table would be
  10270.  
  10271.       PSEP ... CSEP ... CSEP ... LSEP
  10272.       ...      CSEP ... LSEP
  10273.       ...      CSEP ... CSEP ...
  10274.       PSEP
  10275.  
  10276.    An unsophisticated renderer may choose to render CSEP as a tab to 
  10277. an 8-column tab stop, and this may often give acceptable results.
  10278.  
  10279.  | Whatever is chosen, let's keep it simple.
  10280.  
  10281.    This is simple to define, but not to render. Also, it doesn't give 
  10282. control over left/right/centre justifying each column. If this is 
  10283. important, I suppose the solution would be a SPACE FILL character, like 
  10284. \hfil in TeX, which (when occuring in a table, i e, a paragraph with 
  10285. at least one CSEP character) provides enough space to pad the entry it 
  10286. appears in to the full width available. This would allow a column to be 
  10287. right-justified (start all entries with SPACE FILL), centre-justified 
  10288. (put a SPACE FILL character before and after the entries), or even 
  10289. justified on a particular character, e g, the decimal point FULL STOP 
  10290. (break it into 2 columns, by writing CSEP, FULL STOP instead of FULL 
  10291. STOP, and right-justify the first, left-justify the second).
  10292.  
  10293.         /|
  10294.  o o o (_|/
  10295.         /|
  10296.        (_/
  10297.  
  10298.  5-Jul-99 22:33:53-GMT,1510;000000000011
  10299. Return-Path: <unicode@unicode.org>
  10300. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  10301.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id SAA10623
  10302.     for <fdc@watsun.cc.columbia.edu>; Mon, 5 Jul 1999 18:33:51 -0400 (EDT)
  10303. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  10304.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id PAA200950
  10305.     ; Mon, 5 Jul 1999 15:23:09 -0700
  10306. Received: by unicode.org (NX5.67g/NX3.0S)
  10307.     id AA06878; Mon, 5 Jul 99 15:07:37 -0700
  10308. Message-Id: <9907052207.AA06878@unicode.org>
  10309. Errors-To: uni-bounce@unicode.org
  10310. Mime-Version: 1.0
  10311. Content-Type: text/plain; charset=us-ascii
  10312. X-Uml-Sequence: 8453 (1999-07-05 22:07:14 GMT)
  10313. From: keld@dkuug.dk
  10314. To: Unicode List <unicode@unicode.org>
  10315. Date: Mon, 5 Jul 1999 15:07:08 -0700 (PDT)
  10316. Subject: Re: Plain text: Amendment 1
  10317.  
  10318. On Mon, Jul 05, 1999 at 03:16:01AM -0700, keld@dkuug.dk wrote:
  10319. > 3) could be something like one out of 3:
  10320. > 1. CR
  10321. > 2. LF
  10322. > 3. CR LF
  10323.  
  10324. To clarify: I think "line break" could follow the conventions
  10325. currently in use on the Internet: Accept all of the three above forms,
  10326. but only generate one form, preferably the CR LF sequence.
  10327.  
  10328. It seems like the Internet is going to standardize on UTF-8,
  10329. and as UTF-8 encodes C0 as a single octet, I think there would be
  10330. much sense in chosing a C0 sequence for the "line break" function.
  10331.  
  10332. I think the paragraph break could then be chosen as one of
  10333. the C0 Information separators, possibly the Record Separator
  10334. aka control-^ .
  10335.  
  10336. Just my 2 eurocent
  10337.  
  10338. Keld
  10339.  
  10340.  5-Jul-99 22:58:31-GMT,2280;000000000001
  10341. Return-Path: <unicode@unicode.org>
  10342. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  10343.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id SAA15543
  10344.     for <fdc@watsun.cc.columbia.edu>; Mon, 5 Jul 1999 18:58:31 -0400 (EDT)
  10345. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  10346.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id PAA199038
  10347.     ; Mon, 5 Jul 1999 15:54:19 -0700
  10348. Received: by unicode.org (NX5.67g/NX3.0S)
  10349.     id AA08168; Mon, 5 Jul 99 15:43:35 -0700
  10350. Message-Id: <9907052243.AA08168@unicode.org>
  10351. Errors-To: uni-bounce@unicode.org
  10352. X-Uml-Sequence: 8457 (1999-07-05 22:43:27 GMT)
  10353. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  10354. To: Unicode List <unicode@unicode.org>
  10355. Cc: unicode@unicode.org
  10356. Date: Mon, 5 Jul 1999 15:43:26 -0700 (PDT)
  10357. Subject: Re: Plain text: Amendment 1
  10358.  
  10359. > On Mon, Jul 05, 1999 at 03:16:01AM -0700, keld@dkuug.dk wrote:
  10360. > > 3) could be something like one out of 3:
  10361. > > 
  10362. > > 1. CR
  10363. > > 2. LF
  10364. > > 3. CR LF
  10365. > To clarify: I think "line break" could follow the conventions
  10366. > currently in use on the Internet: Accept all of the three above forms,
  10367. > but only generate one form, preferably the CR LF sequence.
  10368. > It seems like the Internet is going to standardize on UTF-8,
  10369. > and as UTF-8 encodes C0 as a single octet, I think there would be
  10370. > much sense in chosing a C0 sequence for the "line break" function.
  10371. > I think the paragraph break could then be chosen as one of
  10372. > the C0 Information separators, possibly the Record Separator
  10373. > aka control-^ .
  10374. I think the problem with this idea is that if we look at a Unicode
  10375. text file and see CR and/or LF in it, we don't know if those
  10376. characters came from the private text format of a 7- or 8-bit file
  10377. that was converted to Unicode without any record-format conversion,
  10378. or if they are the "Unicode" CR and LF.  Therefore this would only
  10379. move the problem of incompatible record formats from the old world
  10380. (of DOS, Windows, UNIX, Macintosh) to the new one.
  10381.  
  10382. It's better to have Unicode characters LS and PS (and I think also
  10383. Tab/Column-Separator and Page Separator) than to recycle the C0
  10384. controls.  This ensures round-trip integrity without having to know
  10385. the history of the data ("it came originally from DOS so to convert
  10386. it from Unicode to UNIX we need to...")
  10387.  
  10388. - Frank
  10389.  
  10390.  5-Jul-99 23:12:00-GMT,1857;000000000001
  10391. Return-Path: <unicode@unicode.org>
  10392. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  10393.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id TAA18562
  10394.     for <fdc@watsun.cc.columbia.edu>; Mon, 5 Jul 1999 19:11:58 -0400 (EDT)
  10395. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  10396.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id QAA198948
  10397.     ; Mon, 5 Jul 1999 16:05:19 -0700
  10398. Received: by unicode.org (NX5.67g/NX3.0S)
  10399.     id AA08383; Mon, 5 Jul 99 15:51:57 -0700
  10400. Message-Id: <9907052251.AA08383@unicode.org>
  10401. Errors-To: uni-bounce@unicode.org
  10402. Mime-Version: 1.0
  10403. Content-Type: text/plain; charset=us-ascii
  10404. X-Uml-Sequence: 8458 (1999-07-05 22:51:42 GMT)
  10405. From: Otto Stolz <Otto.Stolz@uni-konstanz.de>
  10406. To: Unicode List <unicode@unicode.org>
  10407. Date: Mon, 5 Jul 1999 15:51:36 -0700 (PDT)
  10408. Subject: Re: Plain Text
  10409.  
  10410. Am 1999-07-01 um 13:00 h hat Otto Stolz geschrieben:
  10411. > In MS-DOS (or PC-DOS and other DOS variants) on the PC, it is not
  10412. > well defined, at all: [...]
  10413. > - '09'x (HT) means either a tabulator [...] or a line-break,
  10414.  
  10415. I am no more sure about the HT used as a line-break in plain text.
  10416. It is indeed used in an internal Word-format (Word 2.0 for DOS, and
  10417. perhaps in later versions) for this purpose, but I haven't kept an
  10418. old Word implementation, so I cannot check Word's input conversion
  10419. from plain text to this format.
  10420.  
  10421. Current Word for Windows input conversions from plain text
  10422. interpret some C0 characters thus (checked with Word 97):
  10423.   '09'x   (TAB)       tabulator
  10424.   '0A'x   (LF)        paragraph break
  10425.   '0B'x   (VT)        line break
  10426.   '0C'x   (FF)        page break
  10427.   '0D'x   (CR)        ignored
  10428.   '0E'x   (SO) [sic!] column break
  10429.  
  10430. Still, my main point holds: In MS-DOS, plain text is not well defined,
  10431. as there are wide variations in the usage and meaning of several controll
  10432. characters.
  10433.  
  10434. Best wishes,
  10435.    Otto Stolz
  10436.  
  10437.  6-Jul-99  3:34:39-GMT,2640;000000000001
  10438. Return-Path: <mark@macchiato.com>
  10439. Received: from proxy4.ba.best.com (proxy4.ba.best.com [206.184.139.15])
  10440.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id XAA04624
  10441.     for <fdc@watsun.cc.columbia.edu>; Mon, 5 Jul 1999 23:34:25 -0400 (EDT)
  10442. Received: from macchiato.com (dynamic45.pm03.mv.best.com [209.24.240.173])
  10443.     by proxy4.ba.best.com (8.9.3/8.9.2/best.out) with ESMTP id UAA22744;
  10444.     Mon, 5 Jul 1999 20:32:14 -0700 (PDT)
  10445. Message-ID: <37817931.41860B@macchiato.com>
  10446. Date: Mon, 05 Jul 1999 20:34:09 -0700
  10447. From: Mark Davis <mark@macchiato.com>
  10448. X-Mailer: Mozilla 4.6 [en] (Win98; U)
  10449. X-Accept-Language: en,de-CH,fr-CH,it
  10450. MIME-Version: 1.0
  10451. To: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  10452. CC: Unicode List <unicode@unicode.org>
  10453. Subject: Re: Plain text: Amendment 1
  10454. References: <9907052243.AA08164@unicode.org>
  10455. Content-Type: text/plain; charset=us-ascii
  10456. Content-Transfer-Encoding: 7bit
  10457.  
  10458. A lot of the discussion of line termination relates to technical report #13.
  10459. Any suggestions for additional information for that report would be welcome.
  10460.  
  10461. (http://www.unicode.org/unicode/reports/tr13/)
  10462.  
  10463. Mark
  10464.  
  10465. Frank da Cruz wrote:
  10466.  
  10467. > > On Mon, Jul 05, 1999 at 03:16:01AM -0700, keld@dkuug.dk wrote:
  10468. > > > 3) could be something like one out of 3:
  10469. > > >
  10470. > > > 1. CR
  10471. > > > 2. LF
  10472. > > > 3. CR LF
  10473. > >
  10474. > > To clarify: I think "line break" could follow the conventions
  10475. > > currently in use on the Internet: Accept all of the three above forms,
  10476. > > but only generate one form, preferably the CR LF sequence.
  10477. > >
  10478. > > It seems like the Internet is going to standardize on UTF-8,
  10479. > > and as UTF-8 encodes C0 as a single octet, I think there would be
  10480. > > much sense in chosing a C0 sequence for the "line break" function.
  10481. > >
  10482. > > I think the paragraph break could then be chosen as one of
  10483. > > the C0 Information separators, possibly the Record Separator
  10484. > > aka control-^ .
  10485. > >
  10486. > I think the problem with this idea is that if we look at a Unicode
  10487. > text file and see CR and/or LF in it, we don't know if those
  10488. > characters came from the private text format of a 7- or 8-bit file
  10489. > that was converted to Unicode without any record-format conversion,
  10490. > or if they are the "Unicode" CR and LF.  Therefore this would only
  10491. > move the problem of incompatible record formats from the old world
  10492. > (of DOS, Windows, UNIX, Macintosh) to the new one.
  10493. >
  10494. > It's better to have Unicode characters LS and PS (and I think also
  10495. > Tab/Column-Separator and Page Separator) than to recycle the C0
  10496. > controls.  This ensures round-trip integrity without having to know
  10497. > the history of the data ("it came originally from DOS so to convert
  10498. > it from Unicode to UNIX we need to...")
  10499. >
  10500. > - Frank
  10501.  
  10502.  6-Jul-99 15:00:44-GMT,2552;000000000005
  10503. Return-Path: <unicode@unicode.org>
  10504. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  10505.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id LAA06958
  10506.     for <fdc@watsun.cc.columbia.edu>; Tue, 6 Jul 1999 11:00:43 -0400 (EDT)
  10507. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  10508.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id HAA200904
  10509.     ; Tue, 6 Jul 1999 07:53:44 -0700
  10510. Received: by unicode.org (NX5.67g/NX3.0S)
  10511.     id AA14263; Tue, 6 Jul 99 07:20:41 -0700
  10512. Message-Id: <9907061420.AA14263@unicode.org>
  10513. Errors-To: uni-bounce@unicode.org
  10514. Mime-Version: 1.0
  10515. Content-Type: text/plain; charset=us-ascii
  10516. X-Uml-Sequence: 8478 (1999-07-06 14:18:21 GMT)
  10517. From: Kevin Bracey <kbracey@e-14.com>
  10518. To: Unicode List <unicode@unicode.org>
  10519. Date: Tue, 6 Jul 1999 07:18:20 -0700 (PDT)
  10520. Subject: Re: NLF (was Frank and Ed, was Plain Text) 
  10521.  
  10522. In message <9907051432.AA29431@unicode.org>
  10523.           Peter_Constable@sil.org wrote:
  10524.  
  10525. > >I find myself dealing with Unicode text created by Windows and Windows
  10526. > applications quite frequently now, with line ends marked in little-endian
  10527. > fashion as
  10528. > 0D 00 0A 00
  10529. > Indeed, this practice has surprised me.
  10530. > Chris Pratley: can you comment on why Word 97 does this rather than using
  10531. > PS?
  10532.  
  10533. I think I can partially answer this from experience on our (non-MS)
  10534. environment. Our system continues to use our native line-ending type (LF
  10535. only) when dealing with Unicode data, for compatibility. In particular, when
  10536. converted to UTF-8, which is how Unicode is normally passed around our OS,
  10537. the data will have standard looking line endings - if PS or LS were used,
  10538. many non-UTF-8 aware parts of the system would get confused.
  10539.  
  10540. Also, a lot of Unicode data is converted from non-Unicode sources -
  10541. conversion will almost always leave C0 and C1 characters untouched. Changing
  10542. to PS and LS would need knowledge of the source data's line ending
  10543. conventions, which is hard to determine automatically. If you also need
  10544. round-trip conversion (eg Shift-JIS data in an HTML form -> Unicode browser
  10545. workings -> Shift-JIS submission to server), messing with line endings is
  10546. almost out of the question.
  10547.  
  10548. All other encodings use C0 controls for line endings - it's hard to
  10549. make a change for one particular encoding that does it differently.
  10550.  
  10551. -- 
  10552. Kevin Bracey, Senior Software Engineer
  10553. Pace Micro Technology plc                     Tel: +44 (0) 1223 725228
  10554. 645 Newmarket Road                            Fax: +44 (0) 1223 725328
  10555. Cambridge, CB5 8PB, United Kingdom            WWW: http://www.acorn.co.uk/
  10556.  
  10557.  6-Jul-99 15:48:02-GMT,3748;000000000001
  10558. Return-Path: <unicode@unicode.org>
  10559. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  10560.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id LAA21789
  10561.     for <fdc@watsun.cc.columbia.edu>; Tue, 6 Jul 1999 11:48:01 -0400 (EDT)
  10562. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  10563.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id IAA246046
  10564.     ; Tue, 6 Jul 1999 08:30:04 -0700
  10565. Received: by unicode.org (NX5.67g/NX3.0S)
  10566.     id AA14360; Tue, 6 Jul 99 07:26:42 -0700
  10567. Message-Id: <9907061426.AA14360@unicode.org>
  10568. Errors-To: uni-bounce@unicode.org
  10569. Mime-Version: 1.0
  10570. Content-Type: text/plain; charset=us-ascii
  10571. Content-Transfer-Encoding: 7bit
  10572. X-Uml-Sequence: 8480 (1999-07-06 14:23:46 GMT)
  10573. From: John Cowan <cowan@locke.ccil.org>
  10574. To: Unicode List <unicode@unicode.org>
  10575. Date: Tue, 6 Jul 1999 07:23:45 -0700 (PDT)
  10576. Subject: Re: Plain Text
  10577. Content-Transfer-Encoding: 7bit
  10578.  
  10579. Edward Cherlin wrote:
  10580.  
  10581. > This is the key point for me. You acknowledge the need for flavors of text
  10582. > other than your preformatted plain text. I thought you were holding out for
  10583. > one flavor only.
  10584.  
  10585. Indeed, but "preformatted plain text" has traditionally been called
  10586. "plain text", or in MIME "text/plain", and this terminology ought not
  10587. to be revised unwarrantedly.  Other species of plain text should have
  10588. a distinguishing adjective.
  10589.  
  10590. > Now we can discuss the flavors, such as delimited database
  10591. > interchange files with lines of arbitrary length.
  10592.  
  10593. We can, but I think we would do well to nail down preformatted
  10594. plain text (aka "plain text") first, as it is the most
  10595. stable.
  10596.  
  10597. > Presumably we can define
  10598. > them using some of the apparatus that is becoming available in XML or as
  10599. > MIME data types. Would it make sense, then, to create a formal XML
  10600. > definition of plain text files, with a leading BOM, no interpretations for
  10601. > any tags, the minimum set of control characters, and the appropriate set of
  10602. > transformation formats?
  10603.  
  10604. No, at least for the XML part.  (You could create a full-SGML
  10605. definition, but I question the purpose of it, except perhaps
  10606. to help in defining a Unicode-preformatted-plain-text grove model.)
  10607.  
  10608. XML compels special interpretations for "<" and "&"
  10609. and requires matching enclosing tags; preformatted plain text
  10610. has no such requirements.
  10611.  
  10612. > That would get around my earlier objection, about
  10613. > how to make an implementation available on all platforms. What about
  10614. > corresponding MIME types?
  10615.  
  10616. The corresponding MIME type is "text/plain; charset=utf-8" or
  10617. "... utf-16".
  10618.  
  10619. Anything else should have a different MIME type or at least
  10620. different parameters.
  10621.  
  10622. > Preformatted or reflowable.
  10623.  
  10624. I have not seen ones that are not preformatted.
  10625.  
  10626. > > . Traditional (not "legacy") email and netnews.
  10627. > There is presently no way to specify preformatted or reflowable.
  10628.  
  10629. There is a widespread presumption for preformatted, although
  10630. sometimes the formatting is done by the creating software, not the user,
  10631. alas.  Rendering software usually has at least an option to
  10632. display as-is.
  10633.  
  10634. > To summarize your answer to my objections, we are defining a new format
  10635. > independent of previous conventions, in which we can specify usage of the
  10636. > minimal set of formatting characters regardless of usage in text files of
  10637. > 7-bit ASCII and 8-bit character sets of any kind,
  10638.  
  10639. Yes.
  10640.  
  10641. > while allowing for a few
  10642. > variant flavors of text, such as preformatted, reflowable, and database.
  10643.  
  10644. And of these, preformatted is the most important and stable, and
  10645. should be specified first.  The others can be specified ad libitum
  10646. later.
  10647.  
  10648. -- 
  10649. John Cowan    http://www.ccil.org/~cowan        cowan@ccil.org
  10650.    Schlingt dreifach einen Kreis um dies! / Schliesst euer Aug vor heiliger Schau,
  10651.    Denn er genoss vom Honig-Tau / Und trank die Milch vom Paradies.
  10652.             -- Coleridge / Politzer
  10653.  
  10654.  6-Jul-99 16:52:25-GMT,2051;000000000001
  10655. Return-Path: <unicode@unicode.org>
  10656. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  10657.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id MAA10222
  10658.     for <fdc@watsun.cc.columbia.edu>; Tue, 6 Jul 1999 12:52:24 -0400 (EDT)
  10659. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  10660.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id JAA242372
  10661.     ; Tue, 6 Jul 1999 09:38:54 -0700
  10662. Received: by unicode.org (NX5.67g/NX3.0S)
  10663.     id AA16405; Tue, 6 Jul 99 08:49:29 -0700
  10664. Message-Id: <9907061549.AA16405@unicode.org>
  10665. Errors-To: uni-bounce@unicode.org
  10666. Mime-Version: 1.0
  10667. Content-Type: text/plain; charset=us-ascii
  10668. Content-Transfer-Encoding: 7bit
  10669. X-Uml-Sequence: 8490 (1999-07-06 15:45:40 GMT)
  10670. From: John Cowan <cowan@locke.ccil.org>
  10671. To: Unicode List <unicode@unicode.org>
  10672. Date: Tue, 6 Jul 1999 08:45:35 -0700 (PDT)
  10673. Subject: Re: Plain Text
  10674. Content-Transfer-Encoding: 7bit
  10675.  
  10676. Frank da Cruz wrote:
  10677.  
  10678. > I most emphatically do not want to define a MIME type, because MIME will
  10679. > disappear some day but Unicode will last forever (if we do it right).
  10680.  
  10681. Technically, "MIME types" are called "media types", and what they
  10682. really are is named interchange formats.  You *are* trying to develop an
  10683. interchange format; making it a media type requires only finding a name
  10684. and filling out a short registration form.
  10685.  
  10686. As I said in an earlier message, MIME rules provide a strong case
  10687. for distinguishing between "text/plain" and "application/character-stream",
  10688. (where "application" here really means "other" i.e. "catchall".)
  10689. The former must be composed of lines with a maximum length of
  10690. (IIRC) 998 characters; the latter has no such restrictions.
  10691.  
  10692. Text/plain could still include both reflowable and preformatted
  10693. text, but I believe the weight of history is in favor of using that
  10694. term for preformatted text only.
  10695.  
  10696. -- 
  10697. John Cowan    http://www.ccil.org/~cowan        cowan@ccil.org
  10698.    Schlingt dreifach einen Kreis um dies! / Schliesst euer Aug vor heiliger Schau,
  10699.    Denn er genoss vom Honig-Tau / Und trank die Milch vom Paradies.
  10700.             -- Coleridge / Politzer
  10701.  
  10702.  6-Jul-99 16:52:29-GMT,4215;000000000005
  10703. Return-Path: <unicode@unicode.org>
  10704. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  10705.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id MAA10261
  10706.     for <fdc@watsun.cc.columbia.edu>; Tue, 6 Jul 1999 12:52:28 -0400 (EDT)
  10707. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  10708.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id JAA90060
  10709.     ; Tue, 6 Jul 1999 09:38:57 -0700
  10710. Received: by unicode.org (NX5.67g/NX3.0S)
  10711.     id AA16005; Tue, 6 Jul 99 08:36:26 -0700
  10712. Message-Id: <9907061536.AA16005@unicode.org>
  10713. Errors-To: uni-bounce@unicode.org
  10714. Mime-Version: 1.0
  10715. Content-Type: text/plain; charset=us-ascii
  10716. Content-Transfer-Encoding: 7bit
  10717. X-Uml-Sequence: 8488 (1999-07-06 15:30:50 GMT)
  10718. From: John Cowan <cowan@locke.ccil.org>
  10719. To: Unicode List <unicode@unicode.org>
  10720. Date: Tue, 6 Jul 1999 08:30:34 -0700 (PDT)
  10721. Subject: Re: Plain Text
  10722. Content-Transfer-Encoding: 7bit
  10723.  
  10724. Frank da Cruz wrote:
  10725.  
  10726. > We don't have to.  If the Unicode Standard defines what plain text is,
  10727. > then conversion of 8-bit text to Unicode will put all the divergent
  10728. > platform-specific formats into the same Unicode format.
  10729.  
  10730. Or some other widely accepted source of standardization, such as
  10731. Oasis or ECMA or ISO or even W3C (though the first three, IMHO,
  10732. have a better "fit" to the subject matter).
  10733.  
  10734. >  C1 control characters are kept if the source character
  10735. > set has them (e.g. a Latin Alphabet) and translated otherwise
  10736. > (e.g. CP850).
  10737.  
  10738. I take this to mean "Characters 0x80 to 0x9F are zero-bit-extended
  10739. if the source character set has C1 characters; if it does not
  10740. (like CP850, CP1252, or VISCII), they are translated to their
  10741. proper Unicode graphic equivalents."
  10742.  
  10743. >  . Heuristics might be used to identify paragraphs and to separate them
  10744. >    by Paragraph Separator.  For example, a blank line is replaced by PS.
  10745. >    Obviously there are pitfalls.
  10746.  
  10747. Indeed.  For example, blank lines in source code, e.g., are not
  10748. necessarily paragraph marks.  This might be a reasonable QOI
  10749. issue.
  10750.  
  10751. >  . Any conversion program would probably need an option to deal with
  10752. >    files with "word processor" record format, in which a line is really
  10753. >    a paragraph.
  10754.  
  10755. Note that arbitrary-length lines do not meet the MIME definition
  10756. of "text" (and nor does UTF-16 text); such things should really
  10757. have a media type of "application/character-stream" or the like,
  10758. analogous to "application/octet-stream" but with a charset
  10759. parameter.
  10760.  
  10761. > > 0D 00 0A 00
  10762. > >
  10763. > > What do we do about that?
  10764. > >
  10765. > I would say that this practice should be discouraged ("be conservative in
  10766. > what you 'send'") in any application that creates or saves Unicode text
  10767. > files.  But it should be allowed for ("be liberal in what you 'receive'") in
  10768. > any conversion/import program.
  10769.  
  10770. Does this Windows-Unicode text always have a proper little-endian BOM,
  10771. as I believe it does?
  10772.  
  10773. If so, then the only problem is the precise value of line
  10774. terminator.  In practice, much of the Unicode text (perhaps
  10775. all of it) in the world today uses old line terminators, and
  10776. I think they must be explicitly allowed in a flexible definition of
  10777. preformatted Unicode plain text, even if tagged with SHOULD NOT.
  10778.  
  10779. > No, thase are higher-level protocols that will go out of fashion some day,
  10780. > probably sooner than you think.  Of course you can define or use all the
  10781. > higher level protocols you want, but you should bear in mind they are
  10782. > ephemeral.
  10783.  
  10784. SGML is almost as old, as computer things go, as plain text.  Though it
  10785. was not standardized until 1986, it was devised in 1974; ASCII itself
  10786. only dates to 1963 or so.
  10787.  
  10788. Moreover, unlike most file formats, SGML is character-based,
  10789. not octet-based, and does not depend on any specific processing
  10790. application, so whatever process refreshes Unicode data will
  10791. refresh SGML data too.  (XML is merely a special case of SGML.)
  10792. I agree that preformatted plain text should not depend on SGML,
  10793. though; that is putting Cart before Horse.
  10794.  
  10795. [snip]
  10796.  
  10797. > Yes.
  10798.  
  10799. [snip] 
  10800.  
  10801. > Double yes.
  10802.  
  10803. Sounds like a case of violent agreement.
  10804.  
  10805. -- 
  10806. John Cowan    http://www.ccil.org/~cowan        cowan@ccil.org
  10807.    Schlingt dreifach einen Kreis um dies! / Schliesst euer Aug vor heiliger Schau,
  10808.    Denn er genoss vom Honig-Tau / Und trank die Milch vom Paradies.
  10809.             -- Coleridge / Politzer
  10810.  
  10811.  6-Jul-99 18:06:01-GMT,1998;000000000005
  10812. Return-Path: <unicode@unicode.org>
  10813. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  10814.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id OAA01861
  10815.     for <fdc@watsun.cc.columbia.edu>; Tue, 6 Jul 1999 14:05:58 -0400 (EDT)
  10816. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  10817.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id KAA258748
  10818.     ; Tue, 6 Jul 1999 10:57:06 -0700
  10819. Received: by unicode.org (NX5.67g/NX3.0S)
  10820.     id AA19726; Tue, 6 Jul 99 10:37:16 -0700
  10821. Message-Id: <9907061737.AA19726@unicode.org>
  10822. Errors-To: uni-bounce@unicode.org
  10823. Mime-Version: 1.0
  10824. Content-Type: text/plain; charset=us-ascii
  10825. Content-Transfer-Encoding: 7bit
  10826. X-Uml-Sequence: 8500 (1999-07-06 17:34:29 GMT)
  10827. From: John Cowan <cowan@locke.ccil.org>
  10828. To: Unicode List <unicode@unicode.org>
  10829. Date: Tue, 6 Jul 1999 10:34:27 -0700 (PDT)
  10830. Subject: UTR #13 comments (was: Plain text: Amendment 1)
  10831. Content-Transfer-Encoding: 7bit
  10832.  
  10833. Mark Davis wrote:
  10834.  
  10835. > A lot of the discussion of line termination relates to technical report #13.
  10836. > Any suggestions for additional information for that report would be welcome.
  10837.  
  10838. My suggestions:
  10839.  
  10840. 1) The NEL character in the C1 set (0x85) is the ISO equivalent of
  10841. EBCDIC NL (0x15) and this mapping is duly given in the EBCDIC code page
  10842. mappings on the Unicode FTP site.  The text should therefore advise
  10843. applications to treat U+0085 (NL/NEL) as a newline, not U+0015 (NAK).
  10844.  
  10845. 2) There should be a warning that some old documents use bare
  10846. CR (0x0D) to do underlining or other overstriking; an application
  10847. that converts such text should do a more complex conversion, though
  10848. treating bare CR as a NLF is marginally acceptable even for these
  10849. documents (which may then wind up containing occasional lines
  10850. with only spaces and underscores).
  10851.  
  10852. -- 
  10853. John Cowan    http://www.ccil.org/~cowan        cowan@ccil.org
  10854.    Schlingt dreifach einen Kreis um dies! / Schliesst euer Aug vor heiliger Schau,
  10855.    Denn er genoss vom Honig-Tau / Und trank die Milch vom Paradies.
  10856.             -- Coleridge / Politzer
  10857.  
  10858.  6-Jul-99 18:07:23-GMT,2852;000000000005
  10859. Return-Path: <unicode@unicode.org>
  10860. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  10861.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id OAA02179
  10862.     for <fdc@watsun.cc.columbia.edu>; Tue, 6 Jul 1999 14:07:22 -0400 (EDT)
  10863. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  10864.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id KAA265860
  10865.     ; Tue, 6 Jul 1999 10:56:23 -0700
  10866. Received: by unicode.org (NX5.67g/NX3.0S)
  10867.     id AA19432; Tue, 6 Jul 99 10:28:04 -0700
  10868. Message-Id: <9907061728.AA19432@unicode.org>
  10869. Errors-To: uni-bounce@unicode.org
  10870. Mime-Version: 1.0
  10871. Content-Type: text/plain; charset=us-ascii
  10872. Content-Transfer-Encoding: 7bit
  10873. X-Uml-Sequence: 8499 (1999-07-06 17:25:42 GMT)
  10874. From: John Cowan <cowan@locke.ccil.org>
  10875. To: Unicode List <unicode@unicode.org>
  10876. Date: Tue, 6 Jul 1999 10:25:40 -0700 (PDT)
  10877. Subject: Re: Plain text: Amendment 1
  10878. Content-Transfer-Encoding: 7bit
  10879.  
  10880. Frank da Cruz wrote:
  10881.  
  10882. > [I]f we look at a Unicode
  10883. > text file and see CR and/or LF in it, we don't know if those
  10884. > characters came from the private text format of a 7- or 8-bit file
  10885. > that was converted to Unicode without any record-format conversion,
  10886. > or if they are the "Unicode" CR and LF.
  10887.  
  10888. The semantics of CR and LF in Unicode 2.x *are* the ambiguous
  10889. ones inherited from the 7-bit controls; there are no other semantics.
  10890. But this has been changed in Unicode 3.0: see UTR #13
  10891. (http://www.unicode.org/unicode/reports/tr13/), which will be a
  10892. normative part of Unicode 3.0.  Note well that UTR #13 does not
  10893. solely prescribe the semantics of CR and LF during conversion to and
  10894. from Unicode, but also the semantics of CR and LF *in* Unicode.
  10895.  
  10896. XML, a major Unicode application, takes almost the same point of view.
  10897. (IMHO, XML should be modified to accept LS as a line-end character.)
  10898.  
  10899. > Therefore this would only
  10900. > move the problem of incompatible record formats from the old world
  10901. > (of DOS, Windows, UNIX, Macintosh) to the new one.
  10902.  
  10903. Indeed.  But the only real problem there is that some people and
  10904. applications (notably nroff output) use bare CR in plain text
  10905. to produce physical or notional overprinting.  Otherwise, it
  10906. is perfectly fine to take the UTR #13 viewpoint.
  10907.  
  10908. > It's better to have Unicode characters LS and PS (and I think also
  10909. > Tab/Column-Separator and Page Separator) than to recycle the C0
  10910. > controls.  This ensures round-trip integrity without having to know
  10911. > the history of the data ("it came originally from DOS so to convert
  10912. > it from Unicode to UNIX we need to...")
  10913.  
  10914. As for HT and FF, nobody uses them incompatibly, and
  10915. introducing new characters for them is supererogation at best.
  10916.  
  10917. -- 
  10918. John Cowan    http://www.ccil.org/~cowan        cowan@ccil.org
  10919.    Schlingt dreifach einen Kreis um dies! / Schliesst euer Aug vor heiliger Schau,
  10920.    Denn er genoss vom Honig-Tau / Und trank die Milch vom Paradies.
  10921.             -- Coleridge / Politzer
  10922.  
  10923.  6-Jul-99 20:21:22-GMT,1739;000000000001
  10924. Return-Path: <czyborra@taz.de>
  10925. Received: from osiris.taz.de (osiris.taz.de [194.162.12.2])
  10926.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id QAA11732
  10927.     for <fdc@watsun.cc.columbia.edu>; Tue, 6 Jul 1999 16:21:20 -0400 (EDT)
  10928. Received: from track.hal.taz.de (track.hal.taz.de [10.1.0.1])
  10929.     by osiris.taz.de (8.9.3/8.9.3) with ESMTP id WAA22660;
  10930.     Tue, 6 Jul 1999 22:21:18 +0200
  10931. Received: from diva.edv.taz.de (diva.edv.taz.de [10.1.1.44])
  10932.     by track.hal.taz.de (8.9.3/8.9.3) with ESMTP id WAA13247;
  10933.     Tue, 6 Jul 1999 22:21:13 +0200 (MET DST)
  10934. Date: Tue, 6 Jul 1999 22:21:13 +0200 (MEST)
  10935. From: Roman Czyborra <czyborra@taz.de>
  10936. X-Sender: czyborra@diva.edv.taz.de
  10937. To: Unicode List <unicode@unicode.org>, John Cowan <cowan@locke.ccil.org>,
  10938.         Frank da Cruz <fdc@watsun.cc.columbia.edu>
  10939. Subject: Re: Plain Text
  10940. In-Reply-To: <9907061616.AA17333@unicode.org>
  10941. Message-ID: <Pine.LNX.4.10.9907062143210.32156-100000@diva.edv.taz.de>
  10942. Organization: http://czyborra.com/ @ http://taz.de/
  10943. Gender: male
  10944. MIME-Version: 1.0
  10945. Content-Type: TEXT/PLAIN; charset=US-ASCII
  10946.  
  10947. > Text/plain could still include both reflowable and preformatted
  10948. > text, but I believe the weight of history is in favor of using
  10949. > that term for preformatted text only.
  10950.  
  10951. Please read http://imc.org/draft-gellens-format (also known as
  10952. http://www.ietf.org/internet-drafts/draft-gellens-format-06.txt)
  10953. about the Content-Type: text/plain;charset=UTF-8;format=flowed
  10954.  
  10955. > MIME will disappear some day but Unicode will last forever
  10956.  
  10957. The Internet and MIME will evolve but I don't see them vanish any
  10958. earlier than Unicode.  MIME has been integrated into the majority of
  10959. platforms, browsers and mailreaders worldwide.  Without MIME we
  10960. wouldn't be able to properly send multilingual text anywhere.
  10961.  
  10962.  6-Jul-99 21:47:42-GMT,1792;000000000005
  10963. Return-Path: <unicode@unicode.org>
  10964. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  10965.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id RAA07183
  10966.     for <fdc@watsun.cc.columbia.edu>; Tue, 6 Jul 1999 17:47:41 -0400 (EDT)
  10967. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  10968.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id OAA186772
  10969.     ; Tue, 6 Jul 1999 14:35:38 -0700
  10970. Received: by unicode.org (NX5.67g/NX3.0S)
  10971.     id AA24360; Tue, 6 Jul 99 14:25:17 -0700
  10972. Message-Id: <9907062125.AA24360@unicode.org>
  10973. Errors-To: uni-bounce@unicode.org
  10974. X-Uml-Sequence: 8513 (1999-07-06 21:24:03 GMT)
  10975. From: "Tony Harminc" <tzha1@ibm.net>
  10976. To: Unicode List <unicode@unicode.org>
  10977. Date: Tue, 6 Jul 1999 14:24:01 -0700 (PDT)
  10978. Subject: Re: Plain text: Amendment 1
  10979.  
  10980. On 6 Jul 99, at 10:25, John Cowan wrote:
  10981.  
  10982. > As for HT and FF, nobody uses them incompatibly, and
  10983. > introducing new characters for them is supererogation at best.
  10984.  
  10985. Actually the question of HT and FF is the most bothersome one, for 
  10986. me.  There are (at least) two problems:
  10987.  
  10988. HT and FF both depend in some sense on the user's environment, e.g. 
  10989. page length (paper size if the "rendering engine" is a printer or 
  10990. hardcopy terminal), and tab stop settings.
  10991.  
  10992. HT has ambiguous semantics when the HT occurs when the cursor is 
  10993. already at a tab stop.  If the cursor got to a tab stop because of an 
  10994. HT, then there is no argument - another HT moves to the next tab 
  10995. stop.  But if the cursor got there because of ordinary, implicit 
  10996. movement, then some systems ignore an HT (i.e. stay in the same 
  10997. place), while others move on to the next stop.  Granted, this is 
  10998. mainly a problem of input methods rather than data storage or 
  10999. interchange, but I don't think it's quite fair to say that no one 
  11000. uses HT incompatibly.
  11001.  
  11002. Tony H.
  11003.  
  11004.  6-Jul-99 22:57:17-GMT,1684;000000000005
  11005. Return-Path: <kenw@sybase.com>
  11006. Received: from inergen.sybase.com (inergen.sybase.com [192.138.151.43])
  11007.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id SAA24819
  11008.     for <fdc@watsun.cc.columbia.edu>; Tue, 6 Jul 1999 18:57:16 -0400 (EDT)
  11009. Received: from smtp1.sybase.com (sybgate.sybase.com [130.214.220.35])
  11010.     by inergen.sybase.com  with ESMTP id PAA16767;
  11011.     Tue, 6 Jul 1999 15:58:18 -0700 (PDT)
  11012. Received: from birdie.sybase.com (birdie.sybase.com [130.214.140.3])
  11013.     by smtp1.sybase.com  with SMTP id PAA23039;
  11014.     Tue, 6 Jul 1999 15:57:15 -0700 (PDT)
  11015. Received: by birdie.sybase.com (5.x/SMI-SVR4/SybEC3.5)
  11016.     id AA04633; Tue, 6 Jul 1999 15:57:14 -0700
  11017. Date: Tue, 6 Jul 1999 15:57:14 -0700
  11018. From: kenw@sybase.com (Kenneth Whistler)
  11019. Message-Id: <9907062257.AA04633@birdie.sybase.com>
  11020. To: fdc@watsun.cc.columbia.edu
  11021. Subject: Re: Plain Text
  11022. Cc: unicode@unicode.org, kenw@sybase.com
  11023. X-Sun-Charset: US-ASCII
  11024.  
  11025.  
  11026. > So at minimum, a text file should be tagged according to character set.
  11027.  
  11028. Whoa! Wait a minute. How do we get from here to there?
  11029.  
  11030. If it's tagged, it's not a *plain* text file, but something else.
  11031.  
  11032. The way ahead out of the character set identity morass for "text files"
  11033. is to use the Universal Character Set -- that way, once again, we
  11034. will know how to interpret plain text files.
  11035.  
  11036. The rest of this discussion is about something else other than what
  11037. the Unicode Standard means by "plain text", and has, as far as I can
  11038. tell, more to do with devising a kind of a lowest common denominator
  11039. document format standard for interoperability. While people on this list
  11040. may find that interesting to discuss, it is rather orthogonal to the
  11041. intended scope of the Unicode Standard.
  11042.  
  11043. --Ken Whistler
  11044.  
  11045.  6-Jul-99 23:07:50-GMT,1372;000000000005
  11046. Return-Path: <kenw@sybase.com>
  11047. Received: from inergen.sybase.com (inergen.sybase.com [192.138.151.43])
  11048.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id TAA27626
  11049.     for <fdc@watsun.cc.columbia.edu>; Tue, 6 Jul 1999 19:07:49 -0400 (EDT)
  11050. Received: from smtp1.sybase.com (sybgate.sybase.com [130.214.220.35])
  11051.     by inergen.sybase.com  with ESMTP id QAA18832;
  11052.     Tue, 6 Jul 1999 16:08:40 -0700 (PDT)
  11053. Received: from birdie.sybase.com (birdie.sybase.com [130.214.140.3])
  11054.     by smtp1.sybase.com  with SMTP id QAA25245;
  11055.     Tue, 6 Jul 1999 16:07:37 -0700 (PDT)
  11056. Received: by birdie.sybase.com (5.x/SMI-SVR4/SybEC3.5)
  11057.     id AA04637; Tue, 6 Jul 1999 16:07:37 -0700
  11058. Date: Tue, 6 Jul 1999 16:07:37 -0700
  11059. From: kenw@sybase.com (Kenneth Whistler)
  11060. Message-Id: <9907062307.AA04637@birdie.sybase.com>
  11061. To: fdc@watsun.cc.columbia.edu
  11062. Subject: RE: Plain Text
  11063. Cc: unicode@unicode.org, kenw@sybase.com
  11064. X-Sun-Charset: US-ASCII
  11065.  
  11066. > > The grayer
  11067. > > part of this discussion is about what constitutes "preformatted plain
  11068. > > text". I don't think this can be standardized to practical effect. That
  11069. > > is, you could write a standard, but would anyone use it?
  11070. > >
  11071. > Those who needed a guaranteed way to record preformatted plain text in
  11072. > documents that can persist over long periods of time and across all
  11073. > applications and platforms would use it.
  11074.  
  11075. At the moment, this format is called a "book". :-)
  11076.  
  11077. --Ken
  11078.  
  11079.  6-Jul-99 23:35:26-GMT,1544;000000000001
  11080. Return-Path: <kenw@sybase.com>
  11081. Received: from inergen.sybase.com (inergen.sybase.com [192.138.151.43])
  11082.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id TAA06353
  11083.     for <fdc@watsun.cc.columbia.edu>; Tue, 6 Jul 1999 19:35:26 -0400 (EDT)
  11084. Received: from smtp1.sybase.com (sybgate.sybase.com [130.214.220.35])
  11085.     by inergen.sybase.com  with ESMTP id QAA22879;
  11086.     Tue, 6 Jul 1999 16:36:29 -0700 (PDT)
  11087. Received: from birdie.sybase.com (birdie.sybase.com [130.214.140.3])
  11088.     by smtp1.sybase.com  with SMTP id QAA27662;
  11089.     Tue, 6 Jul 1999 16:35:24 -0700 (PDT)
  11090. Received: by birdie.sybase.com (5.x/SMI-SVR4/SybEC3.5)
  11091.     id AA04643; Tue, 6 Jul 1999 16:35:24 -0700
  11092. Date: Tue, 6 Jul 1999 16:35:24 -0700
  11093. From: kenw@sybase.com (Kenneth Whistler)
  11094. Message-Id: <9907062335.AA04643@birdie.sybase.com>
  11095. To: fdc@watsun.cc.columbia.edu
  11096. Subject: Re: Plain text: Amendment 1
  11097. Cc: unicode@unicode.org, kenw@sybase.com
  11098. X-Sun-Charset: US-ASCII
  11099.  
  11100.  
  11101. > I think the problem with this idea is that if we look at a Unicode
  11102. > text file and see CR and/or LF in it, we don't know if those
  11103. > characters came from the private text format of a 7- or 8-bit file
  11104. > that was converted to Unicode without any record-format conversion,
  11105. > or if they are the "Unicode" CR and LF.  Therefore this would only
  11106. > move the problem of incompatible record formats from the old world
  11107. > (of DOS, Windows, UNIX, Macintosh) to the new one.
  11108.  
  11109. The unfortunate horse is already out of the burning barn on this one.
  11110. So now we have to add a stable to the new Unicode garage.
  11111.  
  11112. See Unicode Technical Report #13.
  11113.  
  11114. --Ken
  11115.  
  11116.  6-Jul-99 23:35:44-GMT,1286;000000000001
  11117. Return-Path: <unicode@unicode.org>
  11118. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  11119.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id TAA06404
  11120.     for <fdc@watsun.cc.columbia.edu>; Tue, 6 Jul 1999 19:35:44 -0400 (EDT)
  11121. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  11122.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id QAA203350
  11123.     ; Tue, 6 Jul 1999 16:31:17 -0700
  11124. Received: by unicode.org (NX5.67g/NX3.0S)
  11125.     id AA25399; Tue, 6 Jul 99 16:12:09 -0700
  11126. Message-Id: <9907062312.AA25399@unicode.org>
  11127. Errors-To: uni-bounce@unicode.org
  11128. X-Uml-Sequence: 8518 (1999-07-06 23:07:52 GMT)
  11129. From: kenw@sybase.com (Kenneth Whistler)
  11130. To: Unicode List <unicode@unicode.org>
  11131. Cc: unicode@unicode.org, kenw@sybase.com
  11132. Date: Tue, 6 Jul 1999 16:07:21 -0700 (PDT)
  11133. Subject: RE: Plain Text
  11134.  
  11135. > > The grayer
  11136. > > part of this discussion is about what constitutes "preformatted plain
  11137. > > text". I don't think this can be standardized to practical effect. That
  11138. > > is, you could write a standard, but would anyone use it?
  11139. > >
  11140. > Those who needed a guaranteed way to record preformatted plain text in
  11141. > documents that can persist over long periods of time and across all
  11142. > applications and platforms would use it.
  11143.  
  11144. At the moment, this format is called a "book". :-)
  11145.  
  11146. --Ken
  11147.  
  11148.  6-Jul-99 23:45:36-GMT,2026;000000000001
  11149. Return-Path: <unicode@unicode.org>
  11150. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  11151.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id TAA08869
  11152.     for <fdc@watsun.cc.columbia.edu>; Tue, 6 Jul 1999 19:45:35 -0400 (EDT)
  11153. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  11154.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id QAA10440
  11155.     ; Tue, 6 Jul 1999 16:42:01 -0700
  11156. Received: by unicode.org (NX5.67g/NX3.0S)
  11157.     id AA26067; Tue, 6 Jul 99 16:32:14 -0700
  11158. Message-Id: <9907062332.AA26067@unicode.org>
  11159. Errors-To: uni-bounce@unicode.org
  11160. X-Uml-Sequence: 8519 (1999-07-06 23:30:50 GMT)
  11161. From: kenw@sybase.com (Kenneth Whistler)
  11162. To: Unicode List <unicode@unicode.org>
  11163. Cc: unicode@unicode.org, kenw@sybase.com
  11164. Date: Tue, 6 Jul 1999 16:30:44 -0700 (PDT)
  11165. Subject: Re: Plain text: Amendment 1
  11166.  
  11167. Jonathan suggested:
  11168.  
  11169. >    My thoughts on this indicate that explicit tab widths are not 
  11170. > appropriate: the only real requirement for plain text is that the 
  11171. > columns line up. So we could have a character
  11172. >       COLUMN SEPARATOR
  11173. > (CSEP) to go with LINE SEPARATOR (LSEP) and PARAGRAPH SEPARATOR (PSEP).
  11174.  
  11175. This isn't going to happen. Column alignment in tables is clearly a
  11176. higher-level document formatting issue -- not a problem to be solved
  11177. by attributing complex layout attributes to yet another format control
  11178. character in the character encoding standard.
  11179.  
  11180. >    So the general form of a table would be
  11181. >       PSEP ... CSEP ... CSEP ... LSEP
  11182. >       ...      CSEP ... LSEP
  11183. >       ...      CSEP ... CSEP ...
  11184. >       PSEP
  11185. >
  11186.  
  11187. No, a table is an object defined at a higher level.
  11188.  
  11189. >  | Whatever is chosen, let's keep it simple.
  11190.  
  11191. Frank got that one right. We already got TAB's, ineluctably. So define
  11192. some interoperable behavior on them, as is already done for the kind
  11193. of preformatted plain text Frank is talking about. Otherwise, use
  11194. spaces. Any other attempts to push more complex formatting down to the
  11195. bare minimum preformatted plain text format is bound to fail, IMO.
  11196.  
  11197. --Ken
  11198.  
  11199.  
  11200.  7-Jul-99  0:15:33-GMT,3405;000000000001
  11201. Return-Path: <unicode@unicode.org>
  11202. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  11203.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id UAA16352
  11204.     for <fdc@watsun.cc.columbia.edu>; Tue, 6 Jul 1999 20:15:32 -0400 (EDT)
  11205. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  11206.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id RAA260764
  11207.     ; Tue, 6 Jul 1999 17:11:34 -0700
  11208. Received: by unicode.org (NX5.67g/NX3.0S)
  11209.     id AA26592; Tue, 6 Jul 99 16:58:21 -0700
  11210. Message-Id: <9907062358.AA26592@unicode.org>
  11211. Errors-To: uni-bounce@unicode.org
  11212. X-Uml-Sequence: 8521 (1999-07-06 23:57:08 GMT)
  11213. From: kenw@sybase.com (Kenneth Whistler)
  11214. To: Unicode List <unicode@unicode.org>
  11215. Cc: unicode@unicode.org, kenw@sybase.com
  11216. Date: Tue, 6 Jul 1999 16:57:07 -0700 (PDT)
  11217. Subject: Re: Plain text: Amendment 1
  11218.  
  11219. John Cowan wrote:
  11220.  
  11221. > The semantics of CR and LF in Unicode 2.x *are* the ambiguous
  11222. > ones inherited from the 7-bit controls; there are no other semantics.
  11223. > But this has been changed in Unicode 3.0: see UTR #13
  11224. > (http://www.unicode.org/unicode/reports/tr13/), which will be a
  11225. > normative part of Unicode 3.0.
  11226.  
  11227. This is not the case. UTR #13 *is* to be considered part of the Unicode
  11228. Standard, Version 3.0:
  11229.  
  11230. http://www.unicode.org/unicode/standard/versions/Unicode3.0-beta.html
  11231.  
  11232. However, UTR #13 constitutes "Unicode Newline *Guidelines*" [emphasis
  11233. added]. There is no conformance specification and there are no
  11234. normative implications. The scope constitutes: "a set of
  11235. recommendations for handling these characters so as to minimize the
  11236. effects on users." Think of UTR #13 as a late addition to Chapter 5,
  11237. Implementation Guidelines, that did not make it into the actual printed
  11238. text of The Unicode Standard, Version 3.0, forthcoming.
  11239.  
  11240. >  Note well that UTR #13 does not
  11241. > solely prescribe the semantics of CR and LF during conversion to and
  11242. > from Unicode, but also the semantics of CR and LF *in* Unicode.
  11243.  
  11244. It makes suggestions. It does not normatively prescribe.
  11245.  
  11246. > As for HT and FF, nobody uses them incompatibly, and
  11247. > introducing new characters for them is supererogation at best.
  11248.  
  11249. I would agree with this.
  11250.  
  11251.  
  11252. > Mark Davis wrote:
  11253. >  
  11254. > > A lot of the discussion of line termination relates to technical report #13.
  11255. > > Any suggestions for additional information for that report would be welcome.
  11256. > My suggestions:
  11257. > 1) The NEL character in the C1 set (0x85) is the ISO equivalent of
  11258. > EBCDIC NL (0x15) and this mapping is duly given in the EBCDIC code page
  11259. > mappings on the Unicode FTP site.  The text should therefore advise
  11260. > applications to treat U+0085 (NL/NEL) as a newline, not U+0015 (NAK).
  11261.  
  11262. This was a typo/oversight in the text of UTR #13 and will be corrected.
  11263.  
  11264. > 2) There should be a warning that some old documents use bare
  11265. > CR (0x0D) to do underlining or other overstriking; an application
  11266. > that converts such text should do a more complex conversion, though
  11267. > treating bare CR as a NLF is marginally acceptable even for these
  11268. > documents (which may then wind up containing occasional lines
  11269. > with only spaces and underscores).
  11270.  
  11271. This is a good suggestion to add to the text of UTR #13.
  11272.  
  11273. --Ken
  11274.  
  11275. >  
  11276. > -- 
  11277. > John Cowan    http://www.ccil.org/~cowan        cowan@ccil.org
  11278. >    Schlingt dreifach einen Kreis um dies! / Schliesst euer Aug vor heiliger Schau,
  11279. >    Denn er genoss vom Honig-Tau / Und trank die Milch vom Paradies.
  11280. >             -- Coleridge / Politzer
  11281.  
  11282.  7-Jul-99  0:47:40-GMT,3104;000000000001
  11283. Return-Path: <unicode@unicode.org>
  11284. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  11285.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id UAA25012
  11286.     for <fdc@watsun.cc.columbia.edu>; Tue, 6 Jul 1999 20:47:39 -0400 (EDT)
  11287. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  11288.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id RAA252212
  11289.     ; Tue, 6 Jul 1999 17:42:46 -0700
  11290. Received: by unicode.org (NX5.67g/NX3.0S)
  11291.     id AA26896; Tue, 6 Jul 99 17:29:02 -0700
  11292. Message-Id: <9907070029.AA26896@unicode.org>
  11293. Errors-To: uni-bounce@unicode.org
  11294. X-Uml-Sequence: 8523 (1999-07-07 00:26:52 GMT)
  11295. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  11296. To: Unicode List <unicode@unicode.org>
  11297. Cc: unicode@unicode.org
  11298. Date: Tue, 6 Jul 1999 17:26:51 -0700 (PDT)
  11299. Subject: Re: Plain Text
  11300.  
  11301. > > So at minimum, a text file should be tagged according to character set.
  11302. > Whoa! Wait a minute. How do we get from here to there?
  11303. > If it's tagged, it's not a *plain* text file, but something else.
  11304. Sorry, I meant externally tagged, e.g. in the directory entry, along
  11305. with the size, date, etc.  (The lack of this kind of external tagging
  11306. is a pet peeve of long duration, but is not exactly relevant to this
  11307. discussion.)
  11308.  
  11309. > The way ahead out of the character set identity morass for "text files"
  11310. > is to use the Universal Character Set -- that way, once again, we
  11311. > will know how to interpret plain text files.
  11312. >
  11313. Agreed!  Well...  At least if we are successful, and some new consortium
  11314. doesn't come along xx years from now and declare Unicode to be "legacy"
  11315. and its own new-and-improved universal encoding to be the only one to
  11316. use from now on.  At which point, we might need to differentiate
  11317. "legacy" Unicode data from the new code, just as we now need to
  11318. distinguish Unicode from Macintosh Quickdraw, Latin-1, etc.  (Saying
  11319. there will be only one character set in the future is like saying a
  11320. network address can be 8 bits because there will never be more than 256
  11321. computers on a network :-)
  11322.  
  11323. > The rest of this discussion is about something else other than what
  11324. > the Unicode Standard means by "plain text", and has, as far as I can
  11325. > tell, more to do with devising a kind of a lowest common denominator
  11326. > document format standard for interoperability. While people on this list
  11327. > may find that interesting to discuss, it is rather orthogonal to the
  11328. > intended scope of the Unicode Standard.
  11329. If it is, it shouldn't be.  If we rely on some other organization to
  11330. worry about this (which one has the authority?) and Unicode outlives
  11331. the standards and products of that organization, then we're back to "all
  11332. bets are off".
  11333.  
  11334. On the other hand, if we can back up the statement that Unicode is a
  11335. plain-text standard with a definition of plain text that incorporates
  11336. "lowest common denominator document format standard for interoperability"
  11337. I think we will have added significant value and endurance to Unicode.
  11338.  
  11339. The discussion seems to be trailing off -- I suppose I'll wait a few
  11340. days to see what else comes up and then attempt to write something up
  11341. (with full consideration of TR13).
  11342.  
  11343. - Frank
  11344.  
  11345.  7-Jul-99  2:44:42-GMT,1655;000000000001
  11346. Return-Path: <unicode@unicode.org>
  11347. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  11348.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id WAA07895
  11349.     for <fdc@watsun.cc.columbia.edu>; Tue, 6 Jul 1999 22:44:41 -0400 (EDT)
  11350. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  11351.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id TAA191402
  11352.     ; Tue, 6 Jul 1999 19:37:18 -0700
  11353. Received: by unicode.org (NX5.67g/NX3.0S)
  11354.     id AA27639; Tue, 6 Jul 99 19:27:23 -0700
  11355. Message-Id: <9907070227.AA27639@unicode.org>
  11356. Errors-To: uni-bounce@unicode.org
  11357. Mime-Version: 1.0
  11358. Content-Type: text/plain; charset=US-ASCII
  11359. Content-Transfer-Encoding: 7bit
  11360. X-Uml-Sequence: 8525 (1999-07-07 02:26:09 GMT)
  11361. From: John Cowan <cowan@locke.ccil.org>
  11362. To: Unicode List <unicode@unicode.org>
  11363. Date: Tue, 6 Jul 1999 19:26:07 -0700 (PDT)
  11364. Subject: Re: Plain text: Amendment 1
  11365. Content-Transfer-Encoding: 7bit
  11366.  
  11367. Kenneth Whistler scripsit:
  11368.  
  11369. > However, UTR #13 constitutes "Unicode Newline *Guidelines*" [emphasis
  11370. > added]. There is no conformance specification and there are no
  11371. > normative implications. The scope constitutes: "a set of
  11372. > recommendations for handling these characters so as to minimize the
  11373. > effects on users." Think of UTR #13 as a late addition to Chapter 5,
  11374. > Implementation Guidelines, that did not make it into the actual printed
  11375. > text of The Unicode Standard, Version 3.0, forthcoming.
  11376.  
  11377. Ah, I missed that point.  But my point was that whereas Unicode 2.0
  11378. had nothing to say about CR and LF and N(E)L, Unicode 3.0 does.
  11379.  
  11380. -- 
  11381. John Cowan                                   cowan@ccil.org
  11382.        I am a member of a civilization. --David Brin
  11383.  
  11384.  7-Jul-99  2:45:21-GMT,1919;000000000001
  11385. Return-Path: <unicode@unicode.org>
  11386. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  11387.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id WAA08109
  11388.     for <fdc@watsun.cc.columbia.edu>; Tue, 6 Jul 1999 22:45:20 -0400 (EDT)
  11389. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  11390.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id TAA243160
  11391.     ; Tue, 6 Jul 1999 19:37:31 -0700
  11392. Received: by unicode.org (NX5.67g/NX3.0S)
  11393.     id AA27576; Tue, 6 Jul 99 19:23:24 -0700
  11394. Message-Id: <9907070223.AA27576@unicode.org>
  11395. Errors-To: uni-bounce@unicode.org
  11396. Mime-Version: 1.0
  11397. Content-Type: text/plain; charset=US-ASCII
  11398. Content-Transfer-Encoding: 7bit
  11399. X-Uml-Sequence: 8524 (1999-07-07 02:22:09 GMT)
  11400. From: John Cowan <cowan@locke.ccil.org>
  11401. To: Unicode List <unicode@unicode.org>
  11402. Date: Tue, 6 Jul 1999 19:22:07 -0700 (PDT)
  11403. Subject: Re: Plain Text
  11404. Content-Transfer-Encoding: 7bit
  11405.  
  11406. Kenneth Whistler scripsit:
  11407. > > So at minimum, a text file should be tagged according to character set.
  11408. > Whoa! Wait a minute. How do we get from here to there?
  11409. > If it's tagged, it's not a *plain* text file, but something else.
  11410.  
  11411. I believe the reference was to file metadata like the application
  11412. tag on the Mac, rather than to anything in-band.
  11413.  
  11414. > The rest of this discussion is about something else other than what
  11415. > the Unicode Standard means by "plain text", and has, as far as I can
  11416. > tell, more to do with devising a kind of a lowest common denominator
  11417. > document format standard for interoperability. While people on this list
  11418. > may find that interesting to discuss, it is rather orthogonal to the
  11419. > intended scope of the Unicode Standard.
  11420.  
  11421. Just so.  Historically, such document have been called "plain text"
  11422. documents.  What Unicode means by "plain text" is simply a
  11423. stream of characters.
  11424.  
  11425. -- 
  11426. John Cowan                                   cowan@ccil.org
  11427.        I am a member of a civilization. --David Brin
  11428.  
  11429.  7-Jul-99 15:43:51-GMT,4432;000000000001
  11430. Return-Path: <unicode@unicode.org>
  11431. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  11432.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id LAA20987
  11433.     for <fdc@watsun.cc.columbia.edu>; Wed, 7 Jul 1999 11:43:51 -0400 (EDT)
  11434. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  11435.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id IAA245160
  11436.     ; Wed, 7 Jul 1999 08:35:39 -0700
  11437. Received: by unicode.org (NX5.67g/NX3.0S)
  11438.     id AA01732; Wed, 7 Jul 99 08:11:57 -0700
  11439. Message-Id: <9907071511.AA01732@unicode.org>
  11440. Errors-To: uni-bounce@unicode.org
  11441. Mime-Version: 1.0
  11442. Content-Type: text/plain; charset=us-ascii
  11443. Content-Transfer-Encoding: 7bit
  11444. X-Uml-Sequence: 8535 (1999-07-07 15:10:18 GMT)
  11445. From: Mark Davis <mark@macchiato.com>
  11446. To: Unicode List <unicode@unicode.org>
  11447. Cc: Unicode List <unicode@unicode.org>
  11448. Date: Wed, 7 Jul 1999 08:10:16 -0700 (PDT)
  11449. Subject: Re: Plain text: Tab stops
  11450. Content-Transfer-Encoding: 7bit
  11451.  
  11452. HT has even more ambiguous semantics than you indicate. We did a survey a
  11453. few years ago of word processors and desktop publishing programs, and
  11454. found a wide range of different behaviors. Suppose you have a set of tab
  11455. stops, e.g. at 12pt, 36pt, 72pt, etc. You also have a string of text
  11456. containing tabs. The tabs in the text divide up the text into a list of
  11457. tab fields (the text between tabs). There are four problematic
  11458. situations.
  11459.  
  11460. 1. A tab field would touch or overlap a previous tab field if placed at
  11461. the tab stop.* Possible behaviors we observed here were:
  11462. - go to the next tab stop
  11463. - go to the next line, at that tab stop.
  11464. - go to the next line, at the start
  11465. - ignore the tab, treat it as a space, and merge with the next tab field.
  11466.  
  11467. 2. There are more tab fields than tab stops. Possible behaviors we
  11468. observed here were:
  11469. - go to the next line, at that tab stop.
  11470. - go to the next line, at the start
  11471. - ignore the tab, treat it as a space, and merge with the next tab field.
  11472.  
  11473. - manufacture implicit tab stops past the end, e.g. at every 36 points,
  11474. or at every 8 em.
  11475.  
  11476. 3. A tab field would exceed the paragraph margin. Possible behaviors we
  11477. observed here were:
  11478. - go to the next line, at the start
  11479. - go to the next line, at the first tab stop.
  11480.  
  11481. 4. Tabs are used in non-left flush lines (e.g. with centered or
  11482. right-flush lines). Possible behaviors we observed here were:
  11483. - ignore the flush setting on the line.
  11484. - apply the flush to just the first tab field.
  11485. - apply the flush to just the last tab field.
  11486. - lay out the tab fields as if the text were left-flush, then shift the
  11487. entire line to center or right-flush it. (This comes up with pretty
  11488. random looking tabulation.)
  11489.  
  11490. Some DTP programs, despite our best efforts to figure out the rules they
  11491. were using, appeared to be pretty random in their behavior. This is
  11492. especially the case with #4.
  11493.  
  11494. * Overlap (#1) does not only mean that the tab field is too big for the
  11495. tab stop; it also happens with mixtures of left, right and center tabs.
  11496. Look at the following example, where '[' means left tab stop, and '|'
  11497. means centered tab stop, and '~' means tab (and use monospaced font to
  11498. see properly):
  11499. [             |
  11500. aaaaaaaaaaaa~bbbbbbb
  11501. The bbbbbbb text can't be placed at the centered tab stop properly
  11502. without overlapping the aaaaaaaaaaaa. Overlap can also happen when the
  11503. second tab field is centered or right flush and is so large that it
  11504. overlaps with the left margin.
  11505.  
  11506. Mark
  11507.  
  11508. Tony Harminc wrote:
  11509.  
  11510. > On 6 Jul 99, at 10:25, John Cowan wrote:
  11511. >
  11512. > > As for HT and FF, nobody uses them incompatibly, and
  11513. > > introducing new characters for them is supererogation at best.
  11514. >
  11515. > Actually the question of HT and FF is the most bothersome one, for
  11516. > me.  There are (at least) two problems:
  11517. >
  11518. > HT and FF both depend in some sense on the user's environment, e.g.
  11519. > page length (paper size if the "rendering engine" is a printer or
  11520. > hardcopy terminal), and tab stop settings.
  11521. >
  11522. > HT has ambiguous semantics when the HT occurs when the cursor is
  11523. > already at a tab stop.  If the cursor got to a tab stop because of an
  11524. > HT, then there is no argument - another HT moves to the next tab
  11525. > stop.  But if the cursor got there because of ordinary, implicit
  11526. > movement, then some systems ignore an HT (i.e. stay in the same
  11527. > place), while others move on to the next stop.  Granted, this is
  11528. > mainly a problem of input methods rather than data storage or
  11529. > interchange, but I don't think it's quite fair to say that no one
  11530. > uses HT incompatibly.
  11531. >
  11532. > Tony H.
  11533.  
  11534.  8-Jul-99  0:15:59-GMT,2754;000000000001
  11535. Return-Path: <unicode@unicode.org>
  11536. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  11537.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id UAA00495
  11538.     for <fdc@watsun.cc.columbia.edu>; Wed, 7 Jul 1999 20:15:58 -0400 (EDT)
  11539. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  11540.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id RAA270376
  11541.     ; Wed, 7 Jul 1999 17:08:32 -0700
  11542. Received: by unicode.org (NX5.67g/NX3.0S)
  11543.     id AA09145; Wed, 7 Jul 99 16:52:09 -0700
  11544. Message-Id: <9907072352.AA09145@unicode.org>
  11545. Errors-To: uni-bounce@unicode.org
  11546. Mime-Version: 1.0
  11547. Content-Type: text/plain; charset=US-ASCII
  11548. Content-Transfer-Encoding: 7BIT
  11549. X-Uml-Sequence: 8554 (1999-07-07 23:51:58 GMT)
  11550. From: "Jonathan Coxhead" <jonathan@doves.demon.co.uk>
  11551. To: Unicode List <unicode@unicode.org>
  11552. Date: Wed, 7 Jul 1999 16:51:57 -0700 (PDT)
  11553. Subject: Re: Plain text: Amendment 1
  11554. Content-Transfer-Encoding: 7BIT
  11555.  
  11556.  | > So we could have a character
  11557.  | > 
  11558.  | >       COLUMN SEPARATOR
  11559.  | > 
  11560.  | > (CSEP) to go with LINE SEPARATOR (LSEP) and PARAGRAPH SEPARATOR (PSEP).
  11561.  | 
  11562.  | This isn't going to happen. Column alignment in tables is clearly a
  11563.  | higher-level document formatting issue -- not a problem to be solved
  11564.  | by attributing complex layout attributes to yet another format
  11565.  | control character in the character encoding standard.
  11566.  
  11567.    Couldn't the same once have been said of "advance to next line"? 
  11568. Originally derived from 2 hardware control commands, but now made 
  11569. abstract as LSEP? 
  11570.  
  11571.    There various ways to express the semantic "advance to next column" 
  11572. in plain text, chiefly:
  11573.  
  11574.          ---insert enough spaces to make the lines line up;
  11575.  
  11576.          ---insert an HT character;
  11577.  
  11578.          ---insert a number of HT characters.
  11579.  
  11580.    The descriptions for LSEP and PSEP say "may be used to express this 
  11581. semantic unambiguously". Confronted by a requirement that the concept 
  11582. of vertically-aligned columns might be an important part of plain text, 
  11583. the consistent option seems to be a character whose only purpose is to 
  11584. separate columns. This has 2 almost-immediate corollaries: (1) LSEP 
  11585. should separate rows; (2) the scope of the columns should be limited in 
  11586. some way, with PSEP being the obvious choice.
  11587.  
  11588.    As I noted, it has exactly the same minimum implementation 
  11589. requirements as HT, but it also gives the renderer the *option* of 
  11590. doing nicer alignment, if it wants. So it needn't be complex.
  11591.  
  11592.    It is certainly possible that the foundation on which this rests 
  11593. ("the concept of vertically-aligned columns is an important part of 
  11594. plain text") is just not true---in which case trying to nail down the 
  11595. semantics of HT seems like a logically impossible task, as it shares 
  11596. that foundation.
  11597.  
  11598.         /|
  11599.  o o o (_|/
  11600.         /|
  11601.        (_/
  11602.  
  11603.  8-Jul-99  1:18:01-GMT,1533;000000000001
  11604. Return-Path: <unicode@unicode.org>
  11605. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  11606.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id VAA06626
  11607.     for <fdc@watsun.cc.columbia.edu>; Wed, 7 Jul 1999 21:18:01 -0400 (EDT)
  11608. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  11609.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id SAA323710
  11610.     ; Wed, 7 Jul 1999 18:11:20 -0700
  11611. Received: by unicode.org (NX5.67g/NX3.0S)
  11612.     id AA10198; Wed, 7 Jul 99 18:00:38 -0700
  11613. Message-Id: <9907080100.AA10198@unicode.org>
  11614. Errors-To: uni-bounce@unicode.org
  11615. Mime-Version: 1.0
  11616. Content-Type: text/plain;
  11617.     charset="iso-8859-1"
  11618. X-Uml-Sequence: 8557 (1999-07-08 00:58:57 GMT)
  11619. From: "Christopher J.  Fynn" <cfynn@dircon.co.uk>
  11620. To: Unicode List <unicode@unicode.org>
  11621. Date: Wed, 7 Jul 1999 17:58:56 -0700 (PDT)
  11622. Subject: RE: Plain text: Amendment 1
  11623. Content-Transfer-Encoding: 8bit
  11624. X-MIME-Autoconverted: from quoted-printable to 8bit by watsun.cc.columbia.edu id VAA06626
  11625.  
  11626.  
  11627.  
  11628. > From: Jonathan Coxhead wrote:
  11629.  
  11630. >    There various ways to express the semantic "advance to next column" 
  11631. > in plain text, chiefly:
  11632. >          ---insert enough spaces to make the lines line up;
  11633.  
  11634. Doesn't this assume fixed, or at least known width, glyphs? 
  11635. And do you take into account non spacing glyphs?
  11636.  
  11637. What about scripts that can be written vertically or horizontally?
  11638.  
  11639. Scripts where the glyph form representing a character(and thus its width)
  11640. is dependant on context? 
  11641.  
  11642. Making columns line up by inserting spaces is not a good idea.
  11643.  
  11644. - Chris
  11645.  
  11646.  8-Jul-99  6:11:55-GMT,1954;000000000001
  11647. Return-Path: <unicode@unicode.org>
  11648. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  11649.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id CAA06425
  11650.     for <fdc@watsun.cc.columbia.edu>; Thu, 8 Jul 1999 02:11:54 -0400 (EDT)
  11651. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  11652.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id XAA188368
  11653.     ; Wed, 7 Jul 1999 23:02:44 -0700
  11654. Received: by unicode.org (NX5.67g/NX3.0S)
  11655.     id AA12174; Wed, 7 Jul 99 22:52:19 -0700
  11656. Message-Id: <9907080552.AA12174@unicode.org>
  11657. Errors-To: uni-bounce@unicode.org
  11658. Mime-Version: 1.0
  11659. Content-Type: text/plain; charset="us-ascii"
  11660. X-Uml-Sequence: 8562 (1999-07-08 05:52:07 GMT)
  11661. From: Edward Cherlin <edward.cherlin.sy.67@aya.yale.edu>
  11662. To: Unicode List <unicode@unicode.org>
  11663. Date: Wed, 7 Jul 1999 22:52:06 -0700 (PDT)
  11664. Subject: Re: Plain Text
  11665.  
  11666. At 09:50 -0700 7/5/1999, Frank da Cruz wrote:
  11667. >[Ed wrote...]
  11668. [snip]
  11669. >> How do we deal with delimited database transfer files with a fixed
  11670. >> limit on line length?
  11671. >>
  11672. >I don't see how these files would be affected.  You can put line separators
  11673. >in them if you want, or leave them out.
  11674.  
  11675. So the line length limit is an option?
  11676.  
  11677. [snip]
  11678. >> To summarize your answer to my objections, we are defining a new format
  11679. >> independent of previous conventions, in which we can specify usage of the
  11680. >> minimal set of formatting characters regardless of usage in text files of
  11681. >> 7-bit ASCII and 8-bit character sets of any kind, while allowing for a few
  11682. >> variant flavors of text, such as preformatted, reflowable, and
  11683. >> database.
  11684. >>
  11685. >Yes.
  11686. >
  11687. >> To which I add, that we can specify a portable implementation,
  11688. >> too, and not have to wait for computer and OS vendors to get on board.
  11689. >>
  11690. >Double yes.
  11691. >
  11692. >- Frank
  11693.  
  11694.  
  11695. --
  11696. Edward Cherlin   edward.cherlin.sy.67@aya.yale.edu
  11697. "It isn't what you don't know that hurts you, it's
  11698. what you know that ain't so."--Mark Twain, or else
  11699. some other prominent 19th century humorist and wit
  11700.  
  11701. 11-Jul-99  8:24:16-GMT,1472;000000000001
  11702. Return-Path: <unicode@unicode.org>
  11703. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  11704.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id EAA09130
  11705.     for <fdc@watsun.cc.columbia.edu>; Sun, 11 Jul 1999 04:24:15 -0400 (EDT)
  11706. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  11707.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id BAA258092
  11708.     ; Sun, 11 Jul 1999 01:20:39 -0700
  11709. Received: by unicode.org (NX5.67g/NX3.0S)
  11710.     id AA27285; Sun, 11 Jul 99 01:11:55 -0700
  11711. Message-Id: <9907110811.AA27285@unicode.org>
  11712. Errors-To: uni-bounce@unicode.org
  11713. Mime-Version: 1.0
  11714. Content-Type: text/plain; charset="us-ascii"
  11715. X-Uml-Sequence: 8594 (1999-07-11 08:11:44 GMT)
  11716. From: Edward Cherlin <edward.cherlin.sy.67@aya.yale.edu>
  11717. To: Unicode List <unicode@unicode.org>
  11718. Date: Sun, 11 Jul 1999 01:11:42 -0700 (PDT)
  11719. Subject: MIME text/plain (was Re: Plain Text)
  11720.  
  11721. At 07:23 -0700 7/6/1999, John Cowan wrote:
  11722. [snip]
  11723. >The corresponding MIME type is "text/plain; charset=utf-8" or
  11724. >"... utf-16".
  11725. >
  11726. >Anything else should have a different MIME type or at least
  11727. >different parameters.
  11728. [snip]
  11729.  
  11730. How is "text/plain" defined? What does it specify about line lengths, word
  11731. wrap, fixed vs. proportional fonts, line end characters, and line and
  11732. paragraph separators?
  11733.  
  11734. --
  11735. Edward Cherlin   edward.cherlin.sy.67@aya.yale.edu
  11736. "It isn't what you don't know that hurts you, it's
  11737. what you know that ain't so."--Mark Twain, or else
  11738. some other prominent 19th century humorist and wit
  11739.  
  11740. 11-Jul-99 16:23:46-GMT,1815;000000000001
  11741. Return-Path: <unicode@unicode.org>
  11742. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  11743.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id MAA10650
  11744.     for <fdc@watsun.cc.columbia.edu>; Sun, 11 Jul 1999 12:23:45 -0400 (EDT)
  11745. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  11746.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id JAA244866
  11747.     ; Sun, 11 Jul 1999 09:20:02 -0700
  11748. Received: by unicode.org (NX5.67g/NX3.0S)
  11749.     id AA27873; Sun, 11 Jul 99 09:07:23 -0700
  11750. Message-Id: <9907111607.AA27873@unicode.org>
  11751. Errors-To: uni-bounce@unicode.org
  11752. Mime-Version: 1.0
  11753. Content-Type: TEXT/PLAIN; charset=US-ASCII
  11754. X-Uml-Sequence: 8595 (1999-07-11 16:07:07 GMT)
  11755. From: Jungshik Shin <jshin@pantheon.yale.edu>
  11756. To: Unicode List <unicode@unicode.org>
  11757. Date: Sun, 11 Jul 1999 09:07:06 -0700 (PDT)
  11758. Subject: Re: MIME text/plain (was Re: Plain Text)
  11759.  
  11760. > At 07:23 -0700 7/6/1999, John Cowan wrote:
  11761. > [snip]
  11762. > >The corresponding MIME type is "text/plain; charset=utf-8" or
  11763. > >"... utf-16".
  11764. > >
  11765. > >Anything else should have a different MIME type or at least
  11766. > >different parameters.
  11767.  
  11768.   Can I propose that everyone on this mailing list stop sending messages
  11769. in "pre-Unicode" encodings(like ISO-8859-1) and begin sending her/his
  11770. messages with non-US-ASCII characters in UTF-8(well, US-ASCII only
  11771. message also qualifies for UTF-8 as everybody knows)? Isn't it funny
  11772. that people on the Unicode mailing list send messages in "legacy"
  11773. encodings like ISO-8859-1(by far the most frequently used encoding in
  11774. the list which is not UTF-8 other than US-ASCII which can be labelled as
  11775. UTF-8)? I know this will for sure lead to some inconveniences for some
  11776. people(perhaps quite many of us), but aren't we suppose to be an exampla
  11777. case in promoting as rapid and wide adoption of Unicode as possible?
  11778.  
  11779.     Jungshik Shin
  11780.  
  11781. 12-Jul-99 14:22:13-GMT,2758;000000000001
  11782. Return-Path: <unicode@unicode.org>
  11783. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  11784.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id KAA03664
  11785.     for <fdc@watsun.cc.columbia.edu>; Mon, 12 Jul 1999 10:22:12 -0400 (EDT)
  11786. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  11787.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id HAA89920
  11788.     ; Mon, 12 Jul 1999 07:12:18 -0700
  11789. Received: by unicode.org (NX5.67g/NX3.0S)
  11790.     id AA01632; Mon, 12 Jul 99 06:58:06 -0700
  11791. Message-Id: <9907121358.AA01632@unicode.org>
  11792. Errors-To: uni-bounce@unicode.org
  11793. Mime-Version: 1.0
  11794. Content-Type: text/plain; charset=us-ascii
  11795. Content-Transfer-Encoding: 7bit
  11796. X-Uml-Sequence: 8606 (1999-07-12 13:57:55 GMT)
  11797. From: John Cowan <cowan@locke.ccil.org>
  11798. To: Unicode List <unicode@unicode.org>
  11799. Date: Mon, 12 Jul 1999 06:57:53 -0700 (PDT)
  11800. Subject: Re: MIME text/plain (was Re: Plain Text)
  11801. Content-Transfer-Encoding: 7bit
  11802.  
  11803. Edward Cherlin wrote:
  11804.  
  11805. > How is "text/plain" defined? What does it specify about line lengths, word
  11806. > wrap, fixed vs. proportional fonts, line end characters, and line and
  11807. > paragraph separators?
  11808.  
  11809. RFC 2046, section 4.1 ff., is authoritative:
  11810.  
  11811. # Plain text does not provide for or allow
  11812. # formatting commands, font attribute specifications, processing
  11813. # instructions, interpretation directives, or content markup.  Plain
  11814. # text is seen simply as a linear sequence of characters, possibly
  11815. # interrupted by line breaks or page breaks.  Plain text may allow the
  11816. # stacking of several characters in the same position in the text.
  11817. # Plain text in scripts like Arabic and Hebrew may also include
  11818. # facilities that allow the arbitrary mixing of text segments with
  11819. # opposite writing directions.
  11820. #
  11821. # [...]
  11822. # The canonical form of any MIME "text" subtype MUST always represent a
  11823. # line break as a CRLF sequence.  Similarly, any occurrence of CRLF in
  11824. # MIME "text" MUST represent a line break.  Use of CR and LF outside of
  11825. # line break sequences is also forbidden.
  11826. #
  11827. # This rule applies regardless of format or character set or sets
  11828. # involved.
  11829. #
  11830. # NOTE: The proper interpretation of line breaks when a body is
  11831. # displayed depends on the media type. In particular, [...] it is
  11832. # appropriate to treat a line break as a transition to a new line when
  11833. # displaying a "text/plain" body [...]. It should not be
  11834. #  necessary to add any line breaks to display "text/plain" correctly
  11835. # [...].
  11836.  
  11837. There is no talk of fonts or paragraphs, and the "NOTE:" paragraph
  11838. suggests that word (or non-word) wrapping is inappropriate.
  11839.  
  11840. -- 
  11841.     John Cowan    http://www.ccil.org/~cowan    cowan@ccil.org
  11842. Schlingt dreifach einen Kreis um dies! / Schliesst euer Aug vor heiliger Schau,
  11843. Denn er genoss vom Honig-Tau / Und trank die Milch vom Paradies.
  11844.             -- Coleridge / Politzer
  11845.  
  11846. 15-Jul-99 13:52:50-GMT,7678;000000000001
  11847. Return-Path: <unicode@unicode.org>
  11848. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  11849.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id JAA13840
  11850.     for <fdc@watsun.cc.columbia.edu>; Thu, 15 Jul 1999 09:52:50 -0400 (EDT)
  11851. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  11852.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id GAA256534
  11853.     ; Thu, 15 Jul 1999 06:44:14 -0700
  11854. Received: by unicode.org (NX5.67g/NX3.0S)
  11855.     id AA22770; Thu, 15 Jul 99 06:36:01 -0700
  11856. Message-Id: <9907151336.AA22770@unicode.org>
  11857. Errors-To: uni-bounce@unicode.org
  11858. Mime-Version: 1.0
  11859. Content-Type: text/plain;
  11860.     charset="iso-8859-1"
  11861. X-Uml-Sequence: 8664 (1999-07-15 13:35:32 GMT)
  11862. From: "Reynolds, Gregg" <greynolds@datalogics.com>
  11863. To: Unicode List <unicode@unicode.org>
  11864. Cc: unicode@unicode.org
  11865. Date: Thu, 15 Jul 1999 06:35:31 -0700 (PDT)
  11866. Subject: RE: Arabic - Alef Maqsurah
  11867.  
  11868. Dear Ken,
  11869.  
  11870. Thanks very much for your thoughtful reply.  A few points before I head back
  11871. into the salt mines:
  11872.  
  11873.  
  11874.  
  11875. > -----Original Message-----
  11876. > From: kenw@sybase.com [mailto:kenw@sybase.com]
  11877. > Sent: Wednesday, July 14, 1999 8:07 PM
  11878. > To: greynolds@datalogics.com
  11879. > Cc: unicode@unicode.org; kenw@sybase.com
  11880. > Subject: RE: Arabic - Alef Maqsurah
  11881. > > this discussion.  My personal project is to model the 
  11882. > working of Arabic
  11883. > > texts, so my loyalties are to the language, not to legacy software.
  11884. > Here, "legacy" software includes, of course, Office 2000, 
  11885. > which is only
  11886. > just now becoming available, with Unicode-based Arabic as part of the
  11887. > package. That's pretty new to already be scorned as "legacy software."
  11888.  
  11889. It's not that I scorn legacy software; that would be like scorning gravity
  11890. (or God, where a certain software maker is concerned).  I just think the
  11891. natual language, and not legacy software ("encoding designs" would be a
  11892. better term here) should be the yardstick.
  11893.  
  11894. > > misundertand it.  Much of the confusion (IMHO) is due 
  11895. > simply to loose
  11896. > > terminology.
  11897. > We keep working on the terminology, and have tightened up a lot in
  11898. > the new version 3.0 (forthcoming). --Although, unfortunately, 
  11899. > this area
  11900. > of input methods is not scheduled for any new additions or
  11901. > clarifications at the moment.
  11902. > But in my opinion, most of the confusion about such issues and the
  11903. > Unicode Standard are not really the result of loose terminology, but
  11904.  
  11905. Yes; I should have said "unfinished" or the like instead of loose; I don't
  11906. mean to imply the editors are slackers.
  11907.  
  11908. > > 
  11909. > > I think it probably does turn up for many languages - 
  11910. > remember my concern is
  11911. > > with encoding texts in the language, not the script.  It's 
  11912. > not a question of
  11913. > > essentialism (whatever that is) but peculiarlism.  (In two 
  11914. > words: clitics
  11915. > > and non-concatenative morphology.)
  11916. > Ah, so it *is* an issue of Arabic essentialism. The 
  11917. > morphological (or whatever--
  11918. > fill in your list of attributes here) essence of Arabic is 
  11919. > different from
  11920. > that of other languages; therefore it must be treated in an 
  11921. > essentially
  11922. > different way in encoding (or whatever--fill in your list here) to be
  11923. > handled correctly.
  11924.  
  11925. One request: please let's not resort to such labels.  "Ism-ism" in my
  11926. opinion almost always obscures more than it enlightens.  As to the specifics
  11927. of your comment, I am emphatically not making the case that Arabic has some
  11928. sort of mystical essence that deserves some kind of special treatment.  On
  11929. the contrary my point is precisely that it and many other languages that do
  11930. not share the linguistic features that make e.g. English amenable to digital
  11931. representations already receive a kind of special treatment, in that they
  11932. must be encoded using a strategy designed for one class of languages.  I
  11933. think this situation could be remedied to a certain extent without breaking
  11934. unicode.
  11935.  
  11936. > Here you are talking about the lemmatizing problem for search 
  11937. > algorithms.
  11938. > This is, indeed, very sensitive to the morphology and morphosyntactic
  11939. > structures of particular languages. Implementers of 
  11940. > multilingual search
  11941. > engines are well aware of this problem and must tailor their 
  11942. > algorithms
  11943. > to deal with the particular morphologies they encounter. 
  11944.  
  11945. But this begs the question.  They don't encounter particular morphologies;
  11946. they encounter particular encodings.  Encodings, natural and artificial,
  11947. always reflect some theory of language.  Change the encoding and you change
  11948. the problem.
  11949.  
  11950. > Yes and yes. You just cannot build morphological structure 
  11951. > into a practical
  11952. > character encoding -- especially one which has to be 
  11953. > universal, and applicable
  11954. > to representation of text in any language, living or dead, in 
  11955. > any script.
  11956.  
  11957. On the contrary, you cannot *not* build morphological structure into an
  11958. encoding.  Unicode already does: lexemes are built by concatenating text
  11959. atoms.  Works great for English, not so great for e.g. Arabic.  How else can
  11960. one explain the space "character" as a positive element?  Even for Arabic
  11961. Unicode accomodates some level of morphological intelligence: "contextual
  11962. shaping" encodes morphology (prosodic word boundary).  Every "natural"
  11963. encoding of language into visual form does the same to some extent.  It's
  11964. not a question of whether, but of how much.
  11965.  
  11966. > Ah, but here is where your basic approach, as it applies to 
  11967. > the Unicode
  11968. > Standard, breaks down. The Arabic *script* is what is encoded in the
  11969. > standard. The Arabic script is used to represent text in hundreds of
  11970. > non-Semitic languages, from Urdu, to Malay, to Uighur, to 
  11971. > Persian, to Pashto, to 
  11972. > Swahili, as well as the Semitic core languages. Those 
  11973. > languages run the
  11974. > complete gamut of morphological types. You can't just reconstruct the
  11975. > encoding of the Arabic script in Unicode to tailor it to the Arabic
  11976. > *language* morphology, when it can and is used to represent 
  11977. > text in all
  11978. > the other languages, including many Indo-European languages, 
  11979. > for that matter.
  11980.  
  11981. Understood, but my view is that this is where Unicode itself gets a little
  11982. confused.  Does it or does it not encode presentational (visual) form?
  11983. Arabic presentational forms (by which I mean all letterforms used in
  11984. writing) are indeed used in many languages from different families, but do
  11985. these presentational forms share the same character semantics across
  11986. languages?  I sincerely doubt it.  So an encoding that works across
  11987. languages must sharply distinguish between character semantics and
  11988. presentational form.  Which gets us back to grammatical encoding.  BTW, in
  11989. one of your earlier notes you pointed out that handwriting sequence is the
  11990. preferable guide to implementing input methods.  This is the alternative:
  11991. grammatical sequence.
  11992.  
  11993. I'll put together some examples of what I mean this weekend.
  11994.  
  11995. > > The argument I will make (eventually; it's
  11996. > > quitting time just now) is that such structural information 
  11997. > is rightfully
  11998. > > part of the standard encoding; the intelligence should be moved from
  11999. > > specialized logic in software and embedded in the text.
  12000. > Nope.
  12001. > You can always embed it in specialized text devoted to the 
  12002. > Arabic language
  12003. > in particular (either through markup or your own morphologically-based
  12004. > encoding in private use space), but that is not the design point of
  12005. > the Unicode Standard for plain text representation.
  12006.  
  12007. Not to be provocative, but isn't it interesting how "plain text" just seems
  12008. to work for some languages and not for others?
  12009.  
  12010. I don't want you to misconstrue my remarks as a mere whine about the woeful
  12011. state of the world; I've actually got some concrete suggestions that I'll
  12012. post this weekend along with some more background info.  I think they're
  12013. technically feasable, which probably dooms them ;.)
  12014.  
  12015. Thanks again,
  12016.  
  12017. Gregg
  12018.  
  12019. 19-Jul-99  9:40:54-GMT,3602;000000000001
  12020. Return-Path: <unicode@unicode.org>
  12021. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  12022.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id FAA04765
  12023.     for <fdc@watsun.cc.columbia.edu>; Mon, 19 Jul 1999 05:40:53 -0400 (EDT)
  12024. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  12025.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id CAB193762
  12026.     ; Mon, 19 Jul 1999 02:35:23 -0700
  12027. Received: by unicode.org (NX5.67g/NX3.0S)
  12028.     id AA06222; Mon, 19 Jul 99 02:24:15 -0700
  12029. Message-Id: <9907190924.AA06222@unicode.org>
  12030. Errors-To: uni-bounce@unicode.org
  12031. Mime-Version: 1.0
  12032. Content-Type: text/plain; charset=iso-8859-1
  12033. X-Uml-Sequence: 8698 (1999-07-19 09:23:56 GMT)
  12034. From: Markus Kuhn <Markus.Kuhn@cl.cam.ac.uk>
  12035. To: Unicode List <unicode@unicode.org>
  12036. Date: Mon, 19 Jul 1999 02:23:55 -0700 (PDT)
  12037. Subject: Re: Apostrophes, quotation marks, keyboards and typography 
  12038. Content-Transfer-Encoding: 8bit
  12039. X-MIME-Autoconverted: from quoted-printable to 8bit by watsun.cc.columbia.edu id FAA04765
  12040.  
  12041. Jonathan Rosenne wrote on 1999-07-18 22:14 UTC:
  12042. > 1. this is one of the reasons for <Q>text</Q> in HTML. The processor can
  12043. > substitute the correct character.
  12044. > In general, any word processor should allow the user to style the text as a
  12045. > quotation, rather than require him to type typographical characters.
  12046.  
  12047. I personally am not convinced that higher layer protocols should be used
  12048. to handle punctuation. This completely violates by concept of plain
  12049. text, and the existing practice of using higher layer protocols here
  12050. clearly just derives from the limitations of ASCII, an artifact of an
  12051. era that we are hopefully about to leave behind us. Higher layer
  12052. protocols such as SGML are fine for things like font selection and other
  12053. formatting and logical structuring, but quotation marks and other
  12054. punctuation are too much part of the raw text than that I would like to
  12055. see them handled via hacks such as <Q>. Higher layer protocols should in
  12056. my opinion not represent the actual textual content of the text, but
  12057. give only auxiliary structuring and representation hints. Therefore I
  12058. don't like to see markup for quotation marks, just as I don't like the
  12059. idea to have to markup conditional clauses, sentences, and perhaps even
  12060. paragraphs (not sure about the last one though).
  12061.  
  12062. > 2. The situation for Hyphen-Minus is quite similar. 
  12063.  
  12064. Agreed, it is equally confusing and keyboard entry conventions should be
  12065. carefully standardized here as well.
  12066.  
  12067. Mark Davis wrote on 1999-07-18 17:47 UTC:
  12068. > There seems to be some misunderstanding. "The Unicode Standard«, Version
  12069. > 2.1" gives the following text (see
  12070. > http://www.unicode.org/unicode/reports/tr8.html#3.6 Apostrophe Semantics
  12071. > Errata):
  12072. >
  12073. > U+02BC MODIFIER LETTER APOSTROPHE is preferred where the character
  12074. > is to represent a modifier letter (for example, in transliterations
  12075. > to indicate a glottal stop.) In the latter case, it is also referred
  12076. > to as a letter apostrophe.
  12077. >
  12078. > U+2019 RIGHT SINGLE QUOTATION MARK is preferred where the character is to
  12079. > represent a punctuation mark, as in "We've been here before." In the
  12080. > latter case, U+2019 is also referred to as a punctuation apostrophe.
  12081.  
  12082. Excellent! I missed that 2.1 correction, and I am delighted to see that
  12083. this was already fixed nicely. So U+02BC is one thing less to worry
  12084. about and the Microsoft Word practice actually does conform to the
  12085. standard. Thanks for the reply.
  12086.  
  12087. So the rest is really up to the keyboard standards community to fix.
  12088.  
  12089. Markus
  12090.  
  12091. -- 
  12092. Markus G. Kuhn, Computer Laboratory, University of Cambridge, UK
  12093. Email: mkuhn at acm.org,  WWW: <http://www.cl.cam.ac.uk/~mgk25/>
  12094.  
  12095. 20-Jul-99  9:17:47-GMT,3045;000000000001
  12096. Return-Path: <unicode@unicode.org>
  12097. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  12098.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id FAA17686
  12099.     for <fdc@watsun.cc.columbia.edu>; Tue, 20 Jul 1999 05:17:47 -0400 (EDT)
  12100. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  12101.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id CAA284110
  12102.     ; Tue, 20 Jul 1999 02:13:09 -0700
  12103. Received: by unicode.org (NX5.67g/NX3.0S)
  12104.     id AA11429; Tue, 20 Jul 99 01:59:08 -0700
  12105. Message-Id: <9907200859.AA11429@unicode.org>
  12106. Errors-To: uni-bounce@unicode.org
  12107. Mime-Version: 1.0
  12108. Content-Type: text/plain; charset=us-ascii
  12109. X-Uml-Sequence: 8713 (1999-07-20 08:58:55 GMT)
  12110. From: Markus Kuhn <Markus.Kuhn@cl.cam.ac.uk>
  12111. To: Unicode List <unicode@unicode.org>
  12112. Date: Tue, 20 Jul 1999 01:58:53 -0700 (PDT)
  12113. Subject: Re: Unicode in Source Code (Ada95 and Java)
  12114.  
  12115. Murray Sargent wrote on 1999-07-20 01:16 UTC:
  12116. > An example where nonASCII identifiers is really useful is in coding up
  12117. > mathematical formulae that contain Greek letters.  For example, a program is
  12118. > much more readable if you use U+3B1 for alpha rather than spelling out the
  12119. > name alpha.  Similarly U+3C0 for pi.  Hopefully C++ will follow Java's
  12120. > excellent example and allow Unicode alphabetics in variable names.  
  12121.  
  12122. Ada95 is even younger than Java and it is the first ISO standardized
  12123. programming language that was designed after the publication of ISO
  12124. 10646-1. Of course, Ada95 - like Java - also uses UCS as its internal
  12125. character set. However, the Ada95 revision team has explicitly decided
  12126. not to follow the path of Java and they only allowed the Latin-1 letters
  12127. in identifiers. The Ada community is very concerned about safety issues
  12128. and about the readability of source code, because Ada is widely deployed
  12129. today in safety critical environments (most avionics software is written
  12130. in Ada for instance). Unicode contains a quite large number of
  12131. characters that are difficult - if not impossible - to distinguish
  12132. visually. A safety requirement for Ada identifiers is that it must be
  12133. easy for human readers to decide whether two identifiers are different
  12134. or equal. The presence of Unicode characters such as U+00D0, U+0110 and
  12135. U+0189 introduces a lot of potential hazards that are best avoided by
  12136. not allowing a too rich repertoires of characters in object identifiers.
  12137. Note however that the Ada95 standard does allow implementations to offer
  12138. "non-standard" optional modes that do allow additional UCS characters in
  12139. identifiers.
  12140.  
  12141. Have a look at:
  12142.  
  12143.   Ada95 Reference Manual, ISO/IEC 8652:1995(E), Section 2.1: Character Set,
  12144.   http://wuarchive.wustl.edu/languages/ada/userdocs/docadalt/rm95/02.htm
  12145.  
  12146.   http://www.cl.cam.ac.uk/~mgk25/ada.html
  12147.  
  12148. Markus
  12149. (who decided to use Ada95 for his PhD implementation project, because
  12150. the language is at least as nice and modern as Java, but its compilers
  12151. produce far more efficient native machine code.)
  12152.  
  12153. -- 
  12154. Markus G. Kuhn, Computer Laboratory, University of Cambridge, UK
  12155. Email: mkuhn at acm.org,  WWW: <http://www.cl.cam.ac.uk/~mgk25/>
  12156.  
  12157. 23-Jul-99  3:13:02-GMT,4775;000000000001
  12158. Return-Path: <unicode@unicode.org>
  12159. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  12160.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id XAA08993
  12161.     for <fdc@watsun.cc.columbia.edu>; Thu, 22 Jul 1999 23:13:01 -0400 (EDT)
  12162. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  12163.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id UAA199974
  12164.     ; Thu, 22 Jul 1999 20:07:56 -0700
  12165. Received: by unicode.org (NX5.67g/NX3.0S)
  12166.     id AA22187; Thu, 22 Jul 99 19:56:37 -0700
  12167. Message-Id: <9907230256.AA22187@unicode.org>
  12168. Errors-To: uni-bounce@unicode.org
  12169. X-Uml-Sequence: 8854 (1999-07-23 02:56:28 GMT)
  12170. From: Gianni Mariani <gianni@corp.webtv.net>
  12171. To: Unicode List <unicode@unicode.org>
  12172. Cc: unicode@unicode.org
  12173. Date: Thu, 22 Jul 1999 19:56:27 -0700 (PDT)
  12174. Subject: RE: The future of UTF-8
  12175.  
  12176.  
  12177.  
  12178. The issue I have with BOM's is that if I have 2 "plain text"
  12179. files and I do this kind of operation:
  12180.  
  12181. type appendfile >> oldfile
  12182.  
  12183. It's not guarenteed to work unless the consuming application
  12184. processes multiple BOMS which in that case it renders utf-16
  12185. and ucs4 fully stateful from a consumer application's p.o.v. 
  12186. albeit with only two states since it needs to filter all incoming
  12187. characters.  The above operation works with all other "plain text" files
  12188. including utf-8 without any "stateful" transitions.
  12189.  
  12190. This kind of operation is really not uncommon.  Take log files.
  12191. If I have two co-operating applications of different endianness 
  12192. machines writing to the same log where one machine is big endian 
  12193. and one little endian, then the application needs to care about
  12194. endianness when it's writing utf-16 but not so with utf-8.
  12195.  
  12196. I can probably come up with some more examples.
  12197.  
  12198. When utf-16 became born, there was no real reason to go with it
  12199. because at that point, you have all the problems with multibyte
  12200. encodings and most of the programming community still like using
  12201. 8 bit chars, we still fight this inside MS with libs ported to CE.
  12202. As you can tell, these are my opinions and not necessarily that of my
  12203. employer.
  12204.  
  12205. Anyhow, the other issue is that many applications that process
  12206. wide chars are not utf-16 aware, while any internationalized 8 bit
  12207. application that multibyte aware is a whole lot easier to port
  12208. to Unicode using utf-8.  Where time is money, it's virtually 
  12209. impossible to justify spending the sort of time that's required to
  12210. go to utf-16 when utf-8 can be just as effective.
  12211.  
  12212. It's also relativly easy to write a string class that has both
  12213. a utf-16 and utf-8 "view" of a string making it virtually unnessasary
  12214. to do an either-or decision so you get to pick the best of both
  12215. worlds.
  12216.  
  12217. So, apologies for my earlier snappy comments, it wasn't intended
  12218. that way, although the MS stock price may have had somthing to do 
  12219. with it :))
  12220.  
  12221. As always, highest Regards
  12222. G
  12223.  
  12224. -----Original Message-----
  12225. From: kenw@sybase.com [mailto:kenw@sybase.com]
  12226. Sent: Thursday, July 22, 1999 1:56 PM
  12227. To: Unicode List
  12228. Cc: unicode@unicode.org; kenw@sybase.com
  12229. Subject: RE: The future of UTF-8
  12230.  
  12231.  
  12232. Gianni,
  12233.  
  12234. > If you need to process BOM's (10646 signatures) it is then stateful.
  12235.  
  12236. How so?
  12237.  
  12238. The Unicode character encoding itself is not stateful.
  12239.  
  12240. The UTF-16 encoding form is not stateful.
  12241.  
  12242. The UTF-16BE and UTF-16LE UTF's (serializations) are not stateful.
  12243.  
  12244. UTF-16 as a UTF (serialization) is ambiguous as to the byte order
  12245. of the serialization. That ambiguity is resolved in one of several
  12246. ways:
  12247.    1. A higher order protocol. At which point, the data processing
  12248.           is not stateful.
  12249.    2. By detection of a BOM. When the BOM is detected and interpreted,
  12250.           the data processing of the textual content is not stateful.
  12251.    3. By heuristics. And while the heuristic processing itself might
  12252.           be stateful, once the outcome of the heuristic provides
  12253.           an answer for the byte order, subsequent processing is
  12254.           not stateful. And this is in effect no different that any
  12255.           heuristic applied to detect character set, whether that
  12256.           character set itself is a stateful encoding or not.
  12257.  
  12258. The term "stateful", as applied to character encodings, usually
  12259. is referring to architectures like ISO 2022, where the state
  12260. induced by an escape sequence must be retained to interpret all
  12261. subsequent bytes, until encountering another escape sequences changes
  12262. the state, and thus the interpretation of the next run of bytes.
  12263. That is quite different from determination of the byte polarity "state"
  12264. on a data type before processing it. If that were the case, then you
  12265. could equally well claim that processing of any integral datatype
  12266. larger than a byte is "stateful" in a cross-platform environment.
  12267. But that is diluting the term "stateful" in the character encoding
  12268. context down to the point where it has nothing in common with
  12269. its intended applicability.
  12270.  
  12271. --Ken
  12272.  
  12273. 23-Jul-99  3:55:37-GMT,1968;000000000001
  12274. Return-Path: <unicode@unicode.org>
  12275. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  12276.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id XAA14427
  12277.     for <fdc@watsun.cc.columbia.edu>; Thu, 22 Jul 1999 23:55:36 -0400 (EDT)
  12278. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  12279.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id UAA38340
  12280.     ; Thu, 22 Jul 1999 20:49:29 -0700
  12281. Received: by unicode.org (NX5.67g/NX3.0S)
  12282.     id AA22953; Thu, 22 Jul 99 20:36:23 -0700
  12283. Message-Id: <9907230336.AA22953@unicode.org>
  12284. Errors-To: uni-bounce@unicode.org
  12285. Mime-Version: 1.0
  12286. Content-Type: text/plain;
  12287.     charset="iso-8859-1"
  12288. X-Uml-Sequence: 8856 (1999-07-23 03:36:13 GMT)
  12289. From: "Paul Dempsey (Exchange)" <paulde@exchange.microsoft.com>
  12290. To: Unicode List <unicode@unicode.org>
  12291. Cc: unicode@unicode.org
  12292. Date: Thu, 22 Jul 1999 20:36:12 -0700 (PDT)
  12293. Subject: RE: The future of UTF-8
  12294.  
  12295. > -----Original Message-----
  12296. > From: Gianni Mariani [mailto:gianni@corp.webtv.net]
  12297. > The issue I have with BOM's is that if I have 2 "plain text"
  12298. > files and I do this kind of operation:
  12299. > type appendfile >> oldfile
  12300. > It's not guarenteed to work unless the consuming application
  12301. > processes multiple BOMS ...
  12302.  
  12303. The reason this is not guaranteed to work is because the command processor
  12304. that's doing "type" with redirection doesn't know about the file formats.
  12305. It's the command processor that's defective, NOT the use of BOM/file
  12306. signature. 
  12307.  
  12308. It is a trivial matter to write a process that correctly concatenates files
  12309. with BOMs. I'm sure that someone on this list can promptly cough up a few
  12310. lines of perl that does it.
  12311.  
  12312. Your argument is not much different than expecting to be able to do a
  12313. byte-wise concatenation of a Shift+JIS file with a codepage 1252 (Windows
  12314. Western) file. These are both "plain text" files, but it fails miserably.
  12315.  
  12316. I think that transparent byte-wise concatenation of files is a minor
  12317. consideration when designing the file format.
  12318.  
  12319. --- Paul
  12320.  
  12321. 23-Jul-99 16:18:36-GMT,1998;000000000001
  12322. Return-Path: <unicode@unicode.org>
  12323. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  12324.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id MAA08803
  12325.     for <fdc@watsun.cc.columbia.edu>; Fri, 23 Jul 1999 12:18:34 -0400 (EDT)
  12326. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  12327.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id IAA206820
  12328.     ; Fri, 23 Jul 1999 08:59:56 -0700
  12329. Received: by unicode.org (NX5.67g/NX3.0S)
  12330.     id AA28254; Fri, 23 Jul 99 08:47:36 -0700
  12331. Message-Id: <9907231547.AA28254@unicode.org>
  12332. Errors-To: uni-bounce@unicode.org
  12333. Mime-Version: 1.0
  12334. Content-Type: TEXT/PLAIN; charset=US-ASCII
  12335. X-Uml-Sequence: 8874 (1999-07-23 15:47:23 GMT)
  12336. From: <jfieber@indiana.edu>
  12337. To: Unicode List <unicode@unicode.org>
  12338. Date: Fri, 23 Jul 1999 08:47:20 -0700 (PDT)
  12339. Subject: RE: The future of UTF-8
  12340.  
  12341. On Thu, 22 Jul 1999, Paul Dempsey (Exchange) wrote:
  12342.  
  12343. > > -----Original Message-----
  12344. > > From: Gianni Mariani [mailto:gianni@corp.webtv.net]
  12345. > > 
  12346. > > The issue I have with BOM's is that if I have 2 "plain text"
  12347. > > files and I do this kind of operation:
  12348. > > 
  12349. > > type appendfile >> oldfile
  12350. > > 
  12351. > > It's not guarenteed to work unless the consuming application
  12352. > > processes multiple BOMS ...
  12353. > The reason this is not guaranteed to work is because the command processor
  12354. > that's doing "type" with redirection doesn't know about the file formats.
  12355. > It's the command processor that's defective, NOT the use of BOM/file
  12356. > signature. 
  12357.  
  12358. And if oldfile happens to be a sequential access file, a tape for
  12359. example, the command processor rewinds to the beginning of the
  12360. file, reads the BOM if it exists, seeks back to the end of the
  12361. file, then somehow arranges to signal to the application the
  12362. format that it should write its standard output should be? Even
  12363. if you can avoid changing the individual applications by sticking
  12364. a byte-flipper downstream of the "write" system call, determining
  12365. the file format via a BOM is not always going to be a reasonable
  12366. thing to do.
  12367.  
  12368. -john
  12369.  
  12370. 24-Jul-99 19:41:46-GMT,5255;000000000011
  12371. Return-Path: <unicode@unicode.org>
  12372. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  12373.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id PAA16914
  12374.     for <fdc@watsun.cc.columbia.edu>; Sat, 24 Jul 1999 15:41:45 -0400 (EDT)
  12375. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  12376.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id MAA199992
  12377.     ; Sat, 24 Jul 1999 12:34:55 -0700
  12378. Received: by unicode.org (NX5.67g/NX3.0S)
  12379.     id AA06999; Sat, 24 Jul 99 12:26:08 -0700
  12380. Message-Id: <9907241926.AA06999@unicode.org>
  12381. Errors-To: uni-bounce@unicode.org
  12382. Mime-Version: 1.0
  12383. Content-Type: text/plain; charset=iso-8859-1
  12384. X-Uml-Sequence: 8897 (1999-07-24 19:25:57 GMT)
  12385. From: Markus Kuhn <Markus.Kuhn@cl.cam.ac.uk>
  12386. To: Unicode List <unicode@unicode.org>
  12387. Date: Sat, 24 Jul 1999 12:25:55 -0700 (PDT)
  12388. Subject: Re: Support for symbol fonts 
  12389. Content-Transfer-Encoding: 8bit
  12390. X-MIME-Autoconverted: from quoted-printable to 8bit by watsun.cc.columbia.edu id PAA16914
  12391.  
  12392. Erik van der Poel wrote on 1999-07-24 16:53 UTC:
  12393. > >   http://www.cl.cam.ac.uk/~mgk25/download/ucs-fonts*
  12394. > > [...] The Times Roman font covers also the Adobe Symbol encoding.
  12395. > Just curious, but which ISO 10646 code points did you choose for the
  12396. > Adobe Symbol characters that are not in 10646? For example:
  12397. > F8FC    FC      # RIGHT CURLY BRACKET TOP       # bracerighttp (CUS)
  12398. > F8FD    FD      # RIGHT CURLY BRACKET MID       # bracerightmid (CUS)
  12399. > F8FE    FE      # RIGHT CURLY BRACKET BOTTOM    # bracerightbt (CUS)
  12400.  
  12401. I did the conversion of the Adobe fonts to ISO 10646-1 based on the
  12402. Adobe glyph names found in the fonts (because this catches also
  12403. unencoded glyphs that are hidden in many of the X11 BDF files but
  12404. unavailable under any ISO 8859-1 code), based on the following Adobe
  12405. table, which maps Postscript glyph names to UCS:
  12406.  
  12407.   http://partners.adobe.com/supportservice/devrelations/typeforum/glyphlist.txt
  12408.  
  12409. I dropped all characters from the font which are neither in the above
  12410. list nor have already a uniXXXX name. This includes the above bracket
  12411. fragment characters, for which there exists no Unicode equivalent.
  12412.  
  12413. By the way, the bracket fragments were in Frank da Cruz's terminal
  12414. symbol proposal, for which I completely forgot to scan and publish a
  12415. number of exhibits that Frank has sent me as a basis for further
  12416. discussion. Will be on the web next week. Sorry for the delay.
  12417.  
  12418. I could probably put the Adobe Symbol bracket fragments into the private
  12419. use section, as suggested by the Adobe mapping tables found on the
  12420. Unicode ftp server. However, I do not like these particular characters
  12421. anyway. I believe that variable size parentheses, braces and brackets
  12422. should really be drawn using graphics primitives (spline and line
  12423. terminates areas) from a simple algorithmic description in the style
  12424. sheet language. Putting them together from font pieces is highly
  12425. non-portable and also does not give you the same quality that an
  12426. algorithmic specification could provide. If you really want to have
  12427. these bracket parts for MathML, I do urge you to reconsider this entire
  12428. approach of relying on the font here. The use of special math building
  12429. blocks in TeX was *THE* primary reason of why TeX is hardly ever used
  12430. with any other fonts than Knuth's Computer Modern, because all others
  12431. lack the bracket parts is exactly the alignment in which TeX requires
  12432. them.
  12433.  
  12434. If TeX had used graphics primitives to draw variable sized parentheses
  12435. and square roots, we could much more easily use any arbitrary commercial
  12436. of the shelf font with TeX in mathematical texts. Please do not repeat
  12437. the same mistake again and lock the math layout functionality to a
  12438. single specific font. Please take the variable shapes from the style
  12439. sheet and not from the font!
  12440.  
  12441. > I believe Frank wanted to know about legacy fonts so that Mozilla could
  12442. > try to support those in case the user has not installed the new 10646
  12443. > fonts yet. His question arose from a discussion of MathML support in
  12444. > Mozilla.
  12445.  
  12446. As I said, the Adobe Symbol font is *very* small and will lead to more
  12447. frustration than satisfaction among MathML users. It is so small that it
  12448. is not necessarily better than nothing. Potential MathML users are today
  12449. TeX users. They will have the expectation that at least all TeX symbols
  12450. are available, so a real ISO 10646-1 font is clearly the way to go
  12451. here.
  12452.  
  12453. > > The X server will be extended by a simple
  12454. > > conversion function that can generate on-the-fly legacy encodings such
  12455. > > as CP1252, KOI-8, CP1252, JIS X 208, etc. from the ISO 10646-1 encoded
  12456. > > source fonts.
  12457. > I'm pretty sure you are aware of the Han unification issues, but I think
  12458. > you would be more successful if you treat CJK with care. I.e. when
  12459. > making a JIS X 0208 font available, make sure the glyphs are
  12460. > "Japanese-style" and not Chinese.
  12461.  
  12462. Oh yes, we have at least one Japanese member in the XFree86 team who is
  12463. quite vocal about these issues. :) I have started to use the convention
  12464. that ADD_STYLE_NAME is set to "ja" in the XLFD of Japanese UCS fonts,
  12465. such that we could indeed restrict the set of fonts that we advertise as
  12466. being available under a JIS encoding.
  12467.  
  12468. Markus
  12469.  
  12470. -- 
  12471. Markus G. Kuhn, Computer Laboratory, University of Cambridge, UK
  12472. Email: mkuhn at acm.org,  WWW: <http://www.cl.cam.ac.uk/~mgk25/>
  12473.  
  12474. 24-Jul-99 20:12:18-GMT,1864;000000000001
  12475. Return-Path: <unicode@unicode.org>
  12476. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  12477.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id QAA23315
  12478.     for <fdc@watsun.cc.columbia.edu>; Sat, 24 Jul 1999 16:12:18 -0400 (EDT)
  12479. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  12480.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id NAA42766
  12481.     ; Sat, 24 Jul 1999 13:06:14 -0700
  12482. Received: by unicode.org (NX5.67g/NX3.0S)
  12483.     id AA07292; Sat, 24 Jul 99 12:50:24 -0700
  12484. Message-Id: <9907241950.AA07292@unicode.org>
  12485. Errors-To: uni-bounce@unicode.org
  12486. X-Uml-Sequence: 8898 (1999-07-24 19:50:14 GMT)
  12487. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  12488. To: Unicode List <unicode@unicode.org>
  12489. Cc: Unicode List <unicode@unicode.org>
  12490. Date: Sat, 24 Jul 1999 12:50:12 -0700 (PDT)
  12491. Subject: Re: Support for symbol fonts
  12492.  
  12493. Markus G. Kuhn, Computer Laboratory, University of Cambridge, UK, wrote:
  12494. > By the way, the bracket fragments were in Frank da Cruz's terminal
  12495. > symbol proposal, for which I completely forgot to scan and publish a
  12496. > number of exhibits that Frank has sent me as a basis for further
  12497. > discussion. Will be on the web next week. Sorry for the delay.
  12498. Better late than never :-)  I also promised to send a Unicode plain text
  12499. proposal, but then real life intruded.  It's not forgotten.
  12500.  
  12501. Meanwhile, there might be some hope for the bracket pieces in the
  12502. math plain-text work.
  12503.  
  12504. Again, the rationale is to be able to construct mathematical expressions
  12505. on character-cell devices where we don't have GUI fonts and rendering
  12506. engines (primarily when emulating terminals and printers that do this in
  12507. applications that are Unicode-based).  In this case we don't have to
  12508. worry too much about alignment since these devices are monospaced.
  12509.  
  12510. Obviously bracket pieces are not the preferred method for rendering math
  12511. in the GUI environment.
  12512.  
  12513. - Frank
  12514.  
  12515. 28-Jul-99  3:05:35-GMT,5113;000000000001
  12516. Return-Path: <unicode@unicode.org>
  12517. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  12518.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id XAA05193
  12519.     for <fdc@watsun.cc.columbia.edu>; Tue, 27 Jul 1999 23:05:34 -0400 (EDT)
  12520. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  12521.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id TAA195056
  12522.     ; Tue, 27 Jul 1999 19:59:13 -0700
  12523. Received: by unicode.org (NX5.67g/NX3.0S)
  12524.     id AA18292; Tue, 27 Jul 99 19:43:57 -0700
  12525. Message-Id: <9907280243.AA18292@unicode.org>
  12526. Errors-To: uni-bounce@unicode.org
  12527. Mime-Version: 1.0
  12528. Content-Type: text/plain; charset="iso-8859-1"
  12529. X-Uml-Sequence: 8925 (1999-07-28 02:43:35 GMT)
  12530. From: Jonathan Rosenne <rosenne@qsm.co.il>
  12531. To: Unicode List <unicode@unicode.org>
  12532. Cc: Unicode List <unicode@unicode.org>
  12533. Date: Tue, 27 Jul 1999 19:43:33 -0700 (PDT)
  12534. Subject: Re: Apostrophes, quotation marks, keyboards and typography 
  12535. Content-Transfer-Encoding: 8bit
  12536. X-MIME-Autoconverted: from quoted-printable to 8bit by watsun.cc.columbia.edu id XAA05193
  12537.  
  12538. I don't think this violates the idea of "plain text". Plain text is an
  12539. interchange concept, while we are talking about input methods. Once you
  12540. wish to allow plain text to include more than the small number of
  12541. characters that can be conveniently provided by the keyboard you have to
  12542. provide more sophisticated input methods.
  12543.  
  12544. Quotation marks are just one case, Unicode contains many more characters an
  12545. author may wish to use that are not in his keyboard. Hexadecimal is not a
  12546. solution for the general public.
  12547.  
  12548. I suggest we take a look at how things used to be done before computers. In
  12549. those ancient times, one would give a printer a manuscript (= hand written
  12550. paper), which was marked up either by the author or by an editor, and the
  12551. printer would set the text in print. This was the grandfather of mark-up
  12552. languages, later standardized in SGML. 
  12553.  
  12554. In those manuscripts, the text could not indicate precisely various
  12555. typographic distinctions, such as quotation marks, and in those cases
  12556. markup was used.
  12557.  
  12558. It is much more user friendly to have to write <Q>text</Q>, or to select
  12559. the text and click on a "quotation" menu item, indicating intent, rather
  12560. than <&lsqm>text<&rsqm> or something similar, or some fancy keyboard
  12561. combination, in which the author has to specify the precise implications of
  12562. his intent.
  12563.  
  12564. How will mathematical symbols be entered in plain text?
  12565.  
  12566. Jony
  12567.  
  12568. At 02:23 19/07/99 -0700, Markus Kuhn wrote:
  12569. >Jonathan Rosenne wrote on 1999-07-18 22:14 UTC:
  12570. >> 1. this is one of the reasons for <Q>text</Q> in HTML. The processor can
  12571. >> substitute the correct character.
  12572. >> 
  12573. >> In general, any word processor should allow the user to style the text as a
  12574. >> quotation, rather than require him to type typographical characters.
  12575. >
  12576. >I personally am not convinced that higher layer protocols should be used
  12577. >to handle punctuation. This completely violates by concept of plain
  12578. >text, and the existing practice of using higher layer protocols here
  12579. >clearly just derives from the limitations of ASCII, an artifact of an
  12580. >era that we are hopefully about to leave behind us. Higher layer
  12581. >protocols such as SGML are fine for things like font selection and other
  12582. >formatting and logical structuring, but quotation marks and other
  12583. >punctuation are too much part of the raw text than that I would like to
  12584. >see them handled via hacks such as <Q>. Higher layer protocols should in
  12585. >my opinion not represent the actual textual content of the text, but
  12586. >give only auxiliary structuring and representation hints. Therefore I
  12587. >don't like to see markup for quotation marks, just as I don't like the
  12588. >idea to have to markup conditional clauses, sentences, and perhaps even
  12589. >paragraphs (not sure about the last one though).
  12590. >
  12591. >> 2. The situation for Hyphen-Minus is quite similar. 
  12592. >
  12593. >Agreed, it is equally confusing and keyboard entry conventions should be
  12594. >carefully standardized here as well.
  12595. >
  12596. >Mark Davis wrote on 1999-07-18 17:47 UTC:
  12597. >> There seems to be some misunderstanding. "The Unicode Standard«, Version
  12598. >> 2.1" gives the following text (see
  12599. >> http://www.unicode.org/unicode/reports/tr8.html#3.6 Apostrophe Semantics
  12600. >> Errata):
  12601. >>
  12602. >> U+02BC MODIFIER LETTER APOSTROPHE is preferred where the character
  12603. >> is to represent a modifier letter (for example, in transliterations
  12604. >> to indicate a glottal stop.) In the latter case, it is also referred
  12605. >> to as a letter apostrophe.
  12606. >>
  12607. >> U+2019 RIGHT SINGLE QUOTATION MARK is preferred where the character is to
  12608. >> represent a punctuation mark, as in "We've been here before." In the
  12609. >> latter case, U+2019 is also referred to as a punctuation apostrophe.
  12610. >
  12611. >Excellent! I missed that 2.1 correction, and I am delighted to see that
  12612. >this was already fixed nicely. So U+02BC is one thing less to worry
  12613. >about and the Microsoft Word practice actually does conform to the
  12614. >standard. Thanks for the reply.
  12615. >
  12616. >So the rest is really up to the keyboard standards community to fix.
  12617. >
  12618. >Markus
  12619. >
  12620. >-- 
  12621. >Markus G. Kuhn, Computer Laboratory, University of Cambridge, UK
  12622. >Email: mkuhn at acm.org,  WWW: <http://www.cl.cam.ac.uk/~mgk25/>
  12623.  
  12624. 22-Aug-99 19:27:34-GMT,5598;000000000001
  12625. Return-Path: <fdc>
  12626. Received: (from fdc@localhost)
  12627.     by watsun.cc.columbia.edu (8.8.5/8.8.5) id PAA28045
  12628.     for fdc; Sun, 22 Aug 1999 15:27:34 -0400 (EDT)
  12629. Date: Sun, 22 Aug 1999 15:27:34 -0400 (EDT)
  12630. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  12631. Message-Id: <199908221927.PAA28045@watsun.cc.columbia.edu>
  12632. To: fdc@watsun.cc.columbia.edu
  12633.  
  12634. Path: newsmaster.cc.columbia.edu!panix!howland.erols.net!news.maxwell.syr.edu!nntp.ntr.net!remarQ60!rQdQ!supernews.com!remarQ.com!corp.supernews.com!not-for-mail
  12635. From: "John E. Malmberg" <wb8tyw@qsl.net>
  12636. Newsgroups: comp.os.vms
  12637. Subject: Re: TEXT is the format for comp.os.vms (was: Help - crashing)
  12638. Date: Sun, 22 Aug 1999 11:42:08 -0500
  12639. Organization: Posted via Supernews, http://www.supernews.com
  12640. Lines: 95
  12641. Message-ID: <rs09sonmmkf12@corp.supernews.com>
  12642. References: <1c2901beec05$b19387e0$020a0a0a@wizard.xile.realm> <37BF93E6.BDA69B0@hct.ac.ae> <slrn7rvgr0.gm0qhn.reid@PSW086.PSI.CH> <37BFB95C.77B1C1F7@hct.ac.ae> <1999Aug22.092016.1@eisner>
  12643. X-Complaints-To: newsabuse@supernews.com
  12644. X-Newsreader: Microsoft Outlook Express 4.72.3110.5
  12645. X-MimeOLE: Produced By Microsoft MimeOLE V4.72.3110.3
  12646. Xref: newsmaster.cc.columbia.edu comp.os.vms:217594
  12647.  
  12648. Text-Only is the format of most newsgroups.
  12649.  
  12650. To make things perfectly clear, MIME and it's friends are not wanted in
  12651. newsgroups for the following reasons.  And it has nothing to do with
  12652. OpenVMS.  It is for them to be of the most use, and that includes
  12653. accommodating those users with "backward" technology.
  12654.  
  12655. Posters that violate this Netiquette will either be politely reminded of the
  12656. conventions or will be ignored.  This is not a moderated newsgroup/mailing
  12657. list, so that is the only means of enforcing the convention.
  12658.  
  12659. In the past, most posters have taken the hint from one polite reminder, and
  12660. a few needed to learn how to adjust their mail/news sending program.
  12661.  
  12662. And as typical in most societies, many people will ignore RUDE behavior,
  12663. hoping that the person will realize their gaffe, or that someone else will
  12664. explain things.
  12665.  
  12666.  
  12667. 1. The contents of the newsgroups are automatically collected and archived
  12668. for later searches.  In many cases the archiver simply collects the data and
  12669. jams it into one file based on a size limit or an age limit.
  12670. There are multiple archives, some public ones, and some private ones that
  12671. force you to view advertisements.
  12672.  
  12673. Most of these were put in place before MIME messages were considered, or any
  12674. type of attachment for that matter.  Some of these archivers ignore ALL
  12675. attachments, but most of the ones I have seen simply jam the attachment to
  12676. the end of the message.
  12677.  
  12678. Since it is good Netiquette to search these archives before posting a
  12679. question, it becomes a royal pain to open a archive to get the information
  12680. the search engine says is in it, and find the pages of hexdumps that
  12681. typically follow some filename xxxxxx.VCF in it.
  12682.  
  12683. The HTML formatted stuff is also hard to read.  Since it is stuffed between
  12684. the normal plain text stuff, even a MIME enabled reader will not translate
  12685. it.
  12686.  
  12687. And there is another format that puts "=20" at the ends of all the lines
  12688. along with some other random stuff.
  12689.  
  12690.  
  12691. 2.  Many users of Usenet do not have access to a newsreader.  Many times
  12692. because this access is blocked at the corporate firewall.  They also do not
  12693. want to filter out their important messages from the volume of messages that
  12694. a newsgroup can generate.  So they set their mail delivery to DIGEST mode.
  12695. In DIGEST mode, all MIME stuff gets delivered as described in point 1.
  12696.  
  12697.  
  12698. 3.  Many Corporate E-Mail systems still can not handle MIME.  The system
  12699. that I use at work just got the capability early this year.  Prior to that,
  12700. a MIME message was treated as follows.  First I would receive a message with
  12701. a title and a blank body.  Then I would receive a message with no title that
  12702. a MIME encoded message had been received.  A bit latter, each attachment
  12703. would show up in a separate message with no title.  Other messages can be
  12704. randomly interposed between them.
  12705.  
  12706.  
  12707. 4. After the Melissa adventure, many corporate sites are putting in E-mail
  12708. filters that will block bad messages.  The first pass was to stop all
  12709. messages with the indicated title.  That of course is not sufficient for
  12710. long term.  There are reports in the trade press, that some companies are
  12711. returning to sender any HTML formatted document as a precaution.  The
  12712. intended receiver may get a notice of the rejection just in case the E-Mail
  12713. is important.
  12714.  
  12715.  
  12716. 5. Given the state that E-Mail is in today, especially in a corporate
  12717. environment, it would not look good to send MIME stuff to a person you want
  12718. to be in a business relationship with, if you do not absolutely know that
  12719. their mail software can handle it.  There are still many users of IBM
  12720. OFFICE-VISION getting their mail on 3270 terminals.  This type of behavior
  12721. can damage a business relationship.
  12722.  
  12723. Especially if the customer is running OUTLOOK and a sales / marketing
  12724. critter mails a HTML document that contains a virus.
  12725.  
  12726.  
  12727. The bottom line is that it is RUDE of the sender to assume that the
  12728. recipient can receive anything but plain text.  The mime stuff is great,
  12729. once you have established that the recipient can handle it.
  12730.  
  12731. The VCF stuff to verify a sender's identity should be reserved for those
  12732. receivers that request it.  The ones that do not request it can not use it,
  12733. and it is useless garbage to them.  It is just wasting bandwidth and storage
  12734. space on mail and news servers.
  12735.  
  12736. -John
  12737. By the way, MIME can include PostScript, REGIS, and SIXEL.  My OpenVMS
  12738. systems can handle these but I know that most M$soft can not, and most UN*X
  12739. can not handle all three.
  12740.  
  12741.  
  12742.  
  12743. 23-Aug-99 16:13:27-GMT,4147;000000000001
  12744. Return-Path: <unicode@unicode.org>
  12745. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  12746.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id MAA00633
  12747.     for <fdc@watsun.cc.columbia.edu>; Mon, 23 Aug 1999 12:13:26 -0400 (EDT)
  12748. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  12749.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id JAA250042
  12750.     ; Mon, 23 Aug 1999 09:08:52 -0700
  12751. Received: by unicode.org (NX5.67g/NX3.0S)
  12752.     id AA02285; Mon, 23 Aug 99 09:00:07 -0700
  12753. Message-Id: <9908231600.AA02285@unicode.org>
  12754. Errors-To: uni-bounce@unicode.org
  12755. Mime-Version: 1.0
  12756. Content-Type: text/plain; charset=US-ASCII
  12757. Content-Transfer-Encoding: 7bit
  12758. X-Uml-Sequence: 9372 (1999-08-23 15:59:56 GMT)
  12759. From: peter_constable@sil.org
  12760. To: Unicode List <unicode@unicode.org>
  12761. Date: Mon, 23 Aug 1999 08:59:55 -0700 (PDT)
  12762. Subject: Re: New phonemic writing system and IPA usage
  12763. Content-Transfer-Encoding: 7bit
  12764.  
  12765.  
  12766.  
  12767.        >>>The reason English is interesting to learn is not any
  12768.        fundamental property >of English, more that there is a huge
  12769.        amount of _written_ information and >literate people, in
  12770.        English.  Changing English orthography would break >that.
  12771.  
  12772.        >        Changing English orthography would break >that.
  12773.        >
  12774.        >       >(M.E.) regularizing it with minor corrections
  12775.        >       according to Wijk's very sensible scheme would not.
  12776.        >
  12777.        >       (Peter) But making as drastic a change as to adopt CC
  12778.        would!
  12779.  
  12780.        (JM) That's a matter of opinion!
  12781.  
  12782.  
  12783.        JoAnne, how can you say that this is a matter of opinion? As
  12784.        soon as a generation grows up learning to read and write
  12785.        English using only CC, the majority Kwill only have access to
  12786.        recent documents; documents in the old orthography won't
  12787.        spontaneously transform themselves. Humanity has a *very, very,
  12788.        very huge* investment in published and unpublished documents in
  12789.        English using the existing orthograhy, and there is a
  12790.        probability of 0.00 +/- 0% that we want to throw that away, or
  12791.        that we want to limit access to that information to a minority
  12792.        that chose to learn the old orthography in addition to the new
  12793.        CC-based standard. I don't think even you can disagree with
  12794.        that. And if we will want to continue to teach our children to
  12795.        read the old orthography, why would we ever consider putting
  12796.        ourselves through the trauma of replacing bad, old Roman
  12797.        script-based English orthography with CC?
  12798.  
  12799.        There is a recent case of a language community changing their
  12800.        orthography from one script to an unrelated script: Turkish was
  12801.        written in Arabic until the early part of this century, and
  12802.        since then in Roman. This was possible because:
  12803.  
  12804.        - the language community was pretty well limited to one nation,
  12805.        - the literacy rate was not that high,
  12806.        - the old script was not that well suited for representing the
  12807.        phonology of the language,
  12808.        - the new script was much better suited to represent the
  12809.        phonology of the language,
  12810.        - there was not a really large corpus of books existing that
  12811.        used the old script, and
  12812.        - there was an authoritarian government that was able to impose
  12813.        the reform on the entire language community.
  12814.  
  12815.        *None* of these are true of English.
  12816.  
  12817.        I have now contributed comments that relate to semiotic issues,
  12818.        to issues of the psychology and physiology of reading and
  12819.        writing, and to sociolinguistic issues of attitude and usage. I
  12820.        also threw in various comments on historical linguistic issues
  12821.        along the way. So, there shouldn't be any doubt of my opinion
  12822.        of introducing CC as a replacement for existing English
  12823.        orthography.
  12824.  
  12825.        While some of us may want to pursue the idea of writing English
  12826.        using CC as one of personal interest, we should not for a
  12827.        moment fool ourselves into thinking that CC could possibly
  12828.        become the conventional way of writing English, or even a
  12829.        conventional way of writing English.
  12830.  
  12831.        End of diatribe.
  12832.  
  12833.        Peter
  12834.  
  12835. 27-Aug-99 19:17:45-GMT,2634;000000000001
  12836. Return-Path: <unicode@unicode.org>
  12837. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  12838.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id PAA25478
  12839.     for <fdc@watsun.cc.columbia.edu>; Fri, 27 Aug 1999 15:17:44 -0400 (EDT)
  12840. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  12841.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id MAA323172
  12842.     ; Fri, 27 Aug 1999 12:06:04 -0700
  12843. Received: by unicode.org (NX5.67g/NX3.0S)
  12844.     id AA06917; Fri, 27 Aug 99 11:49:34 -0700
  12845. Message-Id: <9908271849.AA06917@unicode.org>
  12846. Errors-To: uni-bounce@unicode.org
  12847. Mime-Version: 1.0 (generated by tm-edit 7.104)
  12848. Content-Type: text/plain; charset=US-ASCII
  12849. X-Uml-Sequence: 9465 (1999-08-27 18:49:22 GMT)
  12850. From: Juliusz Chroboczek <jec@dcs.ed.ac.uk>
  12851. To: Unicode List <unicode@unicode.org>
  12852. Date: Fri, 27 Aug 1999 11:49:19 -0700 (PDT)
  12853. Subject: Re: Normalization Form KC for Linux
  12854.  
  12855. Rick McGowan <rmcgowan@apple.com>:
  12856.  
  12857. >> More formally, the preferred way of encoding text in Unicode under
  12858. >> Linux should be Normalization Form KC as defined in Unicode
  12859. >> Technical Report #15
  12860.  
  12861. RM> Gosh, I don't approve.  And I've been using Unix systems for many
  12862. RM> years.  The most flexible kind of implementation would prefer
  12863. RM> decomposed sequences.  In any case, enlightened systems would
  12864. RM> accept anything and massage as needed to fit the particular
  12865. RM> application instead of forcing (or "suggesting") the user to run
  12866. RM> everything through the meat grinder first...
  12867.  
  12868. As I understand it, Markus was speaking about the interchange formats,
  12869. including, but not limited to, file formats and IPC formats.  It is
  12870. expected that simple applications will only be able to accept
  12871. precomposed forms, while enlightened ones (I like the term) will
  12872. accept anything.  Therefore, requesting that applications *write*
  12873. precomposed forms in preference to combining characters maximises the
  12874. chances of interchange between simple and complex applications.
  12875. Complex applications are still expected to accept arbitrary combining
  12876. characters; they just should avoid producing them whenever possible.
  12877.  
  12878. (The question of unification of compatibility forms -- C vs. KC -- is
  12879. a different issue altogether; not one I would dare to claim that I am
  12880. even vaguely not totally incompetent to have an opinion on.)
  12881.  
  12882. RM> In any case, I think Unix community tends in general to be very
  12883. RM> very confused about the distinction between how data exists in
  12884. RM> storage and what appears on one's screen/window/emulator.
  12885.  
  12886. While to a certain extent true of the Unix-like community in general,
  12887. this is not a fair assessment of Markus' work.
  12888.  
  12889.                                         J.
  12890.  
  12891. 27-Aug-99 21:23:38-GMT,4459;000000000001
  12892. Return-Path: <unicode@unicode.org>
  12893. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  12894.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id RAA25860
  12895.     for <fdc@watsun.cc.columbia.edu>; Fri, 27 Aug 1999 17:23:37 -0400 (EDT)
  12896. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  12897.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id OAA253990
  12898.     ; Fri, 27 Aug 1999 14:11:44 -0700
  12899. Received: by unicode.org (NX5.67g/NX3.0S)
  12900.     id AA07561; Fri, 27 Aug 99 14:02:19 -0700
  12901. Message-Id: <9908272102.AA07561@unicode.org>
  12902. Errors-To: uni-bounce@unicode.org
  12903. X-Uml-Sequence: 9468 (1999-08-27 21:02:10 GMT)
  12904. From: Rick McGowan <rmcgowan@apple.com>
  12905. To: Unicode List <unicode@unicode.org>
  12906. Date: Fri, 27 Aug 1999 14:02:09 -0700 (PDT)
  12907. Subject: Re: Normalization Form KC for Linux
  12908.  
  12909. Juliusz Chroboczek <jec@dcs.ed.ac.uk>...:
  12910.  
  12911. > It is expected that simple applications will only be able to accept
  12912. > precomposed forms
  12913.  
  12914. I'd have to ask Why?
  12915.  
  12916. > Complex applications are still expected to accept arbitrary combining
  12917. > characters; they just should avoid producing them whenever possible.
  12918.  
  12919. Why?  That's about the opposite of what I'd argue.  In my experience most of  
  12920. the drudgery and complexity of display processing for Unicode is in dealing  
  12921. with the multiple spellings; not with just decomposed or composed sequences.
  12922.  
  12923. I guess maybe I should just shut up because my argument is really about  
  12924. something different than normalization itself, it's about architectures that  
  12925. require applications to care about particular details of data normalization.
  12926.  
  12927. What really appears to be going on in the world of Unix is that generally in  
  12928. these systems the "legacy" or existing methods of string & character  
  12929. handling are being bolstered to deal with this new kind of data for which  
  12930. they are an inappropriate level of API.  Instead of architecting them to  
  12931. remove the need for application programmers to worry about all this detail,  
  12932. the detail is being exported to the programmer in the same way that it was  
  12933. when the encodings were "simpler".  I think it's the wrong way to go about  
  12934. the architecture.
  12935.  
  12936. As I see it, systems that require "all" applications to mess around with the  
  12937. low-level details of what is or is not stored as a combining sequence in  
  12938. some string that's passing through some process is mis-architected from the  
  12939. start.  Only the lowest level of data-streaming and I/O of file formats  
  12940. should be dealing with that.
  12941.  
  12942. GUI & UI systems that sit on top of Unix foundations appear in general to be  
  12943. architected in ways that expose details, like composition/decomposition  
  12944. normalization of the data, excruciating details of codesets and data formats,  
  12945. that should be of no concern to "applications" written on theose platforms   
  12946. Unfortunately, the architects tend to get hung up on how to expose these  
  12947. details by  extensive APIs, and argue a lot about details that should be of  
  12948. as little concern to "application programs" as assembly language is to Java  
  12949. programs.
  12950.  
  12951. If one is going to re-write the set of typical Unix foundation-level tools,  
  12952. I think there are better ways to write them and different kinds of API that  
  12953. are more appropriate for better abstraction away from the minutiae of  
  12954. character encodings and normalization.  That would free the application  
  12955. programmer from such details, instead of causing the application programmer  
  12956. to be acutely concerned with such details.
  12957.  
  12958. So when I see something like this:
  12959.  
  12960. > One day, combining characters will surely be supported under Linux,
  12961. >...
  12962. >> More formally, the preferred way of encoding text in Unicode under
  12963. >> Linux should be Normalization Form KC as defined in Unicode
  12964. >> Technical Report #15
  12965.  
  12966. It makes me cringe.  <rant> This is saying that for everything written on  
  12967. this entire OS -- all the UI, the tools, protocols, applications, etc. that  
  12968. should be the "preferred" way of encoding simply because the display model is  
  12969. broken and the architects have been going in the wrong direction for years  
  12970. and wish to continue down that path because of the overwhelming weight of  
  12971. their legacy code. </rant>
  12972.  
  12973. I think it's more appropriate to leave the specification of normalization  
  12974. requirements up to particular protocols or functional groups, not "Unicode  
  12975. under Linux" as a whole.  In the long run, Linux would be much better off  
  12976. going the opposite direction for most string & display handling.  In my  
  12977. opinion.
  12978.  
  12979. Enough ranting for the day...
  12980.  
  12981.     Rick
  12982.  
  12983. 30-Aug-99 19:42:09-GMT,5878;000000000001
  12984. Return-Path: <unicode@unicode.org>
  12985. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  12986.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id PAA21417
  12987.     for <fdc@watsun.cc.columbia.edu>; Mon, 30 Aug 1999 15:42:07 -0400 (EDT)
  12988. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  12989.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id MAA251190
  12990.     ; Mon, 30 Aug 1999 12:29:43 -0700
  12991. Received: by unicode.org (NX5.67g/NX3.0S)
  12992.     id AA26449; Mon, 30 Aug 99 12:17:24 -0700
  12993. Message-Id: <9908301917.AA26449@unicode.org>
  12994. Errors-To: uni-bounce@unicode.org
  12995. X-Uml-Sequence: 9519 (1999-08-30 19:17:14 GMT)
  12996. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  12997. To: Unicode List <unicode@unicode.org>
  12998. Cc: Unicode List <unicode@unicode.org>
  12999. Date: Mon, 30 Aug 1999 12:17:12 -0700 (PDT)
  13000. Subject: Re: Normalization Form KC for Linux
  13001.  
  13002. > Maybe I really should shut up...  I guess I'm bitterly disappointed in how
  13003. > the Unix and Posix community has not grasped the Unicode textual concepts
  13004. > and progressed or led the way in all of this.  The community seems so
  13005. > insular and fossilized, when there are so many good things about Unix that
  13006. > have been poorly imitated by other popular platforms.  These days the
  13007. > industry is moving right along doing all kinds of interesting display and
  13008. > many scripts & languages, while the academic Unix (and Posix) folks are
  13009. > complaining that it's too hard or can't be done at all.[1]
  13010. I think this is reflective of the overall situation with computing today.
  13011. You can only change what you can control.  In a monolithic environment like
  13012. Windows or the Macintosh, a single company has control and can do what it
  13013. likes, but perhaps more to point, these are closed boxes in which the
  13014. application has more or less direct access to the keyboard, screen, fonts,
  13015. and font info -- all the pieces of the puzzle.
  13016.  
  13017. Contrast this with Unix.  First of all (obviously) there is not just one
  13018. Unix, but many of them (the UNIX C-Kermit makefile alone currently contains
  13019. about 500 targets).  Nobody controls all this.  Each vendor goes their own
  13020. way at their own pace.  The many well-known utilities (command-line or
  13021. "video") have long since "forked".  The existing code base is staggering,
  13022. and most of it is nondisclosed (Linux, *BSD, etc, are the exception (to
  13023. "nondisclosed", if not to "forked")).
  13024.  
  13025. Makers of third-party applications for Unix (and VMS, etc), if they want to
  13026. move forward, can't (in most cases) depend on the underlying platforms for
  13027. assistance.  Even when they can, such assistance is inconsistent, forcing
  13028. them to develop their own portable tools and libraries, which tend to meet
  13029. their immediate needs but fall short of Nirvana.
  13030.  
  13031. Perhaps more to the point, however, is the fact that Unix (and VMS and other
  13032. "traditional" platforms) are open to many kinds of access: the workstation
  13033. console, usually some sort of GUI (also on the console), X (on the console
  13034. or from a remote X server), and then plain old character-mode remote access
  13035. via modem, Telnet, Rlogin, X.25 PAD, and the like.  The latter mode, which
  13036. is branded "legacy" as if it had no value or place in the modern world, is
  13037. (I like to maintain, and I think with good reason) seeing wider use now than
  13038. ever before and although many wish it would go away, others would like to
  13039. stay active in this area and serve the people who depend on it, not only for
  13040. old time's sake, but also because it is a legitimate, viable, and open form
  13041. of access that everybody should be able to fall back upon as the the more
  13042. advanced and "interesting" forms change out from under them with bewildering
  13043. speed.
  13044.  
  13045. When access is this open -- which is a *good* thing -- no particular entity
  13046. has control over the user interface.  It is a matter of coordinating the
  13047. behavior of intrinsically unrelated processes.  So questions come up here
  13048. that never bother us when we are writing (say) a word processor.  Which
  13049. end handles bidirectionality of Hebrew?  Which end is responsible for the
  13050. detailed appearance of the screen?  And now the questions of pre- and de-
  13051. composition.
  13052.  
  13053. Makers of third party applications only control one piece.  The underlying
  13054. platform is likely not to have any Unicode support at all (VMS, most UNIXes,
  13055. IBM mainframes, etc), so the extent to which we support Unicode in our
  13056. applications depends on the hosts that we access with them.  In the case of
  13057. terminal emulation (xterm, Kermit, etc), if the host is not executing any
  13058. form of BIDI algorithm, or ensuring some canonical form for composed
  13059. characters, etc (since it is totally ignorant of such matters), it does not
  13060. necessarily follow that the terminal must compensate, since for applications
  13061. where the screen is treated as a matrix of boxes in which the location of
  13062. different items must be known and fixed (and this can include dumb scrolling
  13063. applications that display text in columns), the host and terminal must
  13064. cooperate.
  13065.  
  13066. ISO 10646 includes the concepts of levels of compliance, including
  13067. Implementation Level 1 in which combining characters are not allowed.
  13068. Unicode Normalization Form C tends to amount to the same thing.  If these
  13069. "subsets" were not to be used, they shouldn't have been defined.  But in
  13070. fact, I believe they are useful in open-access environments where control is
  13071. distributed among "loosely cooperating" processes.  Perhaps there is indeed
  13072. a tradeoff between open access and the ability to support complex scripts --
  13073. if not in theory, then almost certainly in practice.
  13074.  
  13075. Of course, we do have one example of Unix taken to the next level: Plan 9.
  13076. But even there -- where all text, even internally, is UTF-8 -- we still see
  13077. no provision for BIDI or combining sequences: Implementation Level 1 in
  13078. action.  Everyone agrees it would be better to have no restrictions, but so
  13079. far I don't think anybody has considered the plain-text terminal-host
  13080. access model sufficiently to find a way around them.
  13081.  
  13082. - Frank
  13083.  
  13084. 10-Sep-99 16:30:02-GMT,3828;000000000001
  13085. Return-Path: <unicode@unicode.org>
  13086. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  13087.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id MAA11277
  13088.     for <fdc@watsun.cc.columbia.edu>; Fri, 10 Sep 1999 12:29:59 -0400 (EDT)
  13089. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  13090.     by public.lists.apple.com (8.9.1a/8.9.1) with SMTP id JAA31860
  13091.     ; Fri, 10 Sep 1999 09:19:15 -0700
  13092. Received: by unicode.org (NX5.67g/NX3.0S)
  13093.     id AA15929; Fri, 10 Sep 99 08:48:25 -0700
  13094. Message-Id: <9909101548.AA15929@unicode.org>
  13095. Errors-To: uni-bounce@unicode.org
  13096. Mime-Version: 1.0
  13097. Content-Type: text/plain; charset=US-ASCII
  13098. Content-Transfer-Encoding: 7bit
  13099. X-Uml-Sequence: 9618 (1999-09-10 15:48:15 GMT)
  13100. From: peter_constable@sil.org
  13101. To: Unicode List <unicode@unicode.org>
  13102. Date: Fri, 10 Sep 1999 08:48:14 -0700 (PDT)
  13103. Subject: Re: IPA a vowels
  13104. Content-Transfer-Encoding: 7bit
  13105.  
  13106.  
  13107.  
  13108.        >The other side of this issue is coding ambiguity. Say you have
  13109.        some African language which uses an IPA-influenced orthography,
  13110.        will you use LATTIN SMALL LETTER A or your new homoglyph LATIN
  13111.        SMALL LETTER A WITH HOOK here?
  13112.  
  13113.        >I believe, the conclusion is that we should not think in terms
  13114.        of being able to add IPA highly consistently to every font
  13115.        there is. Only a few font styles are really useful for being
  13116.        extended into good IPA fonts, so if you write dictionaries,
  13117.        linguistic textbooks, etc., you should make sure you use one of
  13118.        these font styles. Do not expect that every Unicode font will
  13119.        contain every Unicode character in high quality. Unicode should
  13120.        be more seen as a scheme to encode characters, not as a
  13121.        repertoire that from now on every font has to cover entirely.
  13122.  
  13123.        I agree that we probably don't want every font to be used for
  13124.        IPA. But there still is an issue of encoding ambiguity when
  13125.        dealing with plain text. Perhaps the answer, though, is that,
  13126.        strictly speaking, plain text is effectively meaningless.
  13127.        Knowing the encoding tells you how to get one level of
  13128.        semantics, i.e. how to translate the bytes into abstract
  13129.        characters, but you still don't know what the sequence of
  13130.        characters mean in terms of any human language until the
  13131.        language is identified. If you get a plaintext file and it
  13132.        contains
  13133.  
  13134.        "See Dick run."
  13135.  
  13136.        Then you'll make an assumption about the intended language, and
  13137.        that assumption will probably be valid. But it's an assumtion
  13138.        nontheless. When there is real potential ambiguity, there is no
  13139.        recourse but to provide some markup:
  13140.  
  13141.        <blahurg>See Dick run.</blahurg>
  13142.  
  13143.        (undoubtedly means something derogatory about the listener's
  13144.        grandmother). If the plaintext happens to mix text in IPA and
  13145.        text a language that uses U+0061, then if there is confusion it
  13146.        may be necessary to have markup along the lines of
  13147.  
  13148.        <eng>The Blahurg word for ...  pronounced, "<ipa> ...a...
  13149.        </ipa>", and means ... upset.</eng>
  13150.  
  13151.        Of course, I probably wouldn't complain if there was a separate
  13152.        character LATIN IPA SMALL LETTER A that disambiguated this for
  13153.        plain text. (Nobody should be confused about the purpose of a
  13154.        character with such a name.) Ditto for other cases.
  13155.  
  13156.  
  13157.        >For every font style, there are Unicode characters that will
  13158.        not go well with it. High-quality fonts will therefore always
  13159.        be Unicode subsets only, and applications such as Web browsers
  13160.        who can prevent certain characters from being used in certain
  13161.        style contexts will brutally fall-back to other styles (e.g.,
  13162.        pick math operators from the upright font even inside italic
  13163.        text).
  13164.  
  13165.        So let it be written; so let it be done.
  13166.  
  13167.        Peter
  13168.  
  13169.  
  13170.  
  13171.  
  13172. 18-Sep-99  9:42:10-GMT,4286;000000000001
  13173. Return-Path: <owner-linux-utf8@humbolt.geo.uu.nl>
  13174. Received: from humbolt.nl.linux.org (humbolt.geo.uu.nl [131.211.28.48])
  13175.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id FAA27963
  13176.     for <fdc@watsun.cc.columbia.edu>; Sat, 18 Sep 1999 05:42:09 -0400 (EDT)
  13177. Received: by humbolt.nl.linux.org id <S92165AbPIRJlv>;
  13178.     Sat, 18 Sep 1999 11:41:51 +0200
  13179. Received: from deimos.worldonline.nl ([195.241.48.136]:57730 "EHLO
  13180.         deimos.worldonline.nl" smtp-auth: <none>) by humbolt.nl.linux.org
  13181.     with ESMTP id <S92189AbPIRJlO>; Sat, 18 Sep 1999 11:41:14 +0200
  13182. Received: from moolenaar.net (vp208-34.worldonline.nl [195.241.208.34])
  13183.     by deimos.worldonline.nl (8.8.5/8.8.5) with ESMTP id LAA11606;
  13184.     Sat, 18 Sep 1999 11:41:11 +0200 (MET DST)
  13185. Received: from masaka.moolenaar.net (localhost.moolenaar.net [127.0.0.1])
  13186.     by moolenaar.net (8.9.1/8.9.1) with ESMTP id LAA00348;
  13187.     Sat, 18 Sep 1999 11:58:07 +0200 (CEST)
  13188. Message-Id: <199909180958.LAA00348@moolenaar.net>
  13189. To: Markus Kuhn <Markus.Kuhn@cl.cam.ac.uk>
  13190. Cc: linux-utf8@humbolt.geo.uu.nl
  13191. Subject: Re: UTF-8 line feeds versus LS/PS
  13192. In-Reply-To: <E11S4o3-0001hD-00@heaton.cl.cam.ac.uk>
  13193. From: Bram Moolenaar <Bram@moolenaar.net>
  13194. Date:   Sat, 18 Sep 1999 11:58:07 +0200
  13195. X-Orcpt: rfc822;linux-utf8@humbolt.geo.uu.nl
  13196. Sender: owner-linux-utf8@humbolt.geo.uu.nl
  13197. Precedence: bulk
  13198. Reply-To: linux-utf8@humbolt.geo.uu.nl
  13199.  
  13200.  
  13201. Markus Kuhn wrote:
  13202.  
  13203. > Side remark:
  13204. > It would indeed be nice to also introduce under Unix a text format,
  13205. > where paragraphs are formatted at display time (like Word does), and
  13206. > where soft linebreaks inside paragraphs are not saved to the file. The
  13207. > main advantage here is that diffs become significantly compacter
  13208. > (assuming they would operate on byte ranges, not on lines), because
  13209. > changing a few words followed by reformatting a paragraph moves around
  13210. > all these LF bytes that then the revision control system has to take
  13211. > track of, which is not very elegant at the moment.
  13212. > It would indeed be very helpful, if emacs, vim, less, etc. had a mode
  13213. > similar to the Windows notepad and Word, where paragraphs are
  13214. > essentially long lines without any LF in them. LF-free paragraphs would
  13215. > especially be convenient for editing plaintext-files that will later be
  13216. > reformatted anyway and where line length doesn't matter at all, e.g.
  13217. > HTML and TeX.
  13218.  
  13219. This is true.  The reason Vim doesn't support automatic paragraph formatting
  13220. is that there is no "soft" line separator.  I'm glad there is something we can
  13221. agree on!
  13222.  
  13223. You can work with single-line paragraphs in Vim by setting the 'linebreak'
  13224. option.  This might be the mode you are looking for.  See ":help 'linebreak'"
  13225. for more information.
  13226.  
  13227. One disadvantage is that the width of the wrapped lines depends on the width
  13228. of the terminal.  If you view the file on a different terminal it may look
  13229. different.  It might be different again when you print it.  That might not
  13230. always be what you want.  Wordstar (do you remember that?) had a soft
  13231. linebreak character for this (CR with the 8th bit set).  But only Wordstar
  13232. supported it, thus it wasn't very useful.  You always had to print the file
  13233. from Wordstar.
  13234.  
  13235. > However, all this is again *completely* independent and orthogonal to
  13236. > Unicode. Unformatted plain-text files would also be nice with just
  13237. > ASCII, and LF is as good a paragraph separator as Unicode's PS. I'd
  13238. > rather not use LS and PS at all on POSIX systems, because it would break
  13239. > a tremendous amount of software, even though I do appreciate that the
  13240. > clearly-defined LS/PS semantics does have its attractions and is much
  13241. > nicer in UCS-2 files than the historic CR/LF/NL mess.
  13242.  
  13243. Just using NL should work fine.  As far as I know LF is just another name for
  13244. NL, it's the same character (hex 0x0A).  A paragraph could be ended by an
  13245. empty line (in the file that's a double NL).  We could even recommend this.
  13246. Perhaps we should add a note about this in appropriate places?
  13247.  
  13248. --
  13249. hundred-and-one symptoms of being an internet addict:
  13250. 102. When filling out your driver's license application, you give
  13251.      your IP address.
  13252.  
  13253. --/-/---- Bram Moolenaar ---- Bram@moolenaar.net ---- Bram@vim.org ---\-\--
  13254.   \ \    www.vim.org/iccf      www.moolenaar.net       www.vim.org    / /
  13255. -
  13256. Linux-UTF8:   i18n of Linux on all levels
  13257. Archive:      http://mail.nl.linux.org/lists/
  13258.  
  13259. 18-Sep-99 10:58:57-GMT,2849;000000000001
  13260. Return-Path: <owner-linux-utf8@humbolt.geo.uu.nl>
  13261. Received: from humbolt.nl.linux.org (humbolt.geo.uu.nl [131.211.28.48])
  13262.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id GAA08685
  13263.     for <fdc@watsun.cc.columbia.edu>; Sat, 18 Sep 1999 06:58:56 -0400 (EDT)
  13264. Received: by humbolt.nl.linux.org id <S92189AbPIRK6h>;
  13265.     Sat, 18 Sep 1999 12:58:37 +0200
  13266. Received: from khms.westfalen.de ([193.174.5.20]:783 "EHLO khms.westfalen.de"
  13267.         smtp-auth: <none>) by humbolt.nl.linux.org with ESMTP
  13268.     id <S92165AbPIRK6N>; Sat, 18 Sep 1999 12:58:13 +0200
  13269. Received: from root by khms.westfalen.de with local-bsmtp (Exim 3.03 #1)
  13270.     id 11SIBl-000423-00 (Debian); Sat, 18 Sep 1999 12:57:53 +0200
  13271. Received: by khms.westfalen.de (CrossPoint v3.11 R/C435);
  13272.       18 Sep 1999 12:57:04 +0200
  13273. Date:   18 Sep 1999 10:56:00 +0200
  13274. From: kaih@khms.westfalen.de (Kai Henningsen)
  13275. To: linux-utf8@humbolt.geo.uu.nl
  13276. Message-ID: <7P6x5KJmw-B@khms.westfalen.de>
  13277. In-Reply-To: <UTC199909180142.DAA21510.aeb@papegaai.cwi.nl>
  13278. Subject: Re: UTF-8 keyboard mode
  13279. X-Mailer: CrossPoint v3.11 R/C435
  13280. MIME-Version: 1.0
  13281. Content-Type: text/plain; charset=us-ascii
  13282. Content-Transfer-Encoding: 7bit
  13283. Organization: Organisation? Me?! Are you kidding?
  13284. References: <UTC199909180142.DAA21510.aeb@papegaai.cwi.nl>
  13285. X-No-Junk-Mail: I do not want to get *any* junk mail.
  13286. Comment: Unsolicited commercial mail will incur an US$100 handling fee per received mail.
  13287. X-Fix-Your-Modem: +++ATS2=255&WO1
  13288. X-Orcpt: rfc822;linux-utf8@humbolt.geo.uu.nl
  13289. Sender: owner-linux-utf8@humbolt.geo.uu.nl
  13290. Precedence: bulk
  13291. Reply-To: linux-utf8@humbolt.geo.uu.nl
  13292.  
  13293. Andries.Brouwer@cwi.nl  wrote on 18.09.99 in <UTC199909180142.DAA21510.aeb@papegaai.cwi.nl>:
  13294.  
  13295. > >From kaih: Mac example.
  13296. >
  13297. > Yes. For us this would be a bit more complicated, because people
  13298. > really use the power of the keyboard handler.
  13299. > Any key can be a modifier key, and people use for example F12
  13300. > to switch between a dvorak and a qwerty layout by loading
  13301. > a large keymap where F12 is a locking shift.
  13302. > Similar things are done by Greeks, Russians etc to switch between
  13303. > character sets.
  13304.  
  13305. I don't see why that would create any problem. The kernel knows what a  
  13306. modifier key is, right? IIRC, it already has a bitmap-type interface via  
  13307. IOCTLs.
  13308.  
  13309. > I thought of having /dev/kbd with packets for the past 256 keystrokes
  13310. > or so, where these packets are thrown away if no-one reads them.
  13311. > You really want these bytes in the normal input stream?
  13312.  
  13313. That's the only way it'll work over a telnet connection.
  13314.  
  13315. > Sounds like a new keyboard state, and again difficult to get out of
  13316. > if this program that understands the stream crashes.
  13317.  
  13318. You could define a key sequence that restores the keyboard to normal mode.  
  13319. Something like Alt-SysReq-R ... uh, we already have that one.
  13320.  
  13321. MfG Kai
  13322. -
  13323. Linux-UTF8:   i18n of Linux on all levels
  13324. Archive:      http://mail.nl.linux.org/lists/
  13325.  
  13326. 18-Sep-99 16:45:52-GMT,6832;000000000001
  13327. Return-Path: <owner-linux-utf8@humbolt.geo.uu.nl>
  13328. Received: from humbolt.nl.linux.org (humbolt.geo.uu.nl [131.211.28.48])
  13329.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id MAA08272
  13330.     for <fdc@watsun.cc.columbia.edu>; Sat, 18 Sep 1999 12:45:51 -0400 (EDT)
  13331. Received: by humbolt.nl.linux.org id <S92189AbPIRQpe>;
  13332.     Sat, 18 Sep 1999 18:45:34 +0200
  13333. Received: from heaton.cl.cam.ac.uk ([128.232.32.11]:42246 "EHLO
  13334.         heaton.cl.cam.ac.uk" smtp-auth: <none>) by humbolt.nl.linux.org
  13335.     with ESMTP id <S92165AbPIRQpI>; Sat, 18 Sep 1999 18:45:08 +0200
  13336. Received: from trillium.cl.cam.ac.uk
  13337.     ([128.232.8.5] helo=cl.cam.ac.uk ident=mgk25)
  13338.     by heaton.cl.cam.ac.uk with esmtp (Exim 3.01 #1)
  13339.     id 11SNbm-0004EV-00
  13340.     for linux-utf8@humbolt.geo.uu.nl; Sat, 18 Sep 1999 17:45:06 +0100
  13341. X-Mailer: exmh version 2.0.2+CL 2/24/98
  13342. To: linux-utf8@humbolt.geo.uu.nl
  13343. Subject: Re: Character set tagging considered harmful 
  13344. In-reply-to: Your message of "Sat, 18 Sep 1999 14:23:48 +0200."
  13345.              <199909181223.OAA00813@moolenaar.net> 
  13346. X-URL:  http://www.cl.cam.ac.uk/~mgk25/
  13347. Mime-Version: 1.0
  13348. Content-Type: text/plain; charset=us-ascii
  13349. Date:   Sat, 18 Sep 1999 17:45:04 +0100
  13350. From: Markus Kuhn <Markus.Kuhn@cl.cam.ac.uk>
  13351. Message-Id: <E11SNbm-0004EV-00@heaton.cl.cam.ac.uk>
  13352. X-Orcpt: rfc822;linux-utf8@humbolt.geo.uu.nl
  13353. Sender: owner-linux-utf8@humbolt.geo.uu.nl
  13354. Precedence: bulk
  13355. Reply-To: linux-utf8@humbolt.geo.uu.nl
  13356.  
  13357. Bram Moolenaar wrote on 1999-09-18 12:23 UTC:
  13358. > I wonder, is UCS-4 the maximum that is in use today?
  13359.  
  13360. More than that.
  13361.  
  13362. The UCS-2 range is the maximum in use today. There are no characters yet
  13363. defined outside the range U+0000 to U+FFFD, which is known as "Plane 0"
  13364. (except the so-called Plane-14 tags, which are not really part of
  13365. Unicode). A plane is a 16-bit range with 2**16 code points. However,
  13366. there do exist plans to fill Plane 1 with scripts that are of historic,
  13367. cultural, hobbyist and scientific interest (Hierglyphics, Tengwar,
  13368. Klingon, Blissymbolics, very exotic mathematical symbols, etc.). These
  13369. are characters that are not urgently needed (there exists very little
  13370. practice in encoding them on computers today if any at all), but it is
  13371. nice to have them covered at least in theory as well. There are also
  13372. plans to fill Plane 2 with thousands of historic CJK characters, to
  13373. cover all characters found in some very comprehensive Asian dictionaries
  13374. (again, also character not used on computers today). So it is good to be
  13375. prepared for more than UCS-2.
  13376.  
  13377. UTF-16 is an extension of UCS-2 that uses a pair of 16-bit characters
  13378. from a high and low surrogate area in UCS-2 to represent characters in
  13379. planes 1 to 16 (U+010000 to U+10FFFF). UTF-16 can cover a bit over 1
  13380. million characters. It has been agreed between the Unicode consortium
  13381. and ISO that they will never standardize a character with a code >
  13382. U+10FFFF. So UTF-16 will be able to encode everything that will come in
  13383. the future. A code range of 1 million is commonly considered to be more
  13384. then good enough. Plenty of room for contact with
  13385. extraterrestrials ... ;-) 
  13386.  
  13387. > I need to reserve space for each character, thus I
  13388. > would like to know if 4 bytes is enough.
  13389.  
  13390. 4-bytes per character is *more* then enough per character. UCS is just a
  13391. 31-bit character set after all, so a signed 32-bit int (that is what
  13392. glibc's wchar_t is) will more then do. Even 3 bytes will last forever
  13393. and 2-bytes would be OK so far if you are prepared to handle pairs of
  13394. UTF-16 surrogate values as single characters.
  13395.  
  13396. > The UTF-8 encoding might be longer, of course.
  13397.  
  13398. No. Better have another careful look at how UTF-8 really works:
  13399.  
  13400.   http://www.cl.cam.ac.uk/~mgk25/unicode.html
  13401.  
  13402. UTF-8 has no way of encoding characters more than 31-bit long.
  13403. A 32-bit integer will be able to hold the value of any legal
  13404. UTF-8 sequence.
  13405.  
  13406. XFree86 xterm is restricted to the UCS-2 range by the way, as is the X11
  13407. font mechanism.
  13408.  
  13409. My advice would be to try and keep UTF-8 as the in-memory encoding. Do
  13410. not convert to a fixed-width encoding unless really necessary for
  13411. table-lookups, etc. The self-synchronizing properties of UTF-8 make this
  13412. very feasible. You can even preserve illegal UTF-8 sequences this way
  13413. such that you loose no information if you load and save a binary file
  13414. accidentally in UTF-8 mode. Mined98 is doing this nicely, as are a
  13415. number of other existing UTF-8 editors. The plan for emacs is also to
  13416. keep UTF-8 as the in-memory representation, in the interest of binary
  13417. transparency.
  13418.  
  13419. > Are you saying that it's not possible to detect UTF-8 encoding reliably?
  13420. > Well, that's something that needs to be worked on!
  13421.  
  13422. LC_CTYPE is the best detector you will ever get. It allows us so far to
  13423. distinguish ISO_8859-15 from JISX0208, and I see no reason why it should
  13424. suddenly fail on UTF-8. Everything else is just a heuristic. The
  13425. self-synchronizing properties of UTF-8 make it more feasible to write a
  13426. > 95% heuristic for UTF-8 then for other encodings, but you should be
  13427. careful to apply such autodetection ONLY when the user didn't tell you
  13428. explicitely via LC_CTYPE what the intended encoding is. The user must be
  13429. able to reliably enforce interpretation of the file as UTF-8 for
  13430. mission-critical applications, where the remaining risk of autodetection
  13431. or tagging is not acceptable.
  13432.  
  13433. I assure you, that UTF-8 files will not be tagged in any special way on
  13434. POSIX systems. Just like ASCII and ISO 646-Swedish files were never
  13435. tagged in any special way. Typed files are simply not the Unix way, for
  13436. very good reasons. There will be no BOM or ESC 2022 announcer, and if
  13437. there is one occasionally, it will either cause trouble or be lost after
  13438. the next cut & paste, grep, tail, conversion, etc. This stuff is not
  13439. robust in general. It might work in special restricted applications, but
  13440. not more. The world is already full of UTF-8 files. Search for UTF-8 on
  13441. dejanews, and you'll hit a hundred thousand postings, because Asian
  13442. versions of Netscape and IE have been sending out UTF-8 files for years.
  13443.  
  13444. > > We just want a toggle, between Mess and UTF-8.
  13445. > And we need to help the people that have to toggle all the time.
  13446.  
  13447. Exactly, by offering them an option to leave the error-prone toggling
  13448. and character-set guessing domain.
  13449.  
  13450. > Switching to a single encoding is not an option for most people at this time,
  13451. > since many files are Latin-1 encoded.
  13452.  
  13453. The files are really not the problem. Files are very easily converted
  13454. without loss of information. The problem are applications that can
  13455. structurally not yet deal with files that can contain a million
  13456. different characters. Most applications believe that there exist not
  13457. more than 256 characters. That is the real problem.
  13458.  
  13459. Markus
  13460.  
  13461. -- 
  13462. Markus G. Kuhn, Computer Laboratory, University of Cambridge, UK
  13463. Email: mkuhn at acm.org,  WWW: <http://www.cl.cam.ac.uk/~mgk25/>
  13464.  
  13465. -
  13466. Linux-UTF8:   i18n of Linux on all levels
  13467. Archive:      http://mail.nl.linux.org/lists/
  13468.  
  13469. 21-Sep-99 14:01:11-GMT,3549;000000000005
  13470. Return-Path: <owner-linux-utf8@humbolt.geo.uu.nl>
  13471. Received: from humbolt.nl.linux.org (humbolt.geo.uu.nl [131.211.28.48])
  13472.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id KAA19778
  13473.     for <fdc@watsun.cc.columbia.edu>; Tue, 21 Sep 1999 10:01:09 -0400 (EDT)
  13474. Received: by humbolt.nl.linux.org id <S92192AbPIUOAi>;
  13475.     Tue, 21 Sep 1999 16:00:38 +0200
  13476. Received: from heaton.cl.cam.ac.uk ([128.232.32.11]:6151 "EHLO
  13477.         heaton.cl.cam.ac.uk" smtp-auth: <none>) by humbolt.nl.linux.org
  13478.     with ESMTP id <S92180AbPIUOAM>; Tue, 21 Sep 1999 16:00:12 +0200
  13479. Received: from trillium.cl.cam.ac.uk
  13480.     ([128.232.8.5] helo=cl.cam.ac.uk ident=mgk25)
  13481.     by heaton.cl.cam.ac.uk with esmtp (Exim 3.01 #1)
  13482.     id 11TQSl-0006JZ-00
  13483.     for linux-utf8@humbolt.geo.uu.nl; Tue, 21 Sep 1999 15:00:07 +0100
  13484. X-Mailer: exmh version 2.0.2+CL 2/24/98
  13485. To: linux-utf8@humbolt.geo.uu.nl
  13486. Subject: Re: Character set tagging considered harmful 
  13487. In-reply-to: Your message of "Tue, 21 Sep 1999 15:08:51 +0200."
  13488.              <199909211308.PAA26748@mail.sietec.de> 
  13489. X-URL:  http://www.cl.cam.ac.uk/~mgk25/
  13490. Mime-Version: 1.0
  13491. Content-Type: text/plain; charset=us-ascii
  13492. Date:   Tue, 21 Sep 1999 15:00:04 +0100
  13493. From: Markus Kuhn <Markus.Kuhn@cl.cam.ac.uk>
  13494. Message-Id: <E11TQSl-0006JZ-00@heaton.cl.cam.ac.uk>
  13495. X-Orcpt: rfc822;linux-utf8@humbolt.geo.uu.nl
  13496. Sender: owner-linux-utf8@humbolt.geo.uu.nl
  13497. Precedence: bulk
  13498. Reply-To: linux-utf8@humbolt.geo.uu.nl
  13499.  
  13500. towo@computer.org wrote on 1999-09-21 13:08 UTC:
  13501. > I think there is some confusion here. Auto-detection applies to text, 
  13502. > i.e. file contents, while I would assume LC_CTYPE to describe the 
  13503. > environment that we're running in, especially the terminal mode.
  13504. > This doesn't need to be the same and if LC_CTYPE is used to define one 
  13505. > thing it should perhaps rather not be used to derive the other information 
  13506. > which is usually quite unrelated.
  13507.  
  13508. I really think, they are the same, they were intended to be the same and
  13509. in my opinion they really should be the same. I like
  13510.  
  13511.   cat <file.txt
  13512.  
  13513. and
  13514.  
  13515.   cat >file.txt
  13516.  
  13517. to continue to work in our notion of plaintext also in the future,
  13518. therefore we should always aim towards keeping the content of plain-text
  13519. something that can be sent directly byte-for-byte to the terminal. Much
  13520. of the current simplicity, elegance and power of the Unix plaintext
  13521. world fundamentally depends on this. It won't be Unix any more if we
  13522. start to introduce plaintext file types. (By the way, we had this exact
  13523. same discussion already back in 1995 on comp.std.internat, should still
  13524. be in dejanews.)
  13525.  
  13526. How far do you want to implement autodetection? Do you want "ls" to
  13527. autodetect, whether a filename is in Latin-2, Latin-15, JIS X0208 or
  13528. UTF-8 and convert automatically accordingly? Character set
  13529. autodetection, if it really became common-place under Unix, would mean
  13530. that practically every application would have to be equipped with a
  13531. full-fledged any-to-any conversion package. Horrible prospect. No, I
  13532. really really think that separating the plain-text and terminal encoding
  13533. is a rather dangerous route, that I most certainly will not support in
  13534. any way. All this also has nothing to do with UTF-8, which is just yet
  13535. another encoding and should be treated just as such. The entire
  13536. autodetection or tagging business sounds to me very much like
  13537. reinventing ISO 2022 with all its consequences.
  13538.  
  13539. Markus
  13540.  
  13541. -- 
  13542. Markus G. Kuhn, Computer Laboratory, University of Cambridge, UK
  13543. Email: mkuhn at acm.org,  WWW: <http://www.cl.cam.ac.uk/~mgk25/>
  13544.  
  13545. -
  13546. Linux-UTF8:   i18n of Linux on all levels
  13547. Archive:      http://mail.nl.linux.org/lists/
  13548.  
  13549. 28-Sep-99 14:15:08-GMT,3275;000000000001
  13550. Return-Path: <unicode@unicode.org>
  13551. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  13552.     by mailhub1.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id KAA15969
  13553.     for <fdc@mailhub.cc.columbia.edu>; Tue, 28 Sep 1999 10:15:07 -0400 (EDT)
  13554. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  13555.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id KAA26042
  13556.     for <fdc@watsun.cc.columbia.edu>; Tue, 28 Sep 1999 10:15:06 -0400 (EDT)
  13557. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  13558.     by public.lists.apple.com (8.9.1a/8.9.1) with ESMTP id HAA25768
  13559.     ; Tue, 28 Sep 1999 07:12:05 -0700
  13560. Received: (from daemon@localhost)
  13561.     by unicode.org (8.9.3/8.9.3) id HAA03136;
  13562.     Tue, 28 Sep 1999 07:10:29 -0700 (PDT)
  13563. Message-Id: <199909281410.HAA03136@unicode.org>
  13564. Errors-To: root@unicode.org
  13565. X-UML-Sequence: 9872 (1999-09-28 14:10:15 GMT)
  13566. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  13567. To: "Unicode List" <unicode@unicode.org>
  13568. Cc: unicode@unicode.org
  13569. Date: Tue, 28 Sep 1999 07:10:14 -0700 (PDT)
  13570. Subject: Re: A basic question on encoding Latin characters
  13571.  
  13572. > Um, at that time the normalization hadn't been done. So at that time there
  13573. > weren't _technical_ reasons for drawing a line at the normalization
  13574. > border.  The line was drawn after that time. It could have been
  13575. > before. But it has been drawn and there had better be really good reasons
  13576. > offered if we are not to respect it.
  13577. In interactive telecommunications, we have the following situation:
  13578.  
  13579.  1. Host sends "login:" (or any other prompt).
  13580.  2. User is supposed to type her ID (or any other response).
  13581.  
  13582. When using Unicode, the terminal emulator may not print the final character
  13583. of the prompt because it doesn't know yet whether any combining characters
  13584. will follow.  So the user doesn't know whether the host is ready to receive
  13585. a response and therefore should not reply since in some cases (e.g. at the
  13586. UNIX "Password:" prompt) an early response is discarded.
  13587.  
  13588. If the process is being executed by a script, the script sits and waits;
  13589. "waitfor 'login:'" will not succeed, since it can not be known whether
  13590. 'login:' has arrived until the next base character after ':' comes, but no
  13591. such character is coming (I realize it is silly to expect a colon to have an
  13592. accent but those are the rules -- and not all prompts end with colon).
  13593.  
  13594. There is no escape from this situation other than introduction of a "higher
  13595. level protocol" to signal "ok, I'm finished transmitting, now it's your
  13596. turn", just like in the old half-duplex days.
  13597.  
  13598. This is the kind of reason that telecommunications-oriented applications
  13599. seem to be steering away from the Normalization Form D model, however
  13600. appropriate it might be in other areas, and embracing Normalization Form C
  13601. (ISO 10646 Level 1) and, by extension, precomposed characters, as we have
  13602. seen in Plan 9 and now, it seems, Linux.  I don't think this indicates
  13603. recalcitrance or West European bias in UNIX culture as much as a desire to
  13604. preserve telecommunications and the terminal/host model as a viable
  13605. interface between human and machine in the Unicode age, as it has been since
  13606. beginning of the computer age.  I also think it's no accident that Unicode
  13607. is best supported on those platforms that have eschewed the terminal/host
  13608. access model.
  13609.  
  13610. - Frank
  13611.  
  13612. 28-Sep-99 18:24:11-GMT,7794;000000000001
  13613. Return-Path: <unicode@unicode.org>
  13614. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  13615.     by mailhub2.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id OAA03161
  13616.     for <fdc@mailhub.cc.columbia.edu>; Tue, 28 Sep 1999 14:24:09 -0400 (EDT)
  13617. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  13618.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id OAA19282
  13619.     for <fdc@watsun.cc.columbia.edu>; Tue, 28 Sep 1999 14:24:08 -0400 (EDT)
  13620. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  13621.     by public.lists.apple.com (8.9.1a/8.9.1) with ESMTP id LAA48012
  13622.     ; Tue, 28 Sep 1999 11:22:08 -0700
  13623. Received: (from daemon@localhost)
  13624.     by unicode.org (8.9.3/8.9.3) id LAA06555;
  13625.     Tue, 28 Sep 1999 11:18:45 -0700 (PDT)
  13626. Message-Id: <199909281818.LAA06555@unicode.org>
  13627. Errors-To: root@unicode.org
  13628. X-UML-Sequence: 9885 (1999-09-28 18:18:30 GMT)
  13629. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  13630. To: "Unicode List" <unicode@unicode.org>
  13631. Date: Tue, 28 Sep 1999 11:18:29 -0700 (PDT)
  13632. Subject: RE: A basic question on encoding Latin characters
  13633.  
  13634. Marco.Cimarosti@icl.com wrote:
  13635. > I am not sure if I understood very well, but seems to me that you are
  13636. > basing your observation on the very peculiar behavior of your application.
  13637. Not peculiar -- this is how open and shared access to computers has worked
  13638. since the 1960s: the interactive dialog model, prompt and command.
  13639.  
  13640. > I understand that your hypotetical terminal software is trying to render
  13641. > Unicode text as soon as it arrivers, CHARACTER BY CHARACTER.
  13642. That's how terminals work.  If the host sends a character, the user should
  13643. see it on the screen immediately.  As any maker of terminal emulation
  13644. software can tell you, users are surprisingly intolerant of delays, even
  13645. very small ones.  The acid test is echoing in the full-duplex environment.
  13646. I press the 'A' key, the code for 'A' goes to the host and then comes back
  13647. to be displayed on the screen as an 'A'.  This must be instantaneous.
  13648.  
  13649. Or, to put it another way, a terminal is not a Web browser.
  13650.  
  13651. > But there is no need of exotic alphabets or combining accents to screw up
  13652. > your design: sticking to good old ASCII, what would your modem script do
  13653. > if the prompt "login:" was translated in the Italian "codice d'accesso:"?
  13654. > It would wait, I think, until the Italian government changes the
  13655. > constitution to drop Italian and adopt English as the official language.
  13656. True, but the fact remains that a very large number of scripting applications
  13657. exist and are used every day in the real world, and they are used in
  13658. "mission-critical" applications too.  It is "a way of doing business" in a
  13659. world where platforms such as UNIX, VMS, VOS, VM/CMS, MVS/TSO, and OS/400
  13660. still exist and may be accessed openly.  Modems themselves are controlled
  13661. almost exclusively by scripts (how do you think your PPP dialer works?).
  13662.  
  13663. The business of Unicode is not to promote certain styles of computing and
  13664. obliterate others; it is to provide a universal character set that can be
  13665. used in any application.
  13666.  
  13667. > If such a medieval design cannot be avoided because of technical
  13668. > constraints, it would be wiser, in my mind to do one of the following:
  13669. > - support Unicode only after login;
  13670. Login is just one example.  A terminal session with a UNIX (VMS, VOS, etc)
  13671. host is an arbitrary series of prompts and commands.
  13672.  
  13673. > - impose that the prompt and the answer be on separate lines: in this
  13674. > case, the line terminator character(s) would act as the "higher level
  13675. > protocol" to signal "ok, I'm finished transmitting, now it's your turn"
  13676. > that you suggested;
  13677. A proposal to change all of the world's hosts is not practical.  Even if this
  13678. were done, it would break all the world's scripts :-)
  13679.  
  13680. > - re-ingeneer entirely the login and terminal software using more
  13681. > up-to-date techniques.
  13682. Of course many people believe the answer is to modernize everything.  But
  13683. today this means replacement of simple, proven, and open means of access 
  13684. with proprietary and unstable ones.
  13685.  
  13686. Franτois Yergeau <yergeau@alis.com> wrote:
  13687. > There is no good reason for the terminal not to print the final character
  13688. > when received.  If a combining character comes later, the terminal simply
  13689. > has to redisplay the combination over the previous glyph.  This is what our
  13690. > Arabic terminals and emulators have been doing for years (e.g. receive an
  13691. > Arabic letter and display it in final form; receive another letter,
  13692. > redisplay the previous one in middle form and the new one in final form).
  13693. >
  13694. Yes, we discussed this here before; there are complications with line
  13695. wrapping, scrolling regions, etc, but to overcome them is a "mere matter of
  13696. programming".
  13697.  
  13698. > >There is no escape from this situation other than introduction of a "higher
  13699. > >level protocol" to signal "ok, I'm finished transmitting, now it's your
  13700. > >turn", just like in the old half-duplex days.
  13701. > Well, it seems to me that the login protocol *is* a higher level protocol
  13702. > w/r Unicode.
  13703. >
  13704. Again, the login process is only one element of a session consisting of an
  13705. arbitrary sequence of prompts and responses.
  13706.  
  13707. > If the protocol says that "login:" is to be acted upon, I don't see why
  13708. > the terminal-side script couldn't act on it without waiting for eventual
  13709. > combining characters that won't be coming.  There's no use in waiting for
  13710. > the next base character, the triggering string has been received.
  13711. >
  13712. But then is the application "Unicode compliant"?  But more to the point
  13713. (bearing in mind that we are speaking not just of logging in, but any prompt
  13714. and response), if we ignore the possibility that combining characters might
  13715. follow the trigger string, then we can have "false positives", or for that
  13716. matter also false negatives.
  13717.  
  13718. "Mark E. Davis" <markdavis@ispchannel.com> wrote:
  13719. > We should make it very clear that Normalization Form C does *not*
  13720. > eliminate combining characters. It does precompose them where possible,
  13721. > but for many scripts and characters it is not possible, or desireable.
  13722. Yes, this is spelled out very clearly in the technical report.  In this way
  13723. Unicode Normalization Form C differs from ISO 10646 Implementation Level 1,
  13724. in which "a CC element shall not contain coded representations of combining
  13725. characters".  I think this more accurately represents the position taken by
  13726. the authors of Plan 9 and (correct me if I'm wrong) those working on the
  13727. Linux console and UTF-8 xterm.
  13728.  
  13729. > Exactly the same problem that you discuss occurs with any script that
  13730. > requires shaping. When I type an Arabic character, the previous character
  13731. > needs to change shape. What the terminal needs to do is replace the glyph
  13732. > on the screen with a different form. As I recall from my terminal days,
  13733. > the controls for doing this are available. The same technique can be used
  13734. > for accents. Type an A, see an A.  Then type an umlaut, and the host picks
  13735. > it up, decides that it needs a composed presentation form, and replaces
  13736. > the A by ─ on the screen. Of course, the display on the terminal still
  13737. > depends on the ''font" that it has, which may or may not allow dynamic
  13738. > composition, but fundamentally I don't see the problem.
  13739. The real problem comes in scripting.  Scripts are a method of forcing
  13740. intrinsically noncooperating processes to cooperate.  Suppose a script is
  13741. looking for "ABC", and ABC comes.  If the next character will be a combining
  13742. cedilla, this would not be a match.  But if no more characters are coming
  13743. (e.g. until there is some kind of response) then it would be, but how can
  13744. the script know?  The best we can do is set a timeout period that is long
  13745. enough to allow for the longest possible intercharacter spacing on the
  13746. busiest day of the Internet and hope we haven't guessed wrong.  And even if
  13747. we haven't, this technique would cause every match to consume the entire 
  13748. timeout interval.
  13749.  
  13750. - Frank
  13751.  
  13752. 28-Sep-99 19:12:24-GMT,6409;000000000011
  13753. Return-Path: <kenw@sybase.com>
  13754. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  13755.     by mailhub2.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id PAA13696
  13756.     for <fdc@mailhub.cc.columbia.edu>; Tue, 28 Sep 1999 15:12:22 -0400 (EDT)
  13757. Received: from halon.sybase.com (halon.sybase.com [192.138.151.33])
  13758.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id PAA06997
  13759.     for <fdc@watsun.cc.columbia.edu>; Tue, 28 Sep 1999 15:12:19 -0400 (EDT)
  13760. Received: from smtp1.sybase.com (sybgate.sybase.com [130.214.220.35])
  13761.     by halon.sybase.com  with ESMTP id MAA25099;
  13762.     Tue, 28 Sep 1999 12:11:20 -0700 (PDT)
  13763. Received: from birdie.sybase.com (birdie.sybase.com [130.214.140.3])
  13764.     by smtp1.sybase.com  with SMTP id MAA19920;
  13765.     Tue, 28 Sep 1999 12:12:14 -0700 (PDT)
  13766. Received: by birdie.sybase.com (5.x/SMI-SVR4/SybEC3.5)
  13767.     id AA12713; Tue, 28 Sep 1999 12:12:13 -0700
  13768. Date: Tue, 28 Sep 1999 12:12:13 -0700
  13769. From: kenw@sybase.com (Kenneth Whistler)
  13770. Message-Id: <9909281912.AA12713@birdie.sybase.com>
  13771. To: fdc@watsun.cc.columbia.edu
  13772. Subject: RE: A basic question on encoding Latin characters
  13773. Cc: unicode@unicode.org, kenw@sybase.com
  13774. X-Sun-Charset: ISO-8859-1
  13775.  
  13776. Frank continued this discussion:
  13777.  
  13778. > > If the protocol says that "login:" is to be acted upon, I don't see why
  13779. > > the terminal-side script couldn't act on it without waiting for eventual
  13780. > > combining characters that won't be coming.  There's no use in waiting for
  13781. > > the next base character, the triggering string has been received.
  13782. > >
  13783. > But then is the application "Unicode compliant"?
  13784.  
  13785. Of course it is. If the application is waiting for "login:", it is not
  13786. waiting for "login:" with an acute accent on the colon. It is interpreting
  13787. what it is supposed to, given the characters encoded at the code
  13788. values they have. If the communicator then sends a combining acute accent,
  13789. that is a *protocol* error, not a Unicode compliance problem.
  13790.  
  13791. >  But more to the point
  13792. > (bearing in mind that we are speaking not just of logging in, but any prompt
  13793. > and response), if we ignore the possibility that combining characters might
  13794. > follow the trigger string, then we can have "false positives", or for that
  13795. > matter also false negatives.
  13796.  
  13797. Once again, this would be a *protocol* error. If the communication protocol
  13798. is waiting for "xxxxß", then it should act when it receives the final
  13799. "ß" as a unit, or if it has received an "a", then it should act when it
  13800. receives the final combining acute accent. And ordinarily the communication
  13801. protocol should specify a normalized form, so it doesn't have to deal
  13802. with alternative forms as equivalent for these purposes.
  13803.  
  13804. And many of these call/response protocols wait for a control code as the
  13805. trigger anyway, right? Very often the EOL. Otherwise they are rather
  13806. badly behaved, for interactive work anyway, since a host would then always
  13807. be sending bad typists irrelevant error messages without letting them
  13808. backspace and correct their errors before committing to send a chunk for
  13809. interpretation as a response/command/whatever.
  13810.  
  13811. > "Mark E. Davis" <markdavis@ispchannel.com> wrote:
  13812. > > We should make it very clear that Normalization Form C does *not*
  13813. > > eliminate combining characters. It does precompose them where possible,
  13814. > > but for many scripts and characters it is not possible, or desireable.
  13815. > > 
  13816. > Yes, this is spelled out very clearly in the technical report.  In this way
  13817. > Unicode Normalization Form C differs from ISO 10646 Implementation Level 1,
  13818. > in which "a CC element shall not contain coded representations of combining
  13819. > characters".  I think this more accurately represents the position taken by
  13820. > the authors of Plan 9 and (correct me if I'm wrong) those working on the
  13821. > Linux console and UTF-8 xterm.
  13822.  
  13823. And as the Unicoders have continually pointed out, Implementation Level 1
  13824. is a crutch for brain-damaged implementations that cannot handle anything
  13825. complex. It rules out support for all of the complex scripts of the world.
  13826. It does, however, do a reasonable job of covering Europe and East Asia,
  13827. aside from some minority languages. Hmmm. Sound like a recipe for maintaining
  13828. the computing access status quo to anyone?
  13829.  
  13830. > > Exactly the same problem that you discuss occurs with any script that
  13831. > > requires shaping. When I type an Arabic character, the previous character
  13832. > > needs to change shape. What the terminal needs to do is replace the glyph
  13833. > > on the screen with a different form. As I recall from my terminal days,
  13834. > > the controls for doing this are available. The same technique can be used
  13835. > > for accents. Type an A, see an A.  Then type an umlaut, and the host picks
  13836. > > it up, decides that it needs a composed presentation form, and replaces
  13837. > > the A by ─ on the screen. Of course, the display on the terminal still
  13838. > > depends on the ''font" that it has, which may or may not allow dynamic
  13839. > > composition, but fundamentally I don't see the problem.
  13840. > > 
  13841. > The real problem comes in scripting.  Scripts are a method of forcing
  13842. > intrinsically noncooperating processes to cooperate.  Suppose a script is
  13843. > looking for "ABC", and ABC comes.  If the next character will be a combining
  13844. > cedilla, this would not be a match.  But if no more characters are coming
  13845. > (e.g. until there is some kind of response) then it would be, but how can
  13846. > the script know? 
  13847.  
  13848. By the EOL or other end-of-content marking built into the protocol.
  13849.  
  13850. How many of these script protocols can you point to that really are
  13851. sitting posed hair-triggered forever waiting for the right (character)
  13852. byte to come down the wire? Or if they are, isn't the triggering character
  13853. usually a control delimiter of some sort? If you are worried about
  13854. false positives for some string followed by a combining character,
  13855. why not that same string followed by *ANY* character. You would have
  13856. to guarantee that no long response has any prefix that could be
  13857. misinterpreted (before the response was completely received) as a
  13858. shorter response.
  13859.  
  13860. > The best we can do is set a timeout period that is long
  13861. > enough to allow for the longest possible intercharacter spacing on the
  13862. > busiest day of the Internet and hope we haven't guessed wrong.
  13863.  
  13864. Why isn't this exactly the same problem for any prefix of any response,
  13865. even without combining characters?
  13866.  
  13867. >  And even if
  13868. > we haven't, this technique would cause every match to consume the entire 
  13869. > timeout interval.
  13870.  
  13871. Sounds like a purty flimsy strawman to me.
  13872.  
  13873. --Ken
  13874.  
  13875. > - Frank
  13876.  
  13877. 28-Sep-99 20:24:53-GMT,4492;000000000001
  13878. Return-Path: <unicode@unicode.org>
  13879. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  13880.     by mailhub3.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id QAA03196
  13881.     for <fdc@mailhub.cc.columbia.edu>; Tue, 28 Sep 1999 16:24:52 -0400 (EDT)
  13882. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  13883.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id QAA24140
  13884.     for <fdc@watsun.cc.columbia.edu>; Tue, 28 Sep 1999 16:24:49 -0400 (EDT)
  13885. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  13886.     by public.lists.apple.com (8.9.1a/8.9.1) with ESMTP id NAA68116
  13887.     ; Tue, 28 Sep 1999 13:20:25 -0700
  13888. Received: (from daemon@localhost)
  13889.     by unicode.org (8.9.3/8.9.3) id NAA08207;
  13890.     Tue, 28 Sep 1999 13:16:17 -0700 (PDT)
  13891. Message-Id: <199909282016.NAA08207@unicode.org>
  13892. Errors-To: root@unicode.org
  13893. X-UML-Sequence: 9892 (1999-09-28 20:16:05 GMT)
  13894. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  13895. To: "Unicode List" <unicode@unicode.org>
  13896. Cc: unicode@unicode.org
  13897. Date: Tue, 28 Sep 1999 13:16:04 -0700 (PDT)
  13898. Subject: RE: A basic question on encoding Latin characters
  13899.  
  13900. Ken wrote:
  13901. > Sounds like a purty flimsy strawman to me.
  13902. >
  13903. It might well be.
  13904.  
  13905. > > But if no more characters are coming
  13906. > > (e.g. until there is some kind of response) then it would be [a match],
  13907. > > but how can the script know? 
  13908. > By the EOL or other end-of-content marking built into the protocol.
  13909. But there is no protocol.  Most prompts do not end with an EOL.
  13910.  
  13911. A script is by nature an attempt to codify human behavior in a
  13912. stimulus-response situation.  The stimuli are designed for people, not
  13913. protocols, and in any case are usually not changeable (maybe you can change
  13914. them, but as soon as you do be prepared for screams of agony to go up from
  13915. the masses who, unbeknownst to you, depend for the livelihood on the prompts
  13916. not changing).  Thus the script must adapt to whatever is on the other end
  13917. of the connection.
  13918.  
  13919. If the prompt is "login:" with no EOL, we can't force an EOL to come; ditto
  13920. for other dialog situations in which the prompt more likely to end with some
  13921. character that might reasonably be followed by a combining character (or not).
  13922.  
  13923. > ... ordinarily the communication
  13924. > protocol should specify a normalized form, so it doesn't have to deal
  13925. > with alternative forms as equivalent for these purposes.
  13926. >
  13927. I believe this is what telecommunications-oriented platforms and/or
  13928. applications are doing when they avoid the issue of combining forms by saying
  13929. they don't support them.
  13930.  
  13931. > ... as the Unicoders have continually pointed out, Implementation Level 1
  13932. > is a crutch for brain-damaged implementations that cannot handle anything
  13933. > complex. It rules out support for all of the complex scripts of the world.
  13934. >
  13935. Meaning Indic, Arabic, etc...  Of course this is true, and yet Level 1 exists
  13936. and developers will use it.  We have in UTF-8 a vigorous attempt to embrace
  13937. the "legacy" terminal/host world and existing applications to promote easy
  13938. migration from ASCII to Unicode (and somewhat less easy from 8-bit character
  13939. sets).  But these very platforms are accessed in a simple and open manner
  13940. which does not mesh well with complex scripts.
  13941.  
  13942. We might wish to wipe away the legacy of fifty years of computing and start
  13943. over (in more ways than one!) but I fear there will never be a replacement
  13944. for the simple and open terminal/host access method that will support
  13945. complex scripts and still be as open and vendor-neutral as the terminal/host
  13946. model.  We are suffering already from the lack of open (e.g. Telnet) access
  13947. to Macintosh and Windows platforms.
  13948.  
  13949. I'm not saying I know what to do, only that "throw away your medieval tools
  13950. and enter the modern age" is as likely to result in a new Tower of Babel as
  13951. it is to promote universal communication.  But this time the Babel is not in
  13952. character sets but in the profusion of ever-changing and incompatible
  13953. vendor- and application-specific protocols and data formats.
  13954.  
  13955. Perhaps it's all a tempest in a teapot.  For some time to come we will have
  13956. all possible combinations of "legacy" and Unicode-aware hosts and clients,
  13957. and we have to allow for each combination.  Different problems will come up
  13958. in each configuation, and we'll see how to deal with them.  My hope is that
  13959. it will not be by inventing a neverending stream of Three-Letter Acronyms to
  13960. "comply" with, on top of Unicode itself, just to get text from point A to
  13961. point B.  If you thought you hated ISO 2022, just think of the standards
  13962. nightmare that will grow out of that!
  13963.  
  13964. - Frank
  13965.  
  13966. 30-Sep-99 15:24:27-GMT,2366;000000000001
  13967. Return-Path: <unicode@unicode.org>
  13968. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  13969.     by mailhub1.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id LAA18471
  13970.     for <fdc@mailhub.cc.columbia.edu>; Thu, 30 Sep 1999 11:24:26 -0400 (EDT)
  13971. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  13972.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id LAA03290
  13973.     for <fdc@watsun.cc.columbia.edu>; Thu, 30 Sep 1999 11:24:25 -0400 (EDT)
  13974. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  13975.     by public.lists.apple.com (8.9.1a/8.9.1) with ESMTP id IAA59704
  13976.     ; Thu, 30 Sep 1999 08:20:30 -0700
  13977. Received: (from agent@localhost)
  13978.     by unicode.org (8.9.3/8.9.3) id IAA28518;
  13979.     Thu, 30 Sep 1999 08:17:53 -0700 (PDT)
  13980. Message-Id: <199909301517.IAA28518@unicode.org>
  13981. Errors-To: root@unicode.org
  13982. X-UML-Sequence: 9977 (1999-09-30 15:17:17 GMT)
  13983. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  13984. To: "Unicode List" <unicode@unicode.org>
  13985. Cc: unicode@unicode.org
  13986. Date: Thu, 30 Sep 1999 08:17:12 -0700 (PDT)
  13987. Subject: RE: A basic question on encoding Latin characters
  13988.  
  13989. Karlsson Kent - keka <keka@im.se> wrote:
  13990. > Frank wrote:
  13991. > > or word processor (etc), is the fixed-width aspect.  I can send you
  13992. > > email (as I am doing now, with my medieval text-based email client)
  13993. > > with every expectation that it will look the same to you as it does
  13994. > > to me, even if it includes tables, source code, or anything else
  13995. > For heavens sake don't assume that!  My default view of emails is via
  13996. > a proportional font.  And so it is for many others too.  And even if
  13997. > I do something to view a message via a "fixed width" font, the tab
  13998. > positions are not where you had them.  And I'm not too inclined to
  13999. > fiddle with the tab positions, unless it is a VERY important e-mail.
  14000. This is a topic that was discussed at great length in May-July 1997 and
  14001. then again in July-August 1999.  The upshot is, I need to write a draft
  14002. Unicode technical report to clarify what is meant by "plain text", and
  14003. to propose guidelines for vendor- and application-independent
  14004. self-contained preformatted Unicode plain text that can endure into the
  14005. distant future and remain useful even as fads and fancies change.
  14006.  
  14007. Anybody who would like to review the discussion so far should be able to
  14008. find it in the Unicode mail archive:
  14009.  
  14010.   ftp://ftp.unicode.org/Public/MailArchive/
  14011.  
  14012. - Frank
  14013.  
  14014. 20-Oct-99  5:06:39-GMT,1826;000000000001
  14015. Return-Path: <unicode@unicode.org>
  14016. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  14017.     by mailhub2.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id BAA04268
  14018.     for <fdc@mailhub.cc.columbia.edu>; Wed, 20 Oct 1999 01:06:38 -0400 (EDT)
  14019. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  14020.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id BAA00311
  14021.     for <fdc@watsun.cc.columbia.edu>; Wed, 20 Oct 1999 01:06:37 -0400 (EDT)
  14022. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  14023.     by public.lists.apple.com (8.9.1a/8.9.1) with ESMTP id WAA54072
  14024.     ; Tue, 19 Oct 1999 22:01:56 -0700
  14025. Received: (from daemon@localhost)
  14026.     by unicode.org (8.9.3/8.9.3) id VAA05826;
  14027.     Tue, 19 Oct 1999 21:55:58 -0700 (PDT)
  14028. Message-Id: <199910200455.VAA05826@unicode.org>
  14029. Errors-To: root@unicode.org
  14030. Mime-Version: 1.0
  14031. Content-Type: text/plain;
  14032.      charset=ISO-8859-1
  14033. Content-Disposition: inline
  14034. X-UML-Sequence: 10336 (1999-10-20 04:55:46 GMT)
  14035. From: Doug Ewell <dewell@compuserve.com>
  14036. To: "Unicode List" <unicode@unicode.org>
  14037. Date: Tue, 19 Oct 1999 21:55:45 -0700 (PDT)
  14038. Subject: Re: verification: RE: LATIN CAPITAL LETTER REVERSED K?
  14039. Content-Transfer-Encoding: 8bit
  14040. X-MIME-Autoconverted: from quoted-printable to 8bit by mailhub2.cc.columbia.edu id BAA04268
  14041.  
  14042. Gregg Reynolds wrote:
  14043.  
  14044. > In a semi-serious vein:  wouldn't box-score notation be a suitable
  14045. > candidate for encoding?  It's pretty standard, has a specific syntax,
  14046. > and is spoken by millions.
  14047.  
  14048. It's definitely a higher-level protocol.  It's just like music notation:
  14049. two-dimensional layout, uses symbols not otherwise found in plain text,
  14050. and relies heavily on the relative positioning of these symbols.
  14051.  
  14052. A computer encoding of baseball scoring notation would be cool, but it's
  14053. not within the scope of Unicode.
  14054.  
  14055. -Doug Ewell
  14056.  Placentia, California
  14057.  
  14058. 20-Oct-99  7:36:40-GMT,3589;000000000001
  14059. Return-Path: <unicore@unicode.org>
  14060. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  14061.     by mailhub2.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id DAA25352
  14062.     for <fdc@mailhub.cc.columbia.edu>; Wed, 20 Oct 1999 03:36:40 -0400 (EDT)
  14063. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  14064.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id DAA13489
  14065.     for <fdc@watsun.cc.columbia.edu>; Wed, 20 Oct 1999 03:36:39 -0400 (EDT)
  14066. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  14067.     by public.lists.apple.com (8.9.1a/8.9.1) with ESMTP id AAA21852
  14068.     ; Wed, 20 Oct 1999 00:34:37 -0700
  14069. Received: (from daemon@localhost)
  14070.     by unicode.org (8.9.3/8.9.3) id AAA06303;
  14071.     Wed, 20 Oct 1999 00:32:05 -0700 (PDT)
  14072. Message-Id: <199910200732.AAA06303@unicode.org>
  14073. Errors-To: root@unicode.org
  14074. Mime-Version: 1.0
  14075. Content-Type: text/plain; charset=US-ASCII
  14076. Content-Transfer-Encoding: 7bit
  14077. X-UML-Sequence: 3934 (1999-10-20 07:31:27 GMT)
  14078. From: peter_constable@sil.org
  14079. Reply-To: unicore@unicode.org
  14080. To: "Multiple Recipients of Unicore" <unicore@unicode.org>
  14081. Date: Wed, 20 Oct 1999 00:31:25 -0700 (PDT)
  14082. Subject: Re: Regarding the proposal for Mathmatical alphabets
  14083. Content-Transfer-Encoding: 7bit
  14084.  
  14085.  
  14086.  
  14087.        >>Unicode does not, and has never maintained that with no other
  14088.        external >information all text is or should be legible.
  14089.  
  14090.        >Really? What is plain text then?
  14091.  
  14092.        It is a fallacy to think that plain text *by itself* is ever
  14093.        fully semantically specified. If you receive a plain text
  14094.        document that consists of
  14095.  
  14096.        <file>I seem to be having problems with my lifestyle.</file>
  14097.  
  14098.        You might assume you know what the intended meaning is, i.e.
  14099.        that it is an English sentence, but you may be wrong. E.g., it
  14100.        could be a curse in the Blahurg language. The likelihood is
  14101.        that you'll be safe with your assumption in this case, but the
  14102.        possibility does exist that you'll be wrong. This is a rather
  14103.        contrived example, but it need not be:
  14104.  
  14105.        <file>chat</file>
  14106.  
  14107.        What is the meaning of this text? Is it the English word with a
  14108.        meaning related to 'discuss', is it a French word with the
  14109.        meaning 'cat', or is it something else?
  14110.  
  14111.        Plain text is defined, essentially, as a string of unadorned,
  14112.        abstract characters. There is nothing in the definition of
  14113.        plain text that says anything about the interpretation of the
  14114.        text being unambiguous.
  14115.  
  14116.        In the general case, plain text requires several items of
  14117.        additional information in order for it to be correctly
  14118.        interpreted, including at least the following:
  14119.  
  14120.        - encoding
  14121.        - character set
  14122.        - language
  14123.  
  14124.        You might say that the presence of xFE xFF in the first two
  14125.        bytes is sufficient to identify the encoding and character set,
  14126.        but it is not strictly sufficient. It's possible that this is a
  14127.        non-text binary file that happened to start with these two
  14128.        bytes. Likewise, language cannot in *any* case be determined
  14129.        from plain text with *100%* certainty.
  14130.  
  14131.        Now, it may be that in a lot of situations, one can in practice
  14132.        manage to correctly determine the intended interpretation of
  14133.        plain text without this additional information; e.g. if you get
  14134.        a file from a colleague, they probably don't have to identify
  14135.        this information for you explicitly for you to know what
  14136.        they're meaning to convey in the plain text file. But as a
  14137.        general principle, Ken's point is entirely correct.
  14138.  
  14139.  
  14140.        Peter
  14141.  
  14142. 20-Oct-99  8:10:51-GMT,5781;000000000001
  14143. Return-Path: <unicore@unicode.org>
  14144. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  14145.     by mailhub2.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id EAA02003
  14146.     for <fdc@mailhub.cc.columbia.edu>; Wed, 20 Oct 1999 04:10:50 -0400 (EDT)
  14147. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  14148.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id EAA15340
  14149.     for <fdc@watsun.cc.columbia.edu>; Wed, 20 Oct 1999 04:10:50 -0400 (EDT)
  14150. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  14151.     by public.lists.apple.com (8.9.1a/8.9.1) with ESMTP id BAA34392
  14152.     ; Wed, 20 Oct 1999 01:08:16 -0700
  14153. Received: (from daemon@localhost)
  14154.     by unicode.org (8.9.3/8.9.3) id BAA06466;
  14155.     Wed, 20 Oct 1999 01:05:47 -0700 (PDT)
  14156. Message-Id: <199910200805.BAA06466@unicode.org>
  14157. Errors-To: root@unicode.org
  14158. Mime-Version: 1.0
  14159. Content-Type: text/plain; charset=US-ASCII
  14160. Content-Transfer-Encoding: 7bit
  14161. X-UML-Sequence: 3935 (1999-10-20 08:05:18 GMT)
  14162. From: peter_constable@sil.org
  14163. Reply-To: unicore@unicode.org
  14164. To: "Multiple Recipients of Unicore" <unicore@unicode.org>
  14165. Date: Wed, 20 Oct 1999 01:05:17 -0700 (PDT)
  14166. Subject: Re: Mathematical alphabets
  14167. Content-Transfer-Encoding: 7bit
  14168.  
  14169.  
  14170.  
  14171.        >THEREFORE, I propose that all such math symbols be encoded in
  14172.        the BMP, not in plane 1, even if it is necessary to split them
  14173.        between blocks to squeeze them in. Can we find 2000-odd code
  14174.        points in BMP? Math symbols are *too important* to be relegated
  14175.        to plane 1. They are more important than CJKV extensions (only
  14176.        about 5000 han characters are in common use), and more
  14177.        important than the scripts mentioned above and more important
  14178.        than Mongolian or Tibetan. [I am not advocating removal of
  14179.        these scripts or han characters.] All of expanding human
  14180.        knowledge is developed by writing and discussing scientific
  14181.        papers, and this is done internationally, and as more
  14182.        discoveries are made, it is urgent and necessary to encode
  14183.        these papers in a manner in which they can be indexed,
  14184.        accessed, and read on computer.
  14185.  
  14186.        >Do you know what a mess it would be to have to sign every math
  14187.        symbol character as a surrogate? Surrogates are OK for an
  14188.        occasional character, but not for numerous equations. That
  14189.        would significantly bloat text files of scientific papers with
  14190.        mathematical content. And think of what it would do towards the
  14191.        goal of putting mathematical texts on the Internet.
  14192.  
  14193.  
  14194.        Math symbols in the BMP? Please, no. I don't disagree that Math
  14195.        is important. (Having a B. Math degree, I'm also certainly a
  14196.        fan.) I'm just more concerned for living scripts that might be
  14197.        bumped as a result.
  14198.  
  14199.        The scripts you mentioned may not be important to a lot of
  14200.        people, but they're extremely important to those who use them.
  14201.        (By the way, just wanted to clarify that Thaana and Runic are
  14202.        *not at all* in the same category: Thaana is very much a living
  14203.        script: phone books, newspapers, etc.) And there are more like
  14204.        them that really should go into the precious few spots
  14205.        remaining in the BMP.
  14206.  
  14207.        Why these in the BMP rather than math?
  14208.  
  14209.        - Math requires specialized software to handle it regardless of
  14210.        where it's located. If the software is only interpreting the
  14211.        semantics of a math string, the fact that plane 1 characters or
  14212.        surrogates pairs are involved is not a problem. If the software
  14213.        is presenting math strings, then it needs specialised code for
  14214.        layout of formulas anyway, so it isn't a huge burden to add the
  14215.        need to handle plane 1 characters. (The developers/user
  14216.        community in question appear to already be in agreement to
  14217.        using plane 1.)
  14218.  
  14219.        - Other living scripts that are potential candidates for the
  14220.        BMP do not require specialized software; in general, it should
  14221.        be possible to work with these scripts using *any* app that is
  14222.        designed to support BMP text, including your favourite simple,
  14223.        Unicode-enabled, plain text editor. Putting a living script
  14224.        into plane 1 introduces the likelihood that that script will be
  14225.        place at a significant disadvantage for some time since it
  14226.        can't be used by *any* Unicode-enabled tool, but must be used
  14227.        with a smaller set of software. This will have a far worse
  14228.        impact on those language communities affected than would the
  14229.        math community be affected by putting the math stuff in plane
  14230.        1.
  14231.  
  14232.        As for text size, this is really a non-issue. In terms of
  14233.        storage, there is no real concern (I doubt anybody has a
  14234.        database with millions of records of math formulas), and in
  14235.        terms of transmission, it is very likely that the majority of
  14236.        text in a file containing math symbols will be prose text and
  14237.        not math formulas. The impact on the size of the math stings
  14238.        will likely be minimal.
  14239.  
  14240.        As for putting mathematical texts on the internet, the use of
  14241.        surrogates shouldn't be an issue; at least, any current
  14242.        concerns will be temporary limitations only. Eventually,
  14243.        browsers will all be able to handle surrogates, proably sooner
  14244.        than later. (In a browser, the main concern is the ability to
  14245.        render. An extension to the TrueType spec has already been made
  14246.        to allow for rendering of surrogates. I'll be somewhat
  14247.        surprised if the next version of IE doesn't have the ability to
  14248.        render surrogates.)
  14249.  
  14250.        If we could fit math on the BMP without any risk to living
  14251.        scripts for spoken languages, I'd be entirely for it. I'm not
  14252.        sure that's a safe assumption at this point, however.
  14253.  
  14254.  
  14255.        Peter
  14256.  
  14257. 20-Oct-99 12:02:00-GMT,7395;000000000001
  14258. Return-Path: <unicore@unicode.org>
  14259. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  14260.     by mailhub3.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id IAA04424
  14261.     for <fdc@mailhub.cc.columbia.edu>; Wed, 20 Oct 1999 08:01:57 -0400 (EDT)
  14262. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  14263.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id IAA03464
  14264.     for <fdc@watsun.cc.columbia.edu>; Wed, 20 Oct 1999 08:01:56 -0400 (EDT)
  14265. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  14266.     by public.lists.apple.com (8.9.1a/8.9.1) with ESMTP id EAA41754
  14267.     ; Wed, 20 Oct 1999 04:59:44 -0700
  14268. Received: (from daemon@localhost)
  14269.     by unicode.org (8.9.3/8.9.3) id EAA07168;
  14270.     Wed, 20 Oct 1999 04:57:09 -0700 (PDT)
  14271. Message-Id: <199910201157.EAA07168@unicode.org>
  14272. Errors-To: root@unicode.org
  14273. Mime-Version: 1.0
  14274. Content-Type: text/plain; charset="iso-8859-1"
  14275. X-UML-Sequence: 3942 (1999-10-20 11:56:40 GMT)
  14276. From: Michael Everson <everson@indigo.ie>
  14277. Reply-To: unicore@unicode.org
  14278. To: "Multiple Recipients of Unicore" <unicore@unicode.org>
  14279. Date: Wed, 20 Oct 1999 04:56:39 -0700 (PDT)
  14280. Subject: RE: I give up - Ballot document L2/99-330 is now plain text
  14281. Content-Transfer-Encoding: 8bit
  14282. X-MIME-Autoconverted: from quoted-printable to 8bit by mailhub3.cc.columbia.edu id IAA04424
  14283.  
  14284. Ar 11:01 -0700 1999-10-19, scrφobh Michel Suignard:
  14285. >Michael, thanks as usual for your constructive comments.
  14286.  
  14287. You're welcome. I am always happy to be of service.
  14288.  
  14289. >The XML crap as you name it is there to provide round trip capability
  14290. >for the product that created the document (Word 2000).
  14291.  
  14292. Oh, what a good idea. Never mind the rest of us, who don't have that
  14293. particular product, eh? You know, if Microsoft didn't ship stuff that
  14294. screws up everything for others, I would be happy to sing its praises. I
  14295. would love to be able to say "This is a really good thing, enhancing
  14296. interoperability for everyone".
  14297.  
  14298. Instead, every time Microsoft comes out with a new product or document
  14299. format it seems like it chokes everyone who "lags behind" the "cutting
  14300. edge". If you think this isn't true, try using a nice reliable platform
  14301. with trusty software and then live in a world where people are (regularly)
  14302. forced to (pay money to upgrade) to the cutting edge just to _read_ a
  14303. simple document.
  14304.  
  14305. >I inspected the source and I saw that it
  14306. >was created to be read by IE4 and up level (that includes Netscape 4.x
  14307. >version as well).
  14308.  
  14309. It crashed Netscape 4.05 for the Macintosh, which I am using and have been
  14310. using for some time.
  14311.  
  14312. >I tried on both IE5 and Netscape 4.61 and both read the
  14313. >info fine. If a document has to be read by down level browsers it is a good
  14314. >idea to generate it with a lower level (like the version 3 of the browsers).
  14315. >Doing this is an option offered by Word 2000.
  14316.  
  14317. "Down level browsers"? That's rather arrogant. There was nothing wrong with
  14318. my browser, until suddenly Microsoft's new product started spouting all
  14319. kinds of junk into HTML documents which those browsers (which use standard
  14320. HTML) were not designed to read. I am sure that Arnold, expert user as he
  14321. is, will be comforted to know that he can produce documents formatted in a
  14322. way acceptable to most of us.
  14323.  
  14324. >If I could get in which context the problems occured (which browser and
  14325. >version numbers) maybe we can look at it, as stated today there isn't much I
  14326. >can do.
  14327.  
  14328. Netscape 4.05 for the Macintosh. And apparently other people had problems
  14329. as well.
  14330.  
  14331. >Also, there is a downloadble tool in the microsoft web site that will save
  14332. >Michael some time as it does already what he wants to do. It is at:
  14333. >http://officeupdate.microsoft.com/2000/downloadDetails/Msohtmf2.htm
  14334. >Basically the tools strip out all the information that is not used by the
  14335. >browsers.
  14336.  
  14337. I will look at this site, and am curious to know whether it supplies a
  14338. Macintosh version. However, here is the logic. Arnold sends out a document.
  14339. I don't know what it is about. I look at it. It crashes Netscape. I fire up
  14340. this new tool to strip out the crap from it. Finally I can read the
  14341. document and find out (as I have in this case) that it is irrelevant to me.
  14342. What a colossal time-waster.
  14343.  
  14344. >Finally the 'mso-bidi-font-family:Arial' property (not Ariel as mentioned by
  14345. >Michael) ...
  14346.  
  14347. I was always satisfied with "Helvetica" but note in passing that Ariel is a
  14348. character in Shakespeare's Tempest. I didn't realize that "Arial" was
  14349. something else.
  14350.  
  14351. >... is there to indicate to  use Arial for Bidi text in the context
  14352. >used by the document author (ignored by browsers). This is the mechanism
  14353. >used by Word to create font associations. The Arial font in its recent
  14354. >updates support Bidi text, so I don't see what is unbelievable on that
  14355. >syntax.
  14356.  
  14357. The more you overtick the plumbing, the easier it is to stop up the drain.
  14358. Here, dear colleagues, is an analysis of what Word 2000 is doing in this
  14359. instance. Statistics are taken from ClarisWorks' word-count feature.
  14360.  
  14361.                       Plain text         HTML     Crap ratio
  14362. Number of characters:       1279        19772     6% content, 94% crap
  14363. Number of words:             192         1085    18% content, 82% crap
  14364. Number of lines:              53          636     8% content, 92% crap
  14365. Number of paragraphs:         48          572    17% content, 83% crap
  14366. Number of pages:               2           15    13% content, 87% crap
  14367.  
  14368. In order to be fair to Word 2000, and considering for the sake of argument
  14369. _all_ markup to be crap, I set Arnold's document as an ordinary HTML
  14370. document with PageSpinner in the way I normally do. Compare the results
  14371. with the above.
  14372.  
  14373.                       Plain text         HTML     Crap ratio
  14374. Number of characters:       1279         1667    77% content, 23% crap
  14375. Number of words:             192          217    88% content, 18% crap
  14376. Number of lines:              53           75    71% content, 29% crap
  14377. Number of paragraphs:         48           67    72% content, 28% crap
  14378. Number of pages:               2            2   100% content,  0% crap
  14379.  
  14380. Gosh, Word 2000 does seem to add an awful lot of crap.
  14381.  
  14382. Consider some mere mortals like my mother and my brother, as opposed to us
  14383. highly-motivated experts. If we have these problems, what hope have the
  14384. teeming millions? The "unbelievability" of Arial being described as
  14385. "mso-bidi-font-family:Arial" is an indication of the total waste to be
  14386. incurred on my poor mother's hard disk, on the bandwidth carrying the
  14387. message, and on my poor brother's hard disk, when all that my mother was
  14388. trying to send was a 192-word message about visiting at Christmas. What is
  14389. unbelievability is the crudeness of the hack. This 26-character string
  14390. "mso-bidi-font-family:Arial" is repeated _45_ times in Arnold's document!
  14391. That's 1170 characters, a mere 6% of the 94% of the crap in that document.
  14392. And bidirectionality is totally irrelevant to my mother and my brother,
  14393. isn't it? It took me about an hour and a half to deal with this situation
  14394. including writing this e-mail.
  14395.  
  14396. I'm of a mind to send this to the Unicode list, but I suppose I won't.
  14397.  
  14398. Am I Microsoft bashing? I don't think I am. I think they've done something
  14399. they should quickly undo, and with an apology besides.
  14400.  
  14401. --
  14402. Michael Everson * Everson Gunn Teoranta * http://www.indigo.ie/egt
  14403. 15 Port Chaeimhghein ═ochtarach; Baile ┴tha Cliath 2; ╔ire/Ireland
  14404. Guthßn: +353 1 478 2597 ** Facsa: +353 1 478 2597 (by arrangement)
  14405. 27 Pßirc an FhΘithlinn;  Baile an Bh≤thair;  Co. ┴tha Cliath; ╔ire
  14406.  
  14407.  
  14408. 20-Oct-99 13:13:47-GMT,1371;000000000001
  14409. Return-Path: <fdc@watsun.cc.columbia.edu>
  14410. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  14411.     by mailhub3.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id JAA16826
  14412.     for <fdc@mailhub.cc.columbia.edu>; Wed, 20 Oct 1999 09:13:40 -0400 (EDT)
  14413. Received: (from fdc@localhost)
  14414.     by watsun.cc.columbia.edu (8.8.5/8.8.5) id JAA10333;
  14415.     Wed, 20 Oct 1999 09:12:18 -0400 (EDT)
  14416. Date: Wed, 20 Oct 99 9:12:18 EDT
  14417. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  14418. To: unicore@unicode.org
  14419. Subject: RE: Regarding the proposal for Mathmatical alphabets
  14420. In-Reply-To: Your message of Tue, 19 Oct 1999 19:45:34 -0700 (PDT)
  14421. Message-ID: <CMM.0.90.4.940425138.fdc@watsun.cc.columbia.edu>
  14422.  
  14423. > Perhaps this is a legacy of too much emphasis on legibility of plain text.
  14424. > The world has progessed. HTML mail really is better than plain text mail.
  14425. > Yes, there are systems and mail handlers that can't cope but if you keep
  14426. > singing the plain text mantra they will never cope and the users are the
  14427. > losers.
  14428. So you think plain text should be replaced by HTML?  And then all the software
  14429. on earth should be changed to be "HTML-compliant"?  Which HTML?  How often
  14430. must all the software in the world be changed to keep up with it?  What
  14431. happens when HTML itself is overtaken by some new buzzword?
  14432.  
  14433. Plain text has value.  It's like air or water.  Take it away and you'll see.
  14434.  
  14435. - Frank
  14436.  
  14437. 20-Oct-99 13:15:37-GMT,1804;000000000001
  14438. Return-Path: <unicore@unicode.org>
  14439. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  14440.     by mailhub1.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id JAA03029
  14441.     for <fdc@mailhub.cc.columbia.edu>; Wed, 20 Oct 1999 09:15:36 -0400 (EDT)
  14442. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  14443.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id JAA10982
  14444.     for <fdc@watsun.cc.columbia.edu>; Wed, 20 Oct 1999 09:15:35 -0400 (EDT)
  14445. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  14446.     by public.lists.apple.com (8.9.1a/8.9.1) with ESMTP id GAA23588
  14447.     ; Wed, 20 Oct 1999 06:13:45 -0700
  14448. Received: (from daemon@localhost)
  14449.     by unicode.org (8.9.3/8.9.3) id GAA07511;
  14450.     Wed, 20 Oct 1999 06:11:04 -0700 (PDT)
  14451. Message-Id: <199910201311.GAA07511@unicode.org>
  14452. Errors-To: root@unicode.org
  14453. X-UML-Sequence: 3947 (1999-10-20 13:10:25 GMT)
  14454. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  14455. Reply-To: unicore@unicode.org
  14456. To: "Multiple Recipients of Unicore" <unicore@unicode.org>
  14457. Date: Wed, 20 Oct 1999 06:10:23 -0700 (PDT)
  14458. Subject: RE: Regarding the proposal for Mathmatical alphabets
  14459.  
  14460. > Perhaps this is a legacy of too much emphasis on legibility of plain text.
  14461. > The world has progessed. HTML mail really is better than plain text mail.
  14462. > Yes, there are systems and mail handlers that can't cope but if you keep
  14463. > singing the plain text mantra they will never cope and the users are the
  14464. > losers.
  14465. So you think plain text should be replaced by HTML?  And then all the software
  14466. on earth should be changed to be "HTML-compliant"?  Which HTML?  How often
  14467. must all the software in the world be changed to keep up with it?  What
  14468. happens when HTML itself is overtaken by some new buzzword?
  14469.  
  14470. Plain text has value.  It's like air or water.  Take it away and you'll see.
  14471.  
  14472. - Frank
  14473.  
  14474. 20-Oct-99 13:44:47-GMT,2016;000000000001
  14475. Return-Path: <unicore@unicode.org>
  14476. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  14477.     by mailhub1.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id JAA07848
  14478.     for <fdc@mailhub.cc.columbia.edu>; Wed, 20 Oct 1999 09:44:46 -0400 (EDT)
  14479. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  14480.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id JAA18257
  14481.     for <fdc@watsun.cc.columbia.edu>; Wed, 20 Oct 1999 09:44:44 -0400 (EDT)
  14482. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  14483.     by public.lists.apple.com (8.9.1a/8.9.1) with ESMTP id GAA27356
  14484.     ; Wed, 20 Oct 1999 06:43:04 -0700
  14485. Received: (from daemon@localhost)
  14486.     by unicode.org (8.9.3/8.9.3) id GAA07651;
  14487.     Wed, 20 Oct 1999 06:40:12 -0700 (PDT)
  14488. Message-Id: <199910201340.GAA07651@unicode.org>
  14489. Errors-To: root@unicode.org
  14490. Mime-Version: 1.0
  14491. Content-Type: text/plain;
  14492.     charset="iso-8859-1"
  14493. Content-Transfer-Encoding: 7bit
  14494. X-UML-Sequence: 3949 (1999-10-20 13:39:41 GMT)
  14495. From: "Walt Daniels" <wdaniels@bestweb.net>
  14496. Reply-To: unicore@unicode.org
  14497. To: "Multiple Recipients of Unicore" <unicore@unicode.org>
  14498. Date: Wed, 20 Oct 1999 06:39:40 -0700 (PDT)
  14499. Subject: RE: Regarding the proposal for Mathmatical alphabets
  14500. Content-Transfer-Encoding: 7bit
  14501.  
  14502. >>HTML mail really is better than plain text mail.
  14503.  
  14504. >Why?
  14505.  
  14506. Just to take a simple example, italic and bold carry important distinctions
  14507. which make meaning clearer. Both are missing from plain text email unless
  14508. you consider ***bold*** to be a substitute. Or more importantly to me HTML
  14509. mail reformats paragraphs to fit the available screen width. Most mail
  14510. programs just wrap plain text in stupid ways or force you to scroll
  14511. horizontally. I think I can read HTML mail at least 50% faster. Don't forget
  14512. that we got at least that much speedup of reading when most people finally
  14513. gave up all uppercase plain text mail. I don't have any proof but I think I
  14514. understand written material better if I can read it as fast as I think
  14515. without being slowed down for some artificial reason.
  14516.  
  14517. 20-Oct-99 14:24:48-GMT,2642;000000000001
  14518. Return-Path: <unicore@unicode.org>
  14519. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  14520.     by mailhub3.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id KAA01992
  14521.     for <fdc@mailhub.cc.columbia.edu>; Wed, 20 Oct 1999 10:24:45 -0400 (EDT)
  14522. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  14523.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id KAA26170
  14524.     for <fdc@watsun.cc.columbia.edu>; Wed, 20 Oct 1999 10:24:43 -0400 (EDT)
  14525. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  14526.     by public.lists.apple.com (8.9.1a/8.9.1) with ESMTP id HAA27546
  14527.     ; Wed, 20 Oct 1999 07:23:10 -0700
  14528. Received: (from daemon@localhost)
  14529.     by unicode.org (8.9.3/8.9.3) id HAA07808;
  14530.     Wed, 20 Oct 1999 07:20:26 -0700 (PDT)
  14531. Message-Id: <199910201420.HAA07808@unicode.org>
  14532. Errors-To: root@unicode.org
  14533. Mime-Version: 1.0
  14534. Content-Type: text/plain; charset=us-ascii
  14535. Content-Transfer-Encoding: 7bit
  14536. X-UML-Sequence: 3952 (1999-10-20 14:19:57 GMT)
  14537. From: Mark Leisher <mleisher@crl.nmsu.edu>
  14538. Reply-To: unicore@unicode.org
  14539. To: "Multiple Recipients of Unicore" <unicore@unicode.org>
  14540. Date: Wed, 20 Oct 1999 07:19:55 -0700 (PDT)
  14541. Subject: Plain text vs. rich text [was RE: Regarding ....]
  14542. Content-Transfer-Encoding: 7bit
  14543.  
  14544.  
  14545.     Walt> Perhaps this is a legacy of too much emphasis on legibility of plain
  14546.     Walt> text.  The world has progessed. HTML mail really is better than
  14547.     Walt> plain text mail.  Yes, there are systems and mail handlers that
  14548.     Walt> can't cope but if you keep singing the plain text mantra they will
  14549.     Walt> never cope and the users are the losers.
  14550.  
  14551. You've got to be kidding!  Of the thousands of web sites I have browsed, I can
  14552. count the number I find legible on one hand.  It is so bad now that I don't
  14553. even bother reading web pages; I just look for URL's.
  14554.  
  14555. And don't blame the systems and mail handlers for not dealing with markup
  14556. because most of them do so in one way or another.  The point is that those of
  14557. us working in plain text are doing so by choice, not necessity.  And why do we
  14558. choose plain text?  In my case, I find that text with markup noticeably slows
  14559. my reading speed and comprehension.  In short, if the text isn't "designed"
  14560. well enough, I can't read it and usually just delete it.
  14561. -----------------------------------------------------------------------------
  14562. Mark Leisher
  14563. Computing Research Lab            The first virtue is to restrain the tongue;
  14564. New Mexico State University       he approaches nearest to the gods who knows
  14565. Box 30001, Dept. 3CRL             how to be silent, even though he is in the
  14566. Las Cruces, NM  88003             right.    -- Cato the Younger (95-46 B.C.E)
  14567.  
  14568. 20-Oct-99 17:36:39-GMT,2126;000000000001
  14569. Return-Path: <unicore@unicode.org>
  14570. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  14571.     by mailhub2.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id NAA07494
  14572.     for <fdc@mailhub.cc.columbia.edu>; Wed, 20 Oct 1999 13:36:39 -0400 (EDT)
  14573. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  14574.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id NAA14786
  14575.     for <fdc@watsun.cc.columbia.edu>; Wed, 20 Oct 1999 13:36:38 -0400 (EDT)
  14576. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  14577.     by public.lists.apple.com (8.9.1a/8.9.1) with ESMTP id KAA41418
  14578.     ; Wed, 20 Oct 1999 10:33:48 -0700
  14579. Received: (from daemon@localhost)
  14580.     by unicode.org (8.9.3/8.9.3) id KAA09331;
  14581.     Wed, 20 Oct 1999 10:31:22 -0700 (PDT)
  14582. Message-Id: <199910201731.KAA09331@unicode.org>
  14583. Errors-To: root@unicode.org
  14584. Mime-Version: 1.0
  14585. Content-Type: text/plain; charset=us-ascii
  14586. Content-Transfer-Encoding: 7bit
  14587. X-UML-Sequence: 3966 (1999-10-20 17:30:26 GMT)
  14588. From: Mark Leisher <mleisher@crl.nmsu.edu>
  14589. Reply-To: unicore@unicode.org
  14590. To: "Multiple Recipients of Unicore" <unicore@unicode.org>
  14591. Date: Wed, 20 Oct 1999 10:30:24 -0700 (PDT)
  14592. Subject: Re: Plain text vs. rich text [was RE: Regarding ....]
  14593. Content-Transfer-Encoding: 7bit
  14594.  
  14595.  
  14596.     Michael> I can't quite tell why you aren't using some kind of browser that
  14597.     Michael> can read HTML, Mark. That's different from HTML e-mail, though.
  14598.  
  14599. I am one of those people who find most of the "rich text" out there in
  14600. presentation form too distracting to really be useful.  Call it "attention
  14601. deficit disorder," "aesthetic elitism," "Luddism," or whatever, I just find
  14602. the majority of documents on the web as seen through a browser unpalatable to
  14603. the point of being unreadable.
  14604. -----------------------------------------------------------------------------
  14605. Mark Leisher
  14606. Computing Research Lab            The first virtue is to restrain the tongue;
  14607. New Mexico State University       he approaches nearest to the gods who knows
  14608. Box 30001, Dept. 3CRL             how to be silent, even though he is in the
  14609. Las Cruces, NM  88003             right.    -- Cato the Younger (95-46 B.C.E)
  14610.  
  14611. 20-Oct-99 18:09:07-GMT,2689;000000000001
  14612. Return-Path: <unicore@unicode.org>
  14613. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  14614.     by mailhub3.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id OAA15595
  14615.     for <fdc@mailhub.cc.columbia.edu>; Wed, 20 Oct 1999 14:09:04 -0400 (EDT)
  14616. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  14617.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id OAA21864
  14618.     for <fdc@watsun.cc.columbia.edu>; Wed, 20 Oct 1999 14:09:03 -0400 (EDT)
  14619. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  14620.     by public.lists.apple.com (8.9.1a/8.9.1) with ESMTP id LAA32464
  14621.     ; Wed, 20 Oct 1999 11:05:57 -0700
  14622. Received: (from daemon@localhost)
  14623.     by unicode.org (8.9.3/8.9.3) id LAA09613;
  14624.     Wed, 20 Oct 1999 11:03:26 -0700 (PDT)
  14625. Message-Id: <199910201803.LAA09613@unicode.org>
  14626. Errors-To: root@unicode.org
  14627. X-UML-Sequence: 3972 (1999-10-20 18:02:49 GMT)
  14628. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  14629. Reply-To: unicore@unicode.org
  14630. To: "Multiple Recipients of Unicore" <unicore@unicode.org>
  14631. Date: Wed, 20 Oct 1999 11:02:44 -0700 (PDT)
  14632. Subject: Re: I give up - Ballot document L2/99-330 is now plain text
  14633.  
  14634. > Not that this view will be listened to by anyone. But I don't think
  14635. > it's an unreasonable view.
  14636. I agree with it wholeheartedly and greatly enjoyed your rant.  I appreciate
  14637. it especially because I use a plain-text non-MIME email client, so when
  14638. people send *me* html, I see html.  When they send me anything encoded in
  14639. base64, I see base64.  Now I can understand why they might want do this for
  14640. pictures or a sound clip, but for a few lines of text???
  14641.  
  14642. Why would I use a plain-text, non-MIME email client in this day and age?
  14643. Because it does everything I want it to, it's stable, it doesn't infect my
  14644. my computer with viruses, and I have the source code and can fix it if I
  14645. have to.  And because I'm a fast touch-typer -- in the time it takes me to
  14646. reach for the mouse and hunt for some tiny widget to click on, I can whiz
  14647. through 20 email messages, deleting the 15 of them that are junk-mail
  14648. (which, by the way, is almost always filled with Michael's famous "crap" :-)
  14649.  
  14650. With email, I have the same feeling about plain text as I do about
  14651. handwriting in postal mail.  If a hand-addressed letter arrives, it gets top
  14652. priority.  If a glossy multicolored item with glaring headlines arrives, it
  14653. goes directly into the trash.
  14654.  
  14655. I think the Universal Character Set is best understood -- and in fact should
  14656. ONLY be understood -- with reference to plain text.  Of course it CAN be used
  14657. in all kinds of GUI Web browsers, office suites, etc, but it must not depend
  14658. on notions that only apply to GUIs, because all such notions are ephemeral.
  14659. Plain text is forever.
  14660.  
  14661. - Frank
  14662.  
  14663. 20-Oct-99 19:10:06-GMT,1472;000000000001
  14664. Return-Path: <unicore@unicode.org>
  14665. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  14666.     by mailhub1.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id PAA23222
  14667.     for <fdc@mailhub.cc.columbia.edu>; Wed, 20 Oct 1999 15:10:05 -0400 (EDT)
  14668. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  14669.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id PAA06834
  14670.     for <fdc@watsun.cc.columbia.edu>; Wed, 20 Oct 1999 15:10:04 -0400 (EDT)
  14671. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  14672.     by public.lists.apple.com (8.9.1a/8.9.1) with ESMTP id MAA38140
  14673.     ; Wed, 20 Oct 1999 12:07:07 -0700
  14674. Received: (from daemon@localhost)
  14675.     by unicode.org (8.9.3/8.9.3) id MAA09931;
  14676.     Wed, 20 Oct 1999 12:04:18 -0700 (PDT)
  14677. Message-Id: <199910201904.MAA09931@unicode.org>
  14678. Errors-To: root@unicode.org
  14679. X-UML-Sequence: 3978 (1999-10-20 19:03:43 GMT)
  14680. From: Rick McGowan <rmcgowan@apple.com>
  14681. Reply-To: unicore@unicode.org
  14682. To: "Multiple Recipients of Unicore" <unicore@unicode.org>
  14683. Date: Wed, 20 Oct 1999 12:03:41 -0700 (PDT)
  14684. Subject: Re: I give up - Ballot document L2/99-330 is now plain text
  14685.  
  14686. Frank said...
  14687.  
  14688. > all such notions are ephemeral.
  14689. > Plain text is forever.
  14690.  
  14691. Hmmm.  Speaking stylistically, "ephemeral" has too many syllables to be good  
  14692. poetry.  If you're going to make a hummable tune for the refrain, try:
  14693.  
  14694.     All such notions be conceit,
  14695.     but Plain Text is for-e-ver...
  14696.  
  14697. Kind of an "Ein feste Burg" for the Unicodification Church...
  14698.  
  14699.  
  14700.     Rick
  14701.  
  14702. 20-Oct-99 19:35:47-GMT,2097;000000000001
  14703. Return-Path: <unicore@unicode.org>
  14704. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  14705.     by mailhub2.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id PAA12066
  14706.     for <fdc@mailhub.cc.columbia.edu>; Wed, 20 Oct 1999 15:35:46 -0400 (EDT)
  14707. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  14708.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id PAA14032
  14709.     for <fdc@watsun.cc.columbia.edu>; Wed, 20 Oct 1999 15:35:45 -0400 (EDT)
  14710. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  14711.     by public.lists.apple.com (8.9.1a/8.9.1) with ESMTP id MAA47028
  14712.     ; Wed, 20 Oct 1999 12:33:22 -0700
  14713. Received: (from daemon@localhost)
  14714.     by unicode.org (8.9.3/8.9.3) id MAA10118;
  14715.     Wed, 20 Oct 1999 12:30:44 -0700 (PDT)
  14716. Message-Id: <199910201930.MAA10118@unicode.org>
  14717. Errors-To: root@unicode.org
  14718. X-UML-Sequence: 3981 (1999-10-20 19:30:12 GMT)
  14719. From: kenw@sybase.com (Kenneth Whistler)
  14720. Reply-To: unicore@unicode.org
  14721. To: "Multiple Recipients of Unicore" <unicore@unicode.org>
  14722. Cc: kenw@sybase.com
  14723. Date: Wed, 20 Oct 1999 12:30:10 -0700 (PDT)
  14724. Subject: The Unic Ode
  14725.  
  14726. Rick,
  14727.  
  14728. Hmm. In addition to being misguided about mathematical
  14729. truth ;-), now you are offending my sense of metrics.
  14730.  
  14731. > Frank said...
  14732. > > all such notions are ephemeral.
  14733. > > Plain text is forever.
  14734. > Hmmm.  Speaking stylistically, "ephemeral" has too many syllables to be good  
  14735. > poetry.  If you're going to make a hummable tune for the refrain, try:
  14736. >     All such notions be conceit,
  14737. >     but Plain Text is for-e-ver...
  14738. > Kind of an "Ein feste Burg" for the Unicodification Church...
  14739.  
  14740. Hummed to Ein feste Burg, these lines require the addition of
  14741. phantom syllables for the extra notes:
  14742.  
  14743.      All such no(uh)tions be(ee) conceit,
  14744.      but Plai(ai)n Text is for(or)-e-ver..
  14745.  
  14746. Whereas, Frank's text scans as a perfect iambic pentameter blank verse
  14747. couplet:
  14748.  
  14749.      But all such notions are ephemeral,
  14750.       -   '   -    '  -    '  -  ' - '
  14751.      And plain text is forever -- Frank da Cruz.
  14752.       -   '     -   '   - ' -       '    -   '
  14753.  
  14754. A suitable contribution to "The Unic Ode".
  14755.  
  14756. --Ken
  14757.  
  14758. >     Rick
  14759.  
  14760. 20-Oct-99 19:49:50-GMT,1803;000000000001
  14761. Return-Path: <unicore@unicode.org>
  14762. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  14763.     by mailhub2.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id PAA15547
  14764.     for <fdc@mailhub.cc.columbia.edu>; Wed, 20 Oct 1999 15:49:50 -0400 (EDT)
  14765. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  14766.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id PAA16760
  14767.     for <fdc@watsun.cc.columbia.edu>; Wed, 20 Oct 1999 15:49:49 -0400 (EDT)
  14768. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  14769.     by public.lists.apple.com (8.9.1a/8.9.1) with ESMTP id MAA52622
  14770.     ; Wed, 20 Oct 1999 12:47:31 -0700
  14771. Received: (from daemon@localhost)
  14772.     by unicode.org (8.9.3/8.9.3) id MAA10629;
  14773.     Wed, 20 Oct 1999 12:44:45 -0700 (PDT)
  14774. Message-Id: <199910201944.MAA10629@unicode.org>
  14775. Errors-To: root@unicode.org
  14776. Mime-Version: 1.0 (Apple Message framework v123.1)
  14777. Content-Type: text/plain; charset=utf-8
  14778. X-UML-Sequence: 3982 (1999-10-20 19:44:12 GMT)
  14779. From: Rick McGowan <rmcgowan@apple.com>
  14780. Reply-To: unicore@unicode.org
  14781. To: "Multiple Recipients of Unicore" <unicore@unicode.org>
  14782. Date: Wed, 20 Oct 1999 12:44:10 -0700 (PDT)
  14783. Subject: Re: The Unic Ode
  14784.  
  14785. > Hummed to Ein feste Burg, these lines require the addition of
  14786. > phantom syllables for the extra notes:
  14787.  
  14788. Ah, sorry to put you off the track... I was merely *comparing* this couplet  
  14789. to the grandeur of "Ein feste Burg" as an expression of lofty, noble, and  
  14790. eternal thought.  The tune I actually had in mind was an unkempt English  
  14791. folksong whose title I can't recall at the moment... I'm sure it'll come to  
  14792. me after a few pints of grog...
  14793.  
  14794. Whereas, without the addition of "Frank da Cruz"ΓÇïhimself into the couplet,  
  14795. the prior result was a line of iambic pentameter followed by a three-legged  
  14796. iambic pentametrical wannabe...
  14797.  
  14798.     Rick
  14799.  
  14800. 21-Oct-99 10:32:44-GMT,2292;000000000001
  14801. Return-Path: <unicore@unicode.org>
  14802. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  14803.     by mailhub1.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id GAA06069
  14804.     for <fdc@mailhub.cc.columbia.edu>; Thu, 21 Oct 1999 06:32:44 -0400 (EDT)
  14805. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  14806.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id GAA28045
  14807.     for <fdc@watsun.cc.columbia.edu>; Thu, 21 Oct 1999 06:32:43 -0400 (EDT)
  14808. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  14809.     by public.lists.apple.com (8.9.1a/8.9.1) with ESMTP id DAA24904
  14810.     ; Thu, 21 Oct 1999 03:28:50 -0700
  14811. Received: (from daemon@localhost)
  14812.     by unicode.org (8.9.3/8.9.3) id DAA14640;
  14813.     Thu, 21 Oct 1999 03:23:49 -0700 (PDT)
  14814. Message-Id: <199910211023.DAA14640@unicode.org>
  14815. Errors-To: root@unicode.org
  14816. Mime-Version: 1.0
  14817. Content-Type: text/plain; charset="iso-8859-1"
  14818. X-UML-Sequence: 4002 (1999-10-21 10:20:23 GMT)
  14819. From: Michael Everson <everson@indigo.ie>
  14820. Reply-To: unicore@unicode.org
  14821. To: "Multiple Recipients of Unicore" <unicore@unicode.org>
  14822. Date: Thu, 21 Oct 1999 03:20:13 -0700 (PDT)
  14823. Subject: Re: Regarding the proposal for Mathematical alphabets
  14824. Content-Transfer-Encoding: 8bit
  14825. X-MIME-Autoconverted: from quoted-printable to 8bit by mailhub1.cc.columbia.edu id GAA06069
  14826.  
  14827. Ar 17:08 -0700 1999-10-20, scrφobh peter_constable@sil.org:
  14828. >       >We are not encoding mathematics.
  14829. >
  14830. >       >We are encoding the characters needed to represent (most)
  14831. >       current typographical
  14832. >       practice in international mathematical text.
  14833. >
  14834. >       If all this is for is typography and nothing more, then fonts
  14835. >       and styles are sufficient, and the arguments I've presented
  14836. >       regarding symbolic computation are completely irrelevant.
  14837.  
  14838. But it's not. It seems simple: mathematicians want to represent their data
  14839. in plain text, and have shown that they can do so with this solution, and
  14840. that they can't with other solutions. The question is, should they be
  14841. facilitated in this, or should they not?
  14842.  
  14843. --
  14844. Michael Everson * Everson Gunn Teoranta * http://www.indigo.ie/egt
  14845. 15 Port Chaeimhghein ═ochtarach; Baile ┴tha Cliath 2; ╔ire/Ireland
  14846. Guthßn: +353 1 478 2597 ** Facsa: +353 1 478 2597 (by arrangement)
  14847. 27 Pßirc an FhΘithlinn;  Baile an Bh≤thair;  Co. ┴tha Cliath; ╔ire
  14848.  
  14849.  
  14850. 21-Oct-99 16:00:00-GMT,3638;000000000001
  14851. Return-Path: <unicore@unicode.org>
  14852. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  14853.     by mailhub3.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id LAA04222
  14854.     for <fdc@mailhub.cc.columbia.edu>; Thu, 21 Oct 1999 11:59:56 -0400 (EDT)
  14855. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  14856.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id LAA19683
  14857.     for <fdc@watsun.cc.columbia.edu>; Thu, 21 Oct 1999 11:59:55 -0400 (EDT)
  14858. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  14859.     by public.lists.apple.com (8.9.1a/8.9.1) with ESMTP id IAA36152
  14860.     ; Thu, 21 Oct 1999 08:57:53 -0700
  14861. Received: (from daemon@localhost)
  14862.     by unicode.org (8.9.3/8.9.3) id IAA17412;
  14863.     Thu, 21 Oct 1999 08:55:19 -0700 (PDT)
  14864. Message-Id: <199910211555.IAA17412@unicode.org>
  14865. Errors-To: root@unicode.org
  14866. Mime-Version: 1.0
  14867. Content-Type: text/plain; charset="US-ASCII"
  14868. Content-Transfer-Encoding: 7bit
  14869. X-UML-Sequence: 4009 (1999-10-21 15:54:42 GMT)
  14870. From: "Lee Collins" <lcollins@apple.com>
  14871. Reply-To: unicore@unicode.org
  14872. To: "Multiple Recipients of Unicore" <unicore@unicode.org>
  14873. Cc: on@ams.org, bnb@ams.org, "'unicore@unicode.org'" <unicore@unicode.org>
  14874. Date: Thu, 21 Oct 1999 08:54:41 -0700 (PDT)
  14875. Subject: Re: Regarding the proposal for Mathmatical alphabets
  14876. Content-Transfer-Encoding: 7bit
  14877.  
  14878. Lee's response to Murray,
  14879.  
  14880.  
  14881. >> We are willing to drive Japan and other countries to adopt non-Unicode
  14882. >> solutions because we have forced a model of text on them that they find
  14883. >> inconvenient to implement. Why are mathematicians more important?
  14884. >> 
  14885. >I find both the premise and conclusion to be invalid.  In Unicode, we are
  14886. >providing an architecture to fully support Han characters, many in the BMP
  14887. >and many more in higher planes.  Han characters are clearly extremely
  14888. >important in Unicode and are one of the major reasons for Unicode's
  14889. >phenomenal success in the computing industry.
  14890.  
  14891.  
  14892. It appears that you are a new-comer to the history of Han characters in
  14893. Unicode.
  14894.  
  14895. The point here is that Unicode is unwilling to treat Han characters the same
  14896. way that some mathematicians (my mathematician friend who uses serif /
  14897. sans-serif was actually trying to point out that the distinctions
  14898. mathematicians want are open-ended) want their characters treated. I am not
  14899. trying to belittle mathematical usage.
  14900.  
  14901. A Japanese user would like to see the actual Japanese forms of Han
  14902. characters in plain text and sometimes be able to mix in other Han
  14903. languages. They would like to search on Japanese text and not hit Chinese
  14904. han characters. They believe their characters to be as different from
  14905. Chinese as some of the mathematicians believe that bold forms of the Roman
  14906. alphabet are different from plain forms. 
  14907.  
  14908. Unicode does not provide an architecture to support Han characters the way
  14909. that most users of Han characters want them supported. Despite the many
  14910. attempts to revise its history, Unicode in fact was never meant to support
  14911. plain or simple (no layout required) text. If it had been meant to support
  14912. plain text, we would have started thinking in terms of a full 32 bit
  14913. encoding since even in 1988 it was clear that 16 bits would not be
  14914. sufficient for a plain-text model. The solutions offered to Han characters
  14915. users were always couched in terms of some form of attributed text. Over the
  14916. years, Unicode has given in to smaller, more aggressive constituencies who
  14917. argued the need for handling their favorite set of characters in plain text
  14918. and who managed to find a champion in the UTC. The result is that some areas
  14919. might be capable of being handled in plain text, but not the largest and
  14920. most controversial sub-range, the Han.
  14921.  
  14922. Lee
  14923.  
  14924.  
  14925. 22-Oct-99  1:13:33-GMT,7665;000000000001
  14926. Return-Path: <unicode@unicode.org>
  14927. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  14928.     by mailhub3.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id VAA15513
  14929.     for <fdc@mailhub.cc.columbia.edu>; Thu, 21 Oct 1999 21:13:32 -0400 (EDT)
  14930. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  14931.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id VAA17669
  14932.     for <fdc@watsun.cc.columbia.edu>; Thu, 21 Oct 1999 21:13:31 -0400 (EDT)
  14933. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  14934.     by public.lists.apple.com (8.9.1a/8.9.1) with ESMTP id SAA34430
  14935.     ; Thu, 21 Oct 1999 18:08:26 -0700
  14936. Received: (from daemon@localhost)
  14937.     by unicode.org (8.9.3/8.9.3) id SAA23182;
  14938.     Thu, 21 Oct 1999 18:04:03 -0700 (PDT)
  14939. Message-Id: <199910220104.SAA23182@unicode.org>
  14940. Errors-To: root@unicode.org
  14941. Mime-Version: 1.0
  14942. Content-Type: text/plain;
  14943.     charset="iso-8859-1"
  14944. X-UML-Sequence: 10403 (1999-10-22 01:03:47 GMT)
  14945. From: "Reynolds, Gregg" <greynolds@datalogics.com>
  14946. To: "Unicode List" <unicode@unicode.org>
  14947. Date: Thu, 21 Oct 1999 18:03:42 -0700 (PDT)
  14948. Subject: RE: character semiotics (was RE: Mixed up priorities)
  14949.  
  14950. Hi Andrea,
  14951.  
  14952. > -----Original Message-----
  14953. > From: A. Vine [mailto:avine@eng.sun.com]
  14954. > Sent: Thursday, October 21, 1999 6:16 PM
  14955. > "Reynolds, Gregg" wrote:
  14956.  
  14957. > But, Gregg, what is meaning, after all?  Is 'f' a semiotic 
  14958. > unit to you?  Is
  14959. > 'I'?  Does 'I' hold a greater significance than 'f' because 
  14960. > it has another
  14961. > meaning?  Why is 'f' encoded and not 'if'?  If 'if' were what 
  14962. > the average
  14963. > English speaker would identify as a single letter, is it 
  14964. > sufficient to say it's
  14965. > encoded as 'i' + 'f'?
  14966.  
  14967. Good questions, for which I think we can come up with workable (if not
  14968. theologically and cosmically "true") answers.   By workable I mean something
  14969. along the lines of "a system of terms, definitions, etc. that serves to
  14970. closely model the 'real' semiotics of written language (and thus answer to
  14971. the expectations of literate communities) for the purposes of formal
  14972. language design and software specification (thus answering to the
  14973. expectations of software vendors)".  I think it is possible to agree on a
  14974. fairly precise set of formal definitions for modeling written language by
  14975. drawing on linguistics, semiotics, mathematical logic, etc.  Stuff that's
  14976. been around for quite some time, actually.
  14977.  
  14978. The first thing I would note is that our ordinary means of discourse is
  14979. incredibly impoverished when it comes to talking about written language.  We
  14980. have quote marks and and various typographic conventions and that's about
  14981. it.  Very flexible, but not very precise.  So take for example your question
  14982. "is 'f' a semiotic unit": you could be referring to the graphical thingee,
  14983. or the phonological thingee, or a third thingee, or maybe even the
  14984. sign-function thingee that ties some or all of these other thingees
  14985. together.  Etc.  (I would answer yes in each case.)  Great fun, actually.
  14986. And I'm not picking on your usage; examine almost any piece of writing by
  14987. any specialist that discusses grammatology, and you'll find it shot through
  14988. with informal usage that relies on the reader to figure out which register
  14989. to use in interpreting things like 'f' (or should that be "'f'"?).  Watch
  14990. how often it happens on this list.
  14991.  
  14992. In any case, to answer your questions, I would start by positing that we
  14993. need to model two things at least, one being the visual aspect of written
  14994. language (graphemes, visual syntax, etc.) (i.e. the signifiers), and the
  14995. other being the things denoted by such forms.  I think Unicode works on the
  14996. former, not the latter.  I don't have a good term for the latter yet, but
  14997. for now let's call them "grammemes".  ("Cultural unit" is a tad too general
  14998. and would cover just about everything.  I guess we could go for the TLA:
  14999. GCU = grammatical cultural unit.  Wheee!)
  15000.  
  15001. Grammemes are not phonemes.  Research has shown that reading does not
  15002. necessarily involve phonological activity in the brain.  (If you're
  15003. interested I can supply the references).  The set of grammemes associated
  15004. with a particular written language amounts to a theory of language.  They
  15005. represent the cognitive categories literates use to think about language,
  15006. and don't necessarily follow modern linguistic analyis.  "Grammeme" because
  15007. the line between basic units such as "letters" in the traditional sense and
  15008. higher-level grammatical concepts is blurry in some languages.  Arabic
  15009. provides several examples, ta marbuta being the most obvious.  Either a
  15010. medial ta form or a final dotted heh form may represent ta marbuta in
  15011. Arabic, but the name "ta marbuta" itself denotes a complex packaging of
  15012. rules relating phonology, morphology, and syntax.  It is not considered an
  15013. element of the traditional Arabic alphabet, but it is definitely part of
  15014. basic Arabic orthography and literacy - one should be able to search on it,
  15015. for example.  So it's a grammeme.
  15016.  
  15017. I seem to have slipped into dissertation mode again.  Sorry 'bout that.  To
  15018. get back to your questions, I would say that by 'f' we designate a pairing
  15019. of graphic form and grammeme - a sign-function, in semiotic terms.  'I' is
  15020. another; the fact that it can enter into other semiotic (lexical) relations
  15021. can be disregarded, since our guide is the set of 'letter' grammemes
  15022. associated with (pick your language.)  'if' is not encoded because the
  15023. community of literates doesn't think of the graphic form as denoting a
  15024. single irreducable grammeme - if it did, then it would merit a code point,
  15025. as 'ch' in some languages surely does.  
  15026.  
  15027. This does not mean that the graphical form used to represent it cannot be
  15028. analyzed into consituent parts that are themselves encoded.  It would not be
  15029. problematic to say that the grammeme 'if' may be represented visually by the
  15030. sequence of two _graphemes_ 'i' and 'f'.  But "grammeme i" plus "grammeme f"
  15031. does not equal "grammeme if" though they might equal "lexeme if" - that
  15032. would be for higher level protocols to decide.  U+0BCA TAMIL VOWEL SIGN O, I
  15033. am willing to bet, is considered by Tamil literates a single form denoting a
  15034. single grammeme.  But it would be entirely reasonable to analyze the form
  15035. used to denote that grammeme into its constituent parts and encode them
  15036. separately _qua graphic forms_ without a corresponding grammeme denotatum.
  15037.  
  15038. > Is Unicode's lack of capturing the semiotics of written 
  15039. > language a by-product of
  15040. > its philosophy of characters, 
  15041.  
  15042. I think so.  Also of its notion of plain text, and the whole underlying
  15043. notion of "script without language".  It's not the worst idea in the world,
  15044. but it comes at a cost, and I've never seen a real careful analysis of what
  15045. we (well, not me and my pals but certainly others) give up by adopting
  15046. Unicode's modeling strategy.
  15047.  
  15048. > or a result of the restrictions 
  15049. > imposed on it by
  15050. > existing computer systems and software?  
  15051.  
  15052. Must have had a lot to do with it.  But on the other hand, I don't think a
  15053. more balanced approach would necessarily mean software designs incompatible
  15054. with today's software.
  15055.  
  15056. If it were a question of standardizing widget interfaces it wouldn't matter
  15057. much, but we're talking about standardizing a model of language, which is
  15058. pretty close to home for everybody.
  15059.  
  15060. Add another possible cause:  specialization.  Very few people are insane
  15061. enough to try to master the disparate fields (computer science, mathematical
  15062. logic, linguistics, textual theory, psycholinguistics, etc etc) that
  15063. converge here.  Most of the people in the humanities with whom I've
  15064. discussed Unicode have almost no clue as to what plain text is, let alone
  15065. how formal modeling works.  I don't mean that the people involved are not
  15066. qualified, only that the pool is pretty small.
  15067.  
  15068. Cheers,
  15069.  
  15070. Gregg
  15071.  
  15072. 22-Oct-99  1:40:55-GMT,2435;000000000001
  15073. Return-Path: <unicode@unicode.org>
  15074. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  15075.     by mailhub1.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id VAA03943
  15076.     for <fdc@mailhub.cc.columbia.edu>; Thu, 21 Oct 1999 21:40:55 -0400 (EDT)
  15077. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  15078.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id VAA21021
  15079.     for <fdc@watsun.cc.columbia.edu>; Thu, 21 Oct 1999 21:40:54 -0400 (EDT)
  15080. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  15081.     by public.lists.apple.com (8.9.1a/8.9.1) with ESMTP id SAA48014
  15082.     ; Thu, 21 Oct 1999 18:29:46 -0700
  15083. Received: (from daemon@localhost)
  15084.     by unicode.org (8.9.3/8.9.3) id SAA23478;
  15085.     Thu, 21 Oct 1999 18:22:47 -0700 (PDT)
  15086. Message-Id: <199910220122.SAA23478@unicode.org>
  15087. Errors-To: root@unicode.org
  15088. Mime-Version: 1.0
  15089. Content-Type: text/plain;
  15090.     charset="iso-8859-1"
  15091. X-UML-Sequence: 10404 (1999-10-22 01:22:34 GMT)
  15092. From: "Reynolds, Gregg" <greynolds@datalogics.com>
  15093. To: "Unicode List" <unicode@unicode.org>
  15094. Date: Thu, 21 Oct 1999 18:22:31 -0700 (PDT)
  15095. Subject: RE: Mixed up priorities
  15096.  
  15097. > -----Original Message-----
  15098. > From: John Hudson [mailto:tiro@tiro.com]
  15099. > Sent: Thursday, October 21, 1999 7:19 PM
  15100. > At 04:49 PM 21-10-99 -0700, G. Adam Stanislav wrote:
  15101. > with them, but is it true that these sorting and hyphenation rules
  15102. > _require_ encoding of these digraphs as precomposed characters?
  15103. > specific sorting and hyphenation rules. Are you suggesting 
  15104. > that each of
  15105. > these sequences _needs_ to be encoded as a precomposed character?
  15106. > Again, is it _necessary_ for this behaviour to be controlled 
  15107. > by encoding
  15108. > these letters as individual, precomposed characters? If there 
  15109.  
  15110. Why is the burden of proof on the users of the language?  I would turn the
  15111. question around:  is it really _necessary_ to leave slovak/czech "ch" out of
  15112. Unicode?
  15113.  
  15114. > Remember that Unicode is a standard for encoding _plain 
  15115. > text_. Unicode does
  15116. > not contain sorting rules for individual languages, nor does 
  15117. > it contain
  15118. > hyphenation rules for individual languages. Unicode provides 
  15119.  
  15120. I don't see what plaintext, sorting and hyphenation have to do with it.
  15121. Slovak and Czech literates have this thing within their culture, and they
  15122. use "ch" denote it.  So if plaintext doesn't accomodate "ch", then it must
  15123. not be plain text for Slovaks and Czechs.  Why do we need more information
  15124. than that?
  15125.  
  15126. Utterly perplexed,
  15127.  
  15128. Gregg
  15129.  
  15130.  2-Nov-99  4:50:10-GMT,8856;000000000001
  15131. Return-Path: <owner-linux-utf8@nl.linux.org>
  15132. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  15133.     by mailhub1.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id XAA09403
  15134.     for <fdc@mailhub.cc.columbia.edu>; Mon, 1 Nov 1999 23:50:07 -0500 (EST)
  15135. Received: from humbolt.nl.linux.org (humbolt.geo.uu.nl [131.211.28.48])
  15136.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id XAA21631
  15137.     for <fdc@watsun.cc.columbia.edu>; Mon, 1 Nov 1999 23:50:06 -0500 (EST)
  15138. Received: by humbolt.nl.linux.org id <S92167AbPKBEeR>;
  15139.     Tue, 2 Nov 1999 05:34:17 +0100
  15140. Received: from kiev.wall.org ([205.178.11.135]:37094 "EHLO kiev.wall.org"
  15141.         smtp-auth: <none>) by humbolt.nl.linux.org with ESMTP
  15142.     id <S92174AbPKBEdm>; Tue, 2 Nov 1999 05:33:42 +0100
  15143. Received: by kiev.wall.org (8.9.3/8.9.3) id UAA27045;
  15144.     Mon, 1 Nov 1999 20:28:40 -0800 (PST)
  15145. Date:   Mon, 1 Nov 1999 20:28:40 -0800 (PST)
  15146. From: Larry Wall <larry@wall.org>
  15147. Message-Id: <199911020428.UAA27045@kiev.wall.org>
  15148. To: Markus.Kuhn@cl.cam.ac.uk (Markus Kuhn)
  15149. Cc: perl-unicode@perl.org, linux-utf8@nl.linux.org
  15150. Subject: Re: Correct use of UTF-8 under Unix
  15151. In-Reply-To: <E11h8yo-0006Ss-00@heaton.cl.cam.ac.uk>
  15152.  (from Markus Kuhn on Fri, 29 Oct 1999 11:09:52 +0100)
  15153. X-Orcpt: rfc822;linux-utf8@nl.linux.org
  15154. Sender: owner-linux-utf8@nl.linux.org
  15155. Precedence: bulk
  15156. Reply-To: linux-utf8@nl.linux.org
  15157.  
  15158. Markus Kuhn writes:
  15159. : I have just read through the list archive, and noted that a few people
  15160. : might have some doubts about how UTF-8 is used under Unix.
  15161.  
  15162. Well, I just read through your list archive, and I think you are more
  15163. of an idealist than I can afford to be.  You keep saying, "If Plan 9
  15164. can do a complete conversion, so can we."  But you'll notice that
  15165. people aren't in fact using Plan 9, by and large.  Plan 9 is a research
  15166. project.  It doesn't have millions of installations or millions of
  15167. interconnections with other installations.
  15168.  
  15169. Don't get me wrong.  Perl will work fine in your idealized world.  But
  15170. I intend it to work okay in the other world too.  I simultaneously try
  15171. to keep my head in the clouds and my feet on the ground.  Sometimes
  15172. it's a stretch, though.
  15173.  
  15174. : They
  15175. : apparently got confused by many of the features described in the Unicode
  15176. : standard (BOM, line separator, etc.), and thereby completely forgot the
  15177. : big UTF-8 prime directive under Unix:
  15178. :   UTF-8 is ASCII compatible
  15179.  
  15180. Sure, and Perl banks on that to a great extent, but much of the world is
  15181. not ASCII compatible.
  15182.  
  15183. : Not only the encoding, but also the use of it.
  15184.  
  15185. Er, only until you actually start trying to use it for anything both
  15186. useful and un-American, like sorting, or updating your screen...
  15187.  
  15188. : So don't change anything
  15189. : about how ASCII was used when introducing UTF-8, because only this means
  15190. : that UTF-8 can truly substitute ASCII in a realistic way:
  15191.  
  15192. To the extent possible, I agree with you.  :-)
  15193.  
  15194. : This means the following:
  15195. :   - A UTF-8 Unix plain text file that contains only ASCII characters
  15196. :     (and this is the majority of files on Unix installations all over
  15197. :     the world) will *not* change a single bit.
  15198.  
  15199. That may be true, but I don't think it's true enough.  49% of the files
  15200. in the world could be in non-ASCII, and your statement would still be
  15201. strictly true.  But not terribly useful.  The problem is not so much
  15202. files as it is interfaces.  What percentage of the text you use comes
  15203. from the system you're on?  How is that percentage changing over time?
  15204. What about if you're running a Linux set-top box that doesn't even have
  15205. a disk?  Or closer to current reality, did that tar file you just
  15206. unpacked come from a UTF-8 only system?  Will your browser convert text
  15207. to UTF-8 when it saves it?  What's coming down that socket you just
  15208. opened?  What's coming out of the file descriptor my process just
  15209. inherited?  Was it a pipe to a process on my machine, or was it a
  15210. foreign port?
  15211.  
  15212. I'm not suggesting there is an easy answer to this.  In fact, I'm
  15213. suggesting there isn't.  And that any suggestion that there is isn't.
  15214.  
  15215. :   - This means that there is never a BOM at the start of a file. BOMs could
  15216. :     be ignored by special new Unicode programs, but they are definitely
  15217. :     not ignored by the many existing ASCII programs. Adding a
  15218. :     BOM would break a tremendous amount of things and would violate the
  15219. :     prime directive, as BOMs are definitely not ASCII compatible.
  15220.  
  15221. I don't like BOMs either, in case you missed that.  Of course, I loathe
  15222. UTF-16 too, so that's not too terribly surprising.  Surrogate characters
  15223. are too pukey to contemplate.
  15224.  
  15225. :   - This means that lines in UTF-8 plaintext files are terminated
  15226. :     in one and only one way: 0x0a = LF. Neither U+2028 (line separator,
  15227. :     introduced for use inside *.doc-style word processing binary files)
  15228. :     nor overly long UTF-8 sequences for LF such as 0x80 0x8a must be accepted
  15229. :     as line terminators, otherwise we would get into the horrible
  15230. :     scenario that programs start to disagree what exactly a line is
  15231. :     (which a whole load of new security risks associated). Programs
  15232. :     such as "wc -l" must on UTF-8 files without any modification
  15233. :     whatsoever! There is no reason to change the Unix line semantics when
  15234. :     moving from ASCII to UTF-8. U+2028 is treated just like any other
  15235. :     character and has no special meaning in a Unix plaintext file.
  15236.  
  15237. Fine by me, till someone asks to treat a file otherwise, in which case
  15238. they should be let.  What's more at issue is whether a *file* should be
  15239. able to request being treated otherwise, if we give the user the right
  15240. to request that files be given the right to request that they be so
  15241. treated.  Or some such.  :-)
  15242.  
  15243. : How do applications find out that files are now in UTF-8? Simple
  15244. : applications such as cat and echo do not have to. For them UTF-8 is
  15245. : just like ASCII.
  15246.  
  15247. You oversimplify again.  Even "cat -v" has to know how to treat bytes
  15248. with the high bit set.  And "echo -e" probably wants a way to interpolate
  15249. characters larger than can be interpolated by \nnn.
  15250.  
  15251. : However, programs which count characters, position
  15252. : cursors, determine character classes, use regexp, etc. have to know
  15253. : about the file encoding, and there are well-established mechanisms to do
  15254. : that: they are told, preferably via established POSIX mechanisms
  15255. : (LC_CTYPE, LANG), or via other command line switches.
  15256.  
  15257. You have a major showstopper here as far as us Perl folks are
  15258. concerned.  Neither the environment nor the command line can be trusted
  15259. in a setuid situation.  The Perl community is for this reason
  15260. particularly leary of anything having to do with locales.  I noticed
  15261. that you frequently invoke the name of POSIX on your mailing list, but
  15262. that won't work here.  Around here people will actually shudder if you
  15263. say "POSIX".
  15264.  
  15265. : Ideally, all that should be necessary to turn a Unix installation into a
  15266. : pure UTF-8 system is the addition of the line
  15267. :   export LC_CTYPE=UTF-8
  15268. : in /etc/profile, plus conversion of the existing ISO 8859, JIS, KOI8,
  15269. : etc. files and file names.
  15270.  
  15271. No.  It is not ideal.  If you're going to have a kernel-wide switch,
  15272. then ideally the kernel should tell the process.  The environment
  15273. simply cannot be trusted, any historical POSIX botches to the contrary
  15274. notwithstanding.  You've been arguing for LC_CTYPE for several months
  15275. now.  I hope you haven't argued for it for so long that you can't see
  15276. its problems anymore.
  15277.  
  15278. As for Perl, although it will ideally keep everything as UTF-8
  15279. internally, it'll still be assuming that it has to know on an
  15280. interface-by-interface basis whether to expect UTF-8 or something
  15281. else.  Even on your idealized Linux, we'll still have to know what to
  15282. do with the sockets connected to the real world.  It is not so much
  15283. more of a stretch for us to decide on a file-by-file basis, using the
  15284. best available information.  On your ideal system, the best available
  15285. information might be that we should always guess files to be UTF-8.
  15286. That's fine.  But please don't use the environment to convey such
  15287. important, system-wide information.
  15288.  
  15289. : Editors and terminal emulators will then
  15290. : activate their UTF-8 modes, email software will convert received
  15291. : messages from the indicated MIME character set into UTF-8 before saving
  15292. : them as a file, etc. We are not quite there yet, but that should be the
  15293. : long-term goal.
  15294.  
  15295. I would like that too.  But Perl has always been about getting from here
  15296. to there, and this is very much a getting-from-here-to-there problem.
  15297.  
  15298. Nevertheless, I do appreciate idealists--at least as long as they're
  15299. not collectivizing the peasants, some of whom were my third cousins
  15300. living in the Ukraine before they were starved to death.  So I feel I
  15301. owe it to them to be able to distinguish Unicode from Russian.
  15302.  
  15303. When the whole world joins your collective, I'll say I believed in it
  15304. all along.  :-)
  15305.  
  15306. Larry
  15307. -
  15308. Linux-UTF8:   i18n of Linux on all levels
  15309. Archive:      http://mail.nl.linux.org/lists/
  15310.  
  15311.  2-Nov-99 13:54:02-GMT,13157;000000000001
  15312. Return-Path: <owner-linux-utf8@nl.linux.org>
  15313. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  15314.     by mailhub2.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id IAA08748
  15315.     for <fdc@mailhub.cc.columbia.edu>; Tue, 2 Nov 1999 08:53:57 -0500 (EST)
  15316. Received: from humbolt.nl.linux.org (humbolt.geo.uu.nl [131.211.28.48])
  15317.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id IAA17428
  15318.     for <fdc@watsun.cc.columbia.edu>; Tue, 2 Nov 1999 08:53:56 -0500 (EST)
  15319. Received: by humbolt.nl.linux.org id <S92199AbPKBNY1>;
  15320.     Tue, 2 Nov 1999 14:24:27 +0100
  15321. Received: from mailgw.imt.im.se ([195.100.17.67]:44542 "EHLO mail-gw.imt.im.se"
  15322.         smtp-auth: <none>) by humbolt.nl.linux.org with ESMTP
  15323.     id <S92191AbPKBNYC>; Tue, 2 Nov 1999 14:24:02 +0100
  15324. Received: from msxsth1.im.se (msxsth1.im.se [193.14.16.108])
  15325.     by mail-gw.imt.im.se (8.9.3/8.9.3) with ESMTP id OAA24644;
  15326.     Tue, 2 Nov 1999 14:21:09 +0100
  15327. Received: by msxsth1 with Internet Mail Service (5.5.2650.21)
  15328.     id <VTK5C5A5>; Tue, 2 Nov 1999 14:23:06 +0100
  15329. Message-ID: <C110A2268F8DD111AA1A00805F85E58DA683BD@ntgbg1>
  15330. From: Karlsson Kent - keka <keka@im.se>
  15331. To: "'linux-utf8@nl.linux.org'" <linux-utf8@nl.linux.org>
  15332. Cc: perl-unicode@perl.org
  15333. Subject: RE: Correct use of UTF-8 under Unix
  15334. Date:   Tue, 2 Nov 1999 14:21:40 +0100 
  15335. MIME-Version: 1.0
  15336. X-Mailer: Internet Mail Service (5.5.2650.21)
  15337. Content-Type: multipart/alternative;
  15338.     boundary="----_=_NextPart_001_01BF2535.65AC0570"
  15339. X-Orcpt: rfc822;linux-utf8@nl.linux.org
  15340. Sender: owner-linux-utf8@nl.linux.org
  15341. Precedence: bulk
  15342. Reply-To: linux-utf8@nl.linux.org
  15343.  
  15344. This message is in MIME format. Since your mail reader does not understand
  15345. this format, some or all of this message may not be legible.
  15346.  
  15347. ------_=_NextPart_001_01BF2535.65AC0570
  15348. Content-Type: text/plain;
  15349.     charset="iso-8859-1"
  15350.  
  15351. (Note: I don't subscribe to perl-unicode@perl.org, only to
  15352. linux-utf8@nl.linux.org, and I don't have Markus's original
  15353. message that is quoted below.)
  15354.  
  15355.  
  15356. > :   - This means that lines in UTF-8 plaintext files are terminated
  15357. > :     in one and only one way: 0x0a = LF.
  15358.  
  15359. That is not true.  "lines" in UTF-8 text files may be terminated by 
  15360. LINE FEED, CARRIAGE RETURN, CARRIAGE RETURN+LINE FEED, NEXT LINE,
  15361. or end-of-file, or be separated by LINE SEPARATOR or PARAGRAPH SEPARATOR
  15362. (which is in some sense 'stronger' than line separator).
  15363.  
  15364. (I don't know what originally came before the "This means that" in
  15365. Markus's message.)
  15366.  
  15367.  
  15368. >                            Neither U+2028 (line
  15369. separator,
  15370. > :     introduced for use inside *.doc-style word processing binary files)
  15371.  
  15372. That is not true.  LINE SEPARATOR and PARAGRAPH SEPARATOR were once
  15373. introduced in the hope that they would "clear up the line ending mess".
  15374. (Whether they are used in ".doc"-style documents is a separate issue.)
  15375. That hope has not come to fruition yet, and it will take time before
  15376. the "line ending mess" is overcome whatever way is used to overcome it.
  15377. Unicode Technical Report 13, Unicode Newline Guidelines
  15378. (http://www.unicode.org/unicode/reports/tr13/), gives some guidelines
  15379. on how to increase the interoperability with regard to "new line
  15380. function" (NLF) and LS/PS handling.  Basically the recommendation is
  15381. to accept all commonly occurring NLFs: CR, CR+LF, LF, the EBCDIC
  15382. originated NL (NEXT LINE; U+0085; admittedly rare), as well as
  15383. LS and PS (and allow EOF to 'terminate a line').  I think they
  15384. should be accepted in any mixture.
  15385.  
  15386. Most(?) C compilers already appear to handle at least both LF and CR+LF
  15387. (mixed) fairly well.  This makes it easier to handle C source files in a
  15388. "mixed environment".  Shell scripts, yacc/bison files, etc. are still
  15389. problematic since their lexers still expect only LF.
  15390.  
  15391.  
  15392. > :     nor overly long UTF-8 sequences for LF such as 0x80 0x8a must be
  15393. accepted
  15394.  
  15395. True, unduly long UTF-8 encodings in general should be considered malformed.
  15396.  
  15397.  
  15398. > :     as line terminators, otherwise we would get into the horrible
  15399. > :     scenario that programs start to disagree what exactly a line is
  15400. > :     (which a whole load of new security risks associated). Programs
  15401. > :     such as "wc -l" must on UTF-8 files without any modification
  15402. > :     whatsoever! There is no reason to change the Unix line semantics
  15403. when
  15404. > :     moving from ASCII to UTF-8. U+2028 is treated just like any other
  15405. > :     character and has no special meaning in a Unix plaintext file.
  15406.  
  15407. U+2028 and U+2029 should be handled as just another way of
  15408. indicating line separation/end (as should end-of-file) for the
  15409. purposes of perl/C/lex/bison/Ada/etc. Neither of these need to
  15410. distinguish between line and paragraph separation, and all of
  15411. these ways of terminating/separating lines should be treated
  15412. the same, for increased interoperability.
  15413.  
  15414. Of course, to be able to detect NL, LS, and PS one needs to know
  15415. the character encoding first, since they have different codes and
  15416. are indeed not possible to represent in all encodings.  But the
  15417. same goes for NL and CR too really, if UTF-16 is allowed, which
  15418. it should be in at least some circumstances. (No, I don't like
  15419. little endianism nor "BOM".)
  15420.  
  15421. Note that several programming languages, e.g. Java, Ada, and C,
  15422. allow non-ASCII in identifiers, with identifier identity defined
  15423. via the UCS. But they don't require a particular character
  15424. encoding for the source files, so compilers for these programming
  15425. languages MUST 'know' the character encoding of an individual
  15426. source file (via a compiler flag, system/individual/folder default,
  15427. or similar) in order to compile the source code correctly anyway.
  15428. Similarly for XML and its tag and attribute names, but each XML
  15429. file should self-declare which character encoding it is in.
  15430.  
  15431. Which way of ending/terminating lines should be prefered on output?
  15432. Might depend on a preference setting, or an editing change (like
  15433. "turn all NLFs into LS").
  15434.  
  15435.         Kind regards
  15436.         /Kent Karlsson
  15437.  
  15438. ------_=_NextPart_001_01BF2535.65AC0570
  15439. Content-Type: text/html;
  15440.     charset="iso-8859-1"
  15441. Content-Transfer-Encoding: quoted-printable
  15442.  
  15443. <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
  15444. <HTML>
  15445. <HEAD>
  15446. <META HTTP-EQUIV=3D"Content-Type" CONTENT=3D"text/html; =
  15447. charset=3Diso-8859-1">
  15448. <META NAME=3D"Generator" CONTENT=3D"MS Exchange Server version =
  15449. 5.5.2650.12">
  15450. <TITLE>RE: Correct use of UTF-8 under Unix</TITLE>
  15451. </HEAD>
  15452. <BODY>
  15453.  
  15454. <P><FONT SIZE=3D2>(Note: I don't subscribe to perl-unicode@perl.org, =
  15455. only to</FONT>
  15456. <BR><FONT SIZE=3D2>linux-utf8@nl.linux.org, and I don't have Markus's =
  15457. original</FONT>
  15458. <BR><FONT SIZE=3D2>message that is quoted below.)</FONT>
  15459. </P>
  15460. <BR>
  15461.  
  15462. <P><FONT SIZE=3D2>> :   - This means that lines in UTF-8 =
  15463. plaintext files are terminated</FONT>
  15464. <BR><FONT SIZE=3D2>> :     in one and only one =
  15465. way: 0x0a =3D LF.</FONT>
  15466. </P>
  15467.  
  15468. <P><FONT SIZE=3D2>That is not true.  "lines" in UTF-8 =
  15469. text files may be terminated by </FONT>
  15470. <BR><FONT SIZE=3D2>LINE FEED, CARRIAGE RETURN, CARRIAGE RETURN+LINE =
  15471. FEED, NEXT LINE,</FONT>
  15472. <BR><FONT SIZE=3D2>or end-of-file, or be separated by LINE SEPARATOR or =
  15473. PARAGRAPH SEPARATOR</FONT>
  15474. <BR><FONT SIZE=3D2>(which is in some sense 'stronger' than line =
  15475. separator).</FONT>
  15476. </P>
  15477.  
  15478. <P><FONT SIZE=3D2>(I don't know what originally came before the =
  15479. "This means that" in</FONT>
  15480. <BR><FONT SIZE=3D2>Markus's message.)</FONT>
  15481. </P>
  15482. <BR>
  15483.  
  15484. <P><FONT SIZE=3D2>>       =
  15485.         =
  15486.         =
  15487.         =
  15488.         =
  15489.         =
  15490.         Neither U+2028 (line =
  15491. separator,</FONT>
  15492. <BR><FONT SIZE=3D2>> :     introduced for use =
  15493. inside *.doc-style word processing binary files)</FONT>
  15494. </P>
  15495.  
  15496. <P><FONT SIZE=3D2>That is not true.  LINE SEPARATOR and PARAGRAPH =
  15497. SEPARATOR were once</FONT>
  15498. <BR><FONT SIZE=3D2>introduced in the hope that they would "clear =
  15499. up the line ending mess".</FONT>
  15500. <BR><FONT SIZE=3D2>(Whether they are used in ".doc"-style =
  15501. documents is a separate issue.)</FONT>
  15502. <BR><FONT SIZE=3D2>That hope has not come to fruition yet, and it will =
  15503. take time before</FONT>
  15504. <BR><FONT SIZE=3D2>the "line ending mess" is overcome =
  15505. whatever way is used to overcome it.</FONT>
  15506. <BR><FONT SIZE=3D2>Unicode Technical Report 13, Unicode Newline =
  15507. Guidelines</FONT>
  15508. <BR><FONT SIZE=3D2>(<A =
  15509. HREF=3D"http://www.unicode.org/unicode/reports/tr13/" =
  15510. TARGET=3D"_blank">http://www.unicode.org/unicode/reports/tr13/</A>), =
  15511. gives some guidelines</FONT>
  15512. <BR><FONT SIZE=3D2>on how to increase the interoperability with regard =
  15513. to "new line</FONT>
  15514. <BR><FONT SIZE=3D2>function" (NLF) and LS/PS handling.  =
  15515. Basically the recommendation is</FONT>
  15516. <BR><FONT SIZE=3D2>to accept all commonly occurring NLFs: CR, CR+LF, =
  15517. LF, the EBCDIC</FONT>
  15518. <BR><FONT SIZE=3D2>originated NL (NEXT LINE; U+0085; admittedly rare), =
  15519. as well as</FONT>
  15520. <BR><FONT SIZE=3D2>LS and PS (and allow EOF to 'terminate a =
  15521. line').  I think they</FONT>
  15522. <BR><FONT SIZE=3D2>should be accepted in any mixture.</FONT>
  15523. </P>
  15524.  
  15525. <P><FONT SIZE=3D2>Most(?) C compilers already appear to handle at least =
  15526. both LF and CR+LF</FONT>
  15527. <BR><FONT SIZE=3D2>(mixed) fairly well.  This makes it easier to =
  15528. handle C source files in a</FONT>
  15529. <BR><FONT SIZE=3D2>"mixed environment".  Shell scripts, =
  15530. yacc/bison files, etc. are still</FONT>
  15531. <BR><FONT SIZE=3D2>problematic since their lexers still expect only =
  15532. LF.</FONT>
  15533. </P>
  15534. <BR>
  15535.  
  15536. <P><FONT SIZE=3D2>> :     nor overly long UTF-8 =
  15537. sequences for LF such as 0x80 0x8a must be accepted</FONT>
  15538. </P>
  15539.  
  15540. <P><FONT SIZE=3D2>True, unduly long UTF-8 encodings in general should =
  15541. be considered malformed.</FONT>
  15542. </P>
  15543. <BR>
  15544.  
  15545. <P><FONT SIZE=3D2>> :     as line terminators, =
  15546. otherwise we would get into the horrible</FONT>
  15547. <BR><FONT SIZE=3D2>> :     scenario that =
  15548. programs start to disagree what exactly a line is</FONT>
  15549. <BR><FONT SIZE=3D2>> :     (which a whole load =
  15550. of new security risks associated). Programs</FONT>
  15551. <BR><FONT SIZE=3D2>> :     such as "wc =
  15552. -l" must on UTF-8 files without any modification</FONT>
  15553. <BR><FONT SIZE=3D2>> :     whatsoever! There is =
  15554. no reason to change the Unix line semantics when</FONT>
  15555. <BR><FONT SIZE=3D2>> :     moving from ASCII to =
  15556. UTF-8. U+2028 is treated just like any other</FONT>
  15557. <BR><FONT SIZE=3D2>> :     character and has no =
  15558. special meaning in a Unix plaintext file.</FONT>
  15559. </P>
  15560.  
  15561. <P><FONT SIZE=3D2>U+2028 and U+2029 should be handled as just another =
  15562. way of</FONT>
  15563. <BR><FONT SIZE=3D2>indicating line separation/end (as should =
  15564. end-of-file) for the</FONT>
  15565. <BR><FONT SIZE=3D2>purposes of perl/C/lex/bison/Ada/etc. Neither of =
  15566. these need to</FONT>
  15567. <BR><FONT SIZE=3D2>distinguish between line and paragraph separation, =
  15568. and all of</FONT>
  15569. <BR><FONT SIZE=3D2>these ways of terminating/separating lines should be =
  15570. treated</FONT>
  15571. <BR><FONT SIZE=3D2>the same, for increased interoperability.</FONT>
  15572. </P>
  15573.  
  15574. <P><FONT SIZE=3D2>Of course, to be able to detect NL, LS, and PS one =
  15575. needs to know</FONT>
  15576. <BR><FONT SIZE=3D2>the character encoding first, since they have =
  15577. different codes and</FONT>
  15578. <BR><FONT SIZE=3D2>are indeed not possible to represent in all =
  15579. encodings.  But the</FONT>
  15580. <BR><FONT SIZE=3D2>same goes for NL and CR too really, if UTF-16 is =
  15581. allowed, which</FONT>
  15582. <BR><FONT SIZE=3D2>it should be in at least some circumstances. (No, I =
  15583. don't like</FONT>
  15584. <BR><FONT SIZE=3D2>little endianism nor "BOM".)</FONT>
  15585. </P>
  15586.  
  15587. <P><FONT SIZE=3D2>Note that several programming languages, e.g. Java, =
  15588. Ada, and C,</FONT>
  15589. <BR><FONT SIZE=3D2>allow non-ASCII in identifiers, with identifier =
  15590. identity defined</FONT>
  15591. <BR><FONT SIZE=3D2>via the UCS. But they don't require a particular =
  15592. character</FONT>
  15593. <BR><FONT SIZE=3D2>encoding for the source files, so compilers for =
  15594. these programming</FONT>
  15595. <BR><FONT SIZE=3D2>languages MUST 'know' the character encoding of an =
  15596. individual</FONT>
  15597. <BR><FONT SIZE=3D2>source file (via a compiler flag, =
  15598. system/individual/folder default,</FONT>
  15599. <BR><FONT SIZE=3D2>or similar) in order to compile the source code =
  15600. correctly anyway.</FONT>
  15601. <BR><FONT SIZE=3D2>Similarly for XML and its tag and attribute names, =
  15602. but each XML</FONT>
  15603. <BR><FONT SIZE=3D2>file should self-declare which character encoding it =
  15604. is in.</FONT>
  15605. </P>
  15606.  
  15607. <P><FONT SIZE=3D2>Which way of ending/terminating lines should be =
  15608. prefered on output?</FONT>
  15609. <BR><FONT SIZE=3D2>Might depend on a preference setting, or an editing =
  15610. change (like</FONT>
  15611. <BR><FONT SIZE=3D2>"turn all NLFs into LS").</FONT>
  15612. </P>
  15613.  
  15614. <P>        =
  15615.         <FONT SIZE=3D2>Kind =
  15616. regards</FONT>
  15617. <BR>        =
  15618.         <FONT SIZE=3D2>/Kent =
  15619. Karlsson</FONT>
  15620. </P>
  15621.  
  15622. </BODY>
  15623. </HTML>
  15624. ------_=_NextPart_001_01BF2535.65AC0570--
  15625. -
  15626. Linux-UTF8:   i18n of Linux on all levels
  15627. Archive:      http://mail.nl.linux.org/lists/
  15628.  
  15629.  2-Nov-99 14:47:11-GMT,7230;000000000001
  15630. Return-Path: <owner-linux-utf8@nl.linux.org>
  15631. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  15632.     by mailhub3.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id JAA24891
  15633.     for <fdc@mailhub.cc.columbia.edu>; Tue, 2 Nov 1999 09:47:08 -0500 (EST)
  15634. Received: from humbolt.nl.linux.org (humbolt.geo.uu.nl [131.211.28.48])
  15635.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id JAA29433
  15636.     for <fdc@watsun.cc.columbia.edu>; Tue, 2 Nov 1999 09:47:07 -0500 (EST)
  15637. Received: by humbolt.nl.linux.org id <S92191AbPKBOEe>;
  15638.     Tue, 2 Nov 1999 15:04:34 +0100
  15639. Received: from heaton.cl.cam.ac.uk ([128.232.32.11]:37138 "EHLO
  15640.         heaton.cl.cam.ac.uk" smtp-auth: <none>) by humbolt.nl.linux.org
  15641.     with ESMTP id <S92195AbPKBOD4>; Tue, 2 Nov 1999 15:03:56 +0100
  15642. Received: from trillium.cl.cam.ac.uk
  15643.     ([128.232.8.5] helo=cl.cam.ac.uk ident=mgk25)
  15644.     by heaton.cl.cam.ac.uk with esmtp (Exim 3.01 #1)
  15645.     id 11ieXO-0004Xl-00; Tue, 02 Nov 1999 14:03:50 +0000
  15646. X-Mailer: exmh version 2.0.2+CL 2/24/98
  15647. To: "'linux-utf8@nl.linux.org'" <linux-utf8@nl.linux.org>,
  15648.         perl-unicode@perl.org
  15649. Subject: Re: Correct use of UTF-8 under Unix 
  15650. In-reply-to: Your message of "Tue, 02 Nov 1999 14:21:40 +0100."
  15651.              <C110A2268F8DD111AA1A00805F85E58DA683BD@ntgbg1> 
  15652. X-URL:  http://www.cl.cam.ac.uk/~mgk25/
  15653. Mime-Version: 1.0
  15654. Content-Type: text/plain; charset=us-ascii
  15655. Date:   Tue, 02 Nov 1999 14:03:47 +0000
  15656. From: Markus Kuhn <Markus.Kuhn@cl.cam.ac.uk>
  15657. Message-Id: <E11ieXO-0004Xl-00@heaton.cl.cam.ac.uk>
  15658. X-Orcpt: rfc822;linux-utf8@nl.linux.org
  15659. Sender: owner-linux-utf8@nl.linux.org
  15660. Precedence: bulk
  15661. Reply-To: linux-utf8@nl.linux.org
  15662.  
  15663. Karlsson Kent - keka wrote on 1999-11-02 13:21 UTC:
  15664. > (Note: I don't subscribe to perl-unicode@perl.org, only to
  15665. > linux-utf8@nl.linux.org, and I don't have Markus's original
  15666. > message that is quoted below.)
  15667. > > :   - This means that lines in UTF-8 plaintext files are terminated
  15668. > > :     in one and only one way: 0x0a = LF.
  15669. > That is not true.  "lines" in UTF-8 text files may be terminated by 
  15670. > LINE FEED, CARRIAGE RETURN, CARRIAGE RETURN+LINE FEED, NEXT LINE,
  15671. > or end-of-file, or be separated by LINE SEPARATOR or PARAGRAPH SEPARATOR
  15672. > (which is in some sense 'stronger' than line separator).
  15673.  
  15674. The crucial bit of my original message that you missed was:
  15675.  
  15676.   I have just read through the list archive, and noted that a few people
  15677.   might have some doubts about how UTF-8 is used under Unix. They
  15678.   apparently got confused by many of the features described in the Unicode
  15679.   standard (BOM, line separator, etc.), and thereby completely forgot the
  15680.   big UTF-8 prime directive under Unix:
  15681.  
  15682.     UTF-8 is ASCII compatible
  15683.  
  15684.   Not only the encoding, but also the use of it. So don't change anything
  15685.   about how ASCII was used when introducing UTF-8, because only this means
  15686.   that UTF-8 can truly substitute ASCII in a realistic way:
  15687.  
  15688.   This means the following:
  15689.  
  15690.     - A UTF-8 Unix plain text file that contains only ASCII characters
  15691.       (and this is the majority of files on Unix installations all over
  15692.       the world) will *not* change a single bit.
  15693.  
  15694.   [...]
  15695.  
  15696. There are many nice ideas written up in the Unicode standard and the
  15697. associated technical reports, however they are not a dogma and each idea
  15698. has to be critically reviewed before you even consider introducing them
  15699. into an existing environment. It should become very quickly clear to the
  15700. alert reader of these documents that many of the mechanisms described
  15701. there (most notably the byte-order-mark and the new-line semantics) are
  15702. irrelevant for the use of UTF-8 as a backwards compatible migration path
  15703. for ASCII plaintext files on Unix systems.
  15704.  
  15705. Unix never had any new line ambiguity. It was always LF and only LF. It
  15706. would be really foolish for us to introduce a brand new new-line
  15707. ambiguity (via say the line separator) on Unix systems just because we
  15708. read about shiny new alternative ways in a Unicode technical report.
  15709.  
  15710. The original AT&T Bell Labs developers of Unix have already studied back
  15711. in 1992, how ISO 10646 is best used on Unix-style systems. They
  15712. concluded to replace ASCII completely by UTF-8 on their experimental
  15713. Unix-successor system Plan9 and reported about the excellent practical
  15714. experiences that they made in this process in a now legendary USENIX
  15715. paper, which I am sure you all are well familiar with:
  15716.  
  15717.   ftp://ftp.informatik.uni-erlangen.de/pub/doc/ISO/charsets/UTF-8-Plan9-paper.ps.gz
  15718.  
  15719. If the outside world does something different (they always have, you
  15720. listed the three most popular other newline conventions CR, CRLF, and
  15721. NL, yourself), then we will continue to convert, either automatically or
  15722. manually, as appropriate.
  15723.  
  15724. The handling of newline ambiguity by C under Unix has always been a NOP.
  15725. C under Unix is to completely ignore the "b" mode option of fopen(). The
  15726. "b" option is a hack for the rest of the world to allow it to handle its
  15727. Unix incompatibilities.
  15728.  
  15729. I have nothing against introducing besides the normal "plain text" also
  15730. a new text file format that we could call "unformatted plain text". It
  15731. would be a stream of characters interrupted by Unicode paragraph
  15732. separator characters. The PS and LS characters would have exactly the
  15733. same role as a <P> and <BR> in HTML or a \par and \hfil\break in TeX.
  15734.  
  15735. Such an additional file type notion would indeed be interesting to have
  15736. available, but it would not be used for formatted plain text files such
  15737. as 
  15738.  
  15739.   - software source code
  15740.   - configuration files
  15741.   - shell scripts
  15742.   - everything sent to standard output
  15743.  
  15744. etc. for obvious reasons of backwards compatibility. An unformatted
  15745. text format (and a whole range of new tools or new modes of existing
  15746. tools to support handling it) would however be very convenient for
  15747. file types such as
  15748.  
  15749.   - HTML/SGML/XML
  15750.   - TeX
  15751.   - nroff
  15752.  
  15753. where the formatting of the plain-text file is discarded anyway. It
  15754. would save us having to press paragraph-reformat so frequently in
  15755. editors, and it would make diff files smaller, because paragraphs would
  15756. not contain any more any formatting indicators such as LF that have to
  15757. be rearranged throughout the entire paragraph is you change just a
  15758. single word. For normal "plain text" files, the process writing a
  15759. paragraph has fixed the positions of the line breaks, for "unformatted
  15760. plain text" files, the process reading the paragraphs is responsible to
  15761. think about placing line breaks. Just as in TeX, HTML, etc.
  15762.  
  15763. There is nothing wrong, with having these note-pad style unformatted
  15764. plain text files as well supported under Unix, but it is important to
  15765. make clear that this is an entirely new file type with no relationship
  15766. to the existing plaintext notion.
  15767.  
  15768. The distinction of the two file types is easy: If it contains at least
  15769. one LF character, it is a normal plain text file, if it does not contain
  15770. a single LF character (but zero or more PS and/or LS characters), then
  15771. is is a new/style unformatted plaintext file. Either way, you'll find
  15772. out soon enough when reading the file at the end of the first line
  15773. (formatted) or paragraph (unformatted).
  15774.  
  15775. Markus
  15776.  
  15777. -- 
  15778. Markus G. Kuhn, Computer Laboratory, University of Cambridge, UK
  15779. Email: mkuhn at acm.org,  WWW: <http://www.cl.cam.ac.uk/~mgk25/>
  15780.  
  15781. -
  15782. Linux-UTF8:   i18n of Linux on all levels
  15783. Archive:      http://mail.nl.linux.org/lists/
  15784.  
  15785.  4-Nov-99  2:46:24-GMT,4746;000000000001
  15786. Return-Path: <owner-linux-utf8@nl.linux.org>
  15787. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  15788.     by mailhub2.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id VAA21148
  15789.     for <fdc@mailhub.cc.columbia.edu>; Wed, 3 Nov 1999 21:46:20 -0500 (EST)
  15790. Received: from humbolt.nl.linux.org (humbolt.geo.uu.nl [131.211.28.48])
  15791.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id VAA24083
  15792.     for <fdc@watsun.cc.columbia.edu>; Wed, 3 Nov 1999 21:46:20 -0500 (EST)
  15793. Received: by humbolt.nl.linux.org id <S92175AbPKDBem>;
  15794.     Thu, 4 Nov 1999 02:34:42 +0100
  15795. Received: from kiev.wall.org ([205.178.11.135]:45804 "EHLO kiev.wall.org"
  15796.         smtp-auth: <none>) by humbolt.nl.linux.org with ESMTP
  15797.     id <S92193AbPKDBeH>; Thu, 4 Nov 1999 02:34:07 +0100
  15798. Received: by kiev.wall.org (8.9.3/8.9.3) id RAA10793;
  15799.     Wed, 3 Nov 1999 17:31:16 -0800 (PST)
  15800. Date:   Wed, 3 Nov 1999 17:31:16 -0800 (PST)
  15801. From: Larry Wall <larry@wall.org>
  15802. Message-Id: <199911040131.RAA10793@kiev.wall.org>
  15803. To: Markus.Kuhn@cl.cam.ac.uk (Markus Kuhn)
  15804. Cc: "'linux-utf8@nl.linux.org'" <linux-utf8@nl.linux.org>,
  15805.         perl-unicode@perl.org
  15806. Subject: Re: Correct use of UTF-8 under Unix 
  15807. In-Reply-To: <E11ieXO-0004Xl-00@heaton.cl.cam.ac.uk>
  15808.  (from Markus Kuhn on Tue, 02 Nov 1999 14:03:47 +0000)
  15809. X-Orcpt: rfc822;linux-utf8@nl.linux.org
  15810. Sender: owner-linux-utf8@nl.linux.org
  15811. Precedence: bulk
  15812. Reply-To: linux-utf8@nl.linux.org
  15813.  
  15814. Markus Kuhn writes:
  15815. : There is nothing wrong, with having these note-pad style unformatted
  15816. : plain text files as well supported under Unix, but it is important to
  15817. : make clear that this is an entirely new file type with no relationship
  15818. : to the existing plaintext notion.
  15819. : The distinction of the two file types is easy: If it contains at least
  15820. : one LF character, it is a normal plain text file, if it does not contain
  15821. : a single LF character (but zero or more PS and/or LS characters), then
  15822. : is is a new/style unformatted plaintext file. Either way, you'll find
  15823. : out soon enough when reading the file at the end of the first line
  15824. : (formatted) or paragraph (unformatted).
  15825.  
  15826. I have one quibble with your hard and fast distinction between the two
  15827. file types here.  And that is that Perl scripts themselves might want
  15828. to be both types simultaneously!  It's considered good style to put the
  15829. documentation into the same file as the code it documents, and while
  15830. the code certainly wants to be newline delimited, the documentation is
  15831. in POD format, and it would be perfectly fine to treat POD text paragraphs
  15832. as a word processor would.  In fact, POD was specifically designed
  15833. so that filled paragraphs could be distinguished from non-filled text on
  15834. the basis of the first character of the paragraph.
  15835.  
  15836. The only problem I see offhand with allowing both styles in the same
  15837. file is that different tools might count lines differently.  If Perl
  15838. says there's a syntax error at line 582, it might mean it has seen 581
  15839. instances of /\012 | \015\012 | \015 | \X{2028} | \X{2029}/x before the
  15840. error.  (For folks listening in, that works out to Unix newline, Windows
  15841. newline, Mac newline (!), Unicode line separator and Unicode paragraph
  15842. separator.)  If your "normal plain text" editor then counts only \012
  15843. (Unix newline), the programmer isn't going to be able to find the error.
  15844.  
  15845. On the other hand, maybe Perl would just count newlines, and your
  15846. editor counts it the other way.  More likely, some editors count one
  15847. way, and other editors count another.  Maybe they count LS but not PS,
  15848. just as Perl currently counts \n but not \f as a line transition.
  15849. There are many possiblities.
  15850.  
  15851. All I'm really arguing here is that it would be good to establish a
  15852. line counting convention.  But if that convention pretends there won't
  15853. be files mixing the two line delimitation styles, that will have other
  15854. ramifications, including possibly an adverse impact on portability.
  15855. Counting line numbers right is already pretty complicated when you have
  15856. NFS mounts from foreign systems.  Adding in Unicode will only make
  15857. things more complicated.  There will be some pressure to use Unicode
  15858. LS/PS in portable code, and I'm not sure you want to spend the rest of
  15859. your life resisting that pressure.  A lot of the "fixes" in Perl are
  15860. only there because we got tired of people asking the same questions
  15861. over and over.
  15862.  
  15863. I think assuming that files will only be one style or the other will
  15864. put us into that sort of a situation, and it would be nice to head it
  15865. off early, for some definition of early.  Just telling people by fiat
  15866. that they can't mix the two styles is not likely to work in the absence
  15867. of universal education.  Unfortunately, the education of the illegitimi
  15868. tends to result in carborundum.
  15869.  
  15870. Larry
  15871. -
  15872. Linux-UTF8:   i18n of Linux on all levels
  15873. Archive:      http://mail.nl.linux.org/lists/
  15874.  
  15875.  4-Nov-99 12:26:34-GMT,11587;000000000001
  15876. Return-Path: <owner-linux-utf8@nl.linux.org>
  15877. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  15878.     by mailhub2.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id HAA29245
  15879.     for <fdc@mailhub.cc.columbia.edu>; Thu, 4 Nov 1999 07:26:28 -0500 (EST)
  15880. Received: from humbolt.nl.linux.org (humbolt.geo.uu.nl [131.211.28.48])
  15881.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id HAA11601
  15882.     for <fdc@watsun.cc.columbia.edu>; Thu, 4 Nov 1999 07:26:27 -0500 (EST)
  15883. Received: by humbolt.nl.linux.org id <S92193AbPKDLqP>;
  15884.     Thu, 4 Nov 1999 12:46:15 +0100
  15885. Received: from mailgw.imt.im.se ([195.100.17.67]:30090 "EHLO mail-gw.imt.im.se"
  15886.         smtp-auth: <none>) by humbolt.nl.linux.org with ESMTP
  15887.     id <S92194AbPKDLpp>; Thu, 4 Nov 1999 12:45:45 +0100
  15888. Received: from msxsth1.im.se (msxsth1.im.se [193.14.16.108])
  15889.     by mail-gw.imt.im.se (8.9.3/8.9.3) with ESMTP id MAA22788;
  15890.     Thu, 4 Nov 1999 12:43:17 +0100
  15891. Received: by msxsth1 with Internet Mail Service (5.5.2650.21)
  15892.     id <VTK5DJ4K>; Thu, 4 Nov 1999 12:45:07 +0100
  15893. Message-ID: <C110A2268F8DD111AA1A00805F85E58DA683DA@ntgbg1>
  15894. From: Karlsson Kent - keka <keka@im.se>
  15895. To: "'linux-utf8@nl.linux.org'" <linux-utf8@nl.linux.org>
  15896. Cc: perl-unicode@perl.org
  15897. Subject: RE: Correct use of UTF-8 under Unix 
  15898. Date:   Thu, 4 Nov 1999 12:43:40 +0100 
  15899. MIME-Version: 1.0
  15900. X-Mailer: Internet Mail Service (5.5.2650.21)
  15901. Content-Type: multipart/alternative;
  15902.     boundary="----_=_NextPart_001_01BF26BA.0A66AFB0"
  15903. X-Orcpt: rfc822;linux-utf8@nl.linux.org
  15904. Sender: owner-linux-utf8@nl.linux.org
  15905. Precedence: bulk
  15906. Reply-To: linux-utf8@nl.linux.org
  15907.  
  15908. This message is in MIME format. Since your mail reader does not understand
  15909. this format, some or all of this message may not be legible.
  15910.  
  15911. ------_=_NextPart_001_01BF26BA.0A66AFB0
  15912. Content-Type: text/plain;
  15913.     charset="iso-8859-1"
  15914.  
  15915. Hi!
  15916.  
  15917.     Larry is right in that there is (already, also under Unix)
  15918. other ways of separating lines: namely form feed, but also vertical
  15919. tab. I must admit that I have never used vertical tab, and very
  15920. rarely form feed... Anyway C9x says: "\v (vertical tab) Moves the
  15921. active position to the initial position of the next vertical tab
  15922. position." And there is a similar statement about form feed. I
  15923. assume that is not too far off from what other standards might say.  
  15924.  
  15925.     So, the interoperable line (or 'stronger') separators in
  15926. "plain text" are:
  15927.  
  15928.     \X{2028}|\X{2029}|\r\n|\n|\r|\f|\v|\X{85}
  15929.  
  15930. (I'm probably mixing Perl and C (and flex) syntax here.) Some
  15931. of them are "stronger" in some senses than line separation,
  15932. but for the purposes of counting logical lines, and deciding
  15933. logical line begin and logical line end, there should be no
  15934. difference.  A single logical line may be *dynamically* wrapped 
  15935. into several displayed lines, but that is a different matter.
  15936.  
  15937.     Note that there are some "legacy" encodings which do not
  15938. have any or all of \f|\v|\X{85}.
  15939.  
  15940.     (I still think the idea of having two different kinds
  15941. of "plain text" is a bad idea.  I haven't heard anyone else
  15942. entertain it either.)
  15943.  
  15944.         Kind regards
  15945.         /Kent K
  15946.  
  15947.  
  15948. Larry Wall wrote:
  15949. ...
  15950. > The only problem I see offhand with allowing both styles in the same
  15951. > file is that different tools might count lines differently.  If Perl
  15952. > says there's a syntax error at line 582, it might mean it has seen 581
  15953. > instances of /\012 | \015\012 | \015 | \X{2028} | \X{2029}/x 
  15954. > before the
  15955. > error.  (For folks listening in, that works out to Unix 
  15956. > newline, Windows
  15957. > newline, Mac newline (!), Unicode line separator and Unicode paragraph
  15958. > separator.)  If your "normal plain text" editor then counts only \012
  15959. > (Unix newline), the programmer isn't going to be able to find 
  15960. > the error.
  15961. > On the other hand, maybe Perl would just count newlines, and your
  15962. > editor counts it the other way.  More likely, some editors count one
  15963. > way, and other editors count another.  Maybe they count LS but not PS,
  15964. > just as Perl currently counts \n but not \f as a line transition.
  15965. > There are many possiblities.
  15966. > All I'm really arguing here is that it would be good to establish a
  15967. > line counting convention.  But if that convention pretends there won't
  15968. > be files mixing the two line delimitation styles, that will have other
  15969. > ramifications, including possibly an adverse impact on portability.
  15970. > Counting line numbers right is already pretty complicated 
  15971. > when you have
  15972. > NFS mounts from foreign systems.  Adding in Unicode will only make
  15973. > things more complicated.  There will be some pressure to use Unicode
  15974. > LS/PS in portable code, and I'm not sure you want to spend the rest of
  15975. > your life resisting that pressure.  A lot of the "fixes" in Perl are
  15976. > only there because we got tired of people asking the same questions
  15977. > over and over.
  15978. > I think assuming that files will only be one style or the other will
  15979. > put us into that sort of a situation, and it would be nice to head it
  15980. > off early, for some definition of early.  Just telling people by fiat
  15981. > that they can't mix the two styles is not likely to work in 
  15982. > the absence
  15983. > of universal education.  Unfortunately, the education of the 
  15984. > illegitimi
  15985. > tends to result in carborundum.
  15986. > Larry
  15987. > -
  15988. > Linux-UTF8:   i18n of Linux on all levels
  15989. > Archive:      http://mail.nl.linux.org/lists/
  15990.  
  15991. ------_=_NextPart_001_01BF26BA.0A66AFB0
  15992. Content-Type: text/html;
  15993.     charset="iso-8859-1"
  15994.  
  15995. <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
  15996. <HTML>
  15997. <HEAD>
  15998. <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-8859-1">
  15999. <META NAME="Generator" CONTENT="MS Exchange Server version 5.5.2650.12">
  16000. <TITLE>RE: Correct use of UTF-8 under Unix </TITLE>
  16001. </HEAD>
  16002. <BODY>
  16003.  
  16004. <P><FONT SIZE=2>Hi!</FONT>
  16005. </P>
  16006.  
  16007. <P>        <FONT SIZE=2>Larry is right in that there is (already, also under Unix)</FONT>
  16008. <BR><FONT SIZE=2>other ways of separating lines: namely form feed, but also vertical</FONT>
  16009. <BR><FONT SIZE=2>tab. I must admit that I have never used vertical tab, and very</FONT>
  16010. <BR><FONT SIZE=2>rarely form feed... Anyway C9x says: "\v (vertical tab) Moves the</FONT>
  16011. <BR><FONT SIZE=2>active position to the initial position of the next vertical tab</FONT>
  16012. <BR><FONT SIZE=2>position." And there is a similar statement about form feed. I</FONT>
  16013. <BR><FONT SIZE=2>assume that is not too far off from what other standards might say.  </FONT>
  16014. </P>
  16015.  
  16016. <P>        <FONT SIZE=2>So, the interoperable line (or 'stronger') separators in</FONT>
  16017. <BR><FONT SIZE=2>"plain text" are:</FONT>
  16018. </P>
  16019.  
  16020. <P>        <FONT SIZE=2>\X{2028}|\X{2029}|\r\n|\n|\r|\f|\v|\X{85}</FONT>
  16021. </P>
  16022.  
  16023. <P><FONT SIZE=2>(I'm probably mixing Perl and C (and flex) syntax here.) Some</FONT>
  16024. <BR><FONT SIZE=2>of them are "stronger" in some senses than line separation,</FONT>
  16025. <BR><FONT SIZE=2>but for the purposes of counting logical lines, and deciding</FONT>
  16026. <BR><FONT SIZE=2>logical line begin and logical line end, there should be no</FONT>
  16027. <BR><FONT SIZE=2>difference.  A single logical line may be *dynamically* wrapped </FONT>
  16028. <BR><FONT SIZE=2>into several displayed lines, but that is a different matter.</FONT>
  16029. </P>
  16030.  
  16031. <P>        <FONT SIZE=2>Note that there are some "legacy" encodings which do not</FONT>
  16032. <BR><FONT SIZE=2>have any or all of \f|\v|\X{85}.</FONT>
  16033. </P>
  16034.  
  16035. <P>        <FONT SIZE=2>(I still think the idea of having two different kinds</FONT>
  16036. <BR><FONT SIZE=2>of "plain text" is a bad idea.  I haven't heard anyone else</FONT>
  16037. <BR><FONT SIZE=2>entertain it either.)</FONT>
  16038. </P>
  16039.  
  16040. <P>                <FONT SIZE=2>Kind regards</FONT>
  16041. <BR>                <FONT SIZE=2>/Kent K</FONT>
  16042. </P>
  16043. <BR>
  16044.  
  16045. <P><FONT SIZE=2>Larry Wall wrote:</FONT>
  16046. <BR><FONT SIZE=2>...</FONT>
  16047. <BR><FONT SIZE=2>> The only problem I see offhand with allowing both styles in the same</FONT>
  16048. <BR><FONT SIZE=2>> file is that different tools might count lines differently.  If Perl</FONT>
  16049. <BR><FONT SIZE=2>> says there's a syntax error at line 582, it might mean it has seen 581</FONT>
  16050. <BR><FONT SIZE=2>> instances of /\012 | \015\012 | \015 | \X{2028} | \X{2029}/x </FONT>
  16051. <BR><FONT SIZE=2>> before the</FONT>
  16052. <BR><FONT SIZE=2>> error.  (For folks listening in, that works out to Unix </FONT>
  16053. <BR><FONT SIZE=2>> newline, Windows</FONT>
  16054. <BR><FONT SIZE=2>> newline, Mac newline (!), Unicode line separator and Unicode paragraph</FONT>
  16055. <BR><FONT SIZE=2>> separator.)  If your "normal plain text" editor then counts only \012</FONT>
  16056. <BR><FONT SIZE=2>> (Unix newline), the programmer isn't going to be able to find </FONT>
  16057. <BR><FONT SIZE=2>> the error.</FONT>
  16058. <BR><FONT SIZE=2>> </FONT>
  16059. <BR><FONT SIZE=2>> On the other hand, maybe Perl would just count newlines, and your</FONT>
  16060. <BR><FONT SIZE=2>> editor counts it the other way.  More likely, some editors count one</FONT>
  16061. <BR><FONT SIZE=2>> way, and other editors count another.  Maybe they count LS but not PS,</FONT>
  16062. <BR><FONT SIZE=2>> just as Perl currently counts \n but not \f as a line transition.</FONT>
  16063. <BR><FONT SIZE=2>> There are many possiblities.</FONT>
  16064. <BR><FONT SIZE=2>> </FONT>
  16065. <BR><FONT SIZE=2>> All I'm really arguing here is that it would be good to establish a</FONT>
  16066. <BR><FONT SIZE=2>> line counting convention.  But if that convention pretends there won't</FONT>
  16067. <BR><FONT SIZE=2>> be files mixing the two line delimitation styles, that will have other</FONT>
  16068. <BR><FONT SIZE=2>> ramifications, including possibly an adverse impact on portability.</FONT>
  16069. <BR><FONT SIZE=2>> Counting line numbers right is already pretty complicated </FONT>
  16070. <BR><FONT SIZE=2>> when you have</FONT>
  16071. <BR><FONT SIZE=2>> NFS mounts from foreign systems.  Adding in Unicode will only make</FONT>
  16072. <BR><FONT SIZE=2>> things more complicated.  There will be some pressure to use Unicode</FONT>
  16073. <BR><FONT SIZE=2>> LS/PS in portable code, and I'm not sure you want to spend the rest of</FONT>
  16074. <BR><FONT SIZE=2>> your life resisting that pressure.  A lot of the "fixes" in Perl are</FONT>
  16075. <BR><FONT SIZE=2>> only there because we got tired of people asking the same questions</FONT>
  16076. <BR><FONT SIZE=2>> over and over.</FONT>
  16077. <BR><FONT SIZE=2>> </FONT>
  16078. <BR><FONT SIZE=2>> I think assuming that files will only be one style or the other will</FONT>
  16079. <BR><FONT SIZE=2>> put us into that sort of a situation, and it would be nice to head it</FONT>
  16080. <BR><FONT SIZE=2>> off early, for some definition of early.  Just telling people by fiat</FONT>
  16081. <BR><FONT SIZE=2>> that they can't mix the two styles is not likely to work in </FONT>
  16082. <BR><FONT SIZE=2>> the absence</FONT>
  16083. <BR><FONT SIZE=2>> of universal education.  Unfortunately, the education of the </FONT>
  16084. <BR><FONT SIZE=2>> illegitimi</FONT>
  16085. <BR><FONT SIZE=2>> tends to result in carborundum.</FONT>
  16086. <BR><FONT SIZE=2>> </FONT>
  16087. <BR><FONT SIZE=2>> Larry</FONT>
  16088. <BR><FONT SIZE=2>> -</FONT>
  16089. <BR><FONT SIZE=2>> Linux-UTF8:   i18n of Linux on all levels</FONT>
  16090. <BR><FONT SIZE=2>> Archive:      <A HREF="http://mail.nl.linux.org/lists/" TARGET="_blank">http://mail.nl.linux.org/lists/</A></FONT>
  16091. <BR><FONT SIZE=2>> </FONT>
  16092. </P>
  16093.  
  16094. </BODY>
  16095. </HTML>
  16096. ------_=_NextPart_001_01BF26BA.0A66AFB0--
  16097. -
  16098. Linux-UTF8:   i18n of Linux on all levels
  16099. Archive:      http://mail.nl.linux.org/lists/
  16100.  
  16101.  4-Nov-99  7:43:22-GMT,3063;000000000001
  16102. Return-Path: <owner-linux-utf8@nl.linux.org>
  16103. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  16104.     by mailhub1.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id CAA23594
  16105.     for <fdc@mailhub.cc.columbia.edu>; Thu, 4 Nov 1999 02:43:19 -0500 (EST)
  16106. Received: from humbolt.nl.linux.org (humbolt.geo.uu.nl [131.211.28.48])
  16107.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id CAA15155
  16108.     for <fdc@watsun.cc.columbia.edu>; Thu, 4 Nov 1999 02:43:19 -0500 (EST)
  16109. Received: by humbolt.nl.linux.org id <S92182AbPKDH3Q>;
  16110.     Thu, 4 Nov 1999 08:29:16 +0100
  16111. Received: from robin.camelot.de ([195.30.224.3]:25607 "EHLO mail.camelot.de"
  16112.         smtp-auth: <none>) by humbolt.nl.linux.org with ESMTP
  16113.     id <S92177AbPKDH14>; Thu, 4 Nov 1999 08:27:56 +0100
  16114. Received: from robin.camelot.de (uucp@robin.camelot.de [195.30.224.3])
  16115.     by mail.camelot.de (8.9.3/8.9.3) with ESMTP id IAA96660;
  16116.     Thu, 4 Nov 1999 08:27:49 +0100 (CET)
  16117. Received: from oas.a2e.de (uucp@localhost)
  16118.     by robin.camelot.de (8.9.3/8.9.3) with UUCP id IAA96657;
  16119.     Thu, 4 Nov 1999 08:27:49 +0100 (CET)
  16120. Received: from localhost by wtao97
  16121.     via sendmail with esmtp
  16122.     id <m11jHHI-0028fCC@wtao97>
  16123.     for <linux-utf8@nl.linux.org>; Thu, 4 Nov 1999 08:25:48 +0100 (CET)
  16124.     (Smail-3.2 1996-Jul-4 #1 built 1999-Jul-23)
  16125. Date:   Thu, 4 Nov 1999 08:25:47 +0100 (CET)
  16126. From: PILCH Hartmut <phm@a2e.de>
  16127. X-Sender: phm@wtao97.oas.a2e.de
  16128. To: linux-utf8@nl.linux.org
  16129. cc: Markus Kuhn <Markus.Kuhn@cl.cam.ac.uk>
  16130. Subject: filetype field?
  16131. In-Reply-To: <199911032207.XAA11389@moolenaar.net>
  16132. Message-ID: <Pine.LNX.4.10.9911040805590.985-100000@wtao97.oas.a2e.de>
  16133. MIME-Version: 1.0
  16134. Content-Type: TEXT/PLAIN; charset=US-ASCII
  16135. X-Orcpt: rfc822;linux-utf8@nl.linux.org
  16136. Sender: owner-linux-utf8@nl.linux.org
  16137. Precedence: bulk
  16138. Reply-To: linux-utf8@nl.linux.org
  16139.  
  16140. On Wed, 3 Nov 1999, Bram Moolenaar wrote:
  16141.  
  16142. > >  - The Unix kernel #!/bin/sh mechanism will break, because the
  16143. > >    file will not start any more with #!
  16144. > Good point.  Putting the BOM in the second line would work.  But that's a bit
  16145. > strange.  It would be better to adjust the kernel to handle UTF-8 files, and
  16146. > thus ignore the BOM in this position.  Just one more place that needs to be
  16147. > UTF-8 aware, not a big deal.
  16148.  
  16149. If the kernel is to look for a UTF-8 BOM, it might as well look for a
  16150. general encoding marker.  That seems to be what you are using the BOM for.
  16151. There is no byte order to be marked in UTF-8 texts, is there?
  16152.  
  16153. If the kernel is to be changed, why not go to the roots and introduce an
  16154. filetype field into the inode table, similar to the permissions field,
  16155. with commands like
  16156.  
  16157.     $ chft "text/plain; charset=utf-8" file1.txt 
  16158.     $ chft "text/plain; charset=iso-8859-1" file2.txt 
  16159.     $ chft "image/png" file.png
  16160.  
  16161. and a 
  16162.  
  16163.     /etc/filetypes
  16164.  
  16165. table that associates mime types to code numbers in a
  16166. tending-to-become-standardized way?
  16167.  
  16168. That could at least ensure that no BOMs are misplaced during 
  16169.  
  16170.     $ cat file1.txt file2.txt > file.txt
  16171.  
  16172. and might solve a lot of other problems.
  16173.  
  16174. --
  16175. phm
  16176.  
  16177. -
  16178. Linux-UTF8:   i18n of Linux on all levels
  16179. Archive:      http://mail.nl.linux.org/lists/
  16180.  
  16181. 10-Nov-99 19:46:33-GMT,5140;000000000001
  16182. Return-Path: <owner-linux-utf8@nl.linux.org>
  16183. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  16184.     by mailhub2.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id OAA15790
  16185.     for <fdc@mailhub.cc.columbia.edu>; Wed, 10 Nov 1999 14:46:32 -0500 (EST)
  16186. Received: from humbolt.nl.linux.org (humbolt.geo.uu.nl [131.211.28.48])
  16187.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id OAA17442
  16188.     for <fdc@watsun.cc.columbia.edu>; Wed, 10 Nov 1999 14:46:30 -0500 (EST)
  16189. Received: by humbolt.nl.linux.org id <S92231AbPKJTIb>;
  16190.     Wed, 10 Nov 1999 20:08:31 +0100
  16191. Received: from montreal.alis.com ([199.84.165.66]:5050 "EHLO montreal.alis.com"
  16192.         smtp-auth: <none>) by humbolt.nl.linux.org with ESMTP
  16193.     id <S92229AbPKJTIG>; Wed, 10 Nov 1999 20:08:06 +0100
  16194. Received: from fyergeau2 (intralan.alis.com [199.84.165.3])
  16195.     by montreal.alis.com (8.9.3/8.9.3-pl-1) with SMTP id OAA26292;
  16196.     Wed, 10 Nov 1999 14:06:19 -0500 (EST)
  16197. From: =?ISO-8859-1?Q? "Fran=E7ois?= Yergeau" <yergeau@ALIS.COM>
  16198. To: <linux-utf8@nl.linux.org>, <unicode@unicode.org>
  16199. Subject: RE: Unicode control characters 
  16200. Date:   Wed, 10 Nov 1999 13:59:37 -0500
  16201. Message-ID: <000501bf2bad$bc982f50$2f8011ac@fyergeau2.intra.alis.com>
  16202. MIME-Version: 1.0
  16203. Content-Type: text/plain;
  16204.     charset="iso-8859-1"
  16205. Content-Transfer-Encoding: 7bit
  16206. X-Priority: 3 (Normal)
  16207. X-MSMail-Priority: Normal
  16208. X-Mailer: Microsoft Outlook 8.5, Build 4.71.2173.0
  16209. In-Reply-To: <E11lZcf-0007za-00@chatteris.cl.cam.ac.uk>
  16210. X-MimeOLE: Produced By Microsoft MimeOLE V4.72.2106.4
  16211. Importance: Normal
  16212. X-Orcpt: rfc822;linux-utf8@nl.linux.org
  16213. Sender: owner-linux-utf8@nl.linux.org
  16214. Precedence: bulk
  16215. Reply-To: linux-utf8@nl.linux.org
  16216.  
  16217. > De: Markus Kuhn
  16218. > Date: mercredi 10 novembre 1999 10:25
  16219. >
  16220. > MIME text/plain body parts are clearly preformatted CR LF
  16221. > separated lines of printable characters, and UTF-8 really should not
  16222. > change anything here.
  16223.  
  16224. Yes.  In MIME text a line end is CRLF, period.
  16225.  
  16226. > May be, it would indeed be a wise idea to supplement RFC 2279 with an
  16227. > additional spec that clarifies, which Unicode characters are
  16228. > allowed to
  16229. > be used in a "text/plain ; charset=UTF-8" MIME part. It seems like a
  16230. > good idea to explicitly exclude everything in the Cf category. This
  16231. > includes the following entries from the Unicode database:
  16232.  
  16233. I think this would be very unwise.
  16234.  
  16235. >   200C;ZERO WIDTH NON-JOINER;Cf;0;BN;;;;;N;;;;;
  16236. >   200D;ZERO WIDTH JOINER;Cf;0;BN;;;;;N;;;;;
  16237. >   200E;LEFT-TO-RIGHT MARK;Cf;0;L;;;;;N;;;;;
  16238. >   200F;RIGHT-TO-LEFT MARK;Cf;0;R;;;;;N;;;;;
  16239. >   202A;LEFT-TO-RIGHT EMBEDDING;Cf;0;LRE;;;;;N;;;;;
  16240. >   202B;RIGHT-TO-LEFT EMBEDDING;Cf;0;RLE;;;;;N;;;;;
  16241. >   202C;POP DIRECTIONAL FORMATTING;Cf;0;PDF;;;;;N;;;;;
  16242. >   202D;LEFT-TO-RIGHT OVERRIDE;Cf;0;LRO;;;;;N;;;;;
  16243. >   202E;RIGHT-TO-LEFT OVERRIDE;Cf;0;RLO;;;;;N;;;;;
  16244.  
  16245. These are required for minimal, understandable encoding of various languages
  16246. (mainly bidi scripts, but the ZWJ and ZWNJ are also necessary for the Indic
  16247. scripts, at least).  These are NOT gadgets introduced by the high-flying
  16248. Unicode folks solely for fancy GUI settings, they are there to meet plain
  16249. text requirements.  The legacy encodings for those languages that
  16250. 10646/Unicode integrated (ASMO, ISCII, etc.) had similar controls, by
  16251. necessity.
  16252.  
  16253. >   206A;INHIBIT SYMMETRIC SWAPPING;Cf;0;BN;;;;;N;;;;;
  16254. >   206B;ACTIVATE SYMMETRIC SWAPPING;Cf;0;BN;;;;;N;;;;;
  16255. >   206C;INHIBIT ARABIC FORM SHAPING;Cf;0;BN;;;;;N;;;;;
  16256. >   206D;ACTIVATE ARABIC FORM SHAPING;Cf;0;BN;;;;;N;;;;;
  16257. >   206E;NATIONAL DIGIT SHAPES;Cf;0;BN;;;;;N;;;;;
  16258. >   206F;NOMINAL DIGIT SHAPES;Cf;0;BN;;;;;N;;;;;
  16259.  
  16260. These are crap.  The Unicode standard 2.0 says that their use is
  16261. "<em>strongly</em> discouraged".  Note however that at least the NATIONAL
  16262. DIGIT SHAPE stuff does come, AFAIK, from old encodings used in terminal
  16263. applications, not fancy GUI stuff.
  16264.  
  16265. >   FEFF;ZERO WIDTH NO-BREAK SPACE;Cf;0;BN;;;;;N;BYTE ORDER MARK;;;;
  16266.  
  16267. Ah!  the infamous BOM!  It has a valid use in plain text in indicating a
  16268. place where a word break should not occur.  A bit fancy for email, but plain
  16269. text has other uses than email.
  16270.  
  16271. >   FFF9;INTERLINEAR ANNOTATION ANCHOR;Cf;0;BN;;;;;N;;;;;
  16272. >   FFFA;INTERLINEAR ANNOTATION SEPARATOR;Cf;0;BN;;;;;N;;;;;
  16273. >   FFFB;INTERLINEAR ANNOTATION TERMINATOR;Cf;0;BN;;;;;N;;;;;
  16274.  
  16275. These are specifically defined not to be used in plain text.  They are meant
  16276. to be used, for instance, in a word processor that keeps text and "markup"
  16277. (formatting info) in separate memory structures.  The markup can use those
  16278. beasties as place holders in the text, to indicate where the markup applies.
  16279.  
  16280. >   070F;SYRIAC ABBREVIATION MARK;Cf;0;BN;;;;;N;;;;;
  16281. >   180B;MONGOLIAN FREE VARIATION SELECTOR ONE;Cf;0;BN;;;;;N;;;;;
  16282. >   180C;MONGOLIAN FREE VARIATION SELECTOR TWO;Cf;0;BN;;;;;N;;;;;
  16283. >   180D;MONGOLIAN FREE VARIATION SELECTOR THREE;Cf;0;BN;;;;;N;;;;;
  16284. >   180E;MONGOLIAN VOWEL SEPARATOR;Cf;0;BN;;;;;N;;;;;
  16285. >
  16286. > which I am not sure about what they are good for (seems to be new in
  16287. > 3.0).
  16288.  
  16289. The scripts are new to 3.0.  I'm quite sure those guys were not introduced
  16290. lightly and have a real requirement in plain text for the relevant scripts.
  16291.  
  16292.  
  16293. -
  16294. Linux-UTF8:   i18n of Linux on all levels
  16295. Archive:      http://mail.nl.linux.org/lists/
  16296.  
  16297. 20-Dec-99  2:19:12-GMT,3300;000000000001
  16298. Return-Path: <owner-linux-utf8@nl.linux.org>
  16299. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  16300.     by mailhub3.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id VAA16870
  16301.     for <fdc@mailhub.cc.columbia.edu>; Sun, 19 Dec 1999 21:19:05 -0500 (EST)
  16302. Received: from humbolt.nl.linux.org (humbolt.geo.uu.nl [131.211.28.48])
  16303.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id VAA19947
  16304.     for <fdc@watsun.cc.columbia.edu>; Sun, 19 Dec 1999 21:19:04 -0500 (EST)
  16305. Received: by humbolt.nl.linux.org id <S92228AbPLTCRq>;
  16306.     Mon, 20 Dec 1999 03:17:46 +0100
  16307. Received: from kiev.wall.org ([205.178.11.135]:20989 "EHLO kiev.wall.org"
  16308.         smtp-auth: <none>) by humbolt.nl.linux.org with ESMTP
  16309.     id <S92235AbPLTCRM>; Mon, 20 Dec 1999 03:17:12 +0100
  16310. Received: by kiev.wall.org (8.9.3/8.9.3) id SAA28653;
  16311.     Sun, 19 Dec 1999 18:11:51 -0800 (PST)
  16312. Date:   Sun, 19 Dec 1999 18:11:51 -0800 (PST)
  16313. From: Larry Wall <larry@wall.org>
  16314. Message-Id: <199912200211.SAA28653@kiev.wall.org>
  16315. To: Markus.Kuhn@cl.cam.ac.uk (Markus Kuhn)
  16316. Cc: perl-unicode@perl.org, linux-utf8@nl.linux.org
  16317. Subject: Re: ASCII and Unicode Quotation Marks
  16318. In-Reply-To: <E11zkoX-0002il-00@wisbech.cl.cam.ac.uk>
  16319.  (from Markus Kuhn on Sun, 19 Dec 1999 18:12:11 +0000)
  16320. X-Orcpt: rfc822;linux-utf8@nl.linux.org
  16321. Sender: owner-linux-utf8@nl.linux.org
  16322. Precedence: bulk
  16323. Reply-To: linux-utf8@nl.linux.org
  16324.  
  16325. Markus Kuhn writes:
  16326. : If you use any software that writes `quote', please submit to the author
  16327. : a patch and point her to the above URL for background information. Thanks!
  16328.  
  16329. Please note that if you "fix" the m4 program this way it'll break.  I
  16330. think the m4 style of quoting preceded any similar TeX, GNU or X Windows
  16331. usage by quite a long time, and quite possibly led to those other
  16332. usages.  At least, m4 is the first place I ever saw that style of
  16333. quoting used pervasively.
  16334.  
  16335. Also, please don't "fix" programs like Perl or the shells, which don't
  16336. use `quote' style, but rather `quote` style.  So any fix like
  16337.  
  16338.     perl -pi.bak -e "s/\`/'/g;" file1 file2 ...
  16339.  
  16340. is going to have extremely bad consequences in those programs.
  16341.  
  16342. Frankly, I think you're going to run into a lot of people who feel as
  16343. strongly about their quotes as you feel about newlines.  That is,
  16344. to paraphrase your newline article:
  16345.  
  16346.     While the POSIX world is in need of a new character encoding, it is
  16347.     definitely not in need of new quote semantics. The two are fully
  16348.     orthogonal issues, and the Unicode standard has nothing useful to
  16349.     offer for POSIX on the quote issue.
  16350.  
  16351. Mind you, that's not my opinion, exactly.  I'm considerably more easy
  16352. going on the subject.  But I think there will be others who are harder
  16353. going, and I'm playing devil's advocate here.  Standards aside, is
  16354. there any *actual* use of grave and acute accents in a symmetrical
  16355. `quote' fashion?  Or is it merely notional?  Surely under Unicode most
  16356. real accents will be combining or composed characters.  So why inflict a
  16357. most unused symmetry condition on people who are using an actual symmetry?
  16358.  
  16359. I don't think quoting standards is gonna cut it for the folks who feel
  16360. strongly about that.  You're likely to have a cultural war on your hands.
  16361.  
  16362. Me, I'm neutral, but I'll be glad to trade with both sides...
  16363.  
  16364. Larry
  16365. -
  16366. Linux-UTF8:   i18n of Linux on all levels
  16367. Archive:      http://mail.nl.linux.org/lists/
  16368.  
  16369. 20-Dec-99 19:10:05-GMT,3411;000000000001
  16370. Return-Path: <owner-linux-utf8@nl.linux.org>
  16371. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  16372.     by mailhub3.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id OAA25710
  16373.     for <fdc@mailhub.cc.columbia.edu>; Mon, 20 Dec 1999 14:09:58 -0500 (EST)
  16374. Received: from humbolt.nl.linux.org (humbolt.geo.uu.nl [131.211.28.48])
  16375.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id OAA14415
  16376.     for <fdc@watsun.cc.columbia.edu>; Mon, 20 Dec 1999 14:09:57 -0500 (EST)
  16377. Received: by humbolt.nl.linux.org id <S92238AbPLTTIR>;
  16378.     Mon, 20 Dec 1999 20:08:17 +0100
  16379. Received: from sceaux.ilog.fr ([193.55.64.10]:36319 "EHLO sceaux.ilog.fr"
  16380.         smtp-auth: <none>) by humbolt.nl.linux.org with ESMTP
  16381.     id <S92235AbPLTTHn>; Mon, 20 Dec 1999 20:07:43 +0100
  16382. Received: from laposte.ilog.fr (laposte [172.17.1.6])
  16383.     by sceaux.ilog.fr (8.9.3/8.9.3) with ESMTP id UAA29700;
  16384.     Mon, 20 Dec 1999 20:01:13 +0100 (MET)
  16385. Received: from oberkampf.ilog.fr ([172.17.4.2])
  16386.     by laposte.ilog.fr (8.9.3/8.9.3) with ESMTP id UAA10959;
  16387.     Mon, 20 Dec 1999 20:02:47 +0100 (MET)
  16388. From: Bruno Haible <haible@ilog.fr>
  16389. Received: (from haible@localhost)
  16390.     by oberkampf.ilog.fr (8.9.2/8.9.2) id UAA03998;
  16391.     Mon, 20 Dec 1999 20:02:45 +0100 (MET)
  16392. Date:   Mon, 20 Dec 1999 20:02:45 +0100 (MET)
  16393. Message-Id: <199912201902.UAA03998@oberkampf.ilog.fr>
  16394. To: linux-utf8@nl.linux.org
  16395. Cc: perl-unicode@perl.org, gnits@iro.umontreal.ca, rms@gnu.org
  16396. Subject: Re: ASCII and Unicode Quotation Marks
  16397. In-Reply-To: <199912191951.LAA16293@ferrule.cygnus.com>
  16398. References: <E11zkoX-0002il-00@wisbech.cl.cam.ac.uk>
  16399.     <199912191951.LAA16293@ferrule.cygnus.com>
  16400. X-Orcpt: rfc822;linux-utf8@nl.linux.org
  16401. Sender: owner-linux-utf8@nl.linux.org
  16402. Precedence: bulk
  16403. Reply-To: linux-utf8@nl.linux.org
  16404.  
  16405. Tom Tromey writes:
  16406.  
  16407. > Markus> If you use any software that writes `quote', please submit to
  16408. > Markus> the author a patch and point her to the above URL for
  16409. > Markus> background information. Thanks!
  16410. > This is standard practice for all GNU programs, including the output
  16411. > of "makeinfo".
  16412.  
  16413. I can't speak about 'makeinfo', but for the run-time messages of
  16414. internationalized programs the following approach is possible:
  16415.  
  16416.   - Use a .po file in UTF-8 format, and use U+2018/U+2019 as left and
  16417.     right quote delimiters.
  16418.  
  16419.   - The GNU gettext library shall convert the messages from the .po file's
  16420.     encoding to the current locale's character set (i.e. ISO-8859-1 in
  16421.     many cases). This is already partially implemented.
  16422.  
  16423.   - GNU gettext uses iconv. If the U+2018/U+2019 quotes cannot be
  16424.     represented in the current locale's character set, iconv can choose
  16425.     appropriate replacement characters (acute and grave accent or, as a
  16426.     last fallback, the vertical apostrophe).
  16427.     This will be easily implemented in the free iconv implementations
  16428.     (glibc-iconv, libiconv, freebsd-iconv). The non-free iconv
  16429.     implementations are so low quality that they are unusable.
  16430.  
  16431.   - Programmers must use vertical apostrophe or double quotes in the
  16432.     english messages in the C source. (The standard way to put Unicode
  16433.     characters into a wide char string, \unnnn, is not yet implemented
  16434.     by most compilers.)
  16435.  
  16436.   - As a consequence, a message catalog for English must be introduced,
  16437.     in order to map
  16438.           "He said: 'Hello world!'"
  16439.     to
  16440.           "He said: \u2018Hello world!\u2019"
  16441.  
  16442. Bruno
  16443. -
  16444. Linux-UTF8:   i18n of Linux on all levels
  16445. Archive:      http://mail.nl.linux.org/lists/
  16446.  
  16447. 29-Dec-99 16:18:00-GMT,3021;000000000001
  16448. Return-Path: <unicode@unicode.org>
  16449. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  16450.     by mailhub2.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id LAA10990
  16451.     for <fdc@mailhub.cc.columbia.edu>; Wed, 29 Dec 1999 11:17:59 -0500 (EST)
  16452. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  16453.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id LAA28680
  16454.     for <fdc@watsun.cc.columbia.edu>; Wed, 29 Dec 1999 11:17:58 -0500 (EST)
  16455. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  16456.     by public.lists.apple.com (8.9.1a/8.9.1) with ESMTP id IAA38410
  16457.     ; Wed, 29 Dec 1999 08:13:51 -0800
  16458. Received: (from agent@localhost)
  16459.     by unicode.org (8.9.3/8.9.3) id IAA22384;
  16460.     Wed, 29 Dec 1999 08:06:30 -0800 (PST)
  16461. Message-Id: <199912291606.IAA22384@unicode.org>
  16462. Errors-To: root@unicode.org
  16463. Mime-Version: 1.0
  16464. Content-Type: text/plain;
  16465.      charset=ISO-8859-1
  16466. Content-Disposition: inline
  16467. X-UML-Sequence: 11575 (1999-12-29 16:06:19 GMT)
  16468. From: Doug Ewell <dewell@compuserve.com>
  16469. To: "Unicode List" <unicode@unicode.org>
  16470. Date: Wed, 29 Dec 1999 08:06:17 -0800 (PST)
  16471. Subject: Re: Latin ligatures and Unicode
  16472. Content-Transfer-Encoding: 8bit
  16473. X-MIME-Autoconverted: from quoted-printable to 8bit by mailhub2.cc.columbia.edu id LAA10990
  16474.  
  16475. Throughout this whole discussion of ligatures in Latin and the proposed
  16476. (or at least bandied-about) ZERO-WIDTH LIGATOR characters, one issue
  16477. keeps bothering me.  I'm not sure how terrific it would be to allow (or
  16478. require) a ZWL and ZWNL to achieve ligation, and what new problems this
  16479. would create, but at the same time I'm uncomfortable with leaving this
  16480. issue up to the font vendors, and I think Marco Cimarosti summed it up
  16481. perfectly:
  16482.  
  16483. > I would like to stress one point. If I am not totally wrong, Unicode
  16484. > should be a standard to encode *plain text*.
  16485. > AAT, OpenType, or any other font technology should not be considered
  16486. > as *prerequisites* for displaying Unicode. 
  16487. > Or is any particular font technology now *required* by the Unicode
  16488. > standard?
  16489. > Or is it now "non conformant" to use bitmapped fonts?
  16490.  
  16491. The idea that a particular font "technology" (where I use the word in
  16492. its marketing sense that is closer to "vendor's product" than "set of
  16493. capabilities") is necessary to render Unicode plain text properly is the
  16494. first step toward having that vendor claim that its products are the
  16495. only ones that support Unicode.
  16496.  
  16497. Obviously, some advanced font capabilities *are* necessary to render all
  16498. of Unicode properly.  (Note, BTW, the use of plain text to indicate
  16499. italics, obviating the need for a special Unicode character to indicate
  16500. this markup.)  For instance, you cannot render Arabic without choosing
  16501. the contextually appropriate glyph.  But this is a long way from saying
  16502. "You need AAT" or "You need OpenType."  The latter would send the
  16503. message that Unicode support requires specific vendors' products, and we
  16504. could be back where we started decades ago, with each vendor devising
  16505. its own character encoding solutions.
  16506.  
  16507. -Doug Ewell
  16508.  Fullerton, California
  16509.  
  16510. 29-Dec-99 17:04:10-GMT,2736;000000000001
  16511. Return-Path: <unicode@unicode.org>
  16512. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  16513.     by mailhub1.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id MAA23776
  16514.     for <fdc@mailhub.cc.columbia.edu>; Wed, 29 Dec 1999 12:04:06 -0500 (EST)
  16515. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  16516.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id MAA08950
  16517.     for <fdc@watsun.cc.columbia.edu>; Wed, 29 Dec 1999 12:04:05 -0500 (EST)
  16518. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  16519.     by public.lists.apple.com (8.9.1a/8.9.1) with ESMTP id IAA15946
  16520.     ; Wed, 29 Dec 1999 08:57:42 -0800
  16521. Received: (from agent@localhost)
  16522.     by unicode.org (8.9.3/8.9.3) id IAA22969;
  16523.     Wed, 29 Dec 1999 08:50:26 -0800 (PST)
  16524. Message-Id: <199912291650.IAA22969@unicode.org>
  16525. Errors-To: root@unicode.org
  16526. Mime-Version: 1.0
  16527. Content-Type: text/plain; charset="US-ASCII"
  16528. Content-Transfer-Encoding: 7bit
  16529. X-UML-Sequence: 11578 (1999-12-29 16:50:15 GMT)
  16530. From: John Jenkins <jenkins@apple.com>
  16531. To: "Unicode List" <unicode@unicode.org>
  16532. Date: Wed, 29 Dec 1999 08:50:14 -0800 (PST)
  16533. Subject: Re: Latin ligatures and Unicode
  16534. Content-Transfer-Encoding: 7bit
  16535.  
  16536. on 12/29/99 5:11 AM, Marco.Cimarosti@icl.com at Marco.Cimarosti@icl.com
  16537. wrote:
  16538.  
  16539. > I would like to stress one point. If I am not totally wrong, Unicode should
  16540. > be a standard to encode *plain text*.
  16541. > AAT, OpenType, or any other font technology should not be considered as
  16542. > *prerequisites* for displaying Unicode.
  16543. > Or is any particular font technology now *required* by the Unicode standard?
  16544. > Or is it now "non conformant" to use bitmapped fonts?
  16545.  
  16546. AAT, OpenType, or some equivalent technology is and always has been a
  16547. prerequisite for displaying Unicode.  The standard has been designed from
  16548. the beginning with the assumption that an intelligent rendering engine is
  16549. available which can implement the character-glyph model in some fashion and
  16550. display N characters using M glyphs with rearrangement and reshaping along
  16551. the way.  
  16552.  
  16553. Unicode has also made the assumption that out-of-band information is
  16554. required to provide the full range of "proper" display required by users --
  16555. e.g., in Unihan where it's acknowledged that Japanese readers won't want to
  16556. see characters written using Taiwanese glyphs.
  16557.  
  16558. "Plain text" in Unicode means (theoretically) the minimal amount of
  16559. information for legible display.
  16560.  
  16561. In this sense, using bitmapped fonts is conformant if and only if the bitmap
  16562. font technology can implement the character-glyph model and would be better
  16563. off if some kind of outside markup were available to finesse the display and
  16564. provide the not-plain-text information.
  16565.  
  16566.  
  16567. =====
  16568. John H. Jenkins
  16569. jenkins@apple.com
  16570. tseng@blueneptune.com
  16571. http://www.blueneptune.com/~tseng
  16572.  
  16573. 30-Dec-99  0:27:17-GMT,5909;000000000001
  16574. Return-Path: <unicode@unicode.org>
  16575. Received: from watsun.cc.columbia.edu (watsun.cc.columbia.edu [128.59.39.2])
  16576.     by mailhub1.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id TAA04123
  16577.     for <fdc@mailhub.cc.columbia.edu>; Wed, 29 Dec 1999 19:27:16 -0500 (EST)
  16578. Received: from public.lists.apple.com (public.lists.apple.com [17.254.0.151])
  16579.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id TAA20491
  16580.     for <fdc@watsun.cc.columbia.edu>; Wed, 29 Dec 1999 19:27:16 -0500 (EST)
  16581. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  16582.     by public.lists.apple.com (8.9.1a/8.9.1) with ESMTP id QAA35958
  16583.     ; Wed, 29 Dec 1999 16:25:42 -0800
  16584. Received: (from agent@localhost)
  16585.     by unicode.org (8.9.3/8.9.3) id QAA25814;
  16586.     Wed, 29 Dec 1999 16:20:30 -0800 (PST)
  16587. Message-Id: <199912300020.QAA25814@unicode.org>
  16588. Errors-To: root@unicode.org
  16589. X-UML-Sequence: 11589 (1999-12-30 00:20:19 GMT)
  16590. From: Kenneth Whistler <kenw@sybase.com>
  16591. To: "Unicode List" <unicode@unicode.org>
  16592. Cc: unicode@unicode.org, kenw@sybase.com
  16593. Date: Wed, 29 Dec 1999 16:20:16 -0800 (PST)
  16594. Subject: Re: Latin ligatures and Unicode
  16595.  
  16596. John Jenkins replied to Marco Cimarosti:
  16597.  
  16598. > on 12/29/99 5:11 AM, Marco.Cimarosti@icl.com at Marco.Cimarosti@icl.com
  16599. > wrote:
  16600. > > I would like to stress one point. If I am not totally wrong, Unicode should
  16601. > > be a standard to encode *plain text*.
  16602. > > AAT, OpenType, or any other font technology should not be considered as
  16603. > > *prerequisites* for displaying Unicode.
  16604. > > Or is any particular font technology now *required* by the Unicode standard?
  16605. > > Or is it now "non conformant" to use bitmapped fonts?
  16606. > > 
  16607. > AAT, OpenType, or some equivalent technology is and always has been a
  16608. > prerequisite for displaying Unicode.  The standard has been designed from
  16609. > the beginning with the assumption that an intelligent rendering engine is
  16610. > available which can implement the character-glyph model in some fashion and
  16611. > display N characters using M glyphs with rearrangement and reshaping along
  16612. > the way.
  16613.  
  16614. I think John's response is a bit overblown. It is true that the designers
  16615. of the Unicode Standard have always (meaning since 1988 at least) assumed
  16616. the availability of an "intelligent rendering engine" as part of the text
  16617. handling model for Unicode. But in so doing they were thinking, from the
  16618. outset, about the issues of combining marks, ligatures and conjuncts, bidirectional
  16619. text handling, and other complexities inherent to the full scope of written text.
  16620. It was obvious from the start that no character-cell terminal with bitmaps
  16621. was up to the general task, and that a several-layer abstraction between
  16622. characters in a text backing store and dots in a display raster was going
  16623. to be necessary to do justice to the general problem of rendering.
  16624.  
  16625. BUT... conformance to the Unicode Standard does *not* mean that you have
  16626. to implement a rendering engine that can handle Arabic, Khmer, *and*
  16627. Mongolian to professional typesetting specifications.
  16628.  
  16629. One could be implementing a Braille device driver that uses Unicode 3.0
  16630. Braille symbol character codes for transmission, and that does not use *any*
  16631. font at all for rendering, for example.
  16632.  
  16633. It is also conformant to make use of Unicode chart fonts, with fixed
  16634. glyph shapes associated with fixed character codes -- as long as the
  16635. process that is doing so is doing so intentionally and is not making
  16636. bogus claims about correct visual layout of Arabic, for example. The
  16637. production of the standard itself makes such *conformant* use of a chart
  16638. font to enable the printing of the code charts.
  16639.  
  16640. And since no Unicode implementation is forced to interpret all Unicode
  16641. characters, it is perfectly possible to constrain one's interpreted
  16642. repertoire to some fixed small set that *can* be implemented with a
  16643. simple one-to-one character-to-glyph representation model. As long as
  16644. the Unicode text content is rendered *legibly*, in accordance with the
  16645. intended semantics of the characters, and is not "garbaged" by a
  16646. misinterpretation of the intended values of the characters, that would
  16647. have to be considered conformant.
  16648.  
  16649. And finally, there are plenty of "backend" processing implementations
  16650. of the Unicode Standard that have no rendering -- and that therefore
  16651. do not have to worry about the complexities of visual display.
  16652.   
  16653. > Unicode has also made the assumption that out-of-band information is
  16654. > required to provide the full range of "proper" display required by users --
  16655. > e.g., in Unihan where it's acknowledged that Japanese readers won't want to
  16656. > see characters written using Taiwanese glyphs.
  16657. > "Plain text" in Unicode means (theoretically) the minimal amount of
  16658. > information for legible display.
  16659. > In this sense, using bitmapped fonts is conformant if and only if the bitmap
  16660. > font technology can implement the character-glyph model and would be better
  16661. > off if some kind of outside markup were available to finesse the display and
  16662. > provide the not-plain-text information.
  16663.  
  16664. I don't think this "if and only if" statement can hold for Unicode
  16665. implementations in general. Bitmap fonts would be hard-pressed to
  16666. deal with the minimal display requirements for many complex scripts,
  16667. but it is not beyond the realm of engineering possibility to keep
  16668. extending existing approaches. For complex scripts it just isn't worth
  16669. the effort, basically, when better approaches using "smart" outline
  16670. fonts exist.
  16671.  
  16672. But in any case, the requirements for legible display of a given
  16673. piece of well-formed Unicode text vary from script to script -- and
  16674. not all require the same level of sophistication that Arabic or
  16675. Mongolian do, for example.
  16676.  
  16677. And Marco, you can put your mind at ease. You will search long and
  16678. hard -- and in vain -- in the Unicode Standard, Version 3.0 for any
  16679. formal conformance statement that would require an implementation
  16680. to make use of a *particular* font technology -- or indeed, of any
  16681. font technology at all -- in order to be conformant to the standard.
  16682.  
  16683. --Ken
  16684.  
  16685. 23-Mar-2000 18:48:24-GMT,2968;000000000001
  16686. Return-Path: <gumby@henkel-wallace.org>
  16687. Received: from mailrelay1.cc.columbia.edu (mailrelay1.cc.columbia.edu [128.59.35.143])
  16688.     by uhaligani.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id NAA02998
  16689.     for <fdc@cpunix.cc.columbia.edu>; Thu, 23 Mar 2000 13:48:22 -0500 (EST)
  16690. Received: from charybdis.zembu.com (charybdis.zembu.com [209.157.144.99])
  16691.     by mailrelay1.cc.columbia.edu (8.9.3/8.9.3) with SMTP id NAA06415
  16692.     for <fdc@columbia.edu>; Thu, 23 Mar 2000 13:48:19 -0500 (EST)
  16693. Received: (qmail 31489 invoked from network); 23 Mar 2000 18:48:12 -0000
  16694. Received: from scylla.zembu.com (HELO gumby.henkel-wallace.org) (209.157.144.98)
  16695.   by charybdis.zembu.com with SMTP; 23 Mar 2000 18:48:12 -0000
  16696. Message-Id: <4.3.1.2.20000323104006.04856270@pop.zembu.com>
  16697. X-Sender:  (Unverified)
  16698. X-Mailer: QUALCOMM Windows Eudora Version 4.3.1
  16699. Date: Thu, 23 Mar 2000 10:47:24 -0800
  16700. To: Frank da Cruz <fdc@columbia.edu>
  16701. From: "D.V. Henkel-Wallace" <gumby@henkel-wallace.org>
  16702. Subject: RE: DEC multilingual code page, ISO 8859-1, etc.
  16703. Cc: unicode@unicode.org
  16704. In-Reply-To: <200003230157.RAA19027@unicode.org>
  16705. Mime-Version: 1.0
  16706. Content-Type: text/plain; charset="us-ascii"; format=flowed
  16707.  
  16708. At 17:55 22-03-00 -0800, Frank da Cruz wrote:
  16709.  
  16710. > > On a different topic, the 125x's will or shortly will be standardized (as
  16711. > > well as de facto) code pages for info interchange on the Internet.
  16712. >
  16713. >By "standardized" you probably mean registered as MIME charsets.  That's not
  16714. >quite the same as being standardized in the ISO or ANSI sense, back in the
  16715. >days when care was taken to make sure that "information interchange" was not
  16716. >compromised.  The world of computing is not just the Web.[...]
  16717. > > One can
  16718. > > gripe about the situation, but it evolved along with the web and there's
  16719. > > nothing one can do to perfect things at this point.
  16720. > >
  16721. >One can resist further ruination.
  16722.  
  16723. (I assume that by now Unicoders not interested in this topic will have 
  16724. stopped following this thread, so this can be considered "on topic").
  16725.  
  16726. As a further salvo in the "text vs markup" skirmish on this list, I suggest 
  16727. you point your browser to the surprisingly open-minded article at 
  16728. http://www.tidbits.com/tb-issues/TidBITS-522.html#lnk3.
  16729.  
  16730. The technical details should be understood to most of us.  But tThe key 
  16731. point in this article is that the battle of non-standard tags in the 
  16732. "browser wars" has not only flamed out, but is being trumped by -- get this 
  16733. -- _standards_.
  16734.  
  16735. The drive to non-PC devices is causing a resurgence of interest in text, 
  16736. and in the separation of presentation from markup.  I would have thought 
  16737. that computer scientists would get this intuitively, but this article, 
  16738. discussions on this list, and the marketplace all show that assumption to 
  16739. be naive.
  16740.  
  16741. Markus' screed on the use of "ANSI" might appear to be off topic, but the 
  16742. word "Unicode" can end up being equally debased (and thus equally useless) 
  16743. if care isn't taken now.
  16744.  
  16745. -d
  16746.  
  16747. PS: apologies for all the bellicose metaphor in my message.
  16748.  
  16749.  2-Jul-2000 19:23:16-GMT,3375;000000000001
  16750. Return-Path: <unicode@unicode.org>
  16751. Received: from mailrelay1.cc.columbia.edu (mailrelay1.cc.columbia.edu [128.59.35.143])
  16752.     by uhaligani.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id PAA23501
  16753.     for <fdc@cpunix.cc.columbia.edu>; Sun, 2 Jul 2000 15:23:15 -0400 (EDT)
  16754. Received: from bz2.apple.com (bz2.apple.com [17.254.0.82])
  16755.     by mailrelay1.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id PAA14534
  16756.     for <fdc@columbia.edu>; Sun, 2 Jul 2000 15:23:15 -0400 (EDT)
  16757. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  16758.     by bz2.apple.com (8.9.3/8.9.3) with ESMTP id MAA09512;
  16759.     Sun, 2 Jul 2000 12:20:12 -0700 (PDT)
  16760. Received: (from daemon@localhost)
  16761.     by unicode.org (8.9.3/8.9.3) id LAA26467;
  16762.     Sun, 2 Jul 2000 11:07:58 -0800 (GMT-0800)
  16763. Message-Id: <200007021907.LAA26467@unicode.org>
  16764. Errors-To: root@unicode.org
  16765. Mime-Version: 1.0
  16766. Content-Type: text/plain; charset="us-ascii"
  16767. X-UML-Sequence: 14498 (2000-07-02 19:05:14 GMT)
  16768. From: John Hudson <tiro@tiro.com>
  16769. To: "Unicode List" <unicode@unicode.org>
  16770. Cc: Unicode mailing list <unicode@unicode.org>
  16771. Date: Sun, 2 Jul 2000 11:05:11 -0800 (GMT-0800)
  16772. Subject: Re: Should furigana be considered part of "plain text"?
  16773.  
  16774. At 09:16 AM 7/2/00 -0800, Doug Ewell wrote:
  16775.  
  16776. >The problem with the phrase "plain text ceases to be plain if you decide
  16777. >that layout information needs to be encoded" is the word "layout."  In
  16778. >the broadest sense, line and paragraph separation could be considered
  16779. >"layout," and nobody would suggest doing away with the plain-text
  16780. >characters needed to control those functions.
  16781.  
  16782. I think this is a fair comment, if one assumes so broad a sense of
  16783. 'layout'. On the other hand, I wouldn't consider a paragraph break to be
  16784. necessarily 'layout', since it is primarily a textual convention that can
  16785. be represented in layout in a myriad of different ways: double spacing,
  16786. indentation, pilcrows, etc.. Now, we have interpreted a paragraph break in
  16787. a particular way in plain text code -- a hard break and a move to a new
  16788. line, i.e. the behaviour of a typewriter 'return' key -- and have further
  16789. muddied things by using this code to force layout by, for instance,
  16790. entering two paragraph breaks
  16791.  
  16792. to achieve this particular layout.
  16793.  
  16794. Personally, I think a truly plain text paragraph break would have no
  16795. particular layout behaviour associated with it; rather, it would indicate a
  16796. textual break that would be interpreted by applications according to user
  16797. defined layout preferences. In e-mail, it is handy to have paragraphs
  16798. separated by a 'double return', especially when several correspondents are
  16799. being quoted, but elsewhere I would prefer indented, single-spaced
  16800. paragraphs. Since it is the same textual break that is being indicated, I
  16801. don't think these two layout options should be differently encoded. I think
  16802. equating a digital paragraph break with the return key on a manual
  16803. typewriter is actually a failure to encode plain text.
  16804.  
  16805. That said, I realise that this might be an extremist view, and I certainly
  16806. don't expect anybody to change anything now. Although I have to add, as
  16807. someone who has typeset books, that having to remove all the double returns
  16808. in a document before I can properly control the paragraph breaks is almost
  16809. as annoying as replacing multiple tabs or word spaces when these have been
  16810. used to force layout in 'plain text'. Thank goodness for macros.
  16811.  
  16812. John Hudson
  16813.  
  16814. Tiro Typeworks
  16815. Vancouver, BC
  16816. http://www.tiro.com
  16817.  
  16818.  4-Jul-2000  6:26:40-GMT,7120;000000000001
  16819. Return-Path: <unicode@unicode.org>
  16820. Received: from mailrelay2.cc.columbia.edu (mailrelay2.cc.columbia.edu [128.59.35.139])
  16821.     by monire.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id CAA08854
  16822.     for <fdc@cpunix.cc.columbia.edu>; Tue, 4 Jul 2000 02:26:39 -0400 (EDT)
  16823. Received: from bz2.apple.com (bz2.apple.com [17.254.0.82])
  16824.     by mailrelay2.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id CAA04705
  16825.     for <fdc@columbia.edu>; Tue, 4 Jul 2000 02:26:38 -0400 (EDT)
  16826. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  16827.     by bz2.apple.com (8.9.3/8.9.3) with ESMTP id XAA08214;
  16828.     Mon, 3 Jul 2000 23:25:28 -0700 (PDT)
  16829. Received: (from daemon@localhost)
  16830.     by unicode.org (8.9.3/8.9.3) id WAA01104;
  16831.     Mon, 3 Jul 2000 22:10:44 -0800 (GMT-0800)
  16832. Message-Id: <200007040610.WAA01104@unicode.org>
  16833. Errors-To: root@unicode.org
  16834. Mime-Version: 1.0
  16835. Content-Type: text/plain; charset="us-ascii" ; format="flowed"
  16836. X-UML-Sequence: 14512 (2000-07-04 06:07:15 GMT)
  16837. From: Edward Cherlin <edward.cherlin.sy.67@aya.yale.edu>
  16838. To: "Unicode List" <unicode@unicode.org>
  16839. Cc: Unicode mailing list <unicode@unicode.org>
  16840. Date: Mon, 3 Jul 2000 22:07:13 -0800 (GMT-0800)
  16841. Subject: Re: Should furigana be considered part of "plain text"?
  16842.  
  16843. At 11:05 AM -0800 7/2/00, John Hudson wrote:
  16844. >At 09:16 AM 7/2/00 -0800, Doug Ewell wrote:
  16845. >
  16846. > >The problem with the phrase "plain text ceases to be plain if you decide
  16847. > >that layout information needs to be encoded" is the word "layout."  In
  16848. > >the broadest sense, line and paragraph separation could be considered
  16849. > >"layout," and nobody would suggest doing away with the plain-text
  16850. > >characters needed to control those functions.
  16851.  
  16852. The problem with the phrase "plain text" is that it is a polite 
  16853. fiction. ASCII characters, printing and non-printing, originated as 
  16854. commands to printers. What we originally called plain text files are 
  16855. those that would give reasonable results when printed on an ASCII 
  16856. teleprinter used as a terminal. The mechanical functions of Teletypes 
  16857. defined the original semantics of the control characters used in text 
  16858. files, and since carried over to screen and laser printer output--
  16859.  
  16860. CR Carriage Return    Move printing point to beginning of current line.
  16861. LF Line Feed          Move printing point down one line.
  16862. BS Back Space         Move printing point one space left, unless at left limit.
  16863. HT Horizontal Tab     Move printing point right to next tab stop, unless at
  16864.                          right limit.
  16865. FF Form Feed          Move printing point to top of next page.
  16866.  
  16867. and is the reason why many of us call CR-LF either a line or 
  16868. paragraph break today. Explicit line breaks were, of course, 
  16869. essential on the original devices. Both CR and BS were routinely used 
  16870. for overstriking.
  16871.  
  16872. The semantics of these and other ASCII control characters have been 
  16873. changing with technology. *Some* computer system designers, noticing 
  16874. that the demands of printing terminals were not requirements on 
  16875. system file internals, chose to use either CR alone or LF alone for 
  16876. line or paragraph ends, all without coordination. Line breaks in 
  16877. files became optional on systems that provided word wrap on output or 
  16878. display. Users were given options for setting tab stops, margins, and 
  16879. page lengths. Character 7F, DEL, originally meant "not a character; 
  16880. deleted" on punched paper tape, but began turning into destructive 
  16881. backspace even before tape died. ESC has undoubtedly mutated the 
  16882. most. The use of 1A SUB for end of file in several operating systems 
  16883. including PCDOS is a violation of the ASCII standard, which provides 
  16884. both 03 ETX (End of Text) and 04 EOT (End of Transmission), but who 
  16885. cared?
  16886.  
  16887. There are now numerous incompatible formats bearing the name "plain 
  16888. text". Some are distinguished by the choice of line end string. In 
  16889. some cases, line ends are required, especially if there is a maximum 
  16890. line length. Lines of unlimited length may represent paragraphs or 
  16891. database records. Character sets other than ASCII may be used, 
  16892. especially 8859-1 or Windows code page 1252. These days, people want 
  16893. to be able to use any coded character set and still call it plain 
  16894. text. In fact, people want to introduce all kinds of markup, 
  16895. including furigana/rubi, language tags, ligature marking, and even 
  16896. character set shift sequences (not just the poky SI and SO), and 
  16897. still call the result plain text.
  16898.  
  16899. >I think this is a fair comment, if one assumes so broad a sense of
  16900. >'layout'. On the other hand, I wouldn't consider a paragraph break to be
  16901. >necessarily 'layout', since it is primarily a textual convention that can
  16902. >be represented in layout in a myriad of different ways: double spacing,
  16903. >indentation, pilcrows, etc.. Now, we have interpreted a paragraph break in
  16904. >a particular way in plain text code -- a hard break and a move to a new
  16905. >line, i.e. the behaviour of a typewriter 'return' key --
  16906.  
  16907. by way of the Teletype
  16908.  
  16909. >and have further
  16910. >muddied things by using this code to force layout by, for instance,
  16911. >entering two paragraph breaks
  16912. >
  16913. >to achieve this particular layout.
  16914.  
  16915. The use of tabs, spaces, CR, and LF to lay out "plain text" is 
  16916. necessary in mail and news, and a total pain in documents that will 
  16917. need to be converted to anything else.
  16918.  
  16919. >Personally, I think a truly plain text paragraph break would have no
  16920. >particular layout behaviour associated with it; rather, it would indicate a
  16921. >textual break that would be interpreted by applications according to user
  16922. >defined layout preferences. In e-mail, it is handy to have paragraphs
  16923. >separated by a 'double return', especially when several correspondents are
  16924. >being quoted, but elsewhere I would prefer indented, single-spaced
  16925. >paragraphs. Since it is the same textual break that is being indicated, I
  16926. >don't think these two layout options should be differently encoded. I think
  16927. >equating a digital paragraph break with the return key on a manual
  16928. >typewriter is actually a failure to encode plain text.
  16929.  
  16930. It is too late for such simple solutions. If we want to have a 
  16931. standard for plain text, we have to provide for each of the common 
  16932. usages. We have tried to start such a project twice on this list, and 
  16933. have failed utterly both times.
  16934.  
  16935. >That said, I realise that this might be an extremist view, and I certainly
  16936. >don't expect anybody to change anything now. Although I have to add, as
  16937. >someone who has typeset books, that having to remove all the double returns
  16938. >in a document before I can properly control the paragraph breaks is almost
  16939. >as annoying as replacing multiple tabs or word spaces when these have been
  16940. >used to force layout in 'plain text'. Thank goodness for macros.
  16941.  
  16942. Hear, hear. I have wasted a remarkable amount of time over the years 
  16943. on reformatting Word documents into FrameMaker. The "pain text" [sic] 
  16944. markup habits of engineers are responsible for most of the work in 
  16945. those conversions. Thank goodness for book-wide search and replace in 
  16946. FM 6.
  16947.  
  16948. >John Hudson
  16949. >
  16950. >Tiro Typeworks
  16951. >Vancouver, BC
  16952. >http://www.tiro.com
  16953.  
  16954.  
  16955. Edward Cherlin, Spamfighter <http://www.cauce.org>
  16956. "It isn't what you don't know that hurts you, it's
  16957. what you know that ain't so."--Mark Twain, or else
  16958. some other prominent 19th century humorist and wit
  16959.  
  16960.  6-Jul-2000 17:38:05-GMT,2882;000000000001
  16961. Return-Path: <unicode@unicode.org>
  16962. Received: from mailrelay2.cc.columbia.edu (mailrelay2.cc.columbia.edu [128.59.35.139])
  16963.     by fozimane.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id NAA14701
  16964.     for <fdc@cpunix.cc.columbia.edu>; Thu, 6 Jul 2000 13:38:04 -0400 (EDT)
  16965. Received: from relay7.apple.com (bz1.apple.com [17.254.0.81])
  16966.     by mailrelay2.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id NAA25607
  16967.     for <fdc@columbia.edu>; Thu, 6 Jul 2000 13:38:03 -0400 (EDT)
  16968. Received: from unicode.org (unicode2.apple.com [17.254.3.212])
  16969.     by relay7.apple.com (8.9.3/8.9.3) with ESMTP id KAA01592;
  16970.     Thu, 6 Jul 2000 10:37:21 -0700 (PDT)
  16971. Received: (from daemon@localhost)
  16972.     by unicode.org (8.9.3/8.9.3) id JAA13311;
  16973.     Thu, 6 Jul 2000 09:25:24 -0800 (GMT-0800)
  16974. Message-Id: <200007061725.JAA13311@unicode.org>
  16975. Errors-To: root@unicode.org
  16976. Mime-Version: 1.0
  16977. Content-Type: TEXT/PLAIN; charset=US-ASCII
  16978. X-UML-Sequence: 14562 (2000-07-06 17:21:42 GMT)
  16979. From: John Cowan <cowan@locke.ccil.org>
  16980. To: "Unicode List" <unicode@unicode.org>
  16981. Cc: Unicode List <unicode@unicode.org>
  16982. Date: Thu, 6 Jul 2000 09:21:38 -0800 (GMT-0800)
  16983. Subject: Re: Control characters
  16984.  
  16985. On Wed, 5 Jul 2000, john wrote:
  16986.  
  16987. > > IIRC, the Model 37 Teletype interpreted 0A as a newline function,
  16988. > Also models 33 and 38, which also interpreted x0D as carriage return.
  16989.  
  16990. Definitely not true of the model 33; it interpreted 0A as a line-feed,
  16991. and if it received one not preceded by 0D
  16992.                                           it would do this.
  16993. (Hopefully, you are all reading this email with a fixed-width font as
  16994. God intended.)
  16995.  
  16996. > > so ASCII allowed 0A to be interpreted as either LF or NL. 
  16997. > That's non sequitur, but folks are like that.
  16998.  
  16999. How so?  The LF behavior is different from the NL behavior.
  17000.  
  17001. > > DEC OSes notoriously distorted or misused the control characters, thus
  17002. > > ^U = NAK was used to kill an input line instead of ^X = cancel.
  17003. > Since some of these editing commands were actually
  17004. > merely echoed back from the main processor to the comm control
  17005. > unit through which the terminal was connected,
  17006.  
  17007. Definitely not true of any DEC OS; control characters were echoed as ^A, ^B,
  17008. etc.
  17009.  
  17010. > there was some
  17011. > fogging over of the concepts of source and destination.  The comm
  17012. > controller would buffer up what was typed until it got a CR (0x0D)
  17013. > and so these editing controls were actually commands to that comm
  17014. > controller to clear its buffer.
  17015.  
  17016. Again, not true of any DEC OS; characters were interpreted one by one
  17017. and selectively echoed by the CPU only.
  17018. There were no buffering serial-line controllers for the PDP-8, and they
  17019. weren't introduced for the PDP-11 until later -- and even then, the typical
  17020. mode was to stop buffering on *any* control character.
  17021.  
  17022. -- 
  17023. John Cowan                                   cowan@ccil.org
  17024.     "You need a change: try Canada"  "You need a change: try China"
  17025.         --fortune cookies opened by a couple that I know
  17026.  
  17027.  
  17028. 26-Nov-2001 20:41:25-GMT,3221;000000000005
  17029. Return-Path: <unicode-bounce@unicode.org>
  17030. Received: from unicode.org (unicode.org [209.235.17.55])
  17031.     by kachifo.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id BAA15597
  17032.     for <fdc@columbia.edu>; Mon, 26 Nov 2001 01:24:21 -0500 (EST)
  17033. Received: from sarasvati.unicode.org (localhost.localdomain [127.0.0.1])
  17034.     by unicode.org (8.9.3/8.9.3) with ESMTP id AAA21504;
  17035.     Mon, 26 Nov 2001 00:37:19 -0500
  17036. Received: with LISTAR (v1.0.0; list unicode); Mon, 26 Nov 2001 00:37:19 -0500 (EST)
  17037. Received: from mailserv2.iuinc.com (mailserv2.iuinc.com [206.245.164.55])
  17038.     by unicode.org (8.9.3/8.9.3) with SMTP id AAA21498
  17039.     for <unicode@unicode.org>; Mon, 26 Nov 2001 00:37:18 -0500
  17040. Received: (qmail 10978 invoked from network); 26 Nov 2001 05:43:03 -0000
  17041. Received: from unknown (HELO suse) (210.81.148.125)
  17042.   by mailserv2.iuinc.com with SMTP; 26 Nov 2001 05:43:03 -0000
  17043. Date: Mon, 26 Nov 2001 14:46:12 +0900 (JST)
  17044. From: Gaspar Sinai <gsinai@yudit.org>
  17045. X-X-Sender: gsinai@suse.blue-edge-tech.com
  17046. To: Philipp Reichmuth <reichmuth@web.de>
  17047. cc: Arjun Aggarwal <mrasool@sancharnet.in>, <unicode@unicode.org>
  17048. Subject: Re: The real solution
  17049. In-Reply-To: <725176373.20011125222014@web.de>
  17050. Message-ID: <Pine.LNX.4.40.0111261417160.30863-100000@suse.blue-edge-tech.com>
  17051. MIME-Version: 1.0
  17052. Content-Type: TEXT/PLAIN; charset=US-ASCII
  17053. X-archive-position: 337
  17054. X-listar-version: Listar v1.0.0
  17055. Sender: unicode-bounce@unicode.org
  17056. Errors-to: unicode-bounce@unicode.org
  17057. X-original-sender: gsinai@yudit.org
  17058. Precedence: bulk
  17059. List-help: <mailto:listar@unicode.org?Subject=help>
  17060. List-unsubscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=unsubscribe>
  17061. List-software: Listar version 1.0.0
  17062. X-List-ID: <unicode.sarasvati.unicode.org>
  17063. X-list: unicode
  17064.  
  17065.  
  17066. Sorry, I could not resist:
  17067.  
  17068. On Sun, 25 Nov 2001, Philipp Reichmuth wrote:
  17069. [..]
  17070. >
  17071. > Oh, the difference is probably that from this category of pages, you
  17072. > can cut&paste into Word without garbling up your data because it uses
  17073. > a *standard* encoding as opposed to the complete chaos of Hindi web
  17074. > pages using their own fonts. Does that count as justification for
  17075. > Unicode?
  17076.  
  17077. [..]
  17078.  
  17079. Please do not refer to MS Word. If Unicode Consortium had not
  17080. listened to the industrial push of Micsrosoft to support
  17081. their existing  and broken  standard, we would have a much
  17082. better and  cleaner character  standard now.
  17083.  
  17084. I don't think a character standard should go in the arena of
  17085. typesetting  to the extent Unicode does. I think it should
  17086. provide  clean and easy character standard with presentation
  17087. forms that can  be  unambiguously put on a character based
  17088. text terminal with no fancy typesetting features. Then if
  17089. you want to typeset, go to the next level.
  17090.  
  17091. As for cut & paste, it might work among Microsoft Apps
  17092. but if one  wants to interface an app  with a disclosed
  17093. clipboard  format he will realize that he can not paste
  17094. unicode text that  contains '\u0000'  characters. Impossible.
  17095. And how about UCS-4 ? Forget it. As a text format it is not
  17096. even  existent.
  17097.  
  17098. I think it would be much better to look for another
  17099. benchmark engine. If I were Unicode Consortium I would
  17100. build one. Just to  prove that the  standard works.
  17101. Wait... maybe it does not?
  17102.  
  17103. Thanks for your attention, I am really bad I know :)
  17104. cheers
  17105. gaspar
  17106.  
  17107.  
  17108.  
  17109.  
  17110.  4-Dec-2001  6:12:31-GMT,4124;000000000001
  17111. Return-Path: <unicode-bounce@unicode.org>
  17112. Received: from unicode.org (unicode.org [209.235.17.55])
  17113.     by kachifo.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id BAA15341
  17114.     for <fdc@columbia.edu>; Tue, 4 Dec 2001 01:12:31 -0500 (EST)
  17115. Received: from sarasvati.unicode.org (localhost.localdomain [127.0.0.1])
  17116.     by unicode.org (8.9.3/8.9.3) with ESMTP id XAA13805;
  17117.     Mon, 3 Dec 2001 23:15:05 -0500
  17118. Received: with LISTAR (v1.0.0; list unicode); Mon, 03 Dec 2001 23:15:05 -0500 (EST)
  17119. Received: from imo-r02.mx.aol.com (imo-r02.mx.aol.com [152.163.225.98])
  17120.     by unicode.org (8.9.3/8.9.3) with ESMTP id XAA13793
  17121.     for <unicode@unicode.org>; Mon, 3 Dec 2001 23:15:04 -0500
  17122. From: DougEwell2@cs.com
  17123. Received: from DougEwell2@cs.com
  17124.     by imo-r02.mx.aol.com (mail_out_v31_r1.9.) id 4.ac.1edd2ddd (3313)
  17125.      for <unicode@unicode.org>; Tue, 4 Dec 2001 00:30:54 -0500 (EST)
  17126. Message-ID: <ac.1edd2ddd.293db98e@cs.com>
  17127. Date: Tue, 4 Dec 2001 00:30:54 EST
  17128. Subject: Unicode 1.0 names for control characters
  17129. To: unicode@unicode.org
  17130. MIME-Version: 1.0
  17131. Content-Type: text/plain; charset="US-ASCII"
  17132. Content-Transfer-Encoding: 7bit
  17133. X-Mailer: CompuServe 2000 32-bit sub 113
  17134. X-archive-position: 457
  17135. X-listar-version: Listar v1.0.0
  17136. Sender: unicode-bounce@unicode.org
  17137. Errors-to: unicode-bounce@unicode.org
  17138. X-original-sender: DougEwell2@cs.com
  17139. Precedence: bulk
  17140. List-help: <mailto:listar@unicode.org?Subject=help>
  17141. List-unsubscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=unsubscribe>
  17142. List-software: Listar version 1.0.0
  17143. X-List-ID: <unicode.sarasvati.unicode.org>
  17144. X-list: unicode
  17145.  
  17146. I am surprised and puzzled by the "Unicode 1.0 Name" changes for some of the 
  17147. ASCII and Latin-1 control characters that were introduced in the latest beta 
  17148. version of the Unicode 3.2 data file (UnicodeData-3.2.0d5.txt):
  17149.  
  17150. U+0009  HORIZONTAL TABULATION  ==>  CHARACTER TABULATION
  17151. U+000B  VERTICAL TABULATION  ==>  LINE TABULATION
  17152. U+001C  FILE SEPARATOR  ==>  INFORMATION SEPARATOR FOUR
  17153. U+001D  GROUP SEPARATOR  ==>  INFORMATION SEPARATOR THREE
  17154. U+001E  RECORD SEPARATOR  ==>  INFORMATION SEPARATOR TWO
  17155. U+001F  UNIT SEPARATOR  ==>  INFORMATION SEPARATOR ONE
  17156. U+008B  PARTIAL LINE DOWN  ==>  PARTIAL LINE FORWARD
  17157. U+008C  PARTIAL LINE UP  ==>  PARTIAL LINE BACKWARD
  17158.  
  17159. Were these "new" names (e.g. CHARACTER TABULATION) really the original 
  17160. Unicode 1.0 names?  I don't have my 1.0 book close at hand, but I know that 
  17161. they were *not* the names used in 1.1, according to the file "namesall.lst" 
  17162. from that version.  (Aha, didn't think anyone still had that dusty old thing 
  17163. lying around?)
  17164.  
  17165. IMHO, the new names CHARACTER TABULATION and LINE TABULATION are much less 
  17166. intuitive than HORIZONTAL TABULATION and VERTICAL TABULATION.  Sometimes you 
  17167. even see the abbrevations HT and VT for these two characters.  The new names 
  17168. appear to have been invented by someone who imagined a lack of clarity in the 
  17169. old names.
  17170.  
  17171. I have seen the names IS4, IS3, IS2, and IS1 before, but they do not convey 
  17172. the same information as FS, GS, RS, and US.  The latter names are more 
  17173. specific.
  17174.  
  17175. The "old" names for these six control characters were used as far back as the 
  17176. original 1963 version of ASCII, according to Mackenzie (pp. 245-247).
  17177.  
  17178. I don't know about the history of U+008B and U+008C, but again it seems 
  17179. strange that the "Unicode 1.0 name" for these characters is being changed at 
  17180. this late date.
  17181.  
  17182. I know this 1.0 name field is not subject to the same rule of "no changes, 
  17183. ever" that applies to the regular Character Name field, but why should these 
  17184. names be changed at all?
  17185.  
  17186. On this same topic, parenthesized abbreviations have been added to the 1.0 
  17187. names for U+000A LIFE FEED (LF), U+000C FORM FEED (FF), U+000D CARRIAGE 
  17188. RETURN (CR), and U+0085 NEXT LINE (NEL).  Does the addition of these 
  17189. abbreviations mean that they are now part of the official 1.0 name, and if 
  17190. so, why?  Other characters typically don't have abbreviations as part of 
  17191. their names, even if they are as meaningful and as commonly used as these, 
  17192. and again it is a change from the 1.0 name we have seen for a decade.
  17193.  
  17194. Perhaps I've been checking the beta files a bit TOO carefully.
  17195.  
  17196. -Doug Ewell
  17197.  Fullerton, California
  17198.  
  17199.  4-Dec-2001 11:10:39-GMT,5908;000000000001
  17200. Return-Path: <unicode-bounce@unicode.org>
  17201. Received: from unicode.org (unicode.org [209.235.17.55])
  17202.     by kachifo.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id GAA20109
  17203.     for <fdc@columbia.edu>; Tue, 4 Dec 2001 06:10:39 -0500 (EST)
  17204. Received: from sarasvati.unicode.org (localhost.localdomain [127.0.0.1])
  17205.     by unicode.org (8.9.3/8.9.3) with ESMTP id EAA02011;
  17206.     Tue, 4 Dec 2001 04:16:04 -0500
  17207. Received: with LISTAR (v1.0.0; list unicode); Tue, 04 Dec 2001 04:16:04 -0500 (EST)
  17208. Received: from pheidippides.md.chalmers.se (pheidippides.md.chalmers.se [129.16.237.91])
  17209.     by unicode.org (8.9.3/8.9.3) with ESMTP id EAA02005
  17210.     for <unicode@unicode.org>; Tue, 4 Dec 2001 04:16:03 -0500
  17211. Received: from chalmers95a69n (dhcp226-180.cs.chalmers.se [129.16.226.180])
  17212.     by pheidippides.md.chalmers.se (8.10.1/8.10.1) with SMTP id fB4AVpH09059;
  17213.     Tue, 4 Dec 2001 11:31:52 +0100 (MET)
  17214. From: "Kent Karlsson" <kentk@md.chalmers.se>
  17215. To: <DougEwell2@cs.com>, <unicode@unicode.org>
  17216. Subject: RE: Unicode 1.0 names for control characters
  17217. Date: Tue, 4 Dec 2001 11:31:05 +0100
  17218. Message-ID: <000701c17cae$c817c800$b4e21081@chalmers95a69n>
  17219. MIME-Version: 1.0
  17220. Content-Type: text/plain;
  17221.     charset="iso-8859-1"
  17222. Content-Transfer-Encoding: 7bit
  17223. X-Priority: 3 (Normal)
  17224. X-MSMail-Priority: Normal
  17225. X-Mailer: Microsoft Outlook CWS, Build 9.0.2416 (9.0.2910.0)
  17226. In-Reply-To: <ac.1edd2ddd.293db98e@cs.com>
  17227. X-MimeOLE: Produced By Microsoft MimeOLE V5.50.4807.1700
  17228. Importance: Normal
  17229. X-archive-position: 460
  17230. X-listar-version: Listar v1.0.0
  17231. Sender: unicode-bounce@unicode.org
  17232. Errors-to: unicode-bounce@unicode.org
  17233. X-original-sender: kentk@md.chalmers.se
  17234. Precedence: bulk
  17235. List-help: <mailto:listar@unicode.org?Subject=help>
  17236. List-unsubscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=unsubscribe>
  17237. List-software: Listar version 1.0.0
  17238. X-List-ID: <unicode.sarasvati.unicode.org>
  17239. X-list: unicode
  17240.  
  17241.  
  17242. None of the C0 and in particular C1 names are really from Unicode 1.0.
  17243. They are from ISO/IEC 6429.  Now from ISO/IEC 6429:1992 (Third edition),
  17244. rather than the second edition.  Technically the same standard is available
  17245. as Fifth edition of ECMA-48, 1991; ftp://ftp.ecma.ch/ecma-st/Ecma-048.pdf.
  17246. The earlier editions are as far as I can see no longer available. Most
  17247. of the name changes (in 1991!) were apparently done in an attempt to
  17248. internationalise that (those) standard(s). "HORIZONTAL TABULATION" would
  17249. be vertical if the lines are vertical, etc.  So these name changes DO add
  17250. clarity.  The old abbreviations were retained, however.  The mismatch
  17251. between ISO/IEC 6429:1992 and Unicode 2.x "names" for these has caused a
  17252. bit of a stir when someone was translating the names.
  17253.  
  17254. For the ISn-s it appears that a generalisation was desired (I don't know
  17255. if this was new in the 1991/1992 editions), with US, RS, GS, FS being
  17256. suitable only if such a hierarchy was used.  My reading is that the ISn-s
  17257. are not necessarily hierarchical.
  17258.  
  17259.         Kind regards
  17260.         /kent k
  17261.  
  17262.  
  17263. > -----Original Message-----
  17264. > From: unicode-bounce@unicode.org [mailto:unicode-bounce@unicode.org]On
  17265. > Behalf Of DougEwell2@cs.com
  17266. > Sent: den 4 december 2001 06:31
  17267. > To: unicode@unicode.org
  17268. > Subject: Unicode 1.0 names for control characters
  17269. > I am surprised and puzzled by the "Unicode 1.0 Name" changes 
  17270. > for some of the 
  17271. > ASCII and Latin-1 control characters that were introduced in 
  17272. > the latest beta 
  17273. > version of the Unicode 3.2 data file (UnicodeData-3.2.0d5.txt):
  17274. > U+0009  HORIZONTAL TABULATION  ==>  CHARACTER TABULATION
  17275. > U+000B  VERTICAL TABULATION  ==>  LINE TABULATION
  17276. > U+001C  FILE SEPARATOR  ==>  INFORMATION SEPARATOR FOUR
  17277. > U+001D  GROUP SEPARATOR  ==>  INFORMATION SEPARATOR THREE
  17278. > U+001E  RECORD SEPARATOR  ==>  INFORMATION SEPARATOR TWO
  17279. > U+001F  UNIT SEPARATOR  ==>  INFORMATION SEPARATOR ONE
  17280. > U+008B  PARTIAL LINE DOWN  ==>  PARTIAL LINE FORWARD
  17281. > U+008C  PARTIAL LINE UP  ==>  PARTIAL LINE BACKWARD
  17282. > Were these "new" names (e.g. CHARACTER TABULATION) really the 
  17283. > original 
  17284. > Unicode 1.0 names?  I don't have my 1.0 book close at hand, 
  17285. > but I know that 
  17286. > they were *not* the names used in 1.1, according to the file 
  17287. > "namesall.lst" 
  17288. > from that version.  (Aha, didn't think anyone still had that 
  17289. > dusty old thing 
  17290. > lying around?)
  17291. > IMHO, the new names CHARACTER TABULATION and LINE TABULATION 
  17292. > are much less 
  17293. > intuitive than HORIZONTAL TABULATION and VERTICAL TABULATION. 
  17294. >  Sometimes you 
  17295. > even see the abbrevations HT and VT for these two characters. 
  17296. >  The new names 
  17297. > appear to have been invented by someone who imagined a lack 
  17298. > of clarity in the 
  17299. > old names.
  17300. > I have seen the names IS4, IS3, IS2, and IS1 before, but they 
  17301. > do not convey 
  17302. > the same information as FS, GS, RS, and US.  The latter names 
  17303. > are more 
  17304. > specific.
  17305. > The "old" names for these six control characters were used as 
  17306. > far back as the 
  17307. > original 1963 version of ASCII, according to Mackenzie (pp. 245-247).
  17308. > I don't know about the history of U+008B and U+008C, but 
  17309. > again it seems 
  17310. > strange that the "Unicode 1.0 name" for these characters is 
  17311. > being changed at 
  17312. > this late date.
  17313. > I know this 1.0 name field is not subject to the same rule of 
  17314. > "no changes, 
  17315. > ever" that applies to the regular Character Name field, but 
  17316. > why should these 
  17317. > names be changed at all?
  17318. > On this same topic, parenthesized abbreviations have been 
  17319. > added to the 1.0 
  17320. > names for U+000A LIFE FEED (LF), U+000C FORM FEED (FF), 
  17321. > U+000D CARRIAGE 
  17322. > RETURN (CR), and U+0085 NEXT LINE (NEL).  Does the addition of these 
  17323. > abbreviations mean that they are now part of the official 1.0 
  17324. > name, and if 
  17325. > so, why?  Other characters typically don't have abbreviations 
  17326. > as part of 
  17327. > their names, even if they are as meaningful and as commonly 
  17328. > used as these, 
  17329. > and again it is a change from the 1.0 name we have seen for a decade.
  17330. > Perhaps I've been checking the beta files a bit TOO carefully.
  17331. > -Doug Ewell
  17332. >  Fullerton, California
  17333.  
  17334.  4-Dec-2001 22:16:57-GMT,6684;000000000001
  17335. Return-Path: <unicode-bounce@unicode.org>
  17336. Received: from unicode.org (unicode.org [209.235.17.55])
  17337.     by kachifo.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id RAA10161
  17338.     for <fdc@columbia.edu>; Tue, 4 Dec 2001 17:16:56 -0500 (EST)
  17339. Received: from sarasvati.unicode.org (localhost.localdomain [127.0.0.1])
  17340.     by unicode.org (8.9.3/8.9.3) with ESMTP id PAA05409;
  17341.     Tue, 4 Dec 2001 15:17:38 -0500
  17342. Received: with LISTAR (v1.0.0; list unicode); Tue, 04 Dec 2001 15:17:38 -0500 (EST)
  17343. Received: from inergen.sybase.com (inergen.sybase.com [192.138.151.43])
  17344.     by unicode.org (8.9.3/8.9.3) with ESMTP id PAA05403
  17345.     for <unicode@unicode.org>; Tue, 4 Dec 2001 15:17:38 -0500
  17346. Received: from smtp2.sybase.com (sybgate2.sybase.com [130.214.69.6])
  17347.     by inergen.sybase.com  with ESMTP id NAA15282;
  17348.     Tue, 4 Dec 2001 13:32:50 -0800 (PST)
  17349. Received: from olympus.sybase.com (localhost [127.0.0.1])
  17350.     by smtp2.sybase.com  with ESMTP id NAA11169;
  17351.     Tue, 4 Dec 2001 13:33:03 -0800 (PST)
  17352. Received: from birdie.sybase.com by olympus.sybase.com (8.8.8+Sun/SMI-SVR4/SybEC3.5)
  17353.     id NAA03115; Tue, 4 Dec 2001 13:33:01 -0800 (PST)
  17354. Received: (from kenw@localhost)
  17355.     by birdie.sybase.com (8.8.8+Sun/8.8.8) id NAA26690;
  17356.     Tue, 4 Dec 2001 13:33:01 -0800 (PST)
  17357. Date: Tue, 4 Dec 2001 13:33:01 -0800 (PST)
  17358. From: Kenneth Whistler <kenw@sybase.com>
  17359. Message-Id: <200112042133.NAA26690@birdie.sybase.com>
  17360. To: DougEwell2@cs.com
  17361. Subject: Re: Unicode 1.0 names for control characters
  17362. Cc: unicode@unicode.org, kenw@sybase.com
  17363. X-Sun-Charset: US-ASCII
  17364. X-archive-position: 466
  17365. X-listar-version: Listar v1.0.0
  17366. Sender: unicode-bounce@unicode.org
  17367. Errors-to: unicode-bounce@unicode.org
  17368. X-original-sender: kenw@sybase.com
  17369. Precedence: bulk
  17370. List-help: <mailto:listar@unicode.org?Subject=help>
  17371. List-unsubscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=unsubscribe>
  17372. List-software: Listar version 1.0.0
  17373. X-List-ID: <unicode.sarasvati.unicode.org>
  17374. X-list: unicode
  17375.  
  17376. Doug wrote:
  17377.  
  17378. > I am surprised and puzzled by the "Unicode 1.0 Name" changes for some of the 
  17379. > ASCII and Latin-1 control characters that were introduced in the latest beta 
  17380. > version of the Unicode 3.2 data file (UnicodeData-3.2.0d5.txt):
  17381. > U+0009  HORIZONTAL TABULATION  ==>  CHARACTER TABULATION
  17382. > U+000B  VERTICAL TABULATION  ==>  LINE TABULATION
  17383. > U+001C  FILE SEPARATOR  ==>  INFORMATION SEPARATOR FOUR
  17384. > U+001D  GROUP SEPARATOR  ==>  INFORMATION SEPARATOR THREE
  17385. > U+001E  RECORD SEPARATOR  ==>  INFORMATION SEPARATOR TWO
  17386. > U+001F  UNIT SEPARATOR  ==>  INFORMATION SEPARATOR ONE
  17387. > U+008B  PARTIAL LINE DOWN  ==>  PARTIAL LINE FORWARD
  17388. > U+008C  PARTIAL LINE UP  ==>  PARTIAL LINE BACKWARD
  17389.  
  17390. Well, *someone* is clearly paying close attention! And the editors haven't even
  17391. officially announced the Unicode 3.2 beta period yet.
  17392.  
  17393. > Were these "new" names (e.g. CHARACTER TABULATION) really the original 
  17394. > Unicode 1.0 names?  
  17395.  
  17396. No, they were not. The older names were the Unicode 1.0 names for
  17397. U+0009, U+000B, U+001C..U+001F. Unicode 1.0 didn't have *any* names
  17398. for C1 control codes.
  17399.  
  17400. The official UTC doctrine now is that C0/C1 control characters do not
  17401. have Unicode names, formally. But what we do is print ISO 6429 control
  17402. function names as aliases in the names list for the charts. (This
  17403. was an official decision by the UTC for Unicode 3.0, so is not just
  17404. an editorial whim.)
  17405.  
  17406. The mechanism that the names list generation tool currently uses for that 
  17407. is to print "<control>" in the name area and to grab the Unicode 1.0
  17408. name field for the alias (if one exists). This is special-cased code 
  17409. just for the control characters. The simplest fix for updating the
  17410. ISO 6429 names to match the actual, current 6429 standard, was simply to
  17411. update the Unicode 1.0 name field for the 8 instances you cite above.
  17412.  
  17413. Incidentally, in case you are worried about historic accuracy here,
  17414. the "Unicode 1.0 name" field was already fully suborned for the
  17415. Unicode 3.0 publication, since the ISO 6429 C1 function names were
  17416. inserted into that field, even though Unicode 1.0 had *no* names
  17417. at all for C1 control characters.
  17418.  
  17419. > IMHO, the new names CHARACTER TABULATION and LINE TABULATION are much less 
  17420. > intuitive than HORIZONTAL TABULATION and VERTICAL TABULATION.  Sometimes you 
  17421. > even see the abbrevations HT and VT for these two characters.  The new names 
  17422. > appear to have been invented by someone who imagined a lack of clarity in the 
  17423. > old names.
  17424.  
  17425. Kent explained the standards rationale for updating these. It is a matter
  17426. of actually using the names from the published version
  17427. of the standard we are nominally referring to.
  17428.  
  17429. Incidentally, take a look also at NamesList-3.2.0d3.txt in the same BETA
  17430. directory. It shows that all the older C0 names have been retained as
  17431. further aliases, since they are actually more familiar to most people,
  17432. as you are pointing out.
  17433.  
  17434. > The "old" names for these six control characters were used as far back as the 
  17435. > original 1963 version of ASCII, according to Mackenzie (pp. 245-247).
  17436.  
  17437. Yep. Venerable names. Honored names. Useful names.
  17438.  
  17439. > I know this 1.0 name field is not subject to the same rule of "no changes, 
  17440. > ever" that applies to the regular Character Name field, but why should these 
  17441. > names be changed at all?
  17442.  
  17443. Aliases, actually, from the Unicode point of view, not formal names.
  17444.  
  17445. And Kent explained why update the aliases.
  17446.  
  17447. > On this same topic, parenthesized abbreviations have been added to the 1.0 
  17448. > names for U+000A LIFE FEED (LF), U+000C FORM FEED (FF), U+000D CARRIAGE 
  17449. > RETURN (CR), and U+0085 NEXT LINE (NEL).  Does the addition of these 
  17450. > abbreviations mean that they are now part of the official 1.0 name,
  17451.  
  17452. Nope.
  17453.  
  17454. > and if 
  17455. > so, why?  Other characters typically don't have abbreviations as part of 
  17456. > their names, even if they are as meaningful and as commonly used as these, 
  17457. > and again it is a change from the 1.0 name we have seen for a decade.
  17458.  
  17459. Off and on, I work at a project to backrev from UnicodeData-1.1.5.txt
  17460. to produce a Unicode 1.0 version of UnicodeData.txt, as it would
  17461. have been defined if such a data file had been defined at the
  17462. time. (It wasn't.) If I get around to posting that, then people can
  17463. use the Unicode name field itself as the documentation of what the
  17464. Unicode 1.0 name was!
  17465.  
  17466. In the meantime, if you want the old time religion for the Unicode 1.0
  17467. names, you can extract them from UnicodeData-2.0.14.txt (the version
  17468. officially released with Unicode 2.0), before the field was repurposed
  17469. for the Unicode 3.0 publication.
  17470.  
  17471. > Perhaps I've been checking the beta files a bit TOO carefully.
  17472.  
  17473. I suppose we should add a note to UnicodeData.html, clarifying the
  17474. special status of the Unicode 1.0 name field for the control
  17475. characters.
  17476.  
  17477. --Ken
  17478.  
  17479. > -Doug Ewell
  17480. >  Fullerton, California
  17481.  
  17482.  
  17483. 20-May-2002 11:44:37-GMT,2846;000000000001
  17484. Return-Path: <unicode-bounce@unicode.org>
  17485. Received: from unicode.org (unicode.org [209.235.17.55])
  17486.     by dewberry.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id MAA05325
  17487.     for <fdc@columbia.edu>; Mon, 20 May 2002 12:44:37 -0400 (EDT)
  17488. Received: from sarasvati.unicode.org (localhost.localdomain [127.0.0.1])
  17489.     by unicode.org (8.9.3/8.9.3) with ESMTP id MAA09865;
  17490.     Mon, 20 May 2002 12:04:28 -0400
  17491. Received: with ECARTIS (v1.0.0; list unicode); Mon, 20 May 2002 12:04:28 -0400 (EDT)
  17492. Received: from mg01.austin.ibm.com (mg01.austin.ibm.com [192.35.232.18])
  17493.     by unicode.org (8.9.3/8.9.3) with ESMTP id MAA09859
  17494.     for <unicode@unicode.org>; Mon, 20 May 2002 12:04:27 -0400
  17495. Received: from austin.ibm.com (netmail.austin.ibm.com [9.3.7.137])
  17496.     by mg01.austin.ibm.com (AIX4.3/8.9.3/8.9.3) with ESMTP id LAA16450
  17497.     for <unicode@unicode.org>; Mon, 20 May 2002 11:05:41 -0500
  17498. Received: from popmail.austin.ibm.com (popmail.austin.ibm.com [9.53.247.178])
  17499.     by austin.ibm.com (AIX4.3/8.9.3/8.9.3) with ESMTP id LAA46008
  17500.     for <unicode@unicode.org>; Mon, 20 May 2002 11:06:14 -0500
  17501. Received: from jtcsv.com (markus2000.sanjose.ibm.com [9.43.222.33]) by popmail.austin.ibm.com (AIX4.3/8.9.3/8.7-client1.01) with ESMTP id LAA23698 for <unicode@unicode.org>; Mon, 20 May 2002 11:06:12 -0500
  17502. Message-ID: <3CE91F79.4000503@jtcsv.com>
  17503. Date: Mon, 20 May 2002 09:08:25 -0700
  17504. From: Markus Scherer <markus.scherer@jtcsv.com>
  17505. Organization: IBM
  17506. User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.0; en-US; rv:0.9.4) Gecko/20011019 Netscape6/6.2
  17507. X-Accept-Language: en,de,eo
  17508. MIME-Version: 1.0
  17509. To: unicode <unicode@unicode.org>
  17510. Subject: Re: Encoding of symbols, and a "lock"/"unlock" pre-proposal
  17511. References: <000e01c1fec5$367f2840$fa424244@anhmca.adelphia.net>
  17512. Content-Type: text/plain; charset=UTF-8; format=flowed
  17513. Content-Transfer-Encoding: 7bit
  17514. X-archive-position: 3240
  17515. X-ecartis-version: Ecartis v1.0.0
  17516. Sender: unicode-bounce@unicode.org
  17517. Errors-to: unicode-bounce@unicode.org
  17518. X-original-sender: markus.scherer@jtcsv.com
  17519. Precedence: bulk
  17520. List-help: <mailto:ecartis@unicode.org?Subject=help>
  17521. List-unsubscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=unsubscribe>
  17522. List-software: Ecartis version 1.0.0
  17523. List-ID: <unicode.sarasvati.unicode.org>
  17524. X-List-ID: <unicode.sarasvati.unicode.org>
  17525. X-list: unicode
  17526.  
  17527. Personally, I find it counter-productive to add a hodge-podge of dingbats and miscellaneous symbols to Unicode, or any coded character set.
  17528. They had practical uses when user interfaces and display systems could not handle icons and arbitrary images, but those times are long over.
  17529. Witness the demise of the DOS codepages with block graphics when graphical UIs became available.
  17530.  
  17531. In my personal opinion, I find that the inclusion of such symbols dimishes the credibility of Unicode as a standard and of the UTC as following reasonable principles and guidelines.
  17532.  
  17533. markus
  17534.  
  17535.  
  17536.  2-Jul-2002  9:15:30-GMT,4825;000000000001
  17537. Return-Path: <unicode-bounce@unicode.org>
  17538. Received: from unicode.org (unicode.org [209.235.17.55])
  17539.     by marionberry.cc.columbia.edu (8.9.3/8.9.3) with ESMTP id KAA17490
  17540.     for <fdc@columbia.edu>; Tue, 2 Jul 2002 10:15:30 -0400 (EDT)
  17541. Received: from sarasvati.unicode.org (localhost.localdomain [127.0.0.1])
  17542.     by unicode.org (8.9.3/8.9.3) with ESMTP id HAA20142;
  17543.     Tue, 2 Jul 2002 07:13:41 -0400
  17544. Received: with ECARTIS (v1.0.0; list unicode); Tue, 02 Jul 2002 07:13:40 -0400 (EDT)
  17545. Received: from BOBCAT.borware.com (bobcat.borware.com [213.88.207.165])
  17546.     by unicode.org (8.9.3/8.9.3) with ESMTP id HAA20132
  17547.     for <unicode@unicode.org>; Tue, 2 Jul 2002 07:13:31 -0400
  17548. Received: by BOBCAT.borware.com with Internet Mail Service (5.5.2655.55)
  17549.     id <JWGD7QRF>; Tue, 2 Jul 2002 15:39:02 +0200
  17550. Message-ID: <CFDB95B7A60B714698C8E065A0759B0D14F6@BOBCAT.borware.com>
  17551. From: Michael Jansson <mjan@em2-solutions.com>
  17552. To: "'unicode@unicode.org'" <unicode@unicode.org>
  17553. Subject: Can browsers show text?  I don't think so!
  17554. Date: Tue, 2 Jul 2002 15:39:01 +0200 
  17555. MIME-Version: 1.0
  17556. X-Mailer: Internet Mail Service (5.5.2655.55)
  17557. Content-Type: text/plain;
  17558.     charset="iso-8859-1"
  17559. X-archive-position: 638
  17560. X-ecartis-version: Ecartis v1.0.0
  17561. Sender: unicode-bounce@unicode.org
  17562. Errors-to: unicode-bounce@unicode.org
  17563. X-original-sender: mjan@em2-solutions.com
  17564. Precedence: bulk
  17565. List-help: <mailto:ecartis@unicode.org?Subject=help>
  17566. List-unsubscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=unsubscribe>
  17567. List-software: Ecartis version 1.0.0
  17568. List-ID: <unicode.sarasvati.unicode.org>
  17569. X-List-ID: <unicode.sarasvati.unicode.org>
  17570. X-list: unicode
  17571.  
  17572. Postings on this list has recently touched the topic of using various
  17573. languages in web pages. Comments has been made of the use of embedded fonts
  17574. (eot and pfr), as well as the lack of support for these font formats in
  17575. popular browsers. This is a topic which I am very enthusiastic about, so I
  17576. can not help but to add a few comments myself. 
  17577.  
  17578. Let me start by posing a question: 
  17579.     "Can modern browsers show text?"
  17580. Specifically, can they show text of any language and formatting on all
  17581. platforms? I have to say; No they can not (possibly with the exception of
  17582. the browser Nophus). 
  17583.  
  17584. The problem with browsers today is that although they may support Unicode
  17585. encoding schemes (e.g. UTF8), they typically rely on the platform/OS they
  17586. run on to show text. Platform without complete Unicode 3.x support will thus
  17587. not be able to show text correctly. For example, IE6 (or any other modern
  17588. browser) supports UTF8 but Win98 does not support Unicode 3.x. IE6 is thus
  17589. not able to show Unicode text on Win98. You may of course be able to show
  17590. some Unicode text on some platforms. This is far from claiming that a
  17591. browser support Unicode though. At most, you may claim that a browser on a
  17592. particular platform support some part of Unicode. 
  17593.  
  17594. Further more, even if a browser knew how to rendered text (e.g. know about
  17595. the nitty-gritty details of glyph ordering, positioning and shaping that are
  17596. language specific), you need something called a font to show text. Fonts can
  17597. be provided as web resources through CSS 2, through a construct known as
  17598. @font-family rules. However, there are no browser that fully support CSS 2
  17599. today, and in particular @font-family rules. There are browser that support
  17600. @font-family on some platforms (e.g. for eot files on Windows). Again, this
  17601. is far from claiming that a browser support fonts on the web.
  17602.  
  17603. Modern browsers know how to show the characters 'A'-'Z' and a few other
  17604. characters as long as you don't expect to format the text with a specific
  17605. font. You will get into trouble as soon as you want to use a font or
  17606. characters from other languages. You may find a solution for some languages
  17607. and some fonts on some platforms. Yet again, this is far from claiming that
  17608. modern browsers can show text. (I do not consider solutions where you have
  17609. to download a 10MB+ language package to see a page in a foreign language.
  17610. It's not a viable solution.)
  17611.  
  17612. So what we have today are applications called "web browsers" that are very
  17613. good at showing images, and animations. They are not very good at showing
  17614. text, other than unformatted English text.
  17615.  
  17616. Fortunately, there are third party solutions to work around some of the
  17617. problems I mention above. Bitstreams "FontPlayer" (for pfr fonts for IE 5.x
  17618. and Nav 4.x on Windows), MS Typography's WEFT tools (for eot fonts in IE 5.x
  17619. on Windows), and our own FAIRY server solution (for eot fonts and language
  17620. support in IE 5.x, Nav 4.x, Nav 6.x and Opera 5.x on Mac and Win). 
  17621.  
  17622. I do admire the work that people have done in creating quite outstanding web
  17623. browsers through the years, sometimes with no other reward than peoples
  17624. appreciation. I only wish that time were spent on supporting text, and not
  17625. just flashy content.
  17626.  
  17627.  
  17628. Regards,
  17629. em2 Solutions
  17630. Michael Jansson
  17631.  
  17632. 14-Aug-2002 14:40:14-GMT,4787;000000000001
  17633. Return-Path: <unicode-bounce@unicode.org>
  17634. Received: from unicode.org (unicode.org [209.235.17.55])
  17635.     by marionberry.cc.columbia.edu (8.12.3/8.12.3) with ESMTP id g7EJeE6t011805
  17636.     for <fdc@columbia.edu>; Wed, 14 Aug 2002 15:40:14 -0400 (EDT)
  17637. Received: from sarasvati.unicode.org (localhost.localdomain [127.0.0.1])
  17638.     by unicode.org (8.9.3/8.9.3) with ESMTP id MAA05556;
  17639.     Wed, 14 Aug 2002 12:51:59 -0400
  17640. Received: with ECARTIS (v1.0.0; list unicode); Wed, 14 Aug 2002 12:51:59 -0400 (EDT)
  17641. Received: from inergen.sybase.com (inergen.sybase.com [192.138.151.43])
  17642.     by unicode.org (8.9.3/8.9.3) with ESMTP id MAA05541
  17643.     for <unicode@unicode.org>; Wed, 14 Aug 2002 12:51:59 -0400
  17644. Received: from smtp1.sybase.com (sybgate [10.22.97.84])
  17645.     by inergen.sybase.com  with ESMTP id MAA07829
  17646.     for <unicode@unicode.org>; Wed, 14 Aug 2002 12:20:51 -0700 (PDT)
  17647. Received: from smtp1.sybase.com (localhost [127.0.0.1])
  17648.     by smtp1.sybase.com (Pro-8.9.3/Pro-8.9.3/sendmail 8.9.3 smtp1 2000/11/20) with ESMTP id MAA10128
  17649.     for <unicode@unicode.org>; Wed, 14 Aug 2002 12:20:54 -0700 (PDT)
  17650. Received: from olympus-dublin.sybase.com (olympus-dum.sybase.com [10.22.97.110])
  17651.     by smtp1.sybase.com (Pro-8.9.3/Pro-8.9.3/sendmail 8.9.3 smtp1 2000-11-20) with ESMTP id MAA10107;
  17652.     Wed, 14 Aug 2002 12:20:53 -0700 (PDT)
  17653. Received: from birdie.sybase.com (birdie.sybase.com [10.22.85.43])
  17654.     by olympus-dublin.sybase.com (8.10.2+Sun/8.10.2) with ESMTP id g7EJKN501665;
  17655.     Wed, 14 Aug 2002 12:20:23 -0700 (PDT)
  17656. Received: (from kenw@localhost)
  17657.     by birdie.sybase.com (8.8.8+Sun/8.8.8) id MAA10594;
  17658.     Wed, 14 Aug 2002 12:20:23 -0700 (PDT)
  17659. Date: Wed, 14 Aug 2002 12:20:23 -0700 (PDT)
  17660. From: Kenneth Whistler <kenw@sybase.com>
  17661. Message-Id: <200208141920.MAA10594@birdie.sybase.com>
  17662. To: dewell@adelphia.net
  17663. Subject: Re: Furigana
  17664. Cc: unicode@unicode.org, kenw@sybase.com
  17665. X-Sun-Charset: US-ASCII
  17666. X-archive-position: 1867
  17667. X-ecartis-version: Ecartis v1.0.0
  17668. Sender: unicode-bounce@unicode.org
  17669. Errors-to: unicode-bounce@unicode.org
  17670. X-original-sender: kenw@sybase.com
  17671. Precedence: bulk
  17672. List-help: <mailto:ecartis@unicode.org?Subject=help>
  17673. List-unsubscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=unsubscribe>
  17674. List-software: Ecartis version 1.0.0
  17675. List-ID: <unicode.sarasvati.unicode.org>
  17676. X-List-ID: <unicode.sarasvati.unicode.org>
  17677. X-list: unicode
  17678.  
  17679. Doug (and Michael also):
  17680.  
  17681. > What if I *want* to design an annotation-aware rendering mechanism?
  17682. > Suppose I read Section 13.6 and decide that, instead of just throwing
  17683. > the annotation characters away, I should attempt to display them
  17684. > directly above (and smaller than) the "normal" text, the way furigana
  17685. > are displayed above kanji.
  17686. > This would work not only for typical Japanese ruby, but also for
  17687. > Michael's English-or-Swedish-over-Bliss scenario.  It might even be
  17688. > useful in assisting beleaguered Azerbaijanis, for example, by annotating
  17689. > Latin-script text with its Cyrillic equivalent.  (Just a thought.)
  17690. > Would this be conformant?
  17691.  
  17692. Well, technically conformant, but not wise. If commonly available
  17693. display and rendering mechanisms are not rendering them as interlinear
  17694. annotations, then you aren't really providing much assistance here
  17695. by using a mechanism designed for internal anchors and trying to
  17696. turn it into something it isn't really up to snuff for.
  17697.  
  17698. Frankly, you would be much better off making use of the Ruby annotation
  17699. schemes available in markup languages, which will give you better
  17700. scoping and attribute mechanisms.
  17701.  
  17702. Stop worrying a moment about "Why are these characters standardized,
  17703. and why the hedoublehockeysticks can't I use them?!" and think about
  17704. the problem that furigana or any other interlinear annotation rendering
  17705. system has to address:
  17706.  
  17707.   a. How are the annotations adjusted? Left-adjusted, centered,
  17708.      something else? And what point(s) are they synched on?
  17709.  
  17710.   b. If the annotated text or the annotation itself consist of
  17711.      multiple units, are there subalignments? E.g.
  17712.  
  17713.            note note note          note    
  17714.            text text textextextext text
  17715.  
  17716.     or
  17717.  
  17718.            note note      note     note    
  17719.            text text textextextext text
  17720.  
  17721.   c. Can an annotation itself be stacked into a multiline form?
  17722.  
  17723.            note note note
  17724.              nononononote
  17725.            text
  17726.  
  17727.   d. Can the text of the annotation itself in turn be annotated?
  17728.  
  17729.   e. Can the text have two or more coequal annotations? And if so,
  17730.      how are they aligned?
  17731.  
  17732.   e. If the annotation is in a distinct style from the text it
  17733.      annotates, how is that indicated and controlled?
  17734.  
  17735.   f. How is line-break controlled on a line which also has an
  17736.      annotation?
  17737.  
  17738. And so on. This is all the kind of stuff that clearly smacks to me
  17739. of document formatting concerns and rich text. Why anyone would consider
  17740. such things to be plain text rather escapes me.
  17741.  
  17742. --Ken
  17743.  
  17744.  5-Nov-2002  1:05:12-GMT,3336;000000000001
  17745. Return-Path: <unicode-bounce@unicode.org>
  17746. Received: from unicode.org (unicode.org [209.235.17.55])
  17747.     by marionberry.cc.columbia.edu (8.12.3/8.12.3) with ESMTP id gA565B5x008898
  17748.     for <fdc@columbia.edu>; Tue, 5 Nov 2002 01:05:12 -0500 (EST)
  17749. Received: from sarasvati.unicode.org (localhost.localdomain [127.0.0.1])
  17750.     by unicode.org (8.11.6/8.11.6) with ESMTP id gA55Vqn04893;
  17751.     Tue, 5 Nov 2002 00:31:53 -0500
  17752. Received: with ECARTIS (v1.0.0; list unicode); Tue, 05 Nov 2002 00:31:52 -0500 (EST)
  17753. Received: from smtprelay2.dc3.adelphia.net (smtprelay2.dc3.adelphia.net [24.50.78.5])
  17754.     by unicode.org (8.11.6/8.11.6) with ESMTP id gA55Vqn04887
  17755.     for <unicode@unicode.org>; Tue, 5 Nov 2002 00:31:52 -0500
  17756. Received: from DouglasEwell.anhmca.adelphia.net ([68.66.66.149])
  17757.           by smtprelay2.dc3.adelphia.net (Netscape Messaging Server 4.15)
  17758.           with SMTP id H538O708.10B; Tue, 5 Nov 2002 00:31:19 -0500 
  17759. Message-ID: <00a501c2848c$88f2da20$95424244@anhmca.adelphia.net>
  17760. From: "Doug Ewell" <dewell@adelphia.net>
  17761. To: "Unicode Mailing List" <unicode@unicode.org>
  17762. Cc: "Joseph Boyle" <Boyle@siebel.com>,
  17763.    "'Edward H Trager'" <ehtrager@umich.edu>
  17764. References: <00CF737ADB57134A833B4A5C0146761507CBEA@SDCEXMB02.corp.siebel.com>
  17765. Subject: Re: PRODUCING and DESCRIBING UTF-8 with and without BOM
  17766. Date: Mon, 4 Nov 2002 21:30:57 -0800
  17767. MIME-Version: 1.0
  17768. Content-Type: text/plain;
  17769.     charset="iso-8859-1"
  17770. Content-Transfer-Encoding: 7bit
  17771. X-Priority: 3
  17772. X-MSMail-Priority: Normal
  17773. X-Mailer: Microsoft Outlook Express 5.50.4807.1700
  17774. X-MimeOLE: Produced By Microsoft MimeOLE V5.50.4807.1700
  17775. X-archive-position: 3066
  17776. X-ecartis-version: Ecartis v1.0.0
  17777. Sender: unicode-bounce@unicode.org
  17778. Errors-to: unicode-bounce@unicode.org
  17779. X-original-sender: dewell@adelphia.net
  17780. Precedence: bulk
  17781. List-help: <mailto:ecartis@unicode.org?Subject=help>
  17782. List-unsubscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=unsubscribe>
  17783. List-software: Ecartis version 1.0.0
  17784. List-ID: <unicode.sarasvati.unicode.org>
  17785. X-List-ID: <unicode.sarasvati.unicode.org>
  17786. X-list: unicode
  17787.  
  17788. Joseph Boyle <Boyle at siebel dot com> wrote:
  17789.  
  17790. > Newline problems are a good analogy. They still require bookkeeping of
  17791. > different formats and attention in any new coding and cause new bugs,
  17792. > even though the problem has been around for decades. Nobody is holding
  17793. > their breath for any of the platforms to change their newline
  17794. > convention to match the others or even update all their tools to deal
  17795. > with the differences - bare LF still doesn't work in Notepad.
  17796.  
  17797. Of the hundreds of little utility programs I've written over the past 10
  17798. years or so, one of the ones I still use most often is FIXCRLF, which
  17799. (as you might expect) converts files between different CR/LF
  17800. conventions.  I have to; most text files downloaded from the Internet
  17801. are LF, but most DOS/Windows tools demand CRLF.  It's a shame, but
  17802. hardly a surprise, that the industry could never standardize on one or
  17803. the other.
  17804.  
  17805. The invention of U+2028 LINE SEPARATOR was supposed to relieve us of all
  17806. this misery -- but ironically, the success of UTF-8 has probably killed
  17807. LS for good.  Not only do people now expect Unicode text files to be
  17808. backward-compatible with ASCII, which favors CR and/or LF instead of LS,
  17809. but the single character LS requires more bytes in UTF-8 than the two
  17810. characters CR and LF.
  17811.  
  17812. -Doug Ewell
  17813.  Fullerton, California
  17814.  
  17815.  
  17816. 18-Nov-2002  8:23:02-GMT,3207;000000000011
  17817. Return-Path: <unicode-bounce@unicode.org>
  17818. Received: from unicode.org (unicode.org [209.235.17.55])
  17819.     by dewberry.cc.columbia.edu (8.12.3/8.12.3) with ESMTP id gAIDMxgv003224
  17820.     for <fdc@columbia.edu>; Mon, 18 Nov 2002 08:23:00 -0500 (EST)
  17821. Received: from sarasvati.unicode.org (localhost.localdomain [127.0.0.1])
  17822.     by unicode.org (8.11.6/8.11.6) with ESMTP id gAICnbb18831;
  17823.     Mon, 18 Nov 2002 07:49:38 -0500
  17824. Received: with ECARTIS (v1.0.0; list unicode); Mon, 18 Nov 2002 07:49:37 -0500 (EST)
  17825. Received: from barry.mail.mindspring.net (barry.mail.mindspring.net [207.69.200.25])
  17826.     by unicode.org (8.11.6/8.11.6) with ESMTP id gAICnbb18825
  17827.     for <unicode@unicode.org>; Mon, 18 Nov 2002 07:49:37 -0500
  17828. Received: from 1cust138.tnt13.krk1.da.uu.net ([67.250.82.138] helo=asmusf7500)
  17829.     by barry.mail.mindspring.net with esmtp (Exim 3.33 #1)
  17830.     id 18DlLG-0005w3-00; Mon, 18 Nov 2002 07:49:31 -0500
  17831. Message-Id: <4.2.0.58.20021118044648.00af9710@popd.ix.netcom.com>
  17832. X-Sender: asmusf@popd.ix.netcom.com
  17833. X-Mailer: QUALCOMM Windows Eudora Pro Version 4.2.0.58 
  17834. Date: Mon, 18 Nov 2002 04:55:32 -0800
  17835. To: "Dominikus Scherkl" <Dominikus.Scherkl@glueckkanja.com>,
  17836.    <unicode@unicode.org>
  17837. From: Asmus Freytag <asmusf@ix.netcom.com>
  17838. Subject: RE: The result of the plane 14 tag characters review.
  17839. In-Reply-To: <2F89C141B5B67645BB56C03853757882481761@guk1d002.glueckkanj
  17840.  a.org>
  17841. Mime-Version: 1.0
  17842. Content-Type: text/plain; charset="us-ascii"; format=flowed
  17843. X-archive-position: 3360
  17844. X-ecartis-version: Ecartis v1.0.0
  17845. Sender: unicode-bounce@unicode.org
  17846. Errors-to: unicode-bounce@unicode.org
  17847. X-original-sender: asmusf@ix.netcom.com
  17848. Precedence: bulk
  17849. List-help: <mailto:ecartis@unicode.org?Subject=help>
  17850. List-unsubscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=unsubscribe>
  17851. List-software: Ecartis version 1.0.0
  17852. List-ID: <unicode.sarasvati.unicode.org>
  17853. X-List-ID: <unicode.sarasvati.unicode.org>
  17854. X-list: unicode
  17855.  
  17856. At 11:50 AM 11/18/02 +0100, Dominikus Scherkl wrote:
  17857. > > I agree that in this example, higher-level markup would do
  17858. > > all that is necessary.
  17859. >But I'd like to read a "README.TXT" with a plain-text editor.
  17860. >These files are very common - and if they're not deprecated
  17861. >using plane-14-tags would be very nice to have in an multi-language
  17862. >readme (where higher-level tagging is not available).
  17863.  
  17864. You might find it very un-nice in practice, since plain text 
  17865. editors/viewers are notorious for not supporting tagging of any kind. In 
  17866. fact, all you are likely to get are a series of uninterpreted black boxes 
  17867. for the tags.
  17868.  
  17869. As a result of being monofont plain text viewers/editors are also notorious 
  17870. for not supporting much beyond a limited repertoire of characters [a few 
  17871. noble exceptions to this rule notwithstanding].
  17872.  
  17873. Unless a widely used plain-text protocol requires or supports these 
  17874. characters, they remain a solution in search of a problem. I still haven't 
  17875. seen evidence of such a protocol.
  17876.  
  17877. Remember, just because something's in the standard doesn't mean that it's 
  17878. magically supported everywhere. If it can't be added to existing systems by 
  17879. simple font extension (or similar updates) it may not be supported for a 
  17880. long time: Until it's widely supported, it's de-facto not available to 
  17881. end-users.
  17882.  
  17883. A./
  17884.  
  17885.  
  17886.  
  17887. 18-Nov-2002 12:13:04-GMT,2765;000000000001
  17888. Return-Path: <unicode-bounce@unicode.org>
  17889. Received: from unicode.org (unicode.org [209.235.17.55])
  17890.     by marionberry.cc.columbia.edu (8.12.3/8.12.3) with ESMTP id gAIHCx1n016735
  17891.     for <fdc@columbia.edu>; Mon, 18 Nov 2002 12:13:00 -0500 (EST)
  17892. Received: from sarasvati.unicode.org (localhost.localdomain [127.0.0.1])
  17893.     by unicode.org (8.11.6/8.11.6) with ESMTP id gAIFaYb13489;
  17894.     Mon, 18 Nov 2002 10:36:35 -0500
  17895. Received: with ECARTIS (v1.0.0; list unicode); Mon, 18 Nov 2002 10:36:34 -0500 (EST)
  17896. Received: from watsol.cc.columbia.edu (IDENT:cu41754@watsol.cc.columbia.edu [128.59.39.139])
  17897.     by unicode.org (8.11.6/8.11.6) with ESMTP id gAIFaYb13483
  17898.     for <unicode@unicode.org>; Mon, 18 Nov 2002 10:36:34 -0500
  17899. Received: from watsol.cc.columbia.edu (localhost [127.0.0.1])
  17900.     by watsol.cc.columbia.edu (8.12.3/8.12.3) with ESMTP id gAIFaGAr006469;
  17901.     Mon, 18 Nov 2002 10:36:17 -0500 (EST)
  17902. Received: (from fdc@localhost)
  17903.     by watsol.cc.columbia.edu (8.12.3/8.12.3/Submit) id gAIFaFOI006468;
  17904.     Mon, 18 Nov 2002 10:36:15 -0500 (EST)
  17905. Date: Mon, 18 Nov 2002 10:36:14 EST
  17906. From: Frank da Cruz <fdc@columbia.edu>
  17907. To: Asmus Freytag <asmusf@ix.netcom.com>
  17908. Cc: "Dominikus Scherkl" <Dominikus.Scherkl@glueckkanja.com>,
  17909.    <unicode@unicode.org>
  17910. Subject: RE: The result of the plane 14 tag characters review.
  17911. In-Reply-To: Your message of Mon, 18 Nov 2002 04:55:32 -0800
  17912. Message-ID: <CMM.0.91.0.1037633774.fdc@watsol>
  17913. X-archive-position: 3365
  17914. X-ecartis-version: Ecartis v1.0.0
  17915. Sender: unicode-bounce@unicode.org
  17916. Errors-to: unicode-bounce@unicode.org
  17917. X-original-sender: fdc@columbia.edu
  17918. Precedence: bulk
  17919. List-help: <mailto:ecartis@unicode.org?Subject=help>
  17920. List-unsubscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=unsubscribe>
  17921. List-software: Ecartis version 1.0.0
  17922. List-ID: <unicode.sarasvati.unicode.org>
  17923. X-List-ID: <unicode.sarasvati.unicode.org>
  17924. X-list: unicode
  17925.  
  17926. > As a result of being monofont plain text viewers/editors are also notorious 
  17927. > for not supporting much beyond a limited repertoire of characters [a few 
  17928. > noble exceptions to this rule notwithstanding].
  17929. > Unless a widely used plain-text protocol requires or supports these 
  17930. > characters, they remain a solution in search of a problem. I still haven't 
  17931. > seen evidence of such a protocol.
  17932. We're doing our best.  Kermit software supports Unicode in plain text
  17933. terminal sessions:
  17934.  
  17935.   http://www.columbia.edu/kermit/glass.html
  17936.  
  17937. and Linux is moving in that direction too (e.g. the Linux console in the
  17938. latest Red Hat release, as well as many Linux / GNU plain-text utilities,
  17939. now including EMACS 21.1):
  17940.  
  17941.   http://www.cl.cam.ac.uk/~mgk25/unicode.html
  17942.  
  17943. Plain-text interactive shell and application access is still a widely
  17944. used protocol, and is becoming more internationalized every day thanks to
  17945. Unicode.
  17946.  
  17947. - Frank
  17948.  
  17949.  5-Feb-2003 20:08:56-GMT,4090;000000000001
  17950. Return-Path: <unicode-bounce@unicode.org>
  17951. Received: from unicode.org (unicode.org [209.235.17.55])
  17952.     by dewberry.cc.columbia.edu (8.12.3/8.12.3) with ESMTP id h1618tPw018955
  17953.     for <fdc@columbia.edu>; Wed, 5 Feb 2003 20:08:56 -0500 (EST)
  17954. Received: from sarasvati.unicode.org (localhost.localdomain [127.0.0.1])
  17955.     by unicode.org (8.11.6/8.11.6) with ESMTP id h160XVc12352;
  17956.     Wed, 5 Feb 2003 19:33:31 -0500
  17957. Received: with ECARTIS (v1.0.0; list unicode); Wed, 05 Feb 2003 19:33:31 -0500 (EST)
  17958. Received: from mtiwmhc13.worldnet.att.net (mtiwmhc13.worldnet.att.net [204.127.131.117])
  17959.     by unicode.org (8.11.6/8.11.6) with ESMTP id h160XUc12346
  17960.     for <unicode@unicode.org>; Wed, 5 Feb 2003 19:33:30 -0500
  17961. Message-Id: <200302060033.h160XUc12346@unicode.org>
  17962. Received: from mtiwebc20 (mtiwebc20.worldnet.att.net[204.127.135.59])
  17963.           by mtiwmhc13.worldnet.att.net (mtiwmhc13) with SMTP
  17964.           id <20030206003322113005j7nde>; Thu, 6 Feb 2003 00:33:22 +0000
  17965. Received: from [216.126.184.133] by mtiwebc20;
  17966.     Thu, 06 Feb 2003 00:33:21 +0000
  17967. From: jameskass@att.net
  17968. To: unicode@unicode.org
  17969. Subject: Re: VS vs. P14 (was Re: Indic Devanagari Query)
  17970. Date: Thu, 06 Feb 2003 00:33:21 +0000
  17971. X-Mailer: AT&T Message Center Version 1 (Nov 25 2002)
  17972. X-Authenticated-Sender: amFtZXNrYXNzQGF0dC5uZXQ=
  17973. X-archive-position: 4033
  17974. X-ecartis-version: Ecartis v1.0.0
  17975. Sender: unicode-bounce@unicode.org
  17976. Errors-to: unicode-bounce@unicode.org
  17977. X-original-sender: jameskass@att.net
  17978. Precedence: bulk
  17979. List-help: <mailto:ecartis@unicode.org?Subject=help>
  17980. List-unsubscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=unsubscribe>
  17981. List-software: Ecartis version 1.0.0
  17982. List-ID: <unicode.sarasvati.unicode.org>
  17983. X-List-ID: <unicode.sarasvati.unicode.org>
  17984. X-list: unicode
  17985.  
  17986. .
  17987. Peter Constable wrote,
  17988.  
  17989. > Sure, but why do we want to place so much demand on plain text when the
  17990. > vast majority of content we interchange is in some form of marked-up or
  17991. > rich text? Let's let plain text be that -- plain -- and look to the markup
  17992. > conventions that we've invested so much in and that are working for us to
  17993. > provide the kinds of thing that we designed markup for in the first place.
  17994. > Besides, a "plain-text" file that begins and ends with p14 tags is a
  17995. > marked-up file, whether someone calls it "plain text" or not. We have
  17996. > little or no infrastructure for handling that form of markup, and a large
  17997. > and increasing amount of infrastructure for handling the more typical forms
  17998. > of markup.
  17999.  
  18000. We place so much demand on plain text because we use plain text.
  18001.  
  18002. We continue to advance from the days when ΓÇ£plain textΓÇ¥ meant ASCII only
  18003. rendered in bitmapped monospaced monochrome.
  18004.  
  18005. We donΓÇÖt rely on mark-up or higher protocols to distinguish between different
  18006. European styles of quotation marks.  We no longer need proprietary rich-text
  18007. formats and font switching abilities to be able to display Greek and Latin
  18008. text from the same file.
  18009.  
  18010. > I repeat, plain text remains legible without anything indicating which eng
  18011. > (or whatever) may be preferred by the author, and (since the requirement
  18012. > for plain text is legibility) therefore this is not really an argument for
  18013. > using p14 language tags. IMO.
  18014.  
  18015. Is legibility the only requirement of plain text?  Might additional 
  18016. requirements
  18017. include appropriate, correct encoding and correct display?
  18018.  
  18019. To illustrate a legible plain text run which displays as intended (all things 
  18020. being
  18021. equal) yet is not appropriately encoded (this e-mail is being sent as plain 
  18022. text
  18023. UTF-8):
  18024.  
  18025. ≡¥æ░≡¥Æç ≡¥ÆÜ≡¥ÆÉ≡¥Æû ≡¥Æä≡¥Æé≡¥ÆÅ ≡¥Æô≡¥Æå≡¥Æé≡¥Æà ≡¥Æò≡¥Æë≡¥Æè≡¥Æö ≡¥ÆÄ≡¥Æå≡¥Æö≡¥Æö≡¥Æé≡¥Æê≡¥Æå...
  18026. ≡¥ÆÜ≡¥ÆÉ≡¥Æû ≡¥ÆÄ≡¥Æé≡¥ÆÜ ≡¥Æÿ≡¥Æè≡¥Æö≡¥Æë ≡¥Æò≡¥ÆÉ ≡¥Æï≡¥ÆÉ≡¥Æè≡¥ÆÅ ≡¥æ┤≡¥æ¿≡¥æ¿≡¥æ¿* ≡¥Æé≡¥Æò
  18027. 𝓫𝓵𝓪𝓱𝓫𝓵𝓪𝓱𝓫𝓵𝓪𝓱𝓭𝓸𝓽𝓬𝓸𝓶
  18028.  
  18029. (*≡¥ùá≡¥û║≡¥ùì≡¥ùü ≡¥ùö≡¥ùà≡¥ùë≡¥ùü≡¥û║≡¥û╗≡¥û╛≡¥ùì≡¥ùî ≡¥ùö≡¥û╗≡¥ùÄ≡¥ùî≡¥û╛≡¥ùï≡¥ùî ≡¥ùö≡¥ùç≡¥ùê≡¥ùç≡¥ùÆ≡¥ùå≡¥ùê≡¥ùÄ≡¥ùî)
  18030.  
  18031. Clearly, correct and appropriate encoding (as well as legibility) should be a 
  18032. requirement of plain text.  Is correct display also a valid requirement for 
  18033. plain text?
  18034.  
  18035. It is for some...
  18036.  
  18037. Respectfully,
  18038.  
  18039. James Kass
  18040. .
  18041.  
  18042. 28-Jun-2008 12:19:22-GMT,7876;000000000001
  18043. Return-Path: <unicode-bounce@unicode.org>
  18044. Received: from liverwurst.cc.columbia.edu ([unix socket])
  18045.      by liverwurst.cc.columbia.edu (Cyrus v2.3-alpha) with LMTPA;
  18046.      Sun, 29 Jun 2008 10:56:18 -0400
  18047. X-Sieve: CMU Sieve 2.3
  18048. Received: from jujube.cc.columbia.edu (jujube.cc.columbia.edu [128.59.28.170])
  18049.     by liverwurst.cc.columbia.edu (8.13.1/8.13.1) with ESMTP id m5TEuIv1001443
  18050.     for <fdc@liverwurst.cc.columbia.edu>; Sun, 29 Jun 2008 10:56:18 -0400
  18051. Received: from unicode.org (unicode.org [69.13.187.182])
  18052.     by jujube.cc.columbia.edu (8.14.1/8.14.1) with ESMTP id m5TEuBd8000927;
  18053.     Sun, 29 Jun 2008 10:56:16 -0400 (EDT)
  18054. Received: from sarasvati.unicode.org (localhost [127.0.0.1])
  18055.     by unicode.org (8.12.11/8.12.11) with ESMTP id m5TEikXx019904;
  18056.     Sun, 29 Jun 2008 09:44:46 -0500
  18057. Received: with ECARTIS (v1.0.0; list unicode); Sun, 29 Jun 2008 09:44:46 -0500 (CDT)
  18058. Received: from vs281.server4u.cz (vs281.server4u.cz [81.91.85.31])
  18059.     by unicode.org (8.12.11/8.12.11) with ESMTP id m5TChGij006940
  18060.     for <unicode@unicode.org>; Sun, 29 Jun 2008 07:43:17 -0500
  18061. Received: from localhost ([127.0.0.1] helo=evo)
  18062.     by vs281.server4u.cz with esmtp (Exim 4.69)
  18063.     (envelope-from <kirr@landau.phys.spbu.ru>)
  18064.     id 1KCwFw-0004fy-Qy
  18065.     for unicode@unicode.org; Sun, 29 Jun 2008 14:43:49 +0200
  18066. Received: from kirr by evo with local (Exim 4.69)
  18067.     (envelope-from <kirr@evo>)
  18068.     id 1KCwBB-0001pB-22
  18069.     for unicode@unicode.org; Sun, 29 Jun 2008 16:38:53 +0400
  18070. Resent-From: kirr@landau.phys.spbu.ru
  18071. Resent-Date: Sun, 29 Jun 2008 16:38:53 +0400
  18072. Resent-Message-ID: <20080629123853.GA6979@evo>
  18073. Resent-To: unicode@unicode.org
  18074. Date: Sat, 28 Jun 2008 16:19:22 +0400
  18075. From: Kirill Smelkov <kirr@landau.phys.spbu.ru>
  18076. To: Ondrej Certik <ondrej@certik.cz>
  18077. Cc: unicode@unicode.org
  18078. Subject: Re: how to add all latin (and greek) subscripts
  18079. Message-ID: <20080628121922.GB4469@evo>
  18080. References: <85b5c3130806260329u5b1b2da0ie17efaf4a26a269f@mail.gmail.com> <4D25F22093241741BC1D0EEBC2DBB1DA013B5DFFEC@EX-SEA5-D.ant.amazon.com> <BE2C1388040F4A49B8059125E5C8BC78@streamserve.com> <8D7C7CBD897E4A5FA768ACB8057F283F@streamserve.com> <4863F3C7.1080602@ix.netcom.com> <85b5c3130806270030n67d2f8fbmc0cc7c9d5192b1b6@mail.gmail.com>
  18081. MIME-Version: 1.0
  18082. Content-Type: text/plain; charset=utf-8
  18083. Content-Disposition: inline
  18084. Content-Transfer-Encoding: 8bit
  18085. In-Reply-To: <85b5c3130806270030n67d2f8fbmc0cc7c9d5192b1b6@mail.gmail.com>
  18086. Organization: St.Petersburg State University
  18087. User-Agent: Mutt/1.5.18 (2008-05-17)
  18088. Resent-Date: Sun, 29 Jun 2008 16:38:53 +0400
  18089. X-archive-position: 6959
  18090. X-Approved-By: root@unicode.org
  18091. X-ecartis-version: Ecartis v1.0.0
  18092. Sender: unicode-bounce@unicode.org
  18093. Errors-to: unicode-bounce@unicode.org
  18094. X-original-sender: kirr@landau.phys.spbu.ru
  18095. Precedence: bulk
  18096. List-help: <mailto:ecartis@unicode.org?Subject=help>
  18097. List-unsubscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=unsubscribe>
  18098. List-software: Ecartis version 1.0.0
  18099. List-Id: <unicode.sarasvati.unicode.org>
  18100. X-List-ID: <unicode.sarasvati.unicode.org>
  18101. X-list: unicode
  18102. X-Spam-Score: -1.5 () CU_OK_LISTUNSUB CU_RE
  18103. X-Scanned-By: MIMEDefang 2.63 on 128.59.28.170
  18104.  
  18105. On Fri, Jun 27, 2008 at 09:30:58AM +0200, Ondrej Certik wrote:
  18106. > Hi,
  18107. > first thanks Xun, Phillips, Johannes, Kent and Asmus for your
  18108. > feedback. My comments are below.
  18109. > On Thu, Jun 26, 2008 at 9:53 PM, Asmus Freytag <asmusf@ix.netcom.com> wrote:
  18110. > > On 6/26/2008 11:15 AM, Kent Karlsson wrote:
  18111.  
  18112. > > The plain text ones have their uses for quick and dirty footnote symbols and
  18113. > > for indicating squared units in otherwise non-mathematical texts as well as
  18114. > > similar *simple* usages. Such fallbacks are best limited to single digits of
  18115. > > the 8859-1 subset to avoid the surprises you ran into.
  18116. > >
  18117. > > In addition, as you had noted earlier, the full repertoire of super and
  18118. > > subscript characters are the proper choice for phonetic notations (e.g.
  18119. > > digits used as tone marks). Such notations require preservation of specific
  18120. > > semantics across formatting languages. They require much more extensive
  18121. > > Unicode support as well as special fonts, and they wouldn't survive
  18122. > > transcoding anyway, meaning the issues you encountered with your examples
  18123. > > aren't as relevant in that field of application.
  18124. > >
  18125. > > A./
  18126. > >
  18127. > > PS: in the late 90's a request had been forwarded from people maintaining a
  18128. > > chemical database to add a small number of additional Greek subscripts. The
  18129. > > rationale was that they type of database was not able to handle any markup.
  18130. > > The request never went anywhere, for lack of specific input from the
  18131. > > submitters beyond an initial discussion, and it is unknown how they solved
  18132. > > their problem. The database was intended for regulatory purposes, so one
  18133. > > assumes that some solution was found, but there has been no information.
  18134. > For general mathematical formulas, one needs to use TeX or a similar
  18135. > system (mathml for example, but the current rendering engines for
  18136. > mathml, like in browsers, do not look as good as TeX). Of course we
  18137. > support this in sympy, but what I am asking for is to improve the
  18138. > experience in the terminal, because you cannot use tex or mathml in
  18139. > the terminal (those require a full graphical fronted, like a browser,
  18140. > or a windows application)
  18141. > To give you the idea what I mean, look at these examples:
  18142. > http://code.google.com/p/sympy/wiki/PrettyPrinting
  18143. > (especially the screenshots of the terminals at the end). See also
  18144. > this thread for the background why we want that:
  18145. > http://groups.google.com/group/sympy/browse_thread/thread/18fbaa3020c390c5
  18146. > The observation is, that one can take advantage of unicode and print a
  18147. > surprisingly lot of formulas in a plain text (terminal) mode. E.g.:
  18148. > ┬╜Γêéß╡ª╧åΓêéß╡¥╧å
  18149. > but as I said, some characters are missing. As I understand, unicode
  18150. > still has a lot of free space to add more characters, right? Is there
  18151. > some technical problem with it? If not, let's discuss the
  18152. > philosophical issues: you can do all superscripts, except "q". I
  18153. > understand those could be from historical reasons, but anyway, let's
  18154. > just add "q" somewhere and be done with it. Then let's add all missing
  18155. > latin letters to subscripts, there are already 8 of them, so let's add
  18156. > the rest too. And then the same for greek super and subscripts.
  18157. > Some of you objected (if I understand) that one should not use sub or
  18158. > superscripts, because those are meant only for backward compatibility,
  18159. > one should use a markup. Well, as Kent has remarked, it is useful in
  18160. > many cases. That's why all the numbers were added. Well, the latin
  18161. > (and greek) letters would be *very* useful to math, because you can
  18162. > represent tensors easily with it. If there were not latin/greek
  18163. > sub/superscripts in unicode, I would understand that. But in the
  18164. > present case, where clearly the support is already there, only half
  18165. > finished, it seems to me that the best way to go forward is to finish
  18166. > the support for all latin/greek sub/superscripts.
  18167.  
  18168. I can only second this!
  18169.  
  18170. The support for latin super and subscripts is already half-there, so it
  18171. would be *very* convenient to have it 100% done.
  18172.  
  18173. Markup is good, but a lot of research environment still work in plain
  18174. terminal (e.g. like XTerm), so having unicode building blocks is quite
  18175. handy.
  18176.  
  18177. Look, support for e.g. next is already there in unicode:
  18178.  
  18179.          Γê₧                 
  18180.          Γîá                 
  18181.   v(t) = ΓÄ« k(╧ä - t)*s(╧ä) d╧ä,   ╨│╨┤╨╡
  18182.          Γîí                 
  18183.          0                 
  18184.  
  18185.  
  18186.              -Γàê*╬▓*z
  18187.   ╬¿ΓéÇ(z) = C*Γä»      
  18188.  
  18189.  
  18190. So maybe let's do it 100% and consistent?
  18191.  
  18192.  
  18193. > What do you think? If you are not against and agree with me that it
  18194. > should be done, I'd like to do the work --- I'd appreciate any
  18195. > pointers about what should I do.
  18196. > If you don't agree, I'd like to discuss it. :)
  18197.  
  18198. I could too try to help.
  18199.  
  18200. Thanks beforehand.
  18201.  
  18202. -- 
  18203.     ╨Æ╤ü╨╡╨│╨╛ ╤à╨╛╤Ç╨╛╤ê╨╡╨│╨╛, ╨Ü╨╕╤Ç╨╕╨╗╨╗.
  18204.  
  18205.  
  18206. 30-Jun-2008 13:24:30-GMT,3743;000000000001
  18207. Return-Path: <fdc@columbia.edu>
  18208. Received: from liverwurst.cc.columbia.edu ([unix socket])
  18209.      by liverwurst.cc.columbia.edu (Cyrus v2.3-alpha) with LMTPA;
  18210.      Mon, 30 Jun 2008 09:24:31 -0400
  18211. X-Sieve: CMU Sieve 2.3
  18212. Received: from brinza.cc.columbia.edu (brinza.cc.columbia.edu [128.59.29.8])
  18213.     by liverwurst.cc.columbia.edu (8.13.1/8.13.1) with ESMTP id m5UDOUmi009748
  18214.     for <fdc@liverwurst.cc.columbia.edu>; Mon, 30 Jun 2008 09:24:30 -0400
  18215. Received: from sesame.cc.columbia.edu (sesame.cc.columbia.edu [128.59.59.56])
  18216.     by brinza.cc.columbia.edu (8.14.1/8.14.1) with ESMTP id m5UDOUPX009207
  18217.     for <fdc@send.columbia.edu>; Mon, 30 Jun 2008 09:24:30 -0400 (EDT)
  18218. Received: from sesame.cc.columbia.edu (localhost [127.0.0.1])
  18219.     by sesame.cc.columbia.edu (8.14.1/8.14.1) with ESMTP id m5UDOUnC009153;
  18220.     Mon, 30 Jun 2008 09:24:30 -0400 (EDT)
  18221. Received: (from fdc@localhost)
  18222.     by sesame.cc.columbia.edu (8.14.1/8.14.1/Submit) id m5UDOUE0009152;
  18223.     Mon, 30 Jun 2008 09:24:30 -0400 (EDT)
  18224. Date: Mon, 30 Jun 2008 9:24:30 EDT
  18225. From: Frank da Cruz <fdc@columbia.edu>
  18226. To: unicode@unicode.org
  18227. Subject: Re: how to add all latin (and greek) subscripts
  18228. In-Reply-To: <6d99d1fd0806291934j68aba5e5r91ec61faa9b70638@mail.gmail.com>
  18229. Message-ID: <CMM.0.95.0.1214832270.fdc@sesame.cc.columbia.edu>
  18230. X-No-Spam-Score: Local
  18231. X-Scanned-By: MIMEDefang 2.63 on 128.59.29.8
  18232.  
  18233. Sun, 29 Jun 2008 22:34:48 -0400 "David Starner" <prosfilaes@gmail.com>:
  18234. > On Sun, Jun 29, 2008 at 6:59 PM, Ondrej Certik <ondrej@certik.cz> wrote:
  18235. > > I should note that some people actually prefer the terminal to
  18236. > > anything else. For example me. :) So it's not some temporary solution
  18237. > > to overcome the time until all applications can show TeX like markup.
  18238. > But the terminal is not remotely a plain text application. It already
  18239. > handles a wide variety of formatting, like bold and italics, and
  18240. > there's absolutely no reason you couldn't add subscript and
  18241. > superscript, or even full Tex-like markup. Extending plain text is
  18242. > frequently not the right way to attack a problem.
  18243. We seem to forget that plain text is the only sustainable way to
  18244. communicate and record language electronically.  Rich text formats come and
  18245. go with dizzying speed, leaving mountains of laboriously crafted documents
  18246. stranded, soon to be forgotten as the effort of deciphering their quaint
  18247. outmoded formats becomes less convenient and increasingly costly.  What
  18248. really matters in a document, and what makes it worth saving, is its
  18249. content, not its form.
  18250.  
  18251. Before typesetting fell into the hands of every single computer user, it was
  18252. an art practiced by professionals and employed in the production of books
  18253. and periodicals, wedding invitations, and the like.  It never occurred to
  18254. anybody to use it for everyday tasks such as correspondence, office memos,
  18255. and appointment calenders.
  18256.  
  18257. Nor is it needed for email, a fact which is evident on this mailing list,
  18258. where we stick with plain text because we know that everybody can read it
  18259. not only at the time of receipt (leaving aside the question of character
  18260. encoding, which is another matter), but years and decades and centuries
  18261. later in the archives.
  18262.  
  18263. That's why we should not be so quick to turn up our noses at plain text,
  18264. and why we should not be so fast to disparage something like ASCII that has
  18265. worked admirably for 40+ years -- ugly apostrophe, doublequotes and all.
  18266. It's simple, it matches what is on the keyboard, it's durable.  Unicode
  18267. should be the new ASCII, the ASCII for the ages: a way of recording text in
  18268. any and all languages that does not require markup or rendering engines.  A
  18269. character set that is as much at home on a terminal as on a Web page or a
  18270. Word document, because Word and the Web will pass, plain text will last as
  18271. long as Unicode itself.
  18272.  
  18273. Frank
  18274.  
  18275. 30-Jun-2008  3:56:11-GMT,7323;000000000001
  18276. Return-Path: <unicode-bounce@unicode.org>
  18277. Received: from liverwurst.cc.columbia.edu ([unix socket])
  18278.      by liverwurst.cc.columbia.edu (Cyrus v2.3-alpha) with LMTPA;
  18279.      Mon, 30 Jun 2008 11:17:07 -0400
  18280. X-Sieve: CMU Sieve 2.3
  18281. Received: from feta.cc.columbia.edu (feta.cc.columbia.edu [128.59.28.164])
  18282.     by liverwurst.cc.columbia.edu (8.13.1/8.13.1) with ESMTP id m5UFH6MP002456
  18283.     for <fdc@liverwurst.cc.columbia.edu>; Mon, 30 Jun 2008 11:17:07 -0400
  18284. Received: from unicode.org (unicode.org [69.13.187.182])
  18285.     by feta.cc.columbia.edu (8.14.1/8.14.1) with ESMTP id m5UFH0Bu006322;
  18286.     Mon, 30 Jun 2008 11:17:05 -0400 (EDT)
  18287. Received: from sarasvati.unicode.org (localhost [127.0.0.1])
  18288.     by unicode.org (8.12.11/8.12.11) with ESMTP id m5UF5sLL011173;
  18289.     Mon, 30 Jun 2008 10:05:54 -0500
  18290. Received: with ECARTIS (v1.0.0; list unicode); Mon, 30 Jun 2008 10:05:54 -0500 (CDT)
  18291. Received: from smtp2a.orange.fr (smtp2a.orange.fr [80.12.242.139])
  18292.     by unicode.org (8.12.11/8.12.11) with ESMTP id m5U3uNUF022674
  18293.     for <unicode@unicode.org>; Sun, 29 Jun 2008 22:56:24 -0500
  18294. Received: from me-wanadoo.net (localhost [127.0.0.1])
  18295.     by mwinf2a13.orange.fr (SMTP Server) with ESMTP id 359417000082;
  18296.     Mon, 30 Jun 2008 05:56:18 +0200 (CEST)
  18297. Received: from HARNON (APoitiers-258-1-153-136.w90-5.abo.wanadoo.fr [90.5.120.136])
  18298.     by mwinf2a13.orange.fr (SMTP Server) with ESMTP id C75C9700008A;
  18299.     Mon, 30 Jun 2008 05:56:17 +0200 (CEST)
  18300. X-ME-UUID: 20080630035617816.C75C9700008A@mwinf2a13.orange.fr
  18301. Reply-To: <verdy_p@wanadoo.fr>
  18302. From: "Philippe Verdy" <verdy_p@wanadoo.fr>
  18303. To: "'David Starner'" <prosfilaes@gmail.com>, <unicode@unicode.org>
  18304. References: <85b5c3130806260329u5b1b2da0ie17efaf4a26a269f@mail.gmail.com> <4D25F22093241741BC1D0EEBC2DBB1DA013B5DFFEC@EX-SEA5-D.ant.amazon.com> <BE2C1388040F4A49B8059125E5C8BC78@streamserve.com> <8D7C7CBD897E4A5FA768ACB8057F283F@streamserve.com> <4863F3C7.1080602@ix.netcom.com> <85b5c3130806270030n67d2f8fbmc0cc7c9d5192b1b6@mail.gmail.com> <20080628121922.GB4469@evo> <85b5c3130806291559i283c4135w36e5e3d929b264cd@mail.gmail.com> <6d99d1fd0806291934j68aba5e5r91ec61faa9b70638@mail.gmail.com>
  18305. Subject: RE: how to add all latin (and greek) subscripts
  18306. Date: Mon, 30 Jun 2008 05:56:11 +0200
  18307. Organization: Ordinateur Personnel
  18308. Message-ID: <6F2E87E84D904F0AB384EA8C1E80924C@HARNON>
  18309. MIME-Version: 1.0
  18310. Content-Type: text/plain;
  18311.     charset="iso-8859-1"
  18312. X-Mailer: Microsoft Office Outlook 11
  18313. X-MIMEOLE: Produced By Microsoft MimeOLE V6.00.2900.5512
  18314. In-Reply-To: <6d99d1fd0806291934j68aba5e5r91ec61faa9b70638@mail.gmail.com>
  18315. Thread-Index: AcjaX/UqxtHqkpIaTrmkBys6zDJ0WwAAB1Cg
  18316. Content-Transfer-Encoding: 8bit
  18317. X-MIME-Autoconverted: from quoted-printable to 8bit by unicode.org id m5U3uNUF022674
  18318. X-archive-position: 6969
  18319. X-Approved-By: root@unicode.org
  18320. X-ecartis-version: Ecartis v1.0.0
  18321. Sender: unicode-bounce@unicode.org
  18322. Errors-to: unicode-bounce@unicode.org
  18323. X-original-sender: verdy_p@wanadoo.fr
  18324. Precedence: bulk
  18325. List-help: <mailto:ecartis@unicode.org?Subject=help>
  18326. List-unsubscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=unsubscribe>
  18327. List-software: Ecartis version 1.0.0
  18328. List-Id: <unicode.sarasvati.unicode.org>
  18329. X-List-ID: <unicode.sarasvati.unicode.org>
  18330. X-list: unicode
  18331. X-Spam-Score: -2 () CU_OK_LISTUNSUB
  18332. X-Scanned-By: MIMEDefang 2.63 on 128.59.28.164
  18333.  
  18334. David Starner wrote:
  18335. > But the terminal is not remotely a plain text application. It 
  18336. > already handles a wide variety of formatting, like bold and 
  18337. > italics, and there's absolutely no reason you couldn't add 
  18338. > subscript and superscript, or even full Tex-like markup. 
  18339. > Extending plain text is frequently not the right way to 
  18340. > attack a problem.
  18341.  
  18342. Exactly!
  18343.  
  18344. In fact as soon as you start extending Unicode for what it is not, you'll
  18345. immediately realize that you'll then need to reencode subscript and
  18346. superscript variants of almost all existing ''normal'' character base
  18347. characters; then you'll have to do the same for other font variants. For all
  18348. this use markup language.
  18349.  
  18350. This just proves that superscript and subscripts are just provided for
  18351. compatibility only, and that without this need they should have never been
  18352. encoded, including for plain-text where other linear notations/conventions
  18353. would have been used instead (for example "5.1e22" commonly used instead of
  18354. "5.1╫10▓▓" or "10 km^2" instead of "10 km▓").
  18355.  
  18356. And you'll also need more superscript and subscript levels (for this use,
  18357. notations like TeX or MathML can be transported in plain text by using their
  18358. conventional syntax). Plain text is not made to transport the text layout,
  18359. just the basic semantic; for the rest you need some other convention,
  18360. notation, or higher protocol... This is just like in natural written
  18361. languages, with their conventional orthographies, that Unicode is also not
  18362. encoding: otherwise we would need the encoding of a separate Altaic alphabet
  18363. for Turkish, a Latin alphabet for English, another Latin alphabet for German
  18364. with the special handling of umlauts (at linguistic level only) like
  18365. vowels...
  18366.  
  18367. So there's really no end to the desire to encode contextual variants as new
  18368. characters. As the needs fo variants is orthogonal to the need of supporting
  18369. a large set, the only safe way is effectively to not encode contextual
  18370. variants, as most as possible, but only the common abstract characters, and
  18371. decide that layout and style information is not part of the standard and
  18372. will require another higher-order protocol.
  18373.  
  18374. We can easily realize that, as a general rule, if two uses of some
  18375. characters carry the same visual value and interpretation when seen out of
  18376. their context where they may appear, and if they can obey to the same
  18377. composition rules in arbitrary layouts, then they have to share the same
  18378. encoding as abstract characters even if they have several distinctive
  18379. contextual realizations. Superscripts and subscripts for example are not
  18380. different from normal script if seen isolately: there's just a different of
  18381. default size or position but even the text size and position is not encoded
  18382. in any character itself and they remain reasable and meaningful even in this
  18383. context.
  18384.  
  18385. The layout may add additional information by itself independantly of the
  18386. context neutral semantic of the plaint text characters that they are
  18387. augmenting. If you are converting a text with layout to plain text and
  18388. completely drop the layout information without converting it to some
  18389. notation, this is where you may loose or change the semantic. For example
  18390. when converting "10▓" to "102": this is not the fault of Unicode, it's just
  18391. your fault for not introducing and conveying some alternative notation like
  18392. "10^2" and explicitng in you plain text conventions that this notation is
  18393. used or by specifying it as meta-information parallel to the transmission of
  18394. the text itself.
  18395.  
  18396. (Note that the encoded modifier letters and IPA symbols are NOT true
  18397. superscripts as they are really meant as distinctive elements where the
  18398. choice of the borrowed letter is quite arbitrary): they can't be used to
  18399. write arbitrary words written with the Latin alphaber for example, and they
  18400. are not necessarily designed to properly line-up on their superscript
  18401. baseline. To write regular words or even full sentences in superscript, use
  18402. some conventional notation (like punctuation) or layout
  18403. structure/syntax/protocol, but encode the words themselves using the regular
  18404. letters and everyone will be happy.
  18405.  
  18406.  
  18407.  
  18408.  
  18409.  
  18410. 30-Jun-2008 23:34:33-GMT,4857;000000000005
  18411. Return-Path: <prosfilaes@gmail.com>
  18412. Received: from liverwurst.cc.columbia.edu ([unix socket])
  18413.      by liverwurst.cc.columbia.edu (Cyrus v2.3-alpha) with LMTPA;
  18414.      Mon, 30 Jun 2008 19:34:34 -0400
  18415. X-Sieve: CMU Sieve 2.3
  18416. Received: from jujube.cc.columbia.edu (jujube.cc.columbia.edu [128.59.28.170])
  18417.     by liverwurst.cc.columbia.edu (8.13.1/8.13.1) with ESMTP id m5UNYYpe007012
  18418.     for <fdc@liverwurst.cc.columbia.edu>; Mon, 30 Jun 2008 19:34:34 -0400
  18419. Received: from rv-out-0708.google.com (rv-out-0708.google.com [209.85.198.243])
  18420.     by jujube.cc.columbia.edu (8.14.1/8.14.1) with ESMTP id m5UNXR5I026971
  18421.     for <fdc@columbia.edu>; Mon, 30 Jun 2008 19:34:34 -0400 (EDT)
  18422. Received: by rv-out-0708.google.com with SMTP id k29so1449853rvb.0
  18423.         for <fdc@columbia.edu>; Mon, 30 Jun 2008 16:34:33 -0700 (PDT)
  18424. DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
  18425.         d=gmail.com; s=gamma;
  18426.         h=domainkey-signature:received:received:message-id:date:from:to
  18427.          :subject:cc:in-reply-to:mime-version:content-type
  18428.          :content-transfer-encoding:content-disposition:references;
  18429.         bh=ftqPCwkh4CjcOSXyOu1UI9SEZo4WXup5hfyGqqVNzcE=;
  18430.         b=rFiOi3+/I/0o5S4SgmXGDcOESuFJqPHiuUxTF6wVX0tRFy6u0C2vkdkoNVjZu4HedK
  18431.          MIlYL0UvuuypjO76opRtRLeOEK+KpqqTNT6eMDq5Njyjbx52QwzZiB//ipJXjjczLBsx
  18432.          3hB6ywoUL6A7vt9ZUN2KZkNTdLf+QYCEG1dZU=
  18433. DomainKey-Signature: a=rsa-sha1; c=nofws;
  18434.         d=gmail.com; s=gamma;
  18435.         h=message-id:date:from:to:subject:cc:in-reply-to:mime-version
  18436.          :content-type:content-transfer-encoding:content-disposition
  18437.          :references;
  18438.         b=taziRF7Q31AAX+Z5WtbDDyx2XDHbMLRuB6NmhFGQ2yYcTXgeUnMqpErxhwH+NS5d9f
  18439.          wTNqc6RyvKJUoLwMCO5GQ1GEYbQwjXEXbAy5g8Sp5oHmoSpKKwsaPzueC9oPt3ngeB46
  18440.          OoXk5SVeI9ql9DN61utPwAiG+z3XETsQO37b0=
  18441. Received: by 10.140.202.21 with SMTP id z21mr3062778rvf.81.1214868873850;
  18442.         Mon, 30 Jun 2008 16:34:33 -0700 (PDT)
  18443. Received: by 10.140.173.14 with HTTP; Mon, 30 Jun 2008 16:34:33 -0700 (PDT)
  18444. Message-ID: <6d99d1fd0806301634x49411cd3j810a3ace5c7d4c52@mail.gmail.com>
  18445. Date: Mon, 30 Jun 2008 19:34:33 -0400
  18446. From: "David Starner" <prosfilaes@gmail.com>
  18447. To: "Frank da Cruz" <fdc@columbia.edu>
  18448. Subject: Re: how to add all latin (and greek) subscripts
  18449. Cc: unicode@unicode.org
  18450. In-Reply-To: <CMM.0.95.0.1214832270.fdc@sesame.cc.columbia.edu>
  18451. MIME-Version: 1.0
  18452. Content-Type: text/plain; charset=UTF-8
  18453. Content-Transfer-Encoding: 7bit
  18454. Content-Disposition: inline
  18455. References: <6d99d1fd0806291934j68aba5e5r91ec61faa9b70638@mail.gmail.com>
  18456.      <CMM.0.95.0.1214832270.fdc@sesame.cc.columbia.edu>
  18457. X-Spam-Score: 1.5 (*) CU_GMAIL_WEB CU_RE
  18458. X-Scanned-By: MIMEDefang 2.63 on 128.59.28.170
  18459.  
  18460. Plain text does a lousy job at "communicat[ing] and record[ing]
  18461. language electronically", especially when you get into specialized
  18462. notations like music and math. It's the wrong tool for the job, and
  18463. extending it to cover them will likely just add poorly supported
  18464. features. In some ways the worst thing about any sufficiently complex
  18465. format is when a feature is promised, but it turns out that when it's
  18466. used, half the systems don't read it properly. Unicode, unfortunately,
  18467. has that problem, but there's no need to exacerbate it.
  18468.  
  18469. Rich text formats come and go, but so does everything. The worst rich
  18470. text formats, IMO, are the ones that were created by people who
  18471. thought plain text was good enough, but then kludged in markup for
  18472. italics, bold, page numbers, whatever was need that day; it's almost
  18473. invariably ambiguous, and undocumented. In a thousand years,  HTML
  18474. will be understandable, courtesy of printed books still stored in
  18475. libraries.
  18476.  
  18477. I think your claims for plain text are overstated; many documents have
  18478. non-plain text details that make them worth saving. "Flatland" is a
  18479. most odd book sans illustrations, and a volume of Rembrandt's
  18480. paintings is ludicrous in plain text. "A First Course in Real
  18481. Analysis" can not be preserved in plain text; if you think you have,
  18482. you've invented yet another of those ad-hoc not-quite-plain text
  18483. formats. (For example, the math offered by Kirill Smelkov only works
  18484. in monospace, which is a requirement above and beyond plain text, and
  18485. it's not computer-parseable; too bad for the blind who hoped that
  18486. computerized text could help them with mathematics...)
  18487.  
  18488. Furthermore, while typesetting may have been specialized, that does
  18489. not mean that other formats were plain text. Even ignoring
  18490. mathematics, a quick look through my writing reveals that I use
  18491. underlining quite frequently, and that was a feature often offered by
  18492. typewriters.
  18493.  
  18494. I think that people should think carefully about how they use rich
  18495. text formats. I do not, however, think that makes kludging Unicode to
  18496. support all the features of rich text you think you need the right
  18497. thing to do. It will reduce the reliability of Unicode and encourage
  18498. the proliferation of undocumented nearly-plain-text formats.
  18499.  
  18500.  1-Jul-2008  0:06:58-GMT,3372;000000000005
  18501. Return-Path: <unicode-bounce@unicode.org>
  18502. Received: from liverwurst.cc.columbia.edu ([unix socket])
  18503.      by liverwurst.cc.columbia.edu (Cyrus v2.3-alpha) with LMTPA;
  18504.      Mon, 30 Jun 2008 20:01:54 -0400
  18505. X-Sieve: CMU Sieve 2.3
  18506. Received: from longan.cc.columbia.edu (longan.cc.columbia.edu [128.59.28.165])
  18507.     by liverwurst.cc.columbia.edu (8.13.1/8.13.1) with ESMTP id m6101sc1026915
  18508.     for <fdc@liverwurst.cc.columbia.edu>; Mon, 30 Jun 2008 20:01:54 -0400
  18509. Received: from unicode.org (unicode.org [69.13.187.182])
  18510.     by longan.cc.columbia.edu (8.14.1/8.14.1) with ESMTP id m6101mk7019906;
  18511.     Mon, 30 Jun 2008 20:01:54 -0400 (EDT)
  18512. Received: from sarasvati.unicode.org (localhost [127.0.0.1])
  18513.     by unicode.org (8.12.11/8.12.11) with ESMTP id m5UNtMvV021629;
  18514.     Mon, 30 Jun 2008 18:55:22 -0500
  18515. Received: with ECARTIS (v1.0.0; list unicode); Mon, 30 Jun 2008 18:55:22 -0500 (CDT)
  18516. Received: from sl14.dnsireland.com (dnsireland.com [74.86.129.163] (may be forged))
  18517.     by unicode.org (8.12.11/8.12.11) with ESMTP id m5UNtMu9021588
  18518.     for <unicode@unicode.org>; Mon, 30 Jun 2008 18:55:22 -0500
  18519. Received: from murrisk2.westnet.ie ([88.81.100.235] helo=[192.168.1.112])
  18520.     by sl14.dnsireland.com with esmtpa (Exim 4.69)
  18521.     (envelope-from <everson@evertype.com>)
  18522.     id 1KDTDI-0007Xh-Lc
  18523.     for unicode@unicode.org; Tue, 01 Jul 2008 00:55:17 +0100
  18524. Mime-Version: 1.0
  18525. Message-Id: <p06240825c48f21ee0c1a@[192.168.1.112]>
  18526. In-Reply-To: <6d99d1fd0806301634x49411cd3j810a3ace5c7d4c52@mail.gmail.com>
  18527. References: <6d99d1fd0806291934j68aba5e5r91ec61faa9b70638@mail.gmail.com>    
  18528.  <CMM.0.95.0.1214832270.fdc@sesame.cc.columbia.edu>
  18529.  <6d99d1fd0806301634x49411cd3j810a3ace5c7d4c52@mail.gmail.com>
  18530. Date: Tue, 1 Jul 2008 00:53:02 +0100
  18531. To: unicode@unicode.org
  18532. From: Michael Everson <everson@evertype.com>
  18533. Subject: Re: how to add all latin (and greek) subscripts
  18534. Content-Type: text/plain; charset="us-ascii" ; format="flowed"
  18535. X-AntiAbuse: This header was added to track abuse, please include it with any abuse report
  18536. X-AntiAbuse: Primary Hostname - sl14.dnsireland.com
  18537. X-AntiAbuse: Original Domain - unicode.org
  18538. X-AntiAbuse: Originator/Caller UID/GID - [47 12] / [47 12]
  18539. X-AntiAbuse: Sender Address Domain - evertype.com
  18540. X-archive-position: 6977
  18541. X-ecartis-version: Ecartis v1.0.0
  18542. Sender: unicode-bounce@unicode.org
  18543. Errors-to: unicode-bounce@unicode.org
  18544. X-original-sender: everson@evertype.com
  18545. Precedence: bulk
  18546. List-help: <mailto:ecartis@unicode.org?Subject=help>
  18547. List-unsubscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=unsubscribe>
  18548. List-software: Ecartis version 1.0.0
  18549. List-Id: <unicode.sarasvati.unicode.org>
  18550. X-List-ID: <unicode.sarasvati.unicode.org>
  18551. X-list: unicode
  18552. X-Spam-Score: -1.5 () CU_OK_LISTUNSUB CU_RE
  18553. X-Scanned-By: MIMEDefang 2.63 on 128.59.28.165
  18554.  
  18555. At 19:34 -0400 2008-06-30, David Starner wrote:
  18556. >Plain text does a lousy job at "communicat[ing] and record[ing]
  18557. >language electronically", especially when you get into specialized
  18558. >notations like music and math. It's the wrong tool for the job, and
  18559. >extending it to cover them will likely just add poorly supported
  18560. >features.
  18561.  
  18562. Ahhhh bollocks. Clever, but no. The Rosetta Stone and the Laws of 
  18563. Hammurabi are plain text. Does exactly what it says on the tin. 
  18564. Dragging maths and music into it is a totally different thing.
  18565.  
  18566. Content is the thing that markers-up like to mark up. But content is 
  18567. the centre.
  18568. -- 
  18569. Michael Everson * http://www.evertype.com
  18570.  
  18571.  
  18572.  2-Jul-2008  1:04:04-GMT,4070;000000000005
  18573. Return-Path: <unicode-bounce@unicode.org>
  18574. Received: from liverwurst.cc.columbia.edu ([unix socket])
  18575.      by liverwurst.cc.columbia.edu (Cyrus v2.3-alpha) with LMTPA;
  18576.      Tue, 01 Jul 2008 21:13:01 -0400
  18577. X-Sieve: CMU Sieve 2.3
  18578. Received: from jujube.cc.columbia.edu (jujube.cc.columbia.edu [128.59.28.170])
  18579.     by liverwurst.cc.columbia.edu (8.13.1/8.13.1) with ESMTP id m621D1rY018446
  18580.     for <fdc@liverwurst.cc.columbia.edu>; Tue, 1 Jul 2008 21:13:01 -0400
  18581. Received: from unicode.org (unicode.org [69.13.187.182])
  18582.     by jujube.cc.columbia.edu (8.14.1/8.14.1) with ESMTP id m621CtnF010100;
  18583.     Tue, 1 Jul 2008 21:13:00 -0400 (EDT)
  18584. Received: from sarasvati.unicode.org (localhost [127.0.0.1])
  18585.     by unicode.org (8.12.11/8.12.11) with ESMTP id m6214AY2029506;
  18586.     Tue, 1 Jul 2008 20:04:10 -0500
  18587. Received: with ECARTIS (v1.0.0; list unicode); Tue, 01 Jul 2008 20:04:10 -0500 (CDT)
  18588. Received: from mta13.adelphia.net (mta13.adelphia.net [68.168.78.44])
  18589.     by unicode.org (8.12.11/8.12.11) with ESMTP id m62149us029488
  18590.     for <unicode@unicode.org>; Tue, 1 Jul 2008 20:04:10 -0500
  18591. Received: from DGBP7M81 ([71.229.245.230]) by mta13.adelphia.net
  18592.           (InterMail vM.6.01.05.02 201-2131-123-102-20050715) with SMTP
  18593.           id <20080702010214.QMIL7723.mta13.adelphia.net@DGBP7M81>;
  18594.           Tue, 1 Jul 2008 21:02:14 -0400
  18595. Message-ID: <A408D2390125497AA71DFC363045D16D@DGBP7M81>
  18596. From: "Doug Ewell" <dewell@roadrunner.com>
  18597. To: "Unicode Mailing List" <unicode@unicode.org>
  18598. Cc: "Ondrej Certik" <ondrej@certik.cz>
  18599. References: <6d99d1fd0806291934j68aba5e5r91ec61faa9b70638@mail.gmail.com> <CMM.0.95.0.1214832270.fdc@sesame.cc.columbia.edu> <6d99d1fd0806301634x49411cd3j810a3ace5c7d4c52@mail.gmail.com> <p06240825c48f21ee0c1a@192.168.1.112> <6d99d1fd0806301738h4ac1506cnbe28ee0e991b5501@mail.gmail.com> <p06240829c48f7b1688e3@192.168.1.112> <85b5c3130807010024x6b8f61abhba2909c9f28f8dc9@mail.gmail.com> <170A0AD1-532C-4AC7-BE0D-F67748A46B47@apple.com> <85b5c3130807011240t5a7799f9k2e7f8e3c0b0499f5@mail.gmail.com>
  18600. Subject: Re: how to add all latin (and greek) subscripts
  18601. Date: Tue, 1 Jul 2008 19:04:04 -0600
  18602. MIME-Version: 1.0
  18603. Content-Type: text/plain;
  18604.     format=flowed;
  18605.     charset="utf-8";
  18606.     reply-type=original
  18607. Content-Transfer-Encoding: 8bit
  18608. X-Priority: 3
  18609. X-MSMail-Priority: Normal
  18610. X-Mailer: Microsoft Outlook Express 6.00.2900.5512
  18611. X-MimeOLE: Produced By Microsoft MimeOLE V6.00.2900.5512
  18612. X-archive-position: 7012
  18613. X-ecartis-version: Ecartis v1.0.0
  18614. Sender: unicode-bounce@unicode.org
  18615. Errors-to: unicode-bounce@unicode.org
  18616. X-original-sender: dewell@roadrunner.com
  18617. Precedence: bulk
  18618. List-help: <mailto:ecartis@unicode.org?Subject=help>
  18619. List-unsubscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=unsubscribe>
  18620. List-software: Ecartis version 1.0.0
  18621. List-Id: <unicode.sarasvati.unicode.org>
  18622. X-List-ID: <unicode.sarasvati.unicode.org>
  18623. X-list: unicode
  18624. X-Spam-Score: -1.499 () CU_OK_LISTUNSUB CU_RE STOX_REPLY_TYPE
  18625. X-Scanned-By: MIMEDefang 2.63 on 128.59.28.170
  18626.  
  18627. Ondrej Certik <ondrej at certik dot cz> wrote:
  18628.  
  18629. > Ok, anyway, my problem is to have sub/superscripts of latin and greek 
  18630. > in a terminal. Do you think I have a chance of succeding in extending 
  18631. > the escape sequences for terminals?
  18632. >
  18633. > http://en.wikipedia.org/wiki/ANSI_color
  18634.  
  18635. Don't start down this path until you've read (or at least skimmed) the 
  18636. full ISO/IEC 6429 standard, mirrored as ECMA-48:
  18637.  
  18638. http://www.ecma-international.org/publications/files/ECMA-ST/Ecma-048.pdf
  18639.  
  18640. There's a LOT more to the so-called "ANSI" terminal sequences than just 
  18641. changing colors and moving the cursor around.  There may be one or more 
  18642. existing sequences that do what you want.  Of course, not every terminal 
  18643. will support them, but you've got a far better chance of finding a 
  18644. terminal that does support existing standard sequences than getting 
  18645. brand-new sequences approved by international bodies, and then getting 
  18646. terminal vendors to support those.
  18647.  
  18648. --
  18649. Doug Ewell  *  Arvada, Colorado, USA  *  RFC 4645  *  UTN #14
  18650. http://www.ewellic.org
  18651. http://www1.ietf.org/html.charters/ltru-charter.html
  18652. http://www.alvestrand.no/mailman/listinfo/ietf-languages  ╦å
  18653.  
  18654.  
  18655.  
  18656.  2-Jul-2008  2:15:44-GMT,5087;000000000005
  18657. Return-Path: <unicode-bounce@unicode.org>
  18658. Received: from liverwurst.cc.columbia.edu ([unix socket])
  18659.      by liverwurst.cc.columbia.edu (Cyrus v2.3-alpha) with LMTPA;
  18660.      Tue, 01 Jul 2008 22:24:59 -0400
  18661. X-Sieve: CMU Sieve 2.3
  18662. Received: from calabash.cc.columbia.edu (calabash.cc.columbia.edu [128.59.28.168])
  18663.     by liverwurst.cc.columbia.edu (8.13.1/8.13.1) with ESMTP id m622OxQ9002198
  18664.     for <fdc@liverwurst.cc.columbia.edu>; Tue, 1 Jul 2008 22:24:59 -0400
  18665. Received: from unicode.org (unicode.org [69.13.187.182])
  18666.     by calabash.cc.columbia.edu (8.14.1/8.14.1) with ESMTP id m622OrFp001195;
  18667.     Tue, 1 Jul 2008 22:24:58 -0400 (EDT)
  18668. Received: from sarasvati.unicode.org (localhost [127.0.0.1])
  18669.     by unicode.org (8.12.11/8.12.11) with ESMTP id m622Fptx026389;
  18670.     Tue, 1 Jul 2008 21:15:51 -0500
  18671. Received: with ECARTIS (v1.0.0; list unicode); Tue, 01 Jul 2008 21:15:51 -0500 (CDT)
  18672. Received: from fm200.sybase.com (fm200.sybase.com [192.138.151.122])
  18673.     by unicode.org (8.12.11/8.12.11) with ESMTP id m622FpRQ026350
  18674.     for <unicode@unicode.org>; Tue, 1 Jul 2008 21:15:51 -0500
  18675. Received: from smtp2.sybase.com (sybgate2.sybase.com [10.22.97.85])
  18676.     by fm200.sybase.com  with ESMTP id m622FjD06218;
  18677.     Tue, 1 Jul 2008 19:15:45 -0700 (PDT)
  18678. Received: from atlantis-new.sybase.com (localhost [127.0.0.1])
  18679.     by smtp2.sybase.com  with ESMTP id m622Fja25761;
  18680.     Tue, 1 Jul 2008 19:15:45 -0700 (PDT)
  18681. Received: from birdie.sybase.com (birdie.sybase.com [10.22.85.43])
  18682.     by atlantis-new.sybase.com (8.13.7+Sun/8.13.7) with ESMTP id m622FiaA028788;
  18683.     Tue, 1 Jul 2008 19:15:44 -0700 (PDT)
  18684. Received: from birdie (birdie [10.22.85.43])
  18685.     by birdie.sybase.com (8.11.6+Sun/8.11.6) with SMTP id m622FiS19143;
  18686.     Tue, 1 Jul 2008 19:15:44 -0700 (PDT)
  18687. Message-Id: <200807020215.m622FiS19143@birdie.sybase.com>
  18688. Date: Tue, 1 Jul 2008 19:15:44 -0700 (PDT)
  18689. From: Kenneth Whistler <kenw@sybase.com>
  18690. Reply-To: Kenneth Whistler <kenw@sybase.com>
  18691. Subject: Re: how to add all latin (and greek) subscripts
  18692. To: dewell@roadrunner.com
  18693. Cc: unicode@unicode.org, kenw@sybase.com
  18694. MIME-Version: 1.0
  18695. Content-Type: TEXT/plain; charset=us-ascii
  18696. Content-MD5: YsNoDt9A1QXELiWgtwiqDA==
  18697. X-Mailer: dtmail 1.3.0 @(#)CDE Version 1.4.6_06 SunOS 5.8 sun4u sparc
  18698. X-archive-position: 7013
  18699. X-ecartis-version: Ecartis v1.0.0
  18700. Sender: unicode-bounce@unicode.org
  18701. Errors-to: unicode-bounce@unicode.org
  18702. X-original-sender: kenw@sybase.com
  18703. Precedence: bulk
  18704. List-help: <mailto:ecartis@unicode.org?Subject=help>
  18705. List-unsubscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=unsubscribe>
  18706. List-software: Ecartis version 1.0.0
  18707. List-Id: <unicode.sarasvati.unicode.org>
  18708. X-List-ID: <unicode.sarasvati.unicode.org>
  18709. X-list: unicode
  18710. X-Spam-Score: -1.5 () CU_OK_LISTUNSUB CU_RE
  18711. X-Scanned-By: MIMEDefang 2.63 on 128.59.28.168
  18712.  
  18713. Doug Ewell noted:
  18714.  
  18715. > http://www.ecma-international.org/publications/files/ECMA-ST/Ecma-048.pdf
  18716. > There's a LOT more to the so-called "ANSI" terminal sequences than just 
  18717. > changing colors and moving the cursor around.  There may be one or more 
  18718. > existing sequences that do what you want.
  18719.  
  18720. In particular, note:
  18721.  
  18722. 8.3.93 PLU - PARTIAL LINE BACKWARD
  18723.  
  18724.   "... This offset should be sufficient either to image following
  18725.   characters as superscripts until the first following occurrence
  18726.   of PARTIAL LINE FORWARD (PLD) in the data stream, or, if
  18727.   preceding characters were imaged as subscripts, to restore imaging
  18728.   of following characters to the active line (the line that contains
  18729.   the active presentation position)."
  18730.   
  18731. and of course, the symmetric discussion for:
  18732.  
  18733. 8.3.92 PLD - PARTIAL LINE FORWARD
  18734.  
  18735. And if you want to control the size of font, to make the super/subscripts
  18736. display some percentage smaller than the normal text, that is what
  18737. the following control is for:
  18738.  
  18739. 8.3.55 GSM - GRAPHIC SIZE MODIFICATION
  18740.  
  18741.   "... GSM is used to modify for subsequent text the height and/or
  18742.   the width of all primary and alternative fonts identified by
  18743.   FONT SELECTION (FNT) and established by GRAPHIC SIZE SELECTION (GSS).
  18744.   The established values remain in effect until the next
  18745.   occurrence of GSM or GSS in the data stream."
  18746.  
  18747. >  Of course, not every terminal 
  18748. > will support them, but you've got a far better chance of finding a 
  18749. > terminal that does support existing standard sequences than getting 
  18750. > brand-new sequences approved by international bodies, and then getting 
  18751. > terminal vendors to support those.
  18752.  
  18753. Exactly... particularly since the established control function
  18754. standard already has full provision for these. Note that PLD and PLU
  18755. are actually part of the most commonly implemented C1 control
  18756. set. See Unicode values:
  18757.  
  18758. U+008B = PARTIAL LINE FORWARD
  18759. U+008C = PARTIAL LINE BACKWARD
  18760.  
  18761. The graphic size controls are not, however.
  18762.  
  18763. If a terminal (or a terminal emulation) doesn't support 
  18764. these existing functions, the chance
  18765. of getting additional (and superfluous) controls added to
  18766. the standard and then getting that terminal (or terminal emulation)
  18767. to support those new functions is pretty remote.
  18768.  
  18769. Go with what you've got available, and see who actually thinks
  18770. it is worthwhile to go to the effort to support them in
  18771. terminal implementations.
  18772.  
  18773. --Ken
  18774.  
  18775.  
  18776.  
  18777.  
  18778.  4-Mar-2010 19:27:51-GMT,5360;000000000001
  18779. Return-Path: <unicode-bounce@unicode.org>
  18780. Received: from lmtpproxyd (quorn-eth1.cc.columbia.edu [128.59.33.146])
  18781.      by mozartwurst.cc.columbia.edu (Cyrus v2.3.13) with LMTPA;
  18782.      Thu, 04 Mar 2010 14:40:10 -0500
  18783. X-Sieve: CMU Sieve 2.3
  18784. Received: from quorn.cc.columbia.edu ([unix socket])
  18785.      by mail.columbia.edu (Cyrus v2.3.13) with LMTPA;
  18786.      Thu, 04 Mar 2010 14:40:10 -0500
  18787. X-Sieve: CMU Sieve 2.3
  18788. Received: from feta.cc.columbia.edu (feta.cc.columbia.edu [128.59.28.164])
  18789.     by quorn.cc.columbia.edu (8.13.1/8.13.1) with ESMTP id o24Je9ox016075;
  18790.     Thu, 4 Mar 2010 14:40:10 -0500
  18791. Received: from unicode.org (unicode.org [69.13.187.182])
  18792.     by feta.cc.columbia.edu (8.14.3/8.14.3) with ESMTP id o24Je4HE023796;
  18793.     Thu, 4 Mar 2010 14:40:09 -0500 (EST)
  18794. Received: from sarasvati.unicode.org (localhost [127.0.0.1])
  18795.     by unicode.org (8.12.11/8.12.11) with ESMTP id o24JSPwP027526;
  18796.     Thu, 4 Mar 2010 13:28:25 -0600
  18797. Received: with ECARTIS (v1.0.0; list unicode); Thu, 04 Mar 2010 13:28:25 -0600 (CST)
  18798. Received: from smtp.microsoft.com (smtp.microsoft.com [131.107.115.215])
  18799.     by unicode.org (8.12.11/8.12.11) with ESMTP id o24JSLx2027479
  18800.     for <unicode@unicode.org>; Thu, 4 Mar 2010 13:28:25 -0600
  18801. Received: from TK5EX14MLTC104.redmond.corp.microsoft.com (157.54.79.159) by
  18802.  TK5-EXGWY-E802.partners.extranet.microsoft.com (10.251.56.168) with Microsoft
  18803.  SMTP Server (TLS) id 8.2.176.0; Thu, 4 Mar 2010 11:28:15 -0800
  18804. Received: from TK5EX14MBXC139.redmond.corp.microsoft.com ([169.254.7.207]) by
  18805.  TK5EX14MLTC104.redmond.corp.microsoft.com ([157.54.79.159]) with mapi; Thu, 4
  18806.  Mar 2010 11:27:52 -0800
  18807. From: Shawn Steele <Shawn.Steele@microsoft.com>
  18808. To: Larry Masinter <LMM@acm.org>, "'Slim Amamou'" <slim@alixsys.com>
  18809. CC: "public-iri@w3.org" <public-iri@w3.org>,
  18810.         Peter Constable
  18811.     <petercon@microsoft.com>,
  18812.         "unicode@unicode.org" <unicode@unicode.org>
  18813. Subject: RE: BIDI IRI Display (was spoofing and IRIs)
  18814. Thread-Topic: BIDI IRI Display (was spoofing and IRIs)
  18815. Thread-Index: AQHKuvTFx07KVIhEGkah/twDyi55JZHhBUQggABBZw+AAKXmwIAAD8pxgAAIsqCAACN7MA==
  18816. Date: Thu, 4 Mar 2010 19:27:51 +0000
  18817. Message-ID: <E14011F8737B524BB564B05FF748464A0565AAC2@TK5EX14MBXC139.redmond.corp.microsoft.com>
  18818. References: <E14011F8737B524BB564B05FF748464A0565993D@TK5EX14MBXC139.redmond.corp.microsoft.com>,<001901cabb3e$7b2a59e0$717f0da0$@org>
  18819.  <E14011F8737B524BB564B05FF748464A0565A461@TK5EX14MBXC139.redmond.corp.microsoft.com>,<002001cabbb2$e56206e0$b02614a0$@org>
  18820.  <E14011F8737B524BB564B05FF748464A0565A6DA@TK5EX14MBXC139.redmond.corp.microsoft.com>
  18821.  <002901cabbbe$0a9c5b80$1fd51280$@org>
  18822. In-Reply-To: <002901cabbbe$0a9c5b80$1fd51280$@org>
  18823. Accept-Language: en-US
  18824. Content-Language: en-US
  18825. X-MS-Has-Attach:
  18826. X-MS-TNEF-Correlator:
  18827. Content-Type: text/plain; charset="utf-8"
  18828. MIME-Version: 1.0
  18829. Content-Transfer-Encoding: 8bit
  18830. X-MIME-Autoconverted: from base64 to 8bit by unicode.org id o24JSLx2027479
  18831. X-archive-position: 10967
  18832. X-ecartis-version: Ecartis v1.0.0
  18833. Sender: unicode-bounce@unicode.org
  18834. Errors-to: unicode-bounce@unicode.org
  18835. X-original-sender: Shawn.Steele@microsoft.com
  18836. Precedence: bulk
  18837. List-help: <http://www.unicode.org/consortium/distlist.html>
  18838. List-unsubscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=unsubscribe>
  18839. List-software: Ecartis version 1.0.0
  18840. List-Id: Unicode <unicode.sarasvati.unicode.org>
  18841. X-List-ID: Unicode <unicode.sarasvati.unicode.org>
  18842. List-subscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=subscribe>
  18843. List-owner: <mailto:root@unicode.org>
  18844. List-post: <mailto:unicode@unicode.org>
  18845. X-list: unicode
  18846. X-Spam-Score: -4 () CU_OK_LISTOWN CU_OK_LISTUNSUB
  18847. X-Scanned-By: MIMEDefang 2.68 on 128.59.28.164
  18848.  
  18849. > Are you suggesting that IRIs should never appear in plain text,
  18850.  
  18851. And that's the crux of the problem :).  Unicode is "plain text" insofar as it has a sequence of code points that describe behaviors.  However if I just spit out some "glyph" for each Unicode code point I encounter, say in a fixed-width DOS-type box, I'll have a mess, even for some Latin sequences.
  18852.  
  18853. In order for Unicode to display properly the rendering engine must make some decisions.  U+0308 had to be combined with the A before it to make A╠ê.  Even if you force NFC, some scripts still require combining characters for correct display.  And that doesn't even begin to touch complex script behavior... or BIDI.
  18854.  
  18855. So, even "plain text" has rules for display.  The Unicode Bidi Algorithm are some of those rules, without which "plain text" BIDI would be a mess.  Unfortunately the Bidi algorithm can't perfectly handle all cases, and IRIs are a case where the bidi algorithm behavior isn't perfect.  I'd suggest an addendum to the bidi algorithm to cover the IRI case.  Thus tweaking the presentation engines so that when they see a "plain text" IRI, it gets displayed appropriately.
  18856.  
  18857. Consistent "Plain Text" display of an IRI is an unattainable holy grail, especially with more complex scripts.  Proper display of Unicode requires a rendering engine for proper display.
  18858.  
  18859. That goes for source code too.  If an editor doesn't render complex scripts in readable (to a speaker at least) ways, then it's pretty pointless to use the Unicode, it'd be better to %encode everything.
  18860.  
  18861. So my question is "what is your definition of plain text?"  I'd say anything that isn't using extra presentation markup, but allow the rendering engine to make reasonable sense of the display.
  18862.  
  18863. -Shawn
  18864.  
  18865.  
  18866.  
  18867.  
  18868. 29-Jul-2010  4:32:05-GMT,4290;000000000001
  18869. Return-Path: <unicode-bounce@unicode.org>
  18870. Received: from lmtpproxyd (quorn-eth1.cc.columbia.edu [128.59.33.146])
  18871.      by mozartwurst.cc.columbia.edu (Cyrus v2.3.16) with LMTPA;
  18872.      Thu, 29 Jul 2010 00:39:39 -0400
  18873. X-Sieve: CMU Sieve 2.3
  18874. Received: from quorn.cc.columbia.edu ([unix socket])
  18875.      by mail.columbia.edu (Cyrus v2.3.16) with LMTPA;
  18876.      Thu, 29 Jul 2010 00:39:39 -0400
  18877. X-Sieve: CMU Sieve 2.3
  18878. Received: from calabash.cc.columbia.edu (calabash.cc.columbia.edu [128.59.28.168])
  18879.     by quorn.cc.columbia.edu (8.13.1/8.13.1) with ESMTP id o6T4ddrf029200;
  18880.     Thu, 29 Jul 2010 00:39:39 -0400
  18881. Received: from unicode.org (unicode.org [69.13.187.182])
  18882.     by calabash.cc.columbia.edu (8.14.4/8.14.3) with ESMTP id o6T4dXq8015137;
  18883.     Thu, 29 Jul 2010 00:39:38 -0400 (EDT)
  18884. Received: from sarasvati.unicode.org (localhost [127.0.0.1])
  18885.     by unicode.org (8.12.11/8.12.11) with ESMTP id o6T4WGvb027378;
  18886.     Wed, 28 Jul 2010 23:32:16 -0500
  18887. Received: with ECARTIS (v1.0.0; list unicode); Wed, 28 Jul 2010 23:32:16 -0500 (CDT)
  18888. Received: from smtpauth05.prod.mesa1.secureserver.net (smtpauth05.prod.mesa1.secureserver.net [64.202.165.99])
  18889.     by unicode.org (8.12.11/8.12.11) with SMTP id o6T4WEQT027289
  18890.     for <unicode@unicode.org>; Wed, 28 Jul 2010 23:32:14 -0500
  18891. Received: (qmail 27482 invoked from network); 29 Jul 2010 04:32:07 -0000
  18892. Received: from unknown (24.8.55.39)
  18893.   by smtpauth05.prod.mesa1.secureserver.net (64.202.165.99) with ESMTP; 29 Jul 2010 04:32:07 -0000
  18894. Message-ID: <8B66430E331B4534BEA1E23E0BF3F832@DGBP7M81>
  18895. From: "Doug Ewell" <doug@ewellic.org>
  18896. To: "Unicode Mailing List" <unicode@unicode.org>
  18897. References: <5E9E820A36434290A4DCB45A90AB62D4@Vodka6000> <C8761FB2.153AC%kent.karlsson14@telia.com> <D40206FDA252B748A81B86DF8EE0C9B5214CDED6@DF-M14-06.exchange.corp.microsoft.com>
  18898. Subject: Plain text (was: Re: High dot/dot above punctuation?)
  18899. Date: Wed, 28 Jul 2010 22:32:05 -0600
  18900. MIME-Version: 1.0
  18901. Content-Type: text/plain;
  18902.     format=flowed;
  18903.     charset="utf-8";
  18904.     reply-type=original
  18905. Content-Transfer-Encoding: 8bit
  18906. X-Priority: 3
  18907. X-MSMail-Priority: Normal
  18908. X-Mailer: Microsoft Outlook Express 6.00.2900.5931
  18909. X-MimeOLE: Produced By Microsoft MimeOLE V6.00.2900.5931
  18910. X-archive-position: 12036
  18911. X-ecartis-version: Ecartis v1.0.0
  18912. Sender: unicode-bounce@unicode.org
  18913. Errors-to: unicode-bounce@unicode.org
  18914. X-original-sender: doug@ewellic.org
  18915. Precedence: bulk
  18916. List-help: <http://www.unicode.org/consortium/distlist.html>
  18917. List-unsubscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=unsubscribe>
  18918. List-software: Ecartis version 1.0.0
  18919. List-Id: Unicode <unicode.sarasvati.unicode.org>
  18920. X-List-ID: Unicode <unicode.sarasvati.unicode.org>
  18921. List-subscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=subscribe>
  18922. List-owner: <mailto:root@unicode.org>
  18923. List-post: <mailto:unicode@unicode.org>
  18924. X-list: unicode
  18925. X-Spam-Score: -3.899 () CU_OK_LISTOWN CU_OK_LISTUNSUB CU_RE STOX_REPLY_TYPE
  18926. X-Scanned-By: MIMEDefang 2.68 on 128.59.28.168
  18927.  
  18928. Murray Sargent <murrays at exchange dot microsoft dot com> wrote:
  18929.  
  18930. > It's worth remembering that plain text is a format that was introduced 
  18931. > due to the limitations of early computers. Books have always been 
  18932. > rendered with at least some degree of rich text. And due to the 
  18933. > complexity of Unicode, even Unicode plain text often needs to be 
  18934. > rendered with more than one font.
  18935.  
  18936. I disagree with this assessment of plain text.  When you consider the 
  18937. basic equivalence of the "same" text written in longhand by different 
  18938. people, typed on a typewriter, finger-painted by a child, spray-painted 
  18939. through a stencil, etc., it's clear that the "sameness" is an attribute 
  18940. of the underlying plain text.  None of these examples has anything to do 
  18941. with computers, old or new.
  18942.  
  18943. I do agree that rich text has existed for a long time, possibly as long 
  18944. as plain text (though I doubt that, when you consider really early 
  18945. writing technologies like palm leaves), but I don't think that refutes 
  18946. the independent existence of plain text.  And I don't think the need to 
  18947. use more than one font to render some Unicode text implies it isn't 
  18948. plain text.  I think that has more to do with aesthetics (a rich-text 
  18949. concept) and technical limits on font size.
  18950.  
  18951. --
  18952. Doug Ewell | Thornton, Colorado, USA | http://www.ewellic.org
  18953. RFC 5645, 4645, UTN #14 | ietf-languages @ is dot gd slash 2kf0s ┬¡
  18954.  
  18955.  
  18956.  
  18957.  
  18958.  
  18959.  
  18960. 11-Aug-2010 15:23:48-GMT,4984;000000000001
  18961. Return-Path: <unicode-bounce@unicode.org>
  18962. Received: from lmtpproxyd (unmeatball-eth1.cc.columbia.edu [128.59.33.154])
  18963.      by mozartwurst.cc.columbia.edu (Cyrus v2.3.16) with LMTPA;
  18964.      Wed, 11 Aug 2010 11:44:47 -0400
  18965. X-Sieve: CMU Sieve 2.3
  18966. Received: from unmeatball.cc.columbia.edu ([unix socket])
  18967.      by mail.columbia.edu (Cyrus v2.3.16) with LMTPA;
  18968.      Wed, 11 Aug 2010 11:44:47 -0400
  18969. X-Sieve: CMU Sieve 2.3
  18970. Received: from jujube.cc.columbia.edu (jujube.cc.columbia.edu [128.59.28.170])
  18971.     by unmeatball.cc.columbia.edu (8.13.1/8.13.1) with ESMTP id o7BFilcb030011;
  18972.     Wed, 11 Aug 2010 11:44:47 -0400
  18973. Received: from unicode.org (unicode.org [69.13.187.182])
  18974.     by jujube.cc.columbia.edu (8.14.4/8.14.3) with ESMTP id o7BFifMb019138;
  18975.     Wed, 11 Aug 2010 11:44:47 -0400 (EDT)
  18976. Received: from sarasvati.unicode.org (localhost [127.0.0.1])
  18977.     by unicode.org (8.12.11/8.12.11) with ESMTP id o7BFNuVq016310;
  18978.     Wed, 11 Aug 2010 10:23:56 -0500
  18979. Received: with ECARTIS (v1.0.0; list unicode); Wed, 11 Aug 2010 10:23:56 -0500 (CDT)
  18980. Received: from mail-out3.apple.com (mail-out3.apple.com [17.254.13.22])
  18981.     by unicode.org (8.12.11/8.12.11) with ESMTP id o7BFNt7Q016262
  18982.     for <unicode@unicode.org>; Wed, 11 Aug 2010 10:23:56 -0500
  18983. Received: from relay14.apple.com (relay14.apple.com [17.128.113.52])
  18984.     by mail-out3.apple.com (Postfix) with ESMTP id 7CC74A2AD8C5
  18985.     for <unicode@unicode.org>; Wed, 11 Aug 2010 08:23:50 -0700 (PDT)
  18986. X-AuditID: 11807134-b7b5eae00000345f-13-4c62c0850a2b
  18987. Received: from [17.116.209.174] (Unknown_Domain [17.116.209.174])
  18988.     (using TLS with cipher AES128-SHA (AES128-SHA/128 bits))
  18989.     (Client did not present a certificate)
  18990.     by relay14.apple.com (Apple SCV relay) with SMTP id F7.04.13407.680C26C4; Wed, 11 Aug 2010 08:23:50 -0700 (PDT)
  18991. Subject: Re: Accessing alternate glyphs from plain text
  18992. Mime-Version: 1.0 (Apple Message framework v1160)
  18993. Content-Type: text/plain; charset=windows-1252
  18994. From: "John H. Jenkins" <jenkins@apple.com>
  18995. X-Priority: 3
  18996. In-Reply-To: <9F919B69818A45C491552A84CAB41D98@DGBP7M81>
  18997. Date: Wed, 11 Aug 2010 09:23:48 -0600
  18998. Message-Id: <AF34A005-42A3-4D61-B802-793F39B05106@apple.com>
  18999. References: <855183.25469.qm@web86604.mail.ird.yahoo.com> <5C14867D68C1476CA4D8B2593D4AE6EC@DGBP7M81> <B37CA6A5-B5DB-47FB-A3C3-870DFDDCF905@apple.com> <41FED2ED27964BD69B9DE69A87FB66C3@JukanPC> <E1189D25AA734140A7C1955772FA243A@DGBP7M81> <AANLkTimy03s_ZE7BxsxamNg=QB1NWFo+dtU4Yu+=yv-u@mail.gmail.com> <9F919B69818A45C491552A84CAB41D98@DGBP7M81>
  19000. To: Unicode Mailing List <unicode@unicode.org>
  19001. X-Mailer: Apple Mail (2.1160)
  19002. X-Brightmail-Tracker: AAAAAQAAAZE=
  19003. Content-Transfer-Encoding: 8bit
  19004. X-MIME-Autoconverted: from quoted-printable to 8bit by unicode.org id o7BFNt7Q016262
  19005. X-archive-position: 12241
  19006. X-ecartis-version: Ecartis v1.0.0
  19007. Sender: unicode-bounce@unicode.org
  19008. Errors-to: unicode-bounce@unicode.org
  19009. X-original-sender: jenkins@apple.com
  19010. Precedence: bulk
  19011. List-help: <http://www.unicode.org/consortium/distlist.html>
  19012. List-unsubscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=unsubscribe>
  19013. List-software: Ecartis version 1.0.0
  19014. List-Id: Unicode <unicode.sarasvati.unicode.org>
  19015. X-List-ID: Unicode <unicode.sarasvati.unicode.org>
  19016. List-subscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=subscribe>
  19017. List-owner: <mailto:root@unicode.org>
  19018. List-post: <mailto:unicode@unicode.org>
  19019. X-list: unicode
  19020. X-Spam-Score: -3.9 () CU_OK_LISTOWN CU_OK_LISTUNSUB CU_RE
  19021. X-Scanned-By: MIMEDefang 2.68 on 128.59.28.170
  19022.  
  19023.  
  19024. On Aug 11, 2010, at 8:18 AM, Doug Ewell wrote:
  19025.  
  19026. > But to imply that because text always has a specific appearance, determining the underlying plain text is an artificial process that was imposed on us by computers seems wrong.  We (meaning "readers of alphabetic scripts, at least Latin and Cyrillic") learn to recognize letters at an early age, but quickly run into additional glyphs we don't recognize, like certain cursive uppercase letters (especially G and Q) and the two-tier vs. one-tier lowercase a and g.  Then we find out they are different forms of the same letter, and learn to read them the same, and that is the essence of "plain text"ùthe underlying letters behind potentially differing glyphs.
  19027.  
  19028. Just to illustrate Doug's point, suppose someone hands you a hand-written letter and asks you to copy it.  To what extent do you attempt to fully recreate the format of the original?  Most likely, you'll simply copy the letters and punctuation.  If the letter has some specific formatting (such as underlining), you may attempt to recreate that.  By and large, however, there would be no effort to recreate the non-paragraphing line breaks and definitely not any effort to recreate the original letter shapes.  Copying the letter in this fashion is certainly acceptable under almost all circumstances--indeed, in many cases it would be preferred over, say, a photocopy--and it strongly suggests the existence of some sort of Platonic "plain text" which is the essence of what was written.
  19029.  
  19030. =====
  19031. Si⌠n ap-Rhisiart
  19032. John H. Jenkins
  19033. jenkins@apple.com
  19034.  
  19035.  
  19036.  
  19037.  
  19038.  
  19039.  
  19040. 14-Oct-2011 18:01:55-GMT,8498;000000000001
  19041. Return-Path: <unicode-bounce@unicode.org>
  19042. Received: from lmtpproxyd (taro-eth1.cc.columbia.edu [128.59.33.142])
  19043.      by mozartwurst.cc.columbia.edu (Cyrus v2.3.16) with LMTPA;
  19044.      Fri, 14 Oct 2011 14:14:27 -0400
  19045. X-Sieve: CMU Sieve 2.3
  19046. Received: from taro.cc.columbia.edu ([unix socket])
  19047.      by mail.columbia.edu (Cyrus v2.3.16) with LMTPA;
  19048.      Fri, 14 Oct 2011 14:14:27 -0400
  19049. X-Sieve: CMU Sieve 2.3
  19050. Received: from kumquat.cc.columbia.edu (kumquat.cc.columbia.edu [128.59.28.169])
  19051.     by taro.cc.columbia.edu (8.13.8/8.13.8) with ESMTP id p9EIEMst007167;
  19052.     Fri, 14 Oct 2011 14:14:27 -0400
  19053. Received: from unicode.org (unicode.org [216.97.88.9])
  19054.     by kumquat.cc.columbia.edu (8.14.4/8.14.3) with ESMTP id p9EIEDnY015910;
  19055.     Fri, 14 Oct 2011 14:14:19 -0400 (EDT)
  19056. Received: from sarasvati.unicode.org (sarasvati.unicode.org.local [127.0.0.1])
  19057.     by unicode.org (8.14.4/8.14.4) with ESMTP id p9EI2IsK017644;
  19058.     Fri, 14 Oct 2011 13:02:18 -0500
  19059. Received: with ECARTIS (v1.0.0; list unicode); Fri, 14 Oct 2011 13:02:18 -0500 (CDT)
  19060. Received: from fm200.sybase.com (fm200.sybase.com [192.138.151.122])
  19061.     by unicode.org (8.14.4/8.14.4) with ESMTP id p9EI2HnE017631
  19062.     for <unicode@unicode.org>; Fri, 14 Oct 2011 13:02:17 -0500
  19063. Received: from smtp1.sybase.com (sybgate.sybase.com [10.22.97.84])
  19064.     by fm200.sybase.com  with ESMTP id p9EI27d08064
  19065.     for <unicode@unicode.org>; Fri, 14 Oct 2011 11:02:08 -0700 (PDT)
  19066. Received: from [10.22.85.211] (localhost [127.0.0.1])
  19067.     by smtp1.sybase.com  with ESMTP id p9EI1tr21326;
  19068.     Fri, 14 Oct 2011 11:01:55 -0700 (PDT)
  19069. Message-ID: <4E987913.5020807@sybase.com>
  19070. Date: Fri, 14 Oct 2011 11:01:55 -0700
  19071. From: Ken Whistler <kenw@sybase.com>
  19072. User-Agent: Mozilla/5.0 (Windows NT 5.1; rv:7.0.1) Gecko/20110929 Thunderbird/7.0.1
  19073. MIME-Version: 1.0
  19074. To: unicode@unicode.org
  19075. CC: Ken Whistler <kenw@sybase.com>
  19076. Subject: Re: definition of plain text
  19077. References: <CALaqUrz=EU84Vpsy+Vkqp8VkM2M-y+3E9YyhSr4ijW3KFKh9aQ@mail.gmail.com>
  19078. In-Reply-To: <CALaqUrz=EU84Vpsy+Vkqp8VkM2M-y+3E9YyhSr4ijW3KFKh9aQ@mail.gmail.com>
  19079. Content-Type: multipart/alternative;
  19080.  boundary="------------010700030002090902070804"
  19081. X-j-chkmail-Score: MSGID : 4E987929.000 on unicode.org : j-chkmail score : . : R=. U=. O=. B=0.000 -> S=0.000
  19082. X-j-chkmail-Status: Ham
  19083. X-archive-position: 14543
  19084. X-ecartis-version: Ecartis v1.0.0
  19085. Sender: unicode-bounce@unicode.org
  19086. Errors-to: unicode-bounce@unicode.org
  19087. X-original-sender: kenw@sybase.com
  19088. Precedence: bulk
  19089. List-help: <http://www.unicode.org/consortium/distlist.html>
  19090. List-unsubscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=unsubscribe>
  19091. List-software: Ecartis version 1.0.0
  19092. List-Id: Unicode <unicode.sarasvati.unicode.org>
  19093. X-List-ID: Unicode <unicode.sarasvati.unicode.org>
  19094. List-subscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=subscribe>
  19095. List-owner: <mailto:root@unicode.org>
  19096. List-post: <mailto:unicode@unicode.org>
  19097. X-list: unicode
  19098. X-Spam-Score: -3.899 () CU_OK_LISTOWN CU_OK_LISTUNSUB CU_RE HTML_MESSAGE
  19099. X-Scanned-By: MIMEDefang 2.68 on 128.59.28.169
  19100.  
  19101. This is a multi-part message in MIME format.
  19102. --------------010700030002090902070804
  19103. Content-Type: text/plain; charset=UTF-8; format=flowed
  19104. Content-Transfer-Encoding: 8bit
  19105.  
  19106. On 10/13/2011 10:49 PM, Peter Cyrus wrote:
  19107. > Is there a definition or guideline for the distinction between plain
  19108. > text and rich text?
  19109. >
  19110. >
  19111.  
  19112. I think where you may be getting hung up is trying to define plain
  19113. text versus rich text in terms of the content and/or appearance of
  19114. the text (i.e. the outcome), instead of the storage and processing
  19115. of the text.
  19116.  
  19117. The following string is plain text:
  19118.  
  19119. "3<sup>2</sup>"
  19120.  
  19121. It contains 13 characters. We can find all their Unicode code points and
  19122. stuff them in a 13-element array of 16-bit Unicode code units, for
  19123. example.
  19124.  
  19125. The following string is also plain text:
  19126.  
  19127. "3┬▓"
  19128.  
  19129. It contains 2 characters. We can find all their Unicode code points and
  19130. stuff them in a 2-element array of 16-bit Unicode code units.
  19131.  
  19132. The first string can, however, also be interpreted (and displayed) as 
  19133. rich text, by
  19134. applying a higher-level protocol (in this case, HTML), which interprets
  19135. certain sequences of characters as markup and others as content.
  19136. In that case, the first string would be interpreted
  19137. differently, and would be displayed as "3^2 ".
  19138.  
  19139. The end results may end up "meaning" the same thing, and might even
  19140. display identically (although in this case most renderers will show them
  19141. a little differently), although one is plain text and the other is rich 
  19142. text.
  19143.  
  19144. If you stick to the notion that Unicode plain text consists of a sequence
  19145. of Unicode characters (in some encoding form) stuffed into an array
  19146. of code units, regardless of what format controls are included and what
  19147. they may "mean", you don't go far wrong. Rich text starts where you
  19148. either start interpreting some subset of the characters in the array
  19149. as markup according to a higher-level protocol, or you start applying
  19150. out-of-band information not actually stored in the text array but affecting
  19151. its formatting (or other aspects of its processing).
  19152.  
  19153. UTR #20 is replete with examples of the borderline between plain
  19154. text and rich text, where you could, in principle, get the same outcome
  19155. either using Unicode plain text, or by using Unicode plain
  19156. text for the core content and applying markup. It isn't the outcome per
  19157. se that makes the difference -- it is how you represent the text and
  19158. process it to get there.
  19159.  
  19160. --Ken
  19161.  
  19162.  
  19163. --------------010700030002090902070804
  19164. Content-Type: text/html; charset=UTF-8
  19165. Content-Transfer-Encoding: 8bit
  19166.  
  19167. <html>
  19168.   <head>
  19169.     <meta content="text/html; charset=UTF-8" http-equiv="Content-Type">
  19170.   </head>
  19171.   <body bgcolor="#FFFFFF" text="#000000">
  19172.     On 10/13/2011 10:49 PM, Peter Cyrus wrote:
  19173.     <blockquote
  19174. cite="mid:CALaqUrz=EU84Vpsy+Vkqp8VkM2M-y+3E9YyhSr4ijW3KFKh9aQ@mail.gmail.com"
  19175.       type="cite">
  19176.       <pre wrap="">Is there a definition or guideline for the distinction between plain
  19177. text and rich text?
  19178.  
  19179.  
  19180. </pre>
  19181.     </blockquote>
  19182.     <br>
  19183.     I think where you may be getting hung up is trying to define plain<br>
  19184.     text versus rich text in terms of the content and/or appearance of<br>
  19185.     the text (i.e. the outcome), instead of the storage and processing<br>
  19186.     of the text.<br>
  19187.     <br>
  19188.     The following string is plain text:<br>
  19189.     <br>
  19190.     "3<sup>2</sup>"<br>
  19191.     <br>
  19192.     It contains 13 characters. We can find all their Unicode code points
  19193.     and<br>
  19194.     stuff them in a 13-element array of 16-bit Unicode code units, for<br>
  19195.     example.<br>
  19196.     <br>
  19197.     The following string is also plain text:<br>
  19198.     <br>
  19199.     "3┬▓"<br>
  19200.     <br>
  19201.     It contains 2 characters. We can find all their Unicode code points
  19202.     and<br>
  19203.     stuff them in a 2-element array of 16-bit Unicode code units.<br>
  19204.     <br>
  19205.     The first string can, however, also be interpreted (and displayed)
  19206.     as rich text, by<br>
  19207.     applying a higher-level protocol (in this case, HTML), which
  19208.     interprets<br>
  19209.     certain sequences of characters as markup and others as content.<br>
  19210.     In that case, the first string would be interpreted <br>
  19211.     differently, and would be displayed as "3<sup>2</sup>".<br>
  19212.     <br>
  19213.     The end results may end up "meaning" the same thing, and might even<br>
  19214.     display identically (although in this case most renderers will show
  19215.     them<br>
  19216.     a little differently), although one is plain text and the other is
  19217.     rich text.<br>
  19218.     <br>
  19219.     If you stick to the notion that Unicode plain text consists of a
  19220.     sequence<br>
  19221.     of Unicode characters (in some encoding form) stuffed into an array<br>
  19222.     of code units, regardless of what format controls are included and
  19223.     what<br>
  19224.     they may "mean", you don't go far wrong. Rich text starts where you<br>
  19225.     either start interpreting some subset of the characters in the array<br>
  19226.     as markup according to a higher-level protocol, or you start
  19227.     applying<br>
  19228.     out-of-band information not actually stored in the text array but
  19229.     affecting<br>
  19230.     its formatting (or other aspects of its processing).<br>
  19231.     <br>
  19232.     UTR #20 is replete with examples of the borderline between plain<br>
  19233.     text and rich text, where you could, in principle, get the same
  19234.     outcome<br>
  19235.     either using Unicode plain text, or by using Unicode plain<br>
  19236.     text for the core content and applying markup. It isn't the outcome
  19237.     per<br>
  19238.     se that makes the difference -- it is how you represent the text and<br>
  19239.     process it to get there.<br>
  19240.     <br>
  19241.     --Ken<br>
  19242.     <br>
  19243.   </body>
  19244. </html>
  19245.  
  19246. --------------010700030002090902070804--
  19247.  
  19248.  
  19249.  
  19250. 14-Oct-2011 19:17:52-GMT,5487;000000000001
  19251. Return-Path: <unicode-bounce@unicode.org>
  19252. Received: from lmtpproxyd (yam-eth1.cc.columbia.edu [128.59.33.143])
  19253.      by mozartwurst.cc.columbia.edu (Cyrus v2.3.16) with LMTPA;
  19254.      Fri, 14 Oct 2011 15:26:26 -0400
  19255. X-Sieve: CMU Sieve 2.3
  19256. Received: from yam.cc.columbia.edu ([unix socket])
  19257.      by mail.columbia.edu (Cyrus v2.3.16) with LMTPA;
  19258.      Fri, 14 Oct 2011 15:26:26 -0400
  19259. X-Sieve: CMU Sieve 2.3
  19260. Received: from sapodilla.cc.columbia.edu (sapodilla.cc.columbia.edu [128.59.28.172])
  19261.     by yam.cc.columbia.edu (8.13.8/8.13.8) with ESMTP id p9EJQQY0017905;
  19262.     Fri, 14 Oct 2011 15:26:26 -0400
  19263. Received: from unicode.org (unicode.org [216.97.88.9])
  19264.     by sapodilla.cc.columbia.edu (8.14.4/8.14.3) with ESMTP id p9EJQKKL014951;
  19265.     Fri, 14 Oct 2011 15:26:25 -0400 (EDT)
  19266. Received: from sarasvati.unicode.org (sarasvati.unicode.org.local [127.0.0.1])
  19267.     by unicode.org (8.14.4/8.14.4) with ESMTP id p9EJI0ju004451;
  19268.     Fri, 14 Oct 2011 14:18:00 -0500
  19269. Received: with ECARTIS (v1.0.0; list unicode); Fri, 14 Oct 2011 14:18:00 -0500 (CDT)
  19270. Received: from fm200.sybase.com (fm200.sybase.com [192.138.151.122])
  19271.     by unicode.org (8.14.4/8.14.4) with ESMTP id p9EJI0CW004410
  19272.     for <unicode@unicode.org>; Fri, 14 Oct 2011 14:18:00 -0500
  19273. Received: from smtp1.sybase.com (sybgate.sybase.com [10.22.97.84])
  19274.     by fm200.sybase.com  with ESMTP id p9EJHr023724;
  19275.     Fri, 14 Oct 2011 12:17:53 -0700 (PDT)
  19276. Received: from [10.22.85.211] (localhost [127.0.0.1])
  19277.     by smtp1.sybase.com  with ESMTP id p9EJHqr03094;
  19278.     Fri, 14 Oct 2011 12:17:53 -0700 (PDT)
  19279. Message-ID: <4E988AE0.6030708@sybase.com>
  19280. Date: Fri, 14 Oct 2011 12:17:52 -0700
  19281. From: Ken Whistler <kenw@sybase.com>
  19282. User-Agent: Mozilla/5.0 (Windows NT 5.1; rv:7.0.1) Gecko/20110929 Thunderbird/7.0.1
  19283. MIME-Version: 1.0
  19284. To: =?UTF-8?B?Sm/DsyDDgWTDoW0=?= <adam@jooadam.hu>
  19285. CC: unicode@unicode.org, "kenw >> Ken Whistler" <kenw@sybase.com>
  19286. Subject: Re: definition of plain text
  19287. References: <CALaqUrz=EU84Vpsy+Vkqp8VkM2M-y+3E9YyhSr4ijW3KFKh9aQ@mail.gmail.com> <4E987913.5020807@sybase.com> <CAKZ+miBbKvO6Jt45zKv8q6-qzdgru=MncBEQAZGAJ3i+nWoY8g@mail.gmail.com>
  19288. In-Reply-To: <CAKZ+miBbKvO6Jt45zKv8q6-qzdgru=MncBEQAZGAJ3i+nWoY8g@mail.gmail.com>
  19289. Content-Type: text/plain; charset=UTF-8; format=flowed
  19290. Content-Transfer-Encoding: 8bit
  19291. X-j-chkmail-Score: MSGID : 4E988AE8.001 on unicode.org : j-chkmail score : . : R=. U=. O=. B=0.000 -> S=0.000
  19292. X-j-chkmail-Status: Ham
  19293. X-archive-position: 14545
  19294. X-ecartis-version: Ecartis v1.0.0
  19295. Sender: unicode-bounce@unicode.org
  19296. Errors-to: unicode-bounce@unicode.org
  19297. X-original-sender: kenw@sybase.com
  19298. Precedence: bulk
  19299. List-help: <http://www.unicode.org/consortium/distlist.html>
  19300. List-unsubscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=unsubscribe>
  19301. List-software: Ecartis version 1.0.0
  19302. List-Id: Unicode <unicode.sarasvati.unicode.org>
  19303. X-List-ID: Unicode <unicode.sarasvati.unicode.org>
  19304. List-subscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=subscribe>
  19305. List-owner: <mailto:root@unicode.org>
  19306. List-post: <mailto:unicode@unicode.org>
  19307. X-list: unicode
  19308. X-Spam-Score: -3.9 () CU_OK_LISTOWN CU_OK_LISTUNSUB CU_RE
  19309. X-Scanned-By: MIMEDefang 2.68 on 128.59.28.172
  19310.  
  19311. On 10/14/2011 11:47 AM, Jo├│ ├üd├ím wrote:
  19312. > Peter asked for what the Unicode Consortium considers plain text, ie.
  19313. > what principles it apllies when deciding whether to encode a certain
  19314. > element or aspect of writing as a character. In turn, you thoroughly
  19315. > explained that plain text is what the Unicode Consortium considered to
  19316. > be plain text and encoded as characters.
  19317.  
  19318. Correct. And basically, that is what it comes down to.
  19319.  
  19320. One cannot look at *rendered* text and somehow know, a priori,
  19321. exactly how that text should be represented in characters. (In the case 
  19322. of most
  19323. of what is still being considered for encoding, "rendered text" means
  19324. non-digitally printed historic printed materials, because there isn't any
  19325. character encoding for it in the first place, and hence no compatibility
  19326. encoding issues.)
  19327.  
  19328. Sure, there are some general principles which apply:
  19329.  
  19330. 1. We don't represent font size differences by means of encoded characters.
  19331.  
  19332. 2. We don't represent text coloration differences by means of encoded 
  19333. characters.
  19334.  
  19335. 3. We don't represent pictures by means of encoded characters.
  19336.  
  19337. and so on. Add your favorites.
  19338.  
  19339. But character encoding as a process engaged in by character encoding
  19340. committees (in this case, the UTC and SC2/WG2) is an art form which
  19341. needs to balance: existing practice, if any; graphological analysis of
  19342. writing systems; complexity of implementation for proposed solutions
  19343. to encoding; architectural consistency across the entire standard;
  19344. linguistic politics in user communities; and even national body politics
  19345. involved in voting on amendments to the standard.
  19346.  
  19347. It is impossible to codify that process in a set of a priori, axiomatic
  19348. principles about what is and is not plain text, and then sit in committee
  19349. and run down some check list and determine, logically, what exactly
  19350. is and is not a character to be encoded. People can wish all they
  19351. want that it were that way, but it ain't.
  19352.  
  19353. So yeah, what the Unicode Consortium considers to be plain text is
  19354. what can be represented by a sequence of Unicode characters, once
  19355. those characters ended up standardized and published in the standard.
  19356.  
  19357. You can't start at the other end, define exactly what plain text is, and 
  19358. then
  19359. pick and choose amongst the already standardized characters based
  19360. on that definition. Given the universal (including historic) scope of the
  19361. Unicode Standard, that way lies madness.
  19362.  
  19363. --Ken
  19364.  
  19365.  
  19366.  
  19367.  
  19368. 15-Oct-2011  2:37:11-GMT,8531;000000000001
  19369. Return-Path: <unicode-bounce@unicode.org>
  19370. Received: from lmtpproxyd (malanga-eth1.cc.columbia.edu [128.59.33.141])
  19371.      by mozartwurst.cc.columbia.edu (Cyrus v2.3.16) with LMTPA;
  19372.      Fri, 14 Oct 2011 22:49:57 -0400
  19373. X-Sieve: CMU Sieve 2.3
  19374. Received: from malanga.cc.columbia.edu ([unix socket])
  19375.      by mail.columbia.edu (Cyrus v2.3.16) with LMTPA;
  19376.      Fri, 14 Oct 2011 22:49:57 -0400
  19377. X-Sieve: CMU Sieve 2.3
  19378. Received: from jujube.cc.columbia.edu (jujube.cc.columbia.edu [128.59.28.170])
  19379.     by malanga.cc.columbia.edu (8.13.8/8.13.8) with ESMTP id p9F2nuBw012197;
  19380.     Fri, 14 Oct 2011 22:49:56 -0400
  19381. Received: from unicode.org (unicode.org [216.97.88.9])
  19382.     by jujube.cc.columbia.edu (8.14.4/8.14.3) with ESMTP id p9F2noGj013563;
  19383.     Fri, 14 Oct 2011 22:49:56 -0400 (EDT)
  19384. Received: from sarasvati.unicode.org (sarasvati.unicode.org.local [127.0.0.1])
  19385.     by unicode.org (8.14.4/8.14.4) with ESMTP id p9F2bN5V001686;
  19386.     Fri, 14 Oct 2011 21:37:23 -0500
  19387. Received: with ECARTIS (v1.0.0; list unicode); Fri, 14 Oct 2011 21:37:23 -0500 (CDT)
  19388. Received: from mail-yw0-f50.google.com (mail-yw0-f50.google.com [209.85.213.50])
  19389.     by unicode.org (8.14.4/8.14.4) with ESMTP id p9F2bH3w001640
  19390.     for <unicode@unicode.org>; Fri, 14 Oct 2011 21:37:18 -0500
  19391. Received: by ywb5 with SMTP id 5so57372ywb.9
  19392.         for <unicode@unicode.org>; Fri, 14 Oct 2011 19:37:12 -0700 (PDT)
  19393. DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
  19394.         d=gmail.com; s=gamma;
  19395.         h=mime-version:sender:in-reply-to:references:date
  19396.          :x-google-sender-auth:message-id:subject:from:to:cc:content-type
  19397.          :content-transfer-encoding;
  19398.         bh=CkryIg3r7JYAGzhN30sjCjA2S62ykmfzcj0YusQdiwQ=;
  19399.         b=lxDGE8WwqSIYLClBEiGRA+kthkBxUaM+gLgWIiLvt6igxGg7QEaLifbgDCEQOKgK4T
  19400.          iLaKOMYfSWNE4HZPSP2n5Jokgh7S7YW3+tAd4K5kWJrDsOuv/q2mjfDTaC1PQT9OFZVa
  19401.          SNu6ZA23WzYR49xFxM/I6NiXGtA5aEDJAfAfs=
  19402. MIME-Version: 1.0
  19403. Received: by 10.151.87.21 with SMTP id p21mr10856326ybl.107.1318646232383;
  19404.  Fri, 14 Oct 2011 19:37:12 -0700 (PDT)
  19405. Received: by 10.151.13.12 with HTTP; Fri, 14 Oct 2011 19:37:11 -0700 (PDT)
  19406. In-Reply-To: <4E988AE0.6030708@sybase.com>
  19407. References: <CALaqUrz=EU84Vpsy+Vkqp8VkM2M-y+3E9YyhSr4ijW3KFKh9aQ@mail.gmail.com>
  19408.     <4E987913.5020807@sybase.com>
  19409.     <CAKZ+miBbKvO6Jt45zKv8q6-qzdgru=MncBEQAZGAJ3i+nWoY8g@mail.gmail.com>
  19410.     <4E988AE0.6030708@sybase.com>
  19411. Date: Sat, 15 Oct 2011 04:37:11 +0200
  19412. X-Google-Sender-Auth: eYeS09yPLRafsbThmljhomaXJng
  19413. Message-ID: <CALaqUrygCLdE2070anS4r36yRNNrBNyX3FGF5frObKzv2Uz27A@mail.gmail.com>
  19414. Subject: Re: definition of plain text
  19415. From: Peter Cyrus <pcyrus@alivox.net>
  19416. To: Ken Whistler <kenw@sybase.com>
  19417. Cc: =?UTF-8?B?Sm/DsyDDgWTDoW0=?= <adam@jooadam.hu>, unicode@unicode.org
  19418. Content-Type: text/plain; charset=UTF-8
  19419. X-j-chkmail-Score: MSGID : 4E98F1DD.000 on unicode.org : j-chkmail score : . : R=. U=. O=. B=0.000 -> S=0.000
  19420. X-j-chkmail-Status: Ham
  19421. Content-Transfer-Encoding: 8bit
  19422. X-MIME-Autoconverted: from quoted-printable to 8bit by unicode.org id p9F2bH3w001640
  19423. X-archive-position: 14546
  19424. X-ecartis-version: Ecartis v1.0.0
  19425. Sender: unicode-bounce@unicode.org
  19426. Errors-to: unicode-bounce@unicode.org
  19427. X-original-sender: pcyrus@alivox.net
  19428. Precedence: bulk
  19429. List-help: <http://www.unicode.org/consortium/distlist.html>
  19430. List-unsubscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=unsubscribe>
  19431. List-software: Ecartis version 1.0.0
  19432. List-Id: Unicode <unicode.sarasvati.unicode.org>
  19433. X-List-ID: Unicode <unicode.sarasvati.unicode.org>
  19434. List-subscribe: <mailto:unicode-request@sarasvati.unicode.org?Subject=subscribe>
  19435. List-owner: <mailto:root@unicode.org>
  19436. List-post: <mailto:unicode@unicode.org>
  19437. X-list: unicode
  19438. X-Spam-Score: -3.9 () CU_OK_LISTOWN CU_OK_LISTUNSUB CU_RE
  19439. X-Scanned-By: MIMEDefang 2.68 on 128.59.28.170
  19440.  
  19441. Ken, your explanation seems more permissive than I had anticipated.
  19442.  
  19443. Your example of "3<sup>2</sup>" would seem to me at risk of behaving
  19444. in unforeseen ways if, for instance, it were split up.  Wouldn't it
  19445. match a string "up > 2"?  Wouldn't it fail to match 3┬▓?  I guess I
  19446. thought that plain text should be more canonical.
  19447.  
  19448. I was also being coy about my real question, but perhaps I shouldn't
  19449. have been.   I'm working on a conscript intended as a universal
  19450. phonetic script, and even though it is unlikely ever to merit
  19451. inclusion in Unicode, I'd like to design it to Unicode's standards.
  19452. (For the curious, the work done to date is online at
  19453. www.shwascript.org.)
  19454.  
  19455. One particularity of this script is that it is written in different
  19456. "gaits", depending on the phonology of the language.  Languages with
  19457. open syllables, like most Niger-Congo or Austronesian languages, would
  19458. write it as a syllabary.  Languages with fixed syllables, like
  19459. Chinese, Korean or Vietnamese, would write it as blocks, like Hangul.
  19460. Languages with variable syllables, like most Indo-European languages,
  19461. would write it as an alphabet.  And Afro-Asiatic languages would write
  19462. the vowels as diacritics to highlight the triliteral roots.  But all
  19463. these gaits would use the same underlying letters, and the same
  19464. underlying Unicode PUA characters.
  19465.  
  19466. The obvious way to encode this is to add a set of invisible characters
  19467. that specify the gait of the following run of plain text.  Each would
  19468. also serve as the end-of-run character for the preceding run.  This
  19469. solution seems to me analogous to the use of LTR and RTL to mark runs
  19470. for directionality, but I don't know enough about the UBA to know
  19471. where the pitfalls are or whether a better solution is feasible.
  19472. These gait characters would be ignored in search, which is the desired
  19473. behavior.
  19474.  
  19475. Alternatives might include markup or even different fonts, but the
  19476. gaits seem to me as much part of the text as the letters themselves.
  19477. Writers will have to explicitly change gaits when they want to embed a
  19478. Chinese name in an English text, for example.  It seems unwieldy to
  19479. capture that information at the keyboard and then package it
  19480. separately for encoding, transmission and rendering.  Nor does
  19481. considering it as a case distinction seem elegant.
  19482.  
  19483. May I ask for advice?
  19484.  
  19485. On Fri, Oct 14, 2011 at 9:17 PM, Ken Whistler <kenw@sybase.com> wrote:
  19486. > On 10/14/2011 11:47 AM, Jo├│ ├üd├ím wrote:
  19487. >>
  19488. >> Peter asked for what the Unicode Consortium considers plain text, ie.
  19489. >> what principles it apllies when deciding whether to encode a certain
  19490. >> element or aspect of writing as a character. In turn, you thoroughly
  19491. >> explained that plain text is what the Unicode Consortium considered to
  19492. >> be plain text and encoded as characters.
  19493. >
  19494. > Correct. And basically, that is what it comes down to.
  19495. >
  19496. > One cannot look at *rendered* text and somehow know, a priori,
  19497. > exactly how that text should be represented in characters. (In the case of
  19498. > most
  19499. > of what is still being considered for encoding, "rendered text" means
  19500. > non-digitally printed historic printed materials, because there isn't any
  19501. > character encoding for it in the first place, and hence no compatibility
  19502. > encoding issues.)
  19503. >
  19504. > Sure, there are some general principles which apply:
  19505. >
  19506. > 1. We don't represent font size differences by means of encoded characters.
  19507. >
  19508. > 2. We don't represent text coloration differences by means of encoded
  19509. > characters.
  19510. >
  19511. > 3. We don't represent pictures by means of encoded characters.
  19512. >
  19513. > and so on. Add your favorites.
  19514. >
  19515. > But character encoding as a process engaged in by character encoding
  19516. > committees (in this case, the UTC and SC2/WG2) is an art form which
  19517. > needs to balance: existing practice, if any; graphological analysis of
  19518. > writing systems; complexity of implementation for proposed solutions
  19519. > to encoding; architectural consistency across the entire standard;
  19520. > linguistic politics in user communities; and even national body politics
  19521. > involved in voting on amendments to the standard.
  19522. >
  19523. > It is impossible to codify that process in a set of a priori, axiomatic
  19524. > principles about what is and is not plain text, and then sit in committee
  19525. > and run down some check list and determine, logically, what exactly
  19526. > is and is not a character to be encoded. People can wish all they
  19527. > want that it were that way, but it ain't.
  19528. >
  19529. > So yeah, what the Unicode Consortium considers to be plain text is
  19530. > what can be represented by a sequence of Unicode characters, once
  19531. > those characters ended up standardized and published in the standard.
  19532. >
  19533. > You can't start at the other end, define exactly what plain text is, and
  19534. > then
  19535. > pick and choose amongst the already standardized characters based
  19536. > on that definition. Given the universal (including historic) scope of the
  19537. > Unicode Standard, that way lies madness.
  19538. >
  19539. > --Ken
  19540. >
  19541. >
  19542. >
  19543.  
  19544.  
  19545.  
  19546.  
  19547.