home *** CD-ROM | disk | FTP | other *** search
/ Columbia Kermit / kermit.zip / protocol / zip-transport.txt < prev   
Text File  |  2020-01-01  |  53KB  |  1,043 lines

  1. 26-Aug-96 20:22:00-GMT,4423;000000000001
  2. Received: (from fdc@localhost) by watsun.cc.columbia.edu (8.7.5/8.7.3) id QAA04898; Mon, 26 Aug 1996 16:21:59 -0400 (EDT)
  3. Date: Mon, 26 Aug 96 16:21:59 EDT
  4. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  5. To: jaltman@columbia.edu
  6. cc: Kai Uwe Rommel <rommel@ars.de>, Joe Doupnik <JRD@cc.usu.edu>,
  7.         John Chandler <JCHBN@CUVMB.CC.COLUMBIA.EDU>
  8. Subject: Re: Info-ZIP and C-Kermit
  9. In-Reply-To: Your message of Mon, 26 Aug 96 10:33:41 EDT
  10. Message-ID: <CMM.0.90.4.841090919.fdc@watsun.cc.columbia.edu>
  11.  
  12. > > I am thinking about a new file transfer technique:  SET FILE TYPE
  13. > > INFOZIP which would first create a ZIP file, transfer it in BINARY
  14. > > mode, and then UNZIP it.  This would take care of the inefficiencies
  15. > > associated with transfering hundreds of small files that fit within one
  16. > > packet.  
  17. > We would certainly approve. The requirements are fairly loose. If you
  18. > use the DLL (by linking it in if it exists or not if not) or call the
  19. > executable as a subprocess, you don't even have to care about
  20. > copyrights. And if you integrate the source code directly, all you
  21. > need to do is to put the proper statements into the docs.
  22. Thanks, Kai Uwe (and hello :-)
  23.  
  24. There are several problems with this scheme, though.  My greatest quibble
  25. with the ZIP approach is that the results are not truly transportable.
  26. If I have a directory containing a mixture of text and binary files, and I
  27. ZIP it, and then I transfer the ZIP file to another computer that uses a
  28. different text-file format, then either the binary files or the text files
  29. will be in the wrong format.
  30.  
  31. Obviously, Kermit has the same problem.  The real solution here is to be able
  32. for the software (ZIP or Kermit) to determine automatically, for each file,
  33. whether it is text or binary.  But in most common settings, that would be
  34. impossible -- DOS, Windows, UNIX, etc.  VMS lets us do this by inspecting the
  35. record format (but even then, we are sometimes fooled -- e.g. VMS ZIP files
  36. have a text-type record format, Stream_LF).
  37.  
  38. In DOS and Windows, I suppose we could go by filetype (e.g. ".TXT" is text),
  39. but of course it is not reliable.  In UNIX we don't even *have* filetypes.
  40. We do have the "file" program in UNIX, but it guesses wrong more often than
  41. not.
  42.  
  43. So I am not sure that having Kermit use ZIP format at the presentation layer
  44. is a good idea.  As for solving the other problem -- transferring a large
  45. number of tiny files -- we already have a way to do this.  The challenge is
  46. to make it work more efficiently.  The barrier to that challenge is the
  47. Attribute refusal mechanism.
  48.  
  49. In the current scheme, we use sliding windows only during the data phase.
  50. Now consider a wildcard transfer, with many files.  If we were to allow
  51. sliding windows during *all* phases of the transfer, then the sender might
  52. have sent up to 32 packets of file data (potentially up to 9K each) before
  53. receiving the attribute refusal.  This is far LESS efficient that turning off
  54. windowing during the filename-attribute phase.
  55.  
  56. When transferring between LIKE systems, ZIPping is a good way to solve this
  57. problem, but otherwise it is likely to introduce more problems (corrupted
  58. files) than it solves.
  59.  
  60. > > Also, Frank and I have always been troubled by the problems associated
  61. > > with transfering directory trees from DOS/Unix to VMS since the
  62. > > directory structures are so completely incompatible.  How does Info-ZIP
  63. > > handle the recreation of directory trees between these systems?  
  64. > Transparently. The / separators in archives are treated as "canonical"
  65. > and are translated into the local separators of the actual OS, such as
  66. > \ on DOS or OS/2, / on Unix and [.] on VMS.
  67. I suppose we could do this too.  In VMS C-Kermit, we could offer a "UNIX" mode
  68. for filenames and paths -- incoming and outgoing.  Ditto for Windows and OS/2,
  69. where it's easy.  So much for the presentation layer.  We already support
  70. automatic directory creation, so then it is simply a matter of adding the
  71. ability to "recurse" to our filename expanders.
  72.  
  73. I'm not sure that this is the right way to solve the problem, because it
  74. assumes that every other file system in the world can map to the UNIX file
  75. system (a structural issue), and on a more simplicistic level, that directory
  76. names can never contain slashes (or if they can, then we must introduce a new
  77. kind of quoting rule for pathnames).
  78.  
  79. Anyway, this is all stuff for the distant future, not for now.
  80.  
  81. - Frank
  82.  
  83. 27-Aug-96 14:33:19-GMT,2733;000000000001
  84. Received: from ars.de (firewall.ars.de [194.97.120.113]) by watsun.cc.columbia.edu (8.7.5/8.7.3) with SMTP id KAA12640 for <fdc@WATSUN.CC.COLUMBIA.EDU>; Tue, 27 Aug 1996 10:33:16 -0400 (EDT)
  85. Received: from jonas.ars.de by ars.de (IBM OS/2 SENDMAIL VERSION 1.3.17/3.0ars)
  86.       id AA0160; Tue, 27 Aug 96 16:32:34 +0200
  87. Received: by internal-host.ars.de (IBM OS/2 SENDMAIL VERSION 1.3.17/3.0ars)
  88.       id AA0489; Tue, 27 Aug 96 16:31:00 +0200
  89. Message-Id: <9608271431.AA0489@internal-host.ars.de>
  90. Date: Tue, 27 Aug 96 16:30:59 +0100
  91. From: Kai Uwe Rommel <rommel@ars.de>
  92. Subject: Re: Info-ZIP and C-Kermit
  93. To: Zip-Bugs@LISTS.WKU.EDU, fdc@WATSUN.CC.COLUMBIA.EDU
  94. In-Reply-To: <CMM.0.90.4.841090919.fdc@watsun.cc.columbia.edu> from "Frank da Cruz" at Aug 26 96 4:21 pm
  95. X-Mailer: ELM [version 2.3 PL11] for OS/2
  96.  
  97. You (Frank da Cruz) wrote:
  98. > Thanks, Kai Uwe (and hello :-)
  99.  
  100. Hi!
  101.  
  102. > There are several problems with this scheme, though.  My greatest quibble
  103. > with the ZIP approach is that the results are not truly transportable.
  104. > If I have a directory containing a mixture of text and binary files, and I
  105. > ZIP it, and then I transfer the ZIP file to another computer that uses a
  106. > different text-file format, then either the binary files or the text files
  107. > will be in the wrong format.
  108. > Obviously, Kermit has the same problem.  The real solution here is to be able
  109. > for the software (ZIP or Kermit) to determine automatically, for each file,
  110. > whether it is text or binary.  But in most common settings, that would be
  111. > impossible -- DOS, Windows, UNIX, etc.  VMS lets us do this by inspecting the
  112. > record format (but even then, we are sometimes fooled -- e.g. VMS ZIP files
  113. > have a text-type record format, Stream_LF).
  114.  
  115. My personal opinion is: DON'T DO text mode transmissin/conversion.
  116. Leave everything as is. Those who have to transfer texts between
  117. systems with different representations of text files know how to deal
  118. with that "problem".
  119.  
  120. > In DOS and Windows, I suppose we could go by filetype (e.g. ".TXT" is text),
  121. > but of course it is not reliable.  
  122.  
  123. For example, german versions of Microsoft Word 5 used the extension
  124. .TXT instead of .DOC for their (binary) document files.
  125.  
  126. > When transferring between LIKE systems, ZIPping is a good way to solve this
  127. > problem, but otherwise it is likely to introduce more problems (corrupted
  128. > files) than it solves.
  129.  
  130. I agree.
  131.  
  132. Kai Uwe
  133.  
  134. --
  135. /* Kai Uwe Rommel      ARS Computer & Consulting GmbH, Muenchen, Germany *
  136.  * rommel@ars.de             CompuServe 100265,2651, Fax +49 89 324 4524 *
  137.  * rommel@leo.org (ftp://ftp.leo.org/pub/comp/os/os2 maintenance)        */
  138.  
  139. DOS ... is still a real mode only non-reentrant interrupt
  140. handler, and always will be.                -Russell Williams
  141.  
  142. 27-Aug-96 18:25:10-GMT,3759;000000000011
  143. Received: from haven.uchicago.edu (haven.uchicago.edu [128.135.12.3]) by watsun.cc.columbia.edu (8.7.5/8.7.3) with ESMTP id OAA25239 for <fdc@watsun.cc.columbia.edu>; Tue, 27 Aug 1996 14:25:08 -0400 (EDT)
  144. Received: from ellis.uchicago.edu (roe2@ellis.uchicago.edu [128.135.12.62]) by haven.uchicago.edu (8.7.5/8.7.3) with ESMTP id NAA26159; Tue, 27 Aug 1996 13:24:12 -0500 (CDT)
  145. Received: (from roe2@localhost) by ellis.uchicago.edu (8.7.1/8.7.2) id NAA06405; Tue, 27 Aug 1996 13:26:17 -0500 (CDT)
  146. Date: Tue, 27 Aug 1996 13:26:17 -0500 (CDT)
  147. From: Cave Newt <roe2@midway.uchicago.edu>
  148. Message-Id: <199608271826.NAA06405@ellis.uchicago.edu>
  149. To: Zip-Bugs@LISTS.WKU.EDU, fdc@watsun.cc.columbia.edu, jaltman@columbia.edu
  150. Subject: Re: Info-ZIP and C-Kermit
  151. Cc: JCHBN@CUVMB.CC.COLUMBIA.EDU, JRD@cc.usu.edu
  152.  
  153. > Thanks, Kai Uwe (and hello :-)
  154.  
  155. Hi (and hi to Joe--we had e-mail years ago, but I don't remember what about),
  156.  
  157. > There are several problems with this scheme, though.  My greatest quibble
  158. > with the ZIP approach is that the results are not truly transportable.
  159. > If I have a directory containing a mixture of text and binary files, and I
  160. > ZIP it, and then I transfer the ZIP file to another computer that uses a
  161. > different text-file format, then either the binary files or the text files
  162. > will be in the wrong format.
  163.  
  164. Not so.  As long as you can specify accurately which is which, UnZip can
  165. do translations on the fly.  (Of course, since I currently have Kermit
  166. pegged as the world's second most portable program and UnZip as third,
  167. I'm assuming you have a few ports that we don't, and those could be a
  168. problem.)
  169.  
  170. Note that Zip currently *tries* to identify text vs. binary, but it fails
  171. every now and then (especially on Windoze DLLs--it's only about 70% accurate
  172. there, vs. maybe 97% on most files--at least for me).  If you choose to make
  173. use of Info-ZIP code directly, that's one area where you'd want to modify
  174. the existing code.
  175.  
  176. > VMS lets us do this by inspecting the
  177. > record format (but even then, we are sometimes fooled -- e.g. VMS ZIP files
  178. > have a text-type record format, Stream_LF).
  179.  
  180. Hmm, I thought we had switched to fixed-512 for zipfiles.  In any case,
  181. stream-anything is pretty rare in VMS and could be treated the same way
  182. as DOS or Unix.
  183.  
  184. > We do have the "file" program in UNIX, but it guesses wrong more often than
  185. > not.
  186.  
  187. Depends on which version you're using...  Darwin's is pretty good (if I
  188. do say so myself :-) ).
  189.  
  190. > When transferring between LIKE systems, ZIPping is a good way to solve this
  191. > problem, but otherwise it is likely to introduce more problems (corrupted
  192. > files) than it solves.
  193.  
  194. Erm...well, nothing personal, but Kermit's "assume it's text unless told
  195. otherwise" behavior has introduced plenty of problems and corrupted files
  196. itself...
  197.  
  198. > I'm not sure that this is the right way to solve the problem, because it
  199. > assumes that every other file system in the world can map to the UNIX file
  200. > system (a structural issue), and on a more simplicistic level, that directory
  201. > names can never contain slashes (or if they can, then we must introduce a new
  202. > kind of quoting rule for pathnames).
  203.  
  204. So far, the Unix filesystem is *the* most encompassing of any we've 
  205. encountered.  The / issue does come up on Acorn RISC OS, but one could
  206. flag those filenames specially and swap with dots (which are what they
  207. use for directory separators).  The real problem comes when you move a
  208. rich directory system to a lousy (DOS) or non-existent (TOPS-20) one
  209. and have to deal with all sorts of translations, truncations and name-
  210. collisions.  One way or the other, user input is necessary then.
  211.  
  212. --
  213. Greg Roelofs              "Name an animal that's small and fuzzy."  "Mold."
  214. newt@pobox.com     or     http://pobox.com/~newt/
  215.  
  216. 27-Aug-96 18:44:18-GMT,1418;000000000011
  217. Received: from GRUMPY.USU.EDU (grumpy.usu.edu [129.123.1.86]) by watsun.cc.columbia.edu (8.7.5/8.7.3) with ESMTP id OAA02418 for <FDC@WATSUN.CC.COLUMBIA.EDU>; Tue, 27 Aug 1996 14:44:17 -0400 (EDT)
  218. Received: from cc.usu.edu by cc.usu.edu (PMDF V5.0-5 #11556)
  219.  id <01I8RR0YMB0WCE2FIO@cc.usu.edu>; Tue, 27 Aug 1996 12:43:37 -0600 (MDT)
  220. Date: Tue, 27 Aug 1996 12:43:37 -0600 (MDT)
  221. From: Joe Doupnik <JRD@cc.usu.edu>
  222. Subject: Re: Info-ZIP and C-Kermit
  223. To: ROE2@MIDWAY.UCHICAGO.EDU
  224. Cc: ZIP-BUGS@LISTS.WKU.EDU, FDC@WATSUN.CC.COLUMBIA.EDU,
  225.         JCHBN@CUVMB.CC.COLUMBIA.EDU
  226. Message-id: <01I8RR0YMESICE2FIO@cc.usu.edu>
  227. X-VMS-To: ROE2@MIDWAY.UCHICAGO.EDU
  228. X-VMS-Cc: 
  229.  ZIP-BUGS@LISTS.WKU.EDU,FDC@WATSUN.CC.COLUMBIA.EDU,JCHBN@CUVMB.CC.COLUMBIA.EDU,JRD
  230. MIME-version: 1.0
  231. Content-type: TEXT/PLAIN; CHARSET=US-ASCII
  232. Content-transfer-encoding: 7BIT
  233.  
  234.     Well, by everyone's admission filenames alone are insufficient to 
  235. distinguish binary from text files. Looking at the first N bytes (whether
  236. two for MZ or 512) is insufficient also (lines don't have to break at 80
  237. columns). On machines with rich attributes those attributes are insufficient.
  238. In short, what's text and what's binary is "in the eyes of the beholder",
  239. and a particular beholder isn't predictable (or fixed) in advance.
  240.     The conclusion is glaringly obvious, isn't it. People must choose 
  241. because machines cannot. And that, I believe, is the end of this story.
  242.     Joe D.
  243.  
  244. 27-Aug-96 18:54:37-GMT,4069;000000000000
  245. Received: (from fdc@localhost) by watsun.cc.columbia.edu (8.7.5/8.7.3) id OAA03531; Tue, 27 Aug 1996 14:50:13 -0400 (EDT)
  246. Date: Tue, 27 Aug 96 14:50:12 EDT
  247. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  248. To: Cave Newt <roe2@midway.uchicago.edu>
  249. Cc: Zip-Bugs@LISTS.WKU.EDU, jaltman@columbia.edu, JCHBN@CUVMB.CC.COLUMBIA.EDU,
  250.         JRD@cc.usu.edu
  251. Subject: Re: Info-ZIP and C-Kermit
  252. In-Reply-To: Your message of Tue, 27 Aug 1996 13:26:17 -0500 (CDT)
  253. Message-ID: <CMM.0.90.4.841171812.fdc@watsun.cc.columbia.edu>
  254.  
  255. > Not so.  As long as you can specify accurately which is which, UnZip can
  256. > do translations on the fly.  (Of course, since I currently have Kermit
  257. > pegged as the world's second most portable program and UnZip as third,
  258. > I'm assuming you have a few ports that we don't, and those could be a
  259. > problem.)
  260. > Note that Zip currently *tries* to identify text vs. binary, but it fails
  261. > every now and then (especially on Windoze DLLs--it's only about 70% accurate
  262. > there, vs. maybe 97% on most files--at least for me).  If you choose to make
  263. > use of Info-ZIP code directly, that's one area where you'd want to modify
  264. > the existing code.
  265. But even if it tries (and misses sometimes) in the DOS/Windows environment,
  266. what about UNIX, OS-9, QNX, AOS/VS, VOS, VM/CMS, MVS/TSO, CICS, RT-11, ... ?
  267. There is no way on earth to embody all that knowledge in one piece of
  268. software.  And then add in the fact that you might be looking at foreign
  269. files rather than domestic ones.  It's hopeless with any degree of reliability.
  270.  
  271. (In the latest version of C-Kermit, we let the user build lists of files to
  272. be transferred -- the list can be any length at all, and each member of the
  273. list can be tagged as binary or text.)
  274.  
  275. > > When transferring between LIKE systems, ZIPping is a good way to solve this
  276. > > problem, but otherwise it is likely to introduce more problems (corrupted
  277. > > files) than it solves.
  278. > Erm...well, nothing personal, but Kermit's "assume it's text unless told
  279. > otherwise" behavior has introduced plenty of problems and corrupted files
  280. > itself...
  281. Exactly the point -- if you assume text, you corrupt the binary files; if you
  282. assume binary, you corrupt the text files.  Kermit 95, by the way, uses binary
  283. by default, since most Windows users are transferring only ZIP, GIF, or JPG
  284. files.  But the real issue is what to do about a mixture of file types.
  285.  
  286. Many people say it is better to just always transfer in binary mode, because
  287. at least then you don't corrupt the binary files (ZIP, GIF, tar.gz, etc), and
  288. even though you do corrupt the text files, the corruption is recoverable by
  289. knowledgeable people.  I don't share that point of view, however, because (a)
  290. an ever-increasing percentage of computer users are *not* knowledgeable, and
  291. (b) text-file transfer converts not only the record format, but also the
  292. character-sets, a consideration that most English speakers (or non-users of
  293. IBM mainframes) tend to overlook.
  294.  
  295. > So far, the Unix filesystem is *the* most encompassing of any we've 
  296. > encountered.  The / issue does come up on Acorn RISC OS, but one could
  297. > flag those filenames specially and swap with dots (which are what they
  298. > use for directory separators).  The real problem comes when you move a
  299. > rich directory system to a lousy (DOS) or non-existent (TOPS-20) one
  300. >
  301. Hey!  TOPS-20 was just like VMS.  Nonexistent would be HP-1000 or OS/360 :-)
  302. (although granted, TOPS-20 does not exist *now* except in Mark Crispin's
  303. basement...)
  304.  
  305. > and have to deal with all sorts of translations, truncations and name-
  306. > collisions.  One way or the other, user input is necessary then.
  307. Right.  That's why this is such a hard problem -- and why we've been putting
  308. it off for so long :-)
  309.  
  310. Maybe the UNIX model is adequate in the sense it is a superset of all others,
  311. but I haven't done a broad enough study to reach that conclusion yet.  For
  312. example, are there other kinds of directory organizations that are more
  313. complex than a simple tree?  Certainly there are file organizations that are
  314. WAY more complex than a stream.
  315.  
  316. - Frank
  317.  
  318. 27-Aug-96 19:01:41-GMT,2345;000000000001
  319. Received: (from fdc@localhost) by watsun.cc.columbia.edu (8.7.5/8.7.3) id PAA07527; Tue, 27 Aug 1996 15:00:52 -0400 (EDT)
  320. Date: Tue, 27 Aug 96 15:00:52 EDT
  321. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  322. To: Joe Doupnik <JRD@cc.usu.edu>
  323. Cc: ROE2@MIDWAY.UCHICAGO.EDU, ZIP-BUGS@LISTS.WKU.EDU,
  324.         JCHBN@CUVMB.CC.COLUMBIA.EDU
  325. Subject: Re: Info-ZIP and C-Kermit
  326. In-Reply-To: Your message of Tue, 27 Aug 1996 12:43:37 -0600 (MDT)
  327. Message-ID: <CMM.0.90.4.841172452.fdc@watsun.cc.columbia.edu>
  328.  
  329. >     Well, by everyone's admission filenames alone are insufficient to 
  330. > distinguish binary from text files. Looking at the first N bytes (whether
  331. > two for MZ or 512) is insufficient also (lines don't have to break at 80
  332. > columns). On machines with rich attributes those attributes are insufficient.
  333. > In short, what's text and what's binary is "in the eyes of the beholder",
  334. > and a particular beholder isn't predictable (or fixed) in advance.
  335. >     The conclusion is glaringly obvious, isn't it. People must choose 
  336. > because machines cannot. And that, I believe, is the end of this story.
  337. Absolutely, at least for most operating systems.  Personally, I think it would
  338. be interesting to design a new file system in which files could be tagged as
  339. text or binary -- by the application that created them, and also (as an
  340. override) by their (human) owners.  When files were text, I think it would
  341. also be a great boon to humankind if they could be tagged as to the character
  342. set of encoding.  To my knowledge, no file system has ever provided such a
  343. service in the file system itself.  "Binary" would mean, simply, that if the
  344. file is to be transferred to another computer, no conversions should be done.
  345. Conversely, "text" would mean that record-format and character-set conversions
  346. should be done.
  347.  
  348. To reinforce Joe's point about inspection: a long time ago, somebody wrote a
  349. Kermit program that decided if a file was text or binary based on whether it
  350. contained any bytes with the 8th bit turned on.  Sombody else checked for lots
  351. control characters.  None of this works when a text file is Latin-1, CP850,
  352. UNICODE, Hebrew, Russian, Japanese, etc.  On the other hand, I have seen Intel
  353. executables composed of only printable ASCII characters.  (We have one in the
  354. Kermit archives somewhere but I can't put my finger on it at the moment...)
  355.  
  356. - Frank
  357.  
  358. 27-Aug-96 14:33:19-GMT,2733;000000000001
  359. Received: from ars.de (firewall.ars.de [194.97.120.113]) by watsun.cc.columbia.edu (8.7.5/8.7.3) with SMTP id KAA12640 for <fdc@WATSUN.CC.COLUMBIA.EDU>; Tue, 27 Aug 1996 10:33:16 -0400 (EDT)
  360. Received: from jonas.ars.de by ars.de (IBM OS/2 SENDMAIL VERSION 1.3.17/3.0ars)
  361.       id AA0160; Tue, 27 Aug 96 16:32:34 +0200
  362. Received: by internal-host.ars.de (IBM OS/2 SENDMAIL VERSION 1.3.17/3.0ars)
  363.       id AA0489; Tue, 27 Aug 96 16:31:00 +0200
  364. Message-Id: <9608271431.AA0489@internal-host.ars.de>
  365. Date: Tue, 27 Aug 96 16:30:59 +0100
  366. From: Kai Uwe Rommel <rommel@ars.de>
  367. Subject: Re: Info-ZIP and C-Kermit
  368. To: Zip-Bugs@LISTS.WKU.EDU, fdc@WATSUN.CC.COLUMBIA.EDU
  369. In-Reply-To: <CMM.0.90.4.841090919.fdc@watsun.cc.columbia.edu> from "Frank da Cruz" at Aug 26 96 4:21 pm
  370. X-Mailer: ELM [version 2.3 PL11] for OS/2
  371.  
  372. You (Frank da Cruz) wrote:
  373. > Thanks, Kai Uwe (and hello :-)
  374.  
  375. Hi!
  376.  
  377. > There are several problems with this scheme, though.  My greatest quibble
  378. > with the ZIP approach is that the results are not truly transportable.
  379. > If I have a directory containing a mixture of text and binary files, and I
  380. > ZIP it, and then I transfer the ZIP file to another computer that uses a
  381. > different text-file format, then either the binary files or the text files
  382. > will be in the wrong format.
  383. > Obviously, Kermit has the same problem.  The real solution here is to be able
  384. > for the software (ZIP or Kermit) to determine automatically, for each file,
  385. > whether it is text or binary.  But in most common settings, that would be
  386. > impossible -- DOS, Windows, UNIX, etc.  VMS lets us do this by inspecting the
  387. > record format (but even then, we are sometimes fooled -- e.g. VMS ZIP files
  388. > have a text-type record format, Stream_LF).
  389.  
  390. My personal opinion is: DON'T DO text mode transmissin/conversion.
  391. Leave everything as is. Those who have to transfer texts between
  392. systems with different representations of text files know how to deal
  393. with that "problem".
  394.  
  395. > In DOS and Windows, I suppose we could go by filetype (e.g. ".TXT" is text),
  396. > but of course it is not reliable.  
  397.  
  398. For example, german versions of Microsoft Word 5 used the extension
  399. .TXT instead of .DOC for their (binary) document files.
  400.  
  401. > When transferring between LIKE systems, ZIPping is a good way to solve this
  402. > problem, but otherwise it is likely to introduce more problems (corrupted
  403. > files) than it solves.
  404.  
  405. I agree.
  406.  
  407. Kai Uwe
  408.  
  409. --
  410. /* Kai Uwe Rommel      ARS Computer & Consulting GmbH, Muenchen, Germany *
  411.  * rommel@ars.de             CompuServe 100265,2651, Fax +49 89 324 4524 *
  412.  * rommel@leo.org (ftp://ftp.leo.org/pub/comp/os/os2 maintenance)        */
  413.  
  414. DOS ... is still a real mode only non-reentrant interrupt
  415. handler, and always will be.                -Russell Williams
  416.  
  417. 27-Aug-96 18:25:10-GMT,3759;000000000011
  418. Received: from haven.uchicago.edu (haven.uchicago.edu [128.135.12.3]) by watsun.cc.columbia.edu (8.7.5/8.7.3) with ESMTP id OAA25239 for <fdc@watsun.cc.columbia.edu>; Tue, 27 Aug 1996 14:25:08 -0400 (EDT)
  419. Received: from ellis.uchicago.edu (roe2@ellis.uchicago.edu [128.135.12.62]) by haven.uchicago.edu (8.7.5/8.7.3) with ESMTP id NAA26159; Tue, 27 Aug 1996 13:24:12 -0500 (CDT)
  420. Received: (from roe2@localhost) by ellis.uchicago.edu (8.7.1/8.7.2) id NAA06405; Tue, 27 Aug 1996 13:26:17 -0500 (CDT)
  421. Date: Tue, 27 Aug 1996 13:26:17 -0500 (CDT)
  422. From: Cave Newt <roe2@midway.uchicago.edu>
  423. Message-Id: <199608271826.NAA06405@ellis.uchicago.edu>
  424. To: Zip-Bugs@LISTS.WKU.EDU, fdc@watsun.cc.columbia.edu, jaltman@columbia.edu
  425. Subject: Re: Info-ZIP and C-Kermit
  426. Cc: JCHBN@CUVMB.CC.COLUMBIA.EDU, JRD@cc.usu.edu
  427.  
  428. > Thanks, Kai Uwe (and hello :-)
  429.  
  430. Hi (and hi to Joe--we had e-mail years ago, but I don't remember what about),
  431.  
  432. > There are several problems with this scheme, though.  My greatest quibble
  433. > with the ZIP approach is that the results are not truly transportable.
  434. > If I have a directory containing a mixture of text and binary files, and I
  435. > ZIP it, and then I transfer the ZIP file to another computer that uses a
  436. > different text-file format, then either the binary files or the text files
  437. > will be in the wrong format.
  438.  
  439. Not so.  As long as you can specify accurately which is which, UnZip can
  440. do translations on the fly.  (Of course, since I currently have Kermit
  441. pegged as the world's second most portable program and UnZip as third,
  442. I'm assuming you have a few ports that we don't, and those could be a
  443. problem.)
  444.  
  445. Note that Zip currently *tries* to identify text vs. binary, but it fails
  446. every now and then (especially on Windoze DLLs--it's only about 70% accurate
  447. there, vs. maybe 97% on most files--at least for me).  If you choose to make
  448. use of Info-ZIP code directly, that's one area where you'd want to modify
  449. the existing code.
  450.  
  451. > VMS lets us do this by inspecting the
  452. > record format (but even then, we are sometimes fooled -- e.g. VMS ZIP files
  453. > have a text-type record format, Stream_LF).
  454.  
  455. Hmm, I thought we had switched to fixed-512 for zipfiles.  In any case,
  456. stream-anything is pretty rare in VMS and could be treated the same way
  457. as DOS or Unix.
  458.  
  459. > We do have the "file" program in UNIX, but it guesses wrong more often than
  460. > not.
  461.  
  462. Depends on which version you're using...  Darwin's is pretty good (if I
  463. do say so myself :-) ).
  464.  
  465. > When transferring between LIKE systems, ZIPping is a good way to solve this
  466. > problem, but otherwise it is likely to introduce more problems (corrupted
  467. > files) than it solves.
  468.  
  469. Erm...well, nothing personal, but Kermit's "assume it's text unless told
  470. otherwise" behavior has introduced plenty of problems and corrupted files
  471. itself...
  472.  
  473. > I'm not sure that this is the right way to solve the problem, because it
  474. > assumes that every other file system in the world can map to the UNIX file
  475. > system (a structural issue), and on a more simplicistic level, that directory
  476. > names can never contain slashes (or if they can, then we must introduce a new
  477. > kind of quoting rule for pathnames).
  478.  
  479. So far, the Unix filesystem is *the* most encompassing of any we've 
  480. encountered.  The / issue does come up on Acorn RISC OS, but one could
  481. flag those filenames specially and swap with dots (which are what they
  482. use for directory separators).  The real problem comes when you move a
  483. rich directory system to a lousy (DOS) or non-existent (TOPS-20) one
  484. and have to deal with all sorts of translations, truncations and name-
  485. collisions.  One way or the other, user input is necessary then.
  486.  
  487. --
  488. Greg Roelofs              "Name an animal that's small and fuzzy."  "Mold."
  489. newt@pobox.com     or     http://pobox.com/~newt/
  490.  
  491. 27-Aug-96 18:44:18-GMT,1418;000000000011
  492. Received: from GRUMPY.USU.EDU (grumpy.usu.edu [129.123.1.86]) by watsun.cc.columbia.edu (8.7.5/8.7.3) with ESMTP id OAA02418 for <FDC@WATSUN.CC.COLUMBIA.EDU>; Tue, 27 Aug 1996 14:44:17 -0400 (EDT)
  493. Received: from cc.usu.edu by cc.usu.edu (PMDF V5.0-5 #11556)
  494.  id <01I8RR0YMB0WCE2FIO@cc.usu.edu>; Tue, 27 Aug 1996 12:43:37 -0600 (MDT)
  495. Date: Tue, 27 Aug 1996 12:43:37 -0600 (MDT)
  496. From: Joe Doupnik <JRD@cc.usu.edu>
  497. Subject: Re: Info-ZIP and C-Kermit
  498. To: ROE2@MIDWAY.UCHICAGO.EDU
  499. Cc: ZIP-BUGS@LISTS.WKU.EDU, FDC@WATSUN.CC.COLUMBIA.EDU,
  500.         JCHBN@CUVMB.CC.COLUMBIA.EDU
  501. Message-id: <01I8RR0YMESICE2FIO@cc.usu.edu>
  502. X-VMS-To: ROE2@MIDWAY.UCHICAGO.EDU
  503. X-VMS-Cc: 
  504.  ZIP-BUGS@LISTS.WKU.EDU,FDC@WATSUN.CC.COLUMBIA.EDU,JCHBN@CUVMB.CC.COLUMBIA.EDU,JRD
  505. MIME-version: 1.0
  506. Content-type: TEXT/PLAIN; CHARSET=US-ASCII
  507. Content-transfer-encoding: 7BIT
  508.  
  509.     Well, by everyone's admission filenames alone are insufficient to 
  510. distinguish binary from text files. Looking at the first N bytes (whether
  511. two for MZ or 512) is insufficient also (lines don't have to break at 80
  512. columns). On machines with rich attributes those attributes are insufficient.
  513. In short, what's text and what's binary is "in the eyes of the beholder",
  514. and a particular beholder isn't predictable (or fixed) in advance.
  515.     The conclusion is glaringly obvious, isn't it. People must choose 
  516. because machines cannot. And that, I believe, is the end of this story.
  517.     Joe D.
  518.  
  519. 27-Aug-96 18:54:37-GMT,4069;000000000001
  520. Received: (from fdc@localhost) by watsun.cc.columbia.edu (8.7.5/8.7.3) id OAA03531; Tue, 27 Aug 1996 14:50:13 -0400 (EDT)
  521. Date: Tue, 27 Aug 96 14:50:12 EDT
  522. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  523. To: Cave Newt <roe2@midway.uchicago.edu>
  524. Cc: Zip-Bugs@LISTS.WKU.EDU, jaltman@columbia.edu, JCHBN@CUVMB.CC.COLUMBIA.EDU,
  525.         JRD@cc.usu.edu
  526. Subject: Re: Info-ZIP and C-Kermit
  527. In-Reply-To: Your message of Tue, 27 Aug 1996 13:26:17 -0500 (CDT)
  528. Message-ID: <CMM.0.90.4.841171812.fdc@watsun.cc.columbia.edu>
  529.  
  530. > Not so.  As long as you can specify accurately which is which, UnZip can
  531. > do translations on the fly.  (Of course, since I currently have Kermit
  532. > pegged as the world's second most portable program and UnZip as third,
  533. > I'm assuming you have a few ports that we don't, and those could be a
  534. > problem.)
  535. > Note that Zip currently *tries* to identify text vs. binary, but it fails
  536. > every now and then (especially on Windoze DLLs--it's only about 70% accurate
  537. > there, vs. maybe 97% on most files--at least for me).  If you choose to make
  538. > use of Info-ZIP code directly, that's one area where you'd want to modify
  539. > the existing code.
  540. But even if it tries (and misses sometimes) in the DOS/Windows environment,
  541. what about UNIX, OS-9, QNX, AOS/VS, VOS, VM/CMS, MVS/TSO, CICS, RT-11, ... ?
  542. There is no way on earth to embody all that knowledge in one piece of
  543. software.  And then add in the fact that you might be looking at foreign
  544. files rather than domestic ones.  It's hopeless with any degree of reliability.
  545.  
  546. (In the latest version of C-Kermit, we let the user build lists of files to
  547. be transferred -- the list can be any length at all, and each member of the
  548. list can be tagged as binary or text.)
  549.  
  550. > > When transferring between LIKE systems, ZIPping is a good way to solve this
  551. > > problem, but otherwise it is likely to introduce more problems (corrupted
  552. > > files) than it solves.
  553. > Erm...well, nothing personal, but Kermit's "assume it's text unless told
  554. > otherwise" behavior has introduced plenty of problems and corrupted files
  555. > itself...
  556. Exactly the point -- if you assume text, you corrupt the binary files; if you
  557. assume binary, you corrupt the text files.  Kermit 95, by the way, uses binary
  558. by default, since most Windows users are transferring only ZIP, GIF, or JPG
  559. files.  But the real issue is what to do about a mixture of file types.
  560.  
  561. Many people say it is better to just always transfer in binary mode, because
  562. at least then you don't corrupt the binary files (ZIP, GIF, tar.gz, etc), and
  563. even though you do corrupt the text files, the corruption is recoverable by
  564. knowledgeable people.  I don't share that point of view, however, because (a)
  565. an ever-increasing percentage of computer users are *not* knowledgeable, and
  566. (b) text-file transfer converts not only the record format, but also the
  567. character-sets, a consideration that most English speakers (or non-users of
  568. IBM mainframes) tend to overlook.
  569.  
  570. > So far, the Unix filesystem is *the* most encompassing of any we've 
  571. > encountered.  The / issue does come up on Acorn RISC OS, but one could
  572. > flag those filenames specially and swap with dots (which are what they
  573. > use for directory separators).  The real problem comes when you move a
  574. > rich directory system to a lousy (DOS) or non-existent (TOPS-20) one
  575. >
  576. Hey!  TOPS-20 was just like VMS.  Nonexistent would be HP-1000 or OS/360 :-)
  577. (although granted, TOPS-20 does not exist *now* except in Mark Crispin's
  578. basement...)
  579.  
  580. > and have to deal with all sorts of translations, truncations and name-
  581. > collisions.  One way or the other, user input is necessary then.
  582. Right.  That's why this is such a hard problem -- and why we've been putting
  583. it off for so long :-)
  584.  
  585. Maybe the UNIX model is adequate in the sense it is a superset of all others,
  586. but I haven't done a broad enough study to reach that conclusion yet.  For
  587. example, are there other kinds of directory organizations that are more
  588. complex than a simple tree?  Certainly there are file organizations that are
  589. WAY more complex than a stream.
  590.  
  591. - Frank
  592.  
  593. 27-Aug-96 19:01:41-GMT,2345;000000000001
  594. Received: (from fdc@localhost) by watsun.cc.columbia.edu (8.7.5/8.7.3) id PAA07527; Tue, 27 Aug 1996 15:00:52 -0400 (EDT)
  595. Date: Tue, 27 Aug 96 15:00:52 EDT
  596. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  597. To: Joe Doupnik <JRD@cc.usu.edu>
  598. Cc: ROE2@MIDWAY.UCHICAGO.EDU, ZIP-BUGS@LISTS.WKU.EDU,
  599.         JCHBN@CUVMB.CC.COLUMBIA.EDU
  600. Subject: Re: Info-ZIP and C-Kermit
  601. In-Reply-To: Your message of Tue, 27 Aug 1996 12:43:37 -0600 (MDT)
  602. Message-ID: <CMM.0.90.4.841172452.fdc@watsun.cc.columbia.edu>
  603.  
  604. >     Well, by everyone's admission filenames alone are insufficient to 
  605. > distinguish binary from text files. Looking at the first N bytes (whether
  606. > two for MZ or 512) is insufficient also (lines don't have to break at 80
  607. > columns). On machines with rich attributes those attributes are insufficient.
  608. > In short, what's text and what's binary is "in the eyes of the beholder",
  609. > and a particular beholder isn't predictable (or fixed) in advance.
  610. >     The conclusion is glaringly obvious, isn't it. People must choose 
  611. > because machines cannot. And that, I believe, is the end of this story.
  612. Absolutely, at least for most operating systems.  Personally, I think it would
  613. be interesting to design a new file system in which files could be tagged as
  614. text or binary -- by the application that created them, and also (as an
  615. override) by their (human) owners.  When files were text, I think it would
  616. also be a great boon to humankind if they could be tagged as to the character
  617. set of encoding.  To my knowledge, no file system has ever provided such a
  618. service in the file system itself.  "Binary" would mean, simply, that if the
  619. file is to be transferred to another computer, no conversions should be done.
  620. Conversely, "text" would mean that record-format and character-set conversions
  621. should be done.
  622.  
  623. To reinforce Joe's point about inspection: a long time ago, somebody wrote a
  624. Kermit program that decided if a file was text or binary based on whether it
  625. contained any bytes with the 8th bit turned on.  Sombody else checked for lots
  626. control characters.  None of this works when a text file is Latin-1, CP850,
  627. UNICODE, Hebrew, Russian, Japanese, etc.  On the other hand, I have seen Intel
  628. executables composed of only printable ASCII characters.  (We have one in the
  629. Kermit archives somewhere but I can't put my finger on it at the moment...)
  630.  
  631. - Frank
  632.  
  633. 27-Aug-96 22:35:23-GMT,3278;000000000011
  634. Received: from haven.uchicago.edu (haven.uchicago.edu [128.135.12.3]) by watsun.cc.columbia.edu (8.7.5/8.7.3) with ESMTP id SAA23564 for <fdc@watsun.cc.columbia.edu>; Tue, 27 Aug 1996 18:35:22 -0400 (EDT)
  635. Received: from ellis.uchicago.edu (roe2@ellis.uchicago.edu [128.135.12.62]) by haven.uchicago.edu (8.7.5/8.7.3) with ESMTP id RAA10648; Tue, 27 Aug 1996 17:29:22 -0500 (CDT)
  636. Received: (from roe2@localhost) by ellis.uchicago.edu (8.7.1/8.7.2) id RAA04577; Tue, 27 Aug 1996 17:31:32 -0500 (CDT)
  637. Date: Tue, 27 Aug 1996 17:31:32 -0500 (CDT)
  638. From: Cave Newt <roe2@midway.uchicago.edu>
  639. Message-Id: <199608272231.RAA04577@ellis.uchicago.edu>
  640. To: JRD@cc.usu.edu, fdc@watsun.cc.columbia.edu
  641. Subject: Re: Info-ZIP and C-Kermit
  642. Cc: JCHBN@CUVMB.CC.COLUMBIA.EDU, zip-bugs@lists.wku.edu
  643.  
  644. [I got interrupted in writing this, and now I see there are other
  645.  messages in the thread, so apologies if there's some duplication.]
  646.  
  647. > Kermit 95, by the way, uses binary
  648. > by default, since most Windows users are transferring only ZIP, GIF, or JPG
  649. > files.
  650.  
  651. Oh, cool.  I'll have to make note of that in our docs.
  652.  
  653. > Many people say it is better to just always transfer in binary mode, because
  654. > at least then you don't corrupt the binary files (ZIP, GIF, tar.gz, etc), and
  655. > even though you do corrupt the text files, the corruption is recoverable by
  656. > knowledgeable people.  I don't share that point of view, however, because (a)
  657. > an ever-increasing percentage of computer users are *not* knowledgeable, and
  658. > (b) text-file transfer converts not only the record format, but also the
  659. > character-sets, a consideration that most English speakers (or non-users of
  660. > IBM mainframes) tend to overlook.
  661.  
  662. I don't consider non-conversion of text files to be "corruption"; it's
  663. simply non-translation (or deferred translation, if you prefer).  On
  664. the contrary, translation from an 8-bit (or more) character set to 7-bit
  665. (or even to another 8-bit set) can introduce irreversible corruption
  666. simply due to the fact that there's no one-to-one mapping from the first
  667. set into the second.  You can never win in that regard; you simply do
  668. your best and hope it's good enough.
  669.  
  670. (Related anecdote:  there's no way for a text-mode utility to do such
  671. translations under Linux since X provides a Latin-1 character set and
  672. Linux virtual consoles [I'm pretty sure] use the IBM PC character set.
  673. One or the other will always be wrong for those using extended/foreign 
  674. characters.)
  675.  
  676. > Hey!  TOPS-20 was just like VMS.
  677.  
  678. Similar, but my understanding is that (1) there's only one level of 
  679. subdirectories, and (2) you have to specify how many files will go 
  680. into it when you create it.  Perhaps I'm mistaken about (1)?  Frank
  681. somebody from WSMR was our source of info on TOPS-20.
  682.  
  683. > (although granted, TOPS-20 does not exist *now* except in Mark Crispin's
  684. > basement...)
  685.  
  686. CompuServe and White Sands both canned theirs?
  687.  
  688. > For example, are there other kinds of directory organizations that are more
  689. > complex than a simple tree?
  690.  
  691. I'm not aware of any (unless you think of VMS indexed-whatever files as
  692. a weird kind of directory system).  There can be extra attributes associated
  693. with directories, but zipfiles (can) store directories as separate entries
  694. with separate "resource forks" of essentially arbitrary size.
  695.  
  696. Greg
  697.  
  698. 27-Aug-96 22:49:14-GMT,1948;000000000001
  699. Received: from haven.uchicago.edu (haven.uchicago.edu [128.135.12.3]) by watsun.cc.columbia.edu (8.7.5/8.7.3) with ESMTP id SAA25251 for <fdc@watsun.cc.columbia.edu>; Tue, 27 Aug 1996 18:49:13 -0400 (EDT)
  700. Received: from ellis.uchicago.edu (roe2@ellis.uchicago.edu [128.135.12.62]) by haven.uchicago.edu (8.7.5/8.7.3) with ESMTP id RAA11228; Tue, 27 Aug 1996 17:46:02 -0500 (CDT)
  701. Received: (from roe2@localhost) by ellis.uchicago.edu (8.7.1/8.7.2) id RAA06017; Tue, 27 Aug 1996 17:46:43 -0500 (CDT)
  702. Date: Tue, 27 Aug 1996 17:46:43 -0500 (CDT)
  703. From: Cave Newt <roe2@midway.uchicago.edu>
  704. Message-Id: <199608272246.RAA06017@ellis.uchicago.edu>
  705. To: JRD@cc.usu.edu, fdc@watsun.cc.columbia.edu
  706. Subject: Re: Info-ZIP and C-Kermit
  707. Cc: JCHBN@CUVMB.CC.COLUMBIA.EDU, zip-bugs@lists.wku.edu
  708.  
  709. > Absolutely, at least for most operating systems.  Personally, I think it would
  710. > be interesting to design a new file system in which files could be tagged as
  711. > text or binary -- by the application that created them, and also (as an
  712. > override) by their (human) owners.  When files were text, I think it would
  713. > also be a great boon to humankind if they could be tagged as to the character
  714. > set of encoding.  To my knowledge, no file system has ever provided such a
  715. > service in the file system itself.  "Binary" would mean, simply, that if the
  716. > file is to be transferred to another computer, no conversions should be done.
  717. > Conversely, "text" would mean that record-format and character-set conversions
  718. > should be done.
  719.  
  720. Amen.  Please feel free to design it, patent it, sell it, whatever it takes.
  721. That would be a dream file system for Zip/UnZip.
  722.  
  723. > On the other hand, I have seen Intel
  724. > executables composed of only printable ASCII characters.  (We have one in the
  725. > Kermit archives somewhere but I can't put my finger on it at the moment...)
  726.  
  727. Uuencode.  It's distributed as part of the c.b.i.p starter kit regularly
  728. (or formerly regularly).  Very cute.
  729.  
  730. Greg
  731.  
  732. 28-Aug-96  5:52:44-GMT,2136;000000000011
  733. Received: from ars.de (firewall.ars.de [194.97.120.113]) by watsun.cc.columbia.edu (8.7.5/8.7.3) with SMTP id BAA26458 for <fdc@WATSUN.CC.COLUMBIA.EDU>; Wed, 28 Aug 1996 01:52:43 -0400 (EDT)
  734. Received: from jonas.ars.de by ars.de (IBM OS/2 SENDMAIL VERSION 1.3.17/3.0ars)
  735.       id AA0151; Wed, 28 Aug 96 07:51:07 +0200
  736. Received: by internal-host.ars.de (IBM OS/2 SENDMAIL VERSION 1.3.17/3.0ars)
  737.       id AA1296; Wed, 28 Aug 96 07:51:05 +0200
  738. Message-Id: <9608280551.AA1296@internal-host.ars.de>
  739. Date: Wed, 28 Aug 96 7:51:04 +0100
  740. From: Kai Uwe Rommel <rommel@ars.de>
  741. Subject: Re: Info-ZIP and C-Kermit
  742. To: fdc@WATSUN.CC.COLUMBIA.EDU
  743. Cc: roe2@midway.uchicago.edu, Zip-Bugs@LISTS.WKU.EDU, jaltman@columbia.edu,
  744.         JCHBN@CUVMB.CC.COLUMBIA.EDU, JRD@cc.usu.edu
  745. In-Reply-To: <CMM.0.90.4.841171812.fdc@watsun.cc.columbia.edu> from "Frank da Cruz" at Aug 27 96 2:50 pm
  746. X-Mailer: ELM [version 2.3 PL11] for OS/2
  747.  
  748. You (Frank da Cruz) wrote:
  749. > > > When transferring between LIKE systems, ZIPping is a good way to solve this
  750. > > > problem, but otherwise it is likely to introduce more problems (corrupted
  751. > > > files) than it solves.
  752. > > 
  753. > > Erm...well, nothing personal, but Kermit's "assume it's text unless told
  754. > > otherwise" behavior has introduced plenty of problems and corrupted files
  755. > > itself...
  756. > > 
  757. > Exactly the point -- if you assume text, you corrupt the binary files; if you
  758. > assume binary, you corrupt the text files.  
  759.  
  760. I beg to differ. If you assume binary, you do _not_ corrupt the text
  761. files. You just don't convert them, leaving this extra step to the
  762. user (and extra tools).
  763.  
  764. > Kermit 95, by the way, uses binary
  765. > by default, since most Windows users are transferring only ZIP, GIF, or JPG
  766. > files.
  767.  
  768. I would vote for making binary the default for ALL platforms.
  769.  
  770. Kai Uwe
  771.  
  772. --
  773. /* Kai Uwe Rommel      ARS Computer & Consulting GmbH, Muenchen, Germany *
  774.  * rommel@ars.de             CompuServe 100265,2651, Fax +49 89 324 4524 *
  775.  * rommel@leo.org (ftp://ftp.leo.org/pub/comp/os/os2 maintenance)        */
  776.  
  777. DOS ... is still a real mode only non-reentrant interrupt
  778. handler, and always will be.                -Russell Williams
  779.  
  780. 28-Aug-96 15:46:31-GMT,1886;000000000001
  781. Received: (from fdc@localhost) by watsun.cc.columbia.edu (8.7.5/8.7.3) id LAA15123; Wed, 28 Aug 1996 11:46:00 -0400 (EDT)
  782. Date: Wed, 28 Aug 96 11:46:00 EDT
  783. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  784. To: Kai Uwe Rommel <rommel@ars.de>
  785. Cc: roe2@midway.uchicago.edu, Zip-Bugs@LISTS.WKU.EDU, jaltman@columbia.edu,
  786.         JCHBN@CUVMB.CC.COLUMBIA.EDU, JRD@cc.usu.edu
  787. Subject: Re: Info-ZIP and C-Kermit
  788. In-Reply-To: Your message of Wed, 28 Aug 96 7:51:04 +0100
  789. Message-ID: <CMM.0.90.4.841247160.fdc@watsun.cc.columbia.edu>
  790.  
  791. > I would vote for making binary the default for ALL platforms.
  792. Surely not IBM mainframes?  :-)
  793.  
  794. Seriously, this has been proposed many times, and it makes more sense now
  795. than before.  But in our limited experience with Kermit 95's new binary-mode
  796. default, we are seeing new problems.  A common example is when people export
  797. application (word processor, spreadsheet, database) files for transfer, and
  798. then can't import them again because the records are in the wrong format.
  799. Or they can import them, but the accented/non-Roman characters are wrong.
  800.  
  801. So, with the stupid file systems that are in use today -- and I maintain that
  802. ALL of them are stupid -- indeed you can't win.  (Perhaps "stupid" is not the
  803. right word -- the idea has always been more one of locking people in to a
  804. particular environment, rather than promoting diversity and interchange.)
  805.  
  806. - Frank
  807.  
  808. P.S. MS-DOS Kermit 3.15, C-Kermit 6.0, and IBM Mainframe Kermit 4.2.2 have a
  809. new feature which, at least, lets the two Kermit programs recognize that they
  810. are running on "like" computers (if they are) and therefore to switch into
  811. binary mode automatically, even if their default transfer mode is text.  So
  812. this should go a long way towards satisfying many people.  In this regard,
  813. Kermit has an advantage over ZIP programs, because ZIP programs never know
  814. where the ZIP file might be unzipped.
  815.  
  816. 28-Aug-96 16:37:52-GMT,1481;000000000001
  817. Received: from barney.usu.edu (barney.usu.edu [129.123.1.89]) by watsun.cc.columbia.edu (8.7.5/8.7.3) with ESMTP id MAA23445 for <fdc@watsun.cc.columbia.edu>; Wed, 28 Aug 1996 12:37:51 -0400 (EDT)
  818. Received: from cc.usu.edu by cc.usu.edu (PMDF V5.0-5 #11556)
  819.  id <01I8T13PB1T2CE2UCT@cc.usu.edu>; Wed, 28 Aug 1996 10:37:37 -0600 (MDT)
  820. Date: Wed, 28 Aug 1996 10:37:37 -0600 (MDT)
  821. From: Joe Doupnik <JRD@cc.usu.edu>
  822. Subject: Re: Info-ZIP and C-Kermit
  823. To: fdc@watsun.cc.columbia.edu
  824. Cc: ROE2@MIDWAY.UCHICAGO.EDU, JCHBN@CUVMB.CC.COLUMBIA.EDU,
  825.         ZIPS-BUGS@LISTS.WKU.EDU, JALTMAN@COLUMBIA.EDU
  826. Message-id: <01I8T13PB2RCCE2UCT@cc.usu.edu>
  827. X-VMS-To: IN%"fdc@watsun.cc.columbia.edu"
  828. X-VMS-Cc: 
  829.  ROE2@MIDWAY.UCHICAGO.EDU,JCHBN@CUVMB.CC.COLUMBIA.EDU,ZIPS-BUGS@LISTS.WKU.EDU,JALTMAN@COLUMBIA.EDU,JRD
  830. MIME-version: 1.0
  831. Content-type: TEXT/PLAIN; CHARSET=US-ASCII
  832. Content-transfer-encoding: 7BIT
  833.  
  834.     I remain surprized at the "text mode" bias in all this thinking.
  835. That is, presuming that binary also means "stream of bytes." That's naive.
  836. Anyone heard of byte order of numerical quantities? Have a look at the
  837. ponderous NFS RPC material to see the trouble one gets into trying to
  838. describe information, and that stuff covers only the easy items.
  839.     Binary simply isn't transportable between unlike systems, in 
  840. general, because the systems differ in representation. Big/little
  841. endian, for example, not to mention "word" size.
  842.     Those fixating on byte stream should not get into this game.
  843.     Joe D.
  844.  
  845. 28-Aug-96 18:11:45-GMT,3722;000000000011
  846. Received: from haven.uchicago.edu (haven.uchicago.edu [128.135.12.3]) by watsun.cc.columbia.edu (8.7.5/8.7.3) with ESMTP id OAA08199 for <fdc@watsun.cc.columbia.edu>; Wed, 28 Aug 1996 14:11:42 -0400 (EDT)
  847. Received: from ellis.uchicago.edu (roe2@ellis.uchicago.edu [128.135.12.62]) by haven.uchicago.edu (8.7.5/8.7.3) with ESMTP id NAA11827; Wed, 28 Aug 1996 13:10:39 -0500 (CDT)
  848. Received: (from roe2@localhost) by ellis.uchicago.edu (8.7.1/8.7.2) id NAA04942; Wed, 28 Aug 1996 13:12:49 -0500 (CDT)
  849. Date: Wed, 28 Aug 1996 13:12:49 -0500 (CDT)
  850. From: Cave Newt <roe2@midway.uchicago.edu>
  851. Message-Id: <199608281812.NAA04942@ellis.uchicago.edu>
  852. To: fdc@watsun.cc.columbia.edu
  853. Subject: Re: Info-ZIP and C-Kermit
  854. Cc: JCHBN@CUVMB.CC.COLUMBIA.EDU, JRD@cc.usu.edu, rommel@ars.de
  855.  
  856. Frank wrote:
  857.  
  858. > Any Kermit program can have its default transfer mode be binary -- the user
  859. > just puts a "set file type binary" command in her/his initialization file; or
  860. > the site puts one in the site-wide initialization file.  Kermit is totally
  861. > (and almost infinitely) customizable.
  862.  
  863. And you accuse *me* of a developer's bias? :-) * 0.5
  864.  
  865. > Not with Kermit.  Kermit is an extremely common method of accessing Linux,
  866. > and it can easily be adjusted to either case.
  867.  
  868. I was wrong anyway.  Linux uses a Latin-1 code page even for its virtual 
  869. consoles (which should have been obvious, given its origins).
  870.  
  871. > Frank Wancho?  (I managed TOPS-20 systems for about 10 years.)
  872.  
  873. Yes, Wancho.  Huh...wonder why he punted on the file-system info.  I
  874. *know* he claimed you had to know the directory size at creation time.
  875. But, as you say, it's irrelevant.  I guess there's no point in hanging
  876. onto the partial TOPS-20 support in UnZip, either.
  877.  
  878. > But then do you have a standard and transportable way of mapping complex
  879. > structural information between unlike systems?
  880.  
  881. No, of course not, but at least you can transport it and recreate it on
  882. like systems.
  883.  
  884. > No matter; this discussion is mostly academic -- I don't see us going anywhere
  885. > with it for a while, and by that time, maybe ALL file systems will have
  886. > devolved to the simple DOS/UNIX model and then we won't have to worry about it
  887. > any more, except for deep questions like how to turn backslashes around :-)
  888.  
  889. One can only hope (or fear)... :-)
  890.  
  891. > this should go a long way towards satisfying many people.  In this regard,
  892. > Kermit has an advantage over ZIP programs, because ZIP programs never know
  893. > where the ZIP file might be unzipped.
  894.  
  895. Au contraire!  You're right that Zip doesn't know where it will be 
  896. unzipped, but UnZip knows where it was zipped, and that amounts to the
  897. same thing.  (Indeed, that fact is the sole reason I took the steps that
  898. eventually led to my leadership of the UnZip project six years ago...)
  899.  
  900. Joe wrote:
  901.  
  902. >     Binary simply isn't transportable between unlike systems, in 
  903. > general, because the systems differ in representation. Big/little
  904. > endian, for example, not to mention "word" size.
  905.  
  906. That's only true for poorly designed binary file formats.  There's really
  907. no reason for any format designed since 1985 not to specify precisely what
  908. byte order is used and what each of the field sizes is.  This is true even
  909. for formats that may use different sizes and byte orders on each platform
  910. for maximum I/O efficiency; there's no excuse for not including a fixed,
  911. well-defined header that specifies the key parameters of the rest of the
  912. file.  FORTRAN binary files are a prime example of how *not* to do it.
  913.  
  914. For non-stream things like VMS database file formats, there's inherently
  915. no portability, so it's not so much an issue there.
  916.  
  917. Greg
  918.  
  919. P.S.  I've removed zip-bugs from the recipient list since this has become
  920.       largely an academic exercise in nitpicking. :-)
  921.  
  922. 28-Aug-96 18:26:12-GMT,2336;000000000001
  923. Received: (from fdc@localhost) by watsun.cc.columbia.edu (8.7.5/8.7.3) id OAA09997; Wed, 28 Aug 1996 14:25:19 -0400 (EDT)
  924. Date: Wed, 28 Aug 96 14:25:18 EDT
  925. From: Frank da Cruz <fdc@watsun.cc.columbia.edu>
  926. To: Cave Newt <roe2@midway.uchicago.edu>
  927. Cc: JCHBN@CUVMB.CC.COLUMBIA.EDU, JRD@cc.usu.edu, rommel@ars.de
  928. Subject: Re: Info-ZIP and C-Kermit
  929. In-Reply-To: Your message of Wed, 28 Aug 1996 13:12:49 -0500 (CDT)
  930. Message-ID: <CMM.0.90.4.841256718.fdc@watsun.cc.columbia.edu>
  931.  
  932. > Yes, Wancho.  Huh...wonder why he punted on the file-system info.  I
  933. > *know* he claimed you had to know the directory size at creation time.
  934. > But, as you say, it's irrelevant.  I guess there's no point in hanging
  935. > onto the partial TOPS-20 support in UnZip, either.
  936. Nevertheless, I always thought it would be a cool idea to have a "virtual
  937. museum" on the Internet, where people could see some of the old and
  938. influential operating systems -- TOPS-10, TOPS-20, MULTICS, ITS, etc.  (Even
  939. RT-11, which CP/M and DOS were largely copied from :-)
  940.  
  941. Obviously impractical given the expense involved of maintaining the hardware,
  942. let alone the access and security problems it would raise.  But an awful lot
  943. of good ideas have gone out the window and soon nobody will remember anything
  944. but MS Windows, and will think that is the definition of an operating system.
  945.  
  946. In my recent "travels", I've come across a few real gems that are still up and
  947. running that will disappear forever the next time the hardware breaks because
  948. nobody wants to pay to keep them going.  For example, just for the perverse
  949. heck of it, I ported C-Kermit (and I use "port" in the real sense of doing a
  950. lot of work, not the vulgar sense of "recompiling" :-) to Bell Research UNIX
  951. V10, which I guarantee no more than two people in the world are still using.
  952.  
  953. > Au contraire!  You're right that Zip doesn't know where it will be 
  954. > unzipped, but UnZip knows where it was zipped, and that amounts to the
  955. > same thing.  (Indeed, that fact is the sole reason I took the steps that
  956. > eventually led to my leadership of the UnZip project six years ago...)
  957. Ah, great minds...
  958.  
  959. > I've removed zip-bugs from the recipient list since this has become
  960. > largely an academic exercise in nitpicking. :-)
  961. No, it's just having a little fun -- something increasingly hard to come by
  962. these days...
  963.  
  964. - Frank
  965.  
  966. 28-Aug-96 18:57:36-GMT,2575;000000000001
  967. Received: from haven.uchicago.edu (haven.uchicago.edu [128.135.12.3]) by watsun.cc.columbia.edu (8.7.5/8.7.3) with ESMTP id OAA15730 for <fdc@watsun.cc.columbia.edu>; Wed, 28 Aug 1996 14:57:35 -0400 (EDT)
  968. Received: from ellis.uchicago.edu (roe2@ellis.uchicago.edu [128.135.12.62]) by haven.uchicago.edu (8.7.5/8.7.3) with ESMTP id NAA14460 for <fdc@watsun.cc.columbia.edu>; Wed, 28 Aug 1996 13:56:42 -0500 (CDT)
  969. Received: (from roe2@localhost) by ellis.uchicago.edu (8.7.1/8.7.2) id NAA09091; Wed, 28 Aug 1996 13:58:53 -0500 (CDT)
  970. Date: Wed, 28 Aug 1996 13:58:53 -0500 (CDT)
  971. From: Cave Newt <roe2@midway.uchicago.edu>
  972. Message-Id: <199608281858.NAA09091@ellis.uchicago.edu>
  973. To: fdc@watsun.cc.columbia.edu
  974. Subject: Re: Info-ZIP and C-Kermit
  975.  
  976. Frank,
  977.  
  978. > Nevertheless, I always thought it would be a cool idea to have a "virtual
  979. > museum" on the Internet, where people could see some of the old and
  980. > influential operating systems -- TOPS-10, TOPS-20, MULTICS, ITS, etc.  (Even
  981. > RT-11, which CP/M and DOS were largely copied from :-)
  982.  
  983. Hey, I used RT-11 on a 1978-vintage Terak (PDP8-based, I think) in college!
  984. 8-inch diskettes, funky screen with separate text and graphics memory, and 
  985. a random-access Diablo daisy-wheel printer that we used to create six-foot-
  986. long traces of magnetospheric phenomena.  It had 64KB (32KW) of RAM, as I 
  987. recall, and was quite a step up from the 8KB Commodore PETs we had in high
  988. school...  Amazingly enough, they *still* had Teraks in use at NASA Ames
  989. ca. 1991.
  990.  
  991. > Obviously impractical given the expense involved of maintaining the hardware,
  992. > let alone the access and security problems it would raise.  But an awful lot
  993. > of good ideas have gone out the window and soon nobody will remember anything
  994. > but MS Windows, and will think that is the definition of an operating system.
  995.  
  996. Shudder...
  997.  
  998. > For example, just for the perverse
  999. > heck of it, I ported C-Kermit (and I use "port" in the real sense of doing a
  1000. > lot of work, not the vulgar sense of "recompiling" :-) to Bell Research UNIX
  1001. > V10, which I guarantee no more than two people in the world are still using.
  1002.  
  1003. Ooo, I'd love to take a crack at UnZip on a system like that. :-)  (Well,
  1004. maybe not.  It's not like there aren't a billion other projects waiting
  1005. for me.)
  1006.  
  1007. > Ah, great minds...
  1008.  
  1009. Or at least Dilbert-like ones...
  1010.  
  1011. > No, it's just having a little fun -- something increasingly hard to come by
  1012. > these days...
  1013.  
  1014. Ah, but I and many of the luna^H^H^H^Hengineers with whom I associate
  1015. *equate* academic nitpicking with fun--consider this sentence, for
  1016. example. ;-)
  1017.  
  1018. Regards,
  1019.   Greg
  1020.  
  1021.