home *** CD-ROM | disk | FTP | other *** search
/ Project Gutenberg 1994 April / Project_Gutenberg_CD-ROM_Walnut_Creek_April_1994.iso / mac / history.gut < prev    next >
Text File  |  1994-03-01  |  26KB  |  499 lines

  1. The History and Philosophy of Project Gutenberg (c)August 1992
  2.  
  3. Second edition prepared for August, 1992.   Updated regularly.
  4. (margins are 62, about 10 pages, send only the complete file.)
  5. (Includes answers to many Frequently Asked Questions (FAQ))
  6.  
  7. There is a lot of information in this little file. . .and your
  8. requested information may be contained in a short portion.  It
  9. is therefore recommended that you search for subjects.  It was
  10. not feasible to break this file into smaller ones, but we have
  11. been told that our audience responds best to quick, short, and
  12. concise responses.  These are marked by subject headers and by
  13. paragraphing.  Read fast, it is all quite simple.  If you find
  14. something of great interest, you might want to read it again.
  15.  
  16. The purpose of this file is to answer questions. . .not create
  17. flames.  We have long ago learned that flamers must be allowed
  18. to burn themselves out.  However, we feel obliged to answer in
  19. the forums in which the flames were posted. . .not to satisfy,
  20. can't be done, the flamers, but to explain to the rest of that
  21. audience what Project Gutenberg is and is not, however flamers
  22. may have misstated the obvious.  Etext is certainly one of the
  23. most obvious uses of computers, and the flamers can hardly put
  24. a dent in that fact.  Plain Vanilla ASCII is also obviously an
  25. important etext medium, but no one at Project Gutenberg states  
  26. that it is or should be the only etext medium.
  27.  
  28. "When you get something for free, you get what you pay for!!!"
  29. That means if you don't use what you get for free, it won't do
  30. you any good.  But sometimes it is nice to have a library your
  31. friends and family can use, even if they don't always use it.
  32.  
  33.  
  34. The Beginning
  35.  
  36. Project Gutenberg began in 1971 when Michael Hart was given an
  37. operator's account with $100,000,000 of computer time in it by
  38. the operator's of the Xerox Sigma V mainframe at the Materials
  39. Research Lab at the University of Illinois.
  40.  
  41. This was totally serendipitous, as it turned out that two of a
  42. four operator crew happened to be the best friend of Michael's
  43. and the best friend of his brother.  Michael just happened "to
  44. be at the right place at the right time" at the time there was
  45. more computer time than people knew what to do with, and those
  46. operators were encouraged to do whatever they wanted with that
  47. fortune in "spare time" in the hopes they would learn more for
  48. their job proficiency.
  49.  
  50. At any rate, Michael decided there was nothing he could do, in
  51. the way of "normal computing," that would repay the huge value
  52. of the computer time he had been given. . .so he had to create
  53. $100,000,000 worth of value in some other manner.  An hour and
  54. 47 minutes later, he announced that the greatest value created
  55. by computers would not be computing, but would be the storage,
  56. retrieval, and searching of what was stored in our libraries.
  57.  
  58. He then proceeded to type in the "Declaration of Independence"
  59. and tried to send it to everyone on the networks. . .which can
  60. only be described today as a not so narrow miss at creating an
  61. early version of what was later called the "Internet Virus."
  62.  
  63. A friendly dissuasion from this yielded the first posting of a
  64. document in electronic text, and Project Gutenberg was born as
  65. Michael stated that he had "earned" the $100,000,000 because a
  66. copy of the Declaration of Independence would eventually be an
  67. electronic fixture in the computer libraries of 100,000,000 of
  68. the computer users of the future.
  69.  
  70. The Beginning of the Project Gutenberg Philosophy
  71.  
  72. The premise on which Michael Hart based Project Gutenberg was:
  73. anything that can be entered into a computer can be reproduced
  74. indefinitely. . .what Michael termed "Replicator Technology"
  75. The concept of Replicator Technology is simple; once a book or
  76. any other item (including pictures, sounds, and even 3-D items
  77. can be stored in a computer, then any number of copies can and
  78. will be available.  Everyone in the world, or even not in this
  79. world (given satellite transmission) can have a copy of a book
  80. that has been entered into a computer.
  81.  
  82. This philosophical premise has created several offshoots:
  83.  
  84. 1.  Electronic Texts (Etexts) created by Project Gutenberg are
  85.     to be made available in the simplest, easiest to use forms
  86.     available.
  87.  
  88. 2.  Suggestions to make them less readily available are not to
  89.     be treated lightly.
  90.  
  91. Therefore, Project Gutenberg Etexts are made available in what
  92. has become known as "Plain Vanilla ASCII," meaning the low set
  93. of the American Standard Code for Information Interchange:  ie
  94. the same kind of character you read on a normal printed page--
  95. italics, underlines, and bolds have been capitalized.  
  96.  
  97. ***  Parenthetical discussion on bold, italics and underlines)
  98. This next paragraph may be skipped if you wish; it was created
  99. in response to severe flaming on several occasions.   (In many
  100. conversations with authors, and those who research the authors
  101. whom we publish, we have determined that most selections of an
  102. assortment of possible emphases were made by the editors, with
  103. little or no consultation to the authors.  Thus we have little
  104. motivation to continue our previous efforts to determine a way
  105. to present italics, bolds and underlines in any other way than
  106. by capitalizing them.  In our estimation, the authors are this
  107. final authority, and they say they merely intend to emphasize,
  108. not that they have a particular affinity for one form over the
  109. others.  Please remember, we only talked to many authors, most
  110. of whom said they either had no affinity for particular method
  111. selections for emphasis (i.e. they didn't really care how most
  112. emphases were made. . .via italics, bold, or underline).  This
  113. does NOT mean we talked to ALL authors, or that ALL said this.
  114. This disclaimer is to mollify the flames we constantly get for
  115. this.  One quite famous author and editor has said that we may
  116. as well get rid of all the capitals and punctuation, if we are
  117. not going to do italics, bold and underline.  Actually when we
  118. started Project Gutenberg, there was no case distinction, very
  119. few punctuation marks, and it was not terribly easy to read an
  120. original etext of the Declaration of Independence.  We try for
  121. readability by HUMANS in the first place, and by programs as a
  122. secondary feature.  We LIKE the idea that programs should read
  123. our files easily, BUT NOT TO THE EXCLUSION OF HUMANS.  Thus we
  124. do not use intrusive forms of markup, either those that should
  125. make it difficult for many humans to read, or those that would
  126. make it impossible for programs to read and search.  Please no
  127. more flames or requests for markup.  This is for others to do,
  128. and they are welcome to use our etexts in the doing.  Repeat:
  129. Project Gutenberg Etexts are meant for the general population,
  130. NOT for the top 1% of the population who argue about whether a
  131. word was meant to be italicized or bolded or underlined.  This
  132. is especially true of older books, written and published under
  133. the customs and practices of different times and places.  This
  134. must be considered.  So must the fact that many or most of the
  135. books we are going to do were not written in English, or in an
  136. English that is from a different place and time than this 20th
  137. Century American English most networkers tend to use.  English
  138. of that type is not the language hardly any of our etexts were
  139. written in.  The arguments about American versus English are a
  140. non-sequitur (irrelevant) to most of our audience, and we must
  141. not spend as much time working on those aspects of a book as a
  142. whole new book would take us to do.  The same is true of 99.9%
  143. accuracy.  We expect to have errors in our etexts. . .etext is
  144. so easy to correct that people just send us notes with errors;
  145. we save them, and when we have a dozen we put out a new etext.
  146. This takes very little time: we are now on our 30th edition of
  147. Alice in Wonderland.  Where else are you going to get editions
  148. improved on such a rapid basis.  In fact, one of the arguments
  149. we hear frequently is that the errors of various editions must
  150. be preserved in the etext editions, or the etexts editions are
  151. not "authoritative editions."  Ladies and Gentlemen. . .I have
  152. just fallen off the head of the pin I have been balancing on--
  153. (philosophers used to argue [seriously] about how many angels,
  154. presuming such things as angels, could stand on the head of an
  155. ordinary pin [some said it was how many could DANCE on it]; at
  156. any rate this is more than enough for 1992, and I don't intend
  157. to address the questions in this section for another year.
  158.  
  159. (End of parenthetical discussion on emphasis.  Back to. . . .)
  160. (When you read the next line you will wish you had skipped)***
  161.  
  162. The reason for this is that 99% of the hardware and software a
  163. person is likely to run into can read and search these files.
  164.  
  165. Any other system of etext storage is going to fall short of an
  166. audience of 99%.
  167.  
  168. This does not mean there are not other valid mean of doing the
  169. etext business. . .after all, over half the computers are DOS,
  170. so one could address a wide audience by just doing DOS.  Plain
  171. Vanilla ASCII, however, addresses the audience with Apples and
  172. Ataris all the way to the old homebrew Z80 computers, while an
  173. audience of Mac, UNIX and mainframers is still included.
  174.  
  175. In this same vein, Project Gutenberg selects etexts targeted a
  176. bit on the "bang for the buck" philosophy. . .we choose etexts
  177. we hope extremely large portions of the audience will want and
  178. use frequently.  We are constantly asked to prepare etext from
  179. out of print editions of esoteric materials, but this does not
  180. provide for usage by the audience we have targeted, 99% of the
  181. general public.
  182.  
  183. Also in the same vein, Project Gutenberg has avoided requests,
  184. demands, and pressures to create "authoritative editions."  We
  185. do not write for the reader who cares whether a certain phrase
  186. in Shakespeare has a ":" or a ";" between its clauses.  We put
  187. our sights on a goal to release etexts that are 99.9% accurate
  188. in the eyes of the general reader.  Given the preferences your
  189. proofreaders have, and the general lack of reading ability the
  190. public is currently reported to have, we probably exceed those
  191. requirements by a significant amount.  However, for the person
  192. who wants an "authoritative edition" we will have to wait some
  193. time until this becomes more feasible.  We do, however, intend
  194. to release many editions of Shakespeare and the other classics
  195. for the comparative study on a scholarly level, before the end
  196. of the year 2001, when we are scheduled to complete our 10,000
  197. book Project Gutenberg Electronic Public Library.
  198.  
  199. Project Gutenberg hopes to be a part of massive celebrations a
  200. 100th Anniversary of Public Libraries deserves in 1995, and in
  201. 1997 hopes to found "The Public Domain Register," on the 100th
  202. Anniversary of The U.S. Copyright Register.
  203.  
  204. We hope you will be part of it, too.  You are all invited.
  205.  
  206. Footnote:
  207. Our eventual goal is to provide Public Domain Etext editions a
  208. short time after they enter the Public Domain.  Of course, the
  209. period before a copyrighted work entered the Public Domain was
  210. extended from 28 years (with a 28 year extension available) to
  211. 50 years more than the life of the author, so this put a kink,
  212. to put it mildly, into our plans.  (The original copyright was
  213. for 14 years, in the U.S.)  Thus, a person could originally do
  214. a reasonable prediction that anything under copyright would be
  215. in the Public Domain while it could be used, under the new law
  216. it is impossible to predict the length of a copyright, and the
  217. likelihood of a new book entering the Public Domain during the
  218. lifetime of the average reader is minimal.  (Suppose you might
  219. be 25 when you read a new book and the author is 50:  wait the
  220. average 25 years for the author to die (what a thought!*)  Now
  221. you have to wait another 50 years to have access to that book;
  222. it doesn't matter when it was written (unless it is an old one
  223. . . .before the period the law retroacted to). . .so you would
  224. have to wait (on the average) until you were 100 years old.  A
  225. 25-year-old under the original law would only have to wait for
  226. 14 years. . .until the age of 39.  Quite a difference; between
  227. the ages of 39 and 100.  Not only that, but the copyright laws
  228. would have to stay the same for all that time. . .something in
  229. serious doubt, seeing how much they have changed in the recent
  230. century.
  231.  
  232. This goal of presenting Public Domain Editions immediately has
  233. a Public Domain Register as it predecessor.  Before you expect
  234. the availability of all Public Domain materials, we have to at
  235. least come up with a way of listing what those titles are.  If
  236. you are interested, please let us know before 1997 so we might
  237. be able to include your efforts in the Public Domain Register.
  238.  
  239.  
  240. The Project Gutenberg Philosophy
  241.  
  242. The Project Gutenberg Philosophy is to make information, books
  243. and other materials available to the general public in forms a
  244. vast majority of the computers, programs and people can easily
  245. read, use, quote, and search.
  246.  
  247. This has several ramifications:
  248.  
  249. 1.  The Project Gutenberg Etexts should cost so little that no
  250.     one will really care how much they cost.  They should be a
  251.     general size that fits on the standard media of the time.
  252.  
  253.     i.e.  when we started, the files had to be very small as a
  254.     normal 300 page book too one meg of space, which no one in
  255.     1971 could be expected to have (in general).  So doing the
  256.     U.S. Declaration of Independence (only 5K) seemed the best
  257.     place to start.  This was followed by the Bill of Rights--
  258.     then the whole US Constitution, as space was getting large
  259.     (at least by the standards of 1973).  Then came the Bible,
  260.     as individual books of the Bible were not that large, then
  261.     Shakespeare (a play at a time), and then into general work
  262.     in the areas of light and heavy literature and references.
  263.  
  264.     The rate at which we have chosen to release etexts is that
  265.     rate which will allow the general public (and us!) to grow
  266.     without undue effort into the Electronic Public Libraries.
  267.     We can't rely on CD's, as only a small fraction of persons
  268.     interested in etexts have CD's.  We think CD are great but
  269.     we can't have that as our primary means of measurement and
  270.     distribution.  Our goal is for the average user to be able
  271.     to store our library inexpensively on standard media.  The
  272.     current standards are magnetic, with 1.44 floppies and the
  273.     200 and some meg hard drives being sold on the average for
  274.     the average two or three thousand dollar computer.  A 1.44
  275.     floppy costs about fifty cents these days, in quantity (50
  276.     or so is enough to get this price), so $25 is enough for a
  277.     person to get into very inexpensive storage.  This is just
  278.     about $1 to store uncompressed one thousand page books and
  279.     the average book can be stored on one floppy.
  280.  
  281.     We like to think we have planned well enough that the user
  282.     would always be able to keep our library at an inexpensive
  283.     price.  1.44 floppies are currently the most feasible, for
  284.     the wallet, at least, and hard drive prices are falling to
  285.     nearly the same price per meg level.  Right now our etexts
  286.     will fit quite nicely into one partition on the systems in
  287.     the two to three thousand dollar range.  By the end of the
  288.     year 2001, we predict that this will still be the case, in
  289.     terms of a much larger library, and much larger computers,
  290.     which should also be much faster.  The 786 should be out a
  291.     year or two before that time.  The default computer of ten
  292.     years ago had maybe one meg, a few years later it was five
  293.     and then ten, until now it is a couple hundred meg ($1798,
  294.     at most mail order and discount houses. . .our default was
  295.     the "Best Buy" discount house which currently sells:
  296.  
  297.         (And we do NOT recommend Best Buy or their brands)
  298.  
  299.         486SX/25, 170M drive, 4MRAM, 8K cache, 2400 modem, two
  300.         floppies, SVGA, 24 pin printer, mouse, Windows 3.1 etc
  301.  
  302.     These systems are not the best hardware in the world but a
  303.     system can be returned.  Everything is already on the hard
  304.     drive, and all you have to do is turn it on.  Floppies for
  305.     both drives are included.
  306.  
  307.     Again, we do not recommend any of these in particular, but
  308.     merely use them as a default measurement.  The entire text
  309.     library of Project Gutenberg should fit nicely into these,
  310.     and should be relatively easy to search.
  311.  
  312.     If these trends continue as they have for the past decade,
  313.     then you should see something with gigabytes by 2001, in a
  314.     similar price range.
  315.  
  316.     We try to keep pace with the technology available to users
  317.     in the average ranges.  We would like to grow at the rates
  318.     they are growing, so our goal is to double our output each
  319.     year.  We are doing two books a month in 1992.  We did one
  320.     a month in 1991.  We plan on four per month in 1993.  This
  321.     should be a relatively easy load for people to acquire.
  322.  
  323.     The total output of Project Gutenberg in 1991 was about 9M
  324.     or maybe 10 if you kept all our notes.  For the first half
  325.     of 1992, it was about 10M of files (this includes a Bible,
  326.     so this is a little larger).  However, the main point is a
  327.     computer such as the one described above would use only 10
  328.     percent of its space to hold the last 24 books released by
  329.     Project Gutenberg.  We estimate each 24 books will take 10
  330.     meg, so the entire year's output is expected to double any
  331.     year (1991=10, 1992=20, 1993=40, 1994=80, 1995=160, etc.)
  332.  
  333.     Of course this will require a drive of over a gigabyte for
  334.     1995, if our library is to remain in one corner of it.  It
  335.     seems highly likely however, that most computers costing 2
  336.     or 3 thousand dollars at that time will have one gigabyte,
  337.     if not more.  Our personal caluculations have always based
  338.     on $1500 drives, as that was the cost of our first drives,
  339.     which were 5M (ST-506).  Today that $1500 will buy a gig.
  340.  
  341.     By the time Project Gutenberg got famous, the standard was
  342.     360K disks, so we did books such as Alice in Wonderland or
  343.     Peter Pan because they could fit on one disk.  Now 1.44 is
  344.     the standard disk and ZIP is the standard compression; the
  345.     practical filesize is about three million characters, more
  346.     than long enough for the average book.  However, we prefer
  347.     not to require users to use compression, at least until it
  348.     become a standard.  That is why all our etexts are posted,
  349.     when we have control, in both ASCII and .zip files.
  350.  
  351.     However, pictures are still so bulky to store on disk that
  352.     it will still be a while before we include even the lowres
  353.     Tenniel illustrations in Alice and Looking-Glass.  However
  354.     we ARE very interested in doing them, and are only waiting
  355.     for advances in technology to release a test edition.  The
  356.     market will have to establish SOME standards for graphics,
  357.     however, before we can attempt to reach general audiences,
  358.     at least on the graphics level.
  359.  
  360.     To illustrate our faith in graphics, and in the future, we
  361.     have gone one step further in our pursuit of what we named
  362.     "Replicator Technology" TM a few years ago.  We would like
  363.     the end of this phase of Project Gutenberg (at year's end,
  364.     2001 with a first 3D application of Replicator Technology,
  365.     by doing CAT, MRI and XRAY Fluoroscopy scans of something,
  366.     perhaps a painting, and printing 3D copies.  If anyone can
  367.     get us access to a hundred year old masterpiece. . . .
  368.     
  369.  
  370. 2.  The Project Gutenberg Etexts should so easily used that no
  371.     one should ever have to care about how to use, read, quote
  372.     and search them.
  373.  
  374.     This has created a need to present these Project Gutenberg
  375.     Etexts in "Plain Vanilla ASCII" as we have come to call it
  376.     over the years.
  377.  
  378.     The reason for this is simple. . .it is the only text mode
  379.     that is easy on both the eyes and the computer.
  380.  
  381.     However, this encourages others to improve our etexts in a
  382.     variety of ways and to distribute them in a variety of the
  383.     available media, as follows:
  384.  
  385.     Once an etext is created in Plain Vanilla ASCII, it is the
  386.     foundation for as many editions as anyone could hope to do
  387.     in the future.  Anyone desiring an etext edition matching,
  388.     or not matching, a particular paper edition can readily do
  389.     the changes they like without having to prepare that whole
  390.     book again.  They can use the Project Gutenberg Etext as a
  391.     foundation, and then build in any direction they like.
  392.  
  393.     Thus any complaints about how we do italics, bold, and the
  394.     underscoring, or whether we should use this or that markup
  395.     formula are sent back with encouragement to do it any ways
  396.     any person wants it, and with the basic work already done,
  397.     with our compliments.
  398.  
  399.     The same goes for media.  We have had a long-standing work
  400.     ethic of providing our etexts in any medium people wanted:
  401.     Amiga, Apple, Atari. . .to IBM, to Mac, to TRS-80. . . .
  402.  
  403.     However, now that our etexts are carried in so many BBS's,
  404.     networks and other locations, it is easier to download the
  405.     file in a manner that puts them in your format than we can
  406.     make and mail a disk, so we don't really do that too much.
  407.  
  408.     The major point of all this is that years from now Project
  409.     Gutenberg Etexts are still going to be viable, but program
  410.     after program, and operating system after operating system
  411.     are going to go the way of the dinosaur, as will all those
  412.     pieces of hardware running them.  Of course, this is valid
  413.     for all Plain Vanilla ASCII etexts. . .not just those your
  414.     access has allowed you to get from Project Gutenberg.  The
  415.     point is that a decade from now we probably won't have the
  416.     same operating systems, or the same programs and therefore
  417.     all the various kinds of etexts that are not Plain Vanilla
  418.     ASCII will be obsolete.  We need to have etexts in files a
  419.     Plain Vanilla search/reader program can deal with; this is
  420.     not to say there should never be any markup. . .just those
  421.     forms of markup should be easily convertible into regular,
  422.     Plain Vanilla ASCII files so their utility does not expire
  423.     when programs to use them are no longer with is.  Remember
  424.     all the trouble with CONVERT programs to get files changed
  425.     from old word processor programs into Plain Vanilla ASCII?
  426.  
  427.     Do you want to go through all that again with every book a
  428.     whole world ever puts into etext?
  429.  
  430.     The value of Plain Vanilla ASCII is obvious. . .so is very
  431.     much of the value of most of the various markup systems we
  432.     have in the world.  But until some real standards arrive--
  433.     we would be limiting our options a great deal if we do not
  434.     keep copies of all etexts in Plain Vanilla ASCII as well.
  435.  
  436.     We don't have anything against markup.  Not vice versa.
  437.  
  438.     Alice in Wonderland, the Bible, Shakespeare, the Koran and
  439.     many others will be with us as long as civilization. . .an
  440.     operating system, a program, a markup system. . .will not.
  441.  
  442.     This includes the many requests we have for compression in
  443.     particular formats.  There are only two formats we know of
  444.     that are suitable for transfer to a wide general audience:
  445.     Plain Vanilla ASCII (.txt files) and ZIPped files of them,
  446.     (.zip files).  Requests for other compression formats must
  447.     be ignored as they are appropriate only for small portions
  448.     of our target audience.  However, (programmers take note:
  449.     we will need help) we are planning to put some compression
  450.     links on our files so they can be transmitted in any of an
  451.     assortment compression formats on the fly.  i.e. we should
  452.     be able to generate any kind of file asked for, but we can
  453.     keep only one copy of each etext on our servers. . .as the
  454.     .Z compression format does in a similar manner today.
  455.  
  456.  
  457. 3.  The selection of Project Gutenberg Etexts
  458.  
  459.     There are three portions of the Project Gutenberg Library,
  460.     basically be described as:
  461.  
  462.     A.  Light Literature; such as Alice in Wonderland, Through
  463.         the Looking-Glass, Peter Pan, Aesop's Fables, etc.
  464.  
  465.     B.  Heavy Literature; such as the Bible or other religious
  466.         documents, Shakespeare, Moby Dick, Paradise Lost, etc.
  467.  
  468.     C.  References; such as Roget's Thesaurus, almanacs, and a
  469.         set of encyclopedia, dictionaries, etc.
  470.  
  471.     The Light Literature Collection is designed to get persons
  472.     to the computer in the first place, whether the person may
  473.     be a pre-schooler or a great-grandparent.  We love it when
  474.     we hear about kids or grandparents taking each other to an
  475.     etexts to Peter Pan when they come back from watching HOOK
  476.     at the movies, or when they read Alice in Wonderland after
  477.     seeing it on TV.  We have also been told that nearly every
  478.     Star Trek movie has quoted current Project Gutenberg etext
  479.     releases (from Moby Dick in The Wrath of Kahn; a Peter Pan
  480.     quote finishing up the most recent, etc.) not to mention a
  481.     reference to Through the Looking-Glass in JFK.  This was a
  482.     primary concern when we chose the books for our libraries.
  483.  
  484.     We want people to be able to look up quotations they heard
  485.     in conversation, movies, music, other books, easily with a
  486.     library containing all these quotations in an easy to find
  487.     etext format.  With Plain Vanilla ASCII you will be easily
  488.     able to search an entire library, without any program more
  489.     sophisticated than a plain search program.  In fact, these
  490.     Project Gutenberg Etext files are so plain that you can do
  491.     a search on them without even using an intermediate search
  492.     program (i.e. a program between you and the disk) Norton's
  493.     and other direct disk access programs can search every one
  494.     of your files without you even naming them, pointing to an
  495.     etext directory, or whatever.  You can simply search a raw
  496.     output from the disk. . .I do this on a half gigabyte disk
  497.     partition, containing all our editions.
  498.  
  499.