home *** CD-ROM | disk | FTP | other *** search
/ OS/2 Spezial / SPEZIAL2_97.zip / SPEZIAL2_97.iso / ANWEND / ONLINE / W3GRAB14 / WWWGRAB2.ENG < prev   
Text File  |  1997-07-07  |  39KB  |  993 lines

  1.  
  2.                          Welcome to WWWGrab/2 v1.4
  3.                          -------------------------
  4.  
  5. <Czech>
  6. ¼esk∞ návod je v souboru WWWGrab2.CZE.
  7. </Czech>
  8.  
  9. <Spanish>
  10. La versión en castellano es WWWGrab.SPA
  11. </Spanish>
  12.  
  13. <French>
  14. La documentation en français est dans le fichier WWWGRAB.FRA.
  15. </French>
  16.  
  17.  
  18. Table of Contents
  19. -----------------
  20. Introduction
  21. Requirements
  22. Copyright and Disclaimer
  23. Starting WWWGrab/2
  24. Regular Expressions
  25. Using `@' Files
  26. Configuration File Format
  27. Command List - Detailed Reference
  28. Command List - Quick Reference
  29. Quick Reference Chart
  30. Examples
  31. Credits
  32.  
  33.  
  34. Introduction
  35. ------------
  36. WWWGrab/2 is a utility for making a copy of a remote web site (or part of
  37. a site).  WWWGrab/2 makes a local copy, on your hard disk (or a network
  38. drive), of a remote WWW server's files, including HTML files, images, and
  39. more.
  40.  
  41. You need WWWGrab/2 if:
  42.  
  43.   * You are a web site administrator and need to mirror your site on
  44.     different machines.  You can configure WWWGrab/2 to run periodically
  45.     (by using a "cron"-type utility) and automatically keep your site
  46.     mirrored.
  47.   * You are having trouble getting a reliable or speedy connection to a
  48.     web site.  Let WWWGrab/2 spend the time downloading the pages - you
  49.     can look at them later.
  50.   * You are working on your own web page and want to see the HTML code to
  51.     someone else's page to see how they did it.
  52.   * You want to have a local copy of a web site for quick, easy reference.
  53.   * You want to make a copy of a web page or site because it may
  54.     disappear.
  55.   * You have a slow connection to the Internet, or simply don't like the
  56.     "World Wide Wait".
  57.   * You pay for Internet access by the minute.
  58.   * You frequently reference a Web site, but don't want to have to go
  59.     online every time you need to look at it.
  60.  
  61.  
  62. WWWGrab/2 offers many features that make it a very powerful and flexible
  63. tool for mirroring a web site, including:
  64.  
  65.   * Nearly 50 commands and options which provide maximum control and
  66.     flexibility over the program's operation.  (However, only a handful
  67.     are required in most cases.)
  68.   * Easy-to-use configuration files to let you control every option and
  69.     command in detail.  Configuration files may be nested, allowing common
  70.     commands and options to be automatically included, and you can have
  71.     separate configuration files for a single web site.
  72.   * U*IX-like regular expression strings for maximum flexibility and
  73.     control over filenames.
  74.   * A web site may be checked for modifications if it has been previously
  75.     mirrored.
  76.   * External programs can be run for every successfully downloaded file,
  77.     allowing unlimited customized actions.
  78.   * Logging of files successfully downloaded.
  79.  
  80.  
  81. Requirements
  82. ------------
  83. WWWGrab/2's requirements are simple and few:
  84.  
  85.      * OS/2 Version 2.11 or greater. Merlin or OS/2 Warp Connect suggested
  86.        for best performance.
  87.      * One  of the following TCP/IP  packages for OS/2 (listed in order of
  88.        preference):
  89.          * IBM TCP/IP included in OS/2 Warp Merlin.
  90.          * IBM TCP/IP 3.0 included in OS/2 Warp Connect.
  91.          * IBM TCP/IP 2.0 Base Kit with CSD64092 or greater applied.
  92.          * The Internet Access Kit from OS/2 Warp's Bonus pack.
  93.  
  94.      * A  disk  with  long  filename  support  (HPFS, ext2fs, etc.) is not
  95.        required but is strongly recommended!
  96.      * Approximately 100K for program files and documentation.
  97.      * Sufficient disk space for your mirroring.  Depending on how you use
  98.        WWWGrab/2, this may be as little as a few kilobytes or megabytes.
  99.  
  100.  
  101. Disclaimer etc.
  102. ---------------
  103.  
  104.                  This program is COPYRIGHTED by J. Rubes.
  105.  
  106.      WWWGrab/2  is  a  shareware product. It is distributed through public
  107. access  channels  so  that  prospective  buyers  have  the  opportunity to
  108. evaluate the product before making a decision to buy.
  109.  
  110.      WWWGrab/2  may  be  used  only  for  legal purposes. CHECK if you are
  111. allowed to mirror a site before doing so.
  112.  
  113.                             USE AT YOUR OWN RISK
  114.  
  115.      This  program  is  provided  AS IS without any warranty, expressed or
  116. implied,  including  but  not limited to fitness for a particular use. The
  117. user  is responsible for the results of correct or incorrect usage of this
  118. software. WWWGrab/2 may not be used to provide commercial services without
  119. written permission of the author.
  120.  
  121.  
  122. Starting WWWGrab/2
  123. ------------------
  124.      To  start  WWWGrab/2  simply  type  the  following at an OS/2 command
  125. prompt:
  126.  
  127.   WWWGRAB <config_file> [-i] [-c0|-c1]
  128.  
  129.      <config_file> is the configuration file to use. The configuration
  130. file is a plain ASCII  text file with commands and options that control
  131. WWWGrab/2's behavior. Its  format, and the commands and options available,
  132. are  described  below.  The  easiest way to create your first
  133. configuration file is to copy an existing demonstration file and change it
  134. to suit your needs.
  135.  
  136.      -i tells WWWGrab/2 to not load the default configuration file.
  137. Normally, the default configuration file (named "DEFAULT.W3D"), is
  138. processed when WWWGrab/2 is executed.  This file should contain commands
  139. and options that never change.  However, you can prevent WWWGrab/2 from
  140. processing the default configuration file by using the -i switch.  (See
  141. the Quick Reference Chart to see which commands and options may be used in
  142. DEFAULT.W3D.)
  143.  
  144.      -c0 or -c1 write a list of URLs modified since the site was last
  145. mirrored to the file W3GRAB.CHG:
  146.  
  147.    c0 - check sites without  the HEAD command.  This method is slower, but
  148.         safer.
  149.    c1 - check sites using the HEAD command.  This is faster, but less
  150.         safe, because some simple WWW servers don't accept the HEAD
  151.         command from a client, and return a error code. (Apache, CERN, ICS,
  152.         and Netscape behave correctly).
  153.  
  154.      Note that in order to use -c0 or -c1 the site must have previously
  155. been mirrored.
  156.  
  157.      WWWGrab/2  may  be called from command and REXX files and from
  158. Program objects on the OS/2 desktop.
  159.  
  160.  
  161. Regular expressions
  162. -------------------
  163.      WWWGrab/2  uses  U*IX-like  regular  expressions in some
  164. commands. This allows complex specifications such as
  165. http://www.foo.*/*/index.htm* or   c??. This allows   considerably wider
  166. flexibility  in  URL  specification,  or  in extension specification,  or
  167. any other circumstance in which this type of pattern matching is wanted.
  168.  
  169. In the specified pattern string:
  170.      `*' matches any sequence of zero or more characters.
  171.      `?' matches any single character.
  172.      `\' suppresses the syntactic significance of a special character.
  173.      [SET] matches any character in the specified set.
  174.      [!SET] or [^SET] matches any character NOT in the specified set.
  175.  
  176.      A  set  is  composed  of individual characters  or  character ranges.
  177. A range is two characters separated by a hypen (0-9 or A-Z, for example).
  178. Numerals, letters (uppercase and lowercase), and the underscore (`_') are
  179. the minimal  set  of  characters  supported in patterns.  Nearly all
  180. operating systems support additional (8-bit) characters.
  181.  
  182.      The `escape character' (`\') is used to  suppress the syntactic
  183. significance of the characters `[]*?!^-\', so that such a character may be
  184. matched. For example, the pattern string `file\*' matches the string
  185. `file*', not the string beginning with `file\' and followed by zero or
  186. more characters; the pattern string `file\[*' matches the string `file['
  187. followed by zero or more additional characters.
  188.  
  189.      See the Quick Reference Chart to see which commands support regular
  190. expressions.
  191.  
  192.      Examples:
  193.         file*
  194.           Match any string beginning with the letters `file', such as
  195.           `file', `filestar', `file100'.
  196.         ??file
  197.           Match any six-character string ending in `file', such as
  198.           `00file', `dofile', etc.
  199.         file[abc]*
  200.           Match any string beginning with the letters `file', followed by
  201.           `a', `b', or `c', followed by zero or more characters, such as
  202.           `filea', `filea100', `fileabcd'.
  203.         file[0-9]\-?
  204.           Match any string beginning with the letters `file', followed by
  205.           a numeral 0-9, followed by a hypen `-', followed by any
  206.           character, such as `file3-a', `file0-0', etc.
  207.  
  208.  
  209. Using `@' Files
  210. ---------------
  211.      You  are likely to use the same commands and options for multiple web
  212. sites.  These can be stored in the default configuration file if they
  213. never change, but include files (`@' files) provide greater flexibility,
  214. letting you store options and commands common to only some sites.  Include
  215. files are referenced by the main configuration file (specified on the
  216. command line).
  217.  
  218. For example, if you often use the MASK command, you may store it in the
  219. DEFAULT.W3G file and it will be applied to all configuration files.  But
  220. if you want to use two different MASKs for different sites, you must use
  221. an include file.  To do this, you must create two include files, and then
  222. reference the correct include file in each configuration file.
  223.  
  224. Make one file called (for example) MASKS1 with the following text.  This
  225. will be the first include file:
  226.  
  227. *.HTML
  228. *.HTM
  229. *.?.JPEG
  230. *.0?.GIF
  231.  
  232. Then create the second include file named (for example) MASKS2 with this
  233. text:
  234.  
  235. *.SHTML
  236. *.SHTM
  237. *.JPEG
  238. *.GIF
  239. *.WAV
  240.  
  241. Note that the include file must contain only one parameter per line.
  242.  
  243. Finally, reference the appropriate include file from the configuration
  244. file.  For example, to use MASKS1 add the following line to the
  245. configuration file:
  246.  
  247. MASK @MASKS1 ; use contents of the MASKS1 file
  248.  
  249. When WWWGrab/2 reads the configuration file, it will read the parameters
  250. for the MASK command from the MASKS1 file.  NOTE: Don't forget the `@'
  251. sign in front of the filename!
  252.  
  253. You may use multiple include files with the same command, as long as the
  254. command may be used more than once.  For example, to reference both MASKS1
  255. and MASKS2 add the two lines below to the configuration file:
  256.  
  257. MASK @MASKS1  ; use contents of the MASKS1 file
  258. MASK @MASKS2  ; and add contents of the MASK2 file
  259.  
  260.      If  you  had  used  just MASK @MASKS2, then only *.SHTML, *.SHTM,
  261. *JPEG, *.GIF, and *.WAV files would be mirrored.
  262.  
  263. See the Quick Reference Chart to see which commands support include files.
  264.  
  265.  
  266. Configuration File Format
  267. -------------------------
  268. All commands and options in the configuration file have the same format:
  269.  
  270. <command> [parameters]
  271.  
  272. There may be spaces before the command, and there must be at least one
  273. space after the command if there are any parameters supplied.
  274.  
  275. Single line comments are preceded by a semi-colon (`;'). Text following
  276. the semi-colon is ignored until the next line is reached.  Examples:
  277.  
  278. URL http://www.foo.com/bar      ; This is a comment
  279. ; This is also a comment.
  280.  
  281. All URLs must be in the full http format.  Always use
  282. `http://www.foo.com', not `foo', `foo.com', or `www.foo.com'.  You may
  283. use IP addresses and port numbers, e.g. `http://127.0.0.1/localhost/' or
  284. `http://www.foo.com:8080/misc'.
  285.  
  286.  
  287. Command List - Detailed Reference
  288. ---------------------------------
  289. Following is a detailed reference to each of the commands and options
  290. which control WWWGrab/2's behavior.
  291.  
  292.  
  293. ADD <path>
  294.      Add  the  specified path to the list of requested URL's. This command
  295.      can  be  used  more  than  once,  and always applies to the first URL
  296.      command.
  297.  
  298.      Example:
  299.        URL http://www.xxx.yyy/path1/index.html
  300.        URL http://foobar.com/
  301.        ADD /path2/pic/index.html
  302.          Mirrors: http://www.xxx.yyy/path1/index.html      AND
  303.                   http://www.xxx.yyy/path2/pic/index.html  AND
  304.                   http://foobar.com/
  305.  
  306.  
  307. ALL
  308.      Normally,  if WWWGrab/2 sees that a file already exists, it will send
  309.      a  conditional  GET to the remote server. The file is only downloaded
  310.      again  if  the version on the server is newer than the local file. If
  311.      you  want  to update all the files regardless of their date and local
  312.      existence, you should use the ALL option.
  313.  
  314.  
  315. ALLOW <URL-in-http-form>
  316.      Explicitly  specifies  that  a  subtree  is retrievable. This command
  317.      can be used more than once and may use regular expressions.
  318.  
  319.      Example:
  320.        ALLOW http://www.xxx.yyy/allow/this/path/
  321.  
  322.  
  323. CHAM <number>
  324.      Some  servers  (esp.  Netscape)  try to recognize the client name. If
  325.      they  don't  know  the client name, they don't send any data. You may
  326.      use  this  option to "mask" the client name (like CHAMeleon). Numbers
  327.      are:
  328.           0 - WWWGrab        (default)
  329.           1 - Mozilla        Netscape Browser
  330.           2 - WebExplorer    IBM WebExplorer/2
  331.           3 - WebCrawler     WebCrawler robot
  332.           4 - InfoSeek       InfoSeek robot
  333.           5 - Harvest        a web robot
  334.           6 - Mosaic         NCSA Mosaic
  335.           7 - Lynx           Lynx, text browser
  336.           8 - PRODIGY-WB     Prodigy browser
  337.           9 - Internet       Microsoft's web browser
  338.  
  339.  
  340.     Example:
  341.       CHAM 2
  342.         Sends the server the WebExplorer client name.
  343.  
  344.  
  345. CHANGESITE <num sites>
  346.      Normally,  if WWWGrab/2 finds a link to another WWW server in an html
  347.      file,  the  link is ignored. If you want to allow WWWGrab/2 to follow
  348.      links  to  another server, use the CHANGESITE command. The default is
  349.      0,  which  means  don't change sites. BE CAREFUL what you enter here!
  350.      You may start mirroring the entire WWW!
  351.  
  352.      Example:
  353.        CHANGESITE 2
  354.  
  355.  
  356. CLIENT
  357.      When the CLIENT option is used, WWWGrab/2 turns all links to relative
  358.      links.  <a href="/www/files/foo.html"> becomes <a href=foo.html"> for
  359.      example.  Use  this  option  if  you want to be able to browse a site
  360.      locally.  (Note that server-side-includes, CGI programs, and Java
  361.      programs will not work when a site is browsed locally as these
  362.      features require an HTTP server.)
  363.  
  364.  
  365. DEFAULTNAME <name>
  366.      Sometimes links point to a directory instead of a file. In this case,
  367.      if  the  filename  is  not  known  the  DefaultName  is used for that
  368.      directory. The default value for DefaultName is "index.html".
  369.  
  370.      Example:
  371.      DEFAULTNAME Welcome.html
  372.  
  373.  
  374. DENY  <URL-in-http-form>
  375.      The  URL  provided,  as  well  as  all  subtrees  of the URL, are not
  376.      processed.  Many times specific directory subtrees are not desirable.
  377.      You  can  deny retrieval of these URL's using this setting. It can be
  378.      used more than once, and regular expressions can be used too.
  379.  
  380.      Example:
  381.        DENY http://www.xxx.yyy/deny/this/path/
  382.        Do not download any files from the /deny/this/path/ tree.
  383.  
  384.      If      you     do     not     include     the     trailing     slash
  385.      (http://www.xxx.yyy/deny/this/path) then all subdirectories beginning
  386.      with   "path"   are   not   processed.  This  includes  "paths.html",
  387.      "path1/news", etc.
  388.  
  389.  
  390. DO <DEF | HTML | IMG | SND> <NOTHING | command>
  391.      This  command allows you execute a command for every
  392.      successfully downloaded file. You may specify different commands for
  393.      different file types.  If no command is associated with a particular
  394.      type, the default (DEF) command is executed.  You may use the
  395.      following options in the command:
  396.          %d depth
  397.          %h host (www server)
  398.          %l local full filename
  399.          %p parent URL (where this link came from)
  400.          %r remote file (URL without host)
  401.          %t file timestamp in RFC 822 format
  402.          %u URL
  403.          %% % (percent sign)
  404.  
  405.      If  you don't want to execute any command for specified type, but you
  406.      want to execute the DEF command, then specify NOTHING as the command.
  407.      Types are:
  408.            HTML - file defined with the text/html content
  409.            IMG  - file defined with the image/*   content
  410.            SND  - file defined with the audio/*   content
  411.            DEF  - any other file
  412.  
  413.  
  414.      Programs  that are spawned operate concurrently with WWWGrab/2 and
  415.      may  OVERLOAD  your  system. Spawned applications include those begun
  416.      with "start".
  417.  
  418.      Example:
  419.        DO HTML start /b html2txt %l
  420.        ; spawn html2txt on the background for each html file
  421.        DO SND play file=%l
  422.        ; plays grabbed sound files
  423.        DO IMG NOTHING
  424.        ; does nothing for image files
  425.        DO DEF echo %u >>other.files
  426.        ; logs other grabbed files
  427.  
  428.  
  429. EXCL <www-server>
  430.      This  command  defines  a  WWW server to exclude from mirroring. This
  431.      command  is  usable  together  with the CHANGESITE command. It can be
  432.      used more than once.
  433.  
  434.      Example:
  435.        EXCL www.yyy.zzz
  436.        EXCL microsoft.is.lame.org      BTW: try this URL :-)
  437.  
  438.  
  439. EXTENSIONS <list of extensions>
  440.      The  EXTENSIONS  command  defines  a  list  of  file extension search
  441.      strings  which  are  to  be downloaded. Extensions are seperated by a
  442.      space.  If  you  don't  specify  any extension, then HTM, HTML, SHTM,
  443.      SHTML,  JPG, GIF, WAV, AU, CLASS, and JAVA are automatically defined.
  444.      You  may  alternatively  use the ':' char as a 'NOT' operator to list
  445.      extensions  which  you  wish to ignore. Be careful what you put here!
  446.      Including  EXE  or  ZIP  extensions could use vast quantities of disk
  447.      space  if you start mirroring a large site such as hobbes or sunsite!
  448.      You may use regular expressions in this command (see above), and this
  449.      command may be used more than once.
  450.  
  451.      Example:
  452.        EXTENSIONS ZIP C
  453.        Use ZIP and C extensions
  454.  
  455.        EXTENSIONS ZIP JAVA :C??
  456.        Use ZIP and JAVA, but C++, C--, C00...
  457.  
  458.  
  459. FAT
  460.      This option turns on FAT compatibility. In this mode WWWGrab/2 stores
  461.      all  mirrored  files in a single directory using the FAT 8.3 filename
  462.      format.  It  automaticaly  fixes  links.  This option is automaticaly
  463.      turned on if the local path (LOCALPATH) is located on a FAT partition
  464.      or on a partition without long filename support.
  465.  
  466.  
  467. FIXSL
  468.      Sometimes  authors of web pages do not add a trailing slash to links.
  469.      You may use the FIXSL option to fixing their "slash-forgetting".
  470.  
  471.  
  472. I401
  473.      If  WWWGrab/2  sends  a  conditional GET to a protected page, and the
  474.      page  isn't  modified, some servers return a 401 status code. You may
  475.      use I401 to override this response and download the file.
  476.  
  477.  
  478. INCLUDE <file>
  479.      This  commmand  allows you to include another configuration file into
  480.      the configuration file currently being processed. Nesting is allowed,
  481.      to  a maximum depth of 4 levels. This command is useful for including
  482.      commands which are used in multiple configuration files. See also '@'
  483.      files.
  484.  
  485.      Example:
  486.        INCLUDE realms.inc
  487.        INCL    urls.inc
  488.  
  489.  
  490. LOCALPATH <path>
  491.      WWWGrab/2  must  have  a  place to store the files it downloads. This
  492.      command  tells  WWWGrab/2  the path on your local machine under which
  493.      the URL will be mirrored.
  494.  
  495.      Example:
  496.        LOCALPATH F:\GRAB\IBM\
  497.        Stores files mirrored under the F:\GRAB\IBM\ directory.
  498.  
  499.  
  500. LOG <log-file> <log-string>
  501.      This  commands  logs  all  successfully  mirrored files to the file
  502.      <log-file> in the format described in <log-string>. In the log-string
  503.      you may use these special characters:
  504.          %d depth
  505.          %h host (www server)
  506.          %l local full filename
  507.          %p parent URL (where this link came from)
  508.          %r remote file (URL without host)
  509.          %t file timestamp in RFC 822 format
  510.          %u URL
  511.          %% % (percent sign)
  512.          \n new line
  513.          \t tab
  514.          \\ \ (backslash)
  515.  
  516.   Note:  The LOG command doesn't automatically append the CRLF at the end
  517.          of each string.
  518.  
  519.   Example:
  520.     LOG foo.log URL %u is stored in %l\n
  521.     Will produce:
  522.       URL http://www/index.html is stored in \grab\www\index.html
  523.       URL http://www/foo/foo.gif is stored in \grab\www\foo\foo.gif
  524.       ...
  525.  
  526.  
  527. MAP
  528.      This  option  turns  on  creating  of  a map file. This file is named
  529.      w3gmap.htm.  The map file contain a map of the mirrored site. You may
  530.      use it later for to manually.
  531.  
  532.  
  533. MASK <file mask>
  534.      Use  this  command  if  you want to mirror only specified files. This
  535.      command  overrides  EXTENSIONS. You MUST explicitly define every file
  536.      mask if using this command, including the defaults in EXTENSIONS such
  537.      as HTML, etc.! This command can be used more than once. The file mask
  538.      can  have  wildcard  characters  (special  characters  for  character
  539.      substitution). See the part named "regular expressions".
  540.  
  541.      Example:
  542.        MASK *.jpg
  543.          Will mirror all files with the .jpg extension
  544.  
  545.        MASK ?a*.html
  546.          Will mirror all files beginning with any character,
  547.          followed by 'a', having any number of characters following,
  548.          and ending with .html, such as zaphod.html, 0a.html, etc.
  549.  
  550.        MASK *.jpg s?n.htm* do*s.large.i*x *.*.html.c*
  551.          Will mirror one.jpg, two.jpg, sin.htm, son.htm, sun.html,
  552.          dogs.large.idx, doorways.large.index, index.short.html.cz852,
  553.          index.of.html.cz.html, try.decode.html.c, etc...
  554.  
  555.  
  556.        MASK *.jp*g chapter[0-4].htm*
  557.          Will mirror any jpg or jpeg file, and chapter0.htm, chapter1.htm,
  558.          chapter0.html, chapter1.html, chapter2.htm, chapter3.html, but
  559.          not chapter5.html.
  560.  
  561.  
  562. MAXDEEP <levels>
  563.      MaxDeep  defines  how  many  subdirectory  levels deep WWWGrab/2 will
  564.      mirror.  Pages  which  are  lower than <levels> subdirectories in the
  565.      tree are ignored.
  566.  
  567.      Example:
  568.        MAXDEEP 5
  569.        Will get http://www.foo.com/1/2/3/4/5/file.html but not
  570.        http://www.foo.com/1/2/3/4/5/6/file.html
  571.  
  572.      NOTE: The shareware version of WWWGrab/2 is limited to 5 levels.
  573.  
  574.  
  575. MAXDL <limit>
  576.      This defines the maximum number of kilobytes WWWGrab/2 will download.
  577.      When  WWWGrab/2  is about to download a file, it checks the filesize.
  578.      If downloading the file would exceed the limit specified in MAXDL,
  579.      WWWGrab/2 will ignore the file.
  580.  
  581.      Example:
  582.        MAXDL 3
  583.          Download up to 3KB.
  584.  
  585.  
  586. MAXFSIZE <file-size-in-kb>
  587.      You  may  use  this  command to set the largest allowable filesize to
  588.      mirror, in kilobytes. Files larger than the size set by MAXFSIZE will
  589.      be  ignored.  This  command  does  not  work with servers which don't
  590.      return the content length.
  591.  
  592.      Example:
  593.        MAXFSIZE 100
  594.         Will not mirror files larger than 100kb.
  595.  
  596.  
  597. MAXTRIES <num>
  598.      MaxTries  tells WWWGrab/2 how many times it should try to get a file.
  599.      WWWGrab/2  tries  to grab all the files sequentially. If a file isn't
  600.      successfully  retrieved on the first attempt, it is ignored until the
  601.      complete list has been processed. Then WWWGrab/2 retries files missed
  602.      on  the  first  attempt. This process is repeated until all the files
  603.      are retrieved or MAXTRIES attempts have been made.
  604.  
  605.      Example:
  606.        MAXTRIES 3
  607.  
  608.  
  609. METAFILE <filename>
  610.      This command specifies the file WWWGrab/2 uses for saving information
  611.      about  mirrored  files.  The  default  filename is META.DAT, which is
  612.      stored in the LOCALPATH\%host% directory.
  613.  
  614.      Example:
  615.        META data.met
  616.  
  617.  
  618. NICE [delay]
  619.      This command defines the adjustable delay in seconds between links so
  620.      you  don't hog all the resources of the system you're mirroring from.
  621.      If  you  use  this  command  without a value, WWWGrab/2 will delay 10
  622.      seconds  before  requesting  the  next  file.  Warning: WWWGrab/2 can
  623.      generate  requests  too  fast  for  some  servers.  Setting  the NICE
  624.      parameter  too  low may generate too many requests for the server and
  625.      crash  the  server. This is not nice :-). A low NICE setting is known
  626.      to kill the following types of servers:
  627.  
  628.           All WWW servers that run under Microsoft Windows(TM)
  629.           Old generation (HTML/1.0) CERN servers on all platforms
  630.  
  631.      Low  NICE  values  may also generate large amounts of network traffic
  632.      and  hog  network  resources.  For  safety,  you  should set the NICE
  633.      value  to  at  least  five seconds. The longer, the better. Remember,
  634.      this  program  is automated and can easily run for hours with no user
  635.      interaction.
  636.  
  637.      Example:
  638.        NICE 5
  639.  
  640.      NOTE:  If  you  try to set a NICE value of 0 (zero), the value
  641.             will be automatically changed to five seconds.
  642.  
  643. NOAPPLET
  644.      Use this option if you don't want to grab applets.
  645.  
  646.  
  647. NOIMG
  648.      Use this option if you don't want to grab image files.
  649.  
  650.  
  651. NOSND
  652.      Use this option if you don't want to grab audio files.
  653.  
  654.  
  655. OHTML
  656.      This option combines NOIMG, NOSND and NOAPPLET.
  657.  
  658.  
  659. PPORT <proxy port>
  660.      This  command specifies the proxy port. The default value is 80. This
  661.      command is ignored if no proxy is specified with the PROXY command.
  662.  
  663.      Example:
  664.        PPORT 8080
  665.  
  666.  
  667. PROXY <hostname>
  668.      Use this command if you access the Internet via a Proxy server/cache.
  669.      The <hostname> may be the full hostname (i.e. proxy.foo.com) or an IP
  670.      address.  If  you're  uncertain  about  this,  counsult  your  system
  671.      administrator or internet service provider.
  672.  
  673.      Examples:
  674.        PROXY www.proxy.server
  675.  
  676.        PROXY 123.456.789.10
  677.  
  678.  
  679. PROXYAUTH <base64>
  680.      Use the PROXYAUTH command if you access the Internet through a
  681.      secured proxy server.
  682.  
  683.      Example:
  684.        PROXY     secured.proxy.net
  685.        PROXYAUTH LTot
  686.  
  687.  
  688. REALM <host> <"Realm Name"> <encoded username and password>
  689.      Defines   a   secured   host,   a  realmname  and  a  base64  encoded
  690.      username+password. REALM can be used more than once. The realmname is
  691.      CaSe  SeNsItIvE!  If  you  don't know the realmname you may insert an
  692.      empty   string  (i.e.  ""),  or  examine  WWWGRAB.LOG.  The  host  is
  693.      basic-auth  secured  host.  It may be in IP format (1.22.33.44) or in
  694.      the  standard  "domain" format (www.foo.com). Realms are generated by
  695.      the  makeauth program. You may use the INCLUDE command to include its
  696.      output into the configuration file.
  697.  
  698.      Example:
  699.        REALM www.secured.host "This is ReaLmName" LTot
  700.  
  701.  
  702. REMOVE
  703.      This  option  informs  WWWGrab/2  to  remove unused links from a HTML
  704.      file. Links are not deleted, but only commented out.
  705.  
  706.  
  707. REPL <path>
  708.      Specifies a path which replaces the LOCALPATH in a link. For example,
  709.      if    you    specify   "REPL   /mirrors"   and   the   LOCALPATH   is
  710.      F:\OS2Httpd\HTML\GRAB\,  for  a  link in the grabbed HTML document to
  711.      "<A  HREF="/some/pages/index.html"> link </a>", the replaced filename
  712.      is   "F:\OS2Httpd\HTML\GRAB\www.foo.com\some\pages\index.html".   The
  713.      link in the document will be changed to:
  714.      "/mirrors/www.foo.com/some/pages/index.html"
  715.  
  716.      Example:
  717.        REPL /mirrors
  718.  
  719.  
  720. SITELIST <hostname>
  721.      Normally,  if  WWWGrab/2  finds a link to another web site in an html
  722.      file,  the  link  is  ignored.  You  can  use the SITELIST command to
  723.      specify  allowed  hosts.  You  may  use  the  ':'  character as a NOT
  724.      operator. This command can be used more than once.
  725.  
  726.      Example:
  727.        SITELIST www.xxx.yyy
  728.          Allow connections to site www.xxx.yyy.
  729.  
  730.        SITELIST :www.xxx.yyy
  731.          All websites except www.xxx.yyy.
  732.  
  733.      NOTE: This command overrides the CHANGESITE command!
  734.  
  735.  
  736. SWSLASH
  737.      This option turns left slashes to right slashes i.e. from '/' to '\'.
  738.      It's useful for "older|dumber" browsers.
  739.  
  740.  
  741. TIMC <sec>
  742.      The TIMC command tells WWWGrab/2 what the server timeout value is.
  743.      If  WWWGrab/2  didn't  get  a  response from server in time less than
  744.      timeout,  then  close  the connection to server. This value should be
  745.      less  than or equal to TIMP and greater than 10. The default value is
  746.      60  seconds.  Do not use this command if you don't understand what it
  747.      does!
  748.  
  749.      Example:
  750.        TIMC 100
  751.  
  752.  
  753. TIMP <sec>
  754.      The TIMP command tells WWWGrab/2 what the timeout is for packets. The
  755.      connection  is closed after timeout. The default value is 60 seconds.
  756.      The  value  should  be  grater than 10. Don't use this command if you
  757.      don't understand what it does!
  758.  
  759.      Example:
  760.        TIMP 120
  761.  
  762.  
  763. TOP <URL-in-http-form>
  764.      Defines  the  TOP  of  the  path.  WWWGrab/2  will  ignore  files  in
  765.      directories  higher  than  this path. In other words, the path of the
  766.      file  must  start  with this string. You may use regular expressions.
  767.      This command can be used more than once.
  768.  
  769.  
  770.      Example:
  771.        TOP http://www.foo.com/path/xxxx/
  772.          Ignore files above /path/xxxx/, i.e. DON'T mirror /path/some.file
  773.        TOP http://www.*.net/java/
  774.  
  775.  
  776. URL <url-in-the-http-form>
  777.      This  command tells WWWGrab/2 a site you wish to mirror. The complete
  778.      URL  of  the  site is required! The URL command can be used more than
  779.      once  to  mirror  multiple  sites or multiple directories on the same
  780.      site. This is a basic command :-)
  781.  
  782.      Example:
  783.        URL http://www.geocities.com/SiliconValley/Heights/7262/index.html
  784.  
  785.  
  786.  
  787. Command List - Quick Reference
  788. ------------------------------
  789. Following is a quick reference to the nearly 50 commands and options which
  790. control WWWGrab/2's behavior.
  791.  
  792. ADD <path>            Add specified path to the list of requested URLs.
  793. ALL                   Update all files regardless of date (get all files).
  794. ALLOW <URL>           Explicitly specify a subtree to be retrievable.
  795. CHAM <number>         Fake a client name (chameleon).
  796. CHANGESITE <num>      Follow <num> links to other servers.
  797. CLIENT                Change links to be relative, for local browsing.
  798. DEFAULTNAME <name>    Set default HTML filename for directories.
  799. DENY <URL>            Prevent processing of <URL> tree.
  800. DO <option> <cmd>     Execute <cmd> on DEF|HTML|IMG|SND file.
  801. EXCL <server>         Exclude WWW server from mirroring.
  802. EXTENSIONS <list>     Allowable file extensions to download.
  803. FAT                   Enable FAT filesystem compatibility.
  804. FIXSL                 Add trailing slash to links which do not have one.
  805. I401                  Override I401 error and enable download of file.
  806. INCLUDE <file>        Insert another configuration file at this point.
  807. LOCALPATH <path>      Local path to store mirrored files.
  808. LOG <file> <string>   Log to <file> using <string>.
  809. MAP                   Create HTML map of mirrored site.
  810. MASK <mask>           Explicitly set allowable file extensions.
  811. MAXDEEP <levels>      How many subdirectory levels to mirror.
  812. MAXDL <limit>         Maximum kilobytes to download.
  813. MAXFL <size>          Maximum filesize to download.
  814. MAXTRIES <num>        Maximum number of tries to get file.
  815. METAFILE <file>       Specify metafile filename.
  816. NICE <seconds>        Delay for <seconds> after each get.
  817. NOAPPLET              Do not download applets.
  818. NOIMG                 Do not download images.
  819. NOSND                 Do not download audio files.
  820. OHTML                 Combine NOIMG, NOSND, and NOAPPLET.
  821. PPORT <port>          Specify proxy port.
  822. PROXY <hostname>      Specify proxy host.
  823. PROXYAUTH <base64>    Specify proxy authorization.
  824. REALM <h> <rlm> <pw>  Define secure host, realm, and username/password.
  825. REMOVE                Remove unused links from HTML files.
  826. REPL <path>           Replace local path in a link.
  827. SITELIST <host>       Allow connections to <host>.
  828. SWSLASH               Convert forward slashes to backslashes.
  829. TIMC <sec>            Server timeout value.
  830. TIMP <sec>            Server timeout value for packets.
  831. TOP <URL>             Defines top of path (don't dl files above this).
  832. URL <URL>             URL of site to mirror.
  833.  
  834.  
  835. Quick Reference Chart of Commands and Options
  836. ---------------------------------------------
  837.  
  838. COMMAND       SHORTCUT  '@'    DEFCFG  OVERRIDES  DEFVAL   REX  REG  MULT
  839. --------------------------------------------------------------------------
  840. ADD                     YES    NO                          NO   NO   YES
  841. ALL                     NO     NO                          NO   NO   NO
  842. ALLOW                   YES    NO                          YES  YES  YES
  843. CHAM                    NO     YES                0        NO   NO   NO
  844. CHANGESITE    CHSIT     NO     NO                 0        NO   YES  NO
  845. CLIENT                  NO     YES                         NO   NO   NO
  846. DEFAULTNAME   DEF       NO     YES                [3]      NO   YES  NO
  847. DENY                    YES    NO                          YES  YES  YES
  848. DO                      NO     YES                         NO   YES  NO
  849. EXCL                    YES    NO                          YES  NO   YES
  850. EXTENSIONS    EXT       YES    YES                [1]      YES  YES  YES
  851. FAT                     NO     YES                         NO   NO   NO
  852. FIXSL                   NO     YES                         NO   NO   NO
  853. I401                    NO     YES                         NO   NO   NO
  854. INCLUDE       INCL      NO     NO                          NO   NO   YES
  855. LOCALPATH     LOP       NO     YES                [0]      NO   NO   NO
  856. LOG                     NO     YES                         NO   YES  NO
  857. MAP                     NO     YES                         NO   NO   NO
  858. MASK                    YES    YES     EXTENSIONS          YES  YES  YES
  859. MAXDEEP       MDP       NO     YES                1        NO   [2]  NO
  860. MAXDL                   NO     YES                         NO   NO   NO
  861. MAXFL                   NO     YES                         NO   NO   NO
  862. MAXTRIES      MTR       NO     YES                         NO   NO   NO
  863. METAFILE      META      NO     NO                          NO   NO   NO
  864. NICE                    NO     YES                10       NO   NO   NO
  865. NOAPPLET      NOAP      NO     YES                         NO   NO   NO
  866. NOIMG                   NO     YES                         NO   NO   NO
  867. NOSND                   NO     YES                         NO   NO   NO
  868. OHTML                   NO     YES     [4]                 NO   NO   NO
  869. PPORT                   NO     YES                80       NO   NO   NO
  870. PROXY                   NO     YES                         NO   NO   NO
  871. PROXYAUTH               NO     YES                         NO   NO   NO
  872. REALM                   NO     NO                          NO   YES  YES
  873. REMOVE                  NO     YES                         NO   YES  NO
  874. REPL                    NO     YES                         NO   YES  NO
  875. SITELIST      SLIST     YES    NO      CHANGESITE          NO   YES  YES
  876. SWSLASH                 NO     YES                         NO   NO   NO
  877. TIMC                    NO     YES                60       NO   NO   NO
  878. TIMP                    NO     YES                60       NO   NO   NO
  879. TOP                     NO     NO                          YES  NO   YES
  880. URL                     YES    NO                          NO   NO   YES
  881.  
  882.  
  883. [0] - \WWWGrab\Grab
  884. [1] - HTM, HTML, SHTM, SHTML, JPG, GIF, WAV, AU, CLASS, and JAVA.
  885. [2] - The shareware version of WWWGrab/2 is limited to five levels.
  886. [3] - The default value for the shareware version is "index.html".
  887. [4] - Combines NOIMG, NOSND, and NOAPPLET.
  888.  
  889.  
  890. Examples
  891. --------
  892. Basic authorization example:
  893.      URL http://www.sec1.host/secured/pages/index.html
  894.      LOCALPATH \MyGrab\Secured
  895.      MAXDEEP 5
  896.      MAXTRIES 3
  897.      REALM www.sec1.host "Realm 1" WAEFfgSDRGwer==
  898.      REALM www.sec1.host "Realm 2" WQREGFbsdgiwheg
  899.  
  900.  
  901. The default configuration file example:
  902.  
  903. ;; Definition of common extensions
  904. ;
  905. EXTENSIONS HTML HTM SHTML SHTM
  906. EXTENSIONS JPG JPEG GIF XBM
  907. EXTENSIONS WAV VOC AU
  908. EXTENSIONS JAVA CLASS
  909.  
  910. ;
  911. ;; The default value for the MAXDEEP command
  912. ;
  913. MAXDEEP 5
  914.  
  915. ;
  916. ;; The default value for the NICE command
  917. ;
  918. NICE 3
  919.  
  920.  
  921. Credits
  922. -------
  923.      I  want  to  express  my thanks to all who have tested WWWGrab/2 on a
  924. voluntary  basis and reported errors and gave constructive suggestions for
  925. improvement.  Without  their  help  WWWGrab/2  would  not  have  been this
  926. successful.
  927.  
  928. Special thanks go out to:
  929.  
  930.    * Tom Wheeler
  931.    * Andreas Krattenmacher
  932.    * Mike Nice
  933.    * Stanislav Koci (St/\n)
  934.    * Jochen Riemer
  935.    * Fernando Cascsia
  936.    * Vincent Bernat
  937.  
  938. A special, BIG thanks goes to Tom Wheeler for checking the documentation.
  939.  
  940. Spanish language translation by Fernando Cassia (fcassia@theoffice.net).
  941. http://ourworld.compuserve.com/homepages/fcassia/sos2.htm
  942.  
  943. French language translation by Vincent Bernat (bernat@mail.dotcom.fr).
  944. http://w.home.ml.org ou http://www.mygale.org/07/www/
  945.  
  946.  
  947.      Thanks  also  to  HELLOWEEN, GAMMA RAY, Michael Kiske, MANOWAR, Alice
  948. Cooper,  GREEN  DAY, and all the other great musicians who provide me with
  949. music to listen to while I am programming.
  950.  
  951.  
  952. ---------------------------------------------------------------------------
  953.  
  954. If you like this program, please:
  955.      Send  me  $15.00,  the  normal  user  fee for WWWGrab/2. You may send
  956.      more :-)
  957.  
  958.      This  registration  fee is for INDIVIDUALS. A negotiated site licence
  959. is   required  for  businesses,  governments  and  other  institutions  if
  960. WWWGrab/2  is  to  be used on more than one computer at that site. Contact
  961. the author for details on site license discounts.
  962.  
  963.  
  964.      Upon   registration   you  will  receive  (via  email)  a  registered
  965. personalized   copy   of  the  most  recent  version  of  WWWGrab/2.  This
  966. registration makes all subsequent versions available free of charge.
  967.  
  968.      See the REGISTER.ENG file for registration information.
  969.  
  970. If you don't like this program:
  971.      Please tell me why not, then delete it.
  972.  
  973. ---------------------------------------------------------------------------
  974.  
  975. Remember that software of this kind lives or dies by the response it gets.
  976.  
  977. You may get the most recent version of the WWWGrab/2 at:
  978. http://wwwgrab.home.ml.org                       or:
  979. http://www.geocities.com/SiliconValley/Heights/7262/
  980.  
  981.  
  982. You may send comments, suggestions, bugs, etc. to:
  983. email:
  984.   jirkar@writeme.com
  985.   jirkar@hotmail.com
  986.   Jiri_Rubes@slad.fido.cz
  987.  
  988. FidoNet:
  989.   Jiri Rubes 2:421/37
  990.  
  991.  
  992.  
  993.