home *** CD-ROM | disk | FTP | other *** search
/ OS/2 Shareware BBS: 35 Internet / 35-Internet.zip / spman090.zip / spider.HLP (.txt) < prev   
OS/2 Help File  |  1996-09-20  |  7KB  |  200 lines

  1.  
  2. ΓòÉΓòÉΓòÉ 1. SpiderMan ΓòÉΓòÉΓòÉ
  3.  
  4.                                  SpiderMan 0.90
  5.  
  6. SpiderMan can retrieve Web pages from a HTTP (WWW) server. It can be configured 
  7. to follow all hyperlinks on the page that lead to other pages on the same 
  8. server. Images on the pages can be retrieved as well. All pages are stored on 
  9. disk and can be viewed later using your web browser. 
  10.  
  11. SpiderMan can make use of a proxy HTTP server, speeding up the whole procedure. 
  12. SpiderMan requires at least one HPFS partition! 
  13.  
  14. Topics: 
  15.  
  16.       The main window 
  17.       Common tasks 
  18.       Command line options 
  19.       For the techies 
  20.       Contacting the author 
  21.  
  22.  
  23. ΓòÉΓòÉΓòÉ 1.1. The main window ΓòÉΓòÉΓòÉ
  24.  
  25. On the main window you find the following elements: 
  26.  
  27.      A drop down list where you enter the URL. The last 15 URLs are saved. 
  28.      "Start" and "Stop" buttons. 
  29.      A log window. Its contents are also stored in the log file. 
  30.      A status line. Its contents are: 
  31.         -  the current URL 
  32.         -  total number of data bytes retrieved 
  33.         -  total number of data bytes of the current URL 
  34.         -  number of bytes retrieved of the current URL 
  35.         -  number of URLs retrieved 
  36.         -  number of URLs tried 
  37.         -  number of URLs queued for inspection. 
  38.  
  39.  
  40. ΓòÉΓòÉΓòÉ 1.2. Common tasks ΓòÉΓòÉΓòÉ
  41.  
  42. Here's how to perform some common task with SpiderMan: 
  43.  
  44. I wan't to suck a complete web site. 
  45.  
  46. In the setup, enable "Follow links", "Inline images". Disable "Don't climb up". 
  47. Then enter the root URL of the site (e.g. "http://www.thesite.com/"), then 
  48. press "Start". 
  49.  
  50. I wan't to suck a subrange of a web site. 
  51.  
  52. In the setup, enable "Follow links", "Inline images" and "Don't climb up". Then 
  53. enter the URL of the site (e.g. "http://www.thesite.com/some/path/start.html"), 
  54. then press "Start". 
  55.  
  56. I wan't to suck a single web page with images, but only if it's changed. 
  57.  
  58. In the setup, disable "Follow links". Enable "Inline images" and "Modified 
  59. pages only". Then enter the URL of the page (e.g. 
  60. "http://www.thesite.com/pageofinterest.html"), then press "Start". 
  61.  
  62.  
  63. ΓòÉΓòÉΓòÉ 1.3. Command line options ΓòÉΓòÉΓòÉ
  64.  
  65. SpiderMan can be run in automated mode, i.e. it takes one or more URLs as 
  66. program parameters, downloads these pages according to the program options, and 
  67. exits when finished. 
  68.  
  69. The command line syntax is: 
  70.  
  71. SPIDER.EXE [<url> | @<listfile>]*
  72.  
  73. In other words, you can specify 
  74.  
  75.      one or more URLs, and 
  76.      one or more list files. Each line in a list file is interpreted as URL. 
  77.       Empty lines and lines starting with ';' are ignored. 
  78.  
  79.  When finished, SpiderMan returns one of the following ERRORLEVEL values: 
  80.  
  81.  0         Everything OK 
  82.  1         Invalid command line option 
  83.  2         Problem(s) with one of the list files 
  84.  10        Other error 
  85.  
  86.  
  87. ΓòÉΓòÉΓòÉ 1.4. For the techies ΓòÉΓòÉΓòÉ
  88.  
  89. Here's some technical information if you're interested: 
  90.  
  91.      SpiderMan uses HTTP 1.0. HTTP 0.9 is not supported. If some web site is 
  92.       still using a HTTP 0.9 server, its contents may be just as outdated, so 
  93.       you might not miss anything. 
  94.  
  95.      SpiderMan only follows HTTP links, not FTP or others. 
  96.  
  97.      SpiderMan counts <IMG SRC=...> and <BODY BACKGROUND=...> as inline 
  98.       images. 
  99.  
  100.      If the file name of a retrieved page isn't specified, it's stored as 
  101.       INDEX.HTML. 
  102.  
  103.      The "Last-Modified" timestamp is stored in the file's EAs. The EA name is 
  104.       HTTP.LMODIFIED and is of type EAT_ASCII. 
  105.  
  106.      Some characters in the URL are converted when building the path name of 
  107.       the file. However, no conversion to FAT (8.3) names is performed! 
  108.  
  109.      If a page is redirected, the redirection is automatically followed, but 
  110.       only if the new location is on the same server! 
  111.  
  112.      SpiderMan has been developed on and tested with OS/2 Warp 3.0 and TCP/IP 
  113.       2.0 installed. It should also work with the following configurations: 
  114.  
  115.         -  Warp 3.0 with IAK 
  116.         -  Warp 3.0 Connect with TCP/IP 3.0 
  117.         -  Warp Server 
  118.         -  Warp 4.0 (Merlin) 
  119.  
  120.  
  121. ΓòÉΓòÉΓòÉ 1.5. Contacting the author ΓòÉΓòÉΓòÉ
  122.  
  123. SpiderMan was developed by Michael Hohner. He can be reached electronically at: 
  124.  
  125.  EMail:              miho@osn.de 
  126.  Fidonet:            2:2490/2520.17 
  127.  CompuServe:         100425,1754 
  128.  
  129.  
  130. ΓòÉΓòÉΓòÉ 2. Setup ΓòÉΓòÉΓòÉ
  131.  
  132.  Options 
  133.            Specify all program options. 
  134.  
  135.  
  136. ΓòÉΓòÉΓòÉ 2.1. Servers ΓòÉΓòÉΓòÉ
  137.  
  138.  Proxy 
  139.            Enter the host name of a proxy HTTP server. You may also specify a 
  140.            port number for the proxy server. Check Enable to finally use the 
  141.            server. Contact you service provider to get this data. 
  142.  
  143.            Note: Only enter the host name, not the URL (e.g. "proxy.isp.com", 
  144.            not "http://proxy.isp.com:123/")! 
  145.  
  146.  Email address 
  147.            Enter your EMail address. It is included in every request. Don't 
  148.            enter anything here if you don't want your EMail address to be 
  149.            revealed. 
  150.  
  151.  
  152. ΓòÉΓòÉΓòÉ 2.2. Paths ΓòÉΓòÉΓòÉ
  153.  
  154.  Path for retrieved data 
  155.            Path where retrieved pages and images are stored. This path and 
  156.            subpaths are created automatically. 
  157.  
  158.  Log file 
  159.            Path and name of the log file. 
  160.  
  161.  
  162. ΓòÉΓòÉΓòÉ 2.3. Options ΓòÉΓòÉΓòÉ
  163.  
  164.  Follow links 
  165.            If checked, hyperlinks in retrieved documents are followed. 
  166.            Otherwise, SpiderMan just retrieves one page. 
  167.  
  168.            You can enter a set of extensions (separated by spaces, commas or 
  169.            semicolons) to retrieve. Links with other extensions are ignored. If 
  170.            you don't enter anything, all links are followed. 
  171.  
  172.  Inline images 
  173.            If checked, inline images are also retrieved. 
  174.  
  175.  Don't climb up 
  176.            If checked, hyperlinks that are hierarchically higher than the 
  177.            initial URL are not followed. Otherwise, all links to the same 
  178.            server are followed. 
  179.  
  180.  Retrieve modified pages only 
  181.            A document is only retrieved if it's newer than the local copy. 
  182.  
  183.  
  184. ΓòÉΓòÉΓòÉ 3. About ΓòÉΓòÉΓòÉ
  185.  
  186.  
  187. ΓòÉΓòÉΓòÉ 4. File menu ΓòÉΓòÉΓòÉ
  188.  
  189.  Exit 
  190.            Ends the program. 
  191.  
  192.  
  193. ΓòÉΓòÉΓòÉ 5. Help menu ΓòÉΓòÉΓòÉ
  194.  
  195.  General help 
  196.            Provides general help 
  197.  
  198.  Product information 
  199.            Displays name, version number, copyright information etc. 
  200.