home *** CD-ROM | disk | FTP | other *** search
/ OS/2 Shareware BBS: 35 Internet / 35-Internet.zip / wsuck099.zip / wsuck.HLP (.txt) < prev   
OS/2 Help File  |  1997-01-12  |  9KB  |  304 lines

  1.  
  2. ΓòÉΓòÉΓòÉ 1. WebSucker ΓòÉΓòÉΓòÉ
  3.  
  4.                                  WebSucker 0.99
  5.  
  6. WebSucker can retrieve Web pages from a HTTP (WWW) server. It can be configured 
  7. to follow all hyperlinks on the page that lead to other pages on the same 
  8. server. Images on the pages can be retrieved as well. All pages are stored on 
  9. disk and can be viewed later using your web browser. 
  10.  
  11. WebSucker can make use of a proxy HTTP server, speeding up the whole procedure. 
  12. WebSucker requires at least one HPFS partition! 
  13.  
  14. Topics: 
  15.  
  16.       The main window 
  17.       Common tasks 
  18.       Command line options 
  19.       For the techies 
  20.       Contacting the author 
  21.  
  22.  
  23. ΓòÉΓòÉΓòÉ 1.1. The main window ΓòÉΓòÉΓòÉ
  24.  
  25. On the main window you find the following elements: 
  26.  
  27.      A drop down list where you enter the URL. The last 15 URLs are saved. 
  28.       You can quickly enter an URL here by dragging an URL object from a WPS 
  29.       folder to this entry field. 
  30.      "Start", "Stop" and "Skip" buttons. 
  31.      A log window. Its contents are also stored in the log file. 
  32.      A status line. Its contents are: 
  33.         -  the current URL 
  34.         -  total number of data bytes retrieved 
  35.         -  total number of data bytes of the current URL 
  36.         -  number of bytes retrieved of the current URL 
  37.         -  number of URLs retrieved 
  38.         -  number of URLs tried 
  39.         -  number of URLs queued for inspection (estimated). 
  40.  
  41.  
  42. ΓòÉΓòÉΓòÉ 1.2. Common tasks ΓòÉΓòÉΓòÉ
  43.  
  44. Here's how to perform some common task with WebSucker: 
  45.  
  46. I wan't to suck a complete web site. 
  47.  
  48. In the setup, enable "Follow links", "Inline images". Disable "Don't climb up". 
  49. Then enter the root URL of the site (e.g. "http://www.thesite.com/"), then 
  50. press "Start". 
  51.  
  52. I wan't to suck a subrange of a web site. 
  53.  
  54. In the setup, enable "Follow links", "Inline images" and "Don't climb up". Then 
  55. enter the URL of the site (e.g. "http://www.thesite.com/some/path/start.html"), 
  56. then press "Start". 
  57.  
  58. I wan't to suck a single web page with images, but only if it's changed. 
  59.  
  60. In the setup, disable "Follow links". Enable "Inline images" and "Modified 
  61. pages only". Then enter the URL of the page (e.g. 
  62. "http://www.thesite.com/pageofinterest.html"), then press "Start". 
  63.  
  64.  
  65. ΓòÉΓòÉΓòÉ 1.3. Command line options ΓòÉΓòÉΓòÉ
  66.  
  67. WebSucker can be run in automated mode, i.e. it takes one or more URLs as 
  68. program parameters, downloads these pages according to the program options, and 
  69. exits when finished. 
  70.  
  71. The command line syntax is: 
  72.  
  73. WSUCK.EXE [<url> | @<listfile>]*
  74.  
  75. In other words, you can specify 
  76.  
  77.      one or more URLs, and 
  78.      one or more list files. Each line in a list file is interpreted as URL. 
  79.       Empty lines and lines starting with ';' are ignored. 
  80.  
  81.  When finished, WebSucker returns one of the following ERRORLEVEL values: 
  82.  
  83.  0         Everything OK 
  84.  1         Invalid command line option 
  85.  2         Problem(s) with one of the list files 
  86.  10        Other error 
  87.  
  88.  
  89. ΓòÉΓòÉΓòÉ 1.4. For the techies ΓòÉΓòÉΓòÉ
  90.  
  91. Here's some technical information if you're interested: 
  92.  
  93.      WebSucker uses HTTP 1.0. HTTP 0.9 is not supported. If some web site is 
  94.       still using a HTTP 0.9 server, its contents may be just as outdated, so 
  95.       you might not miss anything. 
  96.  
  97.      WebSucker only follows HTTP links, not FTP or others. 
  98.  
  99.      WebSucker counts <IMG SRC=...> and <BODY BACKGROUND=...> as inline 
  100.       images. 
  101.  
  102.      If the file name of a retrieved page isn't specified, it's stored as 
  103.       INDEX.HTML. 
  104.  
  105.      The "Last-Modified" timestamp is stored in the file's EAs. The EA name is 
  106.       HTTP.LMODIFIED and is of type EAT_ASCII. 
  107.  
  108.      Some characters in the URL are converted when building the path name of 
  109.       the file. However, no conversion to FAT (8.3) names is performed! 
  110.  
  111.      If a page is redirected, the redirection is automatically followed, but 
  112.       only if the new location is on the same server! 
  113.  
  114.      WebSucker has been developed on and tested with OS/2 Warp 4.0. It should 
  115.       also work with the following configurations: 
  116.  
  117.         -  Warp 3.0 with IAK 
  118.         -  Warp 3.0 with TCP/IP 2.0 
  119.         -  Warp 3.0 Connect (TCP/IP 3.0) 
  120.         -  Warp Server 
  121.  
  122.  
  123. ΓòÉΓòÉΓòÉ 1.5. Contacting the author ΓòÉΓòÉΓòÉ
  124.  
  125. WebSucker was developed by Michael Hohner. He can be reached electronically at: 
  126.  
  127.  EMail:              miho@osn.de 
  128.  Fidonet:            2:2490/2520.17 
  129.  CompuServe:         100425,1754 
  130.  
  131.  
  132. ΓòÉΓòÉΓòÉ 2. File menu ΓòÉΓòÉΓòÉ
  133.  
  134.  Exit 
  135.            Ends the program. 
  136.  
  137.  
  138. ΓòÉΓòÉΓòÉ 3. Setup ΓòÉΓòÉΓòÉ
  139.  
  140.  Options 
  141.            Specify all program options. 
  142.  
  143.  
  144. ΓòÉΓòÉΓòÉ 3.1. Servers ΓòÉΓòÉΓòÉ
  145.  
  146.  Proxy 
  147.            Enter the host name of a proxy HTTP server. You may also specify a 
  148.            port number for the proxy server. Check Enable to finally use the 
  149.            server. Contact your service provider to get this data. 
  150.  
  151.            Note: Only enter the host name, not the URL (e.g. "proxy.isp.com", 
  152.            not "http://proxy.isp.com:123/")! 
  153.  
  154.  User name 
  155.            Enter your user ID here if your proxy server requires 
  156.            authentication. 
  157.  
  158.  Password 
  159.            Password for proxy authentication. 
  160.  
  161.  Email address 
  162.            Enter your EMail address. It is included in every request. Don't 
  163.            enter anything here if you don't want your EMail address to be 
  164.            revealed. 
  165.  
  166.  
  167. ΓòÉΓòÉΓòÉ 3.2. Paths ΓòÉΓòÉΓòÉ
  168.  
  169.  Path for retrieved data 
  170.            Path where retrieved pages and images are stored. This path and 
  171.            subpaths are created automatically. 
  172.  
  173.  
  174. ΓòÉΓòÉΓòÉ 3.3. Logging ΓòÉΓòÉΓòÉ
  175.  
  176. These options control logging. 
  177.  
  178.  Log file 
  179.            Path and name of the log file. 
  180.  
  181.  Additional information 
  182.            Log additional (but somewhat optional) messages 
  183.  
  184.  Server replies 
  185.            Log reply lines by the server 
  186.  
  187.  Debug messages 
  188.            Log messages used for debugging purposes (turn on if requested). 
  189.  
  190.  
  191. ΓòÉΓòÉΓòÉ 3.4. Options ΓòÉΓòÉΓòÉ
  192.  
  193. These settings influence which items will be downloaded and how it'll be done. 
  194.  
  195.  Follow links 
  196.            If checked, hyperlinks in retrieved pages are followed. Otherwise, 
  197.            WebSucker retrieves one page only. 
  198.  
  199.            You can enter a set of extensions (separated by spaces, commas or 
  200.            semicolons) of items to retrieve. Links to items with other 
  201.            extensions are ignored. If you don't enter anything, all links are 
  202.            followed. 
  203.  
  204.            Example: With "htm html", WebSucker only follows links to other HTML 
  205.            pages, but does not download other hyperlinked files. 
  206.  
  207.  same servers 
  208.            Only links to items on the same server are followed. 
  209.  
  210.  don't climb up 
  211.            Hyperlinks to items that are hierarchically higher than the initial 
  212.            URL are not followed. Otherwise, all links to items on the same 
  213.            server are followed. 
  214.  
  215.            Example: 
  216.  
  217.            If you started with http://some.site/dir1/index.html, and the 
  218.            current page is http://some.site/dir1/more/levels/abc.html, a link 
  219.            that points to http://some.site/otherdir/index.html wouldn't be 
  220.            followed, but a link to http://some.site/dir1/x/index.html would. 
  221.  
  222.  all 
  223.            All links (even those to other servers) are followed. Be very 
  224.            careful with this option! 
  225.  
  226.  Inline images 
  227.            If checked, inline images are also retrieved. 
  228.  
  229.  from other servers 
  230.            If checked, inline images located on other servers are also 
  231.            retrieved. Otherwise only images from the same server are 
  232.            downloaded. 
  233.  
  234.  Java applets 
  235.            If checked, java applets are also retrieved. 
  236.  
  237.  from other servers 
  238.            If checked, applets located on other servers are also retrieved. 
  239.            Otherwise only applets from the same server are downloaded. 
  240.  
  241.  Retrieve modified items only 
  242.            An item is only retrieved if it's newer than the local copy. 
  243.            Strongly recommended! 
  244.  
  245.  Max link depth 
  246.            Limits the depth of links to follow to the specified number. A level 
  247.            of "1" specifies the initial page. 
  248.  
  249.            Example: 
  250.  
  251.            If page A contains a link to B, and B contains a link to C, A would 
  252.            be level 1, B would be level 2 and C would be level 3. A maximum 
  253.            link depth of "2" would retrieve pages A and B, but not C. 
  254.  
  255.  Max size 
  256.            Limits the size of items to download. If the server announces the 
  257.            size and it's larger than the number specified, the item is skipped. 
  258.            If the server doesn't announce the size, the item is truncated when 
  259.            the maximum size is reached. 
  260.  
  261.  
  262. ΓòÉΓòÉΓòÉ 3.5. Server list ΓòÉΓòÉΓòÉ
  263.  
  264. A list of base URLs is displayed. 
  265.  
  266. Press New to add a new URL with settings. 
  267.  
  268. Press Change to change the settings of the selected URL. 
  269.  
  270. Press Delete to delete the selected URL. 
  271.  
  272.  
  273. ΓòÉΓòÉΓòÉ 3.6. Server ΓòÉΓòÉΓòÉ
  274.  
  275.  Base URL 
  276.            Set of URLs (this item and all items hierarchically below) for which 
  277.            these settings apply. This usually specifies a directory on a 
  278.            server. 
  279.  
  280.            Example: 
  281.  
  282.            If you enter "http://some.server/basedir", these settings apply to 
  283.            "http://some.server/basedir/page1.html", but not to 
  284.            "http://some.server/otherdir/b.html". 
  285.  
  286.  User name 
  287.            User name or user ID used for basic authorization. 
  288.  
  289.  Password 
  290.            Password used for basic authorization. 
  291.  
  292.  
  293. ΓòÉΓòÉΓòÉ 4. Help menu ΓòÉΓòÉΓòÉ
  294.  
  295.  General help 
  296.            Provides general help 
  297.  
  298.  Product information 
  299.            Displays name, version number, copyright information etc. 
  300.  
  301.  
  302. ΓòÉΓòÉΓòÉ 5. About ΓòÉΓòÉΓòÉ
  303.  
  304. This page intentionally left blank.