home *** CD-ROM | disk | FTP | other *** search
/ PC Online 1998 September / PCO_0998.ISO / filesbbs / os2 / sslurp15.arj / SSLURP15.ZIP / sslurp.HLP (.txt) < prev   
Encoding:
OS/2 Help File  |  1998-07-11  |  10.2 KB  |  371 lines

  1.  
  2. ΓòÉΓòÉΓòÉ 1. Sslurp! ΓòÉΓòÉΓòÉ
  3.  
  4.                                    Sslurp! 1.5
  5.  
  6. Sslurp! can retrieve Web pages from a HTTP (WWW) server. It can be configured 
  7. to follow all hyperlinks on the page that lead to other pages on the same 
  8. server. Images on the pages can be retrieved as well. All pages are stored on 
  9. disk and can be viewed later using your web browser. 
  10.  
  11. Sslurp! can make use of a proxy HTTP server, speeding up the whole procedure. 
  12. Sslurp! requires at least one HPFS partition! 
  13.  
  14. Topics: 
  15.  
  16.       The main window 
  17.       Common tasks 
  18.       Command line options 
  19.       For the techies 
  20.       Contacting the author 
  21.  
  22.  
  23. ΓòÉΓòÉΓòÉ 1.1. The main window ΓòÉΓòÉΓòÉ
  24.  
  25. On the main window you find the following elements: 
  26.  
  27.      A drop down list where you enter the URL. The last 15 URLs are saved. 
  28.       You can quickly enter an URL here by dragging an URL object from a WPS 
  29.       folder to this entry field. 
  30.      "Start", "Stop" and "Skip" buttons. 
  31.      A list of processed and pending URLs. For processed URLs, a status 
  32.       message is displayed. The list is cleared at when starting with a new 
  33.       URL. 
  34.      A status line. Its contents are: 
  35.         -  the current URL 
  36.         -  total number of data bytes retrieved 
  37.         -  total number of data bytes of the current URL 
  38.         -  number of bytes retrieved of the current URL 
  39.         -  number of URLs retrieved 
  40.         -  number of URLs tried 
  41.         -  number of pending URLs. 
  42.  
  43.  
  44. ΓòÉΓòÉΓòÉ 1.2. Common tasks ΓòÉΓòÉΓòÉ
  45.  
  46. Here's how to perform some common task with Sslurp!: 
  47.  
  48. I wan't to suck a complete web site. 
  49.  
  50. In the setup, enable "Follow links", "Inline images". Disable "Don't climb up". 
  51. Then enter the root URL of the site (e.g. "http://www.thesite.com/"), then 
  52. press "Start". 
  53.  
  54. I wan't to suck a subrange of a web site. 
  55.  
  56. In the setup, enable "Follow links", "Inline images" and "Don't climb up". Then 
  57. enter the URL of the site (e.g. "http://www.thesite.com/some/path/start.html"), 
  58. then press "Start". 
  59.  
  60. I wan't to suck a single web page with images, but only if it's changed. 
  61.  
  62. In the setup, disable "Follow links". Enable "Inline images" and "Modified 
  63. pages only". Then enter the URL of the page (e.g. 
  64. "http://www.thesite.com/pageofinterest.html"), then press "Start". 
  65.  
  66.  
  67. ΓòÉΓòÉΓòÉ 1.3. Command line options ΓòÉΓòÉΓòÉ
  68.  
  69. Sslurp! can be run in automated mode, i.e. it takes one or more URLs as program 
  70. parameters, downloads these pages according to the program options, and exits 
  71. when finished. 
  72.  
  73. The command line syntax is: 
  74.  
  75. SSLURP.EXE [Options] [<url> | @<listfile>]*
  76.  
  77. In other words, you can specify 
  78.  
  79.      options, 
  80.      one or more URLs, and 
  81.      one or more list files. Each line in a list file is interpreted as URL. 
  82.       Empty lines and lines starting with ';' are ignored. 
  83.  
  84.  The following command line options are supported: 
  85.  
  86.  -T<dir>   Retrieved items are stored in the given directory. 
  87.  
  88.  -L-       No links are followed 
  89.  
  90.  -Ls       Only links to the same server are followed 
  91.  
  92.  -Ld       Only links that are not pointing upward are followed 
  93.  
  94.  -La       All links are followed 
  95.  
  96.  -E["extensions"] Only links with one of the given file extensions are followed 
  97.  
  98.  -X["extensions"] Only links excluding the ones of the given file extensions 
  99.            are followed 
  100.  
  101.  -I+       Inline images are downloaded 
  102.  
  103.  -I-       Inline images are not downloaded 
  104.  
  105.  -Ia       Inline images are downloaded, even those on different servers 
  106.  
  107.  -A+       Applets are downloaded 
  108.  
  109.  -A-       Applets are not downloaded 
  110.  
  111.  -Aa       Applets are downloaded, even those on different servers 
  112.  
  113.  -U+       Only items newer than local copies are downloaded 
  114.  
  115.  -U-       All items are downloaded 
  116.  
  117.  -S<size>  Restricts downloaded items to <size> bytes 
  118.  
  119.  -S-       Downloads are not restricted by size 
  120.  
  121.  -D<number> Restricts followed links to <number> steps 
  122.  
  123.  -D-       Downloads are not restricted by link depth 
  124.  
  125.  -P+       Uses the proxy server 
  126.  
  127.  -P-       Does not use the proxy server 
  128.  
  129.  -O<file>  Uses the specified file for logging 
  130.  
  131.  Note: Command line options override options given in the setup. For options 
  132.  not given in the command line, the setup options are used. So if an option is 
  133.  turned on in the setup, you must explicitly switch it off to deactivate it. 
  134.  It's not sufficient to just omit the command line option! Stored options are 
  135.  not modified by command line options. 
  136.  
  137.  When finished, Sslurp! returns one of the following ERRORLEVEL values: 
  138.  
  139.  0         Everything OK 
  140.  1         Invalid command line option 
  141.  2         Problem(s) with one of the list files 
  142.  10        Other error 
  143.  
  144.  
  145. ΓòÉΓòÉΓòÉ 1.4. For the techies ΓòÉΓòÉΓòÉ
  146.  
  147. Here's some technical information if you're interested: 
  148.  
  149.      Sslurp! uses HTTP 1.0. HTTP 0.9 is not supported. If some web site is 
  150.       still using a HTTP 0.9 server, its contents may be just as outdated, so 
  151.       you might not miss anything. HTTP 1.1 server replies are recognized. 
  152.  
  153.      Sslurp! only follows HTTP links, not FTP or others. 
  154.  
  155.      Sslurp! regards <IMG SRC=...> and <BODY BACKGROUND=...> as inline images. 
  156.  
  157.      If the file name of a retrieved page isn't specified, it's stored as 
  158.       INDEX.HTML. 
  159.  
  160.      The "Last-Modified" timestamp is stored in the file's EAs. The EA name is 
  161.       HTTP.LMODIFIED and is of type EAT_ASCII. 
  162.  
  163.      Some characters in the URL are converted when building the path name of 
  164.       the file. However, no conversion to FAT (8.3) names is performed! 
  165.  
  166.      If a page is redirected, the redirection is automatically followed, but 
  167.       only if the new location is on the same server! 
  168.  
  169.      Sslurp! has been developed on and tested with OS/2 Warp 4.0. It should 
  170.       also work with the following configurations: 
  171.  
  172.         -  Warp 3.0 with IAK 
  173.         -  Warp 3.0 with TCP/IP 2.0 
  174.         -  Warp 3.0 Connect (TCP/IP 3.0) 
  175.         -  Warp Server 
  176.  
  177.  
  178. ΓòÉΓòÉΓòÉ 1.5. Contacting the author ΓòÉΓòÉΓòÉ
  179.  
  180. Sslurp! was developed by Michael Hohner. He can be reached electronically at: 
  181.  
  182.  EMail:              miho@n-online.de (new!) 
  183.  Fidonet:            2:2490/2520.17 
  184.  
  185.  
  186. ΓòÉΓòÉΓòÉ 2. File menu ΓòÉΓòÉΓòÉ
  187.  
  188.  Exit 
  189.            Ends the program. 
  190.  
  191.  
  192. ΓòÉΓòÉΓòÉ 3. Setup ΓòÉΓòÉΓòÉ
  193.  
  194.  Options 
  195.            Specify all program options. 
  196.  
  197.  Servers 
  198.            Setup server specific options, e.g. authentication. 
  199.  
  200.  
  201. ΓòÉΓòÉΓòÉ 3.1. General ΓòÉΓòÉΓòÉ
  202.  
  203.  Proxy 
  204.            Enter the host name of a proxy HTTP server. You may also specify a 
  205.            port number for the proxy server. Check Enable to finally use the 
  206.            server. Contact your service provider to get this data. 
  207.  
  208.            Note: Only enter the host name, not the URL (e.g. "proxy.isp.com", 
  209.            not "http://proxy.isp.com:1234/")! 
  210.  
  211.  User name 
  212.            Enter your user ID here if your proxy server requires 
  213.            authentication. 
  214.  
  215.  Password 
  216.            Password for proxy authentication. 
  217.  
  218.  Email address 
  219.            Enter your EMail address. It is included in every request. Don't 
  220.            enter anything here if you don't want your EMail address to be 
  221.            revealed. 
  222.  
  223.  
  224. ΓòÉΓòÉΓòÉ 3.2. Paths ΓòÉΓòÉΓòÉ
  225.  
  226.  Path for retrieved data 
  227.            Path where retrieved pages and images are stored. This path and 
  228.            subpaths are created automatically. 
  229.  
  230.  
  231. ΓòÉΓòÉΓòÉ 3.3. Logging ΓòÉΓòÉΓòÉ
  232.  
  233. These options control logging. 
  234.  
  235.  Log file 
  236.            Path and name of the log file 
  237.  
  238.  Additional information 
  239.            Log additional (but somewhat optional) messages 
  240.  
  241.  Server replies 
  242.            Log all lines in the server's reply 
  243.  
  244.  Debug messages 
  245.            Log messages used for debugging purposes (turn on if requested). 
  246.  
  247.  
  248. ΓòÉΓòÉΓòÉ 3.4. Links ΓòÉΓòÉΓòÉ
  249.  
  250.  none 
  251.            No links are followed 
  252.  
  253.  all 
  254.            All links (even those to other servers) are followed. Be very 
  255.            careful with this option! 
  256.  
  257.  same server 
  258.            Only links to items on the same server are followed. 
  259.  
  260.  don't climb up 
  261.            Hyperlinks to items that are hierarchically higher than the initial 
  262.            URL are not followed. Otherwise, all links to items on the same 
  263.            server are followed. 
  264.  
  265.            Example: 
  266.  
  267.            If you started with http://some.site/dir1/index.html, and the 
  268.            current page is http://some.site/dir1/more/levels/abc.html, a link 
  269.            that points to http://some.site/otherdir/index.html wouldn't be 
  270.            followed, but a link to http://some.site/dir1/x/index.html would. 
  271.  
  272.  all types 
  273.            All types of links are followed, restricted only by the above 
  274.            settings. 
  275.  
  276.  including 
  277.            You can enter a set of extensions (separated by spaces, commas or 
  278.            semicolons) of items to retrieve. Links to items with other 
  279.            extensions are ignored. 
  280.  
  281.            Example: With "htm html", Sslurp! only follows links to other HTML 
  282.            pages, but does not download other hyperlinked files. 
  283.  
  284.  excluding 
  285.            Reverse of the above option. Only links to items not having one of 
  286.            the given extensions are followed. 
  287.  
  288.  Max link depth 
  289.            Limits the depth of links to follow to the specified number. A level 
  290.            of "1" specifies the initial page. 
  291.  
  292.            Example: 
  293.  
  294.            If page A contains a link to B, and B contains a link to C, A would 
  295.            be level 1, B would be level 2 and C would be level 3. A maximum 
  296.            link depth of "2" would retrieve pages A and B, but not C. 
  297.  
  298.  Max size 
  299.            Limits the size of items to download. If the server announces the 
  300.            size and it's larger than the number specified, the item is skipped. 
  301.            If the server doesn't announce the size, the item is truncated when 
  302.            the maximum size is reached. 
  303.  
  304.  
  305. ΓòÉΓòÉΓòÉ 3.5. Options ΓòÉΓòÉΓòÉ
  306.  
  307. These settings influence which items will be downloaded and how it'll be done. 
  308.  
  309.  Inline images 
  310.            If checked, inline images are also retrieved. 
  311.  
  312.  from other servers 
  313.            If checked, inline images located on other servers are also 
  314.            retrieved. Otherwise only images from the same server are 
  315.            downloaded. 
  316.  
  317.  Java applets 
  318.            If checked, java applets are also retrieved. 
  319.  
  320.  from other servers 
  321.            If checked, applets located on other servers are also retrieved. 
  322.            Otherwise only applets from the same server are downloaded. 
  323.  
  324.  Retrieve modified items only 
  325.            An item is only retrieved if it's newer than the local copy. 
  326.            Strongly recommended! 
  327.  
  328.  
  329. ΓòÉΓòÉΓòÉ 3.6. Server list ΓòÉΓòÉΓòÉ
  330.  
  331. A list of base URLs is displayed. 
  332.  
  333. Press New to add a new URL with settings. 
  334.  
  335. Press Change to change the settings of the selected URL. 
  336.  
  337. Press Delete to delete the selected URL. 
  338.  
  339.  
  340. ΓòÉΓòÉΓòÉ 3.7. Server ΓòÉΓòÉΓòÉ
  341.  
  342.  Base URL 
  343.            Set of URLs (this item and all items hierarchically below) for which 
  344.            these settings apply. This usually specifies a directory on a 
  345.            server. 
  346.  
  347.            Example: 
  348.  
  349.            If you enter "http://some.server/basedir", these settings apply to 
  350.            "http://some.server/basedir/page1.html", but not to 
  351.            "http://some.server/otherdir/b.html". 
  352.  
  353.  User name 
  354.            User name or user ID used for basic authorization. 
  355.  
  356.  Password 
  357.            Password used for basic authorization. 
  358.  
  359.  
  360. ΓòÉΓòÉΓòÉ 4. Help menu ΓòÉΓòÉΓòÉ
  361.  
  362.  General help 
  363.            Provides general help 
  364.  
  365.  Product information 
  366.            Displays name, version number, copyright information etc. 
  367.  
  368.  
  369. ΓòÉΓòÉΓòÉ 5. About ΓòÉΓòÉΓòÉ
  370.  
  371. This page intentionally left blank.