home *** CD-ROM | disk | FTP | other *** search
/ OS/2 Shareware BBS: 35 Internet / 35-Internet.zip / sslurp20.zip / sslurp.HLP (.txt) < prev   
OS/2 Help File  |  1999-03-14  |  13KB  |  476 lines

  1.  
  2. ΓòÉΓòÉΓòÉ 1. Sslurp! ΓòÉΓòÉΓòÉ
  3.  
  4.                                    Sslurp! 2.0
  5.  
  6. Sslurp! can retrieve Web pages from a HTTP (WWW) server. It can be configured 
  7. to follow all hyperlinks on the page that lead to other pages on the same 
  8. server. Images on the pages can be retrieved as well. All pages are stored on 
  9. disk and can be viewed later using your web browser. 
  10.  
  11. Sslurp contains a small non-caching filtering proxy server that can be used to 
  12. view downloaded pages as well as for filtered WWW access. 
  13.  
  14. Sslurp! can make use of a proxy HTTP server, speeding up the whole procedure. 
  15.  
  16. Sslurp! requires at least one HPFS partition! 
  17.  
  18. Topics: 
  19.  
  20.       The main window 
  21.       Common tasks 
  22.       The proxy server 
  23.       Command line options 
  24.       For the techies 
  25.       Contacting the author 
  26.  
  27.  
  28. ΓòÉΓòÉΓòÉ 1.1. The main window ΓòÉΓòÉΓòÉ
  29.  
  30. On the main window you find the following elements: 
  31.  
  32.      A drop down list where you enter the URL. The last 15 URLs are saved. 
  33.       You can quickly enter an URL here by dragging an URL object from a WPS 
  34.       folder to this entry field. 
  35.      "Start", "Stop" and "Skip" buttons. 
  36.      A list of processed and pending URLs. For processed URLs, a status 
  37.       message is displayed. The list is cleared when starting with a new URL. 
  38.      A status line. Its contents are: 
  39.         -  the current URL 
  40.         -  total number of data bytes retrieved 
  41.         -  total number of data bytes of the current URL 
  42.         -  number of bytes retrieved of the current URL 
  43.         -  number of URLs retrieved 
  44.         -  number of URLs tried 
  45.         -  number of pending URLs. 
  46.  
  47.  
  48. ΓòÉΓòÉΓòÉ 1.2. Common tasks ΓòÉΓòÉΓòÉ
  49.  
  50. Here's how to perform some common task with Sslurp!: 
  51.  
  52. I want to download a complete web site. 
  53.  
  54. In the setup, set "Links" to "same server, all types". Enable "Inline images" 
  55. on the "Options" page. Then enter the root URL of the site (e.g. 
  56. "http://www.thesite.com/"), then press "Start". 
  57.  
  58. I want to download a subrange of a web site. 
  59.  
  60. In the setup, set "Links" to "don't climb up, all types" and enable "Inline 
  61. images" on the "Options" page. Then enter the URL of the site (e.g. 
  62. "http://www.thesite.com/some/path/start.html"), then press "Start". 
  63.  
  64. I want to download a single web page with images, but only if it's changed. 
  65.  
  66. In the setup, set "Links" to "none". Enable "Inline images" and "Retrieve 
  67. modified items only". Then enter the URL of the page (e.g. 
  68. "http://www.thesite.com/pageofinterest.html"), then press "Start". 
  69.  
  70.  
  71. ΓòÉΓòÉΓòÉ 1.3. Sslurp's proxy server ΓòÉΓòÉΓòÉ
  72.  
  73. Sslurp contains a simple non-caching filtering HTTP proxy server. It's 
  74. "non-caching" because it does not store items that are retrieved through it. 
  75. It's "filtering" because filter patterns can be defined which avoid unwanted 
  76. items to be downloaded. It's a "HTTP" proxy because it only handles the HTTP 
  77. protocol. It's "simple" because it's - um - simple. 
  78.  
  79. The proxy works like this: 
  80.  
  81.    1. It accepts connections from HTTP clients, e.g. your web browser. 
  82.  
  83.    2. A new thread is created that handles the new connection. Sslurp does not 
  84.       limit the number of threads. It's expected that the client program does 
  85.       this (and web browsers usually do). 
  86.  
  87.    3. Sslurp checks if the requested URL matches one of the filter patterns. 
  88.       When it does, an error reply is returned. 
  89.  
  90.    4. When the URL is not filtered Sslurp checks if the item is present in the 
  91.       download area. When it is found on disk, its content is returned. 
  92.  
  93.    5. When the item is neither filtered nor present, Sslurp connects to the 
  94.       destination server or to another proxy (depending on Sslurp's 
  95.       configuration) and forwards the request and corresponding reply. 
  96.  
  97.  Why use the proxy? 
  98.  
  99.  When viewing downloaded items directly with your web browser, it may have 
  100.  problems finding some of the items. The reason is that links in HTML files 
  101.  often are absolute instead of relative, e.g. "/dir/item" instead of 
  102.  "../../dir/item". The browser resolves these links relative to the root 
  103.  directory of your download drive instead of the server's sub-directory. Also, 
  104.  some characters in URLs have to be converted because they are not legal in 
  105.  file names. The browser can't perform these conversions, only Sslurp can. 
  106.  
  107.  The proxy solves these problems. When the browser requests an item through the 
  108.  proxy, Sslurp knows where the item is stored and which conversions were 
  109.  performed when the item was downloaded. Files are always found if present. 
  110.  
  111.  How to configure the proxy 
  112.  
  113.  The proxy listens on a certain port number for incoming connections. The 
  114.  default port number is 3128. You can select a different port number with the 
  115.  -N command line option. 
  116.  
  117.  Only one instance of a running Sslurp can run the proxy server. It usually is 
  118.  the first instance that is started. 
  119.  
  120.  To use the proxy server you have to configure your browser to make HTTP 
  121.  requests through a proxy. Enter the host name of the computer running Sslurp 
  122.  as the HTTP proxy server (this usually is the same computer, but may also be a 
  123.  different one). 
  124.  
  125.  How to configure filtering 
  126.  
  127.  Sslurp reads the file "filter.lst" at startup. This file contains filter 
  128.  patterns, one pattern per line. The file format is: 
  129.  
  130.   <Type><space><pattern>
  131.  
  132.  <Type> specifies the pattern type and can be one of the following: 
  133.  
  134.  P         <pattern> is a prefix pattern, i.e. any URL starting with the 
  135.            specified string is filtered. Sslurp matches patterns after the 
  136.            "http://" part, i.e. starting with the host name. For example, 
  137.            "http://www.host.com/item" matches the prefix pattern 
  138.            "www.host.com/". 
  139.  
  140.  S         <pattern> is a suffix pattern, i.e. any URL ending with the 
  141.            specified string is filtered. Sslurp matches patterns before 
  142.            possible URL parameters. For example, "http://www.host.com/item" 
  143.            matches the suffix pattern "/item" and 
  144.            "http://www.host.com/item.cgi?param=x" matches the suffix pattern 
  145.            "/item.cgi". 
  146.  
  147.  I         <pattern> is a substring of an URL, i.e. any URL containing 
  148.            <pattern> is filtered. 
  149.  
  150.  <space> is exactly one space character. 
  151.  
  152.  <pattern> is a string. Patterns are case-sensitive. 
  153.  
  154.  
  155. ΓòÉΓòÉΓòÉ 1.4. Command line options ΓòÉΓòÉΓòÉ
  156.  
  157. Sslurp! can be run in automated mode, i.e. it takes one or more URLs as program 
  158. parameters, downloads these pages according to the program options, and exits 
  159. when finished. 
  160.  
  161. The command line syntax is: 
  162.  
  163. SSLURP.EXE [Options] [<url> | @<listfile>]*
  164.  
  165. In other words, you can specify 
  166.  
  167.      options, 
  168.      one or more URLs, and 
  169.      one or more list files. Each line in a list file is interpreted as URL. 
  170.       Empty lines and lines starting with ';' are ignored. 
  171.  
  172.  The following command line options are supported: 
  173.  
  174.  -T<dir>   Retrieved items are stored in the given directory. 
  175.  
  176.  -L-       No links are followed 
  177.  
  178.  -Ls       Only links to the same server are followed 
  179.  
  180.  -Ld       Only links that are not pointing upward are followed 
  181.  
  182.  -La       All links are followed 
  183.  
  184.  -E["extensions"] Only links with one of the given file extensions are followed 
  185.  
  186.  -X["extensions"] Only links excluding the ones of the given file extensions 
  187.            are followed 
  188.  
  189.  -I+       Inline images are downloaded 
  190.  
  191.  -I-       Inline images are not downloaded 
  192.  
  193.  -Ia       Inline images are downloaded, even those on different servers 
  194.  
  195.  -A+       Applets are downloaded 
  196.  
  197.  -A-       Applets are not downloaded 
  198.  
  199.  -Aa       Applets are downloaded, even those on different servers 
  200.  
  201.  -U+       Only items newer than local copies are downloaded 
  202.  
  203.  -U-       All items are downloaded 
  204.  
  205.  -S<size>  Restricts downloaded items to <size> bytes 
  206.  
  207.  -S-       Downloads are not restricted by size 
  208.  
  209.  -D<number> Restricts followed links to <number> steps 
  210.  
  211.  -D-       Downloads are not restricted by link depth 
  212.  
  213.  -P+       Uses the proxy server 
  214.  
  215.  -P-       Does not use the proxy server 
  216.  
  217.  -O<file>  Uses the specified file for logging 
  218.  
  219.  -N<number> Specifies port number for internal proxy 
  220.  
  221.  Note: Command line options override options given in the setup. For options 
  222.  not given in the command line, the setup options are used. So if an option is 
  223.  turned on in the setup, you must explicitly switch it off to deactivate it. 
  224.  It's not sufficient to just omit the command line option! Stored options are 
  225.  not modified by command line options. 
  226.  
  227.  When finished, Sslurp! returns one of the following ERRORLEVEL values: 
  228.  
  229.  0         Everything OK 
  230.  1         Invalid command line option 
  231.  2         Problem(s) with one of the list files 
  232.  10        Other error 
  233.  
  234.  
  235. ΓòÉΓòÉΓòÉ 1.5. For the techies ΓòÉΓòÉΓòÉ
  236.  
  237. Here's some technical information if you're interested: 
  238.  
  239.      Sslurp! uses HTTP 1.0. HTTP 0.9 is not supported. If some web site is 
  240.       still using a HTTP 0.9 server, its contents may be just as outdated, so 
  241.       you might not miss anything. HTTP 1.1 server replies are recognized. 
  242.  
  243.      Sslurp! only follows HTTP links, not FTP or others. 
  244.  
  245.      Sslurp! regards <IMG SRC=...> and <BODY BACKGROUND=...> as inline images. 
  246.  
  247.      If the file name of a retrieved page isn't specified, it's stored as 
  248.       INDEX.HTML. 
  249.  
  250.      The "Last-Modified" timestamp is stored in the file's EAs. The EA name is 
  251.       HTTP.LMODIFIED and is of type EAT_ASCII. 
  252.  
  253.      The "Date" timestamp is stored in the file's EAs. The EA name is 
  254.       HTTP.DATE and is of type EAT_ASCII. 
  255.  
  256.      The "Content-Type" is stored in the file's EAs. The EA name is HTTP.CTYPE 
  257.       and is of type EAT_ASCII. 
  258.  
  259.      The "Expires" timestamp is stored in the file's EAs. The EA name is 
  260.       HTTP.EXPIRES and is of type EAT_ASCII. 
  261.  
  262.      The URL of the retrieved item is stored in the file's .SUBJECT EA. 
  263.  
  264.      Some characters in the URL are converted when building the path name of 
  265.       the file. However, no conversion to FAT (8.3) names is performed! 
  266.  
  267.      If a page is redirected, the redirection is automatically followed, but 
  268.       only if the new location is on the same server! 
  269.  
  270.      Sslurp! has been developed on and tested with OS/2 Warp 4.0. It should 
  271.       also work with the following configurations: 
  272.  
  273.         -  Warp 3.0 with IAK 
  274.         -  Warp 3.0 with TCP/IP 2.0 
  275.         -  Warp 3.0 Connect (TCP/IP 3.0) 
  276.         -  Warp Server 
  277.  
  278.  
  279. ΓòÉΓòÉΓòÉ 1.6. Contacting the author ΓòÉΓòÉΓòÉ
  280.  
  281. Sslurp! was developed by Michael Hohner. He can be reached electronically at: 
  282.  
  283.  EMail:              miho@n-online.de 
  284.  Fidonet:            2:2490/1050.17 
  285.  
  286.  
  287. ΓòÉΓòÉΓòÉ 2. File menu ΓòÉΓòÉΓòÉ
  288.  
  289.  Exit 
  290.            Ends the program. 
  291.  
  292.  
  293. ΓòÉΓòÉΓòÉ 3. Setup ΓòÉΓòÉΓòÉ
  294.  
  295.  Options 
  296.            Specify all program options. 
  297.  
  298.  Servers 
  299.            Setup server specific options, e.g. authentication. 
  300.  
  301.  
  302. ΓòÉΓòÉΓòÉ 3.1. Links ΓòÉΓòÉΓòÉ
  303.  
  304.  none 
  305.            No links are followed 
  306.  
  307.  all 
  308.            All links (even those to other servers) are followed. Be very 
  309.            careful with this option! 
  310.  
  311.  same server 
  312.            Only links to items on the same server are followed. 
  313.  
  314.  don't climb up 
  315.            Hyperlinks to items that are hierarchically higher than the initial 
  316.            URL are not followed. Otherwise, all links to items on the same 
  317.            server are followed. 
  318.  
  319.            Example: 
  320.  
  321.            If you started with http://some.site/dir1/index.html, and the 
  322.            current page is http://some.site/dir1/more/levels/abc.html, a link 
  323.            that points to http://some.site/otherdir/index.html wouldn't be 
  324.            followed, but a link to http://some.site/dir1/x/index.html would. 
  325.  
  326.  all types 
  327.            All types of links are followed, restricted only by the above 
  328.            settings. 
  329.  
  330.  including 
  331.            You can enter a set of extensions (separated by spaces, commas or 
  332.            semicolons) of items to retrieve. Links to items with other 
  333.            extensions are ignored. 
  334.  
  335.            Example: With "htm html", Sslurp! only follows links to other HTML 
  336.            pages, but does not download other hyperlinked files. 
  337.  
  338.  excluding 
  339.            Reverse of the above option. Only links to items not having one of 
  340.            the given extensions are followed. 
  341.  
  342.  Max link depth 
  343.            Limits the depth of links to follow to the specified number. A level 
  344.            of "1" specifies the initial page. 
  345.  
  346.            Example: 
  347.  
  348.            If page A contains a link to B, and B contains a link to C, A would 
  349.            be level 1, B would be level 2 and C would be level 3. A maximum 
  350.            link depth of "2" would retrieve pages A and B, but not C. 
  351.  
  352.  Max size 
  353.            Limits the size of items to download. If the server announces the 
  354.            size and it's larger than the number specified, the item is skipped. 
  355.            If the server doesn't announce the size, the item is truncated when 
  356.            the maximum size is reached. 
  357.  
  358.  Retries 
  359.            If set to >0, retries failed downloads up to the specified number of 
  360.            times. If set to 0, every URL is only downloaded once. 
  361.  
  362.  
  363. ΓòÉΓòÉΓòÉ 3.2. Options ΓòÉΓòÉΓòÉ
  364.  
  365. These settings influence which items will be downloaded and how it'll be done. 
  366.  
  367.  Inline images 
  368.            If checked, inline images are also retrieved. 
  369.  
  370.  from other servers 
  371.            If checked, inline images located on other servers are also 
  372.            retrieved. Otherwise only images from the same server are 
  373.            downloaded. 
  374.  
  375.  Java applets 
  376.            If checked, java applets are also retrieved. 
  377.  
  378.  from other servers 
  379.            If checked, applets located on other servers are also retrieved. 
  380.            Otherwise only applets from the same server are downloaded. 
  381.  
  382.  Retrieve modified items only 
  383.            An item is only retrieved if it's newer than the local copy. 
  384.            Strongly recommended! 
  385.  
  386.  
  387. ΓòÉΓòÉΓòÉ 3.3. General ΓòÉΓòÉΓòÉ
  388.  
  389.  Proxy 
  390.            Enter the host name of a proxy HTTP server. You may also specify a 
  391.            port number for the proxy server. Check Enable to finally use the 
  392.            server. Contact your service provider to get this data. 
  393.  
  394.            Note: Only enter the host name, not the URL (e.g. "proxy.isp.com", 
  395.            not "http://proxy.isp.com:1234/")! 
  396.  
  397.  User name 
  398.            Enter your user ID here if your proxy server requires 
  399.            authentication. 
  400.  
  401.  Password 
  402.            Password for proxy authentication. 
  403.  
  404.  Email address 
  405.            Enter your EMail address. It is included in every request. Don't 
  406.            enter anything here if you don't want your EMail address to be 
  407.            revealed. 
  408.  
  409.  
  410. ΓòÉΓòÉΓòÉ 3.4. Paths ΓòÉΓòÉΓòÉ
  411.  
  412.  Path for retrieved data 
  413.            Path where retrieved pages and images are stored. This path and 
  414.            subpaths are created automatically. 
  415.  
  416.  
  417. ΓòÉΓòÉΓòÉ 3.5. Logging ΓòÉΓòÉΓòÉ
  418.  
  419. These options control logging. 
  420.  
  421.  Log file 
  422.            Path and name of the log file 
  423.  
  424.  Additional information 
  425.            Log additional (but somewhat optional) messages 
  426.  
  427.  Server replies 
  428.            Log all lines in the server's reply 
  429.  
  430.  Debug messages 
  431.            Log messages used for debugging purposes (turn on if requested). 
  432.  
  433.  
  434. ΓòÉΓòÉΓòÉ 3.6. Server list ΓòÉΓòÉΓòÉ
  435.  
  436. A list of base URLs is displayed. 
  437.  
  438. Press New to add a new URL with settings. 
  439.  
  440. Press Change to change the settings of the selected URL. 
  441.  
  442. Press Delete to delete the selected URL. 
  443.  
  444.  
  445. ΓòÉΓòÉΓòÉ 3.7. Server ΓòÉΓòÉΓòÉ
  446.  
  447.  Base URL 
  448.            Set of URLs (this item and all items hierarchically below) for which 
  449.            these settings apply. This usually specifies a directory on a 
  450.            server. 
  451.  
  452.            Example: 
  453.  
  454.            If you enter "http://some.server/basedir/", these settings apply to 
  455.            "http://some.server/basedir/page1.html", but not to 
  456.            "http://some.server/otherdir/b.html". 
  457.  
  458.  User name 
  459.            User name or user ID used for basic authorization. 
  460.  
  461.  Password 
  462.            Password used for basic authorization. 
  463.  
  464.  
  465. ΓòÉΓòÉΓòÉ 4. Help menu ΓòÉΓòÉΓòÉ
  466.  
  467.  General help 
  468.            Provides general help 
  469.  
  470.  Product information 
  471.            Displays name, version number, copyright information etc. 
  472.  
  473.  
  474. ΓòÉΓòÉΓòÉ 5. About ΓòÉΓòÉΓòÉ
  475.  
  476. This page intentionally left blank.