home *** CD-ROM | disk | FTP | other *** search
/ OS/2 Shareware BBS: 35 Internet / 35-Internet.zip / grabsite.zip / grabsite.doc < prev    next >
Text File  |  1999-08-18  |  3KB  |  89 lines

  1. 18 Aug 1999.
  2. Daniel Hellerstein (danielh@crosslink.net)
  3.  
  4.                 GrabSite: GET a set of linked documents from a WWW site
  5.  
  6. GrabSite is designed to copy a WWW site to your local hard disk. 
  7.  
  8. It's easy to use: basically, you just specify the URL of the home 
  9. page you want to "grab", and then specify a destination directory 
  10. (on your hard drive) into which the web pages should be copied.
  11.  
  12. GrabSite is freeware, please read the disclaimer at the bottom of this
  13. document.
  14.  
  15.  
  16. I) Installation:
  17.  
  18. To install GrabSite, just copy GRABSITE.CMD to your hard drive,
  19. and then execute it from an OS/2 prompt.
  20.  
  21. For example, if you copied GRABSITE.CMD to D:\GRAB>
  22.       D:\GRAB>grabsite
  23. You will be presented with several (non-gui) questions. 
  24. There is a smattering of on-line help -- just hit the ? key.
  25.  
  26. GRABSITE.CMD is a REXX file -- ambitious users can modify
  27. the user-configurable parameters by editing (using your 
  28. favorite text editor) the user-changeable-parameters section
  29. at the top of GRABFILE.CMD.
  30.  
  31. Note:
  32.   GRABSITE uses the RxSock and RexxUtil dynamic link libraries (DLLs). 
  33.   In almost all cases, these DLLs will already be on your machine
  34.   (they are part of OS/2).
  35.  
  36. II) Description:
  37.  
  38. Basically, GrabSite works by:
  39.   a) Initializing a "to retrieve" list with the URL (the "home page" that
  40.      you requested
  41. Then, GrabSite works it's way down the "to retrieve" list
  42.   b) Get the "top" entry in the "to retrieve list"
  43.   c) GET (using socket calls) this URL
  44.   d) Copy the contents (of what was just retrieved) to the destination
  45.      directory.
  46.   d) If it's a text/html document (as determined by examining
  47.      the Content-type response header), parse the contents and extract
  48.      "links"; including <A> (anchor), <IMG> (image), <FRAME> (frame), 
  49.      and <MAP> (imagemap) links.
  50.   d) Add these extracted links to the bottom of the "to retrieve" list
  51.   e) Discard this top entry, and if there is anything left in the
  52.      "to retrieve" list, go back to step b.
  53.  
  54. In practice, there are a number of modifications possible to these steps.
  55. For example
  56.   * GrabSite can skip retrieval of links  (URIs) that points to a
  57.     script (say,to a CGI-BIN script)
  58.   * GrabSite can skip retrieval of links that are not in the directory, or
  59.     a subdirectory, of the requested "home page"
  60.   * GrabSite can retrieve, but not parse, links that are under a parent
  61.     of the "home page" 
  62.   * GrabSite can skip links that start with user-selectable strings (say, that 
  63.     start with a !)
  64.   * GrabSite can read a site's ROBOTS.TXT file and avoid specified links.
  65.  
  66. For further details, run GRABSITE and answer Y to the
  67.    Would you like to modify configuration parameters?
  68. question; and see the on-line help.
  69. Or, better yet, read the top of GRABSITE.CMD!
  70.  
  71.  
  72.  
  73.                         -------------------------
  74. Disclaimer:
  75.  
  76.    GrabSite is freeware that is to be used at your own risk -- the 
  77.    author and any potentially affiliated institutions disclaim all 
  78.    responsibilties for any consequence arising from the use, misuse, or abuse 
  79.    of this software (or pieces of this software).
  80.  
  81.    You may use this (or subsets of this) program as you see fit,    
  82.    including for commercial purposes; so long as  proper attribution
  83.    is made, and so long as such use does not in any way preclude 
  84.    others from making use of this code.
  85.  
  86.                         -------------------------
  87.  
  88.  
  89.