home *** CD-ROM | disk | FTP | other *** search
/ ARM Club 3 / TheARMClub_PDCD3.iso / programs / comms_networking / linkcheck / !LinkCheck / !Help < prev    next >
Encoding:
Text File  |  1999-02-21  |  17.8 KB  |  416 lines

  1.       |  _  |  __ |  __   !LinkCheck 1.30ß 07Jan99
  2.   |_| | |_) | |_  | |_               1.32  21Feb99
  3.   | | | | \ | |__ | |     Checks a local directory
  4.  —————+—————+—————+—————  containing a web-site to
  5.    /  | /¯\ |  // |  \    verify the existence of
  6.    \  | |¯| | //  |  /    all files referenced in
  7.  —————+—————+//———+—————  hypertext links and image
  8.    \\ |     //    |       tags, eg: <A HREF=...>,
  9.     \\|    //     |       <AREA HREF=...>, <BODY BACKGROUND=...>,
  10.  ————\\———//+—————+—————  <IMG SRC=...>, <IMG USEMAP=..>, <FORM ACTION=..>,
  11.       \\ // |     |       <INPUT NAME="linkto" VALUE=..>, & <FRAME SRC=..>;
  12.       |\×/  |     |       tabling a “connectivity” map.
  13.                           
  14.  Operating Instructions   (please read!  ;-)
  15.  ======================   
  16.  
  17.  To achieve full functionality, LinkCheck needs four options files:
  18.  a BASIC file called !Choices, a text file called !SrcDiry, a text
  19.  file called !BaseURLs, and a text file called !NoFollow.
  20.  A default !Choices file is supplied, and LinkCheck WILL run with
  21.  NONE of these present, so you may well be able to skip setting these up,
  22.  and get straight on with using this application “as is”.
  23.  
  24.  But you are recommended to refer to the descriptions of these, which
  25.  are at the end of these instructions... at least eventually!
  26.  
  27.  Running/installing
  28.  ------------------
  29.  To Run !LinkCheck, double-click on its icon, and it will install itself
  30.  on the icon-bar.
  31.  
  32.  The icon-bar menu
  33.  -----------------
  34.  If you click Menu on the icon-bar icon, you will get a standard menu:
  35.  the first and last items are the usual “Info” and “Quit” items.
  36.  
  37.  Clicking on the second item “Help...” brings up this instructions file.
  38.  
  39.  The third item “Options =>” leads to a window showing the current
  40.  settings for maximum numbers and sizes of files that can be processed,
  41.  and of any special requirements to check FORMs-submissions against.
  42.  If these need amending, see the section “!Choices/Options” at the end
  43.  of these instructions.
  44.  
  45.  If a valid !SrcDiry file is present, containing the full path name of
  46.  a directory containing a site (or an HTML file in it):  clicking on the
  47.  fourth option (the leafname of the above path name) will analyse it.
  48.  Otherwise it is the greyed-out word “!SrcDiry”:  to set this up, see the
  49.  “!SrcDiry” section at the end of these instructions.
  50.  
  51.  The icon-bar icon
  52.  -----------------
  53.  If you click (Select) on the icon-bar icon, a “drop target” window 
  54.  appears.
  55.  
  56.  Later on in a session, if you click Adjust on the icon-bar icon,
  57.  it will offer to re-analyse the last thing it did; 
  58.  this is intended for when you’ve done one run, corrected some errors,
  59.  and want to re-run to check that the errors have now been removed,
  60.  but should NOT be used if you have added any NEW files to the site.
  61.  
  62.  Now to actually get it to do something:
  63.  ======================================
  64.  There are three ways of starting up:
  65.  
  66.  [1]
  67.  Drag EITHER the directory icon of the directory containing your site,
  68.  OR an HTML file within that directory;  on to any of:
  69.  (a) the icon-bar icon,  or
  70.  (b) the “drop target” window if it is showing,  or
  71.  (c) (later on in a session) any LinkCheck window that’s open.
  72.  
  73.  [2]
  74.  To re-do a previously-analysed directory, Adjust on the icon-bar icon.
  75.  
  76.  [3]
  77.  To analyse the directory specified inside !SrcDiry (if that has been
  78.  set up), click Menu on the icon-bar icon, and select the fourth item.
  79.  
  80.  IF "!SrcDiry" contains the pathname of the "root" directory holding the
  81.  full site,
  82.  AND the directory [or file] you drag in is [or is in] a sub-directory
  83.  of that root:
  84.  THEN you are offered the option to process the sub-directory
  85.  "as a sub-site" (meaning that although it will only process pages inside
  86.  the sub-directory, it will follow links/references outside that directory
  87.  to anywhere in the "root");
  88.  OTHERWISE it will only check everywhere inside the sub-directory
  89.  but nowhere outside it
  90.  (and so flag errors for all links to outside the sub-directory).
  91.  
  92.  A window will appear saying “Cataloguing...” (and an hourglass until
  93.  it has finished).
  94.  This happens regardless of whether it was a file or a directory that
  95.  was dragged in.
  96.  If the site directory contains sub-directories, these will be indexed
  97.  recursively.
  98.  Any corrupt files that get encountered will pop up a "warning box":
  99.  this box will self-cancel if you do not acknowlege within 5 seconds;
  100.  but all the warnings are logged and appended to the "Catalog" file.
  101.  
  102.  That window then gets replaced by the
  103.  
  104.  LinkCheck Control window
  105.  ------------------------
  106.  The first three items show:
  107.     the path-name of the file or directory,
  108.     the number of HTML (and .map) files, and
  109.     the total number of files in the directory
  110.  
  111.  [If you had chosen the "sub-site" option, the first number is of
  112.  .html (and .map) files within the sub-site only; the second number
  113.  is the total of all files everywhere in the main root directory].
  114.  
  115.  There are then seven tickable option buttons:
  116.  
  117.  [ ] Do this page only :  only available if a FILE was dragged in;
  118.                           (if it is, it will be pre-ticked).
  119.  [ ] Follow #fragments :  eg as in HREF=page2.html#para3:  this adds to
  120.                           the processing time, so should be left unticked
  121.                           the first time you check a potentially error-
  122.                           ridden directory, to reduce output ;-)
  123.  [€] Check TARGET dest :  check that the TARGET given in <A HREF=...>
  124.                           has been declared in a <FRAME NAME=...>
  125.                           (this MAY give spurious error reports if the
  126.                           pages don't get processed in the right order).
  127.  [ ] Check image dimns :  both for their presence, and being correct:
  128.                           there is no significant increase in processing
  129.                           time, but this can generate a lot of output if
  130.                           your IMG WIDTH/HEIGHT attributes are missing!
  131.  [ ] Verbose reporting :  in the Report file generated:  this will name
  132.                           every HTML/.map file that it processes even if
  133.                           error-free; and also notes any “off-site” URLS
  134.                           (unless they are in an enabled “NoFollow” list)
  135.                           so don’t turn it on for pages full of Links!
  136.  [ ] Use NoFollow list :  only available if !NoFollow exists: any URLs
  137.                           in that file will not be commented on during
  138.                           verbose reporting.
  139.  [ ] Ignore fName case :  allows for “name.ext” in the HTML, but
  140.                           “NAME/EXT” as the local filename (as perhaps
  141.                           a site directory in a DOS partition).
  142.  
  143.  The [Catalog...] button brings up a menu allowing you to View, Print,
  144.  or Save the catalogue that has just been indexed.
  145.  You will need this index to interpret the “Matrix” later;  but there’s
  146.  no need to get the index out immediately:
  147.  If you JUST want this catalogue (do not intend to do a full analysis),
  148.  now’s the time to do it;  but if you DO intend to carry on with the full
  149.  analysis, the opportunity to access the Catalog will be repeated later.
  150.  
  151.  The [Cancel] button does just that.
  152.  
  153.  Click on [Analyse] to start the process;  this produces the
  154.  
  155.  LinkCheck Analysis window
  156.  -------------------------
  157.  The first three long display lines show:
  158.     the name of the file currently being processed;
  159.     the tag being commented upon (if any) and its line number;
  160.     any comment (in blue) or error (in red) it has found.
  161.  
  162.  At bottom left are running counts of the number of files processed, and
  163.  the accumulative number of errors found (“comments” are not counted).
  164.  
  165.  The hourglass is displayed during the scanning process.
  166.  
  167.  Although there is no “Stop” button, if you realise you’ve started
  168.  something you didn’t intend to, you can interrupt the process by
  169.  pressing the [Esc] key.  Obviously, any Report file that was being
  170.  generated will be incomplete, and no Matrix file is generated.
  171.  
  172.  When it’s finally finished, it will summarise any instances of
  173.  pages leading nowhere, unreferenced files, and failed links;
  174.  Note that a a reference to "/cgi-bin/whatever" will usually generate
  175.  a "failed link" error (but "http://www.domain/cgi-bin/..." wouldn't).
  176.  
  177.  Then four more buttons appear:
  178.  [Close] [View...] [Print..] [Save...]
  179.  
  180.  Clicking on [Close] merely closes the window (I bet you guessed that ;-)
  181.  
  182.  Inspecting/saving the results
  183.  -----------------------------
  184.  Clicking on any of the other three brings up a three-item menu:
  185.      Catalog
  186.      Report
  187.      Matrix
  188.  
  189.  “Catalog” refers to a list of all the files in the site directory;
  190.            it also shows the “file numbers” which are VITAL for
  191.            interpreting the “Matrix” output!
  192.  
  193.  “Report”  refers to the report of all errors found (and possibly
  194.            comments too, if Verbose reporting was selected).
  195.  
  196.  “Matrix”  is the “connectivity map” showing all links between all files,
  197.            highlighting any unconnected files, and counting failed links.
  198.  
  199.  When you select a file, what happens depends on the previous button:
  200.  
  201.  [View...] just throws the relevant file into your configured text editor;
  202.  
  203.  [Print..] simply bangs ASCII text out of the parallel printer port
  204.            (none of this fancy PrinterDriver_InscrutableOp stuff  ;-)
  205.            however, it will turn condensed on if printing a wide matrix.
  206.  
  207.  [Save...] produces a “Save as” dialogue box, which is not quite standard
  208.            in that
  209.            (a) it’s not transient, so doesn’t disappear when you go to 
  210.            open a directory to drag the text icon to;  and
  211.            (b) it doesn’t have one of those [OK] buttons which merely
  212.            generate an error telling you you’re an idiot to click on it!
  213.  
  214.            So you must drag the textfile to a destination directory
  215.            (you may edit the suggested leafname first if you want to).
  216.  
  217.            However, saving is actually done by using *Copy, so it
  218.            does NOT implement application-to-application transfer.
  219.  
  220.  Note that all three of the above files can always be found by
  221.  SHIFT-double-clicking on the !LinkCheck icon to open its directory.
  222.  
  223.  The connectivity Matrix
  224.  -----------------------
  225.  [If only a single page was analysed, this report summmarises all the
  226.  links from that page, but there is no “matrix” as such;  the following
  227.  description only applies when a whole site directory has been analysed]
  228.  
  229.  If there are n HTML files, and N files in total:
  230.  
  231.  The top line says “\Fr” (meaning “from”), followed by the numbers
  232.  1 to n, followed by “To”.
  233.  
  234.  The left-hand column is headed “To\”, followed by the numbers 1 to N
  235.  (with a gap after the first n, to separate HTML files from “others”).
  236.  
  237.  Note that nowhere is there any mention of actual fileNAMES;  you must
  238.  refer to the “Catalog” to decode the numbers  (basically, there just
  239.  isn’t room to squeeze full names into a potentially very wide table).
  240.  
  241.  The number in each cell of the table is the number of times there is
  242.  a reference in the file with that column number to the file with that
  243.  row number.
  244.  
  245.  The (n+1)th column contains the totals for each row, ie the number of
  246.  times the file in that row has had a reference to it.
  247.  If a total of zero occurs, it will be asterisked, because it means that 
  248.  that page or file is never accessed or referenced.
  249.  
  250.  The (N+1)th row contains the totals for each column, ie the number of
  251.  references from the file in that column  (there are also subtotals
  252.  after the nth file, which should include all on-site hypertext links,
  253.  but exclude references to IMaGe SouRCes)
  254.  
  255.  Again, any totals of zero are highlighted, because that means that the
  256.  page doesn’t lead anywhere (not even back to the index page).
  257.  
  258.  Below that there is a row labelled “Bad” enumerating the number of
  259.  failed links from that page:  these should all be zero!
  260.  
  261.  In the penultimate line, the “column heading” is repeated.
  262.  
  263.  Finally, a summary of frame-names (if any) and where declared,
  264.  pages leading nowhere, unreferenced files, and failed links.
  265.  
  266.  If it is a framed site, “failed links” includes instances where an
  267.  anchor has a TARGET= attribute, but the frame name could note be found
  268.  in a <FRAME> tag;  this can occur erroneously if the frame-defining page
  269.  is not “index”, and does not get analysed until after the page containing
  270.  the TARGET.
  271.  
  272.  Also in framed sites, the “index” page probably has no references to it:
  273.  this would be normal, but reported by !LinkCheck as if it were an error.
  274.  
  275.  
  276.  Setting up the four Options Files
  277.  -------------------==============
  278.  Any or all of these can be missing, and the program will still work; but
  279.  setting them up will enable you to get the most out of the application.
  280.  
  281.  File “!Choices”
  282.  --------------
  283.  If this is absent, internal default options will be used.
  284.  
  285.  If present, it is a short BASIC LIBRARY procedure which initialises
  286.  some parameters;  it is not necessary for all parameters to be set.
  287.  
  288.  Once LinkCheck is running, you can read the settings by clicking Menu
  289.  on the icon-bar icon, and moving across the item “Options =>”.
  290.  
  291.  If you want to edit it:  this is a BASIC file, so you need to
  292.  SHIFT-double-click on it to put it into an editor.
  293.  
  294.  The first three are used to determine the size of arrays inside:
  295.  “max1%=” sets a maximum to the number of HTML and “.map” files, and
  296.  “max2%=” sets the maximum total number of files to be expected:
  297.  the default values for these are 51 and 255 respectively, and I do
  298.  not normally recommend that max1% be increased beyond about 85,
  299.  although you may do if necessary;
  300.  “maxF%=” sets a limit to the largest file-size (in bytes) of an HTML 
  301.  or “.map” file that can be loaded and analysed; the default is 72K.
  302.  
  303.  If your site needs these values increasing, then you should do so;
  304.  but if the existing values are large enough, increasing them will
  305.  merely waste memory!
  306.  
  307.  Please note that if you alter the values in “!Choices”, the new
  308.  values will not take effect until after you have quit and re-run.
  309.  
  310.  If these values are increased greatly, it may become necessary to
  311.  also increase the WimpSlots in the “!Run” file.
  312.  
  313.  The next three are used for parameters for server-side reply form
  314.  processing;  you can ignore them if they are not relevant to you.
  315.  
  316.  “formMethod$=” and “formAction$=” specify “trigger” values for the
  317.  METHOD= and ACTION= attributes within a <FORM ...> tag:  these are
  318.  set to the values required to access the server-side form-decoder
  319.  (which for Argonet are "GET" and "http://www.argonet.co.uk/cgi-bin/mail"
  320.  respectively), and if present, subsequent <INPUT ...> tags are searched
  321.  for a NAME= attribute whose value matches that specified by the last
  322.  parameter “formName$=” (whose value for Argonet is "linkto").
  323.  (If you haven’t understood the above technobabble, don’t worry :-)
  324.  
  325.  
  326.  File “!SrcDiry”
  327.  --------------
  328.  If you have one particular web-site directory that you will want to
  329.  check regularly (eg the local copy of your own site, as you update it),
  330.  its pathname should be in this text-file.
  331.  
  332.  An empty !SrcDiry file is supplied;  double-click on it to load it
  333.  into your text editor.  You could then type in the full pathname of
  334.  the directory;  but you can simplify this (in !Edit) by SHIFT-dragging
  335.  the directory icon on to the page.
  336.  
  337.  This file may be empty or even missing, and the program will still
  338.  operate;  but if you want to use the “sub-site” option, this file
  339.  must exist and must contain the pathname of the “root” of the site.
  340.  
  341.  
  342.  File “!BaseURLs”
  343.  ---------------
  344.  You should also create a textfile inside !LinkCheck called “!BaseURLs”
  345.  containing the base URL(s) of your “real” site (up to ten of them).
  346.  
  347.  (This is so that the program can look at full absolute URLs and be
  348.  able to “know” whether they refer to your site, in which case it will
  349.  expect to be able to find the leafname locally; or whether it refers
  350.  to a different site altogether, so there’s no point in looking!)
  351.  
  352.  If not required, this file may be absent or empty.
  353.  
  354.  
  355.  File “!NoFollow”
  356.  ---------------
  357.  You may now have a text-file called "!NoFollow" inside the application.
  358.  This can contain a list of up to 100 URLs or references which you do
  359.  NOT want to be commented upon when checked but not found.
  360.  
  361.  There are now two circumstances under which reporting of failed links
  362.  or missing files can be suppressed:
  363.  
  364.  "External", ie absolute URLs to other sites;  and
  365.  "Internal", ie on-site files which should be present, but might be
  366.              (knowingly/deliberately) missing from your local site.
  367.  
  368.  These two filters are invoked separately according to context.
  369.  
  370.  However, the "filter template" specifications for both types are all put
  371.  inside the one !NoFollow file (as was just used for external before):
  372.  
  373.  (a) Lines with an asterisk at the END are "external", ie
  374.  
  375.      ftp://*
  376.  
  377.  would suppress "Not local" messages for any URL beginning "ftp://"
  378.  (the same as the original LinkCheck did).
  379.  
  380.  (b) Lines STARTING WITH an asterisk are "internal", ie
  381.  
  382.      *.cgi
  383.  
  384.  would suppress "Not found" messages for anything with a ".cgi" extension.
  385.  
  386.  (c) Lines with an INTERMEDIATE asterisk are also "internal", ie
  387.  
  388.      reviews/*.jpeg
  389.  
  390.  would suppress "Not found" messages for a reference which:
  391.      (i) contains the string "reviews/" anywhere in it, /AND/
  392.      (ii) ends with a ".jpeg" extension.
  393.  
  394.  (d) Lines with no asterisk at all are put into BOTH the "external"
  395.      AND "internal" lists;
  396.      but for suppression to happen, the file-ref must match exactly
  397.      (and I've a sneaky suspicion this either won't work, or else
  398.      may not be very useful ;-)
  399.  
  400.  (e) Lines with 2 or more asterisks:
  401.      Please don't do this;  I confidently expect it to crash  ;-)
  402.  
  403.  Note that it still CHECKS all links etc;  the NoFollow filter
  404.  merely suppresses the error reports:
  405.  for example, one of my test runs produced a summary of
  406.      "4 files, 0 Errors, 98 failed links"   ;-)
  407.  because it still fills in the "connectivity matrix".
  408.  
  409.  If not required, this file may be absent or empty.
  410.  
  411.  
  412.                                               John Alldred 18Jan99
  413.                                               john@protovale.co.uk
  414.                                   http://www.protovale.co.uk/john/
  415.                 http://www.argonet.co.uk/users/protovale/john.html
  416.