home *** CD-ROM | disk | FTP | other *** search
/ InfoMagic Internet Tools 1993 July / Internet Tools.iso / RockRidge / security / Watcher / Docs / nroff.out < prev    next >
Encoding:
Text File  |  1987-09-22  |  4.1 KB  |  133 lines

  1.  
  2.  
  3.  
  4.  
  5.  
  6.  
  7.  
  8.  
  9.  
  10.                  Keeping watch over the flocks
  11.                        at night (and day)
  12.  
  13.  
  14.                          Kenneth Ingham
  15.            University of New Mexico Computing Center
  16.                    Distributed Systems Group
  17.                          2701 Campus NE
  18.                      Albuquerque, NM 87131
  19.                          (505) 277-8044
  20.                      ingham@charon.unm.edu
  21.                   ucbvax!unmvax!charon!ingham
  22.  
  23.     Topic Areas: Applications, System management, Utilities
  24.  
  25.  
  26.  
  27.   The computing facilities offered by the  University  of  New
  28.   Mexico Computing Center include three microvaxen, five large
  29.   vaxen (780 or bigger), and a Sequent B8000.  In addition  to
  30.   these Unix/VMS machines, the UNMCC Distributed Systems Group
  31.   (DSG) monitors a number of the various  microvaxen  and  sun
  32.   workstations  scattered  across  campus.  This duty falls to
  33.   the DSG Programmer designated as "DOC", or  "DSG  On  Call",
  34.   who   receives  his  beeper  based  on  a  monthly  rotation
  35.   schedule.
  36.  
  37.   In the past, shell scripts running every six hours  reported
  38.   various  system statistics to DOC, who then scanned the out-
  39.   put for  signs  of  possible  trouble.   As  the  number  of
  40.   machines  and  the  number  of  potential problems grew, the
  41.   mound of output that DOC had to process, most of which mere-
  42.   ly  indicated  normal system operation, became overwhelming.
  43.   Now, with several machines to monitor and  only  one  person
  44.   acting  in  this  capacity, DOC can often waste a tremendous
  45.   amount of time wading through system  status  reports,  time
  46.   which can be better spent actually fixing system problems.
  47.  
  48.   In response to this situation, the author developed  a  tool
  49.   which  introduces some intelligence into the machine's self-
  50.   reporting, letting the machine filter out messages  indicat-
  51.   ing  normal  operation and forwarding to DOC only those mes-
  52.   sages which point out trouble areas.  The  result  of  these
  53.   efforts  is  Watcher,  a  very general and extensible system
  54.   self-monitor.  Running more often  than  the  set  of  shell
  55.   scripts,  Watcher  keeps closer tabs on the system; since it
  56.   delivers only a summary of potential problems, however, this
  57.   extra  monitoring  produces _n_o corresponding increase in the
  58.  
  59.  
  60.  
  61.  
  62.                                 1
  63.  
  64.  
  65.  
  66.  
  67.  
  68.  
  69.  
  70.  
  71.  
  72.  
  73.   demand on the system manager.  No problems slip by unnoticed
  74.   in  the  more  concise  output, leading to an improvement in
  75.   overall system availability as well as  the  more  effective
  76.   utilization of the system manager's time.
  77.  
  78.   Watcher was designed to be almost as flexible as DOC in  de-
  79.   ciding  what constitutes a problem with the system.  Running
  80.   at intervals specified in crontab, Watcher issues  a  number
  81.   of  user-specified commands (each of which delivers its out-
  82.   put in a different format), parsing all or part of the  out-
  83.   put  from either the left or the right.  It compares this to
  84.   the last such output obtained, checking for indications of a
  85.   system abnormality.  Such signs might take the form of a too
  86.   abrupt change in a certain value (e.g. a process which  sud-
  87.   denly  begins  gobbling  vast  amounts of cpu time), a value
  88.   which exceeds the allowable maximum or minimum (such as a an
  89.   overly-full  file  system),  or  an unacceptable change in a
  90.   string value (e.g. when "up" changes to "down").   For  com-
  91.   mands  such  as  "ps"  whose output varies considerably with
  92.   each run, specific parts of the output can be designated  as
  93.   a  key; successive runs of Watcher will home in on these key
  94.   areas for their comparisons.
  95.  
  96.   Since the user specifies not only the commands Watcher  will
  97.   execute and the time lapse between successive runs, but also
  98.   the  aforementioned   parameters   which   indicate   system
  99.   anomalies,  Watcher  can  easily be seen as a very flexible,
  100.   general system monitor.  Its  use  at  UNM  has  provided  a
  101.   marked  increase  in the productivity of the system manager,
  102.   which has led in turn to the increase in the reliability and
  103.   availability of the systems at UNMCC.
  104.  
  105.  
  106.  
  107.  
  108.  
  109.  
  110.  
  111.  
  112.  
  113.  
  114.  
  115.  
  116.  
  117.  
  118.  
  119.  
  120.  
  121.  
  122.  
  123.  
  124.  
  125.  
  126.  
  127.  
  128.                                 2
  129.  
  130.  
  131.  
  132.  
  133.