home *** CD-ROM | disk | FTP | other *** search
/ norge.freeshell.org (192.94.73.8) / 192.94.73.8.tar / 192.94.73.8 / pub / sdf / faq / MISC / 12 < prev    next >
Text File  |  2008-04-18  |  4KB  |  78 lines

  1. [12] WHEN ARE THE SYSTEM MAINTENANCE WINDOWS? WHY THE LOW UPTIME?
  2.  
  3.      Typically the SDF Public Access UNIX System is available to its
  4.      members and, in some cases, the general public 24 hours a day,
  5.      7 days a week, 365 days a year, 10 years a decade, 25 years a
  6.      quarter century .. and so on.
  7.  
  8.      That being said there are unforeseen issues that can cause the
  9.      system to become unavailable:
  10.  
  11.         1.  Hard Disk Crash - We have several spare drives, some of
  12.             them already plugged in and ready to be used.  In the
  13.             best case scenario no maintenance window is required.
  14.  
  15.         2.  Fire - In the case of fire all SDF machines must be shut
  16.             down unless the fire is an isolated occurance.
  17.  
  18.         3.  Natural Disaster - In the Spring (Apr-May) we do get 
  19.             affected by lighting strikes in our area due to heavy
  20.             thunderstorms.  Best case scenario the UPS systems filter
  21.             the spikes and dips which allow SDF to run uninterrupted.
  22.  
  23.         4.  Software Bug - This due crop up from time to time and are
  24.             usually related to system updates.  On SDF we typically 
  25.             will let the public access machines lag behind NetBSD
  26.             development in order to test new releases in our lab before
  27.             subjecting the userbase to 'new bugs'.
  28.  
  29.         5.  Routine and Scheduled Maintenance - Please read below.
  30.  
  31.         6.  Hardware Component Failure - We have many spare machines,
  32.             some completely cabled up and ready to go at the flick of
  33.             a remote command.  If an SDF client host becomes completely
  34.             unrecoverable, a spare can be put into operation within 
  35.             minutes.  Keep in mind that while all of your personal files
  36.             are hosted on the file server, the /tmp directory is exclusive
  37.             to each SDF client host.  
  38.  
  39.      ROUTINE AND SCHEDULED MAINTENANCE
  40.  
  41.      There is a weekly maintenance window on Sunday mornings beginning at
  42.      02:00 AM until 03:00 AM.  This windows is not always used and when it
  43.      is, it is used very briefly. 5 minutes prior to a shutdown or runlevel
  44.      transition all logged in members will be notified on their terminals.
  45.      If you see this message alerting you to system maintenance, you should
  46.      save all open files and prepare to logout.
  47.  
  48.      Scheduled maintenance is always announced several days in advance on
  49.      the bboard in the <ANNOUNCE> board.  If it that maintenance window 
  50.      requires extended time (basically anything over 5 to 10 minutes) the
  51.      /etc/motd file (displayed at login) will note the details of the event.
  52.  
  53.      Scheduled maintenance is really only used when hardware upgrades have
  54.      to take place.  In most cases, software updates can occur while the
  55.      systems are up and available.
  56.  
  57. WHY THE LOW UPTIME?
  58.  
  59.      Uptime is relative.  What we're after is 'high availability'.  This
  60.      means that our goal is to have the servers answering at least 99.9%
  61.      of the time.  In the 20+ years of service SDF has been able to meet
  62.      this goal.  The most uptime you'll see on any given server will be
  63.      about 3 to 4 weeks.  After 3 weeks performing maintenance is necessary.
  64.      This helps with clearing buffers, caches and other inconsistencies 
  65.      that can occur as the systems run from cold or warm boot.  Rather
  66.      than waiting for the system to fail due to kernel panic or a hang,
  67.      a warm boot is performed, during the weekly maintenance window, which
  68.      takes roughly 5 minutes or less.  Keep in mind, this doesn't occur
  69.      weekly but usually after 3 to 4 weeks of linear uptime.
  70.  
  71.      Why is this necessary? (aka "My box runs for years under my desk").
  72.      We too have very low usage non-public NetBSD systems that run for years
  73.      without requiring a reboot.  However, SDF is extremely high volume with 
  74.      sophsiticated NFS, NIS and VNODE caching.  While these do not cause
  75.      problems with light loads, with 40,000 active users they become an
  76.      issue.  Again, our goal is high availability which doesn't necessarily
  77.      have to translate it long uptimes.
  78.