home *** CD-ROM | disk | FTP | other *** search
/ Network Support Encyclopedia 96-1 / novell-nsepro-1996-1-cd2.iso / download / netware / tabnd1.exe / TABEND.TXT < prev    next >
Text File  |  1995-04-13  |  23KB  |  548 lines

  1.             TROUBLESHOOTING OPERATING SYSTEM ABENDS
  2.  
  3.  
  4.  
  5. DISCLAIMER:  THE ORIGIN OF THIS INFORMATION MAY BE INTERNAL OR
  6. EXTERNAL TO NOVELL.  NOVELL MAKES EVERY EFFORT WITHIN ITS MEANS
  7. TO VERIFY THIS INFORMATION.  HOWEVER, THE INFORMATION PROVIDED IN
  8. THIS DOCUMENT IS FOR YOUR INFORMATION ONLY.  NOVELL MAKES NO
  9. EXPLICIT OR IMPLIED CLAIMS TO THE VALIDITY OF THIS INFORMATION.
  10.  
  11.  
  12. This ABEND troubleshooting package, TABEND.EXE, includes the
  13. following files:
  14.  
  15. Tabend.txt    This document in text format. 
  16. Tabend.wp5    This document in WordPerfect 5.1 format.
  17. Tabend.wp6    This document in WordPerfect 6.1 format
  18. Ck_list.txt   Appendix A of this document in a separate file.
  19. RCSI.txt   "Resolving Critical Server Issues." An article         
  20.              from the Feb. 1995 Application Notes in text         
  21.              format.
  22. RCSI.wp5   "Resolving Critical Server Issues" article in          
  23.              WordPerfect 5.1 format.
  24. RCSI.wp6   "Resolving Critical Server Issues" article in          
  25.              WordPerfect 6.1 format.
  26. Config.    The self-extracting file which contains config.nlm.   
  27.             This NLM is used to collect server information.
  28.  
  29. The article "Resolving Critical Server Issues" covers ABEND and
  30. GPPE troubleshooting in great depth.  The Application Notes can
  31. be downloaded from CompuServe at "go NetApps."  There may be a
  32. charge for this service.  You can also purchase the AppNotes by
  33. calling 1-800-377-4136.
  34.  
  35. This document is an attempt to help you better troubleshoot an
  36. ABEND on your own before you place a call to Novell. Each of the
  37. steps listed here are necessary steps.  Most ABEND problems will
  38. be resolved by doing what this document outlines.  If, in your
  39. case, this does not solve your problem, instructions are given
  40. for what to have ready when you place a call for support. 
  41.  
  42.  
  43. What Is A Server ABEND
  44.  
  45.  
  46. An ABEND occurs when program execution is halted abnormally.
  47. There are many ABEND messages, but the three most common are GPPE
  48. (General Protection Processor Exception), Page Fault Processor
  49. Exception error, and NMI (Non-Maskable Interrupt). These three
  50. errors are all processor exceptions, meaning that they are
  51. generated by the processor. NetWare merely reports the message. 
  52.  
  53. "The NetWare 3 and 4 operating systems continually monitor the
  54. status of various server activities to ensure proper operation.
  55. If NetWare detects a condition that threatens the integrity of
  56. its internal data (such as an invalid parameter being passed in a
  57. function call, or certain hardware errors), it abruptly halts the
  58. active process and displays an "ABEND" message on the screen.
  59. ("ABEND" is a computer science term signifying an ABnormal END of
  60. program.)
  61.  
  62. The primary reason for ABENDs in NetWare is to ensure the
  63. stability and integrity of the internal operating system data.
  64. For example, if the operating system detected invalid pointers to
  65. cache buffers and yet continued to run, data would soon become
  66. unusable or corrupted. Thus an ABEND is NetWare's way of
  67. protecting itself and users against the unpredictable effects of
  68. data corruption."  (Resolving Critical Server Issues.  Feb. 1995
  69. Application Notes. Page 37.)
  70.  
  71.  
  72.  
  73.  
  74. How To Troubleshoot An ABEND - Step 1
  75.  
  76.  
  77. An ABEND can be caused by hardware or software.  It is easier and
  78. cheaper to troubleshoot the software first.  The steps in this
  79. section alone may solve your server ABEND, and may also prove to
  80. be valuable preventative maintenance that will avert other
  81. problems.  Appendix A of this document is a summary sheet that
  82. you should fill out as you troubleshoot your server.  If you end
  83. up opening a Technical Support Incident at Novell, the Support
  84. Engineer will want this sheet from you. 
  85.  
  86. NOTE:      An NMI Parity error (ABEND: Non-Maskable Interrupt)
  87.            is a special case of ABEND error.  NMI errors are
  88.            hardware problems.  See Appendix B - Dealing With An
  89.            NMI Error.
  90.  
  91.  
  92.    1.      Update all LAN and disk drivers.  Each manufacturer
  93.            of LAN and disk cards must develop their own drivers. 
  94.            The only way to assure that you have the latest
  95.            version of these drivers is to download them from the
  96.            respective vendor.  Even new hardware does not
  97.            usually ship with the most current drivers. THIS STEP
  98.            IS CRITICAL - Be certain that drivers are the newest
  99.            available from the respective vendor!!!  Another part
  100.            of this step is to have updated LAN support modules. 
  101.            These modules include msm31x.nlm or msm.nlm, and
  102.            ethertsm.nlm and/or tokentsm.nlm (or any other tsm
  103.            module that your system may require).  Get the latest
  104.            version of Landr?.exe (where the ? represents the
  105.            revision number or letter of the file). See Appendix
  106.            C - How To Access The NetWare OS Patches And Updated
  107.            Files.  
  108.  
  109.    2.      Apply all patches. There are known issues with the OS
  110.            that the patches have been written to fix. Load ALL
  111.            the patches that apply to your version of the
  112.            operating system. We also find that the patches
  113.            invariably solve other problems that we may not have
  114.            known about.  The file name you need to get is  <OS
  115.            version>PT<file revision number or letter>.EXE. For
  116.            example, patches for a NetWare v3.12 server would be
  117.            in the file 312pt6.exe, where "6" is the current
  118.            revision of the patch file.  See Appendix C - How To
  119.            Access The NetWare OS Patches And Updated Files.
  120.  
  121.    3.      Re-copy  server.exe.  File corruption can happen to
  122.            any file, even the server.exe.  A corrupt server.exe
  123.            can be difficult to track down. For this reason, it
  124.            is easier to perform this step than to find out,
  125.            after a lot of troubleshooting, that a corrupt
  126.            server.exe was the problem.  If the corruption were
  127.            only in server memory the solution would be to down
  128.            and exit the server and then power off the machine
  129.            and turn it back on.  
  130.  
  131.      Just in case the corruption has been written to disk, copy
  132.      a fresh copy of server.exe from the original disks or from
  133.      a write protected working copy. The same idea applies to
  134.      any other file or files in the system or public directory
  135.      that may have become corrupted. 
  136.  
  137.       Remember, the server.exe in NetWare v3.x contains the
  138.      server license number.  Don't copy the wrong server.exe.  
  139.  
  140.    4.      Update clib, streams, & SPX Files.  Clib.nlm is a
  141.            library of functions that many Novell and third party
  142.            modules use to access the operating system
  143.            functionality. Because of this clib.nlm changes
  144.            often. Streams.nlm works in conjunction with Clib.nlm
  145.            but does not change as often.  You should check to
  146.            see that both of these modules are the current
  147.            version.  
  148.  
  149.      Spxs.nlm is used for much of the server to workstation
  150.      communications.  This NLM should also be updated to the
  151.      current version.  
  152.  
  153.      See Appendix C - How To Access The NetWare OS Patches And
  154.      Updated Files.  
  155.  
  156.    5.      Do a Virus Scan of the DOS and NetWare Partition. 
  157.            This should be habit during any troubleshooting.
  158.  
  159.    6.      Other Things To Look At.  Here is a list of of items
  160.            that have been known to cause server ABENDS. 
  161.  
  162.            - Power fluctuations at the power source.
  163.            - A failing power supply. 
  164.            - A bad cooling fan. (Heat Kills Hardware!)
  165.            - A dry, hot or dusty environment can encourage
  166.            hardware degradation and failure due to static
  167.            electric discharge. 
  168.            - Check the server's error log for other clues.
  169.            - Look for other problems that may end up being
  170.            related.  For example lost connections, drive
  171.            deactivation, climbing packet receive buffers, high
  172.            dirty cache buffers, a high number of LAN errors,
  173.            high utilzation, etc..
  174.  
  175.    Another question to ask that may point you in the right
  176.    direction is, "What changes have been made to the server
  177.    environment lately?" Don't automatically say, none.  Have you
  178.    increased the number of users? Is there new software?  Has
  179.    software been upgraded?  Is someone using software in a way
  180.    different then it had been used, such as database indexing,
  181.    etc.? Is there new or different hardware?  Have there been
  182.    changes to the LAN, the  routers, or the cabling? Have
  183.    workstations or the file server been physically moved?  Are
  184.    there new printers on the LAN? Have there been any power
  185.    outages?  Have SET parameters been changed?  Etc.....
  186.  
  187. How To Troubleshoot An ABEND - Step 2
  188.  
  189.  
  190. If the problem is not solved by now you have two troubleshooting
  191. paths to pursue.  One - it is a hardware problem, and Two - it is
  192. a misbehaving NLM.  
  193.  
  194. Hardware       Hardware is actually the most likely cause at this
  195.                point.  When troubleshooting hardware break the
  196.                network down into its component parts, or
  197.                subsystems.  The subsystems to consider are LAN
  198.                Channel, Disk Channel, and System Board. Then use
  199.                the ABEND message to point you in the direction of
  200.                one of these subsystems.  Most disk channel errors
  201.                are easy to pick out. ABENDs that mention server
  202.                process... are often, but not always, LAN related.
  203.                Errors that refer to ...memory... , ...alloc...,
  204.                or ...allocator...., etc. can be memory, system
  205.                board, or NLM related.  Once you establish a
  206.                direction try replacing the hardware that you
  207.                think could be causing the ABEND.  As a matter of
  208.                routine always check for poorly seated cards,
  209.                dirty connections, faulty cables, and things like
  210.                termination and SCSI ID (vendors sometimes differ
  211.                on how they handle termination and SCSI ID - Be
  212.                Aware).  In some cases the problem can be
  213.                compatibility between hardware components. 
  214.  
  215. NLM's The next most likely issue is a misbehaving NLM.  First,
  216.       try to find a way to duplicate the ABEND at will.  Look
  217.       for anything that seems to happen concurrently with the
  218.       ABEND.  Ask yourself questions like these: Does the ABEND
  219.       happen at the same time of day, or the same day of the
  220.       week?   Is there a certain application that is always
  221.       running, or is there some function in an application that
  222.       is always running such as database indexing?  Is there a
  223.       certain workstation or segment that is also having a lot
  224.       of problem (incorrectly formed packets can cause a server
  225.       ABEND)? 
  226.  
  227.      These questions may help you to "divide and conquer" the
  228.      problem.   Next, remove ALL non-essential NLM's. This
  229.      should include virus scanners, diagnostic  and monitoring
  230.      NLM's, and NLM's that are not Novell certified.  If the
  231.      server seems to stablize, load these NLM's back to the
  232.      server one at a time.  Let the server sit after each NLM is
  233.      loaded to assure that it is ok to continue troubleshooting. 
  234.  
  235.      If you have the luxury of being able to duplicate the ABEND
  236.      at will,  troubleshooting is much easier.  Bring up the
  237.      server using "server -ns." This will bring up the server
  238.      without loading the startup.ncf file.  Now load drivers and
  239.      NLM's one at a time and try to duplicate the ABEND.  The
  240.      intention is to find an NLM that is responsible for the
  241.      ABEND.  If you find an NLM that causes the ABEND contact
  242.      the developer of  that NLM. 
  243.  
  244. How To Troubleshoot An ABEND - Step 3
  245.  
  246.  
  247. If the problem hasn't cleared up by this point it's probably time
  248. to call in reinforcements.  Your first step should be to call a
  249. Novell Authorized Service Center (NASC).  These Gold and Platium
  250. dealers are Novell Netware trained and willing to help you.  To
  251. find the service center closest to you call 1-800-NET-WARE (638-9273), choose option 1, then choose option 2.  Someone is there
  252. to assist you from 7:30am to Midnight CST.
  253.  
  254. If you still need to contact Novell Technical Support Do The
  255. Following Before You call us.   
  256.  
  257. 1. Run the NLM "config.nlm" at your server.  This NLM was
  258.    included with the TABEND.exe (troubleshooting ABENDs) file
  259.    that you downloaded. When it completes it will place a file
  260.    named "config.txt" in your sys:system directory.  This file
  261.    contains important server information that we can use to help
  262.    troubleshoot your ABEND.  You will probably be ask for this
  263.    file by the Novell Technical Support (NTS) Engineer.  He will
  264.    tell you at that time how to get it to us. 
  265.  
  266. 2. Next, fill out the form in Appendix A. This form is included
  267.    as the file ck_list.txt.  When complete, append the form to
  268.    the config.txt file that was created in the previous step. 
  269.  
  270. 3. At this point open an incident with Novell Technical Support. 
  271.    Tell the support engineer that you have the config.txt file
  272.    ready. 
  273.  
  274. 4. Consider the possiblity that you may need to get a core
  275.    memory dump from your server. A core memory dump takes a
  276.    "snapshot" of the server's RAM as it looks at the time of the
  277.    ABEND.  We call this the "memory image."  This image can be
  278.    collected and sent to Novell on floppy, tape, or via FTP.  We
  279.    are able to use the information found in your memory image to
  280.    help isolate what is causing your server ABEND.  For complete
  281.    instructions on how to collect a memory image see the
  282.    appendix of the document "Resolving Critical Server Issues." 
  283.    This document has been included. 
  284.  
  285.    DO NOT automatically take a core dump.  Wait until a
  286.    Technical Support Engineer instructs you to do so.  Also, Do
  287.    not send us core dumps from servers that do not have the
  288.    patches and current LAN and disk drivers loaded. Too often we
  289.    end up spending time on a problem that has already been
  290.    resolved by current patches or updated software.  Make sure
  291.    you have the current patches and current LAN and disk
  292.    drivers!
  293.  
  294.  
  295.  
  296. Appendix A - Check list/Summary 
  297.  
  298.  
  299. Incident Number:         Name:                Phone:
  300.  
  301. O/S version  ________DS version _______Amount of RAM ________
  302.  
  303. Make/Model of Machine (indicate if a clone)/Bus Type:
  304. ______________________________________________________________
  305.  
  306. LAN card, driver name, driver date & version:
  307. ________________, ________________, __________________
  308.  
  309. LAN card, driver name, driver date & version:
  310. ________________, ________________, __________________
  311.  
  312. HBA (controller), driver name, driver date & version:
  313. ________________, ________________, __________________
  314.  
  315.    List the devices on this HBA:  
  316.  
  317. HBA (controller), driver name, driver date & version 
  318. ________________, ________________, __________________
  319.  
  320.    List the devices on this HBA:
  321.  
  322. Are your drives mirrored? Y N  Or,duplexed? Y N  
  323.  How much total volume space? __________________
  324.  
  325. 1.   Have you updated the LAN and disk drivers?  Y N
  326. 2.   Have you applied all the appropriate patches? Y N
  327. 3.   Have you copied a fresh copy of Server.exe? Y N
  328. 4.   Is your clib.nlm current? Y N
  329. 5.   Have you virus scanned the DOS and Netware Partition? Y N
  330. 6.   What other information do you have that may help
  331. troubleshoot this problem?
  332.  
  333.  
  334.  
  335. 7.   What changes have been made to the server recently?
  336.      (Increased number of users, new software, upgraded
  337.      software, new or different hardware, LAN or router changes,
  338.      workstations or file server physically moved, power
  339.      outages, set parameter changes, etc...)
  340.  
  341.  
  342.  
  343. 8.   What hardware has been swapped out already? 
  344.  
  345.  
  346.  
  347.  
  348. 9.   Do you have config.txt ready to upload to us? Y N      
  349.  
  350. Appendix B - Dealing With An NMI Error
  351.  
  352.  
  353. As mentioned in the main body of this document, an NMI error is a
  354. hardware problem.  There are three types of interrupts that a
  355. processor can handle: a maskable hardware interrupt (INTR), a
  356. non-maskable hardware interrupt (NMI), and a software interrupt
  357. (INT).  The processor has a dedicated line on the system board
  358. bus that handles only non-maskable hardware interrupts.  
  359. According to Intel's - i486 Mircroprocessor Hardware Reference
  360. Manual this NMI line can be asserted as a result of one of three
  361. catastrophic events,: 1) an imminent power loss, 2) a bus-transfer parity error or, 3) a memory-data parity error. When
  362. this NMI line is asserted the processor generates an NMI error. 
  363. This error is received by the NetWare operating system and then
  364. reported to the console screen.  There are two flavors of NMI
  365. errors, "ABEND: NMI parity error generated by IO check," and
  366. "ABEND: NMI parity error generated by System Board." If the NMI
  367. is generated by the system board there is a fairly good chance
  368. the problem is with the system board or its' memory, although it
  369. can still be elsewhere.  If the NMI is generated by an IO check,
  370. the problem could be anywhere.  Here is a list of hardware
  371. related items that we have found to cause NMI's.  These idea's
  372. should help you as you troubleshoot an NMI error. 
  373.  
  374.   1. Faulty RAM.
  375.   2. Faulty system board
  376.   3. Any I/O card.  Especially cards with on-board memory.
  377.   4. Low or fluctuating power at the power source. Remember,
  378.      UPS's can go bad too. 
  379.   5. Power supply going bad.
  380.   6. Memory extension boards.
  381.   7. System board memory that is mismatched in either speed or
  382.      brand.
  383.   8. Conflicting interrupts.
  384.   9. Try cleaning and reseating cards/cables/and memory
  385.      modules.
  386.   10. Incompatiblity between hardware pieces. 
  387.   11. Look at the environment and how the equipment is handled. 
  388.       NMI's can often be traced back to static electric
  389.       discharge.  A sometimes overlooked point is that static
  390.       does not alway cause immediate failure, the damage can be
  391.       degenerative. The hard failure may not occur until
  392.       sometime in the future. 
  393.   12. This is rare, but, we have also seen hard drives cause
  394.       NMI's.  
  395.  
  396.  
  397.  
  398.  
  399.  
  400.  
  401. Appendix C - How To Access The NetWare OS Patches And Updated
  402. Files
  403.  
  404.  
  405. What file to download? 
  406.  
  407. The patches for each version of the OS are grouped into a
  408. compressed, self-extracting executable file. These files are
  409. named as follows: <OS version>PT<file revision number or
  410. letter>.EXE. For example patches for a NetWare v3.12 server would
  411. be in the file 312pt6.exe, where "6" is the current revision of
  412. the patch.  
  413.  
  414. This is a list of files mentioned in document: 
  415.  
  416. NLM           Download   CompuServe         FTP
  417. Name          This file   Location          Location
  418.  
  419. clib.nlm     Libup?.exe  NovFiles library   NovFiles
  420. streams.nlm  STRTL?.exe  3.x or 4.x files   Novlib\04 and 14
  421. spxs.nlm     STRTL?.exe  3.x or 4.x files   Novlib\04 and 14
  422. 3.11 patches 311PT?.exe  3.x files          Novlib\04
  423. 3.12 patches 312PT?.exe  3.x files          Novlib\04
  424. 4.01 patches 401PT?.exe  4.x files          Novlib\14
  425. 4.02 patches 402PT?.exe  4.x files          Novlib\14 
  426. 4.10 patches 410PT?.exe  4.x files          Novlib\14
  427.  
  428.            Where "?" represents the current revision of the file.
  429.  
  430.  
  431.  
  432. How to get the updated files?  
  433.  
  434.   NSE Pro  The Netware Support Encyclopedia CD Rom has all the
  435.            latest OS patches and updates.  The NSE can be
  436.            purchased by calling  800-346-7177. 
  437.  
  438.   CompuServe             Get onto CompuServe and "Go Netwire,"
  439.                          choose "File Updates," choose "Novlib,"
  440.                          choose "Library," then choose from the
  441.                          list of libraries. 
  442.  
  443.   FTP      If you have an Internet connection and FTP to
  444.            FTP.Novell.Com.  
  445.  
  446.   Web Server             http://www.novel.com/
  447.  
  448. How to apply the patches?
  449.  
  450. Place the compressed/executable file in its own directory and run
  451. it. Get the read me file named <filename>.txt.  This read me file
  452. will give any detailed instructions neccessary to properly load
  453. the patches. If you are running NetWare v3.11, load the patches
  454. listed under the abstract section on the first page of the readme
  455. (311PT?.TXT).  If you are running NetWare v3.12 or any version of
  456. NetWare v4.xx load ALL the patches.
  457.  
  458. There are three types of patches.
  459.  
  460.   DYNAMIC -- Dynamic patches are implemented as  <patch
  461.   name>.nlm files that can be loaded/unloaded while the server
  462.   is running.  Unloading a dynamic patch will restore the
  463.   Operating System to its original "un-patched" state.  
  464.  
  465.   SEMI-STATIC -- Semi-static patches can also be loaded while
  466.   the server is running, but they cannot be unloaded.  It is not
  467.   possible to undo the effects of a semi-static patch without
  468.   first downing the server and bringing it back up without
  469.   loading the semi-static patch.  
  470.  
  471.   STATIC -- Does not apply in the context of this document.
  472.  
  473. Dynamic and semi-static patches modify the Operating System in
  474. memory, not on the disk.  This means that dynamic and semi-static
  475. patches must be loaded each time the Operating System is brought
  476. up in order for any 'fixes' to take effect. Add a line to the
  477. AutoExec.ncf or Startup.ncf, which ever is applicable, to
  478. automatically load each patch the next time the server is downed
  479. and brought back up.
  480.  
  481. In order to see which patches are currently loaded on the system,
  482. type "PATCHES" at the file server command line.  The patches will
  483. then be grouped and displayed according to their type (i.e. -
  484. STATIC, SEMI-STATIC, or DYNAMIC).  If you already have patches
  485. loaded check dates to make sure you have the most current
  486. versions. 
  487.  
  488.  
  489.  
  490. Appendix D - Help Us To Help You
  491.  
  492.  
  493. If this document  has helped you to solve your ABEND problem such
  494. that you did not have to open an incident with Novell Technical
  495. Support, we would like to hear about it.  Simply fax us this page
  496. with your comments on it. Fax the form to Novell Technical
  497. Support at (801)429-5200 to the attention of  "TABENDS FEEDBACK." 
  498.  Thanks for your feedback.  
  499.  
  500. NOTE: This form is for comments only.  We will not be able to
  501. response to any comments/questions given here. 
  502.  
  503. Your Name:
  504.  
  505. Company Name:
  506.  
  507. Address:
  508.  
  509.  
  510. Phone Number:
  511.  
  512. Were you able to solve your ABEND problem without opening an
  513. incident with Novell Technical Support? If so, tell us the nature
  514. of your problem and how this information helped you.
  515.  
  516.  
  517.  
  518.  
  519.  
  520.  
  521.  
  522.  
  523.  
  524. How can we make this document or the included files more useful
  525. to you?
  526.  
  527.  
  528.  
  529.  
  530.  
  531.  
  532. Are there other issues that might lend themselves to this type of
  533. support ?
  534.  
  535.  
  536.  
  537.  
  538.  
  539. What else would you like to see Novell Technical Support doing to
  540. make your job of supporting your network environment easier?
  541.  
  542.  
  543.  
  544.  
  545.  
  546.  
  547.  
  548.