home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #20 / NN_1992_20.iso / spool / comp / unix / ultrix / 6764 < prev    next >
Encoding:
Text File  |  1992-09-08  |  5.6 KB  |  114 lines

  1. Newsgroups: comp.unix.ultrix
  2. Path: sparky!uunet!zaphod.mps.ohio-state.edu!cs.utexas.edu!sun-barr!decwrl!pa.dec.com!rdg.dec.com!decvax.dec.com!decvax.DEC.COM!jag
  3. From: jag@decvax.DEC.COM (John A. Gallant UEG)
  4. Subject: Re: SCSI/CAM problems
  5. Message-ID: <1992Sep8.164333.19412@decvax.dec.com>
  6. Sender: usenet@decvax.dec.com (Usenet News System)
  7. Nntp-Posting-Host: witsend.zk3.dec.com
  8. Reply-To: jag@zk3.dec.com
  9. Organization: OSF Engineering, Digital Equipment Corp.
  10. References: <ROBM.92Sep4150116@ataraxia.Berkeley.EDU> <1992Sep5.011659.7675@news.iastate.edu>
  11. Date: Tue, 8 Sep 1992 16:43:33 GMT
  12. Lines: 100
  13.  
  14. In article <1992Sep5.011659.7675@news.iastate.edu>, john@iastate.edu (John Hascall) writes:
  15.  
  16. >}Anyone having similar experiences?  Anyone have any suggestions?
  17. > Yes, yes, yes!                      No (sorry).
  18.  
  19.     Well not exactly the same, your messages are dealing with a memory
  20. resource warning message.  Robs looks like a device related problem.
  21.  
  22. >We upgraded our central NFS servers from 5000/200s to 5000/240s
  23. >and since we had to upgrade from 4.2, we installed the SCSI/CAM
  24. >at the same time.  Our machines have 2 or 3 SCSI boards, 8-12 RZ57s,
  25. >and a TLZ04 each (the DEC support guy said he thought the other
  26. >problem report he had on this also was a multi-SCSI machine).
  27.  
  28.     The 5000/240 has code that is a memory hog, there is a bug in the
  29. low level DMA code that allocs resources for all possible devices including
  30. LUNs.  This results in about 40k extra being alloc-ed for each device on
  31. the mother board bus.  We are currently working in the patch process, ETA
  32. at this point is unknown.
  33.  
  34. >What happens is we start getting *tons* of:
  35. >   XPT Packet Pool HIGH Water Mark Reached.
  36. >   cam_logger: CAM_ERROR packet
  37. >   cam_logger: No associated bus target lun
  38.  
  39.     I would expect that there are LOW and HIGH warnings comming out.
  40. The CAM subsystem attempts to keep a local pools of CCBs to allow allow
  41. a device driver to get one quickly instead of having to always go to
  42. the system alloc code.  The pool parameters are in the
  43. /usr/sys/data/cam_data.c file.   The CAM subsystem has an initial size
  44. for this pool and when the pool gets to the low water mark, there are
  45. more added.  As the outstanding I/Os are completed the CCBs are returned
  46. to the pool and if there are too many, the high water mark, the memory is
  47. returned to the system.  For each of these marks there is a warning
  48. message logged to the system.
  49.  
  50.     What my SWAG is for your problem is that you have "spikes" of disk
  51. I/O that deplete the pool and then when finished fills the pool back
  52. up.
  53.  
  54.     For a heavy NFS server you would want to increase the cam_ccb_pool_size
  55. to a nice number and also increase the high/low marks.  The
  56. cam_ccb_increment value is probably ok.  With a larger pool the CAM 
  57. subsystem can "ride" out such spikes with out massive error messages.
  58. On a NOTE of caution, a larger pool will result in more memory being
  59. allocated.   The pool control data structure in the kernel is the
  60. xpt_qhead.  The "current" pool size as the number of free and busy CCBs is
  61. kept track of in there.  You may want to look at it via dbx also.
  62.  
  63.    For a quick test you can modify the high/low marks with dbx to see
  64. what the right size for your system can be.
  65.  
  66. >................................ (in the two times I have seen it happen)
  67. >the dreaded "cant get mbufs" message also appears.  It seems to be somehow
  68. >related to uptime (memory leak?) and load (so, of course, today, with a
  69. >machine which hung last night and being the Friday before a long weekend,
  70. >we had neither and I couldn't reproduce it for DEC *sigh*).
  71.  
  72.     It sounds like an over all low amount of memory on your system ?
  73. The new CAM code trys to get *all* the disk and tape I/O through the
  74. system as fast as it can.  There is no longer a one I/O per device at
  75. a time being able to "stall" I/O requests.  The peripheral device drivers
  76. get a request, bundle up a CCB, and issue the command down to the 
  77. sublayers and let the I/O queuing go on "down there".  This results in
  78. a completely different level of "demand" for the system memory.
  79.  
  80. >We noticed this because we started getting more and more complaints about
  81. >I/O to the NFS servers slowing down more and more.  So I ran the "iozone"
  82. >benchmark around 2pm and got horrid numbers, later in the afternoon they
  83. >were even lower, after dinner I decided to run it directly on the server
  84. >(thinking we had some sort of NFS problem at first).  I happened to login
  85. >on the console to do this and the CAM errors just cam pouring out and then
  86. >they stopped (little grey button time).
  87.  
  88.     If all of these were scrolling onto the console then for some reason
  89. the error logger daemon was no longer running.  Was it killed or did the
  90. error log area fill up ?  This could also be a part of the overall
  91. system being slowed down.
  92.  
  93. >}If I decide to back out on this "upgrade", will I have to reinstall
  94. >}the 4.2A kernel config files?  (I'd hate to have to do that since I've
  95. >}since installed a bunch of patches.)
  96. >
  97. >I was told that backing out of SCSI/CAM was NOT as simple as
  98. >just "setld -d ..."  If we can't get a fix by next week we are
  99. >resigned to going backwards to 4.2a.
  100.  
  101.     If you must you can delete the CAMBIN*, but not the CAMBASE*.  In the
  102. installation code for V4.2/CAM and V4.2c/CAM the utilities were not saved
  103. aside as part of the installation.  Deleting the CAMBASE* subset will
  104. unfortunately remove the mt utility and not restore it.
  105.  
  106. -- 
  107. John A. Gallant                                jag@zk3.dec.com
  108. Software Engineer - OSF Engineering Group
  109. Digital Equipment Corp. (603) 881-2472
  110.  
  111.         In the common people there is no wisdom, no penetration, no
  112.         power of judgment.
  113.     Marcus Cicero
  114.