home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #26 / NN_1992_26.iso / spool / vmsnet / misc / 997 < prev    next >
Encoding:
Internet Message Format  |  1992-11-10  |  4.6 KB

  1. Xref: sparky vmsnet.misc:997 comp.sys.dec:5872
  2. Path: sparky!uunet!ferkel.ucsb.edu!taco!gatech!darwin.sura.net!haven.umd.edu!umd5!umdsp.umd.edu!BLEAU
  3. From: bleau@umdsp.umd.edu
  4. Newsgroups: vmsnet.misc,comp.sys.dec
  5. Subject: VS3100-76 SCSI disk locks up
  6. Message-ID: <16921@umd5.umd.edu>
  7. Date: 10 Nov 92 21:28:51 GMT
  8. Sender: news@umd5.umd.edu
  9. Reply-To: bleau@umdsp.umd.edu
  10. Organization: University of Maryland Physics Dept., College Park, MD
  11. Lines: 77
  12.  
  13. Hello, DEC workstation users.  I have a problem that's been bothering me for
  14. some time, and I can't seem to get a handle on it.  First, the configuration. 
  15. I have a VAXstation 3100 model 76, 32MB memory, with a RZ5x internal disk
  16. (200MB+, I forget just which model number), a TZ30, and exteernal hard disk
  17. (1.2GB), and an external rewritable optical disk.  The two external disks were
  18. packaged for us by American Digital Systems; they're sold under the name
  19. MasterDisk.
  20.  
  21. Now for the problem.  Normally everything works great, but when I do a lot of
  22. transfers of data between the external hard disk and the optical disk (same
  23. SCSI bus) the system slows down and eventually locks up.  Everyone accessing
  24. the external hard disk gets hung, detached jobs eventually hang, and I start
  25. getting calls from everyone and his brother asking what is wrong.  The only way
  26. out of the situation I can find is to (shudder) press Halt and boot the system
  27. from scratch.  Not a nice situation, as you can imagine.
  28.  
  29. This has shown up in only two applications so far: backup and archiving.  Both
  30. times there is data being copied from the external hard disk to the optical
  31. disk.  It has never happened (I'm not saying it can't, though) on transfers
  32. between the internal (system) disk and the optical disk.  Backing up I have
  33. control over.  Archiving user data files, however, is done under user control,
  34. not mine, and he's brought the system to its knees several times already.
  35.  
  36. Don't do a lot of data transfers, you may say.  That means not doing backups
  37. onto a fast media, and backing up onto 12 TK50s just doesn't cut it.  Also, one
  38. reason we got this system is to distribute data to other sites.  This problem,
  39. then, hurts us in a big way.  Finally, we have a dedicated line going into this
  40. system to receive data, and the system is supposed to be up 100%, or we miss
  41. some data.  So having it die in the middle of an incoming data transfer is very
  42. messy.
  43.  
  44. Now you know the outlines of the problem.  I'll spare you the details, as there
  45. are over 1000 lines produces by ANAL/ERROR for just the 24 hrs preceeding the
  46. last crash.  There are, however, a few lines in the error log that I haven't
  47. seen anywhere else, so I'll include the English line output by ANAL/ERROR in
  48. case any body recognizes it.  If you need more info on these specific error log
  49. entries, email me and I'll be happy to send them to you, but they shouldn't be
  50. posted.  Here are those few tidbits:
  51.  
  52.          SCSI BUS PHASE ERROR
  53.          PHASE CHANGE TIMEOUT DURING DATA IN
  54.          SCSI BUS PHASE ERROR
  55.          TIMEOUT WAITING FOR PHASE INTERRUPT
  56.          BUS BUSY
  57.          BUS RESET INITIATED
  58.          CHECK CONDITION
  59.          UNIT ATTENTION
  60.          POWER ON OR RESET OCCURRED
  61.          PHASE MATCH
  62.  
  63. One more fact (here's the kicker): recently this same thing happened on a
  64. VAXstation 4000 model 60, with an identically configured (except for SCSI ID
  65. numbers) external hard disk and optical disk.  So while it's been observed for
  66. the most part on the VS3100, it is not limited to that system.  Same situation
  67. on the VS4000: I was doing a backup and the system hung.  Fortunately, though,
  68. the backup on the VS4000 detected a large error count (or whatever it does) and
  69. stops, asking me to specify QUIT or RESTART.  It was getting hairy, as the
  70. optical drive is the _only_ backup device I have on the VS4000!  I had to keep
  71. powering the drive off then back on and telling BACKUP to RESTART before it
  72. would complete the saveset (it took 6 sides!).
  73.  
  74. I've thought about it being a design problem with the American Digital Systems
  75. disk subsystem, but if that were the case I should see other errors in normal
  76. operations (like bad blocks?), shouldn't I?  I don't see any.  I've also
  77. thought, based upon the wording of the message output by ANAL/ERROR, that it
  78. might be a design problem with DEC's SCSI controller on the VS3100-76 (hence my
  79. cross-posting this to comp.sys.dec), but then why would it also show up on the
  80. VS4000-90?  And why later, too, after several months of operations?
  81.  
  82. Anything you can say to shed light on this will be appreciated.  In the
  83. meantime I'm limping along with minimal backups and keeping a watchful eye on
  84. the error count, and trying to find some workaround.  Thanks.
  85.  
  86. Larry Bleau
  87. University of Maryland
  88. bleau@umdsp.umd.edu
  89. 301-405-6223
  90.