home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #16 / NN_1992_16.iso / spool / comp / unix / sysv286 / 126 < prev    next >
Encoding:
Text File  |  1992-07-30  |  9.2 KB  |  214 lines

  1. Newsgroups: comp.unix.sysv286
  2. Path: sparky!uunet!cs.utexas.edu!hermes.chpc.utexas.edu!jonathan
  3. From: jonathan@chpc.utexas.edu (Jonathan Thornburg)
  4. Subject: (long) Microport/286 won't boot (was: Re: Microport cactus, newsfeed dead, spouse rabid)
  5. Message-ID: <1992Jul31.074716.21851@chpc.utexas.edu>
  6. Summary: big trouble
  7. Keywords: Microport 286 System V/AT usenet boot primary disk failure broken
  8. Sender: jonathan@einstein.ph.utexas.edu
  9. Organization: U of Texas at Austin / Physics Dept / Center for Relativity
  10. References: <1992Jul31.014347.14547@pta.pyramid.com.au>
  11. Date: Fri, 31 Jul 92 07:47:16 GMT
  12. Lines: 200
  13.  
  14. In article <1992Jul31.014347.14547@pta.pyramid.com.au>
  15. russ@pta.pyramid.com.au (Russell Day) writes:
  16.  
  17. >I am in trouble.
  18. Alas, yes.
  19.  
  20. > [ sad story of computer failing to boot, apparently
  21. >   due to disk corruption including partition table
  22. >   and/or primary boot block ]
  23.  
  24. Unfortunately, you don't say precisely what software you're running.
  25. I presume "Microport System V/AT", but you don't say what version.
  26. There are a lot of known bugs in Microport, especially in the 1.*
  27. releases -- knowing the version number might help track things down.
  28.  
  29.  
  30.  
  31. >Naturally, no-one in his right mind would want to back up 38
  32. >MB onto floppies
  33.  
  34. Well, I currently have full backups of 56 MB on floppies (5.25"
  35. high density, not compressed) from my Microport 286 system.  That
  36. said, you're not the first person to question my state of mind. :-)
  37. (And there will doubtless be several more such questioners when
  38. my committee gets to see my thesis next month. :-) )
  39.  
  40. >... so I dont have a recent backup.  
  41.  
  42. This is not good.  Backups are like any other form of insurance --
  43. they're a boring waste of time and money, *until* you need them.
  44. Then they become worth their weight in silicon.  I do a complete
  45. dump every 6 months to a year, and incrementals every 2 weeks or
  46. so.  (Sometime after my thesis is done (October?) I'll post my
  47. "backup system", it's less than 50 non-comment lines, mostly in
  48. very simple awk, yet can do incremental dumps and selective restores,
  49. and if a read/write error occures on one floppy, it can still access
  50. the others in a backup set.)  I have never had to recover anything
  51. due to hardware failure, but about once every few months I manage
  52. to delete an important file or files by mistake, even with the lines
  53.     set limbo='/usr/limbo'
  54.     alias rm "mv -f \!* $limbo"
  55. in the interactive-shell part of my  .cshrc .
  56.  
  57.  
  58.  
  59. >Some test were run:
  60. >    All BIOS read and seek tests pass.
  61. >    I can boot unix from the floppy.
  62. >    fdisk describes the Unix and Dos partitions correctly.
  63. >    I can boot dos (first 100 cyls of disk).
  64. >
  65. >So the drive and the partition table are both ok.
  66.  
  67. It's possible that some hardware component is getting marginal,
  68. so some timing is being violated.  Unix works the hardware a lot
  69. harder than DOS, and tends to be less tolerant of flaky hardware.
  70. This probably applies to the disk as well -- remember Unix *doesn't*
  71. use the DOS BIOS once it's up and running, so a marginal disk sector
  72. might work ok under DOS but fail under Unix.  Have you tried using
  73. fdisk to rebuild your disk's bad track table?  Oops, that might
  74. erase your disk, I'm not sure.  But if not, it's certainly worth
  75. doing.  Ditto for resetting the partition table -- even if it reads
  76. ok, the bits might not be all the way on :-), so refreshing them
  77. might be a good idea.
  78.  
  79. Another idea: If your machine can run at several different clock
  80. rates, you might try switching to the slowest of them and see if
  81. it makes any difference.  I suspect it won't, but it might be
  82. worth a try.
  83.  
  84.  
  85.  
  86. >Having booted DOS, I try the following:
  87.  
  88. I presume you meant "Having booted *Unix* from the floppy, ...".
  89.  
  90. >    mount /dev/dsk/0s0 onto /mnt
  91. >
  92. >    It says 'Drive 0 Type 15' 
  93. >    Error reading super block.
  94. >    It is getting a disk error trying to read head 5 sector 1.
  95. >
  96. >This is a no-no because the drive has only 5 heads numbered
  97. >0-4.  And it is a type 17, not a type 15 as stated.  I can
  98. >understand that it thinks that the super block is creamed.  I
  99. >dont know why it wants a type 15 drive, when the cmos setup,
  100. >and fdisk, all agree that it is a type 17.  Is it on drugs?
  101.  
  102. I had some hardware trouble about 7 months ago with some symptoms
  103. in common with yours.  When I restarted my machine (Microport System
  104. V/AT 2.3.0U, Apco 286, 8 MHz, 640K base + 2048K extended memory,
  105. 72 MB disk) after a transcontinental move, it had several hardware
  106. /setup problems.  Among them was a scrambled cmos -- it said that
  107. the date was "January 56 1992" [sic].  I don't remember all the
  108. details of how I got it going again (several service trips never
  109. did find what was (is) broken with the hardware, and it's running
  110. fine now, though I ended up having to leave 128K of base memory
  111. disabled), but there were two key things:
  112. - I found that the battery in my computer had come loose during
  113.   shipping.  I tried to reconnect it myself, but couldn't find
  114.   the right connections amongst several other bare-metal-terminals
  115.   within reach.  (This was before the machine's first trip to the
  116.   computer hospital.)  So you might try checking that your battery
  117.   is properly hooked up, and think about whether it's going dead
  118.   on you.  (That can cause all kinds of flaky problems.)
  119. - I found that the Unix /etc/setup program would sometimes fail
  120.   to properly store into the cmos even when the DOS setup program
  121.   would work fine.  So you might try reinitializing all your cmos
  122.   parameters with the *DOS* setup program.
  123.  
  124. >So I muck about some more, and I get to a stage where
  125. >    mount /dev/dsk/0s0
  126. I presume you actually meant
  127.     mount /dev/dsk/0s0 /mnt -r
  128. >returns
  129. >    Not a file system.
  130.  
  131. This is pretty clear -- your superblock is corrupt, or there's some
  132. disk problem (like trying to read from a nonexistant head on a
  133. wrong-type drive) that makes the kernel think the superblock is
  134. corrupt.
  135.  
  136. (Aside #1 -- It would be nice if Microport supported
  137. the Berkeley Fast File System, which includes duplicate superblocks
  138. scattered at intervals through the disk, so one can try booting from
  139. an alternate if the primary one is corrupted.  But alas FFS support
  140. isn't part of System V Release 2 (which is what Microport SysV/AT is),
  141. and nobody's doing any development work on ancient software like this
  142. anyway, so don't hold your breath...).  Moreover, the FFS uses more
  143. CPU than the Unix Version 7 FS (which is what Microport has), and
  144. it's not clear whether the improved disk usage would compensate for
  145. this.)
  146.  
  147. (Aside #2 -- does anyone have an disk defragmenter for Microport that
  148. works without having to dump and restore everything?)
  149.  
  150.  
  151. >And
  152. >    divvy -d
  153. >returns
  154. >    Invalid partition end record.
  155. >(This may be because the selected partition was somehow changed
  156. >to be the dos partition - I didnt think of this at the time, and
  157. >now I am here, not there, and cant check. )
  158.  
  159. Hmm, I don't know, but I wouldn't be suprised if the superblock isn't
  160. used to calculate where to look on the disk for the partition end
  161. record, so this too might be a bad-superblock problem.
  162.  
  163. That said, you should certainly check that divvy is looking at the
  164. Unix partition, and if not retry this there.
  165.  
  166. By the way, my manual pages for "divvy(1M)" don't mention any options
  167. at all.  I just tried "divvy -d" and it dumps all sorts of "interesting"
  168. information -- thanks for telling all of us dwindling tribe of
  169. Microport-ers out in net-land about it.  How did *you* find out of
  170. its existence?  (I.e. what other manuals should I have read to learn
  171. about it?)
  172.  
  173. >So the question of the day is:
  174. >    Why does the boot floppy decide my disk is a type 17
  175. >    when all the indications are that everything else
  176. >    thinks it is a type 15?
  177.  
  178. Bad karma?  Unfavorable morphic resonance?  Wrong phase-of-moon?
  179. Unkind remarks about Microport in comp.unix.sysv286?
  180.  
  181. Seriously, though, this certainly resembles the battery problems
  182. I had.  I'd look at testing the battery, or taking it to a computer
  183. service shop and having them do so.
  184.  
  185. >Any hints?
  186. Another thing to try:  Boot Unix on floppy disk.  Use dd on /dev/dsk/...
  187. to take a look at the superblock, and try to figure out what's corrupted.
  188. The superblock format is described in the manual pages, see fs(4).
  189. In fact, Microport has a program /etc/fsdb(1M) to grub around in damaged
  190. filesystems, printing and possibly repairing things.  But alas it
  191. doesn't seem to be on the boot disk.  If you want, I could mail you
  192. a copy of it on a floppy -- E-mail me if you want to try this, though
  193. unless you have a 2-floppy machine we'd have to somehow copy it onto
  194. a boot floppy.
  195.  
  196. That said, I suspect the problem is somewhere "lower down", since
  197. it looks like your system is trying to access the disk with the
  198. wrong drive type and head count.  This info comes from the cmos.
  199.  
  200. When I was trying to figure out why my cmos wasn't working properly
  201. (before I knew that the battery was disconnected), one thing that I
  202. found is that a write to cmos (from either DOS setup or Unix /etc/setup)
  203. would "succeed", and the new data would stay there so long as the
  204. machine stayed on.  But if I shut the machine down, actually turned
  205. the power off, then restarted, the cmos would be wrong again.  You
  206. might check whether this is happening to you.
  207.  
  208. Good luck,
  209.  
  210. - Jonathan Thornburg
  211.   <jonathan@einstein.ph.utexas.edu> or <jonathan@hermes.chpc.utexas.edu>
  212.   University of Texas at Austin / Physics Dept / Center for Relativity
  213.   and (for a few more months) U of British Columbia / {Astronomy,Physics}
  214.