home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #27 / NN_1992_27.iso / spool / comp / os / vms / 18083 < prev    next >
Encoding:
Internet Message Format  |  1992-11-17  |  7.4 KB

  1. Path: sparky!uunet!charon.amdahl.com!pacbell.com!sgiblab!zaphod.mps.ohio-state.edu!cis.ohio-state.edu!ucbvax!U.WASHINGTON.EDU!DEREK
  2. From: DEREK@U.WASHINGTON.EDU
  3. Newsgroups: comp.os.vms
  4. Subject: Plans for mixed Alpha/VAX cluster... WARNING!
  5. Message-ID: <C4A431AEA25FE48CFF@MAX.U.WASHINGTON.EDU>
  6. Date: 17 Nov 92 01:19:00 GMT
  7. Sender: usenet@ucbvax.BERKELEY.EDU
  8. Organization: The Internet
  9. Lines: 146
  10.  
  11. OK, folks, I have been meaning to write about the following problem for
  12. quite some time, but just hadn't gotten around to it.  A posting by
  13. Don Stokes (don@vuw.ac.nz), however, catalyzed me into action!  :)
  14.  
  15. Last May, Andy posted the following note.  (I don't know who Andy is either.
  16. He only signed with his first name.)  
  17.  
  18. >From:    IN%"INFO-VAX@SRI.COM" 18-MAY-1992 03:25
  19. >Subj:    Upgrade VMS 5.0-2 to 5.5 failure...
  20. >
  21. >Say... *I* had problems upgrading from VMS V5.0-2 to VMS 5.5... I got some
  22. >kind of error saying it couldn't find the "CHGSYSPAR" program... this was
  23. >right at the end of phase 1, when it was setting the system parameters to
  24. >reboot and start phase 2.  Very frustrating... I wound up having to install
  25. >VMS as opposed to upgrading, then had to restore & reinstall pertinent files...
  26. >Andy
  27.  
  28. Well, I had an experience with this problem, too!
  29.  
  30. About two years ago, we ran into a weird problem during a VMS upgrade to V5.4.
  31. Things were proceeding along "swimingly" we reached phase 2, at which point
  32. it bombed out with a "file not found" error on the file "CHGSYSPAR.EXE".
  33. The folks who were doing the upgrade tried it again, and it failed again with
  34. the same error.  They made a cursory examination of the KITINSTAL procedure,
  35. and decided that we were somehow missing the image.  So they restored the
  36. file from the distribution media, and tried again.  It failed again.  They
  37. went back to the KITINSTAL and became very puzzled, because they discovered
  38. that the image was RETRIEVED from the VMSnnn.A saveset!  "Obviously", the
  39. upgrade procedure had a logic flaw in it.  (It had just finished deleting 1100
  40. or so files, and it looked like it had deleted the file it had just restored.)
  41. So they unpacked the .A saveset, modified KITINSTAL.COM to copy CHGSYSPAR
  42. from a copy saved specifically for this purpose, re-created the .A saveset,
  43. and completed the upgrade.  Whew!
  44.  
  45. I started looking at the problem the following Monday.  This was quite a
  46. puzzle.  I researched the problem for quite some time.  Colorado was stumped.
  47. No one had reported such problems before.  I even spoke with the engineer who
  48. was then responsible for VMSINSTAL.  He hadn't heard of this problem, either.
  49. Well, we just wrote it off as random "cosmic ray" (AKA an "alpha" particle) :)
  50. which struck multiple times.   :)
  51.  
  52. It wasn't until about 6 months later that I solved this problem.
  53.  
  54. So, what does Don's posting have to do with any of this?  Good question!
  55. (Anyone else appreciate James Burke's "Connections", etc., series?)
  56.  
  57. Don wrote:
  58.  
  59. >...  [VMS$COMMON] is used by practically nothing at all.  I
  60. >smashed my system disk up a while ago, and made a fairly hairy recovery.
  61. >Several  days later I discovered that [VMS$COMMON] hadn't been re-created,
  62. >but the system hadn't noticed.  Obviously, [SYS0.SYSCOMMON] was present,
  63. >and that's all that mattered.
  64.  
  65. My guess is that Don did not perform an IMAGE restore of his system disk,
  66. but that doesn't really matter for my point.  However, it COULD produce
  67. the problem that both we and Andy experienced.
  68.  
  69. So, what happened some six months after our problem?  Well, I decided to
  70. do an "ANALYZE /DISK /NOREPAIR" on the system disk of the system which had
  71. had the problem.  In doing so, I discovered an EXTRA SYSCOMMON.DIR!  In
  72. going back through our logs, I discovered that a little more that three
  73. months BEFORE our upgrade, several images had "disappeared" from the
  74. SYS$SYSTEM directory.  To correct the problem, without shutting down the
  75. system, someone had performed a BACKUP "file restore" of the directory
  76. tree [SYS0.SYSCOMMON].  This created a SYSCOMMON.DIR which was NOT
  77. linked with the VMS$COMMON directory, which sounds like the situation
  78. Don says he had (has).
  79.  
  80. (As for why the files started disappearing in the first place, I seem to
  81. recall tracking it back to an installation of RDB the day before.)
  82.  
  83. So, why is this a problem, and how would it cause a problem for the upgrade?
  84. Well, an upgrade of VMS uses the SYSF root as a temporary holding place for
  85. some of the new images.  In order to keep track of both the old and new images,
  86. the KITINSTAL procedure creates, and uses, several names for the various
  87. directories.  These are:
  88.  
  89.       "old_sysexe"    old [SYSEXE] in SYS$SPECIFIC:, such as
  90.                         DUA0:[SYS0.SYSEXE]
  91.  
  92.       "new_sysexe"      new [SYSEXE] in "new" SYS$SPECIFIC:,
  93.                         i.e., DUA0:[SYSF.SYSEXE]
  94.  
  95.       "clroot_sysexe"   [SYSEXE] directory in the CLUSTER common root, if
  96.                         such exists.  You might expect this to be defined
  97.                         as the translation of SYS$COMMON:[SYSEXE],
  98.                         DUA0:[SYS0.SYSCOMMON.SYSEXE], but it is actually
  99.                         defined as DUA0:[VMS$COMMON.SYSEXE]!
  100.  
  101. Using these symbols, the procedure first deletes any "old" copies of specific
  102. upgrade-related files, such as CHGSYSPAR.EXE, from the "old_sysexe" and
  103. "clroot" directories.  Then, it copies new files from the distribution to
  104. both the "new_sysexe" and "clroot_sysexe" directories.
  105.  
  106. Now, IF SYS$COMMON is the same directory as [VMS$COMMON], everything is OK.
  107. In fact, things would be OK except for one thing.  KITINSTAL invokes the
  108. procedure VMS$UPG_SYSPARFILES.COM which, naively, tries to run the new
  109. CHGSYSPAR image out of SYS$SYSTEM, and NOT out of "new_sysexe"!  Granted,
  110. it "should" work, but I still insist that this is a logic error.  After all,
  111. SYS$SYSTEM is defined to point to the OLD system, which is under demolition.
  112.  
  113. Now that you have all heard my tale of woe, you should all be asking 
  114. "why did the upgrade succeed if the directories were so messed up?"
  115. After all, SYSCOMMON.DIR still has all of the OLD images and files left in
  116. it -- doesn't it?
  117.  
  118. Yes, it does.  So didn't this cause a problem for us right after we completed
  119. the upgrade?  One would expect at least a FEW ident and cld-image mismatches.  
  120. It turns out that one of the last things done by the upgrade is to execute a
  121. command like:
  122.  
  123.       $ SET FILE /ENTER=[SYS0]SYSCOMMON.DIR VMS$COMMON.DIR
  124.  
  125. This pretty effectively "loses" our old, "bad" SYSCOMMON directory, and
  126. "fixes up" everything for the new version.
  127.  
  128. Except....  for the lost files, which, in our case, used up almost 300,000
  129. blocks of space.  Fortunately, we are using a large disk, so we weren't
  130. adversely impacted by this.
  131.  
  132. Yes, we ran for 3 months with an "incorrect" directory structure, and you
  133. can too ... but, don't expect an easy upgrade if you do.
  134.  
  135. And, yes, after I discovered the "root"  :)  of the problem I contacted the
  136. engineer.  He effectively said "Oh, yeah.  That could be a problem."  I
  137. suggested that he modify the KITINSTAL procedure to CHECK for, and notify
  138. the user of, an invalid directory structure.  Nonetheless, no change has
  139. yet been made.  Furthremore, as of VMS V5.5, the VMS$UPG_SYSPARFILES
  140. procedure STILL invokes CHGSYSPAR out of SYS$SYSTEM.
  141.  
  142. -Derek S. Haining
  143.  University Computing Services
  144.  University of Washington
  145.  Seattle, Washington  98195 
  146.  (206) 543-5579
  147.  
  148.  DEREK@MAX.BITNET
  149.  DEREK@MAX.U.WASHINGTON.EDU
  150.  
  151.  
  152. Questions?  Comments?  Always happy to receive them -- even if they ARE
  153. flames.  It lets me know that SOMEONE bothered to read what I so painstakingly
  154. wrote!  :)
  155.  
  156.