home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #26 / NN_1992_26.iso / spool / comp / sys / isis / 302 < prev    next >
Encoding:
Internet Message Format  |  1992-11-12  |  3.5 KB

  1. Path: sparky!uunet!ogicse!das-news.harvard.edu!cantaloupe.srv.cs.cmu.edu!crabapple.srv.cs.cmu.edu!andrew.cmu.edu!<UNAUTHENTICATED>+
  2. From: snl+@cs.cmu.edu (Sean Levy)
  3. Newsgroups: comp.sys.isis
  4. Subject: Re: join never returns
  5. Message-ID: <kf0i4o600hNS8CkVpk@cs.cmu.edu>
  6. Date: 12 Nov 92 12:56:52 GMT
  7. Article-I.D.: cs.kf0i4o600hNS8CkVpk
  8. References: <Af05oZO00hNSI1DYZ2@cs.cmu.edu>
  9.     <1992Nov12.012210.29358@cs.cornell.edu>
  10. Organization: Carnegie Mellon, Pittsburgh, PA
  11. Lines: 67
  12. In-Reply-To: <1992Nov12.012210.29358@cs.cornell.edu>
  13.  
  14. Excerpts from netnews.comp.sys.isis: 12-Nov-92 Re: join never returns
  15. Ken Birman@cs.cornell.ed (2033)
  16.  
  17. > In article <Af05oZO00hNSI1DYZ2@cs.cmu.edu> Sean Levy <snl+@cs.cmu.edu> writes:
  18. >   (description of a join problem)
  19.  
  20. > I can see from your log that everything is piling up waiting for
  21. > replies from one or two of your clients (e.g.: sent to xxxx, status W
  22. > means "waiting for a reply from xxxx").  But, lacking logs from
  23. > xxxx I don't know why.
  24.  
  25. My processes are very simple right now, and don't do logging. Sigh.
  26.  
  27. > Some random ideas:  if TCP channel breakage is not always working
  28. > right on your systems (and this is a common thing we see on SUN
  29. > systems, for example), then if isis_probe isn't set you might have
  30. > Isis fail to notice that xxxx is dead and so hang.  But, I bet that
  31. > this is not the problem.  V2.2.7 and V3.0.7, at least, would not have
  32. > such a problem.
  33.  
  34. > Some evidence that your TCP is having trouble is the failure to restart
  35. > after shutting down: seems that UNIX is not deallocating the TCP
  36. > data structure in the kernel and hence Isis can't reopen it.
  37.  
  38. > SUN has problems in this part of TCP in one of their releases a while
  39. > back.  If you are on ISIS V2.2.5 on a SUN 4.1.1c platform, for example,
  40. > this could explain it.  But, later releases of SUN OS and also of ISIS
  41. > (either of them) would probably not have this problem.
  42.  
  43. Welp, this may be it. I have V3.0.5. We are running SunOS 4.1.1 (not
  44. sure about the "c"). Since there is zero probability I can get 3.0.7
  45. between now and tomorrow (my demo is tomorrow), I'm going to fail-over
  46. to my "b" option and move everything to pmaxen running Ultrix.
  47. Unfortunately, this means I have to swab my RDBMS gunk offline (I hate
  48. byte order problems). Sigh.
  49.  
  50. > Another idea: if you try and join multiple groups, say that p joins
  51. > A and then B and q joins B and then A.  If they don't call isis_start_done
  52. > FIRST, then they can deadlock because p needs to help q on its join
  53. > and vice versa.  Would only see this for "concurrent" join situations.
  54. > This could explain why adding some extra groups caused the problem --maybe
  55. > you did so in a way that introduced a cyclic join pattern?
  56.  
  57. Again, I don't THINK this is the problem, but I will look into it.
  58.  
  59. > Did you find client-created xxxx.log files after your snapshot?  When
  60. > you see protos log files that show people waiting for certain programs
  61. > to take an action, the next step is to have a close look at the state
  62. > of those programs...
  63.  
  64. Agreed. Unfortunately, my demo tomorrow calls.
  65.  
  66. Any more info you can give me on this (like any quick patches I can make
  67. to the 3.0.5 sources to work around the problem) would be greatly
  68. appreciated.
  69.  
  70. > -- 
  71. > Kenneth P. Birman                              E-mail:  ken@cs.cornell.edu
  72. > 4105 Upson Hall, Dept. of Computer Science     TEL:     607 255-9199 (office)
  73. > Cornell University Ithaca, NY 14853 (USA)      FAX:     607 255-4428
  74.  
  75. Cheers,
  76.             -- Sean
  77.  
  78. --
  79. Sean Levy, n-dim Group, EDRC, CMU, 5000 Forbes Ave, PGH, PA 15213
  80. Email: snl+@cmu.edu, Phone: +1 412 268 5221, Fax: +1 412 268 5229
  81.