home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #19 / NN_1992_19.iso / spool / comp / unix / aix / 9229 < prev    next >
Encoding:
Internet Message Format  |  1992-08-31  |  2.3 KB

  1. Path: sparky!uunet!nntp1.radiomail.net!cronos!Metaphor.COM!polk
  2. From: polk@Metaphor.COM (Ben Polk)
  3. Newsgroups: comp.unix.aix
  4. Subject: Re: Vanishing processes
  5. Message-ID: <2479@cronos.metaphor.com>
  6. Date: 31 Aug 92 18:42:31 GMT
  7. References: <2457@cronos.metaphor.com> <1992Aug24.160419.17269@awdprime.austin.ibm.com>
  8. Sender: news@cronos.metaphor.com
  9. Reply-To: polk@Metaphor.COM (Ben Polk)
  10. Organization: m4
  11. Lines: 38
  12.  
  13. In article <1992Aug24.160419.17269@awdprime.austin.ibm.com>, curt@ekhadafi.austin.ibm.com (Curt Finch 903 2F021 curt@aixwiz.austin.ibm.com 512-838-2806) writes:
  14. |> In article <2457@cronos.metaphor.com> polk@Metaphor.COM (Ben Polk) writes:
  15. |> 
  16. |> >I posted recently with a description of a problem where at least three
  17. |> >different processes running on my machine are terminated by AIX.  We
  18. |> >have verified that a Signal 9 is being sent by the kernel, and that
  19. |> 
  20. |> the only way the kernel ever does this 2 u as far as i know is if
  21. |> your program mallocs lots of space it never frees, uses up all the
  22. |> paging space and then the kernel kills it to free up that space.
  23. |> 
  24.  
  25. Nope.  There apears to be a bug either in the kernel or in one of the
  26. device drivers that causes this problem.  We are working with AIX support
  27. to try to determine what exactly is going on. 
  28.  
  29. I made two changes to one of the processes that were having this problem,
  30. and it seems to have gone away:
  31.  
  32. 1. Increased the size of the signal stack from 10k to 100k.
  33. 2. Fixed a place in my code where I was passing random stack data as the bit mask
  34.    for a select() system call.  This means that bits were set for fd's that
  35.    I really wasn't interested in.  This should not cause signal 9 to be delivered
  36.    to you, but then if computers always did what we wanted and expected, we
  37.    wouldn't need this newsgroup.
  38.  
  39. My belief is that it is the latter that corrected the problem, based on the fact
  40. that the signal 9 was coming back out while the process was in the select() system
  41. call, and that the select() returned an ENODEV status.  (Yes, you do return from
  42. a system call even if there is a signal 9 pending on your process.)
  43.  
  44. It's definitely not a paging space problem.  And while they may tell you that
  45. the only reason processes can vanish is because of paging space problems, or
  46. that they called exit(), or that you sent a signal with kill(), DON'T BELIEVE
  47. THEM.
  48.  
  49. Ben Polk
  50. polk@metaphor.com
  51.