home *** CD-ROM | disk | FTP | other *** search
/ Usenet 1994 January / usenetsourcesnewsgroupsinfomagicjanuary1994.iso / sources / std_unix / volume.23 / text0043.txt < prev    next >
Encoding:
Text File  |  1991-06-15  |  1.8 KB  |  39 lines

  1. Submitted-by: breynolds@UCSD.EDU (Bill Reynolds)
  2.  
  3. I originally posted this to comp.unix.questions. It was then
  4. recommended to me that I post here as well.
  5.  
  6. >Greetings,
  7. >    We are a computational physics group running a network of Sun 
  8. >and SGI workstations. We often have long running jobs on many of our
  9. >machines. This leads to problems when a machine needs to be taken down
  10. >that has a job in the third day of a five day run. What we would like
  11. >is a routine to checkpoint a job to a disk file for later reloading
  12. >into memory. I've looked at undump, but isn't adequate, we need to
  13. >restart the job where it was interrupted. I've also looked at condor,
  14. >but it seems to be a fly-with-a-sledgehammer type solution. I'm
  15. >wondering if there are any simple unix/sun/sgi utilities to do
  16. >checkpointing. (I know that such facilities exist for crays).
  17.  
  18. I would also like to add that such a facility would have to support
  19. fortran and would have to be simple enough to use that someone with
  20. only a background in scientific computing could use it (i.e. no system
  21. calls, no calls to c routines from fortran, etc). It has also been
  22. suggested that I modify the code to undump. I find this a daunting
  23. task (any takers?). (By the way, I have not actually gotten an undump
  24. working for the sun or the sgi).
  25.  
  26. --
  27. _______________________________________________________________________
  28.                         |  Bill Reynolds
  29.                            |  bill@inls1.ucsd.edu
  30.  
  31. [ First of all, there is Dan Bernstein's Poor Man's Checkpointing Package, 
  32.   posted to alt.sources (I think) a month or three ago.  Also, one of
  33.   the POSIX subgroups specifies checkpointing, that being the main reason
  34.   I'm posting this.  I will let others (who are likely to be more
  35.   knowledgeable about it) comment further, if they wish. -- mod ]
  36.  
  37. Volume-Number: Volume 23, Number 47
  38.  
  39.