home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #16 / NN_1992_16.iso / spool / comp / arch / 8274 < prev    next >
Encoding:
Internet Message Format  |  1992-07-24  |  23.8 KB

  1. Path: sparky!uunet!dtix!darwin.sura.net!wupost!uwm.edu!linac!att!ucbvax!x1sun6.ccl.itri.org.tw!lycmit
  2. From: lycmit@x1sun6.ccl.itri.org.tw (Yin-Chih Lin)
  3. Newsgroups: comp.arch
  4. Subject: Could I compete the low-end CM5 with multiple SPARCstations? (Summary)
  5. Message-ID: <9207240335.AA06549@x1sun6.ccl.itri.org.tw>
  6. Date: 24 Jul 92 17:35:32 GMT
  7. Sender: daemon@ucbvax.BERKELEY.EDU
  8. Lines: 583
  9.  
  10. Greetings:
  11.  
  12. Pardon me for using the net bandwidth again. I have received many replies
  13. about the subject. So I suppose maybe it will be fine to summarize these
  14. responses and repost again. (I apologize if someone don't think so).
  15.  
  16. Most of notes imply that it is *almost impossible* to challenge the
  17. CM5 with the Sparcstations without extra facilities (vector processors,
  18. high-speed net, good s/w).
  19.  
  20. However, it might be *not true* in my case. I know another team in 
  21. ITRI/CCL has developed the VP processors for SPARCstations (I haven't
  22. inquired the actual spec. and performace of this processor). I also
  23. belileve there are vendors provide the FDDI add-on cards for SBus.
  24. The only hurt is the *software*. It is true that my organization
  25. is impossible to sanctify such project ( especially when there is
  26. one IBM ES-9000/820 machine will be available from National High Speed
  27. Computer Center in my country. I don't know *why* they select IBM).
  28.  
  29. But I also got some directions from the receiving messages. Some of
  30. them (PVM, p4) are positive encourages for me to look for what I like 
  31. with the current facilities.
  32.  
  33. Anyway, I would be glad to hear any comments about the subject in any
  34. time. Please feel free to email me if you have further directions.
  35.  
  36. Thanks go to following people (according the order in my mail box, 
  37. date to July 24, 12:00 - London time plus 8 hours)
  38.     
  39.     Peter Su        psu@cs.duke.edu
  40.     Dirk Grunwald        grunwald@foobar.cs.colorado.edu
  41.     Jon Mellott        jon@alpha.ee.ufl.edu
  42.     Jerry Callen        jcallen@Think.COM
  43.     K. J. Chang        kjchang@hpl.hp.com
  44.     Steve Roy        ssr@ama.caltech.edu
  45.     Scott Townsend        fsset@bach.lerc.nasa.gov
  46.     Rowan Hughes        csrdh@marlin.jcu.edu.au
  47.     Mark Homewood        fred@meiko.com
  48.     Matthias Schumann    schumanm@informatik.tu-muenchen.de
  49.     Mike Davis        davis@ee.udel.edu
  50.     Michael Kolatis        kolatis@cs.utk.edu
  51.     Dave            dave@sep.stanford.edu
  52.     Henrik Klagges        henrik@tazdevil.llnl.gov
  53.     (anonymous)        vu0208@bingsuns.cc.binghamton.edu
  54.     Bob Felderman        feldy@isi.edu
  55.     Ian L. Kaplan        ian@MasPar.COM
  56.     Bill Maniatty        maniattb@cs.rpi.edu
  57.     Keith Bierman        Keith.Bierman@Eng.Sun.COM
  58.     Paul Whiting         Paul.G.Whiting@mel.dit.csiro.au
  59.  
  60. Here are the original message and replies:
  61.  
  62. ------------------------------ ( original ) --------------------------------
  63.  
  64. We have many Sun's SPARCstations (from 1, 1+, IPC, to 2, 670MP and 
  65. SPARCstation 10 in the near future), and the new-version multi-thread
  66. OS (SunOS 5.0) will be installed on these computers.
  67.  
  68. I find that the Think Machines Corp.'s latest MPP machine CM-5 is also
  69. adopted the SPARC processors (22 MIPS per processor) as its nodes.
  70. According the "Parallel Processing" Oct. 1991 issue, the price of 32-node
  71. CM5 model will sell at about $1.4 million.
  72.  
  73. I am curious, if I connect 32 SPARCstation 10 model 30 (33MHz, SuperSPARC
  74. module with 86.1 MIPS - Sun Micro adverted!?) computers (loosely-coupled
  75. MIMD multicomputers?) either by Ethernet, ISDN or FDDI with the multi-
  76. thread OS and might use facilities from Linda-like distributed data
  77. structures. Is it possible for me to obtain the reasonable performance
  78. when compared with the 32-node TMC CM5 (SIMD machine)?
  79.  
  80. I will be highly appreciated for receiving any comments. Please direct
  81. your opinion (or abuse) to me by email. so the news bandwidth won't be
  82. wasted (except this one!).
  83.  
  84. Thanks,
  85.  
  86. P.S. I would also like to know, is there any one config their SPARCstations
  87. to a message-passing MIMD multicomputers rather than just merely LAN-
  88. based networking workstations?
  89.  
  90. ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
  91. Yin-Chih Lin                            Industrial Technology Research
  92. email: lycmit@x1sun6.ccl.itri.org.tw    Institute  (ITRI)
  93. phone: 886-35-917331
  94. fax:   886-35-917503                    Computer & Comm. Research Labs.(CCL)
  95. ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
  96.  
  97.  
  98. ------------------------------ ( reply #1 ) --------------------------------
  99.  
  100. From: Peter Su <psu@cs.duke.edu>
  101.  
  102. The answer depends on two things:
  103.  
  104. 1) Would your code be able to take advantage of the CM-5 vector units?
  105. 2) Does your code need to do a lot of communication/synchronization.
  106.  
  107. If you have code that breaks up into big, independent chunks which do
  108. not vectorize easily, and you have libraries to manage workstaion
  109. clusters, then I can't see why the CM-5 would be much better.
  110.  
  111. Oh, the CM-5 probably has more usable memory per node, since data
  112. processing nodes don't run the full OS.
  113.  
  114. Pete
  115.  
  116. ------------------------------ ( reply #2 ) --------------------------------
  117.  
  118. From: Dirk Grunwald <grunwald@cs.colorado.edu> 
  119.  
  120. The CM-5 also has 200Mf vector processors and a very fast network.
  121. most importantly, it has good software.
  122.  
  123. ------------------------------ ( reply #3 ) --------------------------------
  124.  
  125. From: Jon Mellott <jon@alpha.ee.ufl.edu>
  126.  
  127. It depends a lot on the type of tasks that you are doing. If your tasks 
  128. are characterized by lots of communication between processes/processors, 
  129. then the CM-5 will probably eat you alive. Also, the CM-5 does have 
  130. the option of a vector processor for each processor module, so you 
  131. could potentially be chewed up there also. 
  132.  
  133. BTW, if your intent is to do something like this, then you might 
  134. consider going to something like the SS10 model 54 (four processors). 
  135. You'd be money ahead on a per processor basis since you wouldn't have 
  136. to buy as many pizza boxes per processor. Also, if your code is 
  137. amenable to multi-threading then you might be able to derive a big 
  138. benefit from running on a multiprocessor machine, especially from an 
  139. inter-thread communications standpoint. 
  140.  
  141. Lemme see, the SS10 model 54 is listing at something like $50K, so 
  142. for a million bucks you could get twenty of them. That'd give you 
  143. eighty processors. You could spend the savings on FDDI interfaces 
  144. so you don't get butchered by ethernet latencies. 
  145.  
  146. BTW, this sort of thing has been described before in the literature. 
  147. I don't recall where, but it has been done before. 
  148.  
  149. Good luck,
  150. Jon Mellott
  151. High Speed Digital Architecture Laboratory
  152. (jon@alpha.ee.ufl.edu)
  153.  
  154. ------------------------------ ( reply #4 ) --------------------------------
  155.  
  156. From: Jerry Callen <jcallen@Think.COM>
  157.  
  158. [Claimer: I work for Thinking Machines.]
  159.  
  160. There is a lot more to a CM-5 than SPARCs and memory.
  161.  
  162. Specifically, there are two high-bandwidth, low-latency networks. The
  163. "control network" can perform a number of combining operations (max,
  164. add, or, xor), broadcasting and synchronization functions. The "data
  165. network" allows point-to-point communications between multiple nodes
  166. SIMULTANEOUSLY at very high bandwidths (>5MB/sec/node). This gives a
  167. 32 node machine a (very conservatively rated) aggregate bandwidth of
  168. 160MB/sec. You just cannot get this kind of bandwidth out of Ethernet
  169. or even FDDI. Also, the network interface is mapped into user memory
  170. space, so you don't have to go through operating system layers to get
  171. at it.
  172.  
  173. There are also 4 vector units on each node; each vector unit has a
  174. dedicated bank of memory, yielding very high memory bandwidth. Each
  175. vector unit can do 32MFLOPS (peak, but I have seen codes get >75% of
  176. this).
  177.  
  178. Also, a point of clarification: the CM-5 is NOT a "SIMD machine." While
  179. the networks provide excellent support for a data-parallel programming
  180. model, TMC supports a message-passing programming model as well.
  181.  
  182. Call TMC at (617) 234-1000 and ask for a CM-5 Technical Summary if you
  183. would like more information.
  184.  
  185. -- Jerry Callen
  186.    jcallen@world.std.com           (preferred)
  187.    jcallen@think.com               (OK, too)
  188.    {uunet,harvard}!think!jcallen   (if you must)
  189.  
  190. ------------------------------ ( reply #5 ) -------------------------------- 
  191.  
  192. From: K. J. Chang <kjchang@hplabsz.hpl.hp.com> 
  193.  
  194. Of course! That's why there are at least 20 new RISC-based workstations 
  195. being designed here at Silicon Valley. Mainframe or Supercomputer vendors
  196. do not release their SPCEfp92 or SPECint92 because their products are
  197. not cost-effective.
  198.  
  199. You may want to read Chap. 2 of "Computer Architecture A Quantitative
  200. Approach" (John Hennessy and David Patterson), especially Figure 2.25
  201. which tells you that those expensive computers' MFLOPS are in the range
  202. of 8.3 to 24.4 only.
  203.  
  204. -- 
  205. K J Chang, Hewlett-Packard ICBD R & D,                      (())_-_(())
  206. Palo Alto, CA 94304                                          | (* *) | 
  207. Internet: kjchang@hpl.hp.com           a UCLA Bruin  -->    {  \_@_/  }
  208. voice mail: (415)857-4604                                     `-----' 
  209.  
  210. ------------------------------ ( reply #6 ) -------------------------------- 
  211.  
  212. From: Steve Roy <ssr@ama.caltech.edu>
  213.  
  214. There are three main differences that insure that a network of
  215. workstations will not compete with the CM5.
  216.  
  217. The first difference is a hardware one: The Sparc in the CM5 is really
  218. just a controller/scheduler for custom vector/memory processors.  Each
  219. sparc controls 4 of these processors.  These vector boards are much
  220. much faster than the sparc for number crunching, the main point of
  221. this sort of machine.  The fact that it has Sparcs in it is sort of
  222. irrelevant for number crunching considerations.
  223.  
  224. The second difference is the speed of the communications: the CM5 has
  225. a very fast and sophisticated network that allows arbitrary
  226. permutation communication to proceed at not less than 5MByte/sec per
  227. processor.  This is the high bandwidth network; there is also a lower
  228. bandwidth but also lower latency network that is used primarily for
  229. fast syncronizations between processors.  There is a third network for
  230. diagnostics.  The networks are redundant so the machine can continue
  231. to work given any single point failure, an important consideration for
  232. a massively parallel system.
  233.  
  234. The third difference is the integrated and powerful software that
  235. allows easy parallel coding and debugging.  The debugger is X-based
  236. and allows you to click on (for example) an array name and display its
  237. contents either as numbers or as a contour plot.  The first compiler
  238. is an F90 variant, there will later be ports of C* and presumably
  239. *Lisp. 
  240.  
  241. It was a good question tho.  I hope you post a summary to the net.
  242.  
  243. Steve Roy.-- 
  244. ----------------------------------------------------------------------
  245. Steve Roy                     |  Life.  Don't talk to me about life.
  246. ssr@ama.caltech.edu           |
  247.                               |
  248.  
  249. ------------------------------ ( reply #7) -------------------------------- 
  250.  
  251. From: Scott Townsend <fsset@bach.lerc.nasa.gov>
  252.  
  253. While the individual processors will be comparable to those in the CM5,
  254. as a group your clustered processors will approximate the CM5 only if your
  255. parallel application does almost zero communications.
  256.  
  257. We've run some experiments here with a cluster of RS6000's.  On applications
  258. which require very little communication relative to the computation rate,
  259. things run very well.  As soon as you get into more typical parallel
  260. applications, things slow down REAL fast!
  261.  
  262. The main reason for this is latency.  Local networks are not designed for
  263. very low latency.  Unless the interconnect in a parallel processor has _very_
  264. low latency compared to CPU speed, you spend all your time waiting for
  265. messages instead of computing.
  266.  
  267.  
  268. -- 
  269. Scott Townsend,  Sverdrup Technology Inc.  NASA Lewis Research Center Group
  270. fsset@bach.lerc.nasa.gov
  271.  
  272. ------------------------------ ( reply #8) --------------------------------
  273.  
  274. From: Rowan Hughes <csrdh@marlin.jcu.edu.au>
  275.  
  276. You'd need to connect them together with at least FDDI. The bandwidth between
  277. nodes is the biggest problem with MPP machines. 1000Mb/s would be better.
  278. Also, you probably won't be able to use more nodes than 16, since the
  279. search/latency overheads become prohibitive on a single commnication rail, ie
  280. you've got no secondary search engine.
  281.  
  282. At the moment the CM-5 is just a bunch of Sparc stations in one box, the vector
  283. cpu's haven't been fabricated yet (and probably never will be).  The $1.4M is 
  284. really just for a bit of software.
  285.  
  286. -- 
  287. Rowan Hughes                                James Cook University
  288. Marine Modelling Unit                       Townsville, Australia.
  289. Dept. Civil and Systems Engineering         csrdh@marlin.jcu.edu.au
  290.  
  291. ------------------------------ ( reply #9) --------------------------------
  292.  
  293. From: Mark Homewood <fred@meiko.co.uk> 
  294.  
  295. Besides designing FPU's for SPARC Meiko manufactuers machines based around
  296. something like what you have described. We buy commodity boards or workatation
  297. components and produce (hopefully) cost effective parallel supercomputers.
  298. We do find it necessary to add some extra communication bandwidth and
  299. reduced latency. Clearly a 32node TMC is out to lunch, we do a similar size
  300. machine for a fraction of the price. The major difference is that ours can be
  301. used as a network of Sun as well, and at the same time.
  302.  
  303. There is some public domain software which lets you use your machines as a
  304. parallel machine. This is called PVM (Parallel Virtual Machine), try an
  305. anonymous ftp to <research.att.com> in dir <netlib/pvm>. There is a Readme
  306. and index. You can compile and configure for your network.
  307.  
  308. Though as one of your repliers states, latency is the thing. This is what 
  309. Meiko (and TMC, though over-priced) are selling.
  310.  
  311. Fred
  312.  
  313. Meiko Limited
  314.  
  315. fred@meiko.com 
  316.  
  317. ------------------------------ ( reply #10) -------------------------------
  318.  
  319. From: Matthias Schumann <schumanm@informatik.tu-muenchen.de>
  320.  
  321. Hi,
  322.  
  323. here at the Technical University Munich an Environtment for parallel
  324. Programming called MMK was developed, that runs on Intel iPSC 2 / 860 
  325. MIMD-Supercomputers. 
  326. There is antother version called MMKx, which offers the same functions
  327. (task creation, deletion /  communication / semaphores, synchronization /
  328. .....) on a Network of Sun-Workstations connected over an Ethernet.
  329.  
  330. The question about the CM5 is application depended, i would say. Code
  331. that is written especially for SIMD machines will run faster on the 
  332. CM. If you got general purpose code the perormance of the sun network
  333. will increase but if it could reach the CMs performance i got no idea,
  334. even though i got no information about the inter Processor communication
  335. network in the CM5.
  336.  
  337. Ciao 
  338.          Matt
  339.  
  340. --
  341. | Matthias Schumann   Department of Computer Science/SAB   TU Muenchen |
  342. | schumanm@informatik.tu-muenchen.de                       Arcisstr.21 |
  343. | Phone: +49 89 2105 2036                              8000 Muenchen 2 |
  344.  
  345. ------------------------------ ( reply #11) -------------------------------
  346.  
  347. From: Mike Davis <davis@ee.udel.edu>
  348.  
  349. I would be interested in any responses you get on this subject.  I'am involved
  350. in a project looking into running distributed simulations on a group of FDDI
  351. connected SPARCstation10's running Linda.  Since the closest thing we have
  352. to compare to is an older 16 processor Sequent, I can't help with your CM5
  353. questions..
  354.  
  355. thanks
  356. mike
  357.  
  358. davis@ee.udel.edu
  359.  
  360. ------------------------------ ( reply #12) -------------------------------
  361.  
  362. From: Michael Kolatis <kolatis@cs.utk.edu>
  363.  
  364. Let's see, from what I know so far, one node of a TMC CM-5
  365. will have a SPARC chip that performs about 5 Mflops.  Thus, 
  366. with 32 nodes, you would expect a peak of 160 Mflops.
  367.  
  368. Now, a SPARCstation 10 with 4 processors is supposed to perform
  369. at 19.7 Mflops per processor (i.e. almost 80 Mflops).  Thus,
  370. 32 * 80 = 2560 Mflops = 2.56 Gflops.
  371.  
  372. However, each node of a CM-5 will eventually include 4 vector
  373. processors (TMC calls them "floating point accelerators") which
  374. will increase the node power to 128 Mflops per node (which makes
  375. a 32 node CM-5 capable of 4 Gflops).
  376.  
  377. Thus, theoretically, with the communication speed losses involved
  378. with the SPARC 10's & the lack of a parallel programming language for
  379. them the SPARC's would lose (also, note that if a SPARC 10 does have
  380. 4 processors, your connection would have 128 processors--not 32).
  381.  
  382. However, hooking the SPARC 10's together using PVM(Parallel Virtual
  383. Machine) as parallel software would be very interesting...
  384. and certainly makes the efforts toward massively parallel
  385. computing very viable.
  386.  
  387. Michael Kolatis
  388. UTenn
  389. Joint Institute for Computational Science
  390.  
  391. ------------------------------ ( reply #13) -------------------------------
  392.  
  393. From: Dave <dave@sep.stanford.edu>
  394.  
  395. Unfortunately not, each CM-5 node also has 4 custom vector units running
  396. at 120MFlop peak each. That, and the high bandwidth network are what you are
  397. really paying for with a CM-5.
  398.  
  399. ------------------------------ ( reply #14) -------------------------------
  400.  
  401. From: Henrik Klagges <henrik@tazdevil.llnl.gov>
  402.  
  403. I think it is a good idea. At LLNL we have a cluster of RS6000, connected
  404. via a very fast network, with good results.
  405.  
  406. --
  407.  
  408. Cheers, Henrik
  409. MPCI at LLNL
  410. IBM Research
  411.  
  412. ------------------------------ ( reply #15) -------------------------------
  413.  
  414. From: (anonymous) <vu0208@bingsuns.cc.binghamton.edu>
  415.  
  416. If you want to do what you have said in your post, you might create a
  417. loosely-coupled loosely-performed-MIMD!! Why? becaz the CM-5 has 2
  418. extra things that you wont have: (1) A fast communication network
  419. rather than yours FDDI/Ethernet/ISDN etc.. (2) Their node is haveing a
  420. dedicated a 22-Mips RISC microprocessor with four vector pipes
  421. providing a total of 128 MFlops peak speed!! (3) They are capable of
  422. playing dual role of the machine at the same time SIM and MIMD.
  423.  
  424. So I guess by just connecting 32 Sparcstations you wont hit the 129
  425. MFlops performance, however it may be at least 1/4 of 16-node CM-5.
  426.  
  427. Let's see whta you get after you are done with your peoposed project.
  428.  
  429. Keep me posted, i will appreciate.
  430.  
  431. Thanks
  432.  
  433. ------------------------------ ( reply #16) -------------------------------
  434.  
  435. From: Bob Felderman <feldy@isi.edu>
  436.  
  437. I suspect not. If you could, then TMC would quickly go out of business.
  438. My guess is that their interconnection network is MUCH better than 
  439. any of your choices.
  440. For one thing, your choices were mostly shared-medium channels. If your
  441. taks requires significant communication, you'll get killed by the
  442. Ethernet or FDDI etc. If your taks are mostly independent, you'll
  443. probably do just fine.
  444.  
  445.  
  446. Bob Felderman
  447. USC/Information Sciences Institute
  448. 4676 Admiralty Way
  449. Marina del Rey, CA 90292-6695
  450. (310) 822-1511 x222
  451. (310) 823-6714 (fax)
  452.  
  453. feldy@isi.edu
  454.  
  455. ------------------------------ ( reply #17) -------------------------------
  456.  
  457. From: Ian L. Kaplan <ian@MasPar.COM>
  458.  
  459.   Whether you can get comparable performance out of an network of 32
  460. Spark Stations that can be obtained form a 32 processor CM-5 depends
  461. on the application.  If you have an application with little or no
  462. communication (some Monte Carlo simulations fall into this catagory)
  463. then the answer is yes.  The more interprocessor communication the
  464. more the CM-5 will win.  They have put a lot of effort into designing
  465. their communication network and it is much faster than anything you
  466. are likely to find connecting workstations.  Another issue is software
  467. overhead in handling communication.  I don't know what TMC has done in
  468. this area (we are one of their competitors, so they don't tell us
  469. these things), but I imagine that they have worked to reduce this
  470. overhead.  This is not as important in SMP Solaris, so it is probably
  471. not as tightly tuned.
  472.  
  473.   Of course what you should really do is buy a MasPar machine, which
  474. will give you more processing power per dollar than either TMC or Sun
  475. can provide.
  476.  
  477.                           Ian Kaplan
  478.               ian@maspar.com
  479.  
  480. ------------------------------ ( reply #18) -------------------------------
  481.  
  482. From: Bill Maniatty <maniattb@cs.rpi.edu>
  483.  
  484. I'd be skeptical of getting the same level of performance.  I think the
  485. expense of the networked connections (latency in particular), would force
  486. you to use a larger granularity of task decomposition.  I haven't played with
  487. a CM-5 so I would not really know for sure, but that is my gut reaction.
  488. You might also get a different resource contention pattern because of the
  489. different Operating System/Compiler technology.  I don't think they are
  490. really equivalent, each is appropriate for a different sort of task.
  491.  
  492. Bill
  493. -- 
  494. |
  495. |    maniattb@cs.rpi.edu - in real life Bill Maniatty
  496. |
  497.  
  498. ------------------------------ ( reply #19) -------------------------------
  499.  
  500. From: Keith Bierman <Keith.Bierman@Eng.Sun.COM>
  501.  
  502. the CM-5 has much faster interprocessor communication (fast custom hw,
  503. special sw) you won't come close to their performance for most codes.
  504.  
  505. Many people use networks of workstations for distributed processing.
  506. They use Express, Strand, PVM and a bevy of research efforts. Wander
  507. through comp.parallel, or a local university library (if they have a
  508. good collection of conference papers and technical reports).
  509.  
  510. ----------------------------- ( reply #20) -------------------------------
  511.  
  512. From: Paul Whiting <pgw@mel.dit.csiro.au>
  513.  
  514. G'day,
  515.  
  516. yes this is possible to do using the macros from Argonne National Lab in the US.
  517.  
  518. I will forward you another piece of mail about them and how to obtain them.
  519.  
  520. regards,
  521.  
  522. ---------------------------------------------------------------------
  523. Paul Whiting                | CSIRO - DIT
  524. Computer Scientist            | 723 Swanston Street
  525. High Performance Computing Program      | Carlton 3053, Australia
  526. ---------------------------------------------------------------------
  527. E-mail: pgw@mel.dit.csiro.au          Phone: + 61 3 282 2666    
  528.  
  529. There's no problem a good surf can't fix.
  530. ---------------------------------------------------------------------
  531.  
  532. (****************************** p4 info **********************************)
  533.  
  534.                       p4
  535.  
  536.  
  537. p4 is a library of macros and subroutines developed at Argonne National
  538. Laboratory for programming a variety of parallel machines.  Its predecessor
  539. was the m4-based "Argonne macros" system described in the Holt, Rinehart, and
  540. Winston book "Portable Programs for Parallel Processors, by Lusk, Overbeek, et
  541. al., from which p4 takes its name.  The current p4 system maintains the same
  542. basic computational models described there (monitors for the shared-memory
  543. model, message-passing for the distributed-memory model, and support for
  544. combining the two models) while significantly increasing ease and flexibility
  545. of use.
  546.  
  547. The current release is version 0.2.  New features added since version 0.1
  548. include: 
  549.  
  550.   + xdr for communication in a heterogeneous network
  551.  
  552.   + asynchronous communication of large messages
  553.  
  554.   + global operations (broadcast, global sum, max, etc.)
  555.   
  556.   + both master-slave and SPMD models for message-passing programs
  557.  
  558.   + an improved and simplified Fortran interface
  559.  
  560.   + improved error handling
  561.  
  562.   + an optional secure server
  563.  
  564.   + ports to more machines
  565.  
  566. p4 is intended to be portable, simple to install and use, and efficient.  It
  567. can be used to program networks of workstations, advanced parallel
  568. supercomputers like the Intel Touchstone Delta and the Alliant Campus
  569. HiPPI-based system, and single shared-memory multiprocessors.  It has
  570. currently been installed on the following list of machines: Sequent Symmetry,
  571. Encore Multimax, Alliant FX/8, FX/800, and FX/2800, Cray X/MP, Sun, NeXT, DEC,
  572. Silicon Graphics, and IBM RS6000 workstations, Stardent Titan, BBN GP-1000 and
  573. TC-2000, Intel IPSC/860, Intel Touchstone Delta, and Alliant Campus.  It will
  574. soon be ported to the CM-5 and to the Intel Paragon.  It is not difficult to
  575. port to new systems.
  576.  
  577. Work in progress also includes use of monitors in Fortran and shared mem~~~~~~~~ory
  578. among multiple processes on multiprocessor workstations.  A useful companion
  579. system is the upshot logging and X-based trace examination facility.
  580.  
  581. You can obtain the complete distribution of p4 by anonymous ftp from
  582. info.mcs.anl.gov.  Take the file p4.tar.Z from the directory pub/p4.  The
  583. distribution contains all source code, installation instructions, a reference
  584. manual, and a collection of examples in both C and Fortran.  The files
  585. alog.tar.Z and upshot.tar.Z contain logging and display facilities that can be
  586. used with both p4 and other systems.
  587.  
  588. To ask questions about p4, report bugs, contribute examples, etc., send mail
  589. to p4@mcs.anl.gov.
  590.  
  591.                                                    Rusty Lusk
  592.                                                    lusk@mcs.anl.gov
  593.