home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #19 / NN_1992_19.iso / spool / comp / parallel / 2033 < prev    next >
Encoding:
Text File  |  1992-09-02  |  8.8 KB  |  240 lines

  1. Newsgroups: comp.parallel
  2. Path: sparky!uunet!gatech!hubcap!fpst
  3. From: swamy@cs.ubc.ca (H.V. Sreekantaswamy)
  4. Subject: SUMMARY: Communication startup costs
  5. Message-ID: <1992Sep3.123312.14637@hubcap.clemson.edu>
  6. Apparently-To: comp-parallel@uunet.uu.net
  7. Followup-To: comp.parallel
  8. Sender: usenet@cs.ubc.ca (Usenet News)
  9. Organization: Computer Science, University of B.C., Vancouver, B.C., Canada
  10. Date: Wed, 2 Sep 92 23:27:37 GMT
  11. Approved: parallel@hubcap.clemson.edu
  12. Lines: 226
  13.  
  14. Here are the replies I got for my request about communication startup
  15. costs on various distributed memory machines. I have only included
  16. the replies that had any information or pointers.
  17.  
  18. Thanks to everyone who replied.
  19. --Swamy
  20.  
  21. ------------------------------------------------------------------------
  22. H.V. Sreekantaswamy            E-mail:    swamy@cs.ubc.ca
  23. Dept. of Computer Science        Tel:    (604)822-3731
  24. University of British Columbia            (604)224-4431 (Home)
  25. Vancouver, B.C., Canada V6T 1Z2               
  26. ------------------------------------------------------------------------
  27.  
  28. Original Request:
  29. ----------------
  30. I am interested in knowing typical values for communication startup
  31. costs on various distributed memory machines such as CM-5, nCUBE,
  32. Intel IPSC, Delta, Paragon, etc. What I mean by communication startup
  33. cost is the time it takes to begin the actual message transmission
  34. from the time the user program makes the appropriate function call.
  35. This should include all the operating system or runtime system overheads
  36. in initiating the communication in addition to hardware setup time.
  37. I would appreciate if anyone can point to any papers/reports that 
  38. discuss about these overheads or give the values for any system.
  39.  
  40. If there is sufficient interest, I will post a summary of replies.
  41.  
  42. Thanks,
  43. --Swamy
  44. *******************************************
  45.  
  46. From:          <rsb@mcc.com>
  47.  
  48.  
  49. See Gordon Bell's article in the August CACM.  He provides some of the
  50. communication cost you seem to want.
  51.  
  52. -------------------
  53.  
  54. From:          <yoshio@CS.UCLA.EDU>
  55.  
  56. You could look at "low-latency message communication support
  57. for the ap1000" in this year's ACM computer architecture conference.
  58.  
  59. ----------------------
  60. From:          Roland Ruehl <ruehl@iis.ethz.ch>
  61. >Organization: IIS, Swiss Fed. Inst. of Technology
  62.  
  63.  
  64. Suppose the delay T_del of a communication from cell to cell of a message
  65. of size M is decomposed into latency and bandwidth contributions:
  66.  
  67.     T_del = T_lat + M / B
  68.  
  69. and T_c is the time to compute locally a DAXPY iteration.
  70.  
  71. The following table is an extract from my thesis (all times are in
  72. musec and B in MBytes/sec):
  73.  
  74. Machine        |      T_c    |       T_lat    |    B    | Reference
  75. ----------------+---------------+---------------+---------------+-----------
  76.   nCube/2    |      2.56    |     154    |     1.7    | (1 + 2)
  77.   iPSC/i860    |      0.31    | M<=100:  75    |     2.5    | (1 + 2)
  78.         |        | M >100: 136    |        |
  79.   Delta        |      0.31    |     12.5    |     2.1    | (1 + 2)
  80.   CM5 (scalar)    |      0.5    |     >= 3    |   5 ... 20    |   (3)
  81.       (vector)    |      0.18    |     >= 3      |   5 ... 20    |
  82.   AP1000    |      1.00    |     20    |     8.5    |   (4)
  83.  
  84. References:
  85.  
  86. 1) LINPACK performance measured by Dongarra
  87. 2) Tutorial by Dongarra at Supercomputing 91
  88. 3) CM5 Performance profile
  89. 4) my thesis
  90.  
  91. I would be interested in getting the numbers for other new machines
  92. (like the Paragon or Parsytec GC) if you can get them.
  93.  
  94. ---------------------------------------------------------------------------
  95.  
  96. Roland Ruehl                                     Phone:     +41 1 256 51 46
  97. Integrated Systems Laboratory                    Telex:     53 178 ethbi ch
  98. ETH-Zuerich                                    Telefax:     +41 1 252 09 94
  99. Switzerland                                     E-mail:   ruehl@iis.ethz.ch
  100.  
  101. -------------------------
  102.  
  103. From:          <jan@ceres.neuroinformatik.ruhr-uni-bochum.de>
  104.  
  105. An example you haven't mentioned are transputers. The current generation
  106. takes ~20 cycles for the appropriate instruction, add a few cycles for
  107. loading operands - say 25 cycles at 25 MHz = one microsecond. Data transfer
  108. is done by a dedicated DMA machine, which also reschedules the process at
  109. the end of a transfer. As transputers use synchronous communication, a
  110. message can be any length. The new generation, due out at the end of the year,
  111. will have automatic demultiplexing/multiplexing for the physical links and
  112. a worm-hole routing chip; IN now takes 16 cycles - lets say 20 cycles at
  113. 50 MHz = 400 nanoseconds.
  114.  
  115. -- Jan Vorbrueggen, jan@neuroinformatik.ruhr-uni-bochum.de
  116. ------------------------
  117. From:          <deb@k2.dartmouth.edu>
  118. >Organization: Dartmouth College, Hanover, NH
  119.  
  120.  
  121.  A paper by Marco Annaratone which I think came out sometime this year
  122.  in IEEE TPDS has some latency numbers. The machine they report about
  123.  are Ncube, Intel ipsc/860 and the Paragon. 
  124.  
  125.  If you don't get hold of it, send me e-mail after 3 weeks. I am in the 
  126.  process of moving right now.
  127.  
  128.  
  129.  --Deb Banerjee
  130.  
  131. --------------------------------------------
  132. From:          <duncan@meiko.co.uk>
  133.  
  134. Swamy
  135.  
  136. Your definition of communications startup time is poor. It allows someone
  137. to quote a figure which is just the time taken to put data into a FIFO. It
  138. doesn't require any processing at the destination. The only reason for
  139. communicating is to have a second process cooperate with the first so you
  140. should be measuring the time taken to have something occur on a
  141. remote processor.
  142.  
  143. The standard way of doing this is the so called "ping-pong" benchmark in which
  144. process 1 sends a message to process 2 who replies. The message latency is half
  145. the roundtrip time as measured on 1.
  146.  
  147.  
  148. -- 
  149.  
  150. Best Wishes
  151. Duncan Roweth
  152.  
  153. -------------------------------------------------------------
  154. |  Meiko Limited                Phone : +44 454 616171      |
  155. |  650 Aztec West               FAX   : +44 454 618188      |
  156. |  Bristol BS12 4SD             E-Mail: duncan@meiko.co.uk  |
  157. |  England                                                  |
  158. -------------------------------------------------------------
  159. -----------------------------
  160. From:          <jc@prosun.first.gmd.de>
  161.  
  162.     Hello Swamy,
  163.  
  164. a colleague has done examinations on the message
  165. startup time for the PEACE operating system on
  166. the SUPRENUM distributed memory machine.
  167. The paper is called:
  168.     "Overcoming the Startup Time Problem in
  169.      Distributed Memory Architectures"
  170. by
  171.     W. Schroeder-Preikschat from Gmd First in
  172.     Berlin, Germany.
  173.  
  174. You can obtain it from "Proceedings of the 24th
  175. Hawaii International Conference on System Sciences",
  176. Vol. 1, pp. 551-559, 1991. Additional information on
  177. PEACE or SUPRENUM can be obtained by anonymous ftp at
  178.     ftp.gmd.de in the directory gmd/peace
  179.  
  180. Cheers, Joerg
  181. --
  182. Joerg Cordsen            | INTERNET:    jc@first.gmd.de
  183. c/o GMD-First  Berlin    | KOMEX:       cordsen@kmx.gmd.dbp.de
  184. O-1199 Berlin-Adlershof  | TEL:         +49 30 6704 5159
  185. Rudower Chausee 5 (13.7) | FAX:         +49 30 6704 5088
  186. ---------------------------
  187. From:          <Mark.Monger@eng.sun.com>
  188.  
  189. I'm interested in what you find out. I've been using numbers of 2ms for
  190. workstation RPC and a very *round* number of 100us for MPP message
  191. overhead. The 100us could be very wrong. 
  192. -------------------------
  193. From:          John Salmon <johns@haggis.ccsf.caltech.edu>
  194.  
  195. Rik Littlefield from PNL (rik@ccsf.caltech.edu) has done a lot of work
  196. unraveling the mysteries of communication timing on the Delta.  The
  197. situation is far from simple.  I know he has given a couple of talks
  198. on the subject.  I recommend contacting him to see if he's got anything
  199. written up.
  200.  
  201. By the way, you're asking the right question.  Vendors will try to tell
  202. you some hardware number that is only distantly related to the "real" cost
  203. to go from user-code to user-code.
  204.  
  205. John
  206.  ------------------------------------------------------------------------
  207. From:          <alan@msc.edu>
  208. To:            <swamy@cs.ubc.ca>
  209. >Organization: Minnesota Supercomputer Center, Inc.
  210.  
  211.  
  212. Injecting a message into the CM-5 data network takes just over one
  213. microsecond.   On a relatively uncongested communication pattern
  214. it will reach the other end in another microsecond or so.
  215.  
  216. Note 'startup time' cannot be directly measured, only indirectly, by
  217. comparing the time of an n unit message with an n+1 unit message.  This
  218. function is not linear for all n, however.  
  219.  
  220. <This should include all the operating system or runtime system overheads
  221. <in initiating the communication in addition to hardware setup time.
  222.  
  223. TMC did the Right Thing and kept the operating system totally out the
  224. picture.  The communication FIFOs are directly mapped into user memory
  225. space so there is no "system" overhead for communication.   (I wish
  226. they went further mapped the FIFOs into the CPU registers themselves,
  227. a la the J machine.) 
  228.  
  229. I'm glad you posted your request.  I think too many people emphasize
  230. bandwidth and forget that low latency is equally important.
  231.  
  232. --
  233. Alan E. Klietz
  234. Minnesota Supercomputer Center, Inc.
  235. 1200 Washington Avenue South
  236. Minneapolis, MN  55415
  237. Ph: +1 612 626 1737           Internet: alan@msc.edu
  238.  
  239.  
  240.