home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #30 / NN_1992_30.iso / spool / comp / parallel / 2741 < prev    next >
Encoding:
Text File  |  1992-12-15  |  10.9 KB  |  242 lines

  1. Newsgroups: comp.parallel
  2. Path: sparky!uunet!gatech!hubcap!fpst
  3. From: gottlieb@allan.ultra.nyu.edu (Allan Gottlieb)
  4. Subject: Re: Kiendal Square machine with >32 nodes
  5. In-Reply-To: lenos@tardis's message of Sun, 13 Dec 1992 00:37:15 GMT
  6. Message-ID: <1992Dec15.134517.7504@hubcap.clemson.edu>
  7. Sender: fpst@hubcap.clemson.edu (Steve Stevenson)
  8. Nntp-Posting-Host: allan.ultra.nyu.edu
  9. Organization: New York University, Ultracomputer project
  10. References: <lenos.724207035@tardis.union.edu>
  11. Date: 14 Dec 92 12:13:04
  12. Approved: parallel@hubcap.clemson.edu
  13. Lines: 227
  14.  
  15. In article <lenos.724207035@tardis.union.edu> lenos@tardis (Scott Leno) writes:
  16.  
  17.    I have heard that Cornell and NCSC have KSR machines with 128 and 64 nodes
  18.    each. What I was wondering was how they do when they have to reference nodes
  19.    on another ring of 32. I have seen info on how a program does on a single
  20.    ring of 32 nodes, but nothing about how it does when it is spread over more
  21.    than one ring of nodes (ie >32 procs). Thanks for any info you might have.
  22.       peace,
  23.      Scott
  24.  
  25. Here is the KSR part of a paper I presented at PACTA'92 in Barcelona
  26. this sept.
  27.  
  28. .\"    New Century Schoolbook fonts
  29. .fp 1 NR                \" normal
  30. .fp 2 NI                \" italic
  31. .fp 3 NB                \" bold
  32. .sz 11
  33. .nr pp 11
  34. .nr ps 1v    .\" They want double space before paragraph
  35. .nr sp 12
  36. .nr fp 10
  37. .pl 26c
  38. .m1 1c
  39. .m2 0
  40. .m3 0
  41. .m4 0
  42. .ll 14c
  43. .tp
  44. .(l C
  45. .sz +2
  46. .b "Architectures for Parallel Supercomputing
  47. .sz -2
  48. .sp .5c
  49. Allan Gottlieb
  50. .sp 1.5c
  51. Ultracomputer Research Laboratory
  52. New York University
  53. 715 Broadway, Tenth Floor
  54. New York NY 10003   USA
  55. .)l
  56. .sp 1c
  57. .sh 1 Introduction
  58. .lp
  59. In this talk, I will describe the architectures of new commercial
  60. offerings from Kendall Square Research, Thinking Machines
  61. Incorporated, Intel Corporation, and the MasPar Computer Corporation.
  62. These products span much of the currently active design space for
  63. parallel supercomputers, including shared-memory and message-passing,
  64. MIMD and SIMD, and processor sizes from a square millimeter to
  65. hundreds of square centimeters.  However, there is at least one
  66. commercially important class omitted: the parallel vector
  67. supercomputers, whose death at the hands of the highly parallel
  68. invaders has been greatly exaggerated (shades of Mark Twain).  Another
  69. premature death notice may have been given to FORTRAN since all these
  70. machines speak (or rather understand) this language\*-but that is
  71. another talk.
  72. .sh 1 "New Commercial Offerings"
  73. .lp
  74. I will describe the architectures of four new commercial offerings:
  75. The shared-memory MIMD KSR1 from Kendall Square Research; two
  76. message-passing MIMD computers, the Connection Machine CM-5 from
  77. Thinking Machines Corporation and the Paragon XP/S from Intel
  78. Corporation; and the SIMD MP-1 from the MasPar Computer Corporation.
  79. Much of this section is adapted from material prepared for the
  80. forthcoming second edition of
  81. .i "Highly Parallel Computing" ,
  82. a book I co-author with George Almasi from IBM's T.J. Watson Research
  83. Center.
  84. .sh 2 "The Kendall Square Research KSR1"
  85. .lp
  86. The KSR1 is a shared-memory MIMD computer with private, consistent
  87. caches, that is, each processor has its own cache and the system
  88. hardware guarantees that the multiple caches are kept in agreement.
  89. In this regard the design is similar to the MIT Alewife [ACDJ91]  and the
  90. Stanford Dash [LLSJ92].  There are, however, three significant differences
  91. between the KSR1 and the two University designs.  First, the Kendall
  92. Square machine is a large-scale, commercial effort: the current design
  93. supports 1088 processors and can be extended to tens of thousands.
  94. Second, the KSR1 features an ALLCACHE memory, which we explain below.
  95. Finally, the KSR1, like the Illinois Cedar [GKLS84], is a hierarchical
  96. design: a small machine is a ring or
  97. .q "Selection Engine"
  98. of up to 32 processors (called an SE:0); to achieve
  99. 1088 processors, an SE:1 ring of 34 SE:0 rings is assembled.  Larger
  100. machines would use yet higher level rings.  More information on the
  101. KSR1 can be found in [Roth92].
  102. .sh 3 Hardware
  103. .lp
  104. A 32-processor configuration (i.e. a full SE:0 ring) with 1 gigabyte
  105. of memory and 10 gigabytes of disk requires 6 kilowatts of power and 2
  106. square meters of floor space.  This configuration has a peak
  107. computational performance of 1.28 GFLOPS and a peak I/O bandwidth of
  108. 420 megabytes/sec.  In a March 1992 posting to the comp.parallel
  109. electronic newsgroup, Tom Dunigan reported that a 32-processor KSR1 at
  110. the Oak Ridge National Laboratory attained 513 MFLOPS on the
  111. 1000\(mu1000 LINPACK benchmark.  A full SE:1 ring with 1088 processors
  112. equipped with 34.8 gigabytes of memory and 1 terabyte of disk would
  113. require 150 kilowatts and 74 square meters.  Such a system would have
  114. a peak floating point performance of 43.5 GFLOPS and a peak I/O
  115. bandwidth of 15.3 gigabytes/sec.
  116. .pp
  117. Each KSR1 processor is a superscalar 64-bit unit able to issue up to
  118. two instructions every 50ns., giving a peak performance rating of 40
  119. MIPS.  (KSR is more conservative and rates the processor as 20 MIPS
  120. since only one of the two instructions issued can be computational but
  121. I feel that both instructions should be counted.  If there is any
  122. virtue in peak MIPS ratings, and I am not sure there is, it is that
  123. the ratings are calculated the same way for all architectures.)  Since
  124. a single floating point instruction can perform a multiply and an add,
  125. the peak floating point performance is 40 MFLOPS.  At present, a KSR1
  126. system contains from eight to 1088 processors (giving a system-wide
  127. peak of 43,520 MIPS and 43,520 MFLOPS) all sharing a common virtual
  128. address space of one million megabytes.
  129. .pp
  130. The processor is implemented as a four chip set consisting of a
  131. control unit and three co-processors, with all chips fabricated in 1.2
  132. micron CMOS.  Up to two instructions are issued on each clock cycle.
  133. The floating point co-processor supports IEEE single and double
  134. precision and includes linked triads similar to the multiply and add
  135. instructions found in the Intel Paragon.  The integer/logical
  136. co-processor contains its own set of thirty-two 64-bit registers and
  137. performs the the usual arithmetic and logical operations.  The final
  138. co-processor provides a 32-MB/sec I/O channel at each processor.  Each
  139. processor board also contains a 256KB data cache and a 256KB
  140. instruction cache.  These caches are conventional in organization
  141. though large in size, and should not be confused with the ALLCACHE
  142. (main) memory discussed below.
  143. .sh 3 "ALLCACHE Memory and the Ring of Rings"
  144. .lp
  145. Normally, caches are viewed as small temporary storage vehicles for
  146. data, whose permanent copy resides in central memory.  The KSR1 is
  147. more complicated in this respect.  It does have, at each processor,
  148. standard instruction and data caches, as mentioned above.  However,
  149. these are just the first-level caches.
  150. .i Instead
  151. of having main memory to back up these first-level caches, the KSR1
  152. has second-level caches, which are then backed up by
  153. .i disks .
  154. That is,
  155. there is no central memory; all machine resident data and instructions
  156. are contained in one or more caches, which is why KSR uses the term
  157. ALLCACHE memory.  The data (as opposed to control) portion of the
  158. second-level caches are implemented using the same DRAM technology
  159. normally found in central memory.  Thus, although they function as
  160. caches, these structures have the capacity and performance of main memory.
  161. .pp
  162. When a (local, second-level) cache miss occurs on processor A,
  163. the address is sent around the SE:0 ring.  If the requested address
  164. resides in B, another one of the processor/local-cache pairs on the same
  165. SE:0 ring, B
  166. forwards the cache line (a 128-byte unit, called a subpage by KSR) to A
  167. again using the (unidirectional) SE:0 ring.  Depending on the access
  168. performed, B may keep a copy of the subpage (thus sharing it with A) or
  169. may cause all existing copies to be invalidated (thus giving A
  170. exclusive access to the subpage).  When the response arrives at A, it
  171. is stored in the local cache, possibly evicting previously stored
  172. data.  (If this is the only copy of the old data, special actions are
  173. taken not to evict it.)  Measurements at Oak Ridge indicate a 6.7 microsecond
  174. latency for their (32-processor) SE:0 ring.
  175. .pp
  176. If the requested address resides in processor/local-cache C, which is
  177. located on
  178. .i another
  179. SE:0 ring, the situation is more interesting.  Each SE:0 includes an
  180. ARD (ALLCACHE routing and directory cell), containing a large
  181. directory with an entry for every subpage stored on the entire
  182. SE:0.\**
  183. .(f
  184. \**Actually an entry for every page giving the state of every subpage.
  185. .)f
  186. If the ARD determines that the subpage is not contained in the current
  187. ring, the request is sent
  188. .q up
  189. the hierarchy to the (unidirectional) SE:1 ring,
  190. which is composed solely of ARDs, each essentially a copy of the ARD
  191. .q below
  192. it.  When the request reaches the SE:1 ARD above the SE:0 ring
  193. containing C, the request is sent down and traverses the ring to C, where
  194. it is satisfied.  The response from C continues on the SE:0 ring to
  195. the ARD, goes back up, then around the SE:1 ring, down to the SE:0
  196. ring containing A, and finally around this ring to A.
  197. .pp
  198. Another difference between the KSR1 caches and the more conventional
  199. variety is size.  These are BIG caches, 32MB per processor.  Recall
  200. that they replace the conventional main memory and hence are
  201. implemented using dense DRAM technology.
  202. .pp
  203. The SE:0 bandwidth is 1 GB/sec. and the SE:1 bandwidth can be
  204. configured to be 1, 2, or 4 GB/sec., with larger values more
  205. appropriate for systems with many SE:0s (cf. the fat-trees used in the
  206. CM5).  Readers interested in a performance comparison between ALLCACHE
  207. and more conventional memory organizations should read [SJG92].
  208. Another architecture using the ALLCACHE design is the Data Diffusion
  209. Machine from the Swedish Institute of Computer Science [HHW90].
  210. .sh 4 Software
  211. .lp
  212. The KSR operating system is an extension of the OSF/1 version of Unix.
  213. As is often the case with shared-memory systems, the KSR operating
  214. system runs on the KSR1 itself and not on an additional
  215. .q host
  216. system.  The later approach is normally used on message passing
  217. systems like the CM-5, in which case only a subset of the OS functions
  218. run directly on the main system.  Using the terminology of [AG89] the
  219. KSR operating system is symmetric; whereas the CM-5 uses a
  220. master-slave approach.  Processor allocation is performed dynamically
  221. by the KSR operating system, i.e. the number of processors assigned to
  222. a specific job varies with time.
  223. .pp
  224. A fairly rich software environment is supplied including the X window
  225. system with the Motif user interface; FORTRAN, C, and COBOL; the
  226. ORACLE relational database management system; and AT&T's Tuxedo for
  227. transaction processing.
  228. .pp
  229. A FORTRAN programmer may request automatic parallelization of his/her
  230. program or may specify the parallelism explicitly; a C programmer has
  231. only the latter option.
  232. .sh 2 "The TMC Connection Machine CM-5"
  233. .lp
  234. [Omitted to save space--question was about KSR]
  235. .sh 2 "The Intel Paragon XP/S"
  236. .lp
  237. [Omitted to save space--question was about KSR]
  238. .sh 2 "The MasPar MP-1"
  239. .lp
  240. [Omitted to save space--question was about KSR]
  241.  
  242.