home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #30 / NN_1992_30.iso / spool / comp / parallel / 2771 < prev    next >
Encoding:
Text File  |  1992-12-21  |  26.4 KB  |  640 lines

  1. Newsgroups: comp.parallel
  2. Path: sparky!uunet!usc!cs.utexas.edu!sdd.hp.com!ncr-sd!ncrcae!hubcap!fpst
  3. From: gottlieb@allan.ultra.nyu.edu (Allan Gottlieb)
  4. Subject: Info on some new parallel machines
  5. Message-ID: <1992Dec18.175429.28010@hubcap.clemson.edu>
  6. Sender: fpst@hubcap.clemson.edu (Steve Stevenson)
  7. Nntp-Posting-Host: allan.ultra.nyu.edu
  8. Organization: New York University, Ultracomputer project
  9. Date: 18 Dec 92 12:31:15
  10. Approved: parallel@hubcap.clemson.edu
  11. Lines: 627
  12.  
  13. A week or two ago, in response to a request for information on ksr,
  14. I posted the ksr section of a paper I presented at PACTA'92 in
  15. Barcelona in sept.  I received a bunch of requests for a posting of
  16. the entire paper, which I "did".  Unfortunately, it seems to have
  17. disappeared somewhere between here and Clemson so I am trying again.
  18. I doubt if anyone will get this twice but if so, please let me know
  19. and accept my appologies.
  20.  
  21. Allan Gottlieb
  22.  
  23. .\"    Format via
  24. .\"        troff -me filename
  25. .\"    New Century Schoolbook fonts
  26. .\"    Delete next three lines if you don't have the font
  27. .fp 1 NR                \" normal
  28. .fp 2 NI                \" italic
  29. .fp 3 NB                \" bold
  30. .sz 11
  31. .nr pp 11
  32. .nr ps 1v    .\" They want double space before paragraph
  33. .nr sp 12
  34. .nr fp 10
  35. .pl 26c
  36. .m1 1c
  37. .m2 0
  38. .m3 0
  39. .m4 0
  40. .ll 14c
  41. .tp
  42. .(l C
  43. .sz +2
  44. .b "Architectures for Parallel Supercomputing
  45. .sz -2
  46. .sp .5c
  47. Allan Gottlieb
  48. .sp 1.5c
  49. Ultracomputer Research Laboratory
  50. New York University
  51. 715 Broadway, Tenth Floor
  52. New York NY 10003   USA
  53. .)l
  54. .sp 1c
  55. .sh 1 Introduction
  56. .lp
  57. In this talk, I will describe the architectures of new commercial
  58. offerings from Kendall Square Research, Thinking Machines
  59. Incorporated, Intel Corporation, and the MasPar Computer Corporation.
  60. These products span much of the currently active design space for
  61. parallel supercomputers, including shared-memory and message-passing,
  62. MIMD and SIMD, and processor sizes from a square millimeter to
  63. hundreds of square centimeters.  However, there is at least one
  64. commercially important class omitted: the parallel vector
  65. supercomputers, whose death at the hands of the highly parallel
  66. invaders has been greatly exaggerated (shades of Mark Twain).  Another
  67. premature death notice may have been given to FORTRAN since all these
  68. machines speak (or rather understand) this language\*-but that is
  69. another talk.
  70. .sh 1 "New Commercial Offerings"
  71. .lp
  72. I will describe the architectures of four new commercial offerings:
  73. The shared-memory MIMD KSR1 from Kendall Square Research; two
  74. message-passing MIMD computers, the Connection Machine CM-5 from
  75. Thinking Machines Corporation and the Paragon XP/S from Intel
  76. Corporation; and the SIMD MP-1 from the MasPar Computer Corporation.
  77. Much of this section is adapted from material prepared for the
  78. forthcoming second edition of
  79. .i "Highly Parallel Computing" ,
  80. a book I co-author with George Almasi from IBM's T.J. Watson Research
  81. Center.
  82. .sh 2 "The Kendall Square Research KSR1"
  83. .lp
  84. The KSR1 is a shared-memory MIMD computer with private, consistent
  85. caches, that is, each processor has its own cache and the system
  86. hardware guarantees that the multiple caches are kept in agreement.
  87. In this regard the design is similar to the MIT Alewife [ACDJ91]  and the
  88. Stanford Dash [LLSJ92].  There are, however, three significant differences
  89. between the KSR1 and the two University designs.  First, the Kendall
  90. Square machine is a large-scale, commercial effort: the current design
  91. supports 1088 processors and can be extended to tens of thousands.
  92. Second, the KSR1 features an ALLCACHE memory, which we explain below.
  93. Finally, the KSR1, like the Illinois Cedar [GKLS84], is a hierarchical
  94. design: a small machine is a ring or
  95. .q "Selection Engine"
  96. of up to 32 processors (called an SE:0); to achieve
  97. 1088 processors, an SE:1 ring of 34 SE:0 rings is assembled.  Larger
  98. machines would use yet higher level rings.  More information on the
  99. KSR1 can be found in [Roth92].
  100. .sh 3 Hardware
  101. .lp
  102. A 32-processor configuration (i.e. a full SE:0 ring) with 1 gigabyte
  103. of memory and 10 gigabytes of disk requires 6 kilowatts of power and 2
  104. square meters of floor space.  This configuration has a peak
  105. computational performance of 1.28 GFLOPS and a peak I/O bandwidth of
  106. 420 megabytes/sec.  In a March 1992 posting to the comp.parallel
  107. electronic newsgroup, Tom Dunigan reported that a 32-processor KSR1 at
  108. the Oak Ridge National Laboratory attained 513 MFLOPS on the
  109. 1000\(mu1000 LINPACK benchmark.  A full SE:1 ring with 1088 processors
  110. equipped with 34.8 gigabytes of memory and 1 terabyte of disk would
  111. require 150 kilowatts and 74 square meters.  Such a system would have
  112. a peak floating point performance of 43.5 GFLOPS and a peak I/O
  113. bandwidth of 15.3 gigabytes/sec.
  114. .pp
  115. Each KSR1 processor is a superscalar 64-bit unit able to issue up to
  116. two instructions every 50ns., giving a peak performance rating of 40
  117. MIPS.  (KSR is more conservative and rates the processor as 20 MIPS
  118. since only one of the two instructions issued can be computational but
  119. I feel that both instructions should be counted.  If there is any
  120. virtue in peak MIPS ratings, and I am not sure there is, it is that
  121. the ratings are calculated the same way for all architectures.)  Since
  122. a single floating point instruction can perform a multiply and an add,
  123. the peak floating point performance is 40 MFLOPS.  At present, a KSR1
  124. system contains from eight to 1088 processors (giving a system-wide
  125. peak of 43,520 MIPS and 43,520 MFLOPS) all sharing a common virtual
  126. address space of one million megabytes.
  127. .pp
  128. The processor is implemented as a four chip set consisting of a
  129. control unit and three co-processors, with all chips fabricated in 1.2
  130. micron CMOS.  Up to two instructions are issued on each clock cycle.
  131. The floating point co-processor supports IEEE single and double
  132. precision and includes linked triads similar to the multiply and add
  133. instructions found in the Intel Paragon.  The integer/logical
  134. co-processor contains its own set of thirty-two 64-bit registers and
  135. performs the the usual arithmetic and logical operations.  The final
  136. co-processor provides a 32-MB/sec I/O channel at each processor.  Each
  137. processor board also contains a 256KB data cache and a 256KB
  138. instruction cache.  These caches are conventional in organization
  139. though large in size, and should not be confused with the ALLCACHE
  140. (main) memory discussed below.
  141. .sh 3 "ALLCACHE Memory and the Ring of Rings"
  142. .lp
  143. Normally, caches are viewed as small temporary storage vehicles for
  144. data, whose permanent copy resides in central memory.  The KSR1 is
  145. more complicated in this respect.  It does have, at each processor,
  146. standard instruction and data caches, as mentioned above.  However,
  147. these are just the first-level caches.
  148. .i Instead
  149. of having main memory to back up these first-level caches, the KSR1
  150. has second-level caches, which are then backed up by
  151. .i disks .
  152. That is,
  153. there is no central memory; all machine resident data and instructions
  154. are contained in one or more caches, which is why KSR uses the term
  155. ALLCACHE memory.  The data (as opposed to control) portion of the
  156. second-level caches are implemented using the same DRAM technology
  157. normally found in central memory.  Thus, although they function as
  158. caches, these structures have the capacity and performance of main memory.
  159. .pp
  160. When a (local, second-level) cache miss occurs on processor A,
  161. the address is sent around the SE:0 ring.  If the requested address
  162. resides in B, another one of the processor/local-cache pairs on the same
  163. SE:0 ring, B
  164. forwards the cache line (a 128-byte unit, called a subpage by KSR) to A
  165. again using the (unidirectional) SE:0 ring.  Depending on the access
  166. performed, B may keep a copy of the subpage (thus sharing it with A) or
  167. may cause all existing copies to be invalidated (thus giving A
  168. exclusive access to the subpage).  When the response arrives at A, it
  169. is stored in the local cache, possibly evicting previously stored
  170. data.  (If this is the only copy of the old data, special actions are
  171. taken not to evict it.)  Measurements at Oak Ridge indicate a 6.7 microsecond
  172. latency for their (32-processor) SE:0 ring.
  173. .pp
  174. If the requested address resides in processor/local-cache C, which is
  175. located on
  176. .i another
  177. SE:0 ring, the situation is more interesting.  Each SE:0 includes an
  178. ARD (ALLCACHE routing and directory cell), containing a large
  179. directory with an entry for every subpage stored on the entire
  180. SE:0.\**
  181. .(f
  182. \**Actually an entry for every page giving the state of every subpage.
  183. .)f
  184. If the ARD determines that the subpage is not contained in the current
  185. ring, the request is sent
  186. .q up
  187. the hierarchy to the (unidirectional) SE:1 ring,
  188. which is composed solely of ARDs, each essentially a copy of the ARD
  189. .q below
  190. it.  When the request reaches the SE:1 ARD above the SE:0 ring
  191. containing C, the request is sent down and traverses the ring to C, where
  192. it is satisfied.  The response from C continues on the SE:0 ring to
  193. the ARD, goes back up, then around the SE:1 ring, down to the SE:0
  194. ring containing A, and finally around this ring to A.
  195. .pp
  196. Another difference between the KSR1 caches and the more conventional
  197. variety is size.  These are BIG caches, 32MB per processor.  Recall
  198. that they replace the conventional main memory and hence are
  199. implemented using dense DRAM technology.
  200. .pp
  201. The SE:0 bandwidth is 1 GB/sec. and the SE:1 bandwidth can be
  202. configured to be 1, 2, or 4 GB/sec., with larger values more
  203. appropriate for systems with many SE:0s (cf. the fat-trees used in the
  204. CM5).  Readers interested in a performance comparison between ALLCACHE
  205. and more conventional memory organizations should read [SJG92].
  206. Another architecture using the ALLCACHE design is the Data Diffusion
  207. Machine from the Swedish Institute of Computer Science [HHW90].
  208. .sh 4 Software
  209. .lp
  210. The KSR operating system is an extension of the OSF/1 version of Unix.
  211. As is often the case with shared-memory systems, the KSR operating
  212. system runs on the KSR1 itself and not on an additional
  213. .q host
  214. system.  The later approach is normally used on message passing
  215. systems like the CM-5, in which case only a subset of the OS functions
  216. run directly on the main system.  Using the terminology of [AG89] the
  217. KSR operating system is symmetric; whereas the CM-5 uses a
  218. master-slave approach.  Processor allocation is performed dynamically
  219. by the KSR operating system, i.e. the number of processors assigned to
  220. a specific job varies with time.
  221. .pp
  222. A fairly rich software environment is supplied including the X window
  223. system with the Motif user interface; FORTRAN, C, and COBOL; the
  224. ORACLE relational database management system; and AT&T's Tuxedo for
  225. transaction processing.
  226. .pp
  227. A FORTRAN programmer may request automatic parallelization of his/her
  228. program or may specify the parallelism explicitly; a C programmer has
  229. only the latter option.
  230. .sh 2 "The TMC Connection Machine CM-5"
  231. .lp
  232. Thinking Machines Corporation has become well known for their SIMD
  233. connection machines CM-1 and CM-2.  Somewhat
  234. surprisingly their next offering CM-5 has moved into the MIMD world
  235. (although, as we shall see, there is still hardware support for a
  236. synchronous style of programming).  Readers seeking additional
  237. information should consult [TMC91].
  238. .sh 3 Architecture
  239. .lp
  240. At the very coarsest level of detail, the CM-5 is simply a
  241. message-passing MIMD machine, another descendent of the Caltech cosmic
  242. cube [Seit85].  But such a description leaves out a great deal.  The
  243. interconnection topology is a fat tree, there is support for SIMD, a
  244. combining control network is provided, vector units are available, and
  245. the machine is powerful.  We discuss each of these in turn.
  246. .pp
  247. A fat tree is a binary tree in which links higher in the tree have
  248. greater bandwidth (e.g. one can keep the clock constant and use wider
  249. busses near the root).  Unlike hypercube machines such as CM-1 and
  250. CM-2, a node in the CM-5 has a constant number of nearest neighbors
  251. independent of the size of the machine.  In addition, the bandwidth
  252. available per processor for random communication patterns remains
  253. constant as the machine size increases; whereas this bandwidth
  254. decreases for meshes (or non-fat trees).  Local communication is
  255. favored by the CM-5 but by only a factor of 4 over random
  256. communication (20MB/sec vs. 5MB/sec), which is much less than in other
  257. machines such as CM-2.  Also attached to this fat tree are I/O
  258. interfaces.  The device side of these interfaces can support 20MB/sec;
  259. higher speed devices are accommodated by ganging together multiple
  260. interfaces.  (If the destination node for the I/O is far from the
  261. interface, the sustainable bandwidth is also limited by the fat
  262. tree to 5MB/sec.)
  263. .pp
  264. The fat tree just discussed is actually one of three networks on the
  265. CM-5.  In addition to this
  266. .q "data network" ,
  267. there is a diagnostic network used for fault detection and a control
  268. network that we turn to next.
  269. One function of the control network is to provide rapid
  270. synchronization of the processors, which is accomplished by by a
  271. global OR operation that completes shortly after the last
  272. participating processor sets its value.  This
  273. .q "cheap barrier"
  274. permits the main advantage of SIMD (permanent synchrony implying no
  275. race conditions) without requiring that the processors always execute
  276. the same instruction.
  277. .pp
  278. A second function of the control network is to provide a form of
  279. hardware combining, specifically to support reduction and parallel
  280. prefix calculations.  A parallel prefix computation for a given binary
  281. operator \(*f (say addition) begins with each processor specifying a
  282. value and ends with each processor obtaining the sum of the values
  283. provided by itself and all lower-numbered processors.  These parallel
  284. prefix computations may be viewed as the synchronous, and hence
  285. deterministic, analogue of the fetch-and-phi operation found in the
  286. NYU Ultracomputer [GGKM83].  The CM-5 supports addition, maximum,
  287. logical OR, and XOR.  Two variants are also supplied: a parallel
  288. suffix and a segmented parallel prefix (and suffix).  With a segmented
  289. operation (think of worms, not virtual memory, and see [SCHW80]), each
  290. processor can set a flag indicating that it begins a segment and the
  291. prefix computation is done separately for each segment.  Reduction
  292. operations are similar: each processor supplies a value and all
  293. processors obtain the sum of all values (again max, OR, and XOR are
  294. supported as well).
  295. .pp
  296. Each node of a CM-5 contains a SPARC microprocessor for scalar
  297. operations (users are advised against coding in assembler, a hint that
  298. the engine may change), a 64KB cache, and up to 32 MB of local memory.
  299. Memory is accessed 64 bits at a time (plus 8 bits for ECC).  An option
  300. available with the CM-5 is the incorporation of 4 vector units in
  301. between each processor and its associated memory.  When the vector
  302. units are installed, memory is organized as four 8 MB banks, one
  303. connected to each unit.  Each vector unit can perform both
  304. floating-point and integer operations, either one at a peak rate of 32
  305. mega 64-bit operations per second.
  306. .pp
  307. As mentioned above, the CM-5 is quite a powerful computer.  With the
  308. vector units present, each node has a peak performance of 128 64-bit
  309. MFLOPS or 128 64-bit integer MOPS.  The machine is designed for a
  310. maximum of 256K nodes but the current implementation is
  311. .q "limited"
  312. to 16K due to restrictions on cable lengths.  Since the peak
  313. computational rate for a 16K node system exceeds 2 Teraflops one might
  314. assert that the age of (peak)
  315. .q "teraflop computing"
  316. has arrived.  However, as I write this in May 1992, the largest
  317. announced delivery of a CM-5 is a 1K node configuration without vector
  318. units.  A full 16K system would cost about one-half Billion U.S.
  319. dollars.
  320. .sh 3 "Software and Environment"
  321. .lp
  322. In addition to the possibly thousands of computation nodes just
  323. described, a CM-5 contains a few control processors that act as hosts
  324. into which users login.  The reason for multiple control processors is
  325. that the system administrator can divide the CM-5 into partitions,
  326. each with an individual control processor as host.  The host provides
  327. a conventional
  328. .sm UNIX -like
  329. operating system; in particular users can timeshare a single
  330. partition.  Each computation node runs an operating system microkernel
  331. supporting a subset of the full functionality available on the control
  332. processor acting as its host (a master-slave approach, see [AG89].
  333. .pp
  334. Parallel versions of Fortran, C, and Lisp are provided.  CM Fortran is
  335. a mild extension of Fortran 90.  Additional features include a
  336. \f(CWforall\fP statement and vector-valued subscripts.  For an example
  337. of the latter assume that \f(CWA\fP and \f(CWP\fP are vectors of size
  338. 20 with all \f(CWP(I)\fP between 1 and 20, then \f(CWA=A(P)\fP does
  339. the 20 parallel assignments \f(CWA(I)=A(P(I))\fP.
  340. .pp
  341. An important contribution is the CM Scientific Software Library a
  342. growing set of numerical routines hand tailored to exploit the CM-5
  343. hardware.  Although primarily intended for the CM Fortran user, the
  344. library is also usable from TMC's versions of C and Lisp, C* and
  345. *Lisp.  To date the library developers have concentrated on linear
  346. algebra, FFTs, random number generators, and statistical analyses.
  347. .pp
  348. In addition to supporting the data parallel model of computing
  349. typified by Fortran 90, the CM-5 also supports synchronous (i.e.
  350. blocking) message passing in which the sender does not proceed until
  351. its message is received.  (This is the rendezvous model used in
  352. Ada and CSP.)  Limited support for asynchronous message passing is
  353. provided and further support is expected.
  354. .sh 2 "The Intel Paragon XP/S"
  355. .lp
  356. The Intel Paragon XP/S Supercomputer [Inte91] is powered by a
  357. collection of up to 4096 Intel i860 XP processors and can be
  358. configured to provide peak performance ranging from 5 to 300 GFLOPS
  359. (64-bit).  The processing nodes are connected in a rectangular mesh
  360. pattern, unlike the hypercube connection pattern used in the earlier
  361. Intel iPSC/860.
  362. .pp
  363. The i860 XP node processor chip (2.5 million transistors)
  364. has a peak performance of 75 MFLOPS (64-bit)
  365. and 42 MIPS when operating at 50 MHz.
  366. The chip contains 16KByte data and instruction caches,
  367. and can issue a multiply and add instruction in one cycle
  368. [DS90].
  369. The maximum bandwidth from cache to floating point unit is
  370. 800 MBytes/s.
  371. Communication bandwidth
  372. between any two nodes is 200 MByte/sec
  373. full duplex.  Each node also has 16-128 MBytes of memory and
  374. a second i860 XP processor devoted to
  375. communication.
  376. .pp
  377. The prototype for the Paragon, the Touchstone Delta, was installed at
  378. Caltech\** in 1991
  379. .(f
  380. \**^The machine is owned by the Concurrent Supercomputing Consortium,
  381. an alliance of universities, laboratories, federal agencies, and
  382. industry.
  383. .)f
  384. and immediately began to compete with the CM2 Connection Machine for
  385. the title of
  386. .q "world's fastest supercomputer" .
  387. The lead changed
  388. hands several times.\**
  389. .(f
  390. \**\^One point of reference is the 16 GFLOPS reported at the
  391. Supercomputing '91 conference for seismic modeling on the CM2
  392. [MS91].
  393. .)f
  394. .pp
  395. The Delta system consists of 576 nodes arranged in a mesh that has 16
  396. rows and 36 columns.  Thirty-three of the columns form a computational
  397. array of 528 numeric nodes (computing nodes) that each contain an
  398. Intel i860 microprocessor and 16 MBytes of memory.  This computational
  399. array is flanked on each side by a column of I/O nodes that each
  400. contain a 1.4 GByte disk (the number of disks is to be doubled later).
  401. The last column contains two HIPPI interfaces (100 Mbyte/sec each) and
  402. an assortment of tape, ethernet, and service nodes.  Routing chips are
  403. used to provide internode communication with an internode speed of 25
  404. MByte/sec and a latency of 80 microseconds.  The peak performance of
  405. the i860 processor is 60 MFLOPS (64-bit), which translates to a peak
  406. performance for the Delta of over 30 GFLOPS (64-bit).
  407. Achievable speeds in the range 1-15 GFLOPS have been claimed.
  408. Total memory is 8.4 GBytes, on-line disk capacity is 45 GBytes, to be
  409. increased to 90 GBytes.
  410. .pp
  411. The operating system being developed for the Delta consists of OSF/1
  412. with extensions for massively parallel systems.  The extensions
  413. include a decomposition of OSF/1 into a pure Mach kernel (OSF/1 is
  414. based on Mach), and a modular server framework that can be used to
  415. provide distributed file, network, and process management service.
  416. .pp
  417. The system software for interprocess communication is compatible with
  418. that of the iPSC/860.  The Express environment is also available.
  419. Language support includes Fortran and C.
  420. The Consortium intends to allocate 80% of the Delta's time for
  421. .q "Grand Challenge"
  422. problems (q.v.).
  423. .sh 2 "The MasPar MP-1"
  424. .lp
  425. Given the success of the CM1 and CM2, it is not surprising to see another
  426. manufacturer produce a machine in the same architectural class (SIMD, tiny
  427. processor).  What perhaps
  428. .i "is"
  429. surprising is that Thinking Machines, with the new CM-5, has moved to an
  430. MIMD design.  The MasPar Computer
  431. Corporation's MP-1 system, introduced in 1990, features an SIMD array of up
  432. to 16K 4-bit processors organized as a 2-dimensional array with each
  433. processor connected to its 8 nearest neighbors (i.e., the NEWS of CM1 plus
  434. the four diagonals).  MasPar refers to this interconnection topology as the
  435. X-Net.  The MP-1 also contains an array control unit that fetches and
  436. decodes instructions, computes addresses and other scalars, and sends
  437. control signals to the processor array.
  438. .pp
  439. An MP-1 system of maximum size has a peak speed of 26 GIPS (32-bit
  440. operations) or 550 MFLOPS (double precision) and dissipates about a
  441. kilowatt (not including I/O).  The maximum memory size is 1GB and the
  442. maximum bandwidth to memory is 12 GB/sec.  When the X-Net is used, the
  443. maximum aggregate inter-PE communication bandwidth is 23GB/sec.  In
  444. addition, a three-stage global routing network is provided, utilizing
  445. custom routing chips and achieving up to 1.3 GB/sec aggregate bandwidth.
  446. This same network is also connected to a 256 MB I/O RAM buffer that is in
  447. turn connected to a frame buffer and various I/O devices.
  448. .pp
  449. Although the processor is internally a 4-bit device (e.g. the datapaths are
  450. 4-bits wide), it contains 40 programmer-visible, 32-bit registers and
  451. supports integer operands of 1, 8, 16, 32, or 64 bits.  In addition, the
  452. same hardware performs 32- and 64-bit floating point operations.  This last
  453. characteristic is reminiscent of the CM1 design, but not the CM2 with its
  454. separate Weiteks.  Indeed a 16K MP-1 does perform 16K floating point adds
  455. as fast as it performs one; whereas a 64K CM2 performs only 2K floating
  456. point adds concurrently (one per Weitek).  The tradeoff is naturally in
  457. single processor floating point speed.  The larger, and hence less
  458. numerous, Weiteks produce several MFLOPS each; the MP-1 processors achieve
  459. only a few dozen KFLOPS (which surpasses the older CM1 processors).
  460. .pp
  461. MasPar is able to package 32 of these 4-bit processors on a single chip,
  462. illustrating the improved technology now available (two-level metal, 1.6
  463. micron CMOS with 450,000 transistors) compared to the circa 1985 technology
  464. used in CM1, which contained only 16 1-bit processors per chip.  Each
  465. 14"x19" processor board contains 1024 processors, clocked at 80ns, and
  466. 16 MB of ECC memory, the latter organized as 16KB per processor and
  467. implemented using page mode 1Mb DRAMs.
  468. .pp
  469. A DECstation 5000 is used as a host and manages program execution, user
  470. interface, and network communications for an MP-1 system.  The languages
  471. supported include data parallel versions of FORTRAN and C as well as the
  472. MasPar Parallel Application Language (MPL) that permits direct program
  473. control of the hardware.  Ultrix, DEC's version of UNIX, runs on the host
  474. and provides a standard user interface.  DEC markets the MP-1 as the DECmpp
  475. 12000.
  476. .pp
  477. Further information on the MP-1 can be found in [Chri90], [Nick90],
  478. [Blan90], and [Masp91].  An unconventional assessment of virtual
  479. processors, as used for example in CM2, appears in [Chri91].
  480. .uh References
  481. .(b I F
  482. .ll 14c
  483. .ti 0
  484. [ACDJ91]
  485. Anant Agarwal, David Chaiken, Godfrey D'Souza, Kirk Johnson, David
  486. Kranz, John Kubiatowicz, Kiyoshi Kurihara, Beng-Hong Lim, Gino Maa,
  487. Dan Nussbaum, Mike Parkin, and Donald Yeung,
  488. .q "The MIT Alewife Machine: A Large-Scale Distributed-Memory Multiprocessor" , 
  489. in
  490. .i "Proceedings of Workshop on Scalable Shared Memory Multiprocessors" ,
  491. Kluwer Academic Publishers,
  492. 1991
  493. .)b
  494. .(b I F
  495. .ll 14c
  496. .ti 0
  497. [AG89]
  498. George Almasi and Allan Gottlieb,
  499. .i "Highly Parallel Computing" ,
  500. Benjamin/Cummings,
  501. 1989, 519 pages.
  502. .)b
  503. .(b I F
  504. .ll 14c
  505. .ti 0
  506. [Blan90]
  507. Tom Blank,
  508. .q "The MasPar MP-1 Architecture" ,
  509. .i "IEEE COMPCON Proceedings" ,
  510. 1990, pp. 20-24.
  511. .)b
  512. .(b I F
  513. .ll 14c
  514. .ti 0
  515. [Chri90]
  516. Peter Christy,
  517. .q "Software to Support Massively Parallel Computing on the MasPar MP-1" ,
  518. .i "IEEE COMPCON Proceedings" ,
  519. 1990,
  520. pp. 29-33.
  521. .)b
  522. .(b I F
  523. .ll 14c
  524. .ti 0
  525. [Chri91]
  526. Peter Christy,
  527. .q "Virtual Processors Considered Harmful" ,
  528. .i "Sixth Distributed Memory Computing Conference Proceedings" ,
  529. 1991.
  530. .)b
  531. .(b I F
  532. .ll 14c
  533. .ti 0
  534. [DS90]
  535. Robert B.K. Dewar and Matthew Smosna,
  536. .i "Microprocessors: A Programmers View" ,
  537. McGraw-Hill, New York, 1990.
  538. .)b
  539. .(b I F
  540. .ll 14c
  541. .ti 0
  542. [GKLS84]
  543. Daniel Gajski, David Kuck, Duncan Lawrie, and Ahmed Sameh,
  544. .q Cedar
  545. in
  546. .i "Supercomputers: Design and Applications" ,
  547. Kai Hwang, ed. 1984.
  548. .)b
  549. .(b I F
  550. .ll 14c
  551. .ti 0
  552. [HHW90]
  553. E. Hagersten, S. Haridi, and D.H.D. Warren,
  554. .q "The Cache-Coherent Protocol of the Data Diffusion Machine" ,
  555. .i "Cache and Interconnect Architectures in Multiprocessors" ,
  556. edited by Michel Dubois and Shreekant Thakkar, 1990.
  557. .)b
  558. .(b I F
  559. .ll 14c
  560. .ti 0
  561. [Inte91]
  562. Intel Corporation literature, November 1991.
  563. .)b
  564. .(b I F
  565. .ll 14c
  566. .ti 0
  567. [LLSJ92]
  568. Dan Lenoski, James Laudon, Luis Stevens, Truman Joe,
  569. Dave Nakahira, Anoop Gupta, and John Hennessy,
  570. .q "The DASH Prototype: Implementation and Performance" ,
  571. .i "Proc. 19th Annual International Symposium on Computer Archtecture" ,
  572. May, 1992,
  573. Gold Coast, Australia,
  574. pp. 92-103.
  575. .)b
  576. .(b I F
  577. .ll 14c
  578. .ti 0
  579. [Masp91]
  580. .q "MP-1 Family Massively Parallel Computers" ,
  581. MasPar Computer Corporation,
  582. 1991.
  583. .)b
  584. .(b I F
  585. .ll 14c
  586. .ti 0
  587. [MS91]
  588. Jacek Myczkowski and Guy Steele,
  589. .q "Seismic Modeling at 14 gigaflops on the Connection Machine" ,
  590. .i "Proc. Supercomputing '91" ,
  591. Albuquerque, November, 1991.
  592. .)b
  593. .(b I F
  594. .ll 14c
  595. .ti 0
  596. [Nick90]
  597. John R. Nickolls,
  598. .q "The Design of the MasPar MP-1: A Cost Effective Massively Parallel Computer" ,
  599. .i "IEEE COMPCON Proceedings" , 1990, pp. 25-28.
  600. .)b
  601. .(b I F
  602. .ll 14c
  603. .ti 0
  604. [ROTH92]
  605. James Rothnie,
  606. .q "Overview of the KSR1 Computer System" ,
  607. Kendall Square Research Report TR 9202001,
  608. March, 1992
  609. .)b
  610. .(b I F
  611. .ll 14c
  612. .ti 0
  613. [Seit85]
  614. Charles L. Seitz,
  615. .q "The Cosmic Cube" ,
  616. .i "Communications of the ACM" ,
  617. .b 28
  618. (1),
  619. January 1985,
  620. pp. 22-33.
  621. .)b
  622. .(b I F
  623. .ll 14c
  624. .ti 0
  625. [SJG92]
  626. Per Stenstrom, Truman Joe, and Anoop Gupta,
  627. .q "Comparative Performance Evaluation of Cache-Coherent NUMA and COMA Architectures" ,
  628. .i "Proceedings, 19th International Symposium on Computer Architecture" ,
  629. 1992.
  630. .)b
  631. .(b I F
  632. .ll 14c
  633. .ti 0
  634. [TMC91]
  635. .q "The Connection Machine CM-5 Technical Summary" ,
  636. Thinking Machines Corporation,
  637. 1991.
  638. .)b
  639.  
  640.