home *** CD-ROM | disk | FTP | other *** search
/ BURKS 2 / BURKS_AUG97.ISO / BURKS / LANGUAGE / FORTRAN / F77TO90 / apr.txt < prev    next >
Internet Message Format  |  1996-01-09  |  15KB

  1. From help@cs.rice.edu Wed Jul  5 19:58:49 1995
  2. Date: Wed, 5 Jul 95 09:28:40 PDT
  3. From: marc@efn.org (Marc Baber)
  4. To: hpff@cs.rice.edu
  5. Subject: APR Releases xHPF 2.1 and NAS Benchmark Results
  6. Content-Length: 14861
  7.  
  8.  
  9. APR RELEASES xHPF 2.1, WORLD'S FIRST HPF TO TURN IN NAS BENCHMARK RESULTS    
  10. July 5, 1995
  11. =========================================================================
  12.  
  13.   Sacramento, CA -- Applied Parallel Research (APR) announced it will
  14. begin shipping xHPF 2.1, the latest version of its industry-leading
  15. High Performance Fortran (HPF) compilation system.  xHPF 2.1 is the
  16. first HPF implementation to compile NAS Parallel Benchmark (NPB)
  17. programs and has thus set a new standard for end-user achievable
  18. performance on a wide range of parallel platforms.
  19.  
  20.   The NPB suite is used to measure sustainable performance of computer
  21. systems when running five computational kernels and three simulated CFD
  22. programs.  The programs represent typical applications used in NASA's
  23. NAS project.  The benchmarks are considered a "pathfinder" in searching
  24. out the best parallel systems for grand challenge problems such as
  25. modeling whole aircraft.
  26.  
  27.   APR's president, John Levesque said, "xHPF may be the only HPF
  28. implementation capable of successfully parallelizing NAS parallel
  29. benchmarks today.  To date, no other HPF vendor has published even a
  30. single result for any of the of these eight benchmarks.  The speed-ups
  31. achieved by xHPF on the [Cray] T3D, the [IBM] SP-2, and the [Intel]
  32. Paragon are impressive enough that I believe it will be months or even
  33. years before other HPF vendors can offer comparable performance."
  34.  
  35.   "We expect 1995 will be the watershed year for parallel programming
  36. of distributed memory systems and clusters.  Before 1995, hand-tuned
  37. message-passing programming was the norm.  Beginning this year,
  38. automatic parallelization by sophisticated, production-quality HPF
  39. compilers will be the norm and APR's xHPF is well-positioned to become
  40. the de facto industry standard for HPF compilation.  This is a wake-up
  41. call for application programmers who've been waiting since the early
  42. days of the hypercubes for good parallel Fortran compilers."
  43.  
  44.   From UNI-C, The Danish Computing Center for Research and Education,
  45. Jorgen Moth commented, "Parallelization of standard Fortran programs is
  46. made practical for our busy scientists by FORGE Explorer and xHPF.  We
  47. have found these tools to be a bridge between Fortran 77, Fortran 90,
  48. and HPF, thus removing many obstacles from the exploitation of parallel
  49. machines."
  50.  
  51.   At the Cornell Theory Center, where the largest IBM SP-2 (512 nodes)
  52. is installed, Donna Bergmark summarized over two years of experience
  53. with xHPF, saying, "It [APR's xHPF] has proven to be a 'quick and easy'
  54. way to get a program to run in parallel, without having to learn a
  55. message passing protocol."  She also noted, "At the present time, there
  56. are on the average 500-800 invocations of xHPF per month [at the CTC]."
  57.  
  58.   With xHPF, automatic parallelization has now reached the point where
  59. gains achievable by hand-parallelization are often not cost-effective
  60. when the expense of re-programming is factored into the
  61. price-performance equation.  Nonetheless, for users who demand the very
  62. highest performance, APR provides ForgeX, an interactive Motif GUI
  63. Fortran code browser and interactive parallelization system which is
  64. fully compatible with xHPF.  With ForgeX, users can interactively fine
  65. tune their parallelized codes, using their knowledge of the underlying
  66. algorithms as well as execution timings that can be obtained with the
  67. code instrumentation features of ForgeX.
  68.  
  69.   To underscore the importance of the latest release, during the month
  70. of July, APR is offering free ForgeX licenses, including interactive
  71. parallelization for distributed memory systems, for sites purchasing
  72. xHPF licenses.  The number of concurrent interactive users is related
  73. to the number of processors the xHPF-parallelized codes will be run
  74. on.  Contact APR for details.
  75.  
  76.   The NAS Benchmark results include the EP, SP, BT, FT and MG
  77. programs.  These are slightly modified versions of the standard
  78. Fortran-77 programs from NASA supplemented with HPF directives.  While
  79. many MPP vendors worked months on optimizing the sequential versions of
  80. these programs to utilize cache more effectively, or to perform table
  81. lookups for some operations, no similar restructurings were performed
  82. with APR's versions.  Therefore, the APR versions of the NAS benchmarks
  83. tend to be closer to end-user programs and the results obtained should
  84. be more representative of what might be expected by the general user
  85. community.
  86.  
  87.   The timings in the following tables were obtained using xHPF and
  88. APR's shared memory parallelization system -- spf. With these results
  89. APR is demonstrating the ability to maintain portable code across
  90. varied MPP and SMP parallel systems. All of the benchmarks also run
  91. sequentially on a uni-processor.
  92.  
  93.   The results in the tables following this article are for xHPF 2.1
  94. (APR development version 2029) and, for shared-memory systems, spf.  As
  95. development versions and new releases of xHPF achieve even better
  96. results, APR will update the timings available on its web pages at
  97. http://www.infomall.org/apri.  APR encourages other HPF vendors to
  98. respond in kind by making their HPF benchmark results available in
  99. their web pages accessible from the HPFF (High Performance Fortran
  100. Forum) web page at http://www.erc.msstate.edu/hpff/home.html.
  101.  
  102.   The speedups obtained for the Fortran-77 versions of the benchmarks
  103. highlight xHPF's superior capabilities in the area of parallelizing
  104. DO-loops in addition to Fortran-90 array syntax and HPF FORALL
  105. statements.  Some other HPF implementations either do not attempt to
  106. parallelize DO-loops or do not have the robust dependence analysis
  107. capabilities of xHPF and fail to parallelize some DO loops that are no
  108. problem for xHPF.
  109.  
  110.   These Fortran programs were processed without modification by APR's
  111. xHPF and code generated for the Cray T3D, IBM SP2, Digital ALPHA
  112. Cluster, SGI Power Challenge Cluster and Intel PARAGON. Then some of
  113. the benchmarks were processed without modification by APR's spf and
  114. code generated for the Sun SPARCcenter 2000.
  115.  
  116.   One will notice that the IBM-SP2 does very well compared to other MPP
  117. systems.  It is true that APR's timings get closer to the timings
  118. supplied by IBM, but no special "tuning" was done for the SP-2.  The
  119. superior performance can be attributed to IBM's Fortran-77 compiler
  120. (xlf) which compiles the parallelized SPMD Fortran-77 code output by
  121. xHPF.  Xlf is more successful at achieving maximum single processor
  122. performance than the other vendors' Fortran-77 compilers.  The scaling
  123. of the timings as the number of processors is increased is good on all
  124. the platforms.
  125.  
  126.   APR is a leading supplier of software tools for Fortran program
  127. analysis, performance measurement, parallelization, restructuring,
  128. and dialect translation.
  129.  
  130.  
  131. ========  NAS Benchmark Results  ========
  132.  
  133. NOTE: The following times are between 2-10 times slower than the
  134. timings reported by the various vendors.  The major difference is due
  135. to the vendors' extensive rewriting of the benchmarks to obtain the
  136. best possible single node performance.  APR has asked and will continue
  137. to ask the vendors to supply their optimized single node versions of
  138. the benchmarks so everyone can start with the same sequential
  139. programs.  To date, however, all vendors have refused saying their
  140. versions of the benchmarks are proprietary.
  141.  
  142.  
  143. Benchmark SP: Simulated CFD Application
  144. ---------------------------------------------------------------------
  145. Platform         Processors       Time(Sec.) 
  146. ---------------------------------------------------------------------
  147.  Cray C90            1               7634. **
  148. ---------------------------------------------------------------------
  149.  Cray T3D           16               2368.
  150.                     32               1353.
  151.                     64                728.
  152. ---------------------------------------------------------------------
  153.  IBM SP2-WIDE       16                576.  
  154.                     32                320.       
  155.                     64                192.      
  156. -