home *** CD-ROM | disk | FTP | other *** search
/ The World of Computer Software / World_Of_Computer_Software-02-387-Vol-3of3.iso / c / cpucmp13.zip / PROCCMP2.TXT next >
Text File  |  1992-10-30  |  30KB  |  512 lines

  1. Performance Comparison Intel 386DX, Intel RapidCAD, C&T 38600DX, Cyrix 486DLC
  2.  
  3. This document, containing descriptions and a benchmark comparison of the
  4. Intel 386DX, Intel RapidCAD, C&T 38600DX, and the Cyrix 486DLC has been
  5. put together for the benefit of the net.community. I believe, but cannot
  6. guarantee, that all data given herein is correct. If you would like to
  7. report errors in this document, or have suggestions for its enhancement,
  8. feel free to contact me at the following email address:
  9.  
  10.      S_JUFFA@IRAVCL.IRA.UKA.DE
  11.  
  12. You can also write to me at my snail mail address:
  13.  
  14.      Norbert Juffa
  15.      Wielandstr. 14
  16.      7500 Karlsruhe 1
  17.      Germany
  18.  
  19. Corrections pertaining to spelling or grammatical errors are also encouraged,
  20. especially from those net.users that are native speakers of (American) English.
  21.  
  22.  
  23. This is the second version of this document. Thanks to the people that helped
  24. improve it by their comments on the previous version:
  25.  
  26.     Alex Martelli (martelli@cadlab.sublink.org),
  27.     Fred Dunlap (cyrix!fred@texsun.Central.Sun.COM)
  28.  
  29. A special thanks for editing this article goes to:
  30.  
  31.     David Ruggiero (osiris@halcyon.halcyon.com)
  32.  
  33.  
  34. ---------------------------------------------------------------------------
  35.  
  36. In 1992, three new CPUs were introduced into the PC marketplace. Each has the
  37. capability to replace the standard Intel 386DX CPU and provide higher
  38. performance for existing 386 systems. These new chips are the Intel RapidCAD,
  39. the Chips&Technologies (C&T) Super386 38600DX, and the Cyrix 486DLC. At the
  40. moment, all of these are only available in 33 MHz versions, but C&T and Cyrix
  41. have announced 40 MHz versions for delivery in early 1993. (Of course you could
  42. try to push existing 33 MHz chips to 40 MHz, but I do not recommend this, as my
  43. experience shows that operation at the higher frequency tends to be unreliable,
  44. with the possibility of the machine locking up unexpectedly.) While the Intel
  45. RapidCAD is marketed only as an end-user product (which means PC manufacturers
  46. will not ship systems with the RapidCAD already installed), both C&T and Cyrix
  47. sell their products directly to the end user as well as to PC motherboard
  48. manufacturers. Cyrix also manufactures the 486SLC, which is a replacement for
  49. the Intel/AMD 386SX CPUs. C&T has announced a 38600SX chip, but it will not
  50. ship before sometime in 1993, if at all.
  51.  
  52. The Intel RapidCAD
  53. ------------------
  54.  
  55. The Intel RapidCAD is, in rough terms, an Intel 486DX with the 8 kB on-chip
  56. cache removed and a 386 pinout. To software, it appears to be a 386DX with a
  57. math coprocessor, as the 486-specific instructions have been removed from its
  58. instruction set. It is marketed by Intel as "the ultimate coprocessor" and, as
  59. the name implies, its main purpose is to replace the 386DX in existing systems
  60. and thereby boost the performance of floating-point intensive applications such
  61. as CAD software, spreadsheets, and math packages (e.g. SPSS, Mathematica).
  62.  
  63. RapidCAD is delivered as a set of two chips. RapidCAD-1 is a 132-pin PGA (pin
  64. grid array) chip that goes into the CPU socket and replaces the 386DX. It
  65. contains the CPU and the FPU (floating-point unit). RapidCAD-2 is a 68-pin PGA
  66. chip that goes into the 387 coprocessor (or EMC) socket; it contains a simple
  67. PLA whose only purpose it to generate the FERR signal for the motherboard
  68. logic: this provides full PC-compatible handling of floating point exceptions.
  69. Many CPU instructions execute in one clock cycle in the RapidCAD, just as on
  70. the Intel 486. The RapidCAD is constrained, however, by use of the standard
  71. 386DX bus interface, since every bus cycle takes two CPU clock cycles. This
  72. means that instructions may be executed by the RapidCAD faster than they can be
  73. fetched from memory. But as most FPU instructions take longer to execute than
  74. CPU instructions, they are not greatly slowed down by this slow bus interface,
  75. and most of them execute in the same time as in the Intel 486DX. Therefore, the
  76. Intel RapidCAD provides higher overall floating-point performance than any
  77. existing 386/387 combination. Results from the SPEC benchmarks, a common
  78. workstation UNIX benchmark suite, show that the RapidCAD provides 85% more
  79. floating point and 15% more integer performance than an Intel 386DX/387DX
  80. combination at the same clock frequency.
  81.  
  82. Power consumption of the RapidCAD is typically 3500 mW at 33 MHz. The current
  83. street price of the 33 MHz version is ~300 US$.
  84.  
  85. The C&T 38600DX
  86. ---------------
  87.  
  88. The Chips&Technologies 38600DX is designed to be 100% compatible to the Intel
  89. 386DX CPU. Unlike AMD's Am386 CPUs (which use microcode that is identical to
  90. the Intel 386DX's microcode), the C&T 38600DX uses new microcode developed
  91. within C&T using "clean-room" techniques. C&T even included the 386DX's
  92. "undocumented" LOADALL386 instruction in the instruction set to provide full
  93. compatibility with the Intel chip.
  94.  
  95. Some instructions execute faster on the 38600DX than on the 386DX. C&T also
  96. produces a 38605DX CPU that includes a 512-byte instruction cache and provides
  97. further performance increases over the Intel part. The 38605DX needs a bigger
  98. socket (144-pin PGA) and is therefore *not* pin-compatible with the 386DX.
  99.  
  100. In my tests, I found that the 38600DX has severe problems with the CPU-
  101. coprocessor communication, which causes its floating-point performance to drop
  102. below the level provided by the Intel 386DX/Intel 387DX for most programs. This
  103. problem exists with all available 387 compatible coprocessors (ULSI 83C87, IIT
  104. 3C87, Cyrix EMC87, Cyrix 83D87, Cyrix 387+, C&T 38700, and the Intel 387DX). (A
  105. net.acquaintance also did tests with the 38600DX and arrived at similar
  106. results. He contacted C&T and they said they were aware of the problem.)
  107.  
  108. Typical power consumption of the 40 MHz 38600DX is 1650 mW, which is less than
  109. the typical power consumption of the Intel 386DX at 33 MHz (2000 mW). The
  110. 38600DX currently sells for ~US$ 80 for the 33 MHz version.
  111.  
  112. The Cyrix 486DLC
  113. ----------------
  114.  
  115. The Cyrix 486DLC is the latest entry into the market of 386DX replacements. It
  116. features a 486SX compatible instruction set, a 1 kB on-chip cache, and a 16x16-
  117. bit hardware multiplier. The RISC-like execution unit of the 486DLC executes
  118. many instructions in a single clock cycle. The hardware multiplier multiplies
  119. 16-bit quantities in 3 clock cycles, as compared to 12-25 cycles on a standard
  120. Intel 386DX. This is especially useful in address calculations (code from non-
  121. optimizing compilers may contain many MUL instructions for array accesses) and
  122. for software floating-point arithmetic (e.g., a coprocessor emulator). The 1 kB
  123. cache helps the 486DLC to overcome the limitations of the 386 bus interface,
  124. although its hit rate averages only about 65% under normal program conditions.
  125.  
  126. In existing 386 systems, DMA transfers (such as those performed by a SCSI
  127. controller or a sound board) may force the internal cache of the 486DLC to be
  128. flushed as the only means available in a 386 system to enforce consistency
  129. between the contents of the on-chip cache and external memory. This stems from
  130. the fact that the 386 bus interface was designed without provisions for an
  131. on-chip cache. This problem can reduce the performance of the 486DLC in systems
  132. that do a sizeable amount of (bus master) DMA. Cyrix has, however, defined some
  133. additional cache control signals for some of the 486DLC lines; they can be used
  134. to improve communications between the on-chip cache and a larger external cache
  135. or main memory and prevent this problem. Although current 386 systems ignore
  136. these signals (since they are not defined for the Intel 386DX), future systems
  137. designed with the Cyrix chip in mind may take advantage of them and thereby
  138. gain increased performance.
  139.  
  140. The Cyrix cache is a unified data/instruction write-through type and can be
  141. configured as either a direct-mapped or 2-way set associative cache. It permits
  142. definition of up to four non-cacheable regions, which are particularly useful
  143. if a system has memory mapped peripherals (e.g., the Weitek math coprocessor).
  144. For compatibility reasons, the cache is disabled after a processor reset
  145. and must be enabled with the help of a small program provided by Cyrix. This
  146. prevents problems with BIOSes that are not "486DLC aware". (I am certain that
  147. future versions of the AMI BIOS and other BIOSes will take the 486DLC into
  148. consideration and directly support the Cyrix chip's cache.)
  149.  
  150. The 486DLC will not work correctly with all math coprocessors in all
  151. circumstances, with protected mode multitasked environments (e.g. MS-Windows
  152. 386-enhanced mode) being especially critical. Using the 486DLC with the Cyrix
  153. EMC87, Cyrix 83D87 (chips produced prior to November 1991), and IIT 3C87, I
  154. have been able to completely lock up the machine due to synchronization
  155. problems between the CPU and the coprocessor while executing the FSAVE or
  156. FRSTOR instructions (which are used to save and restore the coprocessor status
  157. during task switches). According to Cyrix, this problem only occurs with the
  158. first revision of the 486DLC and is fixed on newer ones. To be on the safe
  159. side, the 486DLC should best be used with the Cyrix 387+ (its "Europe-only"
  160. name) or with the identical Cyrix 83D87 (US-bound chips manufactured after
  161. October 1991): these are not only are the highest performing 387 coprocessors
  162. on the market, but they also work properly even with the first generation
  163. 486DLC.
  164.  
  165. If you already have a Cyrix 83D87 coprocessor and want to know whether it is
  166. the old or new type, I recommend you use my COMPTEST program, available as
  167. CTEST257.ZIP via anonymous ftp from garbo@uwasa.fi and other fine ftp servers.
  168. If COMPTEST reports a 387+, you either have the 387+ or the identical newer
  169. version of the 83D87 installed and can use any version of the Cyrix 486DLC
  170. without problems. If you believe that you may have problems with a 486DLC/387
  171. combination, I suggest you contact Cyrix technical support (1-800-FAS-MATH in
  172. the US).
  173.  
  174. Power consumption of a 40 MHz 486DLC is typically 2800 mW. The 486DLC sells for
  175. ~115 US$ for the 33 MHz version, according to its German distributor.
  176.  
  177. Tests and benchmarks
  178. --------------------
  179.  
  180. HW configuration: 33.3/40 MHz motherboard with Forex chip set and AMI BIOS. 128
  181. kB zero- wait-state, direct mapped, write-through CPU cache with one write
  182. buffer, 4 bytes per cache line, and 4 clock cycles penalty for a cache line
  183. miss. 8 MB of main memory with an average access time of 1.6 wait states. Cyrix
  184. EMC87 in 387 compatibility mode as math coprocessor. (This and the Cyrix 83D87
  185. / 387+ are the fastest coprocessors available for use with the
  186. 386DX/486DLC/38600DX). Conner 3204F hard disk, 203 MB capacity, IDE interface
  187. (CORETEST throughput 1100 kB/s, seek time 16 ms). Diamond SpeedSTAR HiColor,
  188. ISA bus SVGA card using Tseng's ET4000 chip, 1 MB DRAM as frame buffer, *no*
  189. accelerator. The switches on the card were set for fastest reliable operation,
  190. with a throughput of 6500 bytes/ms at 40 MHz and 5400 bytes/ms at 33.3 MHz.
  191.  
  192. SW configuration: MS-DOS 5.0, MS Windows 3.1, HyperDisk 4.32 disk cache program
  193. in write-back mode, using 2 MB of extended memory, 386MAX 6.01 used as memory
  194. manager and DPMI provider in some benchmarks. Latest Tseng (Colorview) driver
  195. for Windows 3.1 at 1024x768x256, using the 8514 fonts.
  196.  
  197.  
  198. For the Whetstone, Dhrystone, WINTACH, DODUC, LINPACK, LLL, and Savage
  199. benchmarks, *higher* numbers indicate *faster* performance.
  200.  
  201. For the MAKE RTL, MAKE TRANCK, and String-Test benchmarks, *lower* numbers
  202. indicate *faster* performance.
  203.  
  204.  
  205.                          Intel        C&T      Intel      Cyrix      Cyrix
  206. 33.3 MHz                 386DX    38600DX   RapidCAD      486DLC     486DLC
  207.                                                         cache off    cache on
  208. integer
  209.  
  210. Whetstone [kWhets/s]       447        585        563        695        803
  211. Dhrystone (C) [Dhry./s]  11688      11819      12357      14150      15488
  212. Dhrystone (Pas) [Dhry./s]10455      10877      10751      12154      13858
  213. String-Test [ms]           459        453        441        347        327
  214. MAKE RTL [s]                51.32      47.10      46.34      43.45      39.13
  215. MAKE TRANCK [s]             62.42      55.47      55.37      53.64      46.12
  216. WINTACH [overall RPM]        4.85       4.90       5.49       5.53       6.14
  217.  
  218. float
  219.  
  220. DODUC [Rapidity index]      79.0       76.4      150.3       89.4       90.7
  221. LINPACK [MFLOPS]             0.2808     0.2707     0.4578     0.3158     0.3438
  222. LLL [MFLOPS]                 0.3352     0.3537     0.6083     0.3816     0.4139
  223. Whetstone [kWhets/s]      2540       2340       3990       2908       3061
  224. Savage [function eval/s] 71685      53191      72464      88757      93897
  225.  
  226.  
  227.                          Intel        C&T      Intel      Cyrix      Cyrix
  228. 40.0 MHz                 386DX    38600DX   RapidCAD      486DLC     486DLC
  229.                                                          cache off   cache on
  230. integer
  231.  
  232. Whetstone [kWhets/s]       536        702        676        835        963
  233. Dhrystone (C) [Dhry./s]  14128      14116      14836      16987      18750
  234. Dhrystone (Pas) [Dhry./s]12490      13067      12890      14573      16624
  235. String-Test [ms]           384        377        368        289        273
  236. MAKE RTL [s]                43.46      40.11      39.84      37.25      33.54
  237. MAKE TRANCK [s]             53.00      47.59      47.07      45.36      39.00
  238. WINTACH [overall RPM]        5.65       5.73       6.41       6.46       7.23
  239.  
  240. float
  241.  
  242. DODUC [Rapidity index]      94.9       77.5      180.3      105.1      106.6
  243. LINPACK [MFLOPS]             0.3324     0.3260     0.5418     0.3789     0.4131
  244. LLL [MFLOPS]                 0.4025     0.4204     0.7263     0.4562     0.4956
  245. Whetstone [kWhets/s]      3061       2632       4798       3505       3677
  246. Savage [function eval/s] 86083      49587      86957     106762     112360
  247.  
  248.  
  249. To complete the picture, I ran the CPU/FPU standard benchmarks on an Intel
  250. 486DX running at 33.3/40 MHz. Since the 486 machine was configured with a
  251. different hard disk than the 386 system, and the compilers and tools installed
  252. on the 386 machine were not present, the MAKE benchmarks could unfortunately
  253. not be included in the tests.
  254.  
  255. 486DX, 256 kBytes CPU cache (write-thru), 8 MB of RAM, AMI-BIOS, Diamond
  256. SpeedSTAR HiColor (VIDSPEED thoughput: 6500 bytes/ms at 40 MHz and 5400
  257. bytes/ms at 33.3 MHz), MS-DOS 5.0, MS-Windows 3.1:
  258.  
  259. integer                       33.3 MHz             40 Mhz
  260.  
  261. Whetstone [kWhets/s]          707                 848
  262. Dhrystone (C) [Dhry./s]     19394               23265
  263. Dhrystone (Pas) [Dhry./s]   16978               20368
  264. String-Test [ms]              333                 279
  265. WINTACH                         8.59               10.14
  266.  
  267. float
  268.  
  269. DODUC [Rapidity index]        184.0              220.7
  270. LINPACK [MFLOPS]                0.6682              0.8204
  271. LLL [MFLOPS]                    0.9387              1.1110
  272. Whetstone [kWhets/s]         5143                6195
  273. Savage [function eval/s]    82192               98522
  274.  
  275.  
  276. Conclusions
  277. -----------
  278.  
  279. The Cyrix 486DLC is the 386DX replacement with the highest integer performance.
  280. With the internal cache enabled, integer performance of the 486DLC can be up to
  281. 80% higher compared with a Intel 386DX at the same clock frequency, with the
  282. average speed gain for integer applications being 35%. Enabling the internal
  283. cache provides about 5-15% more performance than with the cache disabled for
  284. both integer and floating-point applications. Floating-point applications are
  285. accelerated by about 15%-30% if the Cyrix 486DLC (with cache enabled) is used
  286. instead of the Intel 386DX. Compared with the Intel 486DX, the Cyrix 486DLC
  287. provides about 70% of the integer performance and about 50% of the floating
  288. point performance at the same clock frequency.
  289.  
  290. The Intel RapidCAD is the 386DX replacement that provides the highest floating
  291. point performance. It can speed up most floating-point intensive programs by
  292. 60%-90% compared with the fastest Intel 386DX/math coprocessor combination; it
  293. provides nearly 75% of the floating-point performance of a Intel 486DX at the
  294. same clock frequency. Integer performance increases by an average 15% by using
  295. the RapidCAD instead of the standard Intel 386DX, with the maximum performance
  296. gain being 35%.
  297.  
  298. The Chips&Technologies 38600DX has a slightly higher integer performance than
  299. the Intel 386DX, with the speedup ranging from 0%-30% and an average speedup on
  300. the order of 10%.
  301.  
  302.  
  303. Description of benchmarks
  304. -------------------------
  305. DHRYSTONE [9] is a synthetic benchmark developed by R. Weicker from Siemens in
  306. 1984. The frequency of operations and data types used by Dhrystone are modeled
  307. after statistics collected for 'typical' programs that are written in a HLL
  308. (high level language) such as C or Pascal that do not use floating-point
  309. arithmetic. Thus there is a certain distribution of global and local variables
  310. being used in procedures, there is a certain percentage of use of records
  311. (structs) or strings out of the total number of variables accessed and there is
  312. a certain percentage of procedure calls and if-statements out of the total
  313. lines of codes executed. All these percentages match the statistics used in the
  314. development of Dhrystone quite closely. To preserve the typical distributions,
  315. the measurement rules for Dhrystone forbid function inlining (a frequently used
  316. optimization technique optionally performed by most optimizing compilers). The
  317. current version of Dhrystone is 2.1, and this is the version used for my tests.
  318. Version 2.1 [10] differs from previous versions in that it contains additional
  319. code that prevents optimizing compilers from throwing out most of the code by
  320. dead code elimination (since Dhrystone has no input file, many expressions can
  321. be computed at compile time), thus artificially inflating performance numbers.
  322. The Dhrystone benchmark exists in equivalent Ada, Pascal and C versions, which
  323. are all available from netlib@ornl.gov. Dhrystone measures the time to execute
  324. its main loop and sets this time into relation with a fixed reference time, the
  325. result being a performance index given in "Dhrystones per second". I used two
  326. Dhrystone executables. One was compiled using the non-optimizing Turbo Pascal
  327. 6.0 compiler, the other one was compiled with the MS-C 7.0 compiler using the
  328. large memory model and maximum optimization but without the use of function
  329. inlining. Because the Turbo Pascal executable uses more memory operands and the
  330. MS-C executable uses more register-to-register operations, the speedup for the
  331. executables on different CPUs can be noticeably different.
  332.  
  333. WINTACH is a public domain benchmark program by Texas Instruments that measures
  334. the speed of graphics output for four typical MS-Windows applications: a word
  335. processor, a spreadsheet, a CAD program, and a paint program. TI has collected
  336. profiles for each class of applications under 'typical' user loads. The four
  337. parts of the WINTACH benchmark were then modeled after these profiles, so that
  338. the percentage of certain GDI (graphics device interface) calls found in the
  339. profiles is also present in the benchmark. WINTACH determines the performance
  340. of each program part relative to the performance of a standard VGA card in a 20
  341. MHz 386DX machine. It also combines the four values into an overall relative
  342. performance index, which is reported in my tables. Using this single number to
  343. represent graphics performance is justified in this case since the four partial
  344. results do *not* deviate much from the average for the SVGA tested (a Diamond
  345. SpeedSTAR HiColor). I used a frame buffer card for the test because for these
  346. graphics card type, graphics performance depends solely on the performance of
  347. the CPU, which handles all accesses to the display memory. On an accelerated
  348. card, some of the low-level operations are delegated to the accelerator chip
  349. and the influence of the CPU speed on the graphics performance is not seen so
  350. clearly. For this test, I used the latest Tseng Windows 3.1 driver (Colorview)
  351. at a resolution of 1024x768x256 with the large 8514 fonts (WINTACH code C8).
  352.  
  353. MAKE RTL is not a single program. Rather it is a build of a complete project,
  354. my own run-time library for Turbo Pascal 6.0. The project consists of about 200
  355. source files with a total size of ~650 kByte. Most of the source files are
  356. assembly language (.ASM) files, while there are also some Pascal (.PAS) files.
  357. Building the complete project using MAKE, about 200 binary files (.OBJ and
  358. .TPU) are produced with a combined size of ~300 kB. The programs used during
  359. the build are MAKE 3.5, TPC 6.01, and TASM 2.01, all by Borland, Inc. All files
  360. are read from and written to the hard disk, using a 2 MB write back disk cache
  361. provided by the HyperDisk 4.32 program. This eliminates most of the I/O
  362. overhead. No memory manager was installed during the test. The time reported is
  363. the time from starting the MAKE utility to the reappearance of the DOS prompt.
  364. MAKE RTL can be thought of being typical of applications that operate on a lot
  365. of small files, and use only integer instructions.
  366.  
  367. MAKE TRANCK is a project build for a project consisting of two assembly
  368. language modules, two C modules and one FORTRAN module. The combined size of
  369. the source files is approximately 120 kBytes. All modules are compiled
  370. (assembled) and combined into a single program linking with both, the C and the
  371. FORTRAN libraries. Programs used are MAKE 3.5 by Borland and MASM 6.0, MS-C
  372. 7.0, MS-FORTRAN 5.0, and LINK 5.3, all by Microsoft, Inc. The C compiler and
  373. the linker run in protected mode and require a DPMI host to be present. 386MAX
  374. 6.01 by Qualitas was installed for this purpose. To minimize I/O overhead, the
  375. HyperDisk 4.32 disk caching program was installed, with 2 MByte of extended
  376. memory allocated to the cache. The modules are compiled with compiler switches
  377. set for maximum optimization, and most of the time for the project build is
  378. spent in the optimizing stages of the compilers.
  379.  
  380. STRING-TEST is a simple benchmark that tests the string handling functions
  381. built into the Turbo Pascal language. Nearly all of the execution time is spent
  382. in repeated execution of the STOS, CMPS, SCAS, and MOVS instructions. The data
  383. and code fit into about five kBytes of memory. In cached systems, almost all
  384. memory accesses will be cache hits. The program was written and compiled with
  385. Turbo Pascal 6.0 and linked with my own run-time library, which provides much
  386. faster string functions than the run-time library delivered by Borland.
  387. Compiler switches were set for fastest execution. The time reported is the time
  388. to complete the whole benchmark in milliseconds, with an accuracy of +/-1
  389. millisecond.
  390.  
  391. LLL is short for Lawrence Livermore Loops [8], a set of kernels taken from real
  392. floating point extensive programs. Some of these loops are vectorizable, but
  393. since we don't deal with vector processors here, this doesn't matter. For this
  394. test, LLL was adapted from the FORTRAN original in [7] to Turbo Pascal. By
  395. variable overlaying (similar to FORTRAN's EQUIVALENCE statement) memory
  396. allocation for data was reduced to 64 kB, so all data fits into a single 64 kB
  397. segment. The older version of LLL is used here which contains 14 loops. There
  398. also exists a newer, more elaborate version consisting of 24 kernels. The
  399. kernels in LLL exercise only multiplication and addition. The MFLOPS rate
  400. reported is the average of the MFLOPS rate of all 14 kernels as reported by the
  401. LLL program. LLL and Whetstone results (see below) are reported as returned by
  402. my COMPTEST test program in which they have been included as a measure of
  403. coprocessor/FPU performance. COMPTEST has been compiled under Turbo Pascal 6.0
  404. with all 'optimizations' on and using my own run-time library, which gives
  405. higher performance than the one included with TP 6.0. My library is available
  406. as TPL60N17.ZIP from garbo.uwasa.fi and ftp-sites that mirror this site. All
  407. floating point variables in the program where declared as DOUBLE.
  408.  
  409. LINPACK [4] is a well known floating-point benchmark that also heavily
  410. exercises the memory system. Linpack operates on large matrices and takes up
  411. about 570 kB in the version used for this test. This is about the largest
  412. program size a pure DOS system can accommodate. Linpack was originally designed
  413. to estimate performance of BLAS, a library of FORTRAN subroutines that handles
  414. various vector and matrix operations. Note that vendors are free to supply
  415. optimized (e.g. assembly language versions) of BLAS. Linpack uses two routines
  416. from BLAS which are thought to be typical of the matrix operations used by
  417. BLAS. Both routines only use addition/subtraction and multiplication. The
  418. FORTRAN source code for Linpack can be obtained from the automated mail server
  419. netlib@ornl.gov. Linpack was compiled using MS FORTRAN 5.0 in the HUGE memory
  420. model (which can handle data structures larger than 64 kB) and with compiler
  421. switches set for maximum optimization. Linpack performs the same test
  422. repeatedly. The number reported is the maximum MFLOPS rate returned by Linpack.
  423. All floating point variables in the program were declared as DOUBLE. Linpack 
  424. MFLOPS ratings for a great number of machines are contained in [5]. This 
  425. PostScript document is also available from netlib@ornl.gov.
  426.  
  427. WHETSTONE [1,2,3] is a synthetic benchmark based on statistics collected about
  428. the use of certain control and data structures in programs written in high
  429. level languages. Based on these statistics, Whetstone tries to mirror a
  430. 'typical' HLL program. Whetstone performance is expressed by how many
  431. theoretical 'whetstone' instructions are executed per second. It was originally
  432. implemented in ALGOL. Unlike LLL and Linpack, Whetstone not only uses addition
  433. and multiplication but exercises all basic arithmetic operations as well as
  434. some transcendental functions. Whetstone performance depends on the speed of
  435. the coprocessor as well as on the speed of the CPU, while LLL and Linpack place
  436. a heavier burden on the coprocessor/FPU. There exist an old and a new version
  437. of Whetstone. Note that results from the two versions can differ by as much as
  438. 20% for the same test configuration. For this test, the new version in Pascal
  439. from [2] was used. It was compiled with Turbo Pascal 6.0 and my own library
  440. (see above) with all 'optimizations' on. For the integer test, software fp
  441. arithmetic using the REAL type was utilized. Using the software arithmetic
  442. exercises only the CPU, in particular the execution of MOV, SHL, SHR, RCR,
  443. ADD, SUB, MUL, and DIV instructions. For the floating point test, the hardware
  444. floating-point arithmetic of the coprocessor was used and computations were
  445. performed using the DOUBLE type.
  446.  
  447. SAVAGE tests the performance of transcendental function evaluation. It is
  448. basically a small loop in which the sin, cos, arctan, ln, exp, and sqrt
  449. functions are combined in a single expression. While sin, cos, arctan, and sqrt
  450. can be evaluated directly with a single 387 coprocessor instruction each, ln
  451. and exp need additional preprocessing for argument reduction and result
  452. conversion. According to [11], the Savage benchmark was devised by Bill Savage,
  453. and is distributed by: The Wohl Engine Company, Ltd., 8200 Shore Front Parkway,
  454. Rockaway Beach, NY 11693, USA. Usually, Savage is programmed to make 250,000
  455. passes though the loop. Here only 10,000 loops are executed for a total of
  456. 60,000 transcendental function evaluations. The result is expressed in function
  457. evaluations per second. SAVAGE source code was taken from [6] and compiled with
  458. Turbo Pascal 6.0 and my own run-time library (see above).
  459.  
  460. DODUC [12] is a modified application program by Nhuan Doduc that is also part
  461. of the SPEC benchmark suite. It is a nuclear safety analysis code that
  462. simulates the time evolution of a thermohydraulic modelization for a nuclear
  463. reactor's component and the benchmark is created from the computational kernel
  464. of the original application. The benchmark consist of 5323 FORTRAN statement
  465. lines and the executable size is about 350 kBytes. Almost all processing is
  466. done using double precision floating-point values. There is not much array
  467. processing. Instead the program has an iterative structure with an abundance of
  468. short branches and small loops. The version used for this test was compiled
  469. with the highly optimizing NDP FORTRAN V3.0 compiler from Microway, which
  470. generates a 32-bit mode executable that runs in protected mode using a
  471. protected mode loader provided by Microway. The execution time of the DODUC
  472. program is set into relation with fixed reference times and the result is
  473. scaled to give a "Rapidity index".
  474.  
  475.  
  476. References
  477. ----------
  478.  
  479. [1]  Curnow, H.J.; Wichmann, B.A.: A synthetic benchmark.
  480.      Computer Journal, Vol. 19, No. 1, 1976, pp. 43-49
  481. [2]  Wichmann, B.A.: Validation code for the Whetstone benchmark.
  482.      NPL Report DITC 107/88, National Physics Laboratory, UK, March 1988
  483. [3]  Curnow, H.J.: Wither Whetstone? The Synthetic Benchmark after 15 Years.
  484.      In: Aad van der Steen (ed.): Evaluating Supercomputers.
  485.      London: Chapman and Hall 1990
  486. [4]  Dongarra, J.J.: The Linpack Benchmark: An Explanation.
  487.      In: Aad van der Steen (ed.): Evaluating Supercomputers.
  488.      London: Chapman and Hall 1990
  489. [5]  Dongarra, J.J.: Performance of Various Computers Using Standard Linear
  490.      Equations Software.
  491.      Report CS-89-85, Computer Science Department, University of Tennessee,
  492.      March 11, 1992
  493. [6]  Huth, N.: Dichtung und Wahrheit oder Datenblatt und Test.
  494.      Design & Elektronik 1990, Heft 13, Seiten 105-110
  495. [7]  Esser, R.; Kremer, F.; Schmidt, W.G.: Testrechnungen auf der IBM 3090E mit
  496.      Vektoreinrichtung.
  497.      Arbeitsbericht RRZK-8803, Regionales Rechenzentrum an der Universit"at zu
  498.      K"oln, Februar 1988
  499. [8]  McMahon, H.H.: The Livermore Fortran Kernels: A test of the numerical
  500.      performance range.
  501.      Technical Report UCRL-53745, Lawrence Livermore National
  502.      Laboratory, USA, December 1986
  503. [9]  Weicker, R.P.: Dhrystone: A Synthetic Systems Programming Benchmark.
  504.      Communications of the ACM, Vol. 27, No. 10, October 1984, pp. 1013-1030
  505. [10] Weicker, R.P.: Dhrystone Benchmark: Rationale for Version 2 and
  506.      Measurement Rules.
  507.      SIGPLAN Notices. Vol. 23, No. 8, August 1988, pp. 49-62
  508. [11] FasMath 83D87 Benchmark Report. Cyrix Corporation, June 1990
  509.      Order No. B2004
  510. [12] Doduc, Nhuan: Fortran Execution Time Benchmark.
  511.      Unpublished manuscript, version 45, available from ndoduc@framentec.fr
  512.