home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #20 / NN_1992_20.iso / spool / comp / benchmar / 1372 next >
Encoding:
Text File  |  1992-09-07  |  10.1 KB  |  182 lines

  1. Newsgroups: comp.benchmarks
  2. Path: sparky!uunet!convex!darwin.sura.net!aplcen.apl.jhu.edu!uakari.primate.wisc.edu!usenet.coe.montana.edu!decwrl!concert!uvaarpa!murdoch!hemlock.cs.Virginia.EDU!clc5q
  3. From: clc5q@hemlock.cs.Virginia.EDU (Clark L. Coleman)
  4. Subject: Dhrystone and SPECint Correlation
  5. Message-ID: <1992Sep4.210245.19914@murdoch.acc.Virginia.EDU>
  6. Sender: usenet@murdoch.acc.Virginia.EDU
  7. Organization: University of Virginia Computer Science Department
  8. References: <1992Aug23.114309.3643@nosc.mil> <1992Aug26.160240.20114@murdoch.acc.Virginia.EDU> <1992Aug31.002356.24988@nosc.mil>
  9. Distribution: comp.benchmarks
  10. Date: Fri, 4 Sep 1992 21:02:45 GMT
  11. Lines: 169
  12.  
  13. In article <1992Aug31.002356.24988@nosc.mil> aburto@nosc.mil (Alfred A. Aburto) writes:
  14. >
  15. >In Article <1992Aug26.160240.20114@murdoch.acc.Virginia.EDU>
  16. >clc5q@hemlock.cs.Virginia.EDU (Clark L. Coleman) writes:
  17. >>Similar poor correlations will be obtained for two different systems
  18. >>with very different cache sizes. Compare the HP9000/720 to a smaller
  19. >>cache machine like an IBM RS/6000 or Sun SS2. For example, here are some
  20. >>Spring, 1991, numbers:
  21. >>
  22. >>                 SPECint89    Dhrystone 1.1 MIPS      MIPS/SPECint89
  23. >>                 ---------    ------------------      --------------
  24. >>HP 9000/720       39.0            57                      1.46
  25. >>DEC 5000/200      19.0            24.2                    1.27
  26. >>IBM RS6000/550    34.5            56                      1.62
  27. >>
  28. >>If I didn't have SPECint89 numbers, but wanted to derive them from 
  29. >>available Dhrystone MIPS numbers, the third column above would indicate 
  30. >>that I have a tough job ahead of me.
  31. >
  32. >
  33. >But they ARE correlated!  You can see it just by looking at the 
  34. >SPECint89 and Dhrystone1.1 numbers. It is incorrect to use the third
  35. >column (above) to make any predictions or draw conclusions as it 
  36. >consists of ratio's of the raw data (program, 'benchmark', results).
  37. >I'll explain below.
  38.  
  39. I'll take the liberty of not including the text of your explanation, although
  40. it was a good one, because I think we just aren't communicating here.
  41.  
  42. Here is my perspective: I am trying to determine how fast various machines
  43. are. We are buying some workstations soon at my company, Acme Tool and Die.
  44. My boss doesn't see what the big deal is about all this benchmarking stuff,
  45. and doesn't want to get loaner machines from multiple vendors, port our
  46. code to each, time the results, etc.  He says it would take too much time,
  47. as the porting of our code turns out to be nontrivial. So we are going to
  48. stick to standard benchmarks. Unfortunately, he didn't buy my arguments
  49. against trying to use a single benchmark number; he refuses to chart out
  50. every SPECint result for his boss when he makes the final proposal for
  51. what workstations to buy.
  52.  
  53. Now, I have Dhrystone 1.1 MIPS numbers available for various machines. I
  54. have read the marketing literature, and they all assure me that only those
  55. compiler optimizations that were specified by Reinhold Weicker as being
  56. allowable for Dhrystone were used (no inlining, for example.) So I feel
  57. pretty good about these numbers, as Dhrystone 1.1 numbers go.
  58.  
  59. I also have some SPECint92 numbers, and some SPECint89 numbers, but not
  60. complete lists of both for all interesting machines, and neither one of
  61. them for some machines.
  62.  
  63. Our applications rarely use floating point data, and are not heavy on
  64. graphics or I/O, either.  So, my boss tells me to just rank the machines
  65. by their Dhrystone 1.1 MIPS numbers, and he will look over the results.
  66. He is smart enough not to make a big deal out of one machine having 51
  67. MIPS while another has 49 MIPS, but he wants this MIPS list as a rough
  68. guide to integer performance.
  69.  
  70. The $64,000 question is: Are we on reasonably safe ground to use Dhrystone 1.1
  71. MIPS in lieu of the SPECint92 numbers we wish we had?
  72.  
  73. You have made the statement that "There is a very high correlation between
  74. SPECint and Dhrystone 1.1 MIPS", or something similar, several times. I see
  75. two possibilities here:
  76.  
  77. 1) The fact that the two numbers correlate highly does not necessarily imply
  78.     that one is a good substitute for the other if we are trying to get a
  79.     reasonably accurate ranking of the various candidate machines.
  80.  
  81. 2) The correlation DOES indicate that Dhrystone 1.1 MIPS is pretty much as
  82.     good as SPECint92, if all you want is a single number for integer CPU
  83.     speed (not I/O or cache constrained performance.)
  84.  
  85. If you tell me #1 is the case, then your regression and correlation are of
  86. pedantic interest only, and I see no point in continuing to debate this
  87. matter any further.
  88.  
  89. If you say that #2 is the case, I have a very simple disproof.
  90.  
  91. Let's say that my list of machines includes the new, souped up version of
  92. the DECstation 5000/200, with the clock sped up by a factor of 2.35, and
  93. the memory and cache proportionately faster to keep up with it.  I will
  94. assume that SPECint92 tracks SPECint89 here, because I only have SPECint92
  95. number for the 36 MHz SPARCstation 10 that I am about to use. The new DEC
  96. machine has 44.8 SPECint92, and 57.0 Dhrystone 1.1 MIPS.  These are in
  97. direct 2.35 to 1 ratios to the DEC 5000/200 numbers above, so the new machine
  98. will not disturb your old regression and correlation at all.
  99.  
  100. Now, on my list, I have shown my boss his choices, and one of them is the
  101. 36 MHz SPARCstation 10, which shows up with 86 Dhrystone 1.1 MIPS. I don't
  102. have the SPECint92 yet --- their marketing department is working on it.
  103. My boss decides that there might be some error in the MIPS values ("spread"
  104. as you put it), but as there is a high correlation between the SPECint92
  105. and the MIPS (he read this on the Internet somewhere :-) ), he isn't too
  106. worried that the SPECint92 numbers will be very different when they come
  107. out.  So, he sees a 33% MIPS increase in the SPARCstation 10 over the
  108. new DEC machine, for only 10% more cost, and figures that SPECint92 will
  109. probably show the same 33% increase, or close to it.  After all, this
  110. highly touted statistical correlation must have some real world value,
  111. right?
  112.  
  113. We buy the SPARCstation 10 machines.  A month later, Sun releases their
  114. SPECint92 numbers : 44.8, the exact same as the new DEC machine. So, we
  115. have:
  116.  
  117. Machine:       DEC5000/200super     Sun SS-10 (36 MHz)
  118. --------       ----------------     ------------------
  119. MIPS                 57                     86
  120. SPECint92            44.8                   44.8
  121.  
  122. NOTE: The above numbers are 2.35 to 1 ratios for the DEC5000/200, and so could
  123. reflect a hypothetical but reasonable speed up of that architecture. The Sun
  124. numbers are actual numbers from Sun.
  125.  
  126. In examining the Sun machines, we find that there was almost exactly a doubling
  127. of SPECint92 performance from the SS-2 to the SS-10 at 36 MHz, but there was
  128. a tripling of the Dhrystone 1.1 MIPS.  Which is the better indicator of integer
  129. CPU speed? I contend that Dhrystone (any version) is rapidly being obsoleted
  130. EVEN IN THE SINGLE NUMBER BENCHMARKING world. I gave detailed reasons in a
  131. previous posting that relate to superscalar instruction scheduling.
  132.  
  133. The reason that MIPS/SPECint92 ratios matter, despite your previous objections,
  134. is that widely different ratios will create a large spread between the
  135. realistic integer CPU performance expectations for a machine and the Dhrystone
  136. 1.1 MIPS estimate of its integer CPU performance. Based on the ratios that are
  137. found between the SS-10 and the SS-2 on better benchmarks than Dhrystone (such
  138. as SPECint92), the SS-10 should have about 57 Dhrystone MIPS.  That it has 86
  139. MIPS instead gives us a large range (from 57 to 86) into which we can expect
  140. to find a competing machine someday (if not already.)  If that competing
  141. machine is not superscalar in its integer functional units, it will be likely
  142. that its 70 or so Dhrystone 1.1 MIPS are a better indicator of its integer
  143. performance than the 86 MIPS are for the SS-10; and it will be likely that
  144. its SPECint92 will be significantly higher than the 44.8 of the SS-10. We
  145. will then have a pair of machines where one has an 86 to 70 edge in MIPS,
  146. and the other has a 58 to 45 edge in SPECint92.  (I would not be surprised
  147. to find that this relationship already exists between the SGI Crimson and
  148. the SS-10 today.)  In which case, I should forget Dhrystone MIPS and stick
  149. to SPECint92, which was my whole point in the first place. Q.E.D.
  150.  
  151. P.S. The correct possibility between the two given above is #1.  The
  152. correlation indicates that at the time you measured and did your regression,
  153. CPU architectures were reasonably similar to each other in their behavior
  154. on SPECint89 and Dhrystone 1.1 code.  That the SS-10 demonstrates that
  155. this is no longer true is reason enough to abandon Dhrystone timings for
  156. the future.  The other statistical point is that we benchmark in order
  157. to compare machines (two competing new ones, or an upgraded machine and
  158. our old machine) in order to provide objective input to purchasing decisions
  159. and architecture evaluations. If you get 100 machines built with about the
  160. same RISC philosophy, and 1 more machine that is the only superscalar machine
  161. in the group, that one outlying point will not disturb your correlation
  162. appreciably. But, if my purchasing decision comes down to one of the
  163. conventional machines versus that one outlying point, we don't have the
  164. other 99 data points to average in and make the fitted curve almost ignore
  165. the outlier. What we have is a head to head comparison, and the question,
  166. "Should I pay attention to the Dhrystone numbers when comparing these two
  167. machines?"  The answer is a resounding "No."  SPECint92 will be a better
  168. point of comparison because it is composed of real codes, and should have
  169. more realistic characteristics with respect to superscalar scheduling than
  170. the Dhrystone 1.1 code.  You will notice also that the little table of 3
  171. machines in my previous posting, included above, shows its highest ratio
  172. of MIPS to SPECint89 by far on a superscalar IBM RS6000.  When you come
  173. down to an evaluation of 2 or 3 machines, the fact that one of them was
  174. an outlier that did not disturb the regression you mention is not very
  175. comforting to know.  The correlation is, at that point, irrelevant.
  176.  
  177.  
  178. -- 
  179. --------------------------------------------------------------------------
  180. "It is seldom that any liberty is lost all at once." David Hume
  181. |||  clc5q@virginia.edu (Clark L. Coleman)
  182.