home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #19 / NN_1992_19.iso / spool / comp / benchmar / 1346 < prev    next >
Encoding:
Text File  |  1992-08-30  |  9.8 KB  |  198 lines

  1. Newsgroups: comp.benchmarks
  2. Path: sparky!uunet!elroy.jpl.nasa.gov!ames!agate!dog.ee.lbl.gov!porpoise!marlin!aburto
  3. From: aburto@nosc.mil (Alfred A. Aburto)
  4. Subject: Re: Geometric Mean or Median
  5. Message-ID: <1992Aug31.002356.24988@nosc.mil>
  6. Organization: Naval Ocean Systems Center, San Diego
  7. References: <1992Aug20.160352.13856@nas.nasa.gov> <1992Aug23.114309.3643@nosc.mil> <1992Aug26.160240.20114@murdoch.acc.Virginia.EDU>
  8. Distribution: comp.benchmarks
  9. Date: Mon, 31 Aug 1992 00:23:56 GMT
  10. Lines: 186
  11.  
  12.  
  13. In Article <1992Aug26.160240.20114@murdoch.acc.Virginia.EDU>
  14. clc5q@hemlock.cs.Virginia.EDU (Clark L. Coleman) writes:
  15.  
  16. In article <1992Aug23.114309.3643@nosc.mil> 
  17. aburto@nosc.mil (Alfred A. Aburto) writes:
  18.  
  19. >>I have heard alot of Dhrystone 1.1 bashing in the past. I tried to 
  20. >>understand just how 'bad' Dhrystone was several years ago (it seems)
  21. >>by correlating Dhrystone 1.1 results with SPECint89 results. I had  
  22. >>20 or so data points to work with. I thought perhaps there would be
  23. >>little correlation and that Dhrystone really needed to be cast out 
  24. >>as a measure of performance, because of the greater confidence placed 
  25. >>in the SPEC results. Instead, they were highly correlated (0.92 
  26. >>correlation or so).  Well, I had to revise my thinking.
  27.  
  28. >This kind of bogus correlation was debunked long ago by SPEC. As soon as
  29. >more data points are added, the correlation gets worse. Try adding the 
  30. >SparcStation 10 numbers to your test, for example. 
  31.  
  32. I didn't know SPEC had done that. Wish I had been info'd on the results. 
  33. I'm not surprised though, but I'm curious now to see what they did.  
  34. Actually the results (20 different systems I think) were fairly 
  35. representative of various systems available, so I'm curious to see in 
  36. what manner the correlation broke down.
  37.  
  38. One of the problems with 'benchmarking' is the lack of good well 
  39. documented data bases from which to work with.
  40.  
  41. >For that matter, just look at the HP 9000/710 versus the HP 9000/720.
  42. >The only differences in the hardware are the larger caches on the 720.  
  43. >Since the 710 has large enough caches for the Dhrystone code, but not 
  44. >for some SPECint codes, it produces the same Dhrystones as the 720 but 
  45. >significantly lower SPECint.
  46.  
  47. The issue here is cache size. We know that cache size is an important 
  48. factor in performance relative to a programs size (or cache utilization 
  49. size). Dhrystone is a small program and hence produces similar results,
  50. as you say, in small caches as in big caches. Dhrystone is not adequate
  51. to gain an understanding of performance trade-offs relative to cache 
  52. size. Other programs of varying size are needed to understand the 
  53. 'spread' in performance due to cache size relative to program size. We
  54. need to understand the limitations of our test programs and use them
  55. appropriately. It is far (far) from the mark to think that Dhrystone
  56. is the only test program one should use. 
  57.  
  58. SPECint has problems here as well, because there are plently of 'small' 
  59. programs available that will fit in the HP 9000/710 cache which will 
  60. perform just as well as on the HP 9000/720. Yet, as you indicated, the 
  61. SPECint results do not reflect this fact. There are reasons HP built the 
  62. HP 710 and 720. Lower cost might be one of them (I don't know really). 
  63. Perhaps also HP felt that there was a segment of users who would be just 
  64. as happy with the smaller cache in the 710. They really didn't need a 
  65. larger cache. They would take a hit on performance sometimes with their 
  66. larger programs (SPECint type result), but in general the smaller cache 
  67. machine was adequate for their purposes (Dhrystone type result).
  68.  
  69. >Similar poor correlations will be obtained for two different systems
  70. >with very different cache sizes. Compare the HP9000/720 to a smaller
  71. >cache machine like an IBM RS/6000 or Sun SS2. For example, here are some
  72. >Spring, 1991, numbers:
  73. >
  74. >                 SPECint89    Dhrystone 1.1 MIPS      MIPS/SPECint89
  75. >                 ---------    ------------------      --------------
  76. >HP 9000/720       39.0            57                      1.46
  77. >DEC 5000/200      19.0            24.2                    1.27
  78. >IBM RS6000/550    34.5            56                      1.62
  79. >
  80. >If I didn't have SPECint89 numbers, but wanted to derive them from 
  81. >available Dhrystone MIPS numbers, the third column above would indicate 
  82. >that I have a tough job ahead of me.
  83.  
  84.  
  85. But they ARE correlated!  You can see it just by looking at the 
  86. SPECint89 and Dhrystone1.1 numbers. It is incorrect to use the third
  87. column (above) to make any predictions or draw conclusions as it 
  88. consists of ratio's of the raw data (program, 'benchmark', results).
  89. I'll explain below.
  90.  
  91. I sorted the numbers in decreasing order and I added in the nsieve MIPS
  92. results (see the table below). Forget about the individual magnitudes 
  93. because the scaling in each program is different. But look at the 
  94. numbers. They track one another. The step size from one result to the 
  95. next is different but overall the results are tracking fairly well. The 
  96. HP 720 ranks highest for all three program results. The DEC 200 ranks 
  97. lowest for all three program results. The IBM 550 ranks second in all 
  98. three program results. They are all telling the same story and they are 
  99. correlated. To check this qualitative correlation I also calculated the 
  100. mathematical linear correlation coefficient and the result shows that 
  101. they are all highly correlated. Correlation coefficients: SPECint89 to 
  102. Dhyrstone1.1 = 0.982, SPECint89 to nsieve = 0.999, and Dhrystone1.1 to 
  103. nsieve = 0.988.
  104.  
  105.          SPECint89  Dhrystone 1.1 MIPS    nsieve MIPS   
  106.          ---------  ------------------   --------------
  107. HP 9000/720       39.0            57                  50.2
  108. IBM RS6000/550    34.5            56                  43.8 
  109. DEC 5000/200      19.0            24.2                17.0
  110.  
  111. The details though are different. They are different because there is
  112. error in all those measurements. The compilers are not the same. The
  113. compiler options are not the same. The programs and what they do are
  114. all different. Cache size is a factor too. The SPECint89 results are
  115. a geometric mean of 4 programs while the Dhrystone and nsieve are the
  116. mean of none (and thus more susceptable to error). In view of these
  117. errors, it is amazing to me that the results are correlated at all!
  118. But they are most definitely well correlated.
  119.  
  120. Because they are highly correlated doesn't mean you can pick numbers
  121. out of the raw program results above and start making comparisons or 
  122. predictions. It just won't work because there are unaccounted errors 
  123. in each number and between the different programs. Even worse is to
  124. take ratios like the MIPS/SPECint89. If there is error in the MIPS 
  125. result and error in the SPECint89 results then the fractional error 
  126. after the division is even worse than the fractional error in the
  127. original numbers. For example (40 +/- 6) / (20 +/- 3) = 2 +/- 0.6 
  128. (approximately). The fractional error in the original numbers is
  129. 0.15 (15%) but it has doubled to 0.30 (30%) after the division. So
  130. you see that the ratio is an even less reliable number to use for 
  131. comparison or prediction purposes, and particularly so because you were 
  132. using the raw data (program or 'benchmark' results) of which you don't 
  133. even know the error bounds. If you did have the error bounds for the
  134. ratio's then you might have realized that you really could draw no
  135. conclusion at all, and this is another reason why I think we need to
  136. start understanding the errors in our measurements. It will help us
  137. avoid drawing incorrect conclusions.
  138.  
  139. Taking the ratio, MIPS/SPECint89, destroyed the correlation and led you 
  140. to draw an erroneous conclusion about your 6 data samples. I noticed
  141. others using the above type ratio's, but it is simply not correct to
  142. do so.
  143.  
  144. The correct procedure is to take the data samples (benchmark results
  145. which have random errors) and do a correlation. A linear correlation 
  146. worked well so we can go with that. The linear correlation between 
  147. nsieve MIPS and SPECint89 was quite strong at 0.999 so we'll go with 
  148. that. Now we can do a linear least-squares fit to derive a linear 
  149. relationship between the nsieve MIPS and SPECint89 samples we had to
  150. work with. We find the following:
  151.  
  152.         SPECint89 = 8.806 + 0.595 * nsieveMIPS.
  153.  
  154.  
  155.         SPECint89 Predicted    SPECint89      Error
  156.            from nsieve          Measured
  157. HP 9000/720          38.7                 39           -0.3
  158. IBM RS6000/550       34.9                 34.5         +0.4
  159. DEC 5000/200         18.9                 19           -0.1
  160.  
  161. Pretty interesting. Also note that I used the best (peak) values for
  162. the nsieve numbers. This seemed ok since it seems to me people tend
  163. to frequently report peak values for benchmark results anyway.
  164.  
  165. We can do the same thing for the Dhrystone and SPECint89 numbers: 
  166.  
  167.         SPECint89 = 5.571 + 0.5524 * Dhrystone1.1MIPS.
  168.  
  169.  
  170.         SPECint89 Predicted    SPECint89      Error
  171.         from Dhrystone 1.1      Measured
  172. HP 9000/720          37.1                 39           -1.9
  173. IBM RS6000/550       36.5                 34.5         +2.0
  174. DEC 5000/200         18.9                 19           -0.1
  175.  
  176. Not as good as nsieve, but still not bad as the error is less than 6%.
  177.  
  178. Please note that the correlations and relationships established above
  179. are really _only_ valid for the 9 data samples we had to work with. It
  180. would be erroneous to take any other results and throw them into the
  181. equations and think those results were correct. They probably won't be.
  182. We have not done enough work for that. Besides it was already indicated
  183. the correlation breaks down as the sample size increases.
  184.  
  185. My main concern is that we do things correctly. I think that we really
  186. need to start understanding the errors in our measurements (benchmark
  187. results). Until we do I think we are just going to keep making lots of
  188. mistakes, and blantant errors, with those measurements. We are really
  189. on shaky ground when we compare benchmark results and have no idea
  190. of the magnitude of the error in those measurements.
  191.  
  192. Al Aburto
  193. aburto@marlin.nosc.mil
  194.  
  195. -------
  196.  
  197.  
  198.