home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #18 / NN_1992_18.iso / spool / comp / benchmar / 1330 < prev    next >
Encoding:
Text File  |  1992-08-23  |  5.1 KB  |  97 lines

  1. Newsgroups: comp.benchmarks
  2. Path: sparky!uunet!elroy.jpl.nasa.gov!ames!agate!dog.ee.lbl.gov!porpoise!marlin!aburto
  3. From: aburto@nosc.mil (Alfred A. Aburto)
  4. Subject: Re: Geometric Mean or Median
  5. Message-ID: <1992Aug23.114309.3643@nosc.mil>
  6. Organization: Naval Ocean Systems Center, San Diego
  7. References: <1992Aug12.172209.3108@nas.nasa.gov> <Aug14.142126.38458@yuma.ACNS.ColoState.EDU> <1992Aug20.160352.13856@nas.nasa.gov>
  8. Distribution: comp.benchmarks
  9. Date: Sun, 23 Aug 1992 11:43:09 GMT
  10. Lines: 85
  11.  
  12. In article <1992Aug20.160352.13856@nas.nasa.gov> eugene@wilbur.nas.nasa.gov (Eugene N. Miya) writes:
  13. >>A discussion of this, and an offered proof
  14. >>of the geometric mean as preferred method is in the March 1986 issue of 
  15. >>Communications of the ACM, "How Not to Lie With Statistics: The Correct
  16. >>Way to Summarize Benchmark Results," by Fleming and Wallace.
  17. >
  18. >Personally, I think the "proof" is weak.  Worlton has an earlier, less
  19. >frequently cited paper saying the harmonic mean is the way to go.  The above
  20. >authors didn't do enough literature checking.  If the arithmetic, the geometric,
  21. >and the harmonic mean are all suspect, then don't trust any of them.
  22. >
  23. >--eugene miya, NASA Ames Research Center, eugene@orville.nas.nasa.gov
  24. >  Resident Cynic, Rock of Ages Home for Retired Hackers
  25. >  {uunet,mailrus,other gateways}!ames!eugene
  26. >Second Favorite email message: Returned mail: Cannot send message for 3 days
  27. >Ref: J. Worlton, Benchmarkology, email for additional ref.
  28.  
  29. -------
  30. The thing we need to realize is that 'benchmark' results are random 
  31. numbers :-)
  32.  
  33. If we keep in mind that they are really random numbers, then this might
  34. help avoid some of the typical problems that occur when comparing
  35. 'benchmark' results. It may help us realize that we can not take two
  36. isolated results and compare them since the measurements, and the 
  37. measures of performance (means, medians, ..., etc.) are noisy and 
  38. subject to a generally unknown error.  This is true of the SPEC suite 
  39. just as much as it is true for Dhrystone, Whetstone, Linpack and all 
  40. the rest. The SPEC results, it would appear, are more reliable because 
  41. they consist of the geometric mean of a number of different results. 
  42. However, even the SPEC results will vary, as will any measure of 
  43. performance, when the underlying test parameters change. See SunWorld 
  44. magazine, Mar 1992, pg 48, "SPEC: Odyssey of a benchmark", where 
  45. geometric mean SPECmark ratings of 17.8, 20.0, 20.8, and 25.0 were 
  46. measured on the same machine using different compilers.
  47.  
  48. Well, I agree, since all our measures of performance are error prone,
  49. we must be skeptical when comparing any isolated raw results. And we 
  50. must be careful when comparing mean results without some indication of 
  51. the magnitude of the error involved.
  52.  
  53. I have heard alot of Dhrystone 1.1 bashing in the past. I tried to 
  54. understand just how 'bad' Dhrystone was several years ago (it seems)
  55. by correlating Dhrystone 1.1 results with SPECint89 results. I had  
  56. 20 or so data points to work with. I thought perhaps there would be
  57. little correlation and that Dhrystone really needed to be cast out 
  58. as a measure of performance, because of the greater confidence placed 
  59. in the SPEC results. Instead, they were highly correlated (0.92 
  60. correlation or so).  Well, I had to revise my thinking.  When I 
  61. plotted the results it was clear they were well correlated. There 
  62. were only 2 rather large and obvious differences between the 
  63. Dhrystone 1.1 and SPECint89 results. Dhrystone 1.1 showed a couple of 
  64. big 'spikes' in performance that were not present in the SPECint89 
  65. results (for an HP 68040 and i860 I believe). This result indicated 
  66. Dhrystone 1.1 was probably ok, but one needed a variety of results 
  67. (different systems, compilers, etc) to help filter out those 'spikes' 
  68. which appeared unrealistic of general integer performance as compared 
  69. to SPECint89. Also it showed that it was necessary to base performance 
  70. on a number of different test programs (as in SPEC) instead of just one
  71. program.
  72.  
  73. Even using a number of different test programs might not help make
  74. things more definite.
  75.  
  76. This was really 'brought home to me' recently by the posting and email 
  77. from Frank McMahon regarding the Livermore Loops MFLOPS results. The 
  78. Livermore Loops consists of 72 calculation loops typically found in 
  79. 'big' programs. However, the MFLOPS results can show a huge variation 
  80. in performance with the very fast machines. Frank indicated that the 
  81. NEC SX-3 supercomputer showed a variation in performance from 3 MFLOPS
  82. all the way to 3400 MFLOPS. The results were Poisson distributed. The 
  83. standard deviation was 500 MFLOPS. One wonders about the meaning of 
  84. any one or more measures of performance in this case. It is almost as 
  85. if it is necessary to look at individual cases very carefully instead 
  86. of some mean or median result. That is, I would not want to buy a 
  87. NEC SX-3 supercomputer if it turned out most of the work I'd be doing 
  88. corresponded to the low end performance of that system where a fast 
  89. 68040 or 80486 might do just as well. Whew, what a nasty situation ---
  90. the spread in performance is just too big.
  91.  
  92. Al Aburto
  93. aburto@marlin.nosc.mil
  94. -------
  95.  
  96.  
  97.