home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #18 / NN_1992_18.iso / spool / comp / benchmar / 1308 < prev    next >
Encoding:
Text File  |  1992-08-14  |  5.0 KB  |  107 lines

  1. Newsgroups: comp.benchmarks
  2. Path: sparky!uunet!timbuk.cray.com!walter.cray.com!ferrari!cmg
  3. From: cmg@ferrari.cray.com (Charles Grassl)
  4. Subject: Re: Geometric Mean or Median
  5. Message-ID: <1992Aug14.151245.21649@walter.cray.com>
  6. Reply-To: cmg@magnet.cray.com
  7. Organization: Cray Research, inc.
  8. References: <PRENER.92Aug9220648@prener.watson.ibm.com> <1992Aug12.012620.3441@nosc.mil> <1992Aug12.172209.3108@nas.nasa.gov> <Aug14.142126.38458@yuma.ACNS.ColoState.EDU> <1992Aug14.155857.6561@riacs.edu>
  9. Distribution: comp.benchmarks
  10. Date: 14 Aug 92 15:12:45 CDT
  11. Lines: 94
  12.  
  13. In article <1992Aug14.155857.6561@riacs.edu>, lamaster@pioneer.arc.nasa.gov (Hugh LaMaster) writes:
  14. >In article <Aug14.142126.38458@yuma.ACNS.ColoState.EDU>, shafer@CS.ColoState.EDU (spencer shafer) writes:
  15. >|> 
  16. >|>                               A discussion of this, and an offered proof
  17. >|> of the geometric mean as preferred method is in the March 1986 issue of 
  18. >|> Communications of the ACM, "How Not to Lie With Statistics: The Correct
  19. >|> Way to Summarize Benchmark Results," by Fleming and Wallace.
  20. >
  21. >Yes, and there was a rebuttal to this "proof" in CACM by, I believe,
  22. >J.E. Smith, in October of 1988.  {If I have the reference correct,}
  23. >it is proved that the harmonic mean is the correct measure of rates, 
  24. >if you want to examine a fixed workload and characterize the performance
  25. >on that workload.
  26.  
  27. The references are below:
  28.  
  29. [FL,WA]  Fleming, P.J., Wallace, J.J,  "How Not to Lie With Statistics:
  30.          The Correct Way to Summarize Benchmark results",
  31.          Communications of the ACM, P. 218-221, March, 1986, Volume 29,
  32.          no. 3.
  33.  
  34. [SM]     Smith, J.E., "Characterizing Computer Performance With a Single
  35.          Number", Communications of the ACM, P. 1202-1206, October,
  36.          1988, Volume 31, no. 10.
  37.  
  38. [GU]     Gustafson, J. et. al., "SLALOM", Supercomputing Review, P.
  39.          52-59, July, 1991.
  40.  
  41. In [FL,WA], Fleming and Wallace advocate the use of a geometric mean
  42. for characterizing computer performance based on benchmarks.  In [SM],
  43. Smith advocates the use of a harmonic mean, though he states that "the
  44. most obvious single number performance measure is the total time".  The
  45. total (elapsed) time is not only accurate, but has considerable
  46. intuitive appeal.
  47.  
  48. Neither of the articles, [FL, WAL] or [SM], offer "proofs" in the
  49. mathematical sense.  (If Smith's "proof" is correct, then is Fleming's
  50. and Wallace's "proof" incorrect?)  Why do two articles advocate
  51. different metrics?  The answer lies in the underlying assumptions in
  52. each article.
  53.  
  54. Fleming and Wallace stress the the geometric mean only applies to
  55. normalized performance results.  The assumption that individual results
  56. are normalized leads to the use of the geometric mean.  Smith, in his
  57. article, assumes that "work" is measured by floating point operations
  58. and that these operations are all equivalent pieces of the workload.
  59. This assumption leads to the use of a harmonic mean.
  60.  
  61. The article have two distint and different assumptions:
  62.  1.  Results normalized to a specific machine [FL,WA]
  63.  2.  Work is measured by floating point operations [SM]
  64.  
  65. Some benchmarks fit assumption (1) above.  Some benchmarks fit
  66. assumption (2) above.  Some benchmarks do not fit either assumption.
  67.  
  68. Not all benchmark tests, especially those with a broad range of
  69. performance characteristics, have realistic machines to normalize
  70. against.  For example, a VAX 11/780, which is used for normalization of
  71. the original SPEC benchmarks, is not appropriate for normalizing
  72. performance of large floating point simulations.  We might ask, is the
  73. VAX 11/780 reasonable for calibrating RISC workstations?
  74.  
  75. Not all computer "work" is measured by the number of floating point or
  76. integer operations.  For example, the SLALOM benchmark [GU] does not
  77. have an accurate operation count.  The authors of this benchmark do not
  78. count the number of floating point operations performed, rather, speed
  79. is measured by the number of "patches" covered in one minute of
  80. computation.  Different algorithms have different numbers of
  81. operations, but as long as the same number of patches are computed in
  82. one minute, the speed is judged to be the same.
  83.  
  84. It is the situation, or the constraints, of a particular benchmark with
  85. dictates the proper summarizing statistic.  The table below lists the
  86. interpretation of various means.  (Note that the usual referred to
  87. harmonic mean is often a -uniform- harmonic mean.  Smith, in his
  88. article [SM], emphasizes the the use of weighted harmonic means.)
  89.  
  90. Geometric mean:            A measure of the distance in "performance
  91.                            space" from the reference machine to the
  92.                            tested machine.
  93.  
  94. (Uniform) harmonic mean:   The average performance if all benchmarks
  95.                            were adjusted so that each performed the
  96.                            same number of floating point operations.
  97.  
  98. (Uniform) arithmetic mean: The average performance if all benchmarks
  99.                            were adjusted so that each ran for the
  100.                            same amount of time.
  101.  
  102.  
  103.  
  104. Charles Grassl
  105. Cray Research, Inc.
  106. Eagan, Minnesota  USA
  107.