home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #18 / NN_1992_18.iso / spool / comp / benchmar / 1302 < prev    next >
Encoding:
Internet Message Format  |  1992-08-13  |  5.3 KB

  1. Path: sparky!uunet!sun-barr!ames!uakari.primate.wisc.edu!caen!hellgate.utah.edu!dog.ee.lbl.gov!porpoise!marlin!aburto
  2. From: aburto@nosc.mil (Alfred A. Aburto)
  3. Newsgroups: comp.benchmarks
  4. Subject: Re: Geometric Mean or Median
  5. Message-ID: <1992Aug14.020025.4555@nosc.mil>
  6. Date: 14 Aug 92 02:00:25 GMT
  7. References: <1992Aug9.201016.10008@nosc.mil> <12878@inews.intel.com>
  8. Distribution: comp.benchmarks
  9. Organization: Naval Ocean Systems Center, San Diego
  10. Lines: 97
  11.  
  12. In article <12878@inews.intel.com> jwreilly@mipos2.UUCP (Jeffrey Reilly) writes:
  13.  
  14. >Suppose the optimization to program 5 in case B was a legitimate
  15. >optimization that applied across a class of similar applications? 
  16. >As a vendor, end-user, etc, I would think you would like to see this
  17. >reflected in whatever composite measure is used. I would argue that this
  18. >method appears too insensitive.
  19.  
  20. This is a good question too. The thing is, we want the overall measure 
  21. of performance to be more responsive or representative of the bulk of 
  22. the data. We don't want the overall measure of performance to be biased 
  23. by one or a few extreme outlying data points because they are not 
  24. representative of the bulk of the data, they are low probability 
  25. occuring events (correct or incorrect). You know all this, but that's 
  26. the reason. I believe the Median does this, but it looks like I have 
  27. some explaining to do about the definition of the Median.
  28.  
  29. The next thing we want to do is define some parameters that describe
  30. (indicate, or give us an idea) what is happening at the tails of the
  31. distribution (cumulative distribution) because, as you indicate, this
  32. is where the really interesting things are happening. I would propose
  33. using in addition to the Median the Minimum and Maximum values, or
  34. the 10% and 90% points of the cumulative distribution for example. 
  35. Three numbers is about 'right' I think. If we give alot of different 
  36. measures of performance then people will pick out of that set one or 
  37. a few perhaps that best fit their case for example and not everyone 
  38. will pick the same measures of performance and thus things can get 
  39. confused. We don't want to prevent people from learning more though, 
  40. so in addition we provide (make available) all the raw data so people 
  41. can just go crazy analyzing ever which way and this is 'good' as some 
  42. interesting things are likely to be learned.
  43.  
  44. To arrive at the above in a meaningful way we'll need 'good' validated 
  45. data sets consisting of a sufficient number of samples (program results, 
  46. routine results, kernel results, module results, ..., whatever 
  47. constitutes a data sample). We want to pick enough samples so at least
  48. the cumulative distribution is relatively smooth (no big jumps in the
  49. distribution). I don't know how many samples is required, but I think
  50. that 10 isn't enough. Maybe 25 or 50 might be enough but we'd need to 
  51. figure that out and it can be done. If the fluctuation is too big we 
  52. might consider smoothing (filtering) the data. There are many 
  53. possibilies to handle these problems (a simple binomial filter or 
  54. Savitsky-Golay filter, or ...), but we need a sufficient number of 
  55. validated samples first.
  56.  
  57. >What definition of median are you using?
  58.  
  59. Here is where we've had a problem (as it finally dawned on me). The
  60. median is defined as the 50% point of the cumulative distribution of
  61. samples. This is the definition I have been using, and it is the
  62. preferred way of deriving the Median from a set of samples. With 
  63. small data samples it is subject to error as are all the other 
  64. parameters. If the distribution of samples is not highly skewed you
  65. will find that the Median and Arithmetic Mean are very close or
  66. identical. See Papoulis for example: "Probability, Random Variables,
  67. and Stochastic Processes". 
  68.  
  69. >What do you mean by "reliable"? 
  70.  
  71. It is a measure of performance that is more representative of the
  72. main bulk of data and it is not easily biased by one or a few 
  73. low probability of occurence events (data samples). The Mode might
  74. be even more useful and it can be inferred from the Arithmetic Mean
  75. and Median. Perhaps all these problems might vanish if the sample
  76. size were increased so that we'd get a better picture of the true
  77. distribution.
  78.  
  79. >Regarding current standards, the SPEC metrics (SPECint92, SPECfp92, etc) 
  80. >are DEFINED as being the geometric mean of the appropriate SPEC suites
  81. >SPECratios.
  82.  
  83. Yes, and I think the Median might turn out to be more 'reliable', but 
  84. also we need more data samples to better estimate the true sample
  85. distribution. Also we might want to consider the confidence of our 
  86. estimates, particularly since the goal of deriving measures of 
  87. performance is to compare two or more of them.
  88.  
  89. >What is it they say, "with statistics anything can be proved"? :-) 
  90.  
  91. Yes, numbers can tell lies and we must be careful. 
  92. Statistics is really Ok. The problems happen when we try to make claims
  93. with ill formed data sets --- with samples that do not adequately
  94. describe the true distribution it is certainly true that one can derive
  95. all sorts of wild and meaningless results (all lies).
  96.  
  97. [Comments about references left out]
  98.  
  99. >Jeff Reilly                     | "There is something fascinating about
  100. >Intel Corporation               | science. One gets such wholesale returns
  101. >jwreilly@mipos2.intel.com       | of conjecture out of such a trifling
  102. >(408) 765 - 5909                | investment of fact" - M. Twain
  103. >Disclaimer: All opinions are my own...
  104.  
  105.  
  106. Al Aburto
  107. aburto@marlin.nosc.mil
  108. -------
  109.