home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #19 / NN_1992_19.iso / spool / comp / benchmar / 1342 < prev    next >
Encoding:
Internet Message Format  |  1992-08-30  |  5.1 KB

  1. Path: sparky!uunet!convex!darwin.sura.net!sgiblab!swrinde!elroy.jpl.nasa.gov!ames!agate!dog.ee.lbl.gov!porpoise!marlin!aburto
  2. From: aburto@nosc.mil (Alfred A. Aburto)
  3. Newsgroups: comp.benchmarks
  4. Subject: Re: Geometric Mean or Median
  5. Message-ID: <1992Aug30.022440.1857@nosc.mil>
  6. Date: 30 Aug 92 02:24:40 GMT
  7. References: <1992Aug20.160352.13856@nas.nasa.gov> <1992Aug23.114309.3643@nosc.mil> <1992Aug26.160240.20114@murdoch.acc.Virginia.EDU>
  8. Distribution: comp.benchmarks
  9. Organization: Naval Ocean Systems Center, San Diego
  10. Lines: 84
  11.  
  12. In article <1992Aug26.160240.20114@murdoch.acc.Virginia.EDU> clc5q@hemlock.cs.Virginia.EDU (Clark L. Coleman) writes:
  13. >In article <1992Aug23.114309.3643@nosc.mil> aburto@nosc.mil (Alfred A. Aburto) writes:
  14.  
  15. In article <1992Aug23.114309.3643@nosc.mil> 
  16. aburto@nosc.mil (Alfred A. Aburto) writes:
  17.  
  18. >>However, even the SPEC results will vary, as will any measure of 
  19. >>performance, when the underlying test parameters change. See SunWorld 
  20. >>magazine, Mar 1992, pg 48, "SPEC: Odyssey of a benchmark", where 
  21. >>geometric mean SPECmark ratings of 17.8, 20.0, 20.8, and 25.0 were 
  22. >>measured on the same machine using different compilers.
  23.  
  24. >This is given as an example of "noisiness" or "error proneness" in SPEC,
  25. >but SPEC was intended to measure the SYSTEM, including the compilers. If
  26. >one vendor has better compilers than another, it matters to the end users.
  27. >Conversely, trying to benchmark the raw hardware in some way that filters
  28. >out compiler differences would not be interesting to people who have to
  29. >purchase the systems and use the compilers, not just the hardware.
  30.  
  31. It was given as an example of the need to show (indicate) the 'spread' in 
  32. the results. There is not just ONE result, there are numerous results,
  33. depending upon many parameters that are difficult to control. The vendors
  34. system may get one result (25.0), but the users system may get an entirely 
  35. different result. In the SunWorld article, even after alot of trouble, 
  36. they were unable to duplicate the vendors result (25.0). They finally 
  37. settled on 20.8 as the best they could do and left it at that. I'm saying 
  38. that unnecessary troubles may have been avoided if the vendor had said 
  39. instead something like: "this system has a rating of 21.0 +/- 4.0, and 
  40. you'll achieve peak performance of approximately 25.0 by use of this 
  41. compiler with these options, and 17.0 with this other compiler with 
  42. these options." Or some simple statement such as that, using perhaps 
  43. more appropriately the Maximum and Minimum results instead of the 
  44. standard deviation or RMS error. It would have avoided unnecessary 
  45. problems and been more informative overall. I don't want to hide any 
  46. information at all. I'm trying to say that we need to bring out more 
  47. information in the hope that it will avoid the type of problems 
  48. discussed in the SunWorld article. I'm not claiming to know exactly how 
  49. to rectify this situation. I'm just saying there appears to be a need to 
  50. do it. 
  51.  
  52. Of course the 'spread' (or 'error' if you will) in performance due to
  53. different compilers and compiler options is only one aspect of the
  54. problem. Different types of programs produce different results and there 
  55. is a spread in performance there too. Program size and memory usage, main 
  56. memory speed, cache type, cache size, ..., etc. all produce a spread in 
  57. performance. The overall spread is considerable, and this is why system
  58. testing is so difficult.
  59.  
  60. With regards to 'filtering' I was thinking of the need to 'filter' the 
  61. extreme data points. One learns about these extreme values by having 
  62. other similar _program_ results for comparison. This 'filtering' aspect 
  63. was not intended so much for a particular compiler result, but for a 
  64. particular program result. If program 'A' produces an order of magnitude 
  65. 'better' result than 9 other _similar_ programs for a particular system 
  66. (compiler included) then I feel a need to do something about program 'A'. 
  67. At least I'd become very interested in program 'A' and try to figure 
  68. out why it produces results so different from the other programs. 
  69. Filtering is an option when a few of the system results for program 
  70. 'A' show extreme outliers compared to other program results on the 
  71. same system (compiler included as part of the system). Its just an
  72. option as one might not want to throw all the program 'A' results out 
  73. due to a few 'abnormal' results (due to extreme optimization for 
  74. example on 1 out 'M' programs and on a few out 'N' systems). Its just
  75. an option and there are certainly many cases where one would not want
  76. to filter at all. It depends on the data.
  77.  
  78. >The only real question in my mind about SPEC's approach is allowing 
  79. >vendors to use different compiler switch settings for each individual 
  80. >benchmark, if it produces better numbers. I don't think many users can 
  81. >compile every program that many different times and run timing tests on 
  82. >each one.
  83.  
  84. This is a good point. 
  85. On the other hand one cannot fault vendors in trying to achieve the 
  86. optimum performance in each individual case, but unfortunately, as you
  87. say, this makes it tough on the users trying to figure out what are the
  88. best options to use for their own particular programs.
  89.  
  90. [more to follow]
  91.  
  92. Al Aburto
  93. aburto@marlin.nosc.mil
  94.  
  95. -------
  96.