home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #23 / NN_1992_23.iso / spool / sci / math / stat / 2107 < prev    next >
Encoding:
Internet Message Format  |  1992-10-11  |  5.6 KB

  1. Path: sparky!uunet!mcsun!Germany.EU.net!math.fu-berlin.de!Sirius.dfn.de!darwin.sura.net!gatech!purdue!mentor.cc.purdue.edu!pop.stat.purdue.edu!hrubin
  2. From: hrubin@pop.stat.purdue.edu (Herman Rubin)
  3. Newsgroups: sci.math.stat
  4. Subject: Re: robust location estimators
  5. Message-ID: <Bvyytu.KCq@mentor.cc.purdue.edu>
  6. Date: 11 Oct 92 18:17:53 GMT
  7. References: <BvGFAu.GEv@mentor.cc.purdue.edu> <1992Oct2.084819.11178@waikato.ac.nz> <1992Oct11.121834.11351@waikato.ac.nz>
  8. Sender: news@mentor.cc.purdue.edu (USENET News)
  9. Organization: Purdue University Statistics Department
  10. Lines: 114
  11.  
  12. In article <1992Oct11.121834.11351@waikato.ac.nz> maj@waikato.ac.nz writes:
  13. >In article <1992Oct2.084819.11178@waikato.ac.nz>, maj@waikato.ac.nz writes:
  14. >> In article <BvGFAu.GEv@mentor.cc.purdue.edu>, hrubin@pop.stat.purdue.edu (Herman Rubin) writes:
  15.  
  16.  
  17. >> [stuff and quotes deleted]
  18.  
  19. >>> Robustness cannot be defined in a formal manner to be a precise concept.
  20. >>> The definition I like is
  21.  
  22. >>>     The robustness of a procedure is the extent to which its 
  23. >>>     properties do not depend on those assumptions which one
  24. >>>     does not wish to make.
  25.  
  26. >> This is a good definition of what one wants, but I dispute that
  27. >> robustness cannot be given a formal definition. I'll try:
  28.  
  29. >>    A statistical functional is robust iff it is continuous.
  30.  
  31. >> Continuous in what topology?   you may ask. *That* I wont answer,
  32. >> that's were the vagueness of the concept comes in.
  33.  
  34.  
  35. >An email correspondence with Peter Hamer leads me to think that I was perhaps a
  36. >little on the terse side in my earlier posting, he writes:
  37.  
  38. >      >       Take the distance between two cdfs F and G to
  39. >      >       be given by, say, the sup norm.
  40.  
  41. >      >       It is easy to see that within any epsilon of
  42. >      >       F there are distributions with arbitrarily
  43. >      >       different mean.
  44.  
  45. >      I don't know how you intended this to be interpreted. I seems
  46. >      very much like saying that applied statistics is impossible;
  47. >      as no real data is *known* to come from a precisely specified
  48. >      distribution.
  49.  
  50. >      All applied statistical procedures must be applicable to distributions
  51. >      `close to' the one nominally assumed, and you seem to be saying that
  52. >      this is impossible.
  53.  
  54. >[My reply may be of interest to other readers of this group.]
  55.  
  56. >Rather than try to persuade you about the correctness of my
  57. >remarks I have looked up a few references. Have a look at
  58.  
  59. >Staudte & Sheather 'Robust Estimation and Testing' Wiley 1990
  60. >Section 3.2.4 pp65-67
  61.  
  62. >Hampel, F.R. 'A General Qualitative definition of Robustness'
  63. >Ann Math Stat v42, 1887-1896, (1971)
  64. >[esp. Theorem 1, p1891]
  65.  
  66. >Huber, P.J. 'Robust Statistical Procedures'(1977)  #27 in
  67. >CBMS-NSF series.
  68. >[esp. Chapter 2 and first part of Ch 3. I prefer this to
  69. >the more elaborate treatment in his 1981 book.]
  70.  
  71. >Huber and Hampel work in the full generality with statistics
  72. >understood as sequences of functionals. However the main
  73. >points are unchanged and more easily understood by considering
  74. >only functionals.
  75.  
  76. >Example: the divisor n-1 standard deviation can be represented
  77. >         as a sequence of functionals, one for each sample
  78. >                  size.
  79. >                  The divisor n standard deviation can be represented
  80. >                  as a single functional with no need to involve
  81. >                  sample size.
  82.  
  83. >The discontinuity of the sample mean as a function from a
  84. >space of cdfs to the reals poses no real problem to
  85. >*applied* statistics because in practice we do not really use
  86. >the mean by itself: we actually employ data inspection 
  87. >followed by transformations and/or outlier deletion. In reality
  88. >the robust perspective is more of a threat to traditional
  89. >*mathematical* statistics with its highly developed theory
  90. >about the behaviour of relatively simple statistics at
  91. >precisely specified models, something that does not really
  92. >model modern applied statistical practice in the least.            
  93.  
  94. This attempt to avoid the problem does not succeed.  Any crass attempt
  95. to delete outliers messes up things but good; in most situations, I am
  96. much more inclined to go along with the long tails than with the total
  97. damage to the analysis which these produce, especially if there are
  98. explanatory variables.  As for transformations, unless one is looking
  99. only at the distribution of a single random variable, they should NEVER
  100. be used, as they are almost certain to destroy the model.  The observation
  101. that the model is not exactly correct is quite appropriate, but while 
  102. it is possible to show that robustness in the sense I have given, which
  103. is a slight extension of the original definition of Box, is quite possible,
  104. robustness in the Huber-Hampel sense is so rare for reasonable models as
  105. to be a fatuity.
  106.  
  107. The laws of large numbers are useful robustness theorems.  The Central
  108. Limit Theorem is a robustness theorem.  For regression, the Gauss-Markov
  109. Theorem is a robustness theorem of the important type of practical
  110. situations not covered by the use of continuity.  Any time that it
  111. is shown that normality is not needed, but that a few moments suffice,
  112. one has a robustness result which is not covered by the Huber-Hempel
  113. definition.  
  114.  
  115. The well-known asymptotic properties of maximum likelihood and Bayes
  116. estimates are among this class.  The mean may be the parameter of interest;
  117. there is no Huber-Hampel robust estimator of it.
  118.  
  119. BTW, most simulations assume symmetry.  This is a far stronger assumption 
  120. than merely having a few moments.  
  121. -- 
  122. Herman Rubin, Dept. of Statistics, Purdue Univ., West Lafayette IN47907-1399
  123. Phone: (317)494-6054
  124. hrubin@pop.stat.purdue.edu (Internet, bitnet)  
  125. {purdue,pur-ee}!pop.stat!hrubin(UUCP)
  126.