home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #23 / NN_1992_23.iso / spool / sci / math / stat / 2140 < prev    next >
Encoding:
Internet Message Format  |  1992-10-15  |  6.0 KB

  1. Path: sparky!uunet!comp.vuw.ac.nz!waikato.ac.nz!maj
  2. From: maj@waikato.ac.nz
  3. Newsgroups: sci.math.stat
  4. Subject: Robustness
  5. Message-ID: <1992Oct16.084117.11433@waikato.ac.nz>
  6. Date: 16 Oct 92 08:41:17 +1300
  7. Organization: University of Waikato, Hamilton, New Zealand
  8. Lines: 127
  9.  
  10.            I wrote :
  11.            ~~~~~~~~~
  12. Have a look at
  13.  
  14. Staudte & Sheather 'Robust Estimation and Testing' Wiley 1990
  15. Section 3.2.4 pp65-67
  16.  
  17. Hampel, F.R. 'A General Qualitative definition of Robustness'
  18. Ann Math Stat v42, 1887-1896, (1971)
  19. [esp. Theorem 1, p1891]
  20.  
  21. Huber, P.J. 'Robust Statistical Procedures'(1977)  #27 in
  22. CBMS-NSF series.
  23. [esp. Chapter 2 and first part of Ch 3. I prefer this to
  24. the more elaborate treatment in his 1981 book.]
  25.  
  26. [stuff deleted]
  27.                
  28. The discontinuity of the sample mean as a function from a
  29. space of cdfs to the reals poses no real problem to
  30. *applied* statistics because in practice we do not really use
  31. the mean by itself: we actually employ data inspection 
  32. followed by transformations and/or outlier deletion. In reality
  33. the robust perspective is more of a threat to traditional
  34. *mathematical* statistics with its highly developed theory
  35. about the behaviour of relatively simple statistics at
  36. precisely specified models, something that does not really
  37. model modern applied statistical practice in the least.     
  38.  
  39.           Herman Rubin responded [and my riposte is interpolated]:
  40.           ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
  41. This attempt to avoid the problem does not succeed.  Any crass attempt
  42. to delete outliers messes up things but good; in most situations, I am
  43. much more inclined to go along with the long tails than with the total
  44. damage to the analysis which these produce, especially if there are
  45. explanatory variables.
  46.  
  47.            I am not quite sure what is meant by 'going along with' long
  48.            tails. Naturally outlier rejection methodology which potentially
  49.            draws on information about the problem other than that in the
  50.            sample will be difficult to model asymptotically, but it does
  51.            not lose legitimacy because of this. Robust statistics which
  52.            downweight outliers _can_ be studied asymptotically, and
  53.            although rarely used in practice can be thought of as a 
  54.            formalization of existing good applied statistical practice
  55.            based on examination of outlying and influential points.
  56.  
  57.   As for transformations, unless one is looking
  58. only at the distribution of a single random variable, they should NEVER
  59. be used, as they are almost certain to destroy the model. 
  60.  
  61.           So they destroy the model! What do I care? What did the
  62.           model ever do for me? Seriously the model is only a construct
  63.           used to help us understand the data. If we were ever fortunate
  64.           enough to have sample size tending to infinity and disk quota
  65.           doing the same we would inevitably observe fine structure that
  66.           would make us want to refine and elaborate the model. It is
  67.           not the _model_ that is sacrosanct, it is the _data_.
  68.  
  69.           By the way, I seem to remember that Box is not averse to the
  70.           odd transformation.
  71.  
  72.  The observation
  73. that the model is not exactly correct is quite appropriate, but while
  74. it is possible to show that robustness in the sense I have given, which
  75. is a slight extension of the original definition of Box, is quite possible,
  76. robustness in the Huber-Hampel sense is so rare for reasonable models as
  77. to be a fatuity.
  78.  
  79.           I could counter that the use of nonrobust statistics like
  80.           the mean and standard deviation without the removal of
  81.           "obvious errors" [not quoting h.r.] is so rare as to be
  82.           a fatuity.
  83.  
  84. The laws of large numbers are useful robustness theorems.  The Central
  85. Limit Theorem is a robustness theorem.  For regression, the Gauss-Markov
  86. Theorem is a robustness theorem of the important type of practical
  87. situations not covered by the use of continuity.
  88.  
  89.           Sure they are robustness theorems. The only problem with
  90.           them lies in the strength of their hypotheses, not with
  91.           the strength of their conclusions.
  92.  
  93.   Any time that it
  94. is shown that normality is not needed, but that a few moments suffice,
  95. one has a robustness result which is not covered by the Huber-Hampel
  96. definition.
  97.  
  98.           I am not sure that this kind of situation is not covered
  99.           by the H-H definition. Why not define a metric by
  100.  
  101.           $$d_k(F,G)=\mathop{\sup }\limits_{\nu \in \Re }
  102.           \int_{-\infty }^\infty  {|x-\nu |^kd|F-G|}$$
  103.           [OK, OK, OK, the guts of it is the integral of
  104.           abs(x - something)**k w.r.t abs(F-G).]
  105.  
  106.           It seems to me that continuity in this sort of metric for
  107.           k = 2, 3, or 4, say, expresses the kind of robustness that
  108.           Dr Rubin is referring to.
  109.           
  110. The well-known asymptotic properties of maximum likelihood and Bayes
  111. estimates are among this class.  The mean may be the parameter of interest;
  112. there is no Huber-Hampel robust estimator of it.
  113.  
  114. BTW, most simulations assume symmetry.  This is a far stronger assumption
  115. than merely having a few moments.
  116.  
  117.           Symmetry is only a convenience so that comparative simulations
  118.           can be seen to be comparing like with like. Every functional
  119.           statistic is Fisher-consistent for its value at the
  120.           population distribution. Usually it is only a matter of
  121.           convenience what statistic one adopts. For example the
  122.           sign test of the hypothesis that the median of the differences
  123.           is zero is often used as a nonparametric substitute for the
  124.           paired t test.
  125. --
  126. Herman Rubin, Dept. of Statistics, Purdue Univ., West Lafayette
  127. IN47907-1399
  128. Phone: (317)494-6054
  129. hrubin@pop.stat.purdue.edu (Internet, bitnet)
  130. {purdue,pur-ee}!pop.stat!hrubin(UUCP)
  131. -- 
  132. Murray A. Jorgensen [ maj@waikato.ac.nz ]    University of Waikato
  133. Department of Mathematics and Statistics     Hamilton, New Zealand      
  134. __________________________________________________________________
  135. 'Tis the song of the Jubjub! the proof is complete,
  136. if only I've stated it thrice.'
  137.