home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #18 / NN_1992_18.iso / spool / sci / math / stat / 1678 < prev    next >
Encoding:
Text File  |  1992-08-17  |  2.9 KB  |  74 lines

  1. Newsgroups: sci.math.stat
  2. Path: sparky!uunet!wupost!sdd.hp.com!caen!destroyer!ais.org!umeecs!umn.edu!thompson
  3. From: thompson@atlas.socsci.umn.edu (T. Scott Thompson)
  4. Subject: Re: Standard Deviation.
  5. Message-ID: <thompson.714070323@daphne.socsci.umn.edu>
  6. Keywords: (n) versus (n-1)
  7. Sender: news@news2.cis.umn.edu (Usenet News Administration)
  8. Nntp-Posting-Host: daphne.socsci.umn.edu
  9. Reply-To: thompson@atlas.socsci.umn.edu
  10. Organization: University of Minnesota
  11. References: <1992Aug14.172833.11844@cbfsb.cb.att.com> <c48nbgtf@csv.warwick.ac.uk>
  12. Date: Mon, 17 Aug 1992 16:52:03 GMT
  13. Lines: 59
  14.  
  15. psrdj@warwick.ac.uk (G M Collis) writes:
  16.  
  17. >What intrigues me is that the most elementary stats texts make a big
  18. >fuss about using n-1 for an unbiased estimate of the variance, but ignore
  19. >the fact that this gives a biased estimate for the SD. I recall
  20. >that n - 1.5 is nearer the target for the SD when the sample is
  21. >from a normally distributed population. I gather that minimising
  22. >the bias when estimating the SD is rather sensitive to the population
  23. >distribution - I'd like to know more about this.  But my big puzzle
  24. >remains - why is the biasedness of the usual SD estimator (with N-1)
  25.                                         ^^^^^ ^^ ^^^^^^^^^  ^^^^^^^^
  26. >so rarely mentioned, in stark contrast to the case of the variance.
  27.  
  28. The lack of mention probably arises because general results are
  29. unavailable due to the dependence on distributional shape that you
  30. mention.  By contrast, distribution-free results for the sample
  31. variance are well known.
  32.  
  33. I assume that you intend
  34.  
  35.    "usual" SD estimate == sqrt("usual" variance estimate)
  36.  
  37. This is biased because (1) the usual (unbiased) variance estimate
  38. is itself random and (2) the sqrt( ) function is nonlinear.  Generally
  39. for any random variable x, if Var[x] > 0 then
  40.  
  41.          E[ sqrt(x) ] < sqrt( E[x] )
  42.  
  43. (due to the concavity of the sqrt( ) function).  Plugging in
  44.  
  45.         x == "usual" variance estimate
  46.  
  47. so that E[x] = population variance, and using
  48.  
  49.         population SD == sqrt( population variance )
  50.  
  51. we get
  52.  
  53.         E[ "usual" SD estimate ] < population SD.
  54.  
  55. That is, the usual estimate is downward biased.  The bias comes from
  56. the fact that the usual variance estimate has some variation around
  57. the true variance.  This variation interacts with the curvature of the
  58. sqrt( ) function to give the bias.  The amount of bias depends on
  59. exactly how the variation in the usual population variance estimator
  60. is distributed around the mean value.  Hence the sensitivity to
  61. distributional assumptions.
  62.  
  63. The factor n - 1.5 may produce better results for the normal
  64. distribution.  I haven't checked.  Keep in mind, that the bias
  65. disappears fairly quickly with increases in sample size.  In fact,
  66. using n - <arbitrary constant> will work just fine for most purposes
  67. provided n is large enough.  This is because
  68.  
  69.      (n-1)/(n-<arbitrary constant>) -> 1
  70.  
  71. as n increases, and also because the variance in the "usual estimate"
  72. decreases with the sample size.
  73.  
  74.