home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #18 / NN_1992_18.iso / spool / sci / math / stat / 1711 < prev    next >
Encoding:
Text File  |  1992-08-20  |  7.0 KB  |  155 lines

  1. Newsgroups: sci.math.stat
  2. Path: sparky!uunet!wupost!sdd.hp.com!mips!news.cs.indiana.edu!umn.edu!thompson
  3. From: thompson@atlas.socsci.umn.edu (T. Scott Thompson)
  4. Subject: Re: Standard Deviation.
  5. Message-ID: <thompson.714333068@kiyotaki.econ.umn.edu>
  6. Sender: news@news2.cis.umn.edu (Usenet News Administration)
  7. Nntp-Posting-Host: kiyotaki.econ.umn.edu
  8. Reply-To: thompson@atlas.socsci.umn.edu
  9. Organization: University of Minnesota
  10. References: <1992Aug14.172833.11844@cbfsb.cb.att.com> <c48nbgtf@csv.warwick.ac.uk> <WVENABLE.92Aug18180002@algona.stats.adelaide.edu.au> <1992Aug18.214711.6657@mailhost.ocs.mq.edu.au>
  11. Date: Thu, 20 Aug 1992 17:51:08 GMT
  12. Lines: 141
  13.  
  14. wskelly@laurel.ocs.mq.edu.au (William Skelly) writes:
  15.  
  16. >Heeding my previous comment, what the hell is an "orthogonal projection of
  17. >the observation vector onto the residual space?"  I thought the Sum of
  18.  
  19. ---------------------------------------------------------------------------
  20. Note:  (1) A brief lesson on the geometry of a sample mean;
  21.        (2) a warning about interpreting the difference between means;
  22.    and (3) some personal opinions of a philosophical nature
  23.  
  24.  all follow.  Professional statisticians probably want to hit "n" now!
  25. ---------------------------------------------------------------------------
  26.  
  27. Here's how it goes in the simple case of a sample mean.  Think of your
  28. data as a vector in n-dimensional space.  Each observation corresponds
  29. to one of the coordinates.  Call this vector X.
  30.  
  31. Next, think about the line in this n-dimensional space defined by
  32. requiring all components to be equal.  For example, a typical point on
  33. this line would be (m,m,m,...,m,m,m).
  34.  
  35. Next consider the set of all vectors in the space that are
  36. perpendicular to the line.  It is easy to see that this subspace
  37. consists of all vectors whose coordinates sum to zero.  This is the
  38. residual space.  Why it has this name should be clear in a moment.
  39. Call this space E.  It is a linear subspace of dimension n-1.
  40.  
  41. Now since any vector in E is perpendicular (orthogonal) to all vectors
  42. of the form (m,m,m,...,m,m,m), your data vector has a _unique_
  43. representation of the form
  44.  
  45.             X = (m,m,m,...,m,m,m) + e.
  46.  
  47. That is, there is a unique value of m and a unique vector e in E that
  48. satisfy this equation.  (Notice that because we have placed no
  49. restrictions on X this same statement is true for _any_ vector in the
  50. n-dimensional space.)  It is easy to work out that the value of m that
  51. does the trick is m = <sample mean>, and the vector e that does the
  52. trick is the vector of residuals obtained by subtracting <sample mean>
  53. from each element of X.
  54.  
  55. Furthermore, it is easy to calculate that among all points in E, this
  56. residual vector is the one that is closest to X.  (This is why we call it
  57. the projection of X onto E).
  58.  
  59. >the observation vector onto the residual space?"  I thought the Sum of
  60. >Squares was just that, x_1^2 + x_2^2 + ....?
  61.  
  62. The length of the residual vector is (the square root of)
  63.  
  64.       (x_1 - <sample mean>)^2 + ... + (x_n - <sample mean>)^2
  65.  
  66. which is the sum of squared _residuals_.  It is this sum of squares to
  67. which the original comment applied.
  68.  
  69. Here is a very crude representation of the above in the case where n = 2.
  70. Note that all angles should be right angles but probably won't be on 
  71. your terminal display!
  72.  
  73.    E (should be orthogonal to the line)
  74.    |
  75.    |                      /
  76.    |                    /  <--- line consisting of all points of the
  77. \  v                  /         form (m,m,m,...,m,m,m)
  78.   \                 /
  79.     \            ./  <--- point all of whose coordinates equal the
  80.       \         /  \      sample mean.
  81.         \     /      \
  82. Origin->  \./          \
  83.           /^\            \
  84.         /     \            \X
  85.       /         \          /
  86.     /             \      /
  87.   /                 \  /
  88. /                    e\
  89.                         \
  90.  
  91. If n = 3 then E becomes a plane in three dimensional space; if n = 4
  92. then E becomes a three dimensional subset of four-dimensional space;
  93. etc.
  94.  
  95. >I am not sure I follow you.  From my applications I only want to test
  96. >some null-hypothesis (perhaps a narrow application...but very useful!).
  97. >Generally I want to know if two samples are from the same population.
  98. >Isn't this just asking whether or not the two sample means are close?
  99.  
  100. No!  A population is a distribution of values.  Two populations can be
  101. very different yet have the same mean.  Conversely, two populations
  102. can have almost identical distributions (in the sense of having
  103. similar histograms or probability density functions, for example) and
  104. yet have means that are arbitrarily far apart.
  105.  
  106. Asking whether or not two sample means are close is _not_ the same as
  107. asking if the two samples were drawn from the same population.
  108.  
  109. >Is "estimation" part of inferential or descriptive statistical anlysis
  110. >(serious question)?
  111.  
  112. My first reaction is to say "yes" for the inferential part and "no"
  113. for the descriptive part.  These reactions are based (respectively) on
  114. the obvious points that (i) inference is often based on parameter
  115. estimates, and (ii) you must have something to estimate before you can
  116. talk about estimation.
  117.  
  118. On further reflection, however, I don't think that the answers are so
  119. clear.  Perhaps "sometimes" and "sometimes" would be better.
  120.  
  121. One of my professors once said something like: "Every statistic is a
  122. good estimator of something."  By which, he of course meant that we
  123. can always _define_ our object of investigation / inference to be
  124. whatever feature of a sampling distribution that statistic happens to
  125. inform us about.  In this sense "estimation" is a legitimate part of
  126. descriptive statistical analysis, simply because we can always broaden
  127. the definition of "parameter" so that _all_ statistics are estimators.
  128.  
  129. On the other hand, a set of statistics that are not sufficient may be
  130. perfectly legitimate estimators of some parameters, yet not be
  131. terribly useful for certain inferential problems (for example some
  132. Bayesian decision problems).  Thus a set of statistics may permit
  133. estimates of all model parameters to be calculated, and nevertheless
  134. be inadequate for solving other inferential problems.
  135.  
  136. >although I'm always looking for a better book.  The problem is that any
  137. >paper you read states that there is some assumption of "biasedness/
  138. >unbiasedness" in the methods used.  Therefore, it is important to know
  139. >and understand what these terms mean, or are you implying that such
  140. >assumptions need not be stated because they are unimportant?
  141.  
  142. The point is that unbiasedness is not a very useful property and bias
  143. is not necessarily bad.  One can have unbiased estimates that are not
  144. very informative because they have so much variability, and one can
  145. have biased estimates that are very good because the variability and
  146. bias are both small.  One cannot decide whether or not an estimator is
  147. any good simply by looking at it's bias.
  148.  
  149. "All other things equal" I suppose we would all like unbiased
  150. estimators.  Unfortunately, all other things are rarely equal.
  151.  
  152. T. Scott Thompson                 thompson@atlas.socsci.umn.edu
  153. Department of Economics
  154. University of Minnesota
  155.