home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #27 / NN_1992_27.iso / spool / bit / listserv / statl / 2002 < prev    next >
Encoding:
Text File  |  1992-11-17  |  4.4 KB  |  75 lines

  1. Comments: Gated by NETNEWS@AUVM.AMERICAN.EDU
  2. Path: sparky!uunet!stanford.edu!bcm!convex!darwin.sura.net!spool.mu.edu!yale.edu!news.yale.edu!mars.caps.maine.edu!maine.maine.edu!cunyvm!psuvm!auvm!UNC.BITNET!UPHILG
  3. Message-ID: <STAT-L%92111711305709@VM1.MCGILL.CA>
  4. Newsgroups: bit.listserv.stat-l
  5. Date:         Tue, 17 Nov 1992 09:10:00 EST
  6. Sender:       "STATISTICAL CONSULTING" <STAT-L@MCGILL1.BITNET>
  7. From:         "Philip Gallagher,(919)966-1065" <UPHILG@UNC.BITNET>
  8. Subject:      Do assumptions violations mean anything?
  9. Lines: 64
  10.  
  11.     The recent discussion of assumption-violations has reinforced
  12.     my long standing (not very popular) observation that statisticians
  13.     and others attempting to practice statistics often get so
  14.     comfortable with our (valid) jargon and (again valid) knee-jerk
  15.     practices that we gloss over, perhaps even in our own minds, any
  16.     real meaning that our practices may be accessing.  I illustrate
  17.     with a one-way ANOVA.  So we do some kind of test for homo-
  18.     scedasticity;  it fails.  What does that mean?  Not "The data
  19.     violate the assumptions", not really.  What it means is that we
  20.     have one or more cells in which the distribution of the data differs
  21.     from the distribution of the data in other cells.  If that were
  22.     true, what real meaning would an analysis that certifies the cell
  23.     means are not equal have?  Suppose the distribution in one cell
  24.     were highly skewed to the right and another cell to the left,
  25.     but with equal means and equal variances?  It would almost
  26.     certainly be a very unusual set of scientific data indeed where
  27.     the failure of an ANOVA to detect differences in means would
  28.     be the result the scientist wanted to have called to his attention.
  29.     It strikes me that the testing of assumptions is most easily taught
  30.     by showing the students that violation of the assumptions means
  31.     that the distributions differ, but not necessarily in the way that
  32.     the specific procedure (say, ANOVA) is directed at (equality of
  33.     means).  Once the student sees clearly the underlying phenomon
  34.     that leads to an assumption violation it becomes very hard to
  35.     prevent the student from looking for those violations (and in a
  36.     very perceptive way, too).
  37.  
  38.     I have had amazingly good experiences in the last few years by
  39.     encouraging students to "look for systematic characteristics in
  40.     those persons for whom the model does not predict well" rather
  41.     than "examine the residuals".  My first real success along this
  42.     line came after having begged, cajoled, and demanded that a
  43.     osteoporosis student examine the residuals in the model for three
  44.     months and gotten nowhere;  when I said "Well, forget about looking
  45.     at the residuals, just figure out which groups the model doesn't
  46.     fit well" I got the best part of the answer in (gasp!) two hours.
  47.     Two months later over a celebratory drink I flabbergasted the
  48.     student by explaining that she had actually done an analysis of
  49.     the residuals.  (There is success in this world sometimes - this
  50.     person is now faculty at another school, and last month one of her
  51.     students was complaining to me about being forced to examine
  52.     residuals!  Hallelujah!)
  53.  
  54.     The gist of this not extensively edited comment is that we often
  55.     become so entranced by the mathematical aspects of what we are
  56.     doing that we fail to remember that the mathematics (at least
  57.     for statistical analyses) is usually a reflection of some aspect
  58.     of the data that one need not be a statistician to understand.
  59.  
  60.     I conclude with my favorite way of examing the similarity of two
  61.     distributions, attributable to Dana Quade.  One plots the empirical
  62.     distribution of distn1 on the Y-axis against the empirical distribu-
  63.     tion of distn2 on the X-axis.  (When not looking for differences
  64.     in location I center both distributions at zero first).  If the
  65.     distributions are similar, the result will be a straight line (at
  66.     45 degrees if you scale the axes cleverly).  Large differences
  67.     in dispersion result in S-shaped pictures;  the graph is very
  68.     informative, both to the statistician and to the scientist.
  69.     Sometimes this picture makes the differences in the distributions
  70.     so clear that everyone gladly abandons the original intention of
  71.     testing means.  Thank goodness.
  72.  
  73.                               Phil Gallagher
  74.                               uphilg@unc
  75.