home *** CD-ROM | disk | FTP | other *** search
/ Best Objectech Shareware Selections / UNTITLED.iso / boss / educ / math / 023 / sample.txt < prev    next >
Encoding:
Text File  |  1990-05-16  |  8.7 KB  |  183 lines

  1.           3 Sample Pages from Langley's "UNDERSTANDING EASY-STATS".
  2.        Best print 12 characters/inch (Elite) with 1 inch left margin.
  3. -------------------------------------------------------------------------------
  4.                                                            ANOVA 1-Way
  5. But how could "small" or "big" be assessed objectively?  Fisher saw that since 
  6. the variance of means is defined by Var(XBAR) =  Var(X) / n, cross-multiplying 
  7. Var(XBAR) by n will give another statistic which will be an UNBIASED ESTIMATOR 
  8. OF THE POPULATION VARIANCE.  He called this the BETWEEN-SAMPLES MEAN SQUARE ---
  9.  
  10.                 MS_between =  SS_between / df_between
  11.  
  12. where  SS_between  =  n *  Σ (XBAR_i - XDOUBLEBAR)²,
  13.   &    df_between  =  g - 1.
  14.  
  15.  
  16. F TEST
  17. ------
  18. It is important to realize that Between and Within MS's are INDEPENDENT of one 
  19. another.  The spread between means needn't affect the spread within samples, 
  20. and vice versa.  This fact permitted the development of the F TEST to compare 
  21. these 2 estimates of some σ² (common to the populations from which the sample 
  22. have been drawn), using the famous formula ---
  23.  
  24.                 F(df_betw, df_within)  =  MS_betw / MS_within
  25.  
  26. which tests ---
  27.                 H0:  σ²_between = σ²_within
  28.                 H1:  σ²_between > σ²_within          (1-tail)
  29.  
  30. Note (1): These hypotheses are exactly equivalent to those expressed in terms
  31.           of µ_i, at the top of this section.
  32. Note (2): This is a 1-tail test because σ²_between must be abnormally large if
  33.           there is a real difference between the population means.  σ²_between
  34.           can only become very small if the means are very close together.
  35. Note (3): F Tables for interpreting the variance ratio values only show the
  36.           right hand tail (F values > 1), since ANOVA is their main use.
  37.              [See VARIANCE RATIO TEST for their use as 2-tailed tests.]
  38. Note (4): Big values of F are produced by much spread between sample means, 
  39.           and will reject H0. 
  40. Note (5): Values of F < 1 occur if the sample means are closer together than
  41.           expected with random sampling.  This will happen sometimes by chance
  42.           when H0 is true.  But don't guess.  See the "F TABLES" notes herein
  43.           for how to find its probability --- if P > 5% accept H0, otherwise
  44.           suspect some violation of assumptions such as non-random sampling or
  45.           unequal population variances.    [Ref: Bennett & Franklin 7.25]
  46. Note (6): See ANOVA ASSUMPTIONS, which tells when you can trust this F Test. 
  47.  
  48.  
  49. TOTAL MEAN SQUARE
  50. -----------------
  51. A third variance can also be computed from multiple samples, namely, the TOTAL 
  52. MEAN SQUARE.  This is a measure of the spread of all the sampled measurements 
  53. around their grand mean ---
  54.  
  55.                 MS_total =  SS_total / df_total
  56.  
  57. where  SS_total =  Σ (X - XDOUBLEBAR)²,
  58.   &    df_total =  N - 1,
  59.   &    N  = Σn_i = total number of measurements in all g samples.
  60.  
  61. All these SS's, df's, and MS's are displayed in an ANOVA TABLE, together with 
  62. the F Test.  The MS_total is not independent of the other two MS's, so isn't 
  63. used for testing these hypotheses.
  64. -------------------------------------------------------------------------------
  65.  
  66.  
  67. UNDERSTANDING EASY-STATS                         CORRELATION, Grouped Data
  68.  
  69. A scattergram of these figures would be like this ---
  70.  
  71. Aggression Score    50+
  72.       Y               |                               o
  73.                     40+               o
  74.                       |                               o
  75.                     30+               2
  76.                       |
  77.                     20+       o
  78.                       |       o
  79.                     10+-------+-------+-------+-------+ 
  80.                       0       1       2       3       4
  81.                                 Birth Order, X
  82.  
  83. To get Pearson's r, you could enter these pairs into CORRELATIONS (VARIOUS), 
  84. but it will be quicker, and you'll get a LINEARITY TEST of the relationship, 
  85. if you use our REGROUP program to regroup the pairs by the X-variable, then 
  86. look on X as a sample ID, and enter the Y-values into the 1-WAY ANOVA program,
  87. thus ---    Sample #       Scores
  88.                1           20  15
  89.                2           39  28  29
  90.                4           46  37
  91.  
  92. Choose a Weighted Means Analysis, and when asked ---
  93. "Are the levels of Factor `A' Quantitative?"   - answer Y for yes, then
  94. "Enter `E' if Equally spaced, otherwise enter their 3 values in free format:"
  95. - enter 1 2 4 to suit the present case.
  96.  
  97. For a more detailed analysis of relationships with repeated X's, use our 
  98. REGRESSION program.
  99.  
  100.  
  101.  
  102.                              CORRELATION, PARTIAL
  103.                             ----------------------
  104.  
  105. "Partialling" was introduced by Yule (1897) to correct an observed correlation 
  106. between 2 variables for the disturbing influence of other variables (which are 
  107. then said to be "partialled out" of the main correlation).
  108.  
  109. E.g. the correlation between reading and writing computed from a random sample 
  110. of children of various ages could be wrong because the relationship may depend 
  111. in part on age.  Instead of restricting the sample to children of the same age 
  112. ("experimental control"), we can statistically "partial out" the effect of age 
  113. on the reading and writing scores.  This could be done by using each child's 
  114. reading and writing DEVIATE SCORE from the mean of his/her age group.  The 
  115. unadulterated correlation could then be obtained by correlating these deviate 
  116. scores, from which the influence of age has been purged.  In practice, 
  117. alternative formulations, based on the correlations between all possible pairs 
  118. of variables, are used.  The net result will be AS THOUGH the childrens' ages 
  119. had been constant in the sample.
  120. -------------------------------------------------------------------------------
  121.  
  122.  
  123. UNDERSTANDING EASY-STATS                         NON-PARAMETRIC TESTS
  124.  
  125. It must be stressed that parametric tests (e.g. Student's t) have been 
  126. formulated to apply to random samples from populations with certain 
  127. characteristics (e.g. Normal Distribution).  You must not expect them to give 
  128. true answers if applied to data from populations which don't conform to such 
  129. specifications (e.g. if the population is Lognormal when a test assumes a 
  130. symmetrical distribution).  Don't take this too lightly --- it is my 
  131. experience that about 50% of biological measurements are Lognormal.
  132.  
  133. Non-parametric tests are generally safe to use when analysing measurements and 
  134. you're not sure about their scale &/or population features.  Accordingly, they 
  135. have much to recommend for novices.  But let's face it, if the assumptions for 
  136. a parametric test are met, the use of a parametric test will usually give a 
  137. somewhat stronger test (i.e. smaller P-values) than a non-parametric 
  138. alternative.  And furthermore, the mathematical restrictions of ranks and 
  139. counts is why they cannot be used for sophisticated analyses like ANCOVA or 
  140. multiple regression.                               [Ref: Bradley Chap 2]
  141.  
  142.  
  143.  
  144.                                 NORMALITY TESTS
  145.                                -----------------
  146.  
  147. The EASY-STATS Descriptive Statistics provides the following tests to 
  148. assess whether your sample measurements are likely to derive from a Normally 
  149. Distributed population or not ---
  150.      HISTOGRAM of Z SCORES.
  151.      THOMPSON & GRUBBS' TEST [see OUTLIERS].
  152.      SKEWNESS COEFFICIENT & KURTOSIS COEFFICIENT.
  153.      RANGE/SD RATIO [see OUTLIERS].
  154. Other programs in this package also use these tests when appropriate.
  155.  
  156.  
  157.  
  158.                                   ODDS RATIO
  159.                                  ------------
  160.                          See ASSOCIATION, STRENGTH OF.
  161.  
  162.  
  163.  
  164.                                    OUTLIERS
  165.                                   ----------
  166.  
  167. Outliers are measurements which differ considerably from the rest of the 
  168. values in your sample.  Outliers may be extreme-but-valid members of the 
  169. parent population (in which case discarding them would bias results), or they 
  170. may be truly illegal values (in which case results will be biased unless you 
  171. do discard them).
  172.  
  173. If the smallest or largest value in the sample can be traced to a clerical or 
  174. instrumental error, discard it and re-test the remaining values.  If the 
  175. parent population is expected to have a Normal Distribution, outliers should 
  176. be detected by any NORMALITY TEST (e.g. below), though these tests vary in the 
  177. features to which they are most sensitive.
  178.  
  179. However, if you are unsure about the distribution the parent population, you 
  180. should analyse the data WITH and WITHOUT the suspect outlier (and discard the 
  181. whole sample and start afresh if the outcomes differ importantly --- you 
  182. mustn't trust a conclusion hanging on 1 suspicious value). [Ref: Kruskal 1960]
  183.