home *** CD-ROM | disk | FTP | other *** search
/ Crawly Crypt Collection 1 / crawlyvol1.bin / apps / math / bstat247 / stat3.doc < prev    next >
Text File  |  1991-05-21  |  10KB  |  210 lines

  1.                          STATS 3 MENU
  2.  
  3. REGRESSION
  4. For the tests that follow, all except LOGIT regression have 
  5. similar input and output structures. You will be asked for the 
  6. variables that are the independent variables and for the one 
  7. dependent variable. You will then be asked for the variable 
  8. (column) into which the calculated values should be placed. The 
  9. program does not place the residuals in variable (column) a, as 
  10. this would restrict the number of variables which could actually 
  11. be used in the regression. To get the residuals, simply subtract 
  12. the calculated data from the actual in the data editor. The 
  13. differences lie in additional parts of the regressions.
  14.  
  15. -Multiple regression is a traditional regression. 
  16.  
  17. -Ridge regression will require the entry of a ridge factor, which 
  18. should be small and between 0 and 1 (most often below .2).  -
  19.  
  20. -Stepwise regression is like multiple regression, except that you 
  21. specify all independent variables to be considered. The program 
  22. decides on which of these to actually use in the regression. -
  23.  
  24. -Cochran refers to a regression done using the Cochran-Orcutt 
  25. procedure. A "Cochran" factor of between 0 and 1 must be used. 
  26. This type of regression actually uses a part of the previous point 
  27. in the calculation. If the Cochran factor is 1, then the regression
  28. is actually calculated upon the first differences of  the
  29. variables.
  30.  
  31. -Huber regression is used to reduce the weight given to outliers 
  32. in the data. You will need to specify two additional pieces of 
  33. data. The first is the variable into which the program places the 
  34. weights, and the second is the value of the residual at which the 
  35. weights should start to be changed. This procedure can only be 
  36. used after first doing a traditional regression.
  37.  
  38. -Weighted regression requires you to specify a weight variable 
  39. before execution.
  40.  
  41. -Chow regression is a simple modification of multiple regression. 
  42. It is used to see if the regression parameters are constant over 
  43. the scope of the data variables. You will have to specify the 
  44. number of points to keep in the first sample.
  45.  
  46. -LOGIT regression is used when the dependent variable is to be 
  47. constrained to a value above 0 but below 1. LOGIT setup converts 
  48. unsummarized data to the form required by the regression program. 
  49. (Save original data first!)
  50.  
  51. -PROBIT regression is similar to LOGIT regression. The difference
  52. is the type of curve that is fit to the data. The logit fits a
  53. logistic curve to the data while the probit fits a normal
  54. distribution to the data. Except at the extremes (close to zero or
  55. 1) the difference between the results is very slight. PROBIT setup
  56. converts unsummarized data to the form required by the regression
  57. program. Traditionally, in the probit transform. 5 was added to 
  58. the normal deviate to avoid negative numbers. I have dispensed 
  59. with that addition to simplify the result. I think that in the 
  60. 1990s we all are comfortable with negatives. As a result the 
  61. constant from B/STAT will be 5 lower than from traditional 
  62. packages. 
  63.  
  64. -Non Linear regression refers to a regression where the form is 
  65. not linear in the parameters. In such a case the usual mathematical
  66. procedures do not work. In this case you will be  asked for the
  67. dependent variables, a variable containing standard  errors of the
  68. measured points and a variable to place the results  in. You will
  69. not be asked for the independent variables. Instead  you will be
  70. asked to enter the equation. This equation is of the  form Y=f(X)
  71. except that you will use the column letters ("a" "b"  etc) for the
  72. independent variables. Each parameter that you wish  to estimate
  73. will have the form "PARM1" "PARM2" etc.
  74. If we wanted to estimate "a" and "b" in the following formula
  75.  
  76. Y=a(1-EXP(-bX))
  77.  
  78. we would enter
  79.  
  80. PARM1*(1-EXP(-1*PARM2*a))
  81.  
  82. if the X variable was in column "a" of the spreadsheet.
  83.  
  84. -Principle Components is not actually a regression method at all. 
  85. It is a process used to reduce the number of variables needed to 
  86. explain the variation in the data. The resultant variables are 
  87. orthogonal; that is the correlation between any two variables is 
  88. 0. Regression can often then be carried out against these pseudo-
  89. variables. The process is destructive, in that it wipes out the 
  90. existing variables. Each new one is a linear combination of the 
  91. others.
  92.  
  93. -Correlation matrix shows the correlation between a group of 
  94. variables, rather than doing a full regression. This is often done 
  95. to look at the effects of multi-collinearity on the data.
  96.  
  97. TIME SERIES
  98. These are methods of smoothing or projecting data. They are often 
  99. used in combination with other procedures.
  100.  
  101. -Moving average requires you to choose the variable and the period 
  102. of the moving average. As well, you must select a variable into 
  103. which the averaged variable will be placed.
  104.  
  105. -Geometric moving average requires the same input as linear moving 
  106. average.
  107.  
  108. -Fourier smoothing requires a variable to smooth and a variable to 
  109. place the result. It also asks for the number of terms to be kept 
  110. in the intermediate calculations. This value should be less than 
  111. 50, usually less than 15. There must be no missing data for this 
  112. procedure to work. Note that this can be a slow process.
  113.  
  114. -Brown 1-way exponential smoothing is simple exponential smoothing.
  115. You will be asked to specify the variable to smooth,  and a
  116. variable in which to store the result. In addition, you will  need
  117. a smoothing constant (0 to 1) and a starting value. If you do  not
  118. specify the starting value, the program will generate one.  This
  119. process is not designed for data with a distinct trend line.  If
  120. there is a distinct linear trend, then 2-way exponential  smoothing
  121. should be used.
  122.  
  123. -Brown's 2-way exponential smoothing uses linear regression to 
  124. estimate a starting value and trend. You must estimate the 
  125. smoothing coefficient and variable to smooth, and variable for 
  126. result.
  127.  
  128. -Holt's 2-way exponential smoothing is similar to Brown's, except 
  129. that a separate smoothing coefficient is used for the trend 
  130. factor.
  131.  
  132. -Winter's exponential smoothing is used if there is a seasonal 
  133. aspect to the data (like retail sales which have a December peak). 
  134. You will have to enter 4 quantities. The first is the smoothing 
  135. coefficient for level. The second is for trend. The third is for 
  136. seasonality. The fourth value is the period of seasonality. Note 
  137. that this method should not be used with data fluctuating above 
  138. and below zero. With data that go below zero, add a constant to 
  139. the data to eliminate negative values. Then, after smoothing, 
  140. subtract the constant.
  141.  
  142. Interpolation
  143. B/STAT uses 4 forms of estimating unavailable data.
  144.  
  145. -Simple linear interpolation requires that you simply select the 
  146. variable.
  147.  
  148. -Geometric interpolation. Basically the same as linear 
  149. interpolation except that the assumption is that the points are 
  150. connected by a multiplicitive relationship rather than additive.
  151.  
  152. -Lagrangian interpolation requires two variables: an "X" variable 
  153. and a "Y" variable. There can be no missing "X" variables. This 
  154. can be slow with a large data set, since each point is used in 
  155. estimating missing data.
  156.  
  157. -Cubic splines assumes that the data set in the selected variable 
  158. consists of evenly-spaced observations.
  159.  
  160. EXTRACT
  161. These selections allow you to reduce the size of the data set. The 
  162. first option sums the data. For example, if you want to get yearly 
  163. totals from a data set of monthly data, you can extract summed data 
  164. and reduce the data by a factor of 12. Each element would then be 
  165. a yearly total. In the non-summed case, only every 12th value would 
  166. be left. No summing would be done. This is useful if you want to 
  167. look at subsets in isolation.
  168.  
  169. MISCELLANEOUS
  170. This menu has two procedures, in addition to the usual help 
  171. selection.
  172. -Crosstabs is used to summarize data which contained in two or 
  173. three variables. It produces a count for the combination of values 
  174. in the chosen variables. For example, you may have data on the 
  175. height and weight of a group of army recruits. You could use 
  176. crosstabs to find out the number in each height and weight 
  177. classification, where these could be height in 2-inch increments 
  178. and weight in 5-pound increments. It is most commonly used in 
  179. market research for crosses, such as between age 30 and 34 and 
  180. earning between 20,000 and 30,000 dollars per year.
  181.  
  182. You first select the variables to use in the crosstab. If you 
  183. select two, then a 2-way crosstab is done. If three, then a 3-way 
  184. crosstab is done. Next, you select the break points for the 
  185. classes in each variable. There may be up to 14 breakpoints, 
  186. giving a maximum of 15 classes for each variable. You need only 
  187. type in as many breakpoints as there are in the a specific 
  188. variable, and leave the rest blank. The number of break points can 
  189. be different for each variable. Note that the lower class includes 
  190. the break point value. Thus, a breakpoint of 200 pounds would put 
  191. 200-pound people in the lower class and 200.01 pound people in the 
  192. higher class. The program will print out the results. If you want, 
  193. you may replace the data in memory with the summarized totals. 
  194. This can be quite useful if you then want to perform a Chi square 
  195. test, type 2, on the result to see if there are any significant 
  196. relationships.
  197. One factor crosstabs are available. If you choose only one variable 
  198. then the program will generate a new data matrix composed of 2 
  199. variables only. There will be one entry for each unique value in 
  200. the chosen variable. The second variable will be the number of 
  201. occurrences of that value in the original variable. This is a 
  202. destructive process which erases all original data.
  203.  
  204. -Difference is a rather simple process. The difference of a 
  205. variable is simply the amount of its change from one period to the 
  206. next. Sometimes some procedures will work better on the change in 
  207. a variable rather than the variable itself. This is especially 
  208. true in Box Jenkins analysis. You merely supply the variable to 
  209. difference and the variable into which to place the result.  
  210.