home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #30 / NN_1992_30.iso / spool / sci / math / numanal / 3615 < prev    next >
Encoding:
Internet Message Format  |  1992-12-16  |  2.8 KB

  1. Xref: sparky sci.math.num-analysis:3615 sci.math.stat:2625 sci.math.symbolic:3301
  2. Newsgroups: sci.math.num-analysis,sci.math.stat,sci.math.symbolic
  3. Path: sparky!uunet!zaphod.mps.ohio-state.edu!cs.utexas.edu!qt.cs.utexas.edu!yale.edu!spool.mu.edu!umn.edu!lynx!nmsu.edu!dante!dclason
  4. From: dclason@dante.nmsu.edu (Dennis Clason)
  5. Subject: Re: mathematica stepwise regression package
  6. Message-ID: <1992Dec16.213059.28461@nmsu.edu>
  7. Keywords: mathematica stepwise regression
  8. Sender: usenet@nmsu.edu
  9. Organization: New Mexico State University, Las Cruces, NM
  10. References: <1446@ares.edsr.eds.com> <mcclella.724399758@yertle.Colorado.EDU> <1992Dec15.083258.1474@lth.se>
  11. Date: Wed, 16 Dec 1992 21:30:59 GMT
  12. Lines: 56
  13.  
  14. In article <1992Dec15.083258.1474@lth.se> andersh@maths.lth.se (Anders Holtsberg) writes:
  15. >
  16. >gary mcclelland mcclella@yertle.colorado.edu:
  17. >>Stepwise regression is a tool of the devil. Anyone smart enough
  18. >>to be using Mathematica ought to be able to decide which
  19. >>questions he or she wants to ask of the data rather than letting
  20. >>a demonstrably suboptimal stepwise algorithm decide which
  21. >>questions to ask.  One day there may be good AI programs for
  22. >>doing statistical analysis, but stepwise regression won't be
  23. >>among them.
  24. >
  25. >You mean what is bad? Let's say we want to make predictions.
  26. >Is the idea of using a subset of the predictors that is bad or
  27. >do you mean the stepwise way to pick them? If the latter: do
  28. >you know any better way (except trying all combinations)?
  29. >
  30.  
  31. Efroymson's stepwise algorithms are bad for any of
  32. a number of reasons.  First, the statistic labelled
  33. "F" is generally a pseudo-F statistic, whose value
  34. CANNOT be reasonably compared to the central F
  35. distribution.  Second, the method tends to converge
  36. to wrong models, and often the model selected
  37. omits important regressors.  In fact, the algorithms
  38. may never even consider the appropriate model (
  39. whatever THAT is.)
  40.  
  41. There are better subset regression algorithms
  42. available.  The most efficient known algorithm
  43. is Furnival and Wilson's Leaps and Bounds, implemented
  44. in BMDP 9R and in the new SAS PROC REG (v. 6.07).
  45. Ron Hocking and Lynn LaMotte did a lot of work in
  46. this area during the 70s.  Hocking's review papers
  47. in Biometrics (around '80 or so) and Tech (around '85?)
  48. are the best starting place for self study in this
  49. area.
  50.  
  51. As a statistical consultant I dread it when a
  52. collaborator comes into my office and says "I've
  53. been running PROC STEPWISE and I've got this
  54. nice regression model. . ."  The only reason
  55. not to run all possible subsets is that it
  56. takes too much resources.  Smart algorithms
  57. cut way down on the resources needed to get
  58. the effect of all possible subsets.  You ought
  59. to use them.
  60.  
  61. Dennis
  62.  
  63. ---
  64. Dennis L. Clason                          dclason@nmsu.edu
  65. Dept of Experimental Statistics             ESTATX08@NMSUVM1.NMSU.EDU
  66. New Mexico State University
  67. Las Cruces, NM 88001
  68.  
  69.  
  70.