home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / bit / listserv / statl / 2304 < prev    next >
Encoding:
Text File  |  1993-01-05  |  3.9 KB  |  74 lines

  1. Comments: Gated by NETNEWS@AUVM.AMERICAN.EDU
  2. Path: sparky!uunet!zaphod.mps.ohio-state.edu!malgudi.oar.net!news.ysu.edu!psuvm!auvm!UNC.BITNET!UPHILG
  3. Message-ID: <STAT-L%93010516070081@VM1.MCGILL.CA>
  4. Newsgroups: bit.listserv.stat-l
  5. Date:         Tue, 5 Jan 1993 13:38:00 EST
  6. Sender:       STATISTICAL CONSULTING <STAT-L@MCGILL1.BITNET>
  7. From:         "Philip Gallagher,(919)966-1065" <UPHILG@UNC.BITNET>
  8. Subject:      Spreadsheet Software for statistical computing
  9. Lines: 63
  10.  
  11.     Dr. Arday wrote that he doesn't believe that the formulae he
  12.     uses from Fleiss and from Kleinbaum, et al., are "wrong", and
  13.     that the professionals who warn against using naive implementations
  14.     of the texbook formulae (in spreadsheet packages) need to
  15.     substantiate their claims.
  16.  
  17.     I think Dr. Arday didn't get the right intelligence (in the military
  18.     sense) from the information in Phil Miller's note.  Perhaps it is
  19.     clearer to say that
  20.         ... the textbook formulae are right, but they give wrong
  21.         answers in many implementations, especially implementations
  22.         on digital computers. ...
  23.  
  24.     Even in hand calculations where one has (in principle!) complete
  25.     control over the number of decimal places, naive implementation
  26.     of the textbook formulae can lead to wrong answers in many
  27.     situations;  one (of which I am sure you are already familiar)
  28.     is when some of the variables range, say, from 1 to 10, and others
  29.     range from 1,000,000,000,000 to 1,000,000,000,010.  Differences
  30.     and proportions (which look great in the closed form formula) can
  31.     cause instant "... can't tell the difference between zero and a
  32.     very small number ..." problems.  In first semester courses one is
  33.     taught to "center and scale" such variables into common ranges
  34.     before hauling out the cookbook formula.
  35.  
  36.     I am not sufficiently versed in the details of statistical computing
  37.     to spell out in detail the horrendously more complex problems one
  38.     encounters in many of the more sophisticated matrix manipulations
  39.     (although I have seen Ron Helms write many of them out on the
  40.     blackboard), but I am sure that someone on the list can point to
  41.     one of the better texts on statistical computing.  Just the
  42.     choice of WHICH matrix decomposition routine to use for a particular
  43.     task often requires a high-powered consult.  (I perceive this as
  44.     a problem quite different from the "approximate" formulae
  45.     Dr. Arday wrote of.)
  46.  
  47.     I close with an inadequate reference to work done by two (or more,
  48.     perhaps) folks in the Washington, D.C., area - one at WESTAT and
  49.     his colleague at ?Census?Labor Statistics? in the early 80s.
  50.     For at least two years in a row (I know, because I attended their
  51.     practice presentations at the Washington Statistical Society) they
  52.     evaluated something like 20-30 "stat packages" for presentation
  53.     at the annual Joint Meetings of the ASA, etc.  For some of the
  54.     ill-conditioned data (see the Longley data in the SAS sample
  55.     library, for example) they found that half the packages couldn't
  56.     achieve even two digits of precision.   Which didn't stop the
  57.     packages from reporting many more, as if they were correct.  One
  58.     of the packages couldn't even get the first digit right.
  59.  
  60.     The lesson here is that, unless one is using carefully chosen
  61.     textbook datasets with low collinearity and "nice" values, the
  62.     implementations of the textbook formulae are not immaterial.
  63.     If an investigator wishes to avoid the work of learning about
  64.     the complexities of statistical computing, then perhaps he or she
  65.     could consider listening to those who have done their years of
  66.     homework.  Hardly anyone can be an expert in everything, after all.
  67.     I suppose this sounds like a flame, although it isn't intended that
  68.     way;  I write only because I feel it would be unprofessional to
  69.     permit misconceptions to go without rebuttal.
  70.  
  71.  
  72.                          Phil Gallagher
  73.                          uphilg@unc
  74.