home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #30 / NN_1992_30.iso / spool / sci / math / stat / 2644 < prev    next >
Encoding:
Internet Message Format  |  1992-12-21  |  2.9 KB

  1. Path: sparky!uunet!zaphod.mps.ohio-state.edu!usc!cs.utexas.edu!qt.cs.utexas.edu!yale.edu!spool.mu.edu!olivea!mintaka.lcs.mit.edu!mintaka!cthombor
  2. From: cthombor@theory.lcs.mit.edu (Clark D. Thomborson)
  3. Newsgroups: sci.math.stat
  4. Subject: Re: Robust chi-squared routine?
  5. Message-ID: <CTHOMBOR.92Dec18122658@tern.lcs.mit.edu>
  6. Date: 18 Dec 92 17:26:58 GMT
  7. References: <1g8evvINNqc0@network.ucsd.edu>
  8. Sender: news@mintaka.lcs.mit.edu
  9. Organization: MIT Lab for Computer Science
  10. Lines: 52
  11. In-Reply-To: mbk@gibbs.ucsd.edu's message of 10 Dec 92 22:05:51 GMT
  12.  
  13.  
  14.    From: mbk@gibbs.ucsd.edu (Matt Kennel)
  15.  
  16.    Is a chisquared test appropriate for a situation where the
  17.    number of bins is very large, but the expected value per bin is
  18.    quite a bit smaller than 1?
  19.  
  20. Funny you should ask.  I have an as-yet-unpublished manuscript on this
  21. very subject (which arose for me in the context of testing the output
  22. of various pseudorandom number generators), available by anonymous ftp
  23. from theory.lcs.mit.edu, directory pub/cthombor/Mrandom.
  24.  
  25. The "short answer" to your question is that the Pearson statistic is
  26. useful for testing goodness-of-fit to a symmetric multinomial if n >
  27. 3\sqrt{k}, but you can't use the standard chi-squared tables safely in
  28. this range.  The "discretization errors" are large, even near the
  29. mean, unless (by the rule of thumb given in most textbooks)
  30.       n > 5k
  31. and (as is not disclosed in any textbook presentation, to my knowledge)
  32.       k > 5
  33. On the extreme upper tail, you're in trouble for any n and k.  The
  34. non-symmetric case looks hopelessly complicated for any approach other
  35. than "enumeration" of the relevant terms in the multinomial.
  36. Furthermore, if there are large variations in cell probabilities, then
  37. the Pearson statistic is pretty awful.  As long as you're enumerating,
  38. you might as well just calculate the exact tail probability....
  39.  
  40. I still haven't figured out where to publish this stuff.  It was
  41. rejected by the SODA conference.  Now I'm thinking about Interface
  42. '93.  However, this conference seems to be dominated by applied
  43. statisticians who want to learn how to use computers more effectively.
  44. I don't think any mathematical statisticians are likely to attend, but
  45. then again, I've not yet found any mathematical statistician who is
  46. willing to think about "fixing up" that horrid old Pearson test.  The
  47. usual response is that I should think about the likelihood ratio
  48. statistic if I (shudder) really am sure I want to do a hypothesis
  49. test.  In response, I've been digging into the Bayesian-frequentist
  50. controversy, and I think I have a novel "compromise" between these
  51. styles of reasoning.  If you're interested in getting a draft of this
  52. compromise paper, please send email.
  53.  
  54. I'd appreciate any suggestions as to
  55.  
  56. 1.  where next to submit my Pearson "fixup" result
  57. 2.  where to submit a paper on a Bayesian-frequentist compromise
  58.  
  59. To save net bandwidth, please respond by email.
  60.  
  61.                             Clark
  62.  
  63. --
  64.                             Clark
  65.