home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #20 / NN_1992_20.iso / spool / sci / research / 1094 < prev    next >
Encoding:
Text File  |  1992-09-14  |  1.8 KB  |  46 lines

  1. Newsgroups: sci.research
  2. Path: sparky!uunet!mcsun!Germany.EU.net!unibwh.unibw-hamburg.de!unibwh!p_misiak
  3. From: p_misiak@unibwh.unibw-hamburg.de (Carlo Misiak)
  4. Subject: Re: Newsweek Article: is Science Censored?
  5. In-Reply-To: paj@uk.co.gec-mrc's message of 14 Sep 92 09:54:17 GMT
  6. Message-ID: <P_MISIAK.92Sep15100744@grafix.unibwh.unibw-hamburg.de>
  7. Sender: news@unibw-hamburg.de
  8. Organization: University of Federal Armed Forces Hamburg
  9. References: <1992Sep12.145210.694@cs.brown.edu> <1955@snap>
  10. Date: Tue, 15 Sep 1992 10:07:44 GMT
  11. Lines: 33
  12.  
  13. In article <1955@snap> paj@uk.co.gec-mrc (Paul Johnson) writes:
  14.  
  15.    By the way, the reason that trawling through statistics looking for
  16.    correlations is dangerous is as follows:
  17.  
  18.    A significant correlation is one greater than 95%.  But if you look at
  19.    random data in 20 different ways, you are going to find a significant
  20.    correlation 1 - 0.95^20 = 0.64 of the time.  In other words a study
  21.    looking at random data 20 different ways has a greater than evens
  22.    chance of finding something "significant".
  23.  
  24.    Disclaimer: I am not a statistician.  I hope I got that right.
  25.  
  26. It is actually worse than that (than your somewhat - fuzzy, at least -
  27. statement). If your N is large enough, you will get significant correlations
  28. in the range of .3 which gives an r^2 of an amazing 0.09 which infers that
  29. you can forget the correlation.
  30.  
  31. Now if you have a large correlation matrix of say 100 by 100 elements and you are
  32. on the 5% level you will find 500 significant but discardable correlations by chance. 
  33.  
  34. Then imagine you have 1000 variables and you run through the procedure 20 times
  35. each time selecting another subset of 100 vars out of the original 1000.
  36.  
  37. Call the results scientific results that *prove* something.
  38.  
  39. Cheers
  40.  
  41. --
  42. Carlo Misiak
  43.  
  44. *** All that we C or Scheme is but a mind in the machine *** (remember POE) ***
  45.  
  46.