home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / bit / listserv / sasl / 5544 < prev    next >
Encoding:
Text File  |  1993-01-06  |  2.1 KB  |  53 lines

  1. Comments: Gated by NETNEWS@AUVM.AMERICAN.EDU
  2. Path: sparky!uunet!wupost!darwin.sura.net!paladin.american.edu!auvm!COMPUSERVE.COM!71020.1025
  3. Message-ID: <930107031142_71020.1025_EHC114-1@CompuServe.COM>
  4. Newsgroups: bit.listserv.sas-l
  5. Date:         Wed, 6 Jan 1993 22:11:42 EST
  6. Reply-To:     William Kahn <71020.1025@COMPUSERVE.COM>
  7. Sender:       "SAS(r) Discussion" <SAS-L@UGA.BITNET>
  8. From:         William Kahn <71020.1025@COMPUSERVE.COM>
  9. Subject:      t
  10. Comments: To: sas-l@ohstvma.bitnet
  11. Lines: 40
  12.  
  13. Patrick Haggard wrote
  14.  
  15. > I have some data containing between n and m observations in each
  16. > of C conditions.  I would like to have exactly n observations in
  17. > each condition
  18.  
  19. Which received (as of my last scan) two similar responses-each keeping the
  20. first n observations of the up to m (m>=n) in each group.
  21.  
  22. May I suggest that an explicitly _random_ subset of each group be selected
  23. rather than the first?  Even if there is no known order to the data often
  24. there is a non-random (though not known) order.
  25.  
  26. data t; set old; x=ranuni(8911002);
  27. proc sort; by group x; *note explicit scrambling within group;
  28. data new; set t; by group;
  29.   if first.group then count=0;
  30.   count+1; *using implicit retain implied by this syntax;
  31.   tag=(count>n) *keep all observations in same dataset;
  32. proc glm; class group; where tag=0; model dv=group; *use where;
  33.  
  34. BUT--a statistics question arises.  When is it better to throw out data in
  35. order to attain balance than analyze the unbalanced design?  Granted, the
  36. estimates you get which assume balance are no longer min variance unbaised,
  37. but don't they always have smaller mean square error than throwing out data?
  38. If you have a procedure which requires balance (proc anova) won't you get
  39. smaller mse estimates by averaging your m points down to n points (say
  40. average m-n pairs) and ignoring the averaging in the analysis than by
  41. throwing out m-n data points?  Data is so precious--seems a crying waste to
  42. throw it out just because some mathematicians/programmers don't give us an
  43. optimal analysis algorithm.
  44.  
  45. Bill Kahn <71020.1025@compuserve.com>
  46. W. L. Gore and Associates
  47.  
  48.  
  49.  
  50.  
  51. Distribution:
  52.   >INTERNET:sas-l@ohstvma.bitnet
  53.