home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #16 / NN_1992_16.iso / spool / comp / ai / neuraln / 2864 < prev    next >
Encoding:
Text File  |  1992-07-21  |  1.7 KB  |  39 lines

  1. Newsgroups: comp.ai.neural-nets
  2. Path: sparky!uunet!usc!rpi!batcomputer!cornell!uw-beaver!news.u.washington.edu!milton.u.washington.edu!davisd
  3. From: davisd@milton.u.washington.edu (Daniel Davis)
  4. Subject: Re: need for unique test sets
  5. Message-ID: <1992Jul21.224019.6615@u.washington.edu>
  6. Sender: news@u.washington.edu (USENET News System)
  7. Organization: University of Washington, Seattle
  8. References: <1992Jul19.070433.5896@afterlife.ncsc.mil> <arms.711645136@spedden>
  9. Date: Tue, 21 Jul 1992 22:40:19 GMT
  10. Lines: 27
  11.  
  12. I hope I can clear up this debate with a little specificity.
  13.  
  14. A couple guys say that all we need is independant sampling, while
  15. someone else seems to think that one should not include the training
  16. data in the test set.
  17.  
  18. Independant sampling is in fact all you need, but given the proper
  19. context, it is also proper to say that one should not include any of
  20. the training data in the test set.
  21.  
  22. Suppose you take 10000 independant samples. You use 5000 as your
  23. training set. You would *not* select your test set from all 10000
  24. samples, but instead, only from the 5000 not included in the training
  25. set. If you selected test data from a random sampling of all 10000
  26. samples, your test data and your training data would no longer be
  27. independant. Of the data you have, only the 5000 previously unselected
  28. data correspond to data independant of your training set. In this
  29. sense, then, one should not include any of the training data in the
  30. test data. 
  31.  
  32. However, it is *not* a problem if it happens that some of the 5000
  33. previously unselected data are in fact repeats of the original
  34. training data, as it is assumed that the original 10000 were
  35. independant samples.
  36.  
  37. Buy Buy -- Dan Davis
  38. Univ. of Washington, Dept. of EE, davisd@u.washington.edu
  39.