home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #16 / NN_1992_16.iso / spool / comp / ai / neuraln / 2891 < prev    next >
Encoding:
Internet Message Format  |  1992-07-23  |  2.0 KB

  1. Path: sparky!uunet!snorkelwacker.mit.edu!ai-lab!sun-of-smokey!marcus
  2. From: marcus@sun-of-smokey.NoSubdomain.NoDomain (Jeff Marcus)
  3. Newsgroups: comp.ai.neural-nets
  4. Subject: Re: need for unique test sets
  5. Message-ID: <25761@life.ai.mit.edu>
  6. Date: 23 Jul 92 14:07:31 GMT
  7. References: <1992Jul19.070433.5896@afterlife.ncsc.mil> <arms.711645136@spedden> <1992Jul21.224019.6615@u.washington.edu>
  8. Sender: news@ai.mit.edu
  9. Organization: MIT/LCS Spoken Language Systems
  10. Lines: 35
  11.  
  12. In article <1992Jul21.224019.6615@u.washington.edu>,
  13. davisd@milton.u.washington.edu (Daniel Davis) writes:
  14. |> I hope I can clear up this debate with a little specificity.
  15. |> 
  16. |> A couple guys say that all we need is independant sampling, while
  17. |> someone else seems to think that one should not include the training
  18. |> data in the test set.
  19. |> 
  20. |> Independant sampling is in fact all you need, but given the proper
  21. |> context, it is also proper to say that one should not include any of
  22. |> the training data in the test set.
  23. |> 
  24. |> Suppose you take 10000 independant samples. You use 5000 as your
  25. |> training set. You would *not* select your test set from all 10000
  26. |> samples, but instead, only from the 5000 not included in the
  27. |> training
  28. |> set. If you selected test data from a random sampling of all 10000
  29. |> samples, your test data and your training data would no longer be
  30. |> independant. Of the data you have, only the 5000 previously
  31. |> unselected
  32. |> data correspond to data independant of your training set. In this
  33. |> sense, then, one should not include any of the training data in the
  34. |> test data. 
  35. |> 
  36. |> However, it is *not* a problem if it happens that some of the 5000
  37. |> previously unselected data are in fact repeats of the original
  38. |> training data, as it is assumed that the original 10000 were
  39. |> independant samples.
  40. |> 
  41. |> Buy Buy -- Dan Davis
  42. |> Univ. of Washington, Dept. of EE, davisd@u.washington.edu
  43.  
  44. Exactly. I should have been this specific in making my argument. It might
  45. have saved some bandwidth.
  46.   Jeff
  47.