home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #16 / NN_1992_16.iso / spool / comp / ai / neuraln / 2872 < prev    next >
Encoding:
Internet Message Format  |  1992-07-22  |  4.9 KB

  1. Path: sparky!uunet!zaphod.mps.ohio-state.edu!uakari.primate.wisc.edu!sdd.hp.com!mips!darwin.sura.net!haven.umd.edu!mimsy!afterlife!hcbarth
  2. From: hcbarth@afterlife.ncsc.mil (Bart Bartholomew)
  3. Newsgroups: comp.ai.neural-nets
  4. Subject: Re: re:need for unique test sets
  5. Message-ID: <1992Jul22.031319.15531@afterlife.ncsc.mil>
  6. Date: 22 Jul 92 03:13:19 GMT
  7. References: <1992Jul19.070433.5896@afterlife.ncsc.mil> <25633@life.ai.mit.edu>
  8. Organization: The Great Beyond
  9. Lines: 93
  10.  
  11. In article <25633@life.ai.mit.edu> marcus@goldilocks.lcs.mit.edu (Jeff Marcus) writes:
  12. >In article <1992Jul19.070433.5896@afterlife.ncsc.mil>,
  13. >hcbarth@afterlife.ncsc.mil (Bart Bartholomew) writes:
  14. >|> 
  15. >|>     If you want to have any confidence that your network has
  16. >|> deduced the correct generating function from the training set,
  17. >|> you must be sure that the test set has no members from the
  18. >|> training set.  Ponder: If the net gets some number correct on
  19. >|> the training set, and if the test set has some members from the
  20. >|> training set, then the apparent performance metric on the test
  21. >|> set will be skewed by the contribution of the members of the
  22. >|> training set.
  23. >|>     Since there is a large, possibly infinite set of 
  24. >|> functions that can generate any data set, the question we pose
  25. >|> to the test set is whether we have found the correct function.
  26. >|> The answer to that question is measured by how well the net can
  27. >|> 'generalize' - can the function that the net found to explain the
  28. >|> training set also explain the test set?
  29. >|>     Clearly, the larger both sets are (up to the point where 
  30. >|> all possible members of the function are included), the more
  31. >|> confidence we have in the answer.
  32. >|>     So, I disagree with Prof Armstrong and you about the need
  33. >|> for having no overlap between the training and test sets.
  34. >|>     Sincerely,
  35. >|>     Bart
  36. >|> 
  37. >|> -- 
  38. >
  39. >I stand by my original comments. I don't know what you mean by 
  40. >"a contribution by some members of the training set." If the two
  41. >sets are chosen independently, there is no contribution; the test set is just
  42. >reflecting the fact that it is possible to have data in the popluation that has
  43. >been captured in the training set. If the two sets are not chosen
  44. >independently, you
  45. >are doing something wrong. 
  46. >
  47. >One thing that I am unclear about is:
  48. >
  49. >Are you drawing samples from a finite, discrete-valued population or a
  50. >continuous-valued
  51. >one. If the latter, you don't have to worry about having the exact same
  52. >sample in the
  53. >test set. If the former, then your argument would imply that the more
  54. >training data you
  55. >have, the smaller allowable test set for testing your network. So let's
  56. >say you include
  57. >all possible test patterns but one in your training set. Then by your
  58. >argument, the
  59. >test set can consist of only one pattern. Does the performance on this
  60. >pattern give
  61. >a better indication of the network's performance, or does the
  62. >performance on some test
  63. >set that reflects the distribution of what you are likely to see in
  64. >using the network?
  65. >It's obvious that that latter is better.
  66. >
  67. >  Jeff
  68.  
  69.     Let me try again.
  70.     If you have trained the net on the training set
  71. and ithe net gets all the answers right according to some
  72. arbitrary measure (not necessarily MSE) AND if your
  73. test set contains some of the same input/output pairs as
  74. are in the training set, then the net will always get those
  75. right, and will cause the apparent success on the test set
  76. to look better than it really is.  Unless, of course, it
  77. gets all the test set right, and then the point is probaly moot.
  78.     The point of having a test set (taken from the same 
  79. source as the training set) is to make sure the net has found 
  80. the right (or equivalent) function.
  81.     On the other hand, if the net does well on the training
  82. set but falls apart (scores badly) on the test set, you know that
  83. the net has found a nice function that describes the training 
  84. set well, but *is not the function that actually generated the 
  85. data*.  In that case, the net is worthless.  If it scores 
  86. pretty well on the test set, but not as well as on the training
  87. set, then you have probably found a first cousin of the correct
  88. function and may be able to coax it to find the correct function.
  89.     About the second point (size of training/test sets) - some
  90. functions have too many possible points to be practical to train on
  91. even a small fraction, and you can have very large sets for both
  92. training and test.  Generally, I put most of my eggs in the training
  93. set and keep out 10%-25% for testing.  Bear in mind that you may
  94. not know what the generating function is, but still have a reasonable
  95. estimate on the dimensions.  Indeed, to hope to succeed, the input
  96. layer must be large enough to be sure that the output is dependant
  97. on the input.
  98.     Bart
  99. -- 
  100. "It's not the thing you fling, the fling's the thing." - Chris Stevens
  101.  If there's one thing I just can't stand, it's intolerance.
  102. *No One* is responsible for my views, I'm a committee. Please do not
  103. infer that which I do not imply.  hcbarth@afterlife.ncsc.mil
  104.