home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #16 / NN_1992_16.iso / spool / comp / ai / neuraln / 2850 < prev    next >
Encoding:
Internet Message Format  |  1992-07-21  |  2.9 KB

  1. Path: sparky!uunet!elroy.jpl.nasa.gov!usc!snorkelwacker.mit.edu!ai-lab!sun-of-smokey!marcus
  2. From: marcus@sun-of-smokey.NoSubdomain.NoDomain (Jeff Marcus)
  3. Newsgroups: comp.ai.neural-nets
  4. Subject: Re: need for unique test sets
  5. Message-ID: <25663@life.ai.mit.edu>
  6. Date: 21 Jul 92 14:10:26 GMT
  7. References: <1992Jul19.070433.5896@afterlife.ncsc.mil> <25633@life.ai.mit.edu> <arms.711688181@spedden>
  8. Sender: news@ai.mit.edu
  9. Organization: MIT/LCS Spoken Language Systems
  10. Lines: 63
  11.  
  12. In article <arms.711688181@spedden>, arms@cs.UAlberta.CA (Bill
  13. Armstrong) writes:
  14. <Deleted lots of stuff with which I agree>
  15.  
  16. |> Anyway, maybe everyone will disagree with me that either brand of
  17. |> testing, with or without overlap, is still inadequate because:
  18. |> 
  19. |> a. without a priori knowledge, no one can know what the "correct"
  20. |> function is, based on a fixed finite sample.
  21. |> 
  22. |> 
  23. |> b. in general, no set of tests unless they cover the whole space
  24. |> can assure that the neural net output will do what is correct
  25. |> even if you know what "correct" means.  There has to be a proof technique
  26. |> somehow.
  27. |> 
  28. |> Bill
  29. |> 
  30. |> 
  31. |> --
  32. |> ***************************************************
  33. |> Prof. William W. Armstrong, Computing Science Dept.
  34. |> University of Alberta; Edmonton, Alberta, Canada T6G 2H1
  35. |> arms@cs.ualberta.ca Tel(403)492 2374 FAX 492 1071
  36.  
  37. I guess I disagree with your use of the word "inadequate." But maybe we
  38. are coming
  39. from two different cultures. Because I am working in speech recognition,
  40. where nobody
  41. expects zero error rate or perfectly separable classes (and I assume the
  42. same should
  43. apply to OCR), I don't expect to attain zero error rate and show that my
  44. classifier
  45. has learned some generating function perfectly. Nor is it reasonable to
  46. think of
  47. all possible inputs since the pool of possible speech is infinite.
  48.  
  49. However, the more test data I have, the more sure I am that the
  50. result on the test data is a good predictor of the classifier's performance on
  51. new data. This can be quantified with a confidence interval on my
  52. classification
  53. error. This scheme is only inadequate in the sense that I can never
  54. achieve
  55. a zero confidence bound. But I don't see why that is important.
  56.  
  57. Of course, all this assumes that I have a good way of
  58. selecting a representative sample in my test set, a non-trivial problem
  59. in its own right.
  60.  
  61. The reason I say two cultures is that I am under the impression that neural net
  62. researchers are also interested in learning whether their networks can discover
  63. functions like XOR and maybe a performance metric like classification error is
  64. inappropriate. However, my guess would be that as long as there is some
  65. random process
  66. behind generating the training and test sets, you can frame performance
  67. estimation as
  68. a statistical estimation problem and the same arguments I just made
  69. would apply: namely,
  70. that as you get more data, you get more confident of your result, but
  71. you can never
  72. be sure that your result is exactly right.
  73.  
  74.   Jeff
  75.