home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #18 / NN_1992_18.iso / spool / comp / ai / neuraln / 3236 < prev    next >
Encoding:
Text File  |  1992-08-19  |  1.6 KB  |  33 lines

  1. Newsgroups: comp.ai.neural-nets
  2. Path: sparky!uunet!brunix!cs.brown.edu!mpp
  3. From: mpp@cns.brown.edu (Michael P. Perrone)
  4. Subject: Re: Reducing Training time vs Generalisation
  5. Message-ID: <1992Aug19.172222.10441@cs.brown.edu>
  6. Keywords: back propagation, training, generalisation
  7. Sender: mpp@cs.brown.edu (Michael P. Perrone)
  8. Organization: Center for Neural Science, Brown University
  9. References: <arms.714091659@spedden> <36944@sdcc12.ucsd.edu> <arms.714146123@spedden> <36967@sdcc12.ucsd.edu> <1992Aug18.231650.27663@cs.brown.edu> <arms.714214353@spedden>
  10. Date: Wed, 19 Aug 1992 17:22:22 GMT
  11. Lines: 20
  12.  
  13. If we define a training set Z = {(xi,f(xi))} for i=1,..,n
  14. and we demand that our backprop network be able to fit f(.)
  15. exactly on Z, then clearly, the global minimum is to fit
  16. f(.) exactly.
  17.  
  18. If we further demand that for some range of x not in Z, the
  19. network catastrophically misfits the true function, then
  20. what we are really saying is that our choice of model was bad.
  21.  
  22. Clearly, this is a problem.  But it is not just a problem with 
  23. backprop.  It is a fundamental problem whenever we are forced to
  24. choose a model.  Unless we have some a priori knowledge about the
  25. problem, our model choice is always open to pathological solutions.
  26.  
  27. The above problem is an example of the utility a priori smoothness 
  28. assumptions.  For example instead of using backprop, we could have
  29. chosen a kernel estimator using delta fuctions (i.e. no smoothing).
  30. In this case, our error over Z would again be zero but our bias to
  31. the training set can again lead us to "wild" solutions (which is
  32. just another way of saying high variance).
  33.