home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #18 / NN_1992_18.iso / spool / comp / ai / neuraln / 3207 < prev    next >
Encoding:
Text File  |  1992-08-16  |  4.0 KB  |  92 lines

  1. Newsgroups: comp.ai.neural-nets
  2. Path: sparky!uunet!cs.utexas.edu!wupost!gumby!destroyer!ubc-cs!unixg.ubc.ca!kakwa.ucs.ualberta.ca!alberta!arms
  3. From: arms@cs.UAlberta.CA (Bill Armstrong)
  4. Subject: Re: Reducing Training time vs Generalisation
  5. Message-ID: <arms.714014919@spedden>
  6. Keywords: back propagation, training, generalisation
  7. Sender: news@cs.UAlberta.CA (News Administrator)
  8. Nntp-Posting-Host: spedden.cs.ualberta.ca
  9. Organization: University of Alberta, Edmonton, Canada
  10. References: <1992Aug16.063825.15300@julian.uwo.ca> <1992Aug16.213939.15944@ccu1.aukuni.ac.nz>
  11. Date: Mon, 17 Aug 1992 01:28:39 GMT
  12. Lines: 78
  13.  
  14. edwin@ccu1.aukuni.ac.nz (Edwin Ng) writes:
  15.  
  16.  
  17. Luke Koop's summary etc. deleted.
  18.  
  19. >Thanks for the summary Luke.  I'd like to ask if anyone has 
  20. >anything to add about the quality of generalisation 
  21. >resulting from using different parameters to speed up
  22. >training??
  23.  
  24. ...
  25.  
  26. >I ended up using a learning rate of 0.001 which amounted
  27. >to very tedious training in order to good generalisation.
  28.  
  29. >Does anyone have any advice on how I can speed up training
  30. >without losing generalisation?  Or is this a tradeoff
  31. >that can't be changed (some kind of conservation law) ?
  32.  
  33. >I have tried using Scott Falman's Cascade Correlation but 
  34. >the generalisation was much worse than backprop although 
  35. >it learnt very quickly.
  36.  
  37. Before one gets deeply into such questions, I think one should specify
  38. what one means by "generalization".  This shouldn't degenerate to "I
  39. tried this method on this data set, and it didn't work so well".
  40. Rather it should mean something like: for a test point at distance d
  41. from a correctly learned training point, the response was still
  42. correct (This definition works for boolean and multi-class problems).
  43. You could generalize this using interpolation and continuous
  44. functions.
  45.  
  46. Once this is agreed upon, some questions start to make sense, like:
  47. why should a multilayer perceptron generalize at all?"  It's not
  48. because of continuity, because continuous functions can oscillate as
  49. rapidly as you want, and could fit any finite, non-contradictory
  50. training set as well as you want.
  51.  
  52. If you could get a Lipschitz bound on the result of NN training, then
  53. you could be confident about getting some reasonable generalization:
  54. i.e. if x and x' are two input vectors, then the outputs y and y'
  55. would satisfy |y - y'| <= C |x - x'|.  This is *much* stronger than
  56. continuity.  Determining areasonably small C might be a problem for a
  57. given net.
  58.  
  59. Other criteria of good generalization might include monotonicity of the
  60. synthesized function.
  61.  
  62. In the case of adaptive logic networks, generalization is based on the
  63. fact that perturbations of an input vector tend to get filtered out as
  64. the signal is processed in a tree: a perturbation arriving at an
  65. AND-gate, for example, only has a 50% chance of getting through.
  66. Namely if the other input is a 0, the perturbation is cut off.  This
  67. is a very simple idea, and it works, as is illustrated in the atree
  68. release 2.7 software by an OCR demo that experts have said is "quite
  69. impressive".  It is something like a Lipschitz condition, but not on
  70. |y - y'|, but rather on the probability that y != y'.
  71.  
  72. The most impressive generalization that has been attained with ALNs
  73. was work by Dekang Lin, where he used tree growth and a training set
  74. of about 10^5 points, and obtained 91.1% generalization to a space of
  75. 2^512 points (the multiplexor problem).  The sparsity of the training
  76. set in that space boggles the mind.
  77.  
  78. Growing a net while preserving good generalization is very difficult
  79. and time consuming to do, with a lot of reasoning about why adding
  80. some structure at a particular place will promote generalization.
  81. Generally, the one structure has to improve the response to many
  82. training points.
  83.  
  84. It would be interesting to hear Scott Fahlmann's ideas on how to get
  85. good generalization.  Then you might find out why you had problems
  86. using Cascade Correlation.
  87. --
  88. ***************************************************
  89. Prof. William W. Armstrong, Computing Science Dept.
  90. University of Alberta; Edmonton, Alberta, Canada T6G 2H1
  91. arms@cs.ualberta.ca Tel(403)492 2374 FAX 492 1071
  92.