home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #18 / NN_1992_18.iso / spool / comp / ai / neuraln / 3242 < prev    next >
Encoding:
Text File  |  1992-08-19  |  4.4 KB  |  115 lines

  1. Newsgroups: comp.ai.neural-nets
  2. Path: sparky!uunet!gumby!destroyer!ubc-cs!alberta!arms
  3. From: arms@cs.UAlberta.CA (Bill Armstrong)
  4. Subject: Re: Wild values (was Reducing Training time ...)
  5. Message-ID: <arms.714256557@spedden>
  6. Keywords: back propagation, training, generalisation
  7. Sender: news@cs.UAlberta.CA (News Administrator)
  8. Nntp-Posting-Host: spedden.cs.ualberta.ca
  9. Organization: University of Alberta, Edmonton, Canada
  10. References: <arms.714146123@spedden> <36967@sdcc12.ucsd.edu> <arms.714208873@spedden> <37028@sdcc12.ucsd.edu>
  11. Date: Wed, 19 Aug 1992 20:35:57 GMT
  12. Lines: 101
  13.  
  14. demers@cs.ucsd.edu (David DeMers) writes:
  15.  
  16. >In article <arms.714208873@spedden> arms@cs.UAlberta.CA (Bill Armstrong) writes:
  17. >>Pick any set of integers that contains at least the six points x = 
  18. >>-2 -1 0 1 2 3, each one with the f(x) value specified below.
  19. >>Test on any finite set of integers you like.
  20.  
  21. >Integers don't seem to be very representative of the domain...
  22.  
  23. It isn't important.
  24.  
  25. >Well, I have grasped the idea and I understand how one can *construct*
  26. >these examples, but you haven't shown me how you can actually get
  27. >this or any similar example by following an optimization of 
  28. >weights to minimize an objective function like mean squared 
  29. >error over a set of data...
  30.  
  31. I think I have, but I'll present an argument below.
  32.  
  33. >>If you happened to initialize the system by chance to the given
  34. >>weights, which do produce the desired values on the training set, 
  35.  
  36. >pretty close to a set of zero measure...
  37.  
  38. True.  But the chosen state is stable, which was my point.
  39.  
  40. >the
  41. >>BP algorithm would have 0 mean square error on the training set, and
  42. >>would not change the weights.  In other words, the weights (+ or - 40)
  43. >>are stable, and you can reach them.  Maybe there are starting points
  44. >>from which you can't reach them, but that's a different problem to
  45. >>find them.
  46.  
  47. >OK, my claim is that the weights you've given are not
  48. >an attractor, or that if they are,
  49. >the basin of attraction in weight space is pretty small.  
  50.  
  51. >[by attractor I mean a stable point of the dynamical system
  52. >consisting of applying BP to the training data for this net,
  53. >where small perturbations from the attractor result in the system
  54. >converging to it... see, maybe, Wiggins' book or Guckenheimer 
  55. >and Holmes for more details (many many more details :-)
  56. >the basin of attraction is the region within which the
  57. >algorithm will result in the attractor being reached (at
  58. >least asymptotically ] 
  59.  
  60. >I don't have a proof...
  61.  
  62. OK, let's see if I can prove it IS an attractor.
  63.  
  64. The square error on the training set is an infinitely-often
  65. differentiable function of the weights, and is >= 0 everywhere.  At
  66. the weights I gave the error is 0.  The first partial derivatives
  67. must be 0 at the minimum.  Now, using long forgotten calculus
  68. arguments, we conclude that the second derivatives typical of a
  69. minimum are usually positive (with some unfortunate special cases
  70. where they are 0).  Hence the Taylor expansion shows a nice little
  71. attractive bowl.  Sorry,this is not a proof, but you get the idea,
  72. and someone who is up on calculus could finish it.
  73.  
  74. >>>The "wildness" here is postulated; I still don't see how it can
  75. >>>actually happen on your facts, that the network was trained to
  76. >>>zero error on a training set of integer values.
  77.  
  78. >>The "wild" solution is not postulated, it is THE set of weights which
  79. >>gives 0 error on the training set.  The wild solution is forced upon
  80. >>the net by the training data.  
  81.  
  82. >I'm sceptical of this fact.
  83.  
  84. There may be some isomorphisms that make the solution not unique, but
  85. that is probably not the grounds for your scepticism.  Why don't you
  86. just run a BP program and see where it converges.  If it reaches
  87. zero error, then you will have THE solution.
  88.  
  89. ...
  90.  
  91. >>Sure, but a lot of little weights can add up, particularly if values
  92. >>derived from them get multiplied by a larger weight.
  93.  
  94. >You can also observe the weights of your network, output only,
  95. >and put an upper bound on its value. 
  96.  
  97. I think you think you can observe all this in high dimensional spaces, but
  98. your lifespan isn't long enough.
  99.  
  100. >...
  101.  
  102. >>  Do you always bound your weights in absolute value by
  103. >>small numbers?  
  104.  
  105. >For initialization, yes.
  106.  
  107. Sounds fine, but what do you do if a weight gets big?
  108.  
  109. Thanks for your comments.
  110. --
  111. ***************************************************
  112. Prof. William W. Armstrong, Computing Science Dept.
  113. University of Alberta; Edmonton, Alberta, Canada T6G 2H1
  114. arms@cs.ualberta.ca Tel(403)492 2374 FAX 492 1071
  115.