home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #18 / NN_1992_18.iso / spool / comp / ai / neuraln / 3239 < prev    next >
Encoding:
Internet Message Format  |  1992-08-19  |  5.4 KB

  1. Path: sparky!uunet!charon.amdahl.com!pacbell.com!mips!sdd.hp.com!elroy.jpl.nasa.gov!ames!network.ucsd.edu!sdcc12!cs!demers
  2. From: demers@cs.ucsd.edu (David DeMers)
  3. Newsgroups: comp.ai.neural-nets
  4. Subject: Re: Wild values (was Reducing Training time ...)
  5. Keywords: back propagation, training, generalisation
  6. Message-ID: <37028@sdcc12.ucsd.edu>
  7. Date: 19 Aug 92 17:26:31 GMT
  8. References: <arms.714146123@spedden> <36967@sdcc12.ucsd.edu> <arms.714208873@spedden>
  9. Sender: news@sdcc12.ucsd.edu
  10. Organization: =CSE Dept., U.C. San Diego
  11. Lines: 135
  12. Nntp-Posting-Host: beowulf.ucsd.edu
  13.  
  14. In article <arms.714208873@spedden> arms@cs.UAlberta.CA (Bill Armstrong) writes:
  15. >Pick any set of integers that contains at least the six points x = 
  16. >-2 -1 0 1 2 3, each one with the f(x) value specified below.
  17. >Test on any finite set of integers you like.
  18.  
  19. Integers don't seem to be very representative of the domain...
  20.  
  21. ...
  22.  
  23. >>This is not simply a pathological example, it is completely
  24. >>absurd.
  25.  
  26. >You simply haven't grasped it yet.  This kind of little "absurd"
  27. >example is going to show many people how dangerous it is to use the
  28. >usual approach to neural networks.  When a safety-critical system
  29. >blows up because you neglected some wild output of your neural net, it
  30. >will be too late to go back and try to understand the example.
  31.  
  32. >Anyway, it is not a pathological example.  Once you get the idea, you
  33. >can construct lots of examples.  
  34.  
  35. Well, I have grasped the idea and I understand how one can *construct*
  36. these examples, but you haven't shown me how you can actually get
  37. this or any similar example by following an optimization of 
  38. weights to minimize an objective function like mean squared 
  39. error over a set of data...
  40.  
  41. It's only when you reach that point
  42. >that you can begin to think about preventing wild values.  Sorry,
  43. >calling my little example "absurd" won't convince people who have a
  44. >lot to lose from a misbehaved system.  If they are smart, they will
  45. >want to see proof that a wild value can't cause a problem.  Are you
  46. >ready to supply a proof?  I don't think so, because you still don't
  47. >grasp the problem.
  48.  
  49. You seem to be calling "the problem" proving that a particular
  50. net plucked out of the air will perform according so
  51. some spec...
  52.  
  53. ...
  54.  
  55. >I have had backprop converge on this kind of pathological example,
  56. >from some not particularly carefully chosen starting state.  If the
  57. >f-values are small, I can see there is a problem with a real BP net,
  58. >but the argument is supposed to be mathematical, so numerical accuracy
  59. >is not a problem.
  60.  
  61. >If you happened to initialize the system by chance to the given
  62. >weights, which do produce the desired values on the training set, 
  63.  
  64. pretty close to a set of zero measure...
  65.  
  66. the
  67. >BP algorithm would have 0 mean square error on the training set, and
  68. >would not change the weights.  In other words, the weights (+ or - 40)
  69. >are stable, and you can reach them.  Maybe there are starting points
  70. >from which you can't reach them, but that's a different problem to
  71. >find them.
  72.  
  73. OK, my claim is that the weights you've given are not
  74. an attractor, or that if they are,
  75. the basin of attraction in weight space is pretty small.  
  76.  
  77. [by attractor I mean a stable point of the dynamical system
  78. consisting of applying BP to the training data for this net,
  79. where small perturbations from the attractor result in the system
  80. converging to it... see, maybe, Wiggins' book or Guckenheimer 
  81. and Holmes for more details (many many more details :-)
  82. the basin of attraction is the region within which the
  83. algorithm will result in the attractor being reached (at
  84. least asymptotically ] 
  85.  
  86. I don't have a proof...
  87.  
  88. >>The "wildness" here is postulated; I still don't see how it can
  89. >>actually happen on your facts, that the network was trained to
  90. >>zero error on a training set of integer values.
  91.  
  92. >The "wild" solution is not postulated, it is THE set of weights which
  93. >gives 0 error on the training set.  The wild solution is forced upon
  94. >the net by the training data.  
  95.  
  96. I'm sceptical of this fact.
  97.  
  98. The use of integers for training and testing
  99. >and the fact that they are uniformly spaced is also not critical.
  100.  
  101. ...
  102.  
  103. >>In the neural network framework, Mike Jordan and Robert Jacobs 
  104. >>are working on a generalization of modular architecture of
  105. >>Jacobs, Jordan, Nowlan & Hinton, which recursively splits the
  106. >>input space into nested regions and "learns" a mapping within
  107. >>each region. 
  108.  
  109. >Great.  Do they use monotonicity, or a scheme which allows them to get
  110. >tight bounds on *all* outputs, so they can satisfy a "spec" if we
  111. >could agree on one?
  112.  
  113.  
  114. It's more akin to the Bayesian methods.
  115.  
  116. ...
  117.  
  118. >Sure, but a lot of little weights can add up, particularly if values
  119. >derived from them get multiplied by a larger weight.
  120.  
  121. You can also observe the weights of your network, output only,
  122. and put an upper bound on its value. 
  123.  
  124.  
  125. ...
  126.  
  127. >The situation you describe, where you are always in the linear region
  128. >of all sigmoids sounds *very* undesirable.  
  129.  
  130. It is undesireable to *end up* there, but there is a lot
  131. of evidence that it's a good place to start in weight-space.
  132.  
  133. The output should benefit by
  134. >some signals getting very attenuated in effect by being near the flat
  135. >parts of sigmoids.
  136.  
  137. Sure, otherwise there are no non-linearities...
  138.  
  139. >  Do you always bound your weights in absolute value by
  140. >small numbers?  
  141.  
  142. For initialization, yes.
  143.  
  144. -- 
  145. Dave DeMers             ddemers@UCSD   demers@cs.ucsd.edu
  146. Computer Science & Engineering    C-014        demers%cs@ucsd.bitnet
  147. UC San Diego                    ...!ucsd!cs!demers
  148. La Jolla, CA 92093-0114    (619) 534-0688, or -8187, FAX: (619) 534-7029
  149.