home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #18 / NN_1992_18.iso / spool / comp / ai / neuraln / 3241 < prev    next >
Encoding:
Text File  |  1992-08-19  |  9.3 KB  |  200 lines

  1. Newsgroups: comp.ai.neural-nets
  2. Path: sparky!uunet!gumby!destroyer!ubc-cs!alberta!arms
  3. From: arms@cs.UAlberta.CA (Bill Armstrong)
  4. Subject: Re: Reducing Training time vs Generalisation
  5. Message-ID: <arms.714249520@spedden>
  6. Sender: news@cs.UAlberta.CA (News Administrator)
  7. Nntp-Posting-Host: spedden.cs.ualberta.ca
  8. Organization: University of Alberta, Edmonton, Canada
  9. References: <Bt8MI4.6Bu.1@cs.cmu.edu>
  10. Date: Wed, 19 Aug 1992 18:38:40 GMT
  11. Lines: 187
  12.  
  13.  
  14. I agree with most of Scott Fahlmann's comments about "wild"
  15. excursions.  I suppose one can dispute my insistence of referring to
  16. this as a "safety" issue, to use a loaded "s" word, which people may
  17. find alarmist.  But I calls 'em the way I sees 'em.  I don't want it
  18. to be an issue that people can ignore because it doesn't sound
  19. important.
  20.  
  21. There are just a few comments in relation to Scott's remarks that need
  22. to be made:
  23.  
  24. sef@sef-pmax.slisp.cs.cmu.edu writes:
  25.  
  26.  
  27. >We went round on Bill Armstrong's dangerous example once before.  Here's my
  28. >current understanding of the situation:
  29.  
  30. >If you make a training set that looks like this,
  31.  
  32.  
  33. >  ..............*   *.................
  34.  
  35. >and train a net with two hidden units a long time with no weight decay, you
  36. >can get a zero-error solution with a large upward excursion between the two
  37. >*'s.  The peak of the excursion can be *much* higher than the height of the
  38. >two "tossing points".  In this case, there are also solutions that create a
  39. >flat plateau, and these are more likely to be found by the usual learning
  40. >algorithms.
  41.  
  42. Isn't the plateau solution a *local* minimum of error?  Is this a case
  43. where you actually should seek a local minimum rather than an absolute
  44. minimum in training?
  45.  
  46. >If you shape the training set a bit more carefully
  47.  
  48. >                *      *
  49. >  .............*        *.................
  50.  
  51. >and use a two-hidden unit net, you can FORCE the solution with a big
  52. >excursion.  Only the "ankle" part of the sigmoid will fit these tossing
  53. >points.  However, a net with more hidden units could again create a
  54. >plateau, however, and this would be the more likely solution.
  55.  
  56. Same question: is this plateau a local minimum only?  If you are
  57. saying that local minima are more likely than global minima, that
  58. contradicts a lot of people who claim not to worry about local minima
  59. because it doesn't happen to them.  I think if you take enough
  60. training points, the globally minimal solution will be unique up to
  61. isomorphism, e.g. interchange of some elements.
  62.  
  63. The more hidden units and layers you have, the less transparent the
  64. behavior of the whole net becomes.  Some examples of "wild" behavior
  65. will only appear with relatively small weights, but lots of layers:
  66. linear regions of sigmoids all lining up to produce a big excursion.
  67.  
  68. >What's happening here is that sigmoids are smooth in certain ways (bounded
  69. >derivatives) and we're forcing an exact fit through the training points.
  70. >So the best solution does have a big excursion in it.  You often see the
  71. >same gyrations (or worse ones) when fitting a set of points with a
  72. >polynomial.
  73.  
  74. Excellent analogy. My gut feeling is that polynomials would be far worse
  75. than MLPs with sigmoids, because the sigmoids don't go off to infinity.
  76.  
  77. >Now from some points of view, this big excursion is a good thing.  It is
  78. >the "right" solution if you truly want to minimize training set error and
  79. >maintain smoothness.  Bill points out that this solution is not the right
  80. >one for some other purposes.  You might, for example, want to impose the
  81. >added constraint that the output remains within -- or doesn't go too far
  82. >beyond -- the convex hull of the training cases.
  83.  
  84. Yes.  That's the idea.
  85.  
  86. >This point is hard to grasp in Bill's arguments, since he insists upon
  87. >using loaded words like "safe" and "unsafe", but after several go-rounds
  88. >I'm pretty sure that's what he means.  I would just point out that for some
  89. >applications, the smooth solution with big excursions might be the "safe"
  90. >one.  For example, you want to turn your airplane without snapping off the
  91. >wings in sudden turns.
  92.  
  93. Of course.  In that case we should have additional training and test
  94. points for what is an interesting part of the input space, though, and
  95. that will get rid of the unwanted behavior whether we don't want the excursion
  96. or we do.  The safety issue arises if our net is forced into an excursion that
  97. we are not aware of because we didn't want it and couldn't test for it
  98. because there are too many points in the input space.
  99.  
  100. An additional trouble is that whenever we force huge values of output
  101. from small training ones, we depend a lot on the precision of the
  102. arithmetic.  I have no idea whether reduced precision arithmetic would
  103. make the excursions larger or smaller.  In practice, we can't ignore
  104. that issue, though.
  105.  
  106. >OK, suppose for a given application we do want to meet Bill's boundedness
  107. >criterion on the outputs.  There are several solutions:
  108.  
  109. >1. Sacrifice perfect fit.  Weight decay does this in a natural way, finding
  110. >a compromise between exact fit on the training set and the desire for small
  111. >weights (or low derivatives on the output surface).  The weight-decay
  112. >parameter controls the relative weight given to fit and smallness of
  113. >weights.
  114.  
  115. I agree this will work if you can get fine enough control that reaches
  116. to every point of the input space to prevent excursions, and the
  117. fitting of the function to the spec is good enough.  Though I don't
  118. deny it could be done, is this easy, or even possible to do in practice?
  119.  
  120. >2. Sacrifice smoothness.  If sharp corners are OK, it is a trivial matter
  121. >to add an extra piece of machinery that simply enforces the non-excursion
  122. >criterion, clipping the neural net's output when it wanders outside the
  123. >region bounded by the training set outputs.
  124.  
  125. If you do want some excursions and you don't want others, this won't
  126. work.  It is not a simple matter to find the problem regions and bound
  127. them specially.  I believe it is NP complete to find them.  The
  128. plausibility of this can be argued as follows: ALNs are a special case
  129. of MLPs; you can't tell if an ALN is constant 0 or has some 1 output
  130. somewhere (worst case, CNF- satisfiability); this is a special case of
  131. a spike that may not be wanted.
  132.  
  133. The "spec" here is wanting an NN that produces a constant 0, and it's
  134. not a great example because we can do that differently, but maybe
  135. someone can work on it as a basis.
  136.  
  137. >3. Go to a piecewise solution.  With splines, we can fit the training
  138. >points exactly, bound the first N derivatives, and still not go on wild
  139. >excursions, though the solution is more complex in other ways and will ner
  140.  
  141. never??
  142.  
  143. >pick up on long-range regularities in the training data.  "Neural" nets
  144. >that use radial basis units or other local-response units have the same
  145. >character.  I guess ALN's do too, though with lots of jaggy corners.
  146.  
  147. True.  This is where forcing monotonicity on the ALN because a priori
  148. knowledge tells us the output must be monotonic, can help to
  149. capture the long-range regularities.
  150.  
  151. This local vs global question is very fundamental, and I'm grateful that
  152. you raise the issue in this context Scott.  Maybe there are other things that
  153. help to capture global regularities that people can think of.
  154.  
  155. The usual MLPs are very "globally" oriented, so they may be good at
  156. capturing the global information inherent in training data.  The
  157. downside is that you can't evaluate the output just taking local
  158. information into account.  The solution for ALNs will use monotonicity
  159. to capture global regularities, which will result in a jaggy function
  160. like you suggest.  Then, that function will be smoothed.  We *could*
  161. use a smoothing kernel like the derivative of the usual sigmoid, or a
  162. Gaussian, however we will use a kernel with bounded support.  This
  163. will keep the arithmetic parts of the computation brief.  To do that,
  164. we need to structure the ALN computation not to do arithmetic, but
  165. simply to compute a pointer to the coefficients required for computing
  166. the smoothed output in the part of the input space the input vector is
  167. located in.  Pointing to a local approximant using ALNs puts the
  168. "missing" conditional statements back into the NN paradigm.
  169.  
  170. In sum we get: 1. global fitting using a priori knowledge,
  171.  2. use of ALNs to compute an integer index (which they are suited to),
  172.  3. fast computation, only a small part of which is arithmetic.
  173.  
  174. So ALNs will not have to pay a time penalty like MLPs with sigmoids do
  175. to compute smooth functions based on detection of global regularities.
  176. (Does anyone hear soft funeral music?)
  177.  
  178. >4. Go to a higher-order solution.  With extra hidden units, there will be
  179. >solutions that fit the data but that have the extra degrees of freedom to
  180. >meet other criteria as well.  There are various ways of biasing these nets
  181. >to favor solutions that do what you want.  Basically, you build the added
  182. >desiderata into the error function, as we do with weight decay (a bias
  183. >toward small weights).
  184.  
  185. I don't know what you mean.  I think you might find in practice that
  186. more hidden units and layers give you more, not fewer, problems.
  187.  
  188. Thanks Scott.  I appreciate that you have succeeded in understanding
  189. my comments on "safety", or whatever you want to call it, despite
  190. their apparently being fairly obscure (judging by people's initial
  191. reactions), for which I apologize.
  192.  
  193. Bill
  194.  
  195. --
  196. ***************************************************
  197. Prof. William W. Armstrong, Computing Science Dept.
  198. University of Alberta; Edmonton, Alberta, Canada T6G 2H1
  199. arms@cs.ualberta.ca Tel(403)492 2374 FAX 492 1071
  200.