home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #18 / NN_1992_18.iso / spool / comp / ai / neuraln / 3235 < prev    next >
Encoding:
Internet Message Format  |  1992-08-19  |  4.4 KB

  1. Path: sparky!uunet!charon.amdahl.com!pacbell.com!mips!darwin.sura.net!wupost!cs.utexas.edu!uwm.edu!ogicse!das-news.harvard.edu!cantaloupe.srv.cs.cmu.edu!crabapple.srv.cs.cmu.edu!news
  2. From: sef@sef-pmax.slisp.cs.cmu.edu
  3. Newsgroups: comp.ai.neural-nets
  4. Subject: Re: Reducing Training time vs Generalisation
  5. Message-ID: <Bt8MI4.6Bu.1@cs.cmu.edu>
  6. Date: 19 Aug 92 15:46:50 GMT
  7. Article-I.D.: cs.Bt8MI4.6Bu.1
  8. Sender: news@cs.cmu.edu (Usenet News System)
  9. Organization: School of Computer Science, Carnegie Mellon
  10. Lines: 86
  11. Nntp-Posting-Host: sef-pmax.slisp.cs.cmu.edu
  12.  
  13.  
  14. We went round on Bill Armstrong's dangerous example once before.  Here's my
  15. current understanding of the situation:
  16.  
  17. If you make a training set that looks like this,
  18.  
  19.  
  20.   ..............*   *.................
  21.  
  22. and train a net with two hidden units a long time with no weight decay, you
  23. can get a zero-error solution with a large upward excursion between the two
  24. *'s.  The peak of the excursion can be *much* higher than the height of the
  25. two "tossing points".  In this case, there are also solutions that create a
  26. flat plateau, and these are more likely to be found by the usual learning
  27. algorithms.
  28.  
  29. If you shape the training set a bit more carefully
  30.  
  31.                 *      *
  32.   .............*        *.................
  33.  
  34. and use a two-hidden unit net, you can FORCE the solution with a big
  35. excursion.  Only the "ankle" part of the sigmoid will fit these tossing
  36. points.  However, a net with more hidden units could again create a
  37. plateau, however, and this would be the more likely solution.
  38.  
  39. What's happening here is that sigmoids are smooth in certain ways (bounded
  40. derivatives) and we're forcing an exact fit through the training points.
  41. So the best solution does have a big excursion in it.  You often see the
  42. same gyrations (or worse ones) when fitting a set of points with a
  43. polynomial.
  44.  
  45. Now from some points of view, this big excursion is a good thing.  It is
  46. the "right" solution if you truly want to minimize training set error and
  47. maintain smoothness.  Bill points out that this solution is not the right
  48. one for some other purposes.  You might, for example, want to impose the
  49. added constraint that the output remains within -- or doesn't go too far
  50. beyond -- the convex hull of the training cases.
  51.  
  52. This point is hard to grasp in Bill's arguments, since he insists upon
  53. using loaded words like "safe" and "unsafe", but after several go-rounds
  54. I'm pretty sure that's what he means.  I would just point out that for some
  55. applications, the smooth solution with big excursions might be the "safe"
  56. one.  For example, you want to turn your airplane without snapping off the
  57. wings in sudden turns.
  58.  
  59. OK, suppose for a given application we do want to meet Bill's boundedness
  60. criterion on the outputs.  There are several solutions:
  61.  
  62. 1. Sacrifice perfect fit.  Weight decay does this in a natural way, finding
  63. a compromise between exact fit on the training set and the desire for small
  64. weights (or low derivatives on the output surface).  The weight-decay
  65. parameter controls the relative weight given to fit and smallness of
  66. weights.
  67.  
  68. 2. Sacrifice smoothness.  If sharp corners are OK, it is a trivial matter
  69. to add an extra piece of machinery that simply enforces the non-excursion
  70. criterion, clipping the neural net's output when it wanders outside the
  71. region bounded by the training set outputs.
  72.  
  73. 3. Go to a piecewise solution.  With splines, we can fit the training
  74. points exactly, bound the first N derivatives, and still not go on wild
  75. excursions, though the solution is more complex in other ways and will ner
  76. pick up on long-range regularities in the training data.  "Neural" nets
  77. that use radial basis units or other local-response units have the same
  78. character.  I guess ALN's do too, though with lots of jaggy corners.
  79.  
  80. 4. Go to a higher-order solution.  With extra hidden units, there will be
  81. solutions that fit the data but that have the extra degrees of freedom to
  82. meet other criteria as well.  There are various ways of biasing these nets
  83. to favor solutions that do what you want.  Basically, you build the added
  84. desiderata into the error function, as we do with weight decay (a bias
  85. toward small weights).
  86.  
  87. By the way, I didn't respond to the question on generalization because Dave
  88. DeMers gave an answer much better than I could have produced.
  89.  
  90. -- Scott
  91. ===========================================================================
  92. Scott E. Fahlman
  93. School of Computer Science
  94. Carnegie Mellon University
  95. 5000 Forbes Avenue
  96. Pittsburgh, PA 15213
  97.  
  98. Internet: sef+@cs.cmu.edu
  99.