home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #18 / NN_1992_18.iso / spool / comp / ai / neuraln / 3213 < prev    next >
Encoding:
Internet Message Format  |  1992-08-17  |  7.0 KB

  1. Path: sparky!uunet!dtix!darwin.sura.net!wupost!gumby!destroyer!ubc-cs!alberta!arms
  2. From: arms@cs.UAlberta.CA (Bill Armstrong)
  3. Newsgroups: comp.ai.neural-nets
  4. Subject: Re: Reducing Training time vs Generalisation
  5. Keywords: back propagation, training, generalisation
  6. Message-ID: <arms.714091659@spedden>
  7. Date: 17 Aug 92 22:47:39 GMT
  8. References: <1992Aug16.063825.15300@julian.uwo.ca> <1992Aug16.213939.15944@ccu1.aukuni.ac.nz> <arms.714014919@spedden> <36931@sdcc12.ucsd.edu>
  9. Sender: news@cs.UAlberta.CA (News Administrator)
  10. Organization: University of Alberta, Edmonton, Canada
  11. Lines: 154
  12. Nntp-Posting-Host: spedden.cs.ualberta.ca
  13.  
  14. demers@cs.ucsd.edu (David DeMers) writes:
  15.  
  16. >In article <arms.714014919@spedden> arms@cs.UAlberta.CA (Bill Armstrong) writes:
  17.  
  18. >>Before one gets deeply into such questions, I think one should specify
  19. >>what one means by "generalization".  
  20.  
  21. >    Z = {(x_i, y_i)}  i = 1, ..., N
  22.  
  23. >    where the x_i are in some space X and the y_i
  24. >    are in some space Y
  25.  
  26. >(since real problems tend to always be bounded, I will
  27. >assume that X and Y are compact)
  28.  
  29. >we believe that there is some functional relationship, 
  30. >    y_i = f(x_i) (possibly perturbed by noise)
  31.  
  32. >we would like to estimate the expected value of y_m
  33. >given x_m, where x_m is not necessarily in Z.
  34.  
  35. >---------------
  36.  
  37. >"Generalization" is performance on x_m not in Z.  Typically,
  38. >"interpolation" is used to describe x_m which are inside
  39. >the convex hull of the x_i, and "extrapolation" is used
  40. >to describe x_m outside the set of training data.
  41.  
  42. I can agree with the above formulation of what we want.
  43.  
  44.      lots of stuff deleted....
  45.  
  46. >A reasonable way to think about all this is that you
  47. >want to minimize some distance measure of your prediction
  48. >and the "truth" over some appropriately weighted set
  49. >in the domain.  For example, minimize squared error
  50. >integrated over X (weighted by the density).
  51.  
  52. This leaves only two problems: defining truth and computing the
  53. function giving our prediction.  These are both very difficult to do,
  54. in general.
  55.  
  56. For example, you may have 10^100 points in X, and we can't evaluate
  57. the squared error.  Even if we could, it might be better to use a
  58. worst case criterion, e.g. maximum absolute error, or maybe some kind
  59. of risk as in game theory.  Anyway, the intention is clear.  We still
  60. at this point don't know what to do about specifying what
  61. generalization is if we don't know what the correct y value is for all
  62. x in X.
  63.  
  64. >>...it should mean something like: for a test point at distance d
  65. >>from a correctly learned training point, the response was still
  66. >>correct (This definition works for boolean and multi-class problems).
  67. >>You could generalize this using interpolation and continuous
  68. >>functions.
  69.  
  70. >This assumes that there is some continuity; that if x_l is near x_m,
  71. >then y_l will be near y_m.  This is typical, and is usually a
  72. >worthwhile prior assumption.  However, the "correct" part might
  73. >be problematic for continuous function approximation problems -
  74. >that is, what is "correct" interpolation?
  75.  
  76. Continuity of the desired output function (even if unknown) and of the
  77. mechanism for implementing it (in theory) are OK, except they don't go
  78. far enough.  If I give you a plot of a million (x,y) pairs in R^2, and
  79. ask you to interpolate based on continuity, then between any two of
  80. the given points, you can still fit in a continuous approximation of a
  81. plot of all the depths of the ocean around the equator true to
  82. vertical scale and horizontally compressed.  Continuity is virtually
  83. no restriction at all in the context we are discussing, and certainly
  84. means nothing for generalization in a digital world.
  85.  
  86. The point is well taken about "correctness".  We usually don't have a
  87. definition of correctness.  For example, we don't have a perfect
  88. description of the set of "A"s on a 32x32 grid, but we need some
  89. formula or other to replace this knowledge in practice.  Correct
  90. interpolation is another thing we don't have a grasp of.
  91.  
  92. >>Once this is agreed upon, some questions start to make sense, like:
  93. >>why should a multilayer perceptron generalize at all?"  It's not
  94. >>because of continuity, because continuous functions can oscillate as
  95. >>rapidly as you want, and could fit any finite, non-contradictory
  96. >>training set as well as you want.
  97.  
  98. >As is shown in the above-referenced paper, feedforward neural
  99. >networks tend to be poor bias, but low variance estimators, which
  100. >improve bias at the cost of increasing variance during training.
  101. >That is, a "random" network is generally pretty smooth, and
  102. >adapts its response surface to the data.
  103.  
  104. Is that the music of celestial violins I hear???
  105.  
  106. By smooth,
  107. >I mean more than just differentiable, I mean that the derivatives
  108. >are bounded.
  109.  
  110. OK, differentiable is fine, but that still allows you to fit in a
  111. differentiable ocean floor plot.  The bound on the derivatives would
  112. help *if* it small enough, because that would give us a Lipschitz
  113. condition too, by the mean value theorem.
  114.  
  115. >So the reason why NNs generalize so well is because the prior
  116. >assumption of smoothness is inherent in the structure of NNs. 
  117.  
  118. Sure, in theory, you have smoothness, continuity and differentiability.
  119. These mean *nothing* in the world of digital arithmetic.
  120.    ...
  121.  
  122. >If you can estimate integrated squared error, you might do better -
  123. >Lipschitz can be pretty pessimistic, which might be what you want
  124. >if, as you mentioned in a previous post, you have to satisfy a
  125. >customer and need a spec in the contract.
  126.  
  127. I disagree, squared error can only be evaluated on a finite set which
  128. is usually sparse in the input space, so it gives us no control of
  129. errors on untested points.  Lipschitz covers *all* points, which we must
  130. somehow cover to define generalization properly.
  131.  
  132. >>Other criteria of good generalization might include monotonicity of the
  133. >>synthesized function.
  134.  
  135. >Or smoothness bounds, which is what the spline people use.
  136.  
  137. Splines are OK too, because they cover all points.
  138.  
  139. >>In the case of adaptive logic networks, generalization is based on the
  140. >>fact that perturbations of an input vector tend to get filtered out as
  141. >>the signal is processed in a tree
  142.  
  143. >Thus you have built in the assumption that a small neighborhood
  144. >of a learned datum has the same response?
  145.  
  146. That's the way ALNs generalize.  They don't interpolate.  To get
  147. continuous functions, like the theory of BP networks produces, you
  148. have to do some smoothing in addition to using ALNs.
  149.  
  150. >So, does the modeling method used bias the search towards functions
  151. >much like the true one?  I.e. simple boolean functions. 
  152.  
  153. Yes, the fact that we train trees biases the solution towards insensitive
  154. functions, suitable for pattern recognition.  If you like, that is the
  155. ALN meaning of "simple".
  156.  
  157. Thanks for the thoughtful comments.
  158.  
  159. PS I hope you don't take the "violins" comment too much to heart, but
  160. the truth is that with a least squared error criterion on the training
  161. set, I can get the optimal learned function to create a disaster very
  162. easily.
  163. --
  164. ***************************************************
  165. Prof. William W. Armstrong, Computing Science Dept.
  166. University of Alberta; Edmonton, Alberta, Canada T6G 2H1
  167. arms@cs.ualberta.ca Tel(403)492 2374 FAX 492 1071
  168.