home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #18 / NN_1992_18.iso / spool / comp / ai / neuraln / 3219 < prev    next >
Encoding:
Text File  |  1992-08-18  |  6.1 KB  |  133 lines

  1. Newsgroups: comp.ai.neural-nets
  2. Path: sparky!uunet!wupost!gumby!destroyer!ubc-cs!unixg.ubc.ca!kakwa.ucs.ualberta.ca!alberta!arms
  3. From: arms@cs.UAlberta.CA (Bill Armstrong)
  4. Subject: Re: Reducing Training time vs Generalisation
  5. Message-ID: <arms.714146123@spedden>
  6. Keywords: back propagation, training, generalisation
  7. Sender: news@cs.UAlberta.CA (News Administrator)
  8. Nntp-Posting-Host: spedden.cs.ualberta.ca
  9. Organization: University of Alberta, Edmonton, Canada
  10. References: <arms.714014919@spedden> <36931@sdcc12.ucsd.edu> <arms.714091659@spedden> <36944@sdcc12.ucsd.edu>
  11. Date: Tue, 18 Aug 1992 13:55:23 GMT
  12. Lines: 119
  13.  
  14. demers@cs.ucsd.edu (David DeMers) writes:
  15.  
  16. >In article <arms.714091659@spedden> arms@cs.UAlberta.CA (Bill Armstrong) writes:
  17. >...
  18.  
  19. >> ... the truth is that with a least squared error criterion on the training
  20. >>set, I can get the optimal learned function to create a disaster very
  21. >>easily.
  22.  
  23. >No offense, certainly.  I guess I just don't understand what you
  24. >mean by "disaster" nor what you've meant in previous postings
  25. >about "wild" results...  
  26.  
  27. OK, then it's worth repeating the explanation of how "wild" values can
  28. be expected to occur once in a while in a trained net.  Scott Fahlmann
  29. pointed out that penalizing large weights can have a beneficial effect.
  30.  
  31. *****
  32.  
  33. Here is an example of a backpropagation neural network that has very
  34. wild behavior at some points not in the training or test sets.  It has
  35. just one input unit ( for variable x), two hidden units with a
  36. sigmoidal squashing function, and one output unit.
  37.  
  38. This kind of subnetwork, a "neural net virus" if you like, may exist
  39. in many of the networks that have been trained to date.  It could be
  40. built into any large BP network, and might hardly change the latter's
  41. output behavior at all -- except in one small region of the input
  42. space, where a totally unexpected output could occur that might lead
  43. to disaster.
  44.  
  45. I hope this note will be taken as a warning by all persons whose ANS
  46. are used in safety critical applications in medicine, engineering, the
  47. military etc.  It is also an encouragement to design safety into their
  48. neural networks.
  49.  
  50. In order to avoid details of the backpropagation algorithm, we shall
  51. just use the property that once a BP net has reached an absolute
  52. minimum of error on the training and test sets, its parameters are not
  53. changed.  So our net will have zero error by design and the BP
  54. algorithm, applied with infinite precision arithmetic, would not
  55. change its weights.  The issue of getting stuck at a local minimum of
  56. error does not apply in this case, since it is an absolute minimum.
  57.  
  58. All the weights in the system remain bounded, and in this case, the
  59. bound on their absolute values is 40.  The output unit's function is
  60. 40 * H1 + 40 * H2 - 40, where Hi is the output of the i-th hidden unit
  61. (i = 1, 2).  The output unit has no sigmoid, though one could be
  62. inserted with no loss of generality.  The two hidden units have
  63. outputs of the form 1/(1 + e ^ (w0 + w1*x)) with w0 = -10 and w0 = 30,
  64. while w1 = + 40 and -40, respectively.
  65.  
  66. We assume the net has been trained on a subset of integers and also
  67. tested on a subset of integers.  This could be replaced by a finer
  68. grid, and safety assured (for bounded weights).  However, in a
  69. d-dimensional input space with a quantization to L levels of each
  70. variable, one would need L ^ d training and test points, which can
  71. easily be an astronomically large number (e.g. 1000 ^ 10).  Hence it
  72. is not generally feasible to assure safety by testing.
  73.  
  74. Below is the overall function f(x) produced by the net, which is also
  75. the specification of what it is *supposed* to do outside the interval
  76. (0,1).  In (0,1) the specification is to be less than 0.002 in
  77. absolute value.
  78.  
  79. f(x) = 40 [ 1/( 1 + e^40*(x - 1/4))  +   1/( 1 + e^-40*(x - 3/4))  -1 ]
  80.  
  81. The largest deviation of our trained network f(x) from 0 on all integers is
  82.  
  83. f(0) = f(1) = 0.0018...
  84.  
  85. So f is within 2/1000 of being 0 everywhere on our training and test
  86. sets.  Can we be satisfied with it?  No! If we happen to give an input
  87. of x = 1/2, we get
  88.  
  89. f(1/2) = - 39.99...
  90.  
  91. The magnitude of this is over 22000 times larger than anything
  92. appearing during training and testing, and is way out of spec.
  93.  
  94. Such unexpected values are likely to be very rare if a lot of testing
  95. has been done on a trained net, but even then, the potential for
  96. disaster can still be lurking in the system.  Unless neural nets are
  97. *designed* to be safe, there may be a serious risk involved in using
  98. them.
  99.  
  100. The objective of this note is *not* to say "neural nets are bad for
  101. safety critical applications".  On the contrary, I personally believe
  102. they can be made as safe as any digital circuit, and a lot safer than
  103. programs.  This might make ANS the method of choice for
  104. safety-critical electronic applications, for example in aircraft
  105. control systems.
  106.  
  107. But to achieve that goal, a design methodology must be used which is
  108. *guaranteed* to lead to a safe network.  Such a methodology can be
  109. based on decomposition of the input space into parts where the
  110. function synthesized is forced to be monotonic in each variable.  For
  111. adaptive logic networks, this is easy to achieve.  The random walk
  112. technique for encoding real values used in the atree release 2.0
  113. software available by ftp is not appropriate for enforcing
  114. monotonicity.  Instead, thresholds should be used, which are monotonic
  115. functions R -> {0,1}.  By forcing monotonicity, one can assure that no
  116. wild values can occur, since all values will be bounded by the values
  117. at points examined during testing.
  118.  
  119. For BP networks, I am not sure a safe design methodology can be
  120. developed.  This is not because of the BP algorithm, per se, but
  121. rather because of the architecture of multilayer networks with
  122. sigmoids: *all* weights are used in computing *every* output (the
  123. effect of zero weights having been eliminated).  Every output is
  124. calculated using some negative and some positive weights, giving very
  125. little hope of control over the values beyond the set of points
  126. tested.
  127.  
  128. --
  129. ***************************************************
  130. Prof. William W. Armstrong, Computing Science Dept.
  131. University of Alberta; Edmonton, Alberta, Canada T6G 2H1
  132. arms@cs.ualberta.ca Tel(403)492 2374 FAX 492 1071
  133.