home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #18 / NN_1992_18.iso / spool / comp / ai / neuraln / 3282 < prev    next >
Encoding:
Text File  |  1992-08-22  |  3.1 KB  |  71 lines

  1. Newsgroups: comp.ai.neural-nets
  2. Path: sparky!uunet!elroy.jpl.nasa.gov!sdd.hp.com!caen!destroyer!ubc-cs!unixg.ubc.ca!kakwa.ucs.ualberta.ca!alberta!arms
  3. From: arms@cs.UAlberta.CA (Bill Armstrong)
  4. Subject: Re: Reducing Training time vs Generalisation
  5. Message-ID: <arms.714517521@spedden>
  6. Sender: news@cs.UAlberta.CA (News Administrator)
  7. Nntp-Posting-Host: spedden.cs.ualberta.ca
  8. Organization: University of Alberta, Edmonton, Canada
  9. References: <BtBJCw.M2n.1@cs.cmu.edu>
  10. Date: Sat, 22 Aug 1992 21:05:21 GMT
  11. Lines: 58
  12.  
  13. sef@sef-pmax.slisp.cs.cmu.edu writes:
  14.  
  15. >    From: arms@cs.UAlberta.CA (Bill Armstrong)
  16. >    Now let's see what it takes to get lazy evaluation: first of
  17. >    all, I think you would have to insist that the sign of all weights on
  18. >    an element be positive, and all signals in the net too.  Otherwise in
  19. >    forming a weighted sum of inputs, you can not be sure you are on one
  20. >    side of the sharp threshold or not until you have evaluated all inputs
  21. >    (not lazy!).  I think the signals would have to be bounded too.
  22. >    I think this would be OK.  ALNs are still faster, because they don't
  23. >    do arithmetic, but ALNs don't have as powerful nodes.
  24. >    
  25. >For lazy evalaution, the inputs and hidden unit values would have to be
  26. >bounded, but I think you could use bipolar weights.  Sort the weights for
  27. >each unit by magnitude.  Evaluate subtrees in order, biggest weight first.
  28. >Give up when no combination of remaining weights times the input limits
  29. >could pull the total back across threshold.
  30.  
  31. >In fact, you wouldn't have to replace the sigmoids with thresholds.  Divide
  32. >the sgmoid into three regions: saturated-on, saturated-off, and in-between.
  33. >If you find yourself in one of the saturated regions and no combination of
  34. >other inputs can pull the net back into the in-between region, stop
  35. >evaluating and flush the remaining sub-tress.
  36.  
  37. I agree with everything you have said.  It becomes clear that the
  38. non-saturated portion of the sigmoid is the costly part of evaluation,
  39. doesn't it?
  40.  
  41. >    One argument for going whole hog into ALNs is that you don't have to
  42. >    train using sigmoids, then risk damaging the result of learning by
  43. >    going to sharp thresholds.  If there were a training procedure for
  44. >    networks of the above kind of node with a sharp threshold, that would
  45. >    be very promising.  I thought backprop required differentiability to
  46. >    work though.
  47.  
  48. >It does.  The Perceptron learning rule (and variants such as Gallant's
  49. >pocket algorithm) can train sharp-threshold units, but not multiple layers.
  50. >    
  51.  
  52. OK, then you have to admit that since an ALN is a multi-layer
  53. perceptron, and since the ALN training procedure works, and since this
  54. fact has been in the scientific and patent literature for twenty
  55. years, it is about time that people revise their thinking: multilayer
  56. perceptrons *can* be trained.
  57.  
  58. Scientists, for whatever reason, seem to prefer to downplay the fact.
  59.  
  60. Now, maybe if I could walk on water ...
  61.  
  62. Thanks for your comments.
  63.  
  64. Bill
  65. --
  66. ***************************************************
  67. Prof. William W. Armstrong, Computing Science Dept.
  68. University of Alberta; Edmonton, Alberta, Canada T6G 2H1
  69. arms@cs.ualberta.ca Tel(403)492 2374 FAX 492 1071
  70.