home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #18 / NN_1992_18.iso / spool / comp / ai / neuraln / 3262 < prev    next >
Encoding:
Internet Message Format  |  1992-08-20  |  2.8 KB

  1. Path: sparky!uunet!cis.ohio-state.edu!pacific.mps.ohio-state.edu!linac!uwm.edu!ogicse!das-news.harvard.edu!cantaloupe.srv.cs.cmu.edu!crabapple.srv.cs.cmu.edu!news
  2. From: sef@sef-pmax.slisp.cs.cmu.edu
  3. Newsgroups: comp.ai.neural-nets
  4. Subject: Re: Reducing Training time vs Generalisation
  5. Message-ID: <BtBJCw.M2n.1@cs.cmu.edu>
  6. Date: 21 Aug 92 05:31:43 GMT
  7. Article-I.D.: cs.BtBJCw.M2n.1
  8. Sender: news@cs.cmu.edu (Usenet News System)
  9. Organization: School of Computer Science, Carnegie Mellon
  10. Lines: 53
  11. Nntp-Posting-Host: sef-pmax.slisp.cs.cmu.edu
  12.  
  13.  
  14.     From: arms@cs.UAlberta.CA (Bill Armstrong)
  15.  
  16.     Now let's see what it takes to get lazy evaluation: first of
  17.     all, I think you would have to insist that the sign of all weights on
  18.     an element be positive, and all signals in the net too.  Otherwise in
  19.     forming a weighted sum of inputs, you can not be sure you are on one
  20.     side of the sharp threshold or not until you have evaluated all inputs
  21.     (not lazy!).  I think the signals would have to be bounded too.
  22.     I think this would be OK.  ALNs are still faster, because they don't
  23.     do arithmetic, but ALNs don't have as powerful nodes.
  24.     
  25. For lazy evalaution, the inputs and hidden unit values would have to be
  26. bounded, but I think you could use bipolar weights.  Sort the weights for
  27. each unit by magnitude.  Evaluate subtrees in order, biggest weight first.
  28. Give up when no combination of remaining weights times the input limits
  29. could pull the total back across threshold.
  30.  
  31. In fact, you wouldn't have to replace the sigmoids with thresholds.  Divide
  32. the sgmoid into three regions: saturated-on, saturated-off, and in-between.
  33. If you find yourself in one of the saturated regions and no combination of
  34. other inputs can pull the net back into the in-between region, stop
  35. evaluating and flush the remaining sub-tress.
  36.  
  37.     One argument for going whole hog into ALNs is that you don't have to
  38.     train using sigmoids, then risk damaging the result of learning by
  39.     going to sharp thresholds.  If there were a training procedure for
  40.     networks of the above kind of node with a sharp threshold, that would
  41.     be very promising.  I thought backprop required differentiability to
  42.     work though.
  43.  
  44. It does.  The Perceptron learning rule (and variants such as Gallant's
  45. pocket algorithm) can train sharp-threshold units, but not multiple layers.
  46.     
  47.     >Myself, I prefer to think in terms of parallel hardware, so lazy evaluation
  48.     >isn't an issue. 
  49.     
  50.     Not true!  If you have a fixed amount of hardware, then to do large
  51.     problems, you will have to iterate it...
  52.  
  53. Sorry, I should have said "sufficiently parallel hardware", meaning you
  54. don't have to share.
  55.     
  56. -- Scott
  57. ===========================================================================
  58.  
  59. Scott E. Fahlman
  60. School of Computer Science
  61. Carnegie Mellon University
  62. 5000 Forbes Avenue
  63. Pittsburgh, PA 15213
  64.  
  65. Internet: sef+@cs.cmu.edu
  66.