home *** CD-ROM | disk | FTP | other *** search
/ Monster Media 1993 #2 / Image.iso / text / 9305nni.zip / 930530.BIB < prev    next >
Text File  |  1993-05-30  |  34KB  |  889 lines

  1. Article 9277 of comp.ai.neural-nets:
  2. Path: serval!netnews.nwnet.net!usenet.coe.montana.edu!caen!usenet.cis.ufl.edu!hkim
  3. From: hkim@insect.cis.ufl.edu (Hyeoncheol Kim)
  4. Newsgroups: comp.ai.neural-nets
  5. Subject: SUMMARY: weight decay references
  6. Date: 30 May 1993 20:36:21 GMT
  7. Organization: Univ. of Florida CIS Dept.
  8. Lines: 874
  9. Distribution: world
  10. Message-ID: <1ub5s5INNisg@snoopy.cis.ufl.edu>
  11. NNTP-Posting-Host: insect.cis.ufl.edu
  12.  
  13.  
  14. Hello, 
  15. I requested references on the subject of weight decay and pruning to
  16. this newsgroup a week ago or so.
  17. Here is summary of the responses that I have got up until now.
  18. Thanks a lot for your help. I really appreciate it.
  19.  
  20. Hyeoncheol Kim
  21. hkim@cis.ufl.edu
  22. Dept. of Computer and Information Sciences
  23. University of Florida
  24. Gainesville, Florida, USA.
  25.  
  26. Enjoy...
  27. SUMMARY BEGINS...
  28. ==================================================================
  29. Date: Mon, 24 May 1993 12:17:29 -0400
  30. From: omlinc@cs.rpi.edu
  31. To: hkim@cis.ufl.edu
  32. Subject: Re: references on pruning wanted ...
  33. Status: R
  34.  
  35. Here is a list of references I received a couple
  36. of months ago in reply to a similar request:
  37.  
  38. >From KRUSCHKE@ucs.indiana.edu Tue Mar 16 15:25:52 1993
  39. Date: Tue, 16 Mar 93 15:25:48 EST
  40. From: "John K. Kruschke" <KRUSCHKE@ucs.indiana.edu>
  41. Subject: weight decay
  42. To: omlinc@cs.rpi.edu
  43. Status: R
  44.  
  45. I did some work on methods to reduce the hidden layers of back-prop
  46. networks (references below), using variants of weight decay, and
  47. there's no reason they couldn't be applied to recurrent networks. 
  48. I've moved on to other research now, but I'd be very interested in
  49. whatever results you get (either supportive or not).  Good luck, in
  50. any case! 
  51.  
  52. Kruschke, J. K. and Movellan, J. R. (1991).
  53. Benefits of gain: Speeded learning and minimal hidden layers in 
  54. back-propagation networks.
  55. IEEE Transactions on Systems, Man and Cybernetics, v.21, pp.273-280.
  56.  
  57. Kruschke, J. K. (1989b).
  58. Distributed bottlenecks for improved generalization in 
  59. back-propagation networks.
  60. International J. of Neural Networks Research and Applications, 
  61. v.1, pp.187-193.
  62.  
  63. Kruschke, J. K. (1989a).
  64. Improving generalization in back-propagation networks with distributed 
  65. bottlenecks.
  66. In: Proceedings of the IEEE International Joint Conference on Neural 
  67. Networks, v.1, 443-447.  Washington DC, June 1989.
  68.  
  69. Kruschke, J. K. (1988).
  70. Creating local and distributed bottlenecks in hidden layers of 
  71. back-propagation networks.
  72. In:  D. Touretzky, G. Hinton and T. Sejnowski (eds.),
  73. Proceedings of the 1988 Connectionist Models Summer School,
  74. pp.120-126.  San Mateo, CA: Morgan Kaufmann.
  75.  
  76.   ------------------------------------------------------------
  77.    John K. Kruschke          Asst. Prof. of Psych. & Cog. Sci.
  78.    Dept. of Psychology         internet: kruschke@indiana.edu
  79.    Indiana University                 bitnet: kruschke@iubacs
  80.    Bloomington, IN 47405-4201          office: (812) 855-3192
  81.    USA                                    lab: (812) 855-9613 
  82.   ============================================================
  83.  
  84.  
  85. >From KRUSCHKE@ucs.indiana.edu Tue Mar 16 15:29:00 1993
  86. Date: Tue, 16 Mar 93 15:28:00 EST
  87. From: "John K. Kruschke" <KRUSCHKE@ucs.indiana.edu>
  88. Subject: more on weight decay
  89. To: omlinc@cs.rpi.edu
  90. Status: R
  91.  
  92. This is pretty dated now, but it might be of historical interest.
  93.  
  94. ==========
  95.  
  96. Date: Tue, 3 Jan 89 00:30:12 PST
  97. From: kruschke@cogsci.berkeley.edu (John Kruschke)
  98. To: connectionists@cs.cmu.edu
  99.  
  100.  
  101. Here is the compilation of responses to my request for info on 
  102. weight decay. 
  103.  
  104. I have kept editing to a minimum, so you can see exactly what the
  105. author of the reply said. Where appropriate, I have included some
  106. comments of my own, set off in square brackets.  The responses are
  107. arranged into three broad topics: (1) Boltzmann-machine related; 
  108. (2) back-prop related; (3) psychology related. 
  109.  
  110. Thanks to all, and happy new year!  --John
  111.  
  112.  
  113.  
  114. -----------------------------------------------------------------
  115.  
  116. ORIGINAL REQUEST:
  117.  
  118. I'm interested in all the information I can get regarding
  119. WEIGHT DECAY in back-prop, or in other learning algorithms.
  120.  
  121. *In return* I'll collate all the info contributed and send the
  122. complilation out to all contributors.
  123.  
  124. Info might include the following:
  125.  
  126.   REFERENCES:
  127.   - Applications which used weight decay
  128.   - Theoretical treatments
  129.   Please be as complete as possible in your citation.
  130.  
  131.   FIRST-HAND EXPERIENCE
  132.   - Application domain, details of I/O patterns, etc.
  133.   - exact decay procedure used, and results
  134.  
  135. (Please send info directly to me: kruschke@cogsci.berkeley.edu
  136.  Don't use the reply command.)
  137.  
  138. T H A N K S !  --John Kruschke.
  139.  
  140.  
  141. -----------------------------------------------------------------
  142.  
  143. From:  Geoffrey Hinton <hinton@ai.toronto.edu>
  144. Date:  Sun, 4 Dec 88 13:57:45 EST
  145.  
  146.  
  147. Weight-decay is a version of what statisticians call "Ridge
  148. Regression". 
  149.  
  150. We used weight-decay in Boltzmann machines to keep the energy barriers
  151. small. This is described in section 6.1 of: 
  152.    Hinton, G. E., Sejnowski, T. J., and Ackley, D. H. (1984)
  153.    Boltzmann Machines: Constraint satisfaction networks that learn.
  154.    Technical Report CMU-CS-84-119, Carnegie-Mellon University.
  155.  
  156. I used weight decay in the family trees example.  Weight decay was
  157. used to improve generalization and to make the weights easier to
  158. interpret (because, at equilibrium, the magnitude of a weight = 
  159. its usefulness).  This is in: 
  160.    Rumelhart, D.~E., Hinton, G.~E., and Williams, R.~J. (1986)  
  161.    Learning representations by back-propagating errors.
  162.    {\it Nature}, {\bf 323}, 533--536.
  163.  
  164. I used weight decay to achieve better generalization in a hard
  165. generalization task that is reported in: 
  166.    Hinton, G.~E. (1987)  
  167.    Learning translation invariant recognition in a massively 
  168.    parallel network.  In Goos, G. and Hartmanis, J., editors, 
  169.    {\it PARLE: Parallel Architectures and Languages Europe}, 
  170.    pages~1--13, Lecture Notes in Computer Science,  
  171.    Springer-Verlag, Berlin.
  172.  
  173.  
  174. Weight-decay can also be used to keep "fast" weights small.  The fast
  175. weights act as a temporary context.  One use of such a context is
  176. described in: 
  177.    Hinton, G.~E. and Plaut, D.~C. (1987)  
  178.    Using fast weights to deblur old memories.
  179.    {\it Proceedings of the Ninth Annual Conference of the 
  180.    Cognitive Science Society}, Seattle, WA.
  181.  
  182. --Geoff
  183.  
  184.  
  185.  
  186. -----------------------------------------------------------------
  187.  
  188. [In his lecture at the International Computer Science Institute, 
  189.  Berkeley CA, on 16-DEC-88, Geoff also mentioned that weight decay is
  190.  good for wiping out the initial values of weights so that only the 
  191.  effects of learning remain.  
  192.  
  193.  In particular, if the change (due to learning) on two weights is the
  194.  same for all updates, then the two weights converge to the same
  195.  value. This is one  way to generate symmetric weights from
  196.  non-symmetric starting values. 
  197.  
  198.  --John] 
  199.  
  200.  
  201.  
  202. -----------------------------------------------------------------
  203.  
  204. From:  Michael.Franzini@SPEECH2.CS.CMU.EDU
  205. Date:  Sun, 4 Dec 1988 23:24-EST 
  206.  
  207. My first-hand experience confirms what I'm sure many other people have
  208. told you: that (in general) weight decay in backprop increases
  209. generalization. I've found that it's particulary important for small
  210. training sets, and its effect diminishes as the training set size
  211. increases. 
  212.  
  213. Weight decay was first used by Barak Pearlmutter.  The first mention
  214. of weight decay is, I believe, in an early paper of Hinton's (possibly
  215. the Plaut, Nowlan, and Hinton CMU CS tech report), and it is
  216. attributed to "Barak Pearlmutter, Personal Communication" there. 
  217.  
  218. The version of weight decay that (i'm fairly sure) all of us at CMU
  219. use is one in which each weight is multiplied by 0.999 every epoch.
  220. Scott Fahlman has a more complicated version, which is described in
  221. his QUICKPROP tech report. [QuickProp is also described in his paper
  222. in the Proceedings of the 1988 Connectionist Models Summer School,
  223. published by Morgan Kaufmann. --John] 
  224.  
  225. The main motivation for using it is to eliminate spurious large
  226. weights which happen not to interfere with recognition of training
  227. data but would interfere with recognizing testing data.  (This was
  228. Barak's motivation for trying it in the first place.) However, I have
  229. heard more theoretical justifications (which, unfortunately, I can't
  230. reproduce.) 
  231.  
  232. In case Barak didn't reply to your message, you might want to contact
  233. him directly at bap@cs.cmu.edu. 
  234.  
  235. --Mike
  236.  
  237.  
  238.  
  239. -----------------------------------------------------------------
  240.  
  241. From:  Barak.Pearlmutter@F.GP.CS.CMU.EDU
  242. Date:  8 Dec 1988 16:36-EST 
  243.  
  244.  
  245. We first used weight decay as a way to keep weights in a boltzmann
  246. machine from growing too large.  We added a term to the thing being
  247. minimized, G, so that 
  248.  
  249.     G' = G + 1/2 h \sum_{i<j} w_{ij}^2
  250.  
  251. where G' is our new thing to minimize.  This gives
  252.  
  253.     \partial G'/\partial w_{ij} = \partial G/\partial w_{ij} + h w_{ij}
  254.  
  255. which is just weight decay with some mathematical motivation.  As Mike
  256. mentioned, I was the person who thought of weight decay in this
  257. context (in the shower no less), but parameter decay has been used
  258. forever, in adaptive control for example. 
  259.  
  260. It sort of worked okay for Boltzmann machines, but works much better
  261. in backpropagation.  As a historic note I should mention that there
  262. were some competing techniques for keeping weights small in Boltzmann
  263. machines, such as Mark Derthick's "differential glommetry" in which
  264. the effective target termperature of the wake phase is higher than
  265. that of the sleep phase.  I don't know if there is an analogue for
  266. this in backpropagation, but there certainly is for mean field theory
  267. networks. 
  268.  
  269. Getting back weight decay, it was noted immediately that G has the
  270. unit "bits" while $w_{ij}^2$ has the unit "weight^2", sort of a
  271. problem from a dimensional analysis point of view.  Solving this
  272. conundrum, Rick Szeliski pointed out that if we're going to transmit
  273. our weights by telephone and know a-priori that weights have gaussian
  274. distributions, so 
  275.  
  276.     P(w_{ij}=x) \propto e^{-1/2 h x^2}
  277.  
  278. where h is set to get the correct variance, then transmitting a weight
  279. w will take $-1/2 h w^2$ bits, which we can add to G with dimensional
  280. confidence. 
  281.  
  282. Of course, this argument extends to fast/slow split weights nicely; the
  283. other guy already knows the slow weights, so we need transmit only the
  284. fast weights.
  285.  
  286. By "ridge regression" I guess Geoff means that valleys in weight space
  287. that cause the weights to grow asymptotically are made to tilt up after
  288. a while, so that the asymptotic tailing off is eliminated.  It's like
  289. adding a bowl to weight space, so minima have to be within the bowl.
  290.  
  291. An interesting side effect of weight decay is that, once we get to a
  292. minimum, so $\partial G'/\partial w = 0$, then
  293.  
  294.     w_{ij} \propto - \partial G/\partial w_{ij}
  295.  
  296. so we can do a sort of eyeball significance analysis, since a weight's
  297. magnitiude is proportaional to how sensitive the error is to changing
  298. it.
  299.  
  300.  
  301. -----------------------------------------------------------------
  302.  
  303. From:  russ%yummy@gateway.mitre.org (Russell Leighton)
  304. Date:  Mon, 5 Dec 88 09:17:56 EST
  305.  
  306.  
  307. We always use weight decay in backprop. It is partiuclarly important
  308. in escaping local minima. Decay moves the transfer function from all
  309. of the semi-linear (sigmoidal) nodes toward the linear region. The
  310. important point is that all nodes move proportionally so no
  311. information in the weights is "erased" but only scaled. When the nodes
  312. that have trapped the system in the local minima are scaled enough,
  313. the system moves onto a different trajectory through weight space.
  314. Oscilations are still possible, but are less likely. 
  315.  
  316. We use decay with a process we call "shaping" (see Wieland and
  317. Leighton, "Shaping Schedules as a Method for Accelerating Leanring",
  318. Abstracts of the First Annual INNS Meeting, Boston, 1988) that we use
  319. to speed learning of some difficult problems. 
  320.  
  321.  
  322. ARPA: russ%yummy@gateway.mitre.org
  323.  
  324. Russell Leighton
  325. MITRE Signal Processing Lab
  326. 7525 Colshire Dr.
  327. McLean, Va. 22102
  328. USA
  329.  
  330.  
  331.  
  332. -----------------------------------------------------------------
  333.  
  334. From:  James Arthur Pittman <hi.pittman@MCC.COM>
  335. Date:  Tue, 6 Dec 88 09:34 CST
  336.  
  337. Probably he will respond to you himself, but Alex Weiland of MITRE
  338. presented a paper at INNS in Boston on shaping, in which the order of
  339. presentation of examples in training a back-prop net was altered to
  340. reflect a simpler rule at first.  Over a number of epochs he gradually
  341. changed the examples to slowly change the rule to the one desired. The
  342. nets learned much faster than if he just tossed the examples at the
  343. net in random order.  He told me that it would not work without weight
  344. decay.  He said their rule-of-thumb was the decay should give the
  345. weights a half-life of 2 to 3 dozen epochs (usually a value such as
  346. 0.9998). But I neglected to ask him if he felt that the number of
  347. epochs or the number of presentations was important.  Perhaps if one
  348. had a significantly different training set size, that rule-of-thumb
  349. would be different? 
  350.  
  351. I have started some experiments simular to his shaping, using some
  352. random variation of the training data (where the random variation
  353. grows over time). Weiland also discussed this in his talk.  I haven't
  354. yet compared decay with no-decay.  I did try (as a lark) using decay
  355. with a regular (non-shaping) training, and it did worse than we
  356. usually get (on same data and same network type/size/shape).  Perhaps
  357. I was using a stupid decay value (0.9998 I think) for that situation. 
  358.  
  359. I hope to get back to this, but at the moment we are preparing for a
  360. software release to our shareholders (MCC is owned by 20 or so
  361. computer industry corporations).  In the next several weeks a lot of
  362. people will go on Christmas vacation, so I will be able to run a bunch
  363. of nets all at once. They call me the machine vulture. 
  364.  
  365.  
  366. -----------------------------------------------------------------
  367.  
  368. From:  Tony Robinson <ajr@digsys.engineering.cambridge.ac.uk>
  369. Date:  Sat, 3 Dec 88 11:10:20 GMT
  370.  
  371. Just a quick note in reply to your message to `connectionists' to say
  372. that I have tried to use weight decay with back-prop on networks with
  373. order 24 i/p, 24 hidden, 11 o/p units.  The problem was vowel
  374. recognition (I think), it was about 18 months ago, and the problem was
  375. of the unsolvable type (i.e. non-zero final energy). 
  376.  
  377. My conclusion was that weight decay only made matters worse, and my
  378. justification (to myself) for abandoning weight decay was that you are
  379. not even pretending to do gradient descent any more, and any good
  380. solution formed quickly becomes garbaged by scaling the weights. 
  381.  
  382. If you want to avoid hidden units sticking on their limiting values,
  383. why not use hidden units with no limiting values, for instance I find
  384. the activation function f(x) = x * x works better than f(x) = 1.0 /
  385. (1.0 + exp(- x)) anyway. 
  386.  
  387. Sorry I havn't got anything formal to offer, but I hope these notes
  388. help. 
  389.  
  390. Tony Robinson.
  391.  
  392.  
  393. -----------------------------------------------------------------
  394.  
  395. From: jose@tractatus.bellcore.com (Stephen J Hanson)
  396. Date: Sat, 3 Dec 88 11:54:02 EST
  397.  
  398. Actually, "costs" or "penalty" functions are probably better terms. We
  399. had a poster last week at NIPS that discussed some of the pitfalls and
  400. advantages of two kinds of costs.   I can send you the paper when we
  401. have a version available. 
  402.  
  403. Stephen J. Hanson (jose@bellcore.com)
  404.  
  405.  
  406.  
  407. -----------------------------------------------------------------
  408.  
  409. [ In a conversation in his office on 06-DEC-88, Dave Rumelhart
  410. described to me several cost functions he has tried. 
  411.  
  412. The motive for the functions he has tried is different from the motive
  413. for standard weight decay. Standard weight decay, 
  414.  
  415. \sum_{i,j} w_{i,j}^2 ,
  416.  
  417. is used to *distribute* weights more evenly over the given
  418. connections, thereby increasing robustness (cf. earlier replies). 
  419.  
  420. He has tried several other cost functions in an attempt to *localize*,
  421. or concentrate, the weights on a small subset of the given
  422. connections.  The goal is to improve generalization.  His favorite is 
  423.  
  424. \sum_{i,j} ( w_{i,j}^2 / ( K + w_{i,j}^2 ) )
  425.  
  426. where K is a constant, around 1 or 2.  Note that this function is 
  427. negatively accelerating, whereas standard weight decay is positively 
  428. accelerating.  This function penalizes small weights (proportionally) 
  429. more than large weights, just the opposite of standard weight decay.
  430.  
  431. He has also tried, with less satisfying results,
  432.  
  433. \sum ( 1 -  \exp - (\alpha w_{i,j}^2) )
  434.  
  435. and
  436.  
  437. \sum \ln ( K + w_{i,j}^2 ).
  438.  
  439. Finally, he has tried a cost function designed to make all the fan-in 
  440. weights of a single unit decay, when possible.  That is, the unit is
  441. effectively cut out of the network.  The function is
  442.  
  443. \sum_i  (\sum_j w_{i,j}^2) / ( K +  \sum_j w_{i,j}^2 ).
  444.  
  445. Each weight is thereby penalized (inversely) proportionally to the
  446. total fan-in weight of its node. 
  447.  
  448. --John ]
  449.  
  450. [1991:  Some papers that have explored Rumelhart's ideas:
  451.  
  452. Hanson, S. J. and Pratt, L. Y. (1989).  Comparing biases form minimal 
  453. network construction with back-propagation.  In: D. S. Touretzky 
  454. (ed.), Advances in Neural Information Processing Systems 1, 
  455. pp.177-185.  San Mateo, CA: Morgan Kaufmann.
  456.  
  457. Weigend, A. S., Rumelhart, D. E., & Huberman, B. A. (1991).
  458. Generalization by weight-elimination with application to forecasting.
  459. In: R. P. Lippmann, J. Moody, & D. S. Touretzky (eds.),
  460. Advances in Neural Information Processing Systems 3,
  461. San Mateo, CA: Morgan Kaufmann.
  462.  
  463. (end references).]
  464.  
  465.  
  466. -----------------------------------------------------------------
  467.  
  468. [ This is also a relevant place to mention my paper in the Proceedings
  469. of the 1988 Connectionist Models Summer School, "Creating local and
  470. distributed bottlenecks in back-propagation networks". I have since
  471. developed those ideas, and have expressed the localized bottleneck
  472. method as gradient descent on an additional cost term.  The cost term
  473. is quite general, and some forms of decay are simply special cases of
  474. it.  --John] 
  475.  
  476. [ 1991:  Here are references to that work:
  477.  
  478. Kruschke, J. K., & Movellan, J. R. (1991).  Benefits of gain: Speeded 
  479. learning and minimal hidden layers in back propagation networks.
  480. IEEE Transactions on Systems, Man and Cybernetics, v.21, pp.273-280.
  481.  
  482. Kruschke, J. K. (1989b).  Distributed bottlenecks for improved 
  483. generalization in back-propagation networks.  International Journal of 
  484. Neural Networks Research and Applications, v.1, pp.187-193.
  485.  
  486. Kruschke, J. K. (1989a). Improving generalization in back-propagation 
  487. networks with distributed bottlenecks. In:  Proceedings of the IEEE 
  488. International Joint Conference on Neural Networks, Washington D.C. 
  489. June 1989, v.1, pp.443-447.
  490.  
  491. Kruschke, J. K. (1988).  Creating local and distributed bottlenecks in 
  492. hidden layers of back-propagation networks.  In: D. Touretzky, 
  493. G. Hinton, & T. Sejnowski (eds.),  Proceedings of the 1988 
  494. Connectionist Models Summer School, pp.120-126.  San Mateo, CA: 
  495. Morgann Kaufmann.
  496.  
  497. (end references).]
  498.  
  499.  
  500. -----------------------------------------------------------------
  501.  
  502. From: john moody <moody-john@YALE.ARPA>
  503. Date: Sun, 11 Dec 88 22:54:11 EST
  504.  
  505. Scalettar and Zee did some interesting work on weight decay with back prop
  506. for associative memory. They found that a Unary Representation emerged (see
  507. Baum, Moody, and Wilczek; Bio Cybernetics Aug or Sept 88 for info on Unary
  508. Reps). Contact Tony Zee at UCSB (805)961-4111 for info on weight decay paper.
  509.  
  510. --John Moody
  511.  
  512. [ 1991: Here's a reference on that excellent paper:
  513.  
  514. Scalettar, R. & Zee, A. (1986).  A feed-forward memory with decay.
  515. Technical Report NSF-ITP-86-118, Institute for Theoretical Physics, 
  516. University of California at Santa Barbara.  Later published as:
  517. Emergence of grandmother memory in feed forward networks: learning 
  518. with noise and forgetfulness.  In: D. Waltz & J. A. Feldman (eds.),
  519. Connectionist models and their implications: Readings from Cognitive 
  520. Science.  Ablex, 1988.
  521.  
  522. (end reference).]
  523.  
  524.  
  525. -----------------------------------------------------------------
  526.  
  527. From: gluck@psych.Stanford.EDU (Mark Gluck)
  528. Date: Sat, 10 Dec 88 16:51:29 PST
  529.  
  530. I'd appreciate a copy of your weight decay collation. I have a paper in MS
  531. form which illustrates how adding weight decay to the linear-LMS one-layer
  532. net improves its ability to predict human generalization in classification
  533. learning. 
  534.  
  535. mark gluck
  536. dept of psych
  537. stanford univ,
  538. stanford, ca 94305
  539.  
  540.  
  541.  
  542.  
  543. -----------------------------------------------------------------
  544.  
  545. From:  INAM000 <INAM%MCGILLB.bitnet@jade.berkeley.edu>  (Tony Marley) 
  546. Date:  SUN 04 DEC 1988 11:16:00 EST
  547.  
  548. I have been exploring some ideas re COMPETITIVE LEARNING with "noisy
  549. weights" in modeling simple psychophysics.  The task is the classical
  550. one of identifying one of N signals by a simple (verbal) response
  551. -e.g. the stimuli might be squares of different sizes, and one has to
  552. identify the presented one by  saying the appropriate integer.  We
  553. know from classical experiments that people cannot perform this task
  554. perfectly once N gets larger than about 7, but performance degrades
  555. smoothly for larger N. 
  556.  
  557. I have been developing simulations where the mapping is learnt by
  558. competitive learning, with the weights decaying/varying over time when
  559. they are not reset by relevant inputs.  I have not got too many
  560. results to date, as I have been taking the psychological data
  561. seriously, which means worrying about reaction times, sequential
  562. effects, "end effects" (stimuli at the end of the range more
  563. accurately identified), range effects (increasing the stimulus range
  564. has little effect), etc.. 
  565.  
  566. Tony Marley
  567.  
  568.  
  569. -----------------------------------------------------------------
  570.  
  571. From:  aboulanger@bbn.com  (Albert Boulanger)
  572. Date:  Fri, 2 Dec 88 19:43:14 EST
  573.  
  574. This one concerns the Hopfield model.  In
  575.     James D Keeler,
  576.     "Basin of Attraction of Neural Network Models", 
  577.     Snowbird Conference Proceedings (1986), 259-264,
  578. it is shown that the basins of attraction become very complicated as
  579. the number of stored patterns increase. He uses a weight modification
  580. method called "unlearning" to smooth out these basins.
  581.  
  582.  
  583. Albert Boulanger
  584. BBN Systems & Technologies Corp.
  585. aboulanger@bbn.com
  586.  
  587.  
  588. -----------------------------------------------------------------
  589.  
  590. From:  Joerg Kindermann <unido!gmdzi!joerg@uunet.UU.NET>
  591. Date:  Mon, 5 Dec 88 08:21:03 -0100
  592.  
  593. We used a form of weight decay not for learning but for recall in
  594. multilayer feedforward networks. See the following abstract. Input
  595. patterns are treated as ``weights'' coming from a constant valued
  596. external unit. 
  597.  
  598. If you would like a copy of the technical report, please send e-mail to
  599.   joerg@gmdzi.uucp
  600. or write to:
  601.   Dr. Joerg Kindermann
  602.   Gesellschaft fuer Mathematik und Datenverarbeitung
  603.   Schloss Birlinghoven
  604.   Postfach 1240
  605.   D-5205 St. Augustin 1
  606.   WEST GERMANY
  607.  
  608.      Detection of Minimal Microfeatures by Internal Feedback
  609.                     J. Kindermann & A. Linden
  610.                                  
  611.                              Abstract
  612.                                    
  613. We define the notion of minimal microfeatures and introduce a new
  614. method of internal feedback for multilayer networks. Error signals are
  615. used to modify the input of a net. When combined with input DECAY,
  616. internal feedback allows the detection of sets of minimal
  617. microfeatures, i.e. those subpatterns which the network actually uses
  618. for discrimination. Additional noise on the training data increases
  619. the number of minimal microfeatures for a given pattern. The detection
  620. of minimal microfeatures is a first step towards a subsymbolic system
  621. with the capability of self-explanation. The paper provides examples
  622. from the domain of letter recognition.
  623.  
  624.  
  625.  
  626. -----------------------------------------------------------------
  627.  
  628. From:  Helen M. Gigley <hgigley@note.nsf.gov>
  629. Date:  Mon, 05 Dec 88 11:03:23 -0500
  630.  
  631.  
  632. I am responding to your request even though my use of decay is not
  633. with respect to learning in connectionist-like models. My focus has
  634. been on a functioning system that can be lesioned. 
  635.  
  636. One question I have is what is the behavioral association to weight
  637. decay? What aspects of learning is it intended to reflect.  I can
  638. understand that activity decay over time of each cell is meaningful
  639. and reflects a cellular property, but what is weight decay in
  640. comparable terms? 
  641.  
  642. Now, I will send you offprints if you would like of my work and am
  643. including a list of several publications which you may be able to
  644. peruse.  The model, HOPE, is a hand-tuned structural connectionist
  645. model that is designed to enable lesioning without redesign or
  646. reprogramming to study possible processing causes of aphasia.  Decay
  647. factors as an integral part of dynamic time-dependent processes are
  648. one of several aspects of processing in a neural environment which
  649. potentially affect the global processing results even though they are
  650. defined only locally.  If I can be of any additional help please let
  651. me know. 
  652.  
  653. Helen Gigley 
  654.  
  655.  
  656. References:
  657.  
  658. Gigley, H.M. Neurolinguistically Constrained Simulation of Sentence
  659. Comprehension:  Integrating Artificial Intelligence and Brain Theorym
  660. Ph.D. Dissertation, UMass/Amherst, 1982.  Available University
  661. Microfilms, Ann Arbor, MI. 
  662.  
  663. Gigley, H.M.  HOPE--AI and the dynamic process of language behavior. 
  664. in Cognition and Brain Theory 6(1) :39-88, 1983. 
  665.  
  666. Gigley, H.M.  Grammar viewed as a functioning part of of a cognitive
  667. system. Proceedings of ACL 23rd Annual Meeting, Chicago, 1985 . 
  668.  
  669. Gigley, H.M.  Computational Neurolinguistics -- What is it all about? 
  670. in IJCAI Proceedings, Los Angeles, 1985. 
  671.  
  672. Gigley, H.M.  Studies in Artificial Aphasia--experiments in processing
  673. change.  In Journal of Computer Methods and Programs in Biomedicine,
  674. 22 (1): 43-50, 1986. 
  675.  
  676. Gigley, H.M.  Process Synchronization, Lexical Ambiguity Resolution,
  677. and Aphasia.  In Steven L. Small, Garrison Cottrell, and Michael
  678. Tanenhaus (eds.)  Lexical Ambiguity Resolution, Morgen Kaumann, 1988. 
  679.  
  680.  
  681.  
  682. -----------------------------------------------------------------
  683.  
  684. From:  bharucha@eleazar.Dartmouth.EDU (Jamshed Bharucha)
  685. Date:  Tue, 13 Dec 88 16:56:00 EST
  686.  
  687. I haven't tried weight decay but am curious about it. I am working on
  688. back-prop learning of musical sequences using a Jordan-style net. The
  689. network develops a musical schema after learning lots of sequences
  690. that have culture-specific regularities. I.e., it learns to generate
  691. expectancies for tones following a sequential context. I'm interested
  692. in knowing how to implement forgetting, whether short term or long
  693. term. 
  694.  
  695. Jamshed.
  696.  
  697. -----------------------------------------------------------------
  698.  
  699. ======== END OF WEIGHT DECAY NOTES ==============================
  700.  
  701.  
  702.  
  703. Christian
  704.  
  705. PS:I also submitted a paper to NIPS which deals
  706.     with improving the generalization performance
  707.     of recurrent networks through neuron pruning.
  708.     It is available via anonymous ftp.
  709.  
  710.     The address is external.nj.nec.com. The file
  711.     is /pub/giles/papers/prune.ps.Z.
  712.  
  713. ====================================================================
  714. Date: Mon, 24 May 93 14:39:52 -0500
  715. From: John Kruschke <kruschke@pallas.psych.indiana.edu>
  716. To: hkim@thedog.cis.ufl.edu
  717. Subject: Re: weight decay: references wanted...
  718. Organization: Indiana University
  719. Status: R
  720.  
  721. Some references on weight decay / node pruning or creation / 
  722. dimensionality reduction:
  723.  
  724. Kruschke, J. K. & Movellan, J. R. (1991).  Benefits of gain: speeded
  725.   learning and minimal hidden layers in back-propagation networks.
  726.   IEEE Transaction on Systems, Man and Cybernetics, v.21, pp.273-280.
  727.  
  728. Kruschke, J. K. (1989).  Distributed bottlenecks for improved 
  729.   generalization in back-propagation networks.  International Journal 
  730.   of Neural Networks Research and Applications, v.1, pp.187--193.
  731.  
  732. Kruschke, J. K. (1989).  Creating local and distributed bottlenecks in
  733.   hidden layers of back-propagation networks.  In: D. Touretzky, 
  734.   G. Hinton and T. Sejnowski (Eds.), Proceedings of the 1988 
  735.   Connectionist Models Summer School, pp.120-126.  San Mateo, CA: 
  736.   Morgan Kaufmann.
  737.  
  738. (The first two papers listed above report extensions of ideas introduced
  739. in the third paper listed above.)
  740.  
  741. One of the appealing properties of the methods described in those papers
  742. is that they can be construed as either node pruning or as node creating
  743. methods.  There is a pool of candidate nodes, and the degree of their 
  744. participation can be continuously adjusted, so that nodes can be retired
  745. ("pruned") or recruited ("created") as needed, depending on how effectively
  746. error is being reduced with the currently participating nodes.
  747.  
  748. John K. Kruschke
  749. Dept. of Psychology and Cognitive Science Program
  750. Indiana University
  751. Bloomington, IN 47405
  752.  
  753. P.S. Please send me or post the complete list of references you get! Thanks.
  754.  
  755. =====================================================================
  756.  
  757. Date: Tue, 25 May 93 11:49:27 EDT
  758. From: gatech!concert.net!array!nasir@bikini.cis.ufl.edu (Nasir Ghani)
  759. Message-Id: <9305251549.AA15245@array.UUCP>
  760. To: hkim@cis.ufl.edu
  761. Status: R
  762.  
  763. Hi,
  764.  
  765. There are some articles in the NIPS (Neural Information Processing ???) which
  766. deal with the pruning (weights only, not neurons) of neural networks,
  767. (BACKPROPAGATION NETS, i am talking about).  I used the work from a paper
  768. by Yan and Le Cun in NIPS i think 1991 or so, and they had a method called
  769. optimal brain damage.  THis is a rather structure approach, and you may just
  770. try ad-hoc approaches such as magnitude metric or something to knock of weights
  771. below a certain threshold.......i found for my work at least, that the OBD
  772. took a LOT longer to compute and the results were marginally better than 
  773. a simple threshold sort of rule.  It really depends on the data you have and
  774. how much of it you have for training purposes....hope this helps.
  775. Later
  776. Nasir Ghani
  777.  
  778. ==========================================================================
  779.  
  780. Date: Wed, 26 May 93 11:48:04 EST
  781. From: young@s1.elec.uq.oz.au (Steven Young)
  782. Message-Id: <9305260148.AA01404@s2.elec.uq.oz.au>
  783. To: hkim@thedog.cis.ufl.edu
  784. Subject: Re: weight decay: references wanted...
  785. Status: R
  786.  
  787. I posted the following in reply to a similar request from Elliot Furman
  788. Newsgroups: comp.ai.neural-nets
  789. Subject: Re: Pruning units and weights
  790. Date: Wed, 12 May 1993 00:22:13 GMT
  791.  
  792. furman@leland.Stanford.EDU (Elliot M Furman) writes:
  793. >Can anyone tell me how to prune unnecessary units and weights?
  794. >I would like to start training a fully feedforward NN with
  795. >too many units and then prune those that aren't contributing
  796. >much to the "solution".
  797.  
  798. This is the standard approach that comes to mind when people consider
  799. pruning and is suggested in various papers I have seen (Many people
  800. attribute the idea to Rumelhart?).  I'll include a list of references
  801. that I know of at the end of this post.
  802.  
  803. One approach is the method of weight decaying, and removing connections
  804. if the final (trained) weight is small (pick a parameter value and if
  805. the weight is less than that in absolute value, remove it).  There are
  806. a number of papers on including weight decay as a part of the error
  807. function for minimization with standard descent techniques.  There
  808. are a range of approaches and many papers expounding this idea:
  809. (Hanson and Pratt, 1989), (Chauvin, 1989), (Le Cun, Denker and Solla, 1990),
  810. (Ji, Snapp, Psaltis, 1990), (Bishop, 1990), (Weigend, Rumelhart, and Huberman,
  811. 1991).
  812.  
  813. There are some other schemes of making pruning decisions directly.
  814. One simple rule (suggested initially by Sietsma and Dow (1988)) is to check
  815. if network units in the same layer are duplicating function, if so
  816. then remove one of the duplicating units.  Mozer and Smolensky (1989) have
  817. suggested a different scheme called skeletonization which makes a
  818. decision based on the `relevance' of the unit.  Relevance is checked
  819. by comparing the performance of the network with the unit included and
  820. removed.
  821.  
  822. J. Sietsma, R. J. F. Dow, `Neural Network Pruning --- Why and How',
  823. ICNN 1988, vol I, pages 325--333, 1988.
  824.  
  825. Yves Chauvin, `A Back-Propagation Algorithm with optimal use of Hidden
  826. Units', NIPS 1, pages 519--526, 1989.
  827.  
  828. Stephen Jos{\'e} Hanson, Lorien Y. Pratt, `Comparing Biases for Minimal
  829. Construction with Back-Propagation', NIPS 1, pages 177--185, 1989.
  830.  
  831. Michael C. Mozer, Paul Smolensky, `Skeletonization: A technique for
  832. trimming the fat from a network via relevance assessment', NIPS 1,
  833. pages 107--115, 1989.
  834.  
  835. Michael C. Mozer, Paul Smolensky, `Using Relevance to Reduce Network
  836. Size Automatically', Connection Science, vol. 1, no. 1, pages 3--16, 1989
  837.  
  838. C. M. Bishop, `Curvature-Driven Smoothing in Backpropagation Neural
  839. Networks', INNC-1990-Paris, pages 749--752, 1990.
  840.  
  841. Chuanyi Ji, Robert R. Snapp, Demetri Psaltis, `Generalizing Smoothness
  842. Constraints from Discrete Samples', Neural Computation, vol. 2, pages
  843. 188-197, 1990.
  844.  
  845. Yann Le Cun, John S. Denker, Sara A. Solla, `Optimal Brain Damage',
  846. NIPS 2, pages 598--605, 1990
  847.  
  848. Jocelyn Sietsma, Robert J.F. Dow, `Creating Artificial Neural Networks
  849. That Generalize' Neural Networks, vol 4, pages 67--79, 1991.
  850.  
  851. Andreas S. Weigend, David E. Rumelhart, Bernardo A. Huberman,
  852. `Generalization by Weight-Elimination with Application to Forecasting',
  853. NIP 3, pages 875--882, 1991.
  854.  
  855. Hope this is helpful.
  856.  
  857. Steven
  858. -- 
  859. Steven Young       PhD Student  |  Dept of Electrical Engineering
  860. email : young@s1.elec.uq.oz.au  |  University    of    Queensland
  861.    Murphy was an anarchist!     |  AUSTRALIA 4072 Ph:61+7 3653564
  862. ---------
  863.  
  864. And John Kruschke posted the following recently
  865. Date: Mon, 17 May 93 14:08:09 -0500
  866. From: John Kruschke <kruschke@pallas.psych.indiana.edu>
  867. Subject: Re: Pruning units and weights
  868. Newsgroups: comp.ai.neural-nets
  869.  
  870. Here are a couple more references to papers that describe methods for pruning
  871. unneeded nodes from backprop networks:
  872.  
  873. Kruschke, J. K. (1989).  Distributed bottlenecks for improved generalization
  874. in back-propagation networks.  International Journal of Neural Networks
  875. Research and Applications, v.1, pp.187-193.
  876.  
  877. Kruschke, J. K., & Movellan, J. R. (1991).  Benefits of gain: Speeded learning
  878. and minimal hidden layers in back-propagation networks.  IEEE Transactions
  879. on Systems, Man and Cybernetics, v.21, pp.273-280.
  880.  
  881. John K. Kruschke
  882. Dept. of Psychology
  883. Indiana University
  884. Bloomington, IN 47405 USA
  885. --------
  886.  
  887.  
  888.  
  889.