home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #20 / NN_1992_20.iso / spool / comp / ai / neuraln / 3502 < prev    next >
Encoding:
Internet Message Format  |  1992-09-15  |  3.0 KB

  1. Path: sparky!uunet!olivea!decwrl!cache.crc.ricoh.com!crc.ricoh.com!wolff
  2. From: wolff@crc.ricoh.com (Gregory J. Wolff)
  3. Newsgroups: comp.ai.neural-nets
  4. Subject: Paper available on Neuroprose archive: Stork.obs.ps.Z
  5. Keywords: second derivatives, pruning, Hessian, neural-networks
  6. Message-ID: <1992Sep14.161526.749@crc.ricoh.com>
  7. Date: 14 Sep 92 16:15:26 GMT
  8. Sender: news@crc.ricoh.com (USENET News System)
  9. Reply-To: wolff@crc.ricoh.com (Gregory J. Wolff)
  10. Organization: RICOH California Research Center
  11. Lines: 65
  12. Nntp-Posting-Host: styx.crc.ricoh.com
  13.  
  14.  
  15. The following paper has been placed on the neuroprose archive as 
  16. stork.obs.ps.Z and is available via anonymous ftp (from
  17. archive.cis.ohio-state.edu in the pub/neuroprose directory).
  18. This paper will be presented at NIPS-92.
  19.  
  20. =========================================================================
  21.   Second Order Derivatives for Network Pruning:  
  22.             Optimal Brain Surgeon
  23.  
  24. Babak Hassibi and David G. Stork, Ricoh California Research Center
  25.  
  26.    ABSTRACT: We investigate the use of information from all second order
  27. derivatives of the error function to perform network pruning (i.e.,
  28. removing unimportant weights from a trained network) in order to improve
  29. generalization and increase the speed of further training.  Our method,
  30. Optimal Brain Surgeon (OBS), is significantly better than
  31. magnitude-based methods, which can often remove the wrong weights.  OBS
  32. also represents a major improvement over other methods, such as Optimal
  33. Brain Damage [Le Cun, Denker and Solla, 1990], because ours uses the
  34. full off-diagonal information of the Hessian matrix H.  Crucial to OBS
  35. is a recursion relation for calculating H inverse from training data and
  36. structural information of the net.  We illustrate OBS on standard
  37. benchmark problems: the MONK's problems.  The most successful method in
  38. a recent competition in machine learning [Thrun et al., 1991] was
  39. backpropagation using weight decay, which yielded a network with 58
  40. weights for one MONKs problem.  OBS requires only 14 weights for the
  41. same performance accuracy.  On two other MONKs problems, our method
  42. required only 38% and 10% of the weights found by magnitude-based pruning.
  43.  
  44. ===========================================================================
  45.  
  46.  
  47. Here is an example of how to retrieve this file:
  48.  
  49. gvax> ftp archive.cis.ohio-state.edu
  50. Connected to archive.cis.ohio-state.edu.
  51. 220 archive.cis.ohio-state.edu FTP server ready.
  52. Name: anonymous
  53. 331 Guest login ok, send ident as password.
  54. Password:neuron@wherever
  55. 230 Guest login ok, access restrictions apply.
  56. ftp> binary
  57. 200 Type set to I.
  58. ftp> cd pub/neuroprose
  59. 250 CWD command successful.
  60. ftp> get stork.obs.ps.Z
  61. 200 PORT command successful.
  62. 150 Opening BINARY mode data connection for stork.obs.ps.Z
  63. 226 Transfer complete.
  64. 100000 bytes sent in 3.14159 seconds
  65. ftp> quit
  66. 221 Goodbye.
  67. gvax> uncompress stork.obs.ps 
  68. gvax> lpr stork.obs.ps
  69.  
  70.  
  71. --
  72. Gregory J. Wolff
  73. Ricoh California Research Center
  74. 2882 SandHill Rd. Suite 115
  75. Menlo Park, CA 94025-7022
  76. wolff@crc.ricoh.com
  77. (415) 496-5718
  78. fax: (415) 854-8740
  79.