home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / ai / neuraln / 4701 < prev    next >
Encoding:
Text File  |  1993-01-05  |  3.3 KB  |  71 lines

  1. Newsgroups: comp.ai.neural-nets
  2. Path: sparky!uunet!zaphod.mps.ohio-state.edu!cis.ohio-state.edu!news.sei.cmu.edu!bb3.andrew.cmu.edu!crabapple.srv.cs.cmu.edu!news
  3. From: sef@sef-pmax.slisp.cs.cmu.edu
  4. Subject: Re: some basic questions
  5. Message-ID: <C0E950.10B.1@cs.cmu.edu>
  6. Sender: news@cs.cmu.edu (Usenet News System)
  7. Nntp-Posting-Host: sef-pmax.slisp.cs.cmu.edu
  8. Organization: School of Computer Science, Carnegie Mellon
  9. Date: Tue, 5 Jan 1993 18:38:55 GMT
  10. Lines: 59
  11.  
  12.  
  13.     From: danz+@CENTRO.SOAR.CS.CMU.EDU (Dan Zhu)
  14.     
  15.           - Is symmetric sigmoid function (-0.5, 0.5) or (-1, 1) always
  16.             better than the asymmetric one (0, 1)? Any reference? 
  17.  
  18. Almost always.  In my quickprop paper (citation below) I explore this on a
  19. few simple learning tasks.  Asymmetric sigmoid learned faster on simple
  20. encoder tasks, but I view that as an unusual feature of that problem.
  21. There's a paper by Stornetta and Hubermann in the 1987 IEEE ICNN that
  22. claims superiority for symmetric sigmoids, and a nice paper in NIPS 3 by
  23. leCun, Kanter, and Solla presents some theory that may explain why
  24. symmetric sigmoids work better.
  25.  
  26.           - Shall I do this kind of scaling with the input representation also? 
  27.  
  28. Your first layer of weights should be able to learn to do the sacling for
  29. you.  However, some researchers report better and much faster results if
  30. you pre-scale the inputs so that all are in the same range.  I suspect that
  31. this is a trivial difference for fast, fairly robust learning algorithms
  32. and a more important difference for slower algorithms that may tend to get
  33. stuck.
  34.  
  35.           - What would be a good cut point to test the network from time to time
  36.             to avoid the overtraining? 
  37.  
  38. The usual practice is to use a separate training and validation set.
  39. Periodically, you run the validation set through the partially trained net,
  40. and you stop (and maybe revert) when you see the generalization starting to
  41. get worse.  How often you check this depends on your goals: checking
  42. frequently is more expensive, but stops you at closer to the right place.
  43.  
  44.           - I remember I read something like "three layer (with one hidden layer)
  45.             is sufficient for the generalization of the network...". Could anyone
  46.             give me any pointer to the exact reference for it?
  47.  
  48. I don't have the references handy.  There have been various results along
  49. this line by Cybenko, Hal White, Sontag, and others.
  50.  
  51.           - Also, is there any new reference about the clue for selecting 
  52.             the range of "hidden nodes", "learning rate", "momentum" and 
  53.             judgement about the "initial weight"?
  54.  
  55. There's no new magic that I know of that would allow you to choose
  56. parameters and network topology just by looking at the data set (at least
  57. for non-toy problems).  If you want a near-optimal result, you have to
  58. adjust the learning parameters and network topology dynamically.
  59.  
  60. -- Scott
  61.  
  62. ===========================================================================
  63. Scott E. Fahlman            Internet:  sef+@cs.cmu.edu
  64. Senior Research Scientist        Phone:     412 268-2575
  65. School of Computer Science              Fax:       412 681-5739
  66. Carnegie Mellon University        Latitude:  40:26:33 N
  67. 5000 Forbes Avenue            Longitude: 79:56:48 W
  68. Pittsburgh, PA 15213
  69. ===========================================================================
  70.  
  71.