home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #20 / NN_1992_20.iso / spool / comp / ai / neuraln / 3453 < prev    next >
Encoding:
Text File  |  1992-09-10  |  2.6 KB  |  59 lines

  1. Newsgroups: comp.ai.neural-nets
  2. Path: sparky!uunet!mcsun!dxcern!dxlaa.cern.ch!block
  3. From: block@dxlaa.cern.ch (Frank Block)
  4. Subject: Re: Summary of CUPS + new question
  5. Message-ID: <1992Sep11.130022.14944@dxcern.cern.ch>
  6. Sender: news@dxcern.cern.ch (USENET News System)
  7. Reply-To: block@dxlaa.cern.ch (Frank Block)
  8. Organization: CERN, European Laboratory for Particle Physics, Geneva
  9. References: <BuCFut.F6t.1@cs.cmu.edu> <arms.716190162@spedden>
  10. Date: Fri, 11 Sep 1992 13:00:22 GMT
  11. Lines: 46
  12.  
  13.  
  14. In article <arms.716190162@spedden>, arms@cs.UAlberta.CA (Bill Armstrong) writes:
  15. [...text deleted...]
  16. |> One wants a global minimum.  But doing the computations of
  17. |> gradient descent more accurately, based on an entire epoch, guarantees
  18. |> that you come to rest at the local minimum of the valley you started
  19. |> in.  So why not do a faster computation that has a chance of kicking
  20. |> the system out of the valley you are currently in?
  21.  
  22. It is not that we just have two options:
  23.  
  24.      - update the weights pattern per pattern
  25.      - update the weights after looping over the whole trainset
  26.  
  27. We can also update the network after some patterns. For instance you have
  28. a trainset containing 1000 patterns and you update the weights after ten
  29. patterns. This will prevent the net from running into local minima.
  30. But also if the weights are updated after presenting the whole data set
  31. this does not have to imply the net gets stuck into local minima. If you,
  32. and this is really important, present the patterns in random order this
  33. is already a good medicine against local minima. 
  34.  
  35. |> I should add that there are other heuristics in the ALN algorithm that
  36. |> are not gradient-descent type (atree release 2.7 on-line help,
  37. |> technical notes on the learning algorithm).  I.e. some nodes are made
  38. |> responsible and adaptations are caused to occur even in cases where
  39. |> that could increase the error.  This is quite different from the
  40. |> approach of adding noise to kick the system out of local minima,
  41. |> because the kick is given in a promising direction according to the
  42. |> heuristics.
  43.  
  44. Perhaps you could explain in a few words which is the idea behind this method.
  45. How do you kick a network out of a local minimum into a 'promising direction'
  46. (by which you probably mean the direction where the global minimum is located)?
  47. How do you know which direction is promising?
  48.  
  49. Thanks
  50.     Frank Block
  51.  
  52. ===============================================================================
  53. Frank Block
  54. Div. PPE                BLOCKF@vxcern.cern.ch
  55. CERN                e-mail: 
  56. CH-1211 Geneve 23            BLOCKF@cernvm.cern.ch
  57. Switzerland
  58. ===============================================================================
  59.