home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #18 / NN_1992_18.iso / spool / bit / listserv / csgl / 738 < prev    next >
Encoding:
Text File  |  1992-08-18  |  3.8 KB  |  78 lines

  1. Comments: Gated by NETNEWS@AUVM.AMERICAN.EDU
  2. Path: sparky!uunet!paladin.american.edu!auvm!BEN.DCIEM.DND.CA!MMT
  3. Message-ID: <9208182241.AA20328@chroma.dciem.dnd.ca>
  4. Newsgroups: bit.listserv.csg-l
  5. Date:         Tue, 18 Aug 1992 18:41:25 EDT
  6. Sender:       "Control Systems Group Network (CSGnet)" <CSG-L@UIUCVMD.BITNET>
  7. From:         mmt@BEN.DCIEM.DND.CA
  8. Subject:      Hierarchic Dynamic Programming
  9. Lines: 67
  10.  
  11. [Martin Taylor 920818 18:40]
  12.  
  13. Just after posting that quoted paragraph from sci.cognitive, I looked at the
  14. next posting.  I don't think HDP is like PCT at all, but judge for yourselves.
  15. Here's the posting:
  16.  
  17. Martin
  18. ================
  19.  
  20. Heuristic Dynamic Programming in a Realistic Biological Context
  21. Harry R. Erwin
  22. erwin@trwacs.fp.trw.com
  23.  
  24. As I showed at the 1982 Animal Behavior Workshop in Guelph, Ontario,
  25. the optimum strategy for playing a discrete game against nature involving
  26. information collection is a simple threshold strategy. The player uses
  27. Bayesian statistics to maintain an estimate of his probability of success,
  28. and compares that estimate against a threshold at each decision point.
  29. If the probability of success remains above the threshold, he continues
  30. the game; otherwise, he quits. The threshold can be calculated by treating
  31. the game as a problem in dynamic programming. (John Bather, Pers. Com.,
  32. 1983)
  33.  
  34. In a biological context, this strategy lends itself to implemention using
  35. HDP. The critic network would provide the current threshold value as a local
  36.  goal value, and the action network would compare the current probability
  37. against that value. If the current probability exceeded the threshold, the
  38. preferred action would be to continue to collect information; otherwise it
  39. would be to quit. Note that the critic network responds to the perceived
  40. payoffs and risks of the game and not to the current situation. Both critic
  41. and action networks would be prior to the motor cortex, which would then
  42. treat both as a combined critic network and attempt to reduce fear to
  43. nominal levels.
  44.  
  45. Current payoffs---\
  46.                    O-- local goal value--------------\
  47. Target category---/ (A)               feedback        \
  48.                                          ---           \
  49. Target condition--\                     |   |           \
  50.                    \                    V   |            \ (D)
  51. Self condition----->0--initial estimate --->0-current est>0
  52.                    / (B)                   / (C)           \
  53. Environment-------/                       /                 \
  54.                                          /                decision
  55. Information collected and processed-----/         (expressed as fear level)
  56.                                                                \ (E)
  57. Motor options-------------------------------------------------->0->motor
  58.                                                                    cortex
  59.  
  60. Note that there are a number of places where training would occur. Subsystem A
  61. needs to learn how to calculate the local goal values corresponding to various
  62. payoffs and intensities of the game (primarily defined by target category).
  63. I suspect most species have this hard-coded in the genome. (The local goal
  64. values are not obvious functions of the inputs!) Subsystem B can be trained
  65. more easily--in mammals, that is part of the role of play and parental
  66. teaching. Subsystems C and D are probably hard-coded, even in man. Subsystem C
  67. implements logistic functions, while Subsystem D does a simple comparison.
  68. Subsystem E probably uses fear level to affect the preference functions for
  69. various actions used by the motor controller, although it may select a desired
  70. fear level and output partials to the motor controller instead. (I suspect that
  71. version is more correct, because the corresponding 2-person game can't be
  72. handled by outputting simple fear level, and man does play the 2-person game.)
  73.  
  74. Cheers,
  75. --
  76. Harry Erwin
  77. Internet: erwin@trwacs.fp.trw.com
  78.