home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #18 / NN_1992_18.iso / spool / bit / listserv / csgl / 740 < prev    next >
Encoding:
Text File  |  1992-08-18  |  7.1 KB  |  185 lines

  1. Comments: Gated by NETNEWS@AUVM.AMERICAN.EDU
  2. Path: sparky!uunet!paladin.american.edu!auvm!DRETOR.DCIEM.DND.CA!JEFF
  3. X-Mailer: ELM [version 2.2 PL9]
  4. Message-ID: <9208182202.AA14821@client2.dciem.dnd.ca>
  5. Newsgroups: bit.listserv.csg-l
  6. Date:         Tue, 18 Aug 1992 18:02:30 EDT
  7. Sender:       "Control Systems Group Network (CSGnet)" <CSG-L@UIUCVMD.BITNET>
  8. From:         jeff@DRETOR.DCIEM.DND.CA
  9. Subject:      top-level
  10. Lines: 173
  11.  
  12. Here's a new topic, related to re-organisation.
  13.  
  14.  
  15.     I started wondering recently how a top-level Elementary
  16. Control System (ECS) can remain connected to reality.
  17.  
  18.     To explain: let us take a high-level ECS in a Control Net.
  19. (A high-level node is many levels from the raw input and output.)
  20. Assume the net starts out untrained (or only partially trained)
  21. for its environment. Finally we assume that random re-organization
  22. is a major part of its training.
  23.     Now the high-level ECS doesn't know what its inputs or
  24. its reference mean. All it must do is control that they match.
  25. It may be initially set up with input of (target-position -
  26. finger-position) and reference of (0). However after a few random
  27. re-organizations the input weight for "target-position" may have been
  28. set to zero, and the input weight from "elbow-angle" to a positive value.
  29.     This leaves the ECS training to control "elbow-angle +
  30. finger-position" = 0. There is no way for the ECS (or for the random
  31. re-organisation) to know that this new function is nonsense.
  32.  
  33.  
  34.     In general it seems impossible to keep the input "relevant"
  35. to the reference without forcing it in some fashion (and thus adding
  36. another set of properties to the ECS).
  37.  
  38.  
  39.     One approach to "forcing it" is found in our Little Baby (a
  40. learning version of the Little Man). As in the Little Man the high-level
  41. references involve the distance of the finger from the target
  42. (as perceived in the right and left retinas).
  43.     The Baby has one (or more) layers of ECSs attached to the outputs
  44. of its high-level ECSs. However the inputs are connected directly to
  45. the Baby's inputs.
  46.  
  47.                    R*      <- top-level reference
  48.                    |
  49.                 --------
  50.                 | ECSs |   <- top-level ECS
  51.                 --------
  52.                 /     \
  53.                |       --------
  54.       direct ->|       | ECSs |   <-untrained ECSs
  55.       input    |       --------
  56.       to top   |       /     \
  57.                |      /       \
  58.       ...................................
  59.                 \   /           \
  60.                 Input          Output     <- environment
  61.  
  62.  
  63.     The Little Baby is forced to learn to follow the target by
  64. being provided with a fixed input function.
  65. The Complex Environmental Variable (CEV) that the Baby is controlling
  66. cannot be unlearned, however it can likewise never be learned.
  67. This is a reasonable hack while we experiment
  68. with re-organisation, but in the long run we can't always
  69. hand-code/hard-code the inputs.
  70.  
  71.  
  72.  
  73.     Bill seems to have also seen the problem since he has suggested
  74. that the learning mechanism should not be completely blind. He wants
  75. it to contain some simple CEVs (an oxymoron :?) which guide the
  76. re-organisation. This may be necessary, but it also feels like a hack
  77. to have a separate control hierarchy for learning.
  78.  
  79.  
  80.  
  81.     I have a partial solution that does not add new variables or
  82. structure to the existing hierarchy. Unfortunately the CEV in the
  83. example is different than "finger on target".
  84.  
  85.  
  86.     Suppose we have Little Baby (Mark MCXLI) that can successfully
  87. learn to control (i.e. we have solved some of the re-organisation
  88. problem).
  89.     Now we wish to teach it to avoid a spot in its environment (say
  90. the exact center of its cube).
  91.  
  92.     We add an extra input (called Pain). We change the environment
  93. so that Pain becomes large if the finger is close to the center of
  94. the cube, but is very small elsewhere. (We now have a hot-spot.)
  95.  
  96.     We also add a simple ECS that has Pain as input, zero as
  97. reference, a large gain, and outputs to the arm muscles. This does
  98. nothing while the finger is outside the hot-spot. If the Baby moves
  99. the finger into the hot-spot this ECS will quickly yank it out, and will
  100. then resume doing nothing. We have given Little Baby a pain reflex.
  101.  
  102.     The Baby now avoids the hotspot very effectively, however
  103. it will have trouble moving finger to target in some cases (assume
  104. for the moment that we don't move the target into the hotspot).
  105. If a trajectory goes through the hotspot the arm will jump. Some
  106. target locations will even have the Baby caught in a cycle.
  107.  
  108.     The rest of the Baby will presumably eventually re-organise
  109. to avoid approaching the hot-spot. There are several strategies that
  110. will succeed, and the one chosen depends on the learning mechanism.
  111.  
  112.  
  113.                 R*      <- top-level reference
  114.                 |
  115.              --------
  116.              | ECSs |   <- multi-level CS (Control System)
  117.              --------
  118.               /    \
  119.              /      \                 R*      <- another top-level reference
  120.             /        \                |
  121.        --------    --------        -------
  122.        | ECSs |    | ECSs |        | ECS |   <- pain reflex ECS
  123.        --------    --------        -------
  124.         /    \      /    \         /     \
  125.       .......................................
  126.        |       \   |       \     Pain    /
  127.        |        \  |        \           /
  128.        +-----------+         \         /      Environment
  129.          |        \           \       /
  130.        Inputs      ------------Outputs
  131.  
  132.  
  133.  
  134.     So why don't I consider this a cheat too? After all we have
  135. hand-coded an ECS to perform a function. Well we haven't had to
  136. add a separate learning hierarchy (as per Bill), or had to wire across
  137. levels (as in the current Little Baby).
  138.  
  139.     Below are the reasons I think we don't have to add any
  140. new features to "force" the Baby to learn the task.
  141.  
  142.  
  143. Simplicity:
  144.     The pain-reflex is easy to learn by simple means (such as
  145. genetic algorithms or random search). We shouldn't need to hand-code
  146. such control functions.
  147.  
  148.  
  149. Effectiveness:
  150.     The pain-reflex is very effective at avoiding the hot-spot.
  151. This is accomplished solely by setting the gain high on a simple task.
  152.  
  153.  
  154. Stability:
  155.     The pain reflex is stable against random re-organisation.
  156. Since it is "effective" it very seldom has a non-zero error.
  157. (Persistant high local error should probably trigger re-organisation.)
  158. Since it is "simple" it has very few weights. This makes it a small
  159. target for a random mutation (compared to the rest of the net).
  160.     Lastly it is high gain. If there is a random change to an input
  161. or output the Baby will thrash wildly. The strong accumulation of
  162. local error should quickly cause a benign mutation.
  163.  
  164.  
  165.     Since the new top-level goal is quite stable the rest of the
  166. Little Baby's brain is forced to re-learn.
  167.  
  168.  
  169.  
  170.     Now for the proverb. I have realized that one of my original
  171. assumptions was wrong. When I first learned PCT I assumed that
  172. all the top-level ECSs (ones with fixed references) were also
  173. high-level ECSs (far from the environment).
  174.     I now suspect that *most* of the top-level goals of an
  175. organism are fairly close to the I/O level, and that most of the
  176. high-level ECSs are just used to add efficiency to the satisfaction of
  177. these low-level goals.
  178.  
  179.     Top-level goals need not be high-level goals.
  180.  
  181.  
  182.                     ... Jeff
  183. --
  184. De apibus semper dubitandum est - Winni Ille Pu
  185.