home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #19 / NN_1992_19.iso / spool / comp / robotics / 1689 < prev    next >
Encoding:
Internet Message Format  |  1992-09-02  |  2.4 KB

  1. Path: sparky!uunet!mcsun!uknet!cam-eng!ckt
  2. From: ckt@eng.cam.ac.uk (C.K. Tham)
  3. Newsgroups: comp.robotics
  4. Subject: Reinforcement Learning for Robot Control
  5. Message-ID: <1992Sep2.171431.12671@eng.cam.ac.uk>
  6. Date: 2 Sep 92 17:14:31 GMT
  7. Sender: ckt@eng.cam.ac.uk (C.K. Tham)
  8. Distribution: comp.robotics
  9. Organization: Cambridge University Engineering Department, UK
  10. Lines: 50
  11. Nntp-Posting-Host: dsl.eng.cam.ac.uk
  12.  
  13.  
  14.     TECHNICAL REPORT ANNOUNCEMENT
  15.  
  16. The following technical report is available via anonymous ftp:
  17.  
  18. REINFORCEMENT LEARNING FOR MULTI-LINKED MANIPULATOR CONTROL
  19. by  Chen K. Tham & Richard W. Prager.
  20.     (Technical Report CUED/F-INFENG/TR104)
  21.  
  22. Abstract:
  23.  
  24. We present a trajectory planning and obstacle avoidance method which uses
  25. Reinforcement Learning to learn the appropriate real-valued torques to
  26. apply at each joint of a simulated two-linked manipulator in order to move
  27. the end-effector to a desired destination in the workspace. The inputs to
  28. the controller are the joint positions and velocities which are fed
  29. directly into a Cerebellar Model Arithmetic Computer (CMAC) (Albus,75). In
  30. each state, the expected reward and appropriate torques for each joint are
  31. learnt through self-experimentation using a combination of the Temporal
  32. Difference (TD) technique (Sutton,87) and stochastic hillclimbing
  33. (Williams,88). Actions which cause the manipulator to reach the desired
  34. destination are rewarded whereas actions which lead to collisions with
  35. either joint limits or obstacles are punished by an amount proportional to
  36. the velocity before collision.  After training, the manipulator is able to
  37. move along smooth collision-free paths from different start positions in
  38. the workspace to the destination.
  39.  
  40. The file is in compressed Postscript format.
  41.  
  42. Procedure for obtaining the report:
  43.  
  44. unix> ftp svr-ftp.eng.cam.ac.uk
  45. Name: anonymous
  46. Password: (your e-mail address)
  47. ftp> cd reports 
  48. ftp> binary
  49. ftp> get tham_tr104.ps.Z
  50. ftp> quit
  51. unix> uncompress tham_tr104.ps.Z
  52. unix> lpr tham_tr104.ps    .. etc. .. to print
  53.  
  54. The authors welcome comments and suggestions from readers.
  55.  
  56. ----------------------------------------------------------------------------
  57. Chen K. THAM,                                 E-mail: ckt@eng.cam.ac.uk
  58. Speech, Vision and Robotics Group,            Tel.  : +44 223 332754
  59. Cambridge University Engineering Department,  Fax   : +44 223 332662
  60. Trumpington Street,
  61. Cambridge CB2 1PZ,
  62. United Kingdom.
  63.