home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / bit / listserv / csgl / 2108 < prev    next >
Encoding:
Text File  |  1993-01-11  |  5.4 KB  |  125 lines

  1. Comments: Gated by NETNEWS@AUVM.AMERICAN.EDU
  2. Path: sparky!uunet!zaphod.mps.ohio-state.edu!howland.reston.ans.net!paladin.american.edu!auvm!CCB.BBN.COM!BNEVIN
  3. Return-Path: <@VMD.CSO.UIUC.EDU:bnevin@ccb.bbn.com>
  4. Message-ID: <CSG-L%93011110145148@VMD.CSO.UIUC.EDU>
  5. Newsgroups: bit.listserv.csg-l
  6. Date:         Mon, 11 Jan 1993 11:06:46 EST
  7. Sender:       "Control Systems Group Network (CSGnet)" <CSG-L@UIUCVMD.BITNET>
  8. From:         "Bruce E. Nevin" <bnevin@CCB.BBN.COM>
  9. Subject:      transformations and learning
  10. Lines: 113
  11.  
  12. [From: Bruce Nevin (Mon 930111 11:11:11)]
  13.  
  14. The following outline of ideas from a fellow BBNer, Al Boulanger,
  15. seems to me like a fruitful direction to look for certain aspects
  16. of higher level control and reorganization as involved in
  17. learning at those levels.  The header info that comes first
  18. indicates where I copied this from.
  19.  
  20. (OK, I cheated on the time stamp above, but it was only a few
  21. minutes short of what appears there.  My not-quite-11-year-old
  22. would love it.)
  23.  
  24.         Bruce
  25.  
  26. -=+=-=+=-=+=-=+=-=+=-=+=-=+=-=+=-=+=-=+=-=+=-=+=-=+=-=+=-=+=-=+=-=+=-=+=-
  27.  
  28. Date: Mon, 04 Jan 93 11:37:55 -0800
  29. From: Michael Pazzani <pazzani@ics.uci.edu>
  30. Message-ID:  <9301041146.aa27802@q2.ics.uci.edu>
  31.  
  32.  
  33.                  Machine Learning List: Vol. 5, No. 1
  34.                         Monday, January 4, 1993
  35.  
  36. ------------------------------
  37.  
  38. Subject: Minimum Description Length & Transformations in Machine Learning
  39. From: aboulang@bbn.COM
  40. Date: Sat, 2 Jan 93 19:00:10 EST
  41.  
  42. Minimum Description Length & Transformations in Machine Learning
  43.  
  44.  Or, Is there a Principle of Least Action for Machine Learning?
  45.  
  46. In this short note I want to posit that MDL-like methodologies will
  47. become the unifying "Least Action Principles" of machine learning.
  48. Furthermore, machine learning architectures will evolve to include a
  49. fundamental capability for doing coordinate transformations and this
  50. capability will be intimately tied to the use of MDL-like
  51. methodologies in Machine Learning.
  52.  
  53. By MDL-like methodologies I mean the use information-theoretic metrics
  54. on the results of any machine learning algorithm in its generalization
  55. phase.  This metric is used a a decision criterion for over training
  56. by comparing the MDL-like metric of the results or the machine
  57. learning algorithm against the data itself. MDL-like methodologies
  58. are applicable to supervised and unsupervised learning. What I want to
  59. mean by the term "MDL-like" is that there is an applicable body of
  60. work in this area -- including the work of Wallace, Akaike and
  61. Rissanen. It is possible to use MDL-like metrics in the generation
  62. phase as well.
  63.  
  64.  Transformations and Machine Learning
  65.  
  66. Many paradigmnamic problems in machine learning become
  67. "embarrassingly" simple under straightforward coordinate
  68. transformations. For instance, the two spirals problem becomes two
  69. simple lines under a polar coordinate transformation. Much of the
  70. activity of a physicist is in examination of appropriate coordinate
  71. system hosting of the problem to exploit symmetries of the problem. I
  72. posit that at least one phase of any machine learning system should
  73. include a search for appropriate coordinate system hosting.
  74.  
  75. These transformations come in many different colors. For example,
  76. temporal differences is a relativising transformation in time
  77. coordinates. Another example is the growing use of wavelets for
  78. time-frequency features.
  79.  
  80. A significant contributor to the complexity of the description of a
  81. problem is its chosen coordinate-system hosting. Coordinate
  82. transformations can be of two types: local and global. An example of a
  83. global transformation is the aforementioned polar hosting for the two
  84. spirals problem. The Fukashima network makes use of local
  85. transformations for robust pattern recognition. MDL can be used as
  86. the selection criteria in the transformation search.
  87.  
  88.   MDL as a Least Action Principle for Machine Learning
  89.  
  90. MDL-like methods holds a promise to be a unifying principle in machine
  91. learning -- much like Lagrangian methods that make use of action and
  92. its minimization is *the* unifying approach in physics, cutting across
  93. classical physics, relativistic physics, and quantum mechanics.
  94. MDL-like metrics are a type of *action* for machine learning. (In fact
  95. for certain types of search in machine learning, Lagrangian optimization
  96. can be used.)
  97.  
  98. (Recent work in machine vision at MIT has suggested the use of MDL as
  99. a principle for 3-d object recognition and disambiguation. It is
  100. posited that what is perceived is related to a MDL description of the
  101. 3d-scene. By the way, who is doing this work?)
  102.  
  103. There are a couple of long-standing conceptual issues in machine learning:
  104.  
  105.   The relationship between learning methodologies - supervised,
  106.   unsupervised, reinforcement learning, etc. Somehow, one would like a
  107.   unifying framework for all of them. The fact that MDL-like methods
  108.   can be used in several methodologies means that it could help in
  109.   building such a framework.
  110.  
  111.   The relationship between optimization and machine learning. MDL-like
  112.   metrics are posited to be the *general* optimization criterion for
  113.   machine learning.
  114.  
  115. MDL has broad applicability in machine learning. It can be used to
  116. guide search in both unsupervised and supervised learning. It can be
  117. used as the common optimization criterion for "multi-algorithm machine
  118. learning systems". Finally it can be used to tie the search in feature
  119. space with that of the search for coordinate system hosting.
  120.  
  121.  
  122. Seeking a higher form for machine learning,
  123. Albert Boulanger
  124. aboulanger@bbn.com
  125.