home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #19 / NN_1992_19.iso / spool / comp / ai / 3311 < prev    next >
Encoding:
Internet Message Format  |  1992-09-02  |  3.3 KB

  1. Xref: sparky comp.ai:3311 comp.ai.neural-nets:3375 sci.math.num-analysis:2621 sci.math.stat:1782
  2. Path: sparky!uunet!decwrl!access.usask.ca!ccu.umanitoba.ca!ciit85.ciit.nrc.ca!ciit85.ciit.nrc.ca!news
  3. Newsgroups: comp.ai,comp.ai.neural-nets,sci.math.num-analysis,sci.math.stat
  4. Subject: REQUEST: Multi-algorithm Machine Learning system?
  5. Message-ID: <1992Sep2.104535.1196@ciit85.ciit.nrc.ca>
  6. From: Dick Jackson <Dick_Jackson@ibd.nrc.ca>
  7. Date: 2 Sep 92 10:45:29 +0600
  8. Distribution: world
  9. Organization: National Research Council Canada
  10. Nntp-Posting-Host: jackson.ibd.nrc.ca
  11. X-UserAgent: Nuntius v1.1.1d9X-XXDate: Wed, 2 Sep 92 16:43:26 GMTLines: 66
  12. Lines: 66
  13.  
  14. Gentle readers,
  15.  
  16. Our Informatics group has been discussing the need for a software
  17. system for doing Multivariate Analysis, primarily for classification
  18. and clustering tasks, making techniques from different areas of Machine
  19. Learning available to the user.
  20.  
  21. What I would like to know is: has something of this kind been developed
  22. already?  Many excellent individual machine-learning programs are
  23. available from different sources, but has anyone made a system which
  24. allows combination and comparison of different algorithms?
  25.  
  26. In more detail, we would want the system to include:
  27.  
  28. A. Pre-processing of raw data file:
  29. - provide a means for choosing a sequence of options such as:
  30.   - normalizing selected variables
  31.   - filling in missing data
  32.   - creating new variables from existing ones
  33.   - performing transforms via Principal Component Analysis, etc.
  34.   - splitting data into 'training set' and 'test set'
  35.   - saving resulting dataset with pre-processing details 
  36.  
  37. B. Dataset Analysis
  38. - following with the dataset above, allow any of a number of types of
  39. analysis, each of which result in a clustering or classification
  40. 'system', such as:
  41.   - inductive learning, giving a decision tree or other representation
  42.   - connectionist, giving a trained neural net
  43.   - LDA, genetic algorithms, fuzzy clustering...
  44.     (incorporating software from willing sources)
  45. - parameters/options for these analyses can be numerous, but
  46.   heuristics can give a good first-attempt at parameter choice
  47. - interactive displays may be needed for some
  48. - end results to be saved for future use
  49.  
  50. C. Test/Use of classifier systems:
  51. - pass test data through resulting classifier systems, giving reports
  52. of accuracy, sensitivity, specificity, etc.
  53. - pass new unclassified data through classifiers, giving predicted
  54. classes (with confidence estimates?)
  55.  
  56. D. Meta-analysis:
  57. - based on reports from the previous stage, devise more robust
  58. classification systems incorporating multiple techniques
  59.  
  60. The target user could be a medical researcher, not a programmer, so a
  61. clear graphical user interface is of high importance.
  62.  
  63. It is clear that much of part A is seen in some of the better
  64. statistical packages, but what about the machine learning techniques? 
  65. Is anyone developing a multiple-technique 'workbench' like this?  If
  66. not, we might be interested in starting up such a project.
  67.  
  68. I welcome any comments on this topic, please reply to me directly.  If
  69. there is enough interest in a summary, I will provide it, so tell me
  70. which newsgroup you read this in.
  71.  
  72. Thanks for your time,
  73.  
  74. -Dick
  75.  
  76. Dick Jackson
  77. Institute for Biodiagnostics            National Research Council Canada
  78. Winnipeg, Manitoba                               Dick_Jackson@ibd.nrc.ca
  79.                       Any opinions: Mine alone!
  80.