home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #16 / NN_1992_16.iso / spool / comp / ai / neuraln / 2855 < prev    next >
Encoding:
Internet Message Format  |  1992-07-21  |  2.9 KB

  1. Path: sparky!uunet!ogicse!cse.ogi.edu!stever
  2. From: stever@cse.ogi.edu (Steve Rehfuss)
  3. Newsgroups: comp.ai.neural-nets
  4. Subject: Re: Training classification with uneven categories
  5. Message-ID: <40358@ogicse.ogi.edu>
  6. Date: 21 Jul 92 17:24:51 GMT
  7. Article-I.D.: ogicse.40358
  8. References: <1992Jul9.060922.28633@iti.gov.sg>
  9. Sender: news@ogicse.ogi.edu
  10. Distribution: world
  11. Organization: Oregon Graduate Institute (formerly OGC), Beaverton, OR
  12. Lines: 38
  13.  
  14. In article <1992Jul9.060922.28633@iti.gov.sg>, cheekit@iti.gov.sg (Looi Chee Kit) writes:
  15. |> We have been working on a neural network approach to bankruptcy prediction as 
  16. |> a comparison with a statistical model constructed using probit analysis. A set
  17. |> of 6 financial ratios comprises the set of independent variables for the model
  18. |> (which is also the set of input variables for a 3-layer network using backprop
  19. |> for training). Information from matched samples (i.e. 165 non-bankrupct 
  20. |> companies and 165 bankrupct companies) are use for fitting the probit model. 
  21. |> The real life proportions of bankrupct and non-bankrupct companies are 0.006
  22. |> and 0.994. My question is: do we want to weigh the presentations of data for
  23. |> bankrupct and non-bankrupct companies to reflect in some way the real-life
  24. |> proportions (or the relative misclassification costs) when training the
  25. |> neural network? When we trained our neural network using matched samples,
  26. |> it was good for predicting bankruptcy cases while it was not perfect in
  27. |> predicting the non-bankruptcy cases, resulting in an overall accuracy rate
  28. |> (weighted) of less than 0.994 (0.994 is what we will get if we classify ANY
  29. |> data as non-bankrupct). This issue seems to be relevant for applications
  30. |> of neural networks to classification tasks where the real life proportion is
  31. |> unevenly matched between the categories.
  32. |> 
  33. |> Any work done, ideas & suggestions, please reply via email to: 
  34. |> cheekit@iti.gov.sg
  35. |> 
  36. |> ---
  37. |> Chee-Kit LOOI                | Internet: cheekit@iti.gov.sg
  38. |> Knowledge Systems Lab            | Bitnet:   cheekit@itivax
  39. |> Information Technology Institute    | Tel:      (65) 772-0926
  40. |> National Computer Board of Singapore    | Fax:      (65) 770-3043
  41.  
  42. Look at Bourlard & Morgan, A Continuous Speech Recognition System Embedding MLP into HMM,
  43. in NIPS, 1988 or 1989.  They divide the outputs by the prior class probabilities, then
  44. choosing the max output corresponds to choosing the class that makes the data most likely.
  45. Other people have done this too.   If you have enough data, an adequate architecture, and
  46. train to MSE or cross-entropy (or various other error fns), and don't get stuck in a
  47. local minimum, the outputs converge to p(class|inputs).  Dividing by prior class 
  48. probabilities and doing winner-take-all gives you: 
  49.                 p(class|inputs)           p(inputs|class)
  50.     argmax ----------------- = argmax --------------- = argmax p(inputs|class)
  51.            c       p(class)           c      p(inputs)         c
  52.