home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #26 / NN_1992_26.iso / spool / sci / math / stat / 2338 < prev    next >
Encoding:
Text File  |  1992-11-11  |  4.2 KB  |  78 lines

  1. Newsgroups: sci.math.stat
  2. Path: sparky!uunet!destroyer!sol.ctr.columbia.edu!The-Star.honeywell.com!umn.edu!thompson
  3. From: thompson@atlas.socsci.umn.edu (T. Scott Thompson)
  4. Subject: Re: modelling distributions
  5. Message-ID: <thompson.721517751@daphne.socsci.umn.edu>
  6. Sender: news@news2.cis.umn.edu (Usenet News Administration)
  7. Nntp-Posting-Host: daphne.socsci.umn.edu
  8. Reply-To: thompson@atlas.socsci.umn.edu
  9. Organization: Economics Department, University of Minnesota
  10. References: <1dro0bINN8p9@agate.berkeley.edu>
  11. Date: Wed, 11 Nov 1992 21:35:51 GMT
  12. Lines: 64
  13.  
  14. mwande@graunt.qal.berkeley.edu (Mike Anderson) writes:
  15.  
  16. >Suppose I have data on two variables - age and income of a person. I would like
  17. >to estimate income curves by age using spline regression, but my problem is
  18. >this: to protect the identity of the individuals, incomes were topcoded, so
  19. >that any person reporting incomes of > $100,000 gets coded at $100,000. I am
  20. >interested in getting very accurate estimates, and given the long right tail
  21. >of the income distribution, these truncated values may be throwing off my
  22. >estimates quite a bit.
  23. >    So I would like to replace the truncated values with my own "tail". My
  24. >question is, how do I go about modelling the income distribution and tacking
  25. >on my own tail? Off the top of my head, I would precede thusly: If there are
  26. >Nt truncated observations and Nu untruncated observations, N = Nt + Nu, I would
  27. >first scale the Nu incomes to mean 0, generate N obs from something like a
  28. >log-normal, lop off the top Nt quantiles, and compare the generated data to the
  29. >observed data with a Q-Q plot, choosing that level of variance in the log-normal
  30. >which gives me the straightest fit. Then I would take the Nt random values I
  31. >lopped off from the generated data and randomly assign them to the Nt truncated
  32. >values. Does this sound reasonable? I'm sure there is a better way to go about 
  33. >this, can someone tell me what it is or where to find it?
  34.  
  35. I assume that you apply this procedure separately for each age group.
  36. I also assume that you scale the log of income (rather than income
  37. itself) to have mean zero, since a log-normal variable cannot have
  38. mean zero.  I have no idea why you would want to do this.
  39.  
  40. Except for the bit about scaling the log of incomes to mean 0, the
  41. procedure that you describe is approximately equivalent to what you
  42. would do to fit a censored log-normal distribution to the data by
  43. maximum-likelihood.  An ML estimator would not insist that the
  44. distribution predict the observed number of censored observations
  45. exactly, nor would it require that the mean of the log of the
  46. uncensored income variables be zero, since generally this value will
  47. not give the best fit.
  48.  
  49. The ML estimate is optimal if the true uncensored distribution is
  50. really log-normal, and may be arbitrarily bad otherwise, depending on
  51. what that unobserved tail really looks like.  On the other hand, if
  52. you know that the uncensored distribution is log-normal then you don't
  53. need to use splines to estimate this distribution.  Catch-22.
  54.  
  55. The fact of the matter is that there is no "right" way to do this.
  56. You simply have no information in your data about what the upper tail
  57. looks like.  Any attempt to "simulate" the upper tail is as arbitrary
  58. as any other in the absence of additional information.  Hopefully you
  59. don't really need it for your ultimate purposes.  For example, any
  60. estimates of mean income produced from this data will be unreliable,
  61. since mean income cannot be determined without knowing how much the
  62. Donald Trumps of the world earned.
  63.  
  64.  
  65. Note: I use the term "censored" here instead of "truncated."
  66. Generally we say that a random variable Y is truncated if observations
  67. in the original sample with Y > Ymax are simply thrown away.  In your
  68. case these observations are not thrown away.  Rather, you observe the
  69. "censored" variable min(Y,Ymax) instead of Y itself, but you observe
  70. this for _every_ observation in the original sample.  So you know
  71. (approximately) how much probability there should be in the upper
  72. tail.  There is less information loss with censoring than with
  73. truncation.
  74. --
  75. T. Scott Thompson              email:  thompson@atlas.socsci.umn.edu
  76. Department of Economics        phone:  (612) 625-0119
  77. University of Minnesota        fax:    (612) 624-0209
  78.