home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #26 / NN_1992_26.iso / spool / sci / math / stat / 2340 < prev    next >
Encoding:
Internet Message Format  |  1992-11-11  |  4.3 KB

  1. Path: sparky!uunet!think.com!ames!agate!qal.qal.berkeley.edu!mwande
  2. From: mwande@qal.qal.berkeley.edu (Mike Anderson)
  3. Newsgroups: sci.math.stat
  4. Subject: RE: modelling distributions
  5. Date: 12 Nov 1992 00:55:07 GMT
  6. Organization: University of California, Berkeley
  7. Lines: 70
  8. Distribution: world
  9. Message-ID: <1dsa1bINNdc7@agate.berkeley.edu>
  10. NNTP-Posting-Host: qal.qal.berkeley.edu
  11.  
  12. mwande@graunt.qal.berkeley.edu (Mike Anderson) writes:
  13.  
  14. >>Suppose I have data on two variables - age and income of a person. I would like
  15. >>to estimate income curves by age using spline regression, but my problem is
  16. >>this: to protect the identity of the individuals, incomes were topcoded, so
  17. >>that any person reporting incomes of > $100,000 gets coded at $100,000. I am
  18. >>interested in getting very accurate estimates, and given the long right tail
  19. >>of the income distribution, these truncated values may be throwing off my
  20. >>estimates quite a bit.
  21. >>       So I would like to replace the truncated values with my own "tail". My
  22. >>question is, how do I go about modelling the income distribution and tacking
  23. >>on my own tail? Off the top of my head, I would precede thusly: If there are
  24.  
  25. >>(stuff deleted)
  26.  
  27. >I assume that you apply this procedure separately for each age group.
  28. >I also assume that you scale the log of income (rather than income
  29. >itself) to have mean zero, since a log-normal variable cannot have
  30. >mean zero.  I have no idea why you would want to do this.
  31.  
  32. Let me give a few more specifics about what I'm doing. Ignore the spline for
  33. the moment - I'm using that to fit a curve to the average income at each age
  34. across age. Suppose, for the purposes of the "tail-fitting", that I am just 
  35. trying to model the income at  a particular age, to get an average. In scaling
  36. the income to mean zero, I had in mind using any number of distributions,
  37. not just a log-normal, to try against the distributions. I guess
  38. I could just set the mean of the model distribution  equal to the population
  39. mean without the censored points, point being that the scaling is arbitrary; 
  40. I was originally think of a normal dist, which is why is was thinking mean 
  41. zero, but then I realized a log normal might have a better tail for income.
  42.  
  43. thompson@atlas.socsci.umn.edu writes:
  44. >Except for the bit about scaling the log of incomes to mean 0, the
  45. >procedure that you describe is approximately equivalent to what you
  46. >would do to fit a censored log-normal distribution to the data by
  47. >maximum-likelihood.  An ML estimator would not insist that the
  48. >distribution predict the observed number of censored observations
  49. >exactly, nor would it require that the mean of the log of the
  50. >uncensored income variables be zero, since generally this value will
  51. >not give the best fit.
  52.  
  53. >The ML estimate is optimal if the true uncensored distribution is
  54. >really log-normal, and may be arbitrarily bad otherwise, depending on
  55. >what that unobserved tail really looks like.  On the other hand, if
  56. >you know that the uncensored distribution is log-normal then you don't
  57. >need to use splines to estimate this distribution.  Catch-22.
  58.  
  59. As above, I'm not using the spline on the distributions I'm modelling,
  60. rather on the average at each age after adjusting the age-specific distribu-
  61. tions for the censored observations. The distirbution  across age is nowhere
  62. near a log-normal, or any typical distribution I am aware of.
  63.  
  64. >The fact of the matter is that there is no "right" way to do this.
  65. >You simply have no information in your data about what the upper tail
  66. >looks like.  Any attempt to "simulate" the upper tail is as arbitrary
  67. >as any other in the absence of additional information.  Hopefully you
  68. >don't really need it for your ultimate purposes.  For example, any
  69. >estimates of mean income produced from this data will be unreliable,
  70. >since mean income cannot be determined without knowing how much the
  71. >Donald Trumps of the world earned.
  72.  
  73. Suppose I look at outside data sources to estimate the incomes of the
  74. Donald Trumps. How could I incorporate this in the estimation of the various
  75. distribution parameters?
  76.  
  77. -- 
  78. Mike Anderson    Dept. of Demography   UC Berkeley   mwande@QAL.Berkeley.EDU
  79. "And I would say to those out around the country. 'Take a hard look now.
  80. Don't let that rabbit be pulled out of the hat by one hand and 25 other 
  81. rabbits dumped on you in another.'" - George Bush, 1/24/90 
  82.