home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #26 / NN_1992_26.iso / spool / sci / math / stat / 2329 < prev    next >
Encoding:
Text File  |  1992-11-09  |  4.4 KB  |  91 lines

  1. Newsgroups: sci.math.stat
  2. Path: sparky!uunet!caen!spool.mu.edu!umn.edu!thompson
  3. From: thompson@atlas.socsci.umn.edu (T. Scott Thompson)
  4. Subject: Re: Help With Statistics on "Compressed Data"
  5. Message-ID: <thompson.721354344@daphne.socsci.umn.edu>
  6. Keywords: statistics, compressed data,
  7. Sender: news@news2.cis.umn.edu (Usenet News Administration)
  8. Nntp-Posting-Host: daphne.socsci.umn.edu
  9. Reply-To: thompson@atlas.socsci.umn.edu
  10. Organization: Economics Department, University of Minnesota
  11. References: <5NOV199209582623@b56vxg.kodak.com>
  12. Date: Tue, 10 Nov 1992 00:12:24 GMT
  13. Lines: 76
  14.  
  15. ekdug@b56vxg.kodak.com (Linda Stustman) writes:
  16.  
  17. >I'm looking for a way to estimate an upper bound on the standard deviation
  18. >of a stream of plant data.  The complication is that the data is coming from 
  19. >a process data base that has a type of compression applied to it.
  20.  
  21. >Simply put, data from the process is generated ever 30 minutes (an analysis
  22. >by a gas chromatograph).  The process data base compares the new value with
  23. >the previous one and only records the new value (with an associated time
  24. >stamp) if the absolute value of the difference between the two readings is
  25. >greater than a fixed threshold.
  26.  
  27. >In practice, this means 3 to 6 values a day are recorded for the variable,
  28. >out of the 48 analyses that are actually done.  My problem is to come up
  29. >with a way of providing a reasonable estimate for the standard deviation
  30. >of the analysis values that uses the information present in the recorded
  31. >values, but also includes the information that the other 42 to 45 analyses
  32. >varied less that the threshold value.
  33.  
  34. >My only idea on how to attack the problem (to date) is to assume that the 
  35. >range of +/- the threshold value corresponds to +/- 3 sigma of a normally
  36. >distributed variable.  Then, I could generate the appropriate number of 
  37. >"missing" values from a random normal distribution, add the recorded 
  38. >values and calculate a standard deviation from the resulting augmented
  39. >"data" set.  Perhaps arguments could be made for treating the +/- range
  40. >of the threshold value as +/- 2 or +/- 4 sigma (and does anyone have any
  41. >comments?).
  42.  
  43. This does not sound like a very good idea to me.  Here are the random
  44. thoughts on which this opinion is based:
  45.  
  46. It is not clear to me exactly what model you have in mind here.  Are
  47. you proposing to assume that the mean of the process is unchanged from
  48. analysis to analysis?  What about the variance?  Is that also to be
  49. assumed not changing over time?  Is there any autocorrelation in
  50. either the basic values that are begin measured or the measurement
  51. errors?  Is your initial value sampled unconditionally, or are you
  52. extracting a subsequence from a measurement process that has been
  53. running for some time?  No good statistical answer to your question
  54. can be obtained without (at least implicitly) answering these
  55. questions.
  56.  
  57. Another important question: Is the threshhold value known?  If so then
  58. it certainly would not be appropriate to fix it at +/- K standard
  59. deviations for any value of K, since this is equivalent to saying that
  60. you already know the standard deviation!
  61.  
  62. Suppose that you assume that the analysis at time t produced a value
  63. x(t), that the x(t) values are independent normals with mean M and
  64. variance V, that x(t) is observed if and only if 
  65.  
  66.     |x(t) - x(t-1)| > E,
  67.  
  68. and that the aim of the analysis is to estimate M and V given
  69. knowledge of E and a sample (t1,x(t1)), ..., (tn,x(tn)) of n data
  70. points corresponding to the points at which the threshhold was met.
  71.  
  72. Then it seems that you have a fairly standard, if nonlinear, maximum
  73. likelihood problem.  I haven't checked, but I suspect that all
  74. parameters are identified.  In fact, I think that this remains true
  75. even when the threshold E is also treated as a parameter.  Your main
  76. difficulty in this scenario would be to calculate the likelihood,
  77. since the censoring introduces a rather messy dependency among the
  78. observations.
  79.  
  80. One simplification might be to first work conditionally on the
  81. sequence of dummy variables for whether or not an observation was
  82. taken.  Clearly you will not be able to estimate any of the parameters
  83. M, V or E from this data alone.  However, I think that you can
  84. estimate the ratio E to Sqrt(V) (the standard deviation) from this
  85. data alone.
  86.  
  87. --
  88. T. Scott Thompson              email:  thompson@atlas.socsci.umn.edu
  89. Department of Economics        phone:  (612) 625-0119
  90. University of Minnesota        fax:    (612) 624-0209
  91.