home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #26 / NN_1992_26.iso / spool / sci / math / stat / 2302 < prev    next >
Encoding:
Internet Message Format  |  1992-11-05  |  2.7 KB

  1. Path: sparky!uunet!pmafire!mica.inel.gov!ux1!fcom.cc.utah.edu!hellgate.utah.edu!cs.utexas.edu!zaphod.mps.ohio-state.edu!rpi!newsserver.pixel.kodak.com!kodak!eastman!b56vxg.kodak.com!ekdug
  2. From: ekdug@b56vxg.kodak.com (Linda Stustman)
  3. Newsgroups: sci.math.stat
  4. Subject: Help With Statistics on "Compressed Data"
  5. Keywords: statistics, compressed data,
  6. Message-ID: <5NOV199209582623@b56vxg.kodak.com>
  7. Date: 5 Nov 92 14:58:00 GMT
  8. Sender: news@eastman.UUCP
  9. Organization: Eastman Kodak Company, Rochester NY
  10. Lines: 42
  11. News-Software: VAX/VMS VNEWS 1.41
  12.  
  13. I'm looking for a way to estimate an upper bound on the standard deviation
  14. of a stream of plant data.  The complication is that the data is coming from 
  15. a process data base that has a type of compression applied to it.
  16.  
  17. Simply put, data from the process is generated ever 30 minutes (an analysis
  18. by a gas chromatograph).  The process data base compares the new value with
  19. the previous one and only records the new value (with an associated time
  20. stamp) if the absolute value of the difference between the two readings is
  21. greater than a fixed threshold.
  22.  
  23. In practice, this means 3 to 6 values a day are recorded for the variable,
  24. out of the 48 analyses that are actually done.  My problem is to come up
  25. with a way of providing a reasonable estimate for the standard deviation
  26. of the analysis values that uses the information present in the recorded
  27. values, but also includes the information that the other 42 to 45 analyses
  28. varied less that the threshold value.
  29.  
  30. My only idea on how to attack the problem (to date) is to assume that the 
  31. range of +/- the threshold value corresponds to +/- 3 sigma of a normally
  32. distributed variable.  Then, I could generate the appropriate number of 
  33. "missing" values from a random normal distribution, add the recorded 
  34. values and calculate a standard deviation from the resulting augmented
  35. "data" set.  Perhaps arguments could be made for treating the +/- range
  36. of the threshold value as +/- 2 or +/- 4 sigma (and does anyone have any
  37. comments?).
  38.  
  39. Or, is there some well-known (but not by me) method of handling this 
  40. situation?  Comments are *most* welcome!
  41.  
  42. (As a answer to a possible question as to why I seem to be trying to 
  43. calculate a daily standard deviation, the process has several sources of 
  44. rather slow drifts superimposed over the normal measurement noise that 
  45. occurs in industrial processes.  One day is long enough to do reasonable
  46. averages over and not so long as to pick up too much of the drift 
  47. contributions.  Historical data has to be used because we can't go back
  48. to the older modes of operating the process.)
  49.  
  50. Please reply to the conference, if you feel this topic might have broad
  51. interest, or to jhcox@Kodak.com
  52.  
  53. Thanks in advance,
  54. JHCox
  55.