home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #18 / NN_1992_18.iso / spool / sci / math / stat / 1657 < prev    next >
Encoding:
Internet Message Format  |  1992-08-14  |  4.0 KB

  1. Path: sparky!uunet!decwrl!purdue!mentor.cc.purdue.edu!rain!gpetty
  2. From: gpetty@rain.atms.purdue.edu (Grant W. Petty)
  3. Newsgroups: sci.math.stat
  4. Subject: Analyzing highly non-Gaussian, n-variate data
  5. Message-ID: <56884@mentor.cc.purdue.edu>
  6. Date: 14 Aug 92 23:41:27 GMT
  7. Sender: news@mentor.cc.purdue.edu
  8. Organization: Earth & Atmospheric Sciences, Purdue University
  9. Lines: 80
  10.  
  11. I'm not sure if the subject line makes sense, but here are two
  12. questions which have been plaguing me (a non-statistician) for 
  13. a long time:
  14.  
  15. 1.  You have a large set of measurements consisting of N-dimensional
  16. vectors, where N > 3 (in my case, N=7).  Elements in the vectors are
  17. correlated, albeit in a nonlinear, non-Gaussian fashion.  You have no
  18. a priori knowledge of the precise functional form of the physical
  19. relationship between the elements, though you are certain one exists.
  20. Under these circumstances, what can you do to
  21.  
  22.  a) determine the effective dimensionality of the data (i.e., the
  23. minimum number of independent parameters which are capable of
  24. explaining most of the "volume" of the cloud of points in
  25. N-dimensional space?
  26.  
  27. b) determine a segmented curve, surface, or hypersurface (depending on
  28. how many parameters you choose to specify) which passes "optimally"
  29. through the cloud of points?
  30.  
  31. If the data exhibited something like a multivariate Gaussian pdf, then
  32. it would make sense to just compute the eigenvalues/eigenvectors of
  33. the N x N covariance matrix; the effective dimensionality would then
  34. just be the number of eigenvectors which are required to explained the
  35. bulk of the total variance.  However, this approach gives meaningless
  36. results if, say, your data all fall exactly on a single wildly
  37. contorted curve in N-space: the true dimensionality in this case would
  38. be only one, but PCA looks for something like the principal axes of an
  39. ellipsoidal volume containing the points and therefore would find
  40. several significant basis vectors.
  41.  
  42. If you could somehow calculate the effective N-D "volume" of the cloud
  43. of points for a subset of the elements of your ensemble, and see how
  44. that volume changes as you increase the number of variables
  45. considered, it seems to me that that could give you a good clue.  For
  46. example, if the cloud of points was truly one-dimensional (in some
  47. unknown non-linear transformation of your coordinate system), then the
  48. cloud of points should, in some sense, occupy a very small volume
  49. which is almost independent of the number of dimensions of the
  50. subspace onto which you are projecting the cloud of point.  That is, a
  51. projection of the points onto a 2-D surface would follow a simple 2-D
  52. curve with zero volume; a projection of the points onto a 3-D subspace
  53. would also yield a curve with zero volume, etc.  Whereas if the 
  54. data were intrinsically 2-D, then projection onto a 2-D surface would
  55. yield a 2-D cloud with finite area; projection onto a 3-D space would
  56. yield a surface with finite area but zero volume, and so on for higher
  57. dimensional subspaces.
  58.  
  59. Does this make sense?  And if so, do algorithms exist for looking into
  60. this behavior, given a sufficiently large set of multivariate data?
  61.  
  62.  
  63. 2.  The second question is related: Given two N-dimensional clouds of
  64. points of the type described above, can one quantify the "overlap"
  65. between the volumes occupied by the two clouds and thus say something
  66. about whether the populations from which the points were taken appear
  67. to occupy the same or different regions in N-dimensional space?
  68. Obviously, one could compute multi-dimensional histograms and then
  69. compare the number of boxes which contain points from one, both, or
  70. neither of the clouds, but 7-dimensional histograms can get pretty
  71. bulky for any reasonable box size.
  72.  
  73. Are there any applications-oriented (rather than theoretical)
  74. textbooks which address these sorts of issues?
  75.  
  76. E-mail replies welcome
  77.  
  78.  
  79.  
  80.  
  81.  
  82.  
  83.  
  84.  
  85.  
  86. -- 
  87. Grant W. Petty                                gpetty@rain.atms.purdue.edu
  88. Assistant Prof. of Atmospheric Science        (317) 494-2544
  89. Dept. of Earth & Atmospheric Sciences     "All standard disclaimers apply"
  90. Purdue University, West Lafayette IN  47907-1397  
  91.