home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #16 / NN_1992_16.iso / spool / bit / listserv / spssxl / 482 next >
Encoding:
Text File  |  1992-07-21  |  3.3 KB  |  73 lines

  1. Newsgroups: bit.listserv.spssx-l
  2. Path: sparky!uunet!pipex!ibmpcug!eff!news.oc.com!spssig.spss.com!nichols
  3. From: nichols@spss.com (David Nichols)
  4. Subject: Response to Sue Anderson on CLUSTER
  5. Message-ID: <Jul21.215331.37123@spss.com>
  6. Date: Tue, 21 Jul 1992 21:50:11 CUT
  7. Nntp-Posting-Host: spssrs2.spss.com
  8. Organization: SPSS Inc.
  9. Lines: 62
  10.  
  11. Sue Anderson asks:
  12.  
  13. I am using the CLUSTER procedure with a sample of 316 cases.  In
  14. attempting to compare the results of using the WAVERAGE vs WARD
  15. methods, I noticed that the values of the coefficients printed in the
  16. agglomeration schedules vary quite a bit from one method to the other.
  17.  
  18. For example with WAVERAGE, I get:
  19.   Stage    Cluster 1  Cluster 2   Coefficient
  20.     310            2          3      5.392510
  21.     311            1         13      5.749814
  22.     312            5         14      6.314435
  23.     313            2          5      7.502407
  24.     314            1          2      8.621726
  25.     315            1          6      9.946472
  26.  
  27. Whereas, with WARD, I get:
  28.   Stage    Cluster 1  Cluster 2   Coefficient
  29.     310            3         19    639.756470
  30.     311            5         10    707.005676
  31.     312            1         14    780.497070
  32.     313            3          5    958.662842
  33.     314            1          2   1190.600586
  34.     315            1          3   1566.569336
  35.  
  36. The SPSS-X Advanced Statistics Guide explains that the actual value of
  37. these coefficients depend on the clustering method and the distance
  38. measure used.  I assume that means that it is NOT worthwhile to compare
  39. these values from one method to the next.  Is that correct?  
  40.  
  41. Also, I find the size of the coefficients obtained from WARD to be
  42. alarming.  The Advanced Guide explains that small coefficients indicate
  43. that fairly homogeneous clusters are being merged and large
  44. coefficients indicate that clusters containing dissimilar members are
  45. being combined.  My question is... for each method/distance measure,
  46. what should be considered "small" and what is "large?"
  47.  
  48. --------------------------------------------------------------------------
  49.  
  50. It is a correct deduction that distance coefficients are generally not
  51. comparable across measures and methods. The same data will give different
  52. coefficients with different measures and may give very different results
  53. with the same measure but with different methods. 
  54.  
  55. The coefficients given for the Ward method differ from all of the other
  56. methods in that rather than being the distance at which two clusters
  57. were joined, they represent the within cluster sums of squares after
  58. joining the two clusters. 
  59.  
  60. I don't think any standard rules can be given for what is large and what
  61. is small. This depends on the scale and other characteristics of the data.
  62. The general guidelines for usage of these coefficients are that they can
  63. be used to look for breaks, or places where joining two clusters produces
  64. either a much larger within clusters sums of squares (for Ward's method)
  65. or where clusters that are relatively much farther apart than those last
  66. joined would have to be joined in order to continue.
  67.  
  68. --
  69.  David Nichols           Statistical Support Specialist            SPSS, Inc.
  70.  Phone: (312) 329-3684     Internet: nichols@spss.com     Fax: (312) 329-3657
  71. *******************************************************************************
  72.  Any correlation between my views and those of SPSS is strictly due to chance.
  73.