home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / bit / listserv / statl / 2292 next >
Encoding:
Text File  |  1993-01-04  |  4.0 KB  |  83 lines

  1. Comments: Gated by NETNEWS@AUVM.AMERICAN.EDU
  2. Path: sparky!uunet!zaphod.mps.ohio-state.edu!howland.reston.ans.net!paladin.american.edu!auvm!vm.sas.com!mozart.unx.sas.com!saswfk
  3. Originator: saswfk@thurstne.unx.sas.com
  4. X-Sender: news@unx.sas.com (Noter of Newsworthy Events)
  5. References:  <8289@news.duke.edu>
  6. Nntp-Posting-Host: thurstne.unx.sas.com
  7. Organization: SAS Institute Inc. Cary NC
  8. Keywords: scaling
  9. Lines: 69
  10. Message-ID: <C0C3ox.H04@unx.sas.com>
  11. Newsgroups: bit.listserv.stat-l
  12. Date:         Mon, 4 Jan 1993 14:46:09 GMT
  13. Sender:       STATISTICAL CONSULTING <STAT-L@MCGILL1.BITNET>
  14. Comments:     Warning -- original Sender: tag was NETNEWS@VM.SAS.COM
  15. From:         "Warren F. Kuhfeld" <saswfk@UNX.SAS.COM>
  16. Subject:      Re: qualitative principal components
  17.  
  18. In article <8289@news.duke.edu>, Frank Harrell <feh@DUKE.EDU> writes:
  19. |> What is the state of the art in scaling techniques for combinations
  20. |> of continuous, ordinal, polytomous, and binary variables? To me,
  21. |> qualitative principal components using the alternating least squares-type
  22. |> techniques in SAS PROC PRINQUAL look very promising, but we have had
  23. |> tremendous convergence problems using this procedure.
  24.  
  25. As I see it, the problem with using PROC PRINQUAL on many data sets is
  26. simply that at best there are too few observations for the number of
  27. parameters, and at worst, there are more parameters than observations.
  28. Consider 20 categorical variables with 10 categories each.  There are
  29. 20 * (10 - 1) parameter estimates required for the optimal scoring.
  30.  
  31. Another problem is that the algorithms often work "too well", finding
  32. an uninteresting or silly solution that is in fact the optimal
  33. solution.  Consider the two-dimensional point cloud:
  34.  
  35.                                                     X  X  X
  36.                                                  X    X   X  X
  37.                                                X  X X  X X  X
  38.                                             A  X   X   XX  X
  39.                                                   X  X X  X
  40.                                                     X X  X
  41.  
  42. If given the freedom to do so, PROC PRINQUAL could transform this to:
  43.  
  44. A                                                     X
  45.  
  46. It tries to collapse all the X's into one point.  Often it does not
  47. quite succeed and the X's get *almost* the same scores.  If the
  48. original mean and variance are restored, "A" will get extreme scores.
  49. This problem is most acute when ordinary (period) missing values are
  50. optimally scored.  The example in the SAS manual showing how to use
  51. PRINQUAL to estimate missing data, I now believe, is not very useful.
  52. That technique too frequently leads to optimal but uninteresting
  53. solutions.
  54.  
  55. In my (unfortunately unpublished) dissertation, I concluded that the
  56. best way to compute principal components of ordered categorical data
  57. was to first perform a rank transformation, and then perform an
  58. ordinary PCA of the ranks.
  59.  
  60. In the ALS approach, binary variables can be treated as nominal,
  61. ordinary, or interval.  It does not matter; the results will be the
  62. same.
  63.  
  64. If the total number of categories in all of the nominal variables is
  65. small relative to the total number of observations, consider optimally
  66. scoring them with PRINQUAL.  If the ((degree plus the number of knots)
  67. times the number of spline variables) is small relative to the total
  68. number of observations, consider splines.  However, if either of these
  69. numbers is large, you may get uninteresting results.  If there are
  70. multivariate outliers, you may also get uninteresting results.
  71.  
  72. The 6.07 release of PRINQUAL for MVS, CMS, VMS has a REITERATE option.
  73. It allows you to output the results, change the model, and start
  74. iterating again using the previous results as a starting point.  It
  75. also allows you to specify random initial scores.  Perhaps this might
  76. help.
  77.  
  78. --
  79. ----------------------------------------------------------------------
  80. Warren F. Kuhfeld          Statistical R & D      (919) 677-8000 x7922
  81. saswfk@unx.sas.com         SAS Institute Inc.     (919) 677-8123 (Fax)
  82.                            Cary, NC 27513-2414
  83.