home *** CD-ROM | disk | FTP | other *** search
/ The World of Computer Software / World_Of_Computer_Software-02-385-Vol-1of3.iso / t / ts5st13.zip / STATLADR.INF < prev    next >
Text File  |  1992-09-22  |  13KB  |  290 lines

  1. Tue 22-September-1992                          (All rights reserved)
  2.  
  3. About TS5ST in General  (Least absolute deviation multiple regression)
  4. ======================
  5.  
  6. Contents:
  7. 1. Introduction
  8. 2. General description of statladr
  9. 3. Standard errors and goodness of fit statistics
  10. 4. Release notes
  11. 5. List of the files in the package
  12.  
  13.  
  14. 1. INTRODUCTION
  15.  
  16. Apply question mark ? with the program call for a brief description
  17. of a program.
  18.  
  19. This package may be used and distributed freely for NON-COMMERCIAL,
  20. NON-INSTITUTIONAL, PRIVATE purposes, provided it is not changed in
  21. any way.
  22. ┌────────────────────────────────────────────────────────────────┐
  23. │ For ANY other usage (such as use in a business enterprise or a │
  24. │ university) or the full scale version contact the author for a │
  25. │ personal or a site license.                                    │
  26. └────────────────────────────────────────────────────────────────┘
  27. Please do not distribute any part of this package separately.
  28. Uploading to BBSes is encouraged.
  29.  
  30. The registered version is strictly for the registrant only.
  31. Identical programs must NOT be running on more than one computer at
  32. a time. Site licensed programs must not be run outside the licensed
  33. site.
  34.  
  35. The programs are under development. Comments and contacts are
  36. solicited. If you have any questions, please do not hesitate to use
  37. electronic mail for communication.
  38. InterNet address: ts@uwasa.fi         (preferred)
  39. Bitnet address:   SALMI@FINFUN
  40.  
  41. The author shall not be liable to the user for any direct, indirect
  42. or consequential loss arising from the use of, or inability to use,
  43. any program or file howsoever caused. No warranty is given that the
  44. programs will work under all circumstances.
  45.  
  46. Timo Salmi
  47. Professor of Accounting and Business Finance
  48. Faculty of Accounting and Industrial Management
  49. University of Vaasa
  50. P.O. BOX 297, SF-65101 Vaasa, Finland
  51.  
  52.  
  53. 2. GENERAL DESCRIPTION OF STATLADR (Ver. 1.3)
  54.  
  55.    STATistics: Least Absolute Deviation multiple REGRession analysis
  56. is part of the interactive statistical system by Timo Salmi. It is
  57. the fifth program in the set. The first program in the set is
  58. STATistical MEASures (STATMEAS in TS1STxx.ZIP), which is intended
  59. for univariate analysis. The second program in the set is
  60. STATistics: multiple REGRession analysis (TS2STxx.ZIP). The third
  61. program in the set is STATistics: TRANsformations (STATTRAN in
  62. TS3STxx.ZIP), which can be used for transforming the observations,
  63. and, if necessary, also as an editor. The fourth program in the set
  64. is STATistics: Ranks and CORrelations (STATRCOR in TS4STxx.ZIP).
  65.  
  66.    STATLADR includes a handy built-in help system, which can be
  67. invoked by typing ? at any interactive question. Because of this
  68. built-in help, and the interactive nature of the program's user
  69. interface, no long-winding instructions have been included. (Who
  70. reads instructions anyhow?)
  71.  
  72.    The program performs least absolute deviation (LAD) multiple
  73. regression analysis, that is, estimates the coefficients of
  74.         Y = a + b(1)X(1) + ... + b(M)X(M)
  75. from a set of observations. Whereas in ordinary least squares
  76. estimation (OLS) the sum of squared deviations between the
  77. observations and the regression equation is minimized, in LAD
  78. estimation the sum of the absolute deviations between the
  79. observations and the regression equation is minimized. Least
  80. absolute deviation multiple regression is thus equivalent to the
  81. following linear goal programming programming problem:
  82.  
  83.        n
  84.   Min Sum (Pj + Nj)
  85.       j=1
  86.  
  87.   subject to
  88.                        ┌────┬─ absolute deviation
  89.        n               │    │
  90.   a + Sum x(i,j)b(i) + Pj + Nj  = y(j)
  91.       j=1 │                       │
  92.           └─ explaining variables └─ dependent variable
  93.  
  94. STATLADR finds the estimates of the intercept [a] and the regression
  95. coefficients [b(i)] by solving this linear goal programming problem.
  96.    If the explaining variables are very similar (multicollinearity),
  97. problems tend to occur both in OLS and LAD regression estimation,
  98. and the estimates become very unstable. Further problems of
  99. significance can arise if the values of the explaining variables are
  100. of a very different scale. To test the reliability of the solution
  101. algorithm to inaccuracy indexes are computed and displayed. These
  102. are called the NON-OPTIMALITY OF THE LP SOLUTION and INACCURACY OF
  103. THE LP SOLUTION. The nearer to zero these figures, the less
  104. probability of computationally weak estimates. Although seldom
  105. reported, these problems are inherent to most (even the top
  106. commercial) statistics packages. For those in the know, the former
  107. index is the sum of positive coefficients in the optimal
  108. simplex-tableau. Mathematically they all are non-positive, but
  109. round-offs may cause some of them remain small positive numbers. The
  110. latter is based on the recalculating the optimal simplex-tableau on
  111. from the inverse of the basis matrix, and calculating the deviation
  112. of each item in the recalculated optimal simplex-tableau as compared
  113. with the original optimal simplex tableau. The inaccuracy indexes
  114. are calculated as a so called norm, that is the square root of the
  115. sum of the squared deviations. This measure is used because
  116. mathematically it represents the length of the deviation vector.
  117.  
  118.    Furthermore, STATLADR draws both low-resolution and
  119. high-resolution scatter diagrams of the data, and of the regression
  120. analysis results. The low-resolution scatter diagrams are drawn, or
  121. rather written, using ordinary ascii text, and they can thus be
  122. directed to a file. The high-resolution (graphics) scatter diagrams
  123. can only be displayed on the screen.
  124.  
  125.   The data can either be given from the keyboard or taken from a
  126. file. If the input is to be taken from a file it must first be
  127. prepared with some editor, or some word processor which includes an
  128. option for preparing ordinary ascii text. (Also STATTRAN can be used
  129. for this purpose.)
  130.    The data is given to the program in the following format:
  131.  
  132.        X1 X2 X3                !variable names (! denotes a comment)
  133.        3.56 6.32 -1.73
  134.        5.12 -4.21 9.18
  135.        14.2 5.11 0.31
  136.        END                     !END is optional in a file
  137.  
  138. A missing item in an observation is marked by a hash (#). E.g. if
  139. the first item of the second observation were missing, the
  140. observation should be written as  # -4.21 9.18
  141.  
  142.    The items in an observation can be separated with blanks, as in
  143. the above, or with commas (,) e.g. 5.12,-4.21,9.18. The number of
  144. the intervening blanks is irrelevant, and can be customized for
  145. increased readability. Thus e.g. 5.12 -4.21 9.18
  146. and    5.12    -4.21     9.18    are equivalent.
  147.    A row can be continued using an ampersand (&). E.g. the variables
  148. could be given as
  149.        X1 X2 &
  150.        X3
  151. Alternatively, * or \ can be used instead of & as the continuation
  152. marker.
  153.  
  154.    Comments can be added to the input data. If ! appears on a line
  155. all text after ! will be considered as a comment.
  156.  
  157.    A header can be entered on each page if output is directed to a
  158. file. To accomplish this start the very first line on the input file
  159. with a double exclamation mark (!!) and the rest of the line will be
  160. used as the header. Thus !! indicates a header, a single ! an
  161. ordinary comment.
  162.  
  163.    The maximum number of variables is 25. The maximum number of
  164. observations is 100 (for each variable). The public domain version,
  165. however, sets the limits at 4 and 50 respectively.
  166.  
  167.  
  168. 3. STANDARD ERRORS AND GOODNESS OF FIT STATISTICS
  169.  
  170.    This chapter describes the formulas of the new features that were
  171. added to statladr.exe in the updated version 1.1. This chapter has
  172. been written by Seppo Pynnönen.
  173.  
  174.    The standard errors of the estimates of the regression
  175. coefficients are calculated as
  176.  
  177.                                jj      
  178.                std(b) = s * X'X  ,
  179.  
  180.  
  181. where X is the n x (M+1) data matrix of x variables with vector of
  182.                              jj
  183. ones in the first column, X'X   denotes the j:th diagonal element of
  184. the inverse of the X'X-matrix and the prime (') stands for the
  185. transpose, s is an estimate of the standard error of the residual
  186. terms of the regression model. (n stands for the number of
  187. observations, and M for the number of explanatory variables.) Here
  188. we have defined the standard error (s) of the residuals as
  189.  
  190.                    1
  191.              s = ------,
  192.                   2f(m)
  193.  
  194. where
  195.                         2d
  196.           f(m) = -------------------
  197.                  n(e      - e      )
  198.                     (m+d)     (m-d)
  199.  
  200. with d defined below, e    denote the ordered residuals, and m is
  201.                        (j)
  202. the median point of the ordered residuals. The parameter d depends
  203. on the sample size. In the literature it is suggested that it should
  204. be kept small. Here we have adopted the following convention and
  205. defined d as
  206.  
  207.              d = max[1, n'/6],
  208.  
  209. where n' = n-M-1 (i.e., the number of residuals which are not zero
  210. by definition due to the LP-solution).
  211.  
  212.    The t-values are defined as b(j)/std(b) (j = 0, 1, ..., M, with
  213. b(0), the intercept term), where std(b) is defined in the previous
  214. paragraphs.
  215.  
  216.    The LAD coefficient of determination is defined as
  217.  
  218.                                               Sum |e(i)|
  219.                                                i
  220.    LAD COEFFICIENT OF DETERMINATION = 1 - ------------------
  221.                                           Sum |y(i) - Md(y)|
  222.                                            i
  223.  
  224. (cf. the R-square in the OLS-regression), where Md(y) is the median
  225. of y.
  226.  
  227.  
  228. 4. RELEASE NOTES
  229.  
  230.    Version 1.1: The most important inprovements were described in
  231. the previous chapter.
  232.    Furthermore, I have corrected a bug, which decreased the maximum
  233. capacity of the program by one observation.
  234.    Some stylistic minor imporvements have also been made.
  235.  
  236.    Version 1.2: Several improvements to the nuts and bolts of the
  237. user interface.
  238.    The new usage of the call is
  239. PROGNAME [/h(elp)] [/iInputFileName] [/oOutputFileName] [/cColumnsPerRow]
  240. (the /c option, which regulates the width of the output, is for
  241. registered versions, only). If you use the /i switch, it stuffs the
  242. InputFileName into the appropriate recall buffer. This means that
  243. when the program asks you for the input file name, you can invoke
  244. the input file name just by pressing the CursorUp key. (The same
  245. goes for the /o switch, respectively.) This is very convenient, if
  246. you use the program many times successively making small changes in
  247. your data in between. (This assumes, of course, that you have a
  248. command line editor like DOSEDIT or CED to recall previous MsDos
  249. commands. These common shareware programs can be obtained from any
  250. well-stocked BBS or FTP site.)
  251.    The printer readiness test has been rewritten to be more general.
  252. The earlier test failed for some printers, because the codes the
  253. printers send when they are offline are not standardized.
  254.    The "file exists, overwrite?" question is no more asked when the
  255. output file is prn, in other words when the output is directed to
  256. the printer.
  257.    The user has now a choice of a left margin from 0 to 20 blanks
  258. when output is directed to the printer.
  259.    The user has now a choice between formfeed and four blank lines
  260. to start each new page of output.
  261.    When an input file is not found, the user is given the choice of
  262. listing a directory. The directory routine has been rewritten.
  263.    The file ready message now also includes the file side besides
  264. the name.
  265.  
  266.    Version 1.3: The input and output file names can be optionally
  267. given as parameters in the program calls, e.g.
  268.       STATLADR /ic:\stat\test.dat /or:\tmp
  269. This option has  been improved.  The "prefilled"  name (e.g.
  270. c:\stat\test.dat) will now automatically appear on the input line
  271. without the need of pressing the cursor up key. All you need to do
  272. is to press enter.
  273.    Also made some minor internal changes not worth recording.
  274.    Rewrote the document files using a 68 column wrap instead of the
  275. former 80 to make the text easier to read and handle. Added the list
  276. of files in the package to the documentation.
  277.  
  278.  
  279. 5. LIST OF THE FILES IN THE PACKAGE
  280.  
  281. TS5ST Statistics by T.Salmi. Part V
  282. Filename        Comment
  283. --------        --------------------------------
  284. FILE_ID.DIZ     Brief characterization of TS5ST
  285. STATLADR.EXE    Least abs. deviation regression
  286. STATLADR.INF    Document
  287. STATLADR.NWS    News announcements about TS5ST
  288. ----            ------             ------  -----
  289. 0004
  290.