home *** CD-ROM | disk | FTP | other *** search
/ ftp.barnyard.co.uk / 2015.02.ftp.barnyard.co.uk.tar / ftp.barnyard.co.uk / cpm / walnut-creek-CDROM / CPM / PROGRAMS / SPREDSHT / SPREAD.TZT / SPREAD.TXT
Text File  |  2000-06-30  |  7KB  |  115 lines

  1.          Spreadsheets As An Intermediate Step In Data Analysis
  2.  
  3.                           by Willie Lockeretz
  4.  
  5.      When I first started using a Kaypro, I didn't expect to have much
  6. use for a spreadsheet.  The little I knew about this type of program was
  7. gleaned from advertisements, which always featured things like financial
  8. planning, depreciation schedules, and profit and loss projections.  As
  9. someone who knows nothing -- and cares even less -- about Presentation
  10. Graphics, Bottom Lines, or Corner Offices, I didn't see that there could
  11. be much in it for me.  It seemed that the main shtick was that this or
  12. that spreadsheet could put me on the Fast Track, in turn letting me get
  13. Up the Corporate Ladder, at the top of which, presumably, I would find
  14. the Key to the Executive Bathroom.
  15.  
  16.      Well I was wrong.  Nowadays I probably get more use out of
  17. spreadsheets than any other single category of software.  But first I
  18. needed some consciousness-raising.  For starters, this meant
  19. acknowledging that no matter what the numbers represent, a tabular array
  20. of numbers is a tabular array of numbers, and a program that lets you
  21. manipulate such an array quickly and conveniently could be very handy
  22. even if the numbers didn't happen to have dollar signs in front of them.
  23. Second, I realized that the manipulations you might perform with such a
  24. program could be very different from the operations the
  25. dressed-for-success types in the ads were doing.  In fact, spreadsheets
  26. could be useful even if you didn't do any manipulations with them at
  27. all.
  28.  
  29.      That was the real breakthrough.  Spreadsheets might be great for
  30. calculating net present value or internal rate of return, but in my work
  31. I do statistical computations that would be impossible on a spreadsheet,
  32. things like multiple regressions and factor analysis.  For this I need a
  33. scientific statistics package.  But rather than ruling out spreadsheets,
  34. I started using them to prepare the data for a statistics program that
  35. would do the real analysis.  In other words, the fact that a spreadsheet
  36. can't do the kinds of calculations I need is not important -- I don't
  37. depend on it for calculations.  But as an intermediary between raw data
  38. and statistical analysis, a spreadsheet has simplified my life
  39. immensely.  I happen to favor SuperCalc2, which works very nicely on a
  40. CP/M Kaypro, but the basic idea would hold for any reasonably powerful
  41. spreadsheet.
  42.  
  43.      I often work with moderately large arrays of demographic, economic,
  44. and agricultural data -- perhaps 12 numbers for each of 150 counties,
  45. say.  I use SuperCalc2 for three purposes.  First, it's a convenient way
  46. to enter the data.  Second, it can help spot large errors (like an extra
  47. zero after a number).  Third, it's a convenient way to compute
  48. additional variables from the raw data.  After it has done all that, the
  49. statistics program is ready to take over.  A statistics package could
  50. have done the first three tasks, too, but most don't do them as
  51. conveniently.  This added convenience should not entail any new
  52. problems.  Any good statistics program and any good spreadsheet should
  53. have at least one format in common that permits them to be linked this
  54. way.  That is, the spreadsheet should be able to write a file that the
  55. statistics program can use as input.
  56.  
  57.      I begin an analysis with a blank spreadsheet that has the right
  58. column and row labels, but with a dashed line where each number is to
  59. go.  Printed out, this is a very efficient form on which to copy numbers
  60. from a source that you can't take back to the office, such as the
  61. Census.  (A laptop would eliminate the needed for writing the numbers
  62. down at all, of course.)  When you enter the data into the computer, the
  63. spreadsheet on the screen corresponds in every visual detail to the
  64. sheet from which you are reading the numbers -- the rows and columns are
  65. in the right order, the headings are identical, the column widths are
  66. the same, and so forth.  This helps eliminate a very common error --
  67. your eye skipping to the wrong line.
  68.  
  69.       Checking for order-of-magnitude errors is easily done by asking
  70. the spreadsheet to report the maximum and minimum value in a row or
  71. column.   For some kinds of data, values that are way out of line are
  72. obviously wrong.  The average age in a county is not likely to be 272 --
  73. 27.2 is more like it.  But for some variables an extreme value is not
  74. necessarily an error.  In that case, the trick is to construct a new
  75. variable whose range is more restricted than the original one.  For
  76. example, the population of towns and cities might range from a few
  77. hundred to several million.  But if you are using population data from
  78. two different census years, the spreadsheet can quickly compute the
  79. percentage change.  If you see a change of +923% in a decade, there is a
  80. pretty good chance that a digit was repeated or a decimal misplaced --
  81. exactly the kind of error that is most likely to occur with manual data
  82. entry.  If you are clever in concocting new variables you should be able
  83. to detect every order-of-magnitude error.  It's not a substitute for
  84. comparing each number to the source, of course.  But that can be very
  85. monotonous and wearying, which means an error can slip past.  It's nice
  86. to have a second line of defense.
  87.  
  88.      Finally, most data analysis will require you to construct new
  89. variables from the raw data (I'm talking now about quantities that are
  90. of interest in their own right, not just as a way of detecting errors).
  91. I prefer doing this on the spreadsheet rather than with the statistics
  92. package because I can see the results before they get irrevocably stored
  93. with all the other data.  A statistics package is a black box: you put
  94. in the data at one end, and you get results out the other.  But you
  95. don't see what goes on in between.  I like to keep an eye on the data as
  96. much as possible.  With a spreadsheet you can inspect the newly created
  97. variables, get familiar with them, fondle them, do whatever you want
  98. with them (in private, and with their consent, of course). I prefer to
  99. relinquish control to the statistics package only after the spreadsheet
  100. has done everything it can.
  101.  
  102.      In short, I use a statistics package for the things that only a
  103. statistics package can do.  But a spreadsheet is a much more practical
  104. and pleasant way to do the tedious but necessary preliminaries: to enter
  105. the raw numbers, check them, and carry out first-level processing.  As
  106. soon as I started using SuperCalc2 this way, I found that it was a true
  107. anomaly in the world of commercial personal computer packages -- a
  108. program suitable for an even wider range of applications than its
  109. advertising claimed.  It also is a true anomaly in having earned the
  110. highest tribute I have ever bestowed on anything in my overflowing box
  111. of non-bundled software: I own it legally.
  112.  
  113. -- from The Boston Kugel, published by The Boston Kaypro Users Group
  114. (BOSKUG) of the Boston Computer Society.
  115.