home *** CD-ROM | disk | FTP | other *** search
/ The World of Computer Software / World_Of_Computer_Software-02-386-Vol-2of3.iso / c / codebk11.zip / CODEBOOK.HST < prev    next >
Text File  |  1990-12-21  |  11KB  |  165 lines

  1. History of CODEBOOK.BAS by Jim Groeneveld:
  2.  
  3. vs. 0.0a, 19 October 1988: initial version, called UNFORMAT.BAS.
  4. vs. 0.0b, 20 October 1988:
  5.    - added question for (missing) value to replace entirely blank
  6.            fields; this value may be alphanumeric, if it contains
  7.            blanks, comma's, etc. it should be surrounded by double
  8.            quotes; originally this value was fixed to -1.
  9.    - removed question for record length of input database file;
  10.            record length is now determined by the program and
  11.            only used to determine the end of a record.
  12.            Because it is determined for each record separately
  13.            records may actually be of variable length, though
  14.            should be sufficient to read specific columns from.
  15.            Space is reserved for a record length of maximally 1274.
  16.    - improved feedback on screen while processing cases.
  17.    - added question for (max.) number of variables per output file.
  18. vs. 0.0c, 26 October 1988:
  19.    - added possibility to read comment lines NOT starting with a SPACE
  20.    - improved error report on field widths not matching columns:
  21.            added reporting (STATGRAPHICS) variable name.
  22. vs. 0.0d, 27 October 1988:
  23.    - added check for database file name with numerical extension,
  24.            which is reserved for output file names.
  25.    - added default values for "missing" value and number of variables.
  26.    - added check for existing output files and question whether to
  27.            overwrite them or not.
  28. vs. 0.0e, 1 November 1988:
  29.    - corrected possible misinterpretations while 'reading' past EOL
  30.            and report of such occurrences.
  31.    - added check for unequal record lengths and appropriate report.
  32.    - added checks for illegal field widths and columns and report.
  33. vs. 0.0f, 8 November 1988:
  34.    - added question for number of variables in order to reserve space
  35.            up to a number of 32767.
  36.    - added question for maximum record length in order to reserve
  37.            space and check for exceeding of this maximum. This maximum
  38.            may be any number up to 32767*255-1=8355584.
  39. vs. 0.0g, 9 November 1988:
  40.    - added optional automatic adaptation of maximum record length
  41.            to actual maximum record length up to 32767*255-1=8355584.
  42.            The actual maximum record length (to determine the number
  43.            of data lines per record) is determined from the columns
  44.            to be read from the codebook file as well as during
  45.            reading the actual records.
  46.    - added optional automatic adaptation of maximum number of
  47.            variables to the actual number of variables up to a
  48.            maximum of 32767. This number is deduced from the codebook
  49.            file and is being updated during the run every time it is
  50.            necessary by increasing it by 10. This process, however,
  51.            slows down execution time significantly with more than 100
  52.            variables.
  53.    - removed report of record length of first case.
  54.    - added report of minimum and maximum record lengths read.
  55. vs. 0.1, 13 July 1989:
  56.    - changed original program name UNFORMAT.BAS into CODEBOOK.BAS.
  57.    - changed increment of 10 with auto-adapt to actual number of variables
  58.      into 100 (may be varied by changing a constant in the program source).
  59.    - corrected ability to use lengths and columns > 32767 up to 8355584 by
  60.      changing certain appropriate integer variables into single precision
  61.      variables. (Actually values up to 32767 were possible before.)
  62.    - corrected ability to use specific counts > 32767 up to almost infinite by
  63.      changing certain appropriate integer variables into double precision
  64.      variables. (Actually values up to 32767 were possible before.)
  65.    - added optional removing of leading and trailing spaces of field values.
  66.    - added choice between BLANK or COMMA delimited output file(s).
  67.    - removed limit of 64 variables per output file (limit now is 32767).
  68.    - changed default of 10 variables per output file into 58 (for STATGRAPHICS).
  69. vs. 0.2, 17 July 1989:
  70.    - added optional check for (case sensitive) identical variable names.
  71.    - added enclosing within single or double quotes of character values from
  72.      character variables with a single or double quote in the first column of
  73.      the corresponding description lines within the codebook file;
  74.      for use with values containing characters like spaces, comma's and quotes;
  75.      embedded quotes are doubled, but may not always be readable as such by
  76.      application programs, this is for the user's own concern.
  77.      With this feature all possible character values may be converted now.
  78.    - some improved (more specific) error reports.
  79. vs. 0.3, 24 July 1989:
  80.    - added check for number of output files. Because that number will be the
  81.      extension of the output file, it may not exceed 999. It is calculated
  82.      from the total number of variables in the codebook file and the user
  83.      specified (maximum) number of variables per output file. If the number is
  84.      larger than 999 a minimum number of variables per output file will be
  85.      calculated and displayed.
  86.    - added warnings for time consuming garbage collection and auto-adaptation.
  87. vs. 0.4, 25 July 1989:
  88.    - added default responses for all possible prompts and changed some prompts.
  89.    - removed prompt for maximum record length. Maximum record length now is set
  90.      initially at a minimum value of 254 (MAX.LINE.INPUT.LENGTH-1) and is
  91.      adapted to the actual necessary length automatically deduced from the
  92.      codebook file. This length now only specifies the maximum column number
  93.      to interpret. Input records may now be of an 'infinite' length. The 
  94.      remaining part of each record is processed, but not interpreted.
  95.      Additionally some single precision variables have necessarily been changed
  96.      into double precision variables.
  97.    - changed increment for automatic adaptation to actual number of variables
  98.      from 100 to the initial (negative, user specified) number of variables.
  99.    - added adding of spaces to values from incomplete fields (reading past EOL),
  100.      eventually being replaced by the missing value(s).
  101. vs. 1.0, 26 July 1989:
  102.    - added possibility of specifying a global missing value consisting of one
  103.      or more spaces.
  104.    - removed limit of 10 character variable names, limit now is 255!
  105.    - added an additional output file type: FIXED formatted (next to BLANK and
  106.      COMMA delimited) in which all values, the missing value and variable name
  107.      of one variable have the same output field width (eventually truncated
  108.      from the left or right justified). All fields are contiguous. This offers
  109.      the possibility to extract values of a limited set of variables from an
  110.      original fixed formatted database file into another fixed formatted file.
  111.      The quote specification (the first column in the codebook file) is ignored.
  112.    - added another additional output file type: Report, as some special case of
  113.      a Fixed formatted file, but with additional empty columns (1..9) between
  114.      the fields. These 'empty' columns are eventually used to fit the variable
  115.      name or missing value in, which is longer than the actual field width.
  116.      Additionally added prompt for page length in lines, default 60.
  117.    - made placement of a header line with variable names in the output files
  118.      optional, default present with BLANK and COMMA delimited and Report output
  119.      files and not present with FIXED formatted output files.
  120.    - completely redesigned and rewritten algorithm for file name checking,
  121.      which wasn't correct for subdirectory names; improved error report.
  122. vs. 1.1, 21 December 1990:
  123.    - added additional check of legal field width based on starting and ending
  124.      columns of the field if the FIELD WIDTH isn't explicitely specified.
  125.    - corrected occasional, but severe bug when writing fixed formatted data.
  126.    - improved quality & quantity of the contents of the TESTDATA example files.
  127.    - changed filename checking to allow for extended characters in path/filename
  128.           specification (OK for DOS).
  129.    - added support for wildcard characters within filenames or empty filenames
  130.           which implicitely requests a directory listing of files.
  131.    - without changing version number and date replaced author info (below) later
  132.  
  133. Possible future features (if necessary enough):
  134. + inclusion of optional output of automatic CaseNumbers as the first variable
  135.   of each output file.
  136. + addition of optional additional (second) line (record) with missing values for
  137.   each variable, though I don't know of any programs using this info.
  138. + specification of maximum output record length instead of number of variables
  139.   per output file (as a negative value, default -640). For each output file the
  140.   maximum number of variables that will fit within this length will be
  141.   calculated from the maximum per variable of the actual record length, the
  142.   delimiter length, the lengths of the variable name and missing value and the
  143.   length of the extra spaces in Report output files. Requires many extra
  144.   calculations or extra array space remembering either the maximum field width
  145.   for each variable as described above or the number of variables in each of the
  146.   max. 999 output files. (The maximum field width may then also be used to
  147.   improve the automation of the generation of REPORT type output files.)
  148.   In this instance right justification might also be included.
  149. + specification of delimiting character in REPORT type output files (space,|).
  150. + specification of number of extra delimiting spaces within Report type output
  151.   files per variable in the codebook file (requires additional large array).
  152. + inclusion of optional page numbers, date and time per page of Report output.
  153. + counting the number (and calculating the fraction) of missing values
  154.   (contiguous spaces) for each variable.
  155. + recoding facilities other than for only blank fields (would require many
  156.   extra arrays that take up valuable memory space).
  157. + input of blank or comma delimited (or even report type) data files.
  158.  
  159. Centrum voor Medische Informatica TNO       <Email>              |  |  |\/|
  160. TNO Center for Medical Informatics | GROENEVELD@CMI.TNO.NL  |  \_/  |  |  |
  161. ( CMI-TNO )    | Y. Groeneveld     | GROENEVELD@CMIHP1.UUCP | Jim Groeneveld
  162. P.O.Box 124    | Wassenaarseweg 56 | GROENEVELD@TNO.NL      | Schoolweg 14
  163. 2300 AC Leiden | 2333 AL Leiden    | ...@HDETNO51.BITNET    | 8071 BC Nunspeet
  164. Nederland.     | (+31|0)71-181810  | Fax (+31|0)71-176382   | 03412-60413
  165.