home *** CD-ROM | disk | FTP | other *** search
/ Power-Programmierung / CD2.mdf / doc / mir / 10toc < prev    next >
Text File  |  1992-07-01  |  6KB  |  266 lines

  1.  
  2.  
  3.                 ══════════════════════════════════════
  4.                            MIR TUTORIAL ONE
  5.                            DATABASE ANALYSIS
  6.                       Detailed Table of Contents
  7.                 ══════════════════════════════════════
  8.  
  9.  
  10.  
  11. 0. MIR TUTORIAL ONE  Table of Contents
  12.  
  13.  
  14. 1. Introduction to MIR TUTORIAL ONE
  15.  
  16.     1.1 Project overview
  17.  
  18.     1.2 Tutorial ONE overview
  19.  
  20.  
  21. 2. Source code guidelines
  22.  
  23.     2.1 Needs of the information searcher
  24.  
  25.             The value of time
  26.             Simplicity, simplicity, simplicity
  27.             Control
  28.             Freedom from a ticking clock
  29.             Freedom from obscure error messages
  30.             Freedom from the curse of codes
  31.             Language of choice
  32.             Context-sensitive help
  33.             More bang per computer dollar
  34.  
  35.     2.2 Design background
  36.  
  37.             Squeezing each bit... the conservationist start
  38.             The gigabyte years
  39.             Unix influence
  40.             C with a Fortran accent
  41.  
  42.     2.3 Design decisions
  43.  
  44.             Language
  45.             Hardware
  46.             Operating system and compiler
  47.             Avoiding code that blows up
  48.  
  49.  
  50.     2.4 Conventions
  51.  
  52.             Humans use programs
  53.             Humans read programs
  54.  
  55.     2.5 Use It, Improve It
  56.  
  57.  
  58. 3. Data gathering
  59.  
  60.     3.1 Some definitions
  61.  
  62.             Datum
  63.             Data
  64.             Record
  65.             Information
  66.             Knowledge
  67.  
  68.     3.2 Why gather data?
  69.  
  70.     3.3 Who are data gatherers?
  71.  
  72.     3.4 Keyboard data input
  73.  
  74.     3.5 Scanned data input
  75.  
  76.     3.6 Formats, standards and common sense
  77.  
  78.     3.7 Data quality
  79.  
  80.             Accuracy
  81.             Timeliness
  82.             Consistency
  83.  
  84.     3.8 Value of data
  85.  
  86.             Market capacity
  87.             Cost recovery strategy
  88.             Educating the market
  89.             Perception of value
  90.             Value added through combination
  91.  
  92.     3.9 Data ownership
  93.  
  94.     3.10 Summary
  95.  
  96.  
  97. 4. First steps in data analysis
  98.  
  99.     4.1 Objectives
  100.  
  101.             Extract searchable content
  102.             Recognize record separations
  103.             Recognize field separations
  104.             Recognize formatting aids
  105.  
  106.     4.2 Learn how the data was accumulated
  107.  
  108.     4.3 Learn how the data will be used
  109.  
  110.     4.4 Access to samples and hard copy
  111.  
  112.             Media
  113.             Representativeness
  114.             Hard copy
  115.  
  116.     4.5 Access to software tools
  117.  
  118.     4.6 Extracting samples from larger files
  119.  
  120.             Use CPB to get subsets
  121.  
  122.     4.7 Byte surveys - a worked example
  123.  
  124.             A_BYTES to analyze bytes
  125.             Sorting byte analysis reports
  126.             A_BYTES -L for locations data
  127.  
  128.     4.8 Data types
  129.  
  130.             ASCII text
  131.             Extended ASCII text
  132.             Text with ASCII markup codes
  133.             Text with binary markup codes
  134.             Text with packed numbers
  135.             Text with compression substitutions
  136.             EBCDIC
  137.                 EBC_ASC to convert EBCDIC to ASCII
  138.             Binary data
  139.  
  140.     4.9 Data presentation
  141.  
  142.             Byte stream
  143.             Line records
  144.             Fixed length records
  145.             Blocked records with ASCII lengths
  146.             Blocked records with binary lengths
  147.  
  148.     4.10 Byte distributions
  149.  
  150.             English text
  151.             European languages text
  152.             Significance of byte frequencies
  153.  
  154. 5. Patterns in byte sequences
  155.  
  156.     5.1 Heads and tails... first impressions of a file
  157.  
  158.             HEAD to see the beginning of a file
  159.             HEAD ## to see ## lines
  160.             HEAD -t to see the tail end of a file
  161.             HEAD -a to see accented characters
  162.  
  163.     5.2 Non-DOS files
  164.  
  165.             DOSIFY to insert carriage returns
  166.  
  167.     5.3 Displaying printable data
  168.  
  169.             F_PRINT filter
  170.  
  171.     5.4 Detailed data dumps
  172.  
  173.             DUMP to display hex and ASCII
  174.  
  175.     5.5 Convenient display of fragments
  176.  
  177.             FRAGMENT to show context
  178.  
  179.     5.6 Viewing patterns throughout a file
  180.  
  181.             A_PATTRN to extract byte patterns
  182.  
  183.     5.7 The power of sorting patterns
  184.  
  185.     5.8 Sorting large files
  186.  
  187.             SORT2 for files over 60k
  188.             COLRM to reduce large files before sorting
  189.             A_OCCUR to analyze occurrences
  190.             A_OCCUR2 and A_OCCUR3 utilities
  191.  
  192. 6. Worked Examples - Variations in ASCII text
  193.  
  194.     6.1 Other analysis tools
  195.  
  196.             LINES for a quick line count
  197.             A_LEN for a distribution of line lengths
  198.             LINE_NUM to insert line numbers
  199.  
  200.     6.2 ASCII markup patterns
  201.  
  202.     6.3 Standard Generalized Markup Language (SGML)
  203.  
  204.     6.4 Free versus hierarchical text
  205.  
  206.     6.5 Fielded variable length text
  207.  
  208.     6.6 Independent versus continuous data
  209.  
  210.  
  211. 7. Worked Examples - Fixed length records
  212.  
  213.     7.1 Recognizing fixed length ASCII text
  214.  
  215.             NEWLINES to separate records
  216.  
  217.     7.2 Field layouts
  218.  
  219.     7.3 Extracting a single field
  220.  
  221.     7.4 Packed numbers in fixed length records
  222.  
  223.  
  224. 8. Worked Examples - Binary data
  225.  
  226.     8.1 The preprocessing option
  227.  
  228.     8.2 File signatures
  229.  
  230.     8.3 Converting word processing files
  231.  
  232.     8.4 Binary deblocking lengths
  233.  
  234.             HEX_BIN to create test files
  235.  
  236.     8.5 Binary data in fixed length records
  237.  
  238.     8.6 Compressed data
  239.  
  240.  
  241. 9. Data Deblocking
  242.  
  243.     9.1 An aid in analysis
  244.  
  245.     9.2 Reducing line records
  246.  
  247.             F_TRAIL
  248.  
  249.     9.3 Handling fixed length records
  250.  
  251.             P_FIXED
  252.  
  253.     9.4 Blocked records with ASCII lengths
  254.  
  255.             DEBLOC_A
  256.  
  257.     9.5 Blocked records with binary lengths
  258.  
  259.             DEBLOC_B
  260.             P_MARC
  261.  
  262.  
  263. 10. Glossary and index of terms
  264.  
  265.                                             END OF MIR TUTORIAL 1
  266.