home *** CD-ROM | disk | FTP | other *** search
/ Power-Programmierung / CD2.mdf / doc / mir / 11intro < prev    next >
Text File  |  1992-06-29  |  4KB  |  96 lines

  1.  
  2.  
  3.       ════════════════════════════════════════════════
  4.  
  5.             1.  INTRODUCTION TO MIR TUTORIAL ONE
  6.  
  7.       ════════════════════════════════════════════════
  8.  
  9.  
  10.  
  11.         ════════════════════════════
  12. 1.1           Project overview
  13.         ════════════════════════════
  14.  
  15.             The Mass Indexing and Retrieval (MIR) project deals
  16. with the technical side of enabling people to find information
  17. within large quantities of data.  Output from the project takes the
  18. form of five sets of printed tutorials, plus related software and
  19. source code under these headings:
  20.  
  21.             ONE        Database Analysis
  22.  
  23.             TWO        Secrets of Data Preparation
  24.  
  25.             THREE      Keys to Automated Indexing
  26.  
  27.             FOUR       Search Engines and Information Retrieval
  28.  
  29.             FIVE       Related Topics and Applications
  30.  
  31.             The tutorials are addressed to Directors of Information
  32. Services, custom software providers, information publishers,
  33. government information distributors, educators, trainers, and
  34. programmers.  The software is distributed under "copyleft" rules of
  35. the Free Software Foundation.  Improvements are invited and will be
  36. shared in a final volume and in an accompanying CD-ROM.
  37.  
  38.             You may wish to print the five introductory topics
  39. together with Tutorial ONE and include them in a three ring binder. 
  40. For best formatting, use the WordPerfect 5.1 version of the files
  41. provided on diskettes.  Printed copies are also available from
  42. Marpex Inc. for a nominal cost; see the files ORDRINFO and
  43. ORDRFORM.
  44.  
  45.  
  46.  
  47.  
  48.  
  49.  
  50.         ═════════════════════════════════
  51. 1.2           Tutorial ONE overview
  52.         ═════════════════════════════════
  53.  
  54.             The purpose of MIR Tutorial ONE is to enable you to
  55. analyze computerized data from an indexing perspective.
  56.  
  57.             The first topic, source code guidelines, explains the
  58. perspectives that have been built into the software that is
  59. provided with the tutorials.  People who wish to improve on the
  60. technology are shown how to share their insights and C language
  61. source code.
  62.  
  63.             Methods of data gathering affect the cost, the quality
  64. and the complexity of the task of indexing.  An index adds value to
  65. data, so we pay attention to some marketing considerations.
  66.  
  67.             Data analysis has to do with recognizing various forms
  68. in which data is accumulated, and detecting the inconsistencies
  69. (common in large sets of data) that make indexing more challenging. 
  70. Data format offers possibilities and imposes limitations that will
  71. face searchers who wish to extract information.  How might the data
  72. be structured in a way that better suits the needs of searchers? 
  73. The reader is provided with a variety of software tools for this
  74. critical data analysis function.
  75.  
  76.             The ability to identify patterns in byte sequences
  77. quickly is critical to keeping indexing costs low.  We examine a
  78. series of software tools for this purpose.
  79.  
  80.             Worked examples are provided of the analysis stage. 
  81. These topics are at a "nuts and bolts" level... use such and such
  82. a program, here is the input, here is the output, and here is what
  83. the results mean.  The sequence is from simplest to most complex...
  84. simple ASCII text, ASCII with markup, fielded text, fixed length
  85. records, the addition of packed numbers, then various forms of
  86. binary data
  87.  
  88.             Data deblocking is explained at this stage since it may
  89. be required in order to finish analysis of the data.
  90.  
  91.             At the end of TUTORIAL ONE, the participant has
  92. detailed exposure to the techniques of data analysis, and is able
  93. to use a selection of analysis tools (source code provided) to
  94. recognize and interpret a wide range of data types.
  95.  
  96.