home *** CD-ROM | disk | FTP | other *** search
/ Power-Programmierung / CD2.mdf / doc / mir / 1aglossa < prev    next >
Text File  |  1992-06-29  |  21KB  |  615 lines

  1.  
  2.               ════════════════════════════════
  3.  
  4.                   10.   GLOSSARY AND INDEX
  5.  
  6.               ════════════════════════════════
  7.  
  8.  
  9.             Each item is indexed by topic and section number.  The
  10. first reference is to the topic and section in which the item is
  11. explained or first discussed.  The index indicates other notable
  12. places in which the item is mentioned.  For example, "accented
  13. characters" below are discussed in some detail in topic 4, section
  14. 8.  Section 10 of topic 4 and four sections within topic 5 touch on
  15. accented characters further.
  16.  
  17.  
  18. ≡≡≡≡->> QUESTION:
  19.             What terms or expressions are used in Tutorial ONE that
  20.             puzzle you or that should be included in this glossary
  21.             and index?
  22.                                                             <<-≡≡≡≡
  23.  
  24.  
  25. ═════
  26.   A
  27. ═════
  28.  
  29. accented characters
  30.           4.8   indicated in DOS with high-bit-set characters
  31.           4.10  distribution frequencies
  32.           5.1   displayed in MIR program HEAD
  33.           5.3   displayed in MIR program F_PRINT
  34.           5.4   displayed in MIR program DUMP
  35.           5.5   displayed in MIR program FRAGMENT
  36.  
  37. ANSI C  (American National Standards Institute)
  38.           2.3   The ANSI draft standard for the C programming
  39.                 language proposes a basic set of functions and
  40.                 characteristics; adhering to ANSI C is the best
  41.                 way to assure maximum portability of C programs
  42.  
  43. ASCII (The American Standard Code for Information Interchange)
  44.           4.8   an agreed-upon assignment of bit patterns to
  45.                 letters, digits, punctuation, control characters
  46.           etc.  Mentioned in 64 other sections.
  47.  
  48.  
  49.  
  50. ASCII text
  51.           4.8   a file made up of the printable subset of ASCII,
  52.                 entered from a normal keyboard and displayable on
  53.                 terminals in ASCII-based operating systems such as
  54.                 DOS and UNIX
  55.           4.10  byte distribution in example of ASCII text file
  56.           5.1   MIR program HEAD reports if file not ASCII text
  57.           5.3   MIR program F_PRINT extracts ASCII text
  58.           6.1   programs for analyzing ASCII text
  59.           7.1   fixed length ASCII text records
  60.           9.2   MIR program F_TRAIL to remove trailing blanks
  61.  
  62. ASCII text, extended
  63.           4.8   to the printable set of ASCII characters, the
  64.                 extended set adds accented characters commonly
  65.                 found in various European languages
  66.  
  67. A_BYTES
  68.           4.7   MIR program to analyze the distribution of byte
  69.                 frequencies within any file
  70.           4.8   and analysis of data types
  71.           4.9   and analysis of data presentation
  72.           4.10  worked example on extended ASCII with markup
  73.           5.5   use locations to examine context
  74.           7.1   recognizing printable subsets
  75.  
  76. A_LEN
  77.           6.1   MIR program to analyze the distribution of line
  78.                 lengths up to 1024 bytes within any file.
  79.  
  80. A_OCCUR
  81.           5.8   MIR program to count the frequency of occurrence
  82.                 of identical lines in ASCII text
  83.  
  84. A_OCCUR2
  85.           5.8   MIR program to calculate cumulative frequency of
  86.                 merged A_OCCUR outputs
  87.  
  88. A_OCCUR3
  89.           5.8   MIR program to reverse an A_OCCUR file back to
  90.                 repeated lines of ASCII text
  91.  
  92. A_PATTRN
  93.           5.6   MIR program to list every occurrence of a key
  94.                 character or string in a file
  95.           5.7   the power of sorting A_PATTRN outputs
  96.  
  97.  
  98.  
  99. ═════
  100.   B
  101. ═════
  102.  
  103. batch file
  104.           4.5   a text file in DOS containing an orderly series of
  105.                 commands, each of which runs a program or process
  106.                 as part of a larger task
  107.  
  108. BCD (Binary Coded Decimal)
  109.           4.8   a set of codes in which a combination of 4 bits is
  110.                 assigned each digit 0 through 9 (0000, 0001, ...
  111.                 1001); each 8 bit byte can hold two BCD digits
  112.           7.4   used within EBCDIC COBOL records for packing
  113.  
  114. bit
  115.           2.2   the smallest measure of computer memory; a single
  116.                 off/on characteristic that is interpreted as a
  117.                 zero or a one.  A series of bits can be mapped to
  118.                 binary arithmetic.  Example... 10110 =
  119.                         1 X 2 to the fourth power (1 X 16) +
  120.                         0 X 2 to the third power  (0 X 8)  +
  121.                         1 X 2 squared             (1 X 4)  +
  122.                         1 X 2 to the power 1      (1 X 2)  +
  123.                         0 X 2 to the power zero   (0 X 1)
  124.                 which is decimal 22.
  125.  
  126. blocked records
  127.           4.9   a method of data presentation in which successive
  128.                 records are grouped in a logical consistent manner
  129.                 for convenience of reading, writing or storage
  130.           9.    topic on how to deblock records
  131.  
  132. BPI (bits per inch)
  133.                 a measure of the quantity of information held on
  134.                 magnetic tape; normal measures are 1600 and 6250
  135.                 BPI
  136.  
  137. byte
  138.                 8 bits; one byte can represent 256 different values
  139.  
  140. byte stream
  141.           4.9   the crudest form of file; sequence of bytes which
  142.                 a program reads sequentially and manipulates
  143.                 according to content rather than according to
  144.                 position within the file
  145.           6.4   contrast to hierarchical text
  146.  
  147.  
  148. ═════
  149.   C
  150. ═════
  151.  
  152. C language
  153.                 "a general purpose programming language which
  154.                 features economy of expression, modern control
  155.                 flow and data structures, and a rich set of
  156.                 operators" (Kernighan and Ritchie, The C
  157.                 Programming Language, page ix), in which source
  158.                 code requires little or no adaptation to be used
  159.                 on a wide variety of computers
  160.  
  161. Canada
  162.                 the home of the GST (Grab and Squander Tax) and
  163.                 the place where cold weather comes from; a country
  164.                 in which natives huddle in their igloos and write
  165.                 superlative software in vain attempt to stay warm
  166.  
  167. CD-ROM (Compact Disc Read Only Memory)
  168.                 a computer optical storage medium, closely related
  169.                 to the compact discs used for music, holding 660
  170.                 million bytes of data, with random access to any
  171.                 point on the disc in less than two seconds
  172.  
  173. COBOL (COmmon Business-Oriented Language)
  174.                 a computer programming language favored in
  175.                 commercial applications in the 1960s and later,
  176.                 particularly in mainframe (large computer)
  177.                 installations
  178.  
  179. COLRM
  180.           5.8   MIR program to remove a specified range of columns
  181.                 from each line of an ASCII text file.
  182.           7.3   extracting a single field from a file consisting
  183.                 of fixed length ASCII records
  184.  
  185. compiler
  186.           2.3   computer program used to translate source code
  187.                 into a machine language program, suitable for
  188.                 executing on compatible computers with the same
  189.                 operating system
  190.  
  191. CompuServe Information System
  192.                 an electronic information and communication system
  193.                 with over 900,000 subscribers, widely used for
  194.                 electronic mail; sometimes abbreviated CIS or CI$;
  195.                 CompuServe is a registered trademark of
  196.                 CompuServe, Inc.
  197.  
  198. concatenate
  199.           4.7   to link together, as in a chain; to place several
  200.                 text files one after another within a combined
  201.                 file
  202.  
  203. copyleft
  204.                 refers to the Free Software Foundation GNU General
  205.                 Public License in which persons receiving source
  206.                 code can do almost anything with it except put in
  207.                 under copyright or patent
  208.  
  209. CPB
  210.           4.6   MIR program to copy any portion of any file to a
  211.                 new file
  212.           5.5   use to get a more detailed, but less convenient,
  213.                 display than that produced by FRAGMENT
  214.  
  215.  
  216. ═════
  217.   D
  218. ═════
  219.  
  220. DEBLOC_A
  221.           9.4   MIR program to remove blocking and insert line
  222.                 feeds in a variable length blocked ASCII text file
  223.  
  224. DEBLOC_B
  225.           9.5   MIR program to deblock two level binary blocked
  226.                 files
  227.  
  228. DIR
  229.                 a DOS command to list files and their sizes within
  230.                 a directory
  231.  
  232. DOS (Disk Operating System)
  233.                 the most widely used operating system for IBM
  234.                 compatible personal computers; MS-DOS is a
  235.                 registered trademark of Microsoft Corporation
  236.  
  237. DOS executable form
  238.           2.3   selected for widest spectrum of potential users
  239.           4.5   program in PC compatible machine language ready
  240.                 for use in a MS DOS or PC DOS environment
  241.  
  242. DOSIFY
  243.           5.2   MIR program to replace a UNIX-style text file with
  244.                 a DOS version in which each line feed is preceded
  245.                 by one carriage return, and the file ends with one
  246.                 CTL-Z byte
  247.  
  248. DUMP
  249.           5.4   MIR program to list the contents of a specified
  250.                 portion of any file, reporting 16 bytes per line
  251.                 in hexadecimal and (where feasible) printable form
  252.           5.5   detailed way to display context at a location
  253.           8.2   use to examine file signatures
  254.           8.4   use to verify binary blocking
  255.  
  256.  
  257. ═════
  258.   E
  259. ═════
  260.  
  261. EBCDIC  (Extended Binary Coded Decimal Interchange Code)
  262.           4.8   an agreed-upon assignment of bit patterns to
  263.                 letters, digits, punctuation, control characters;
  264.                 an alternate to ASCII, common on IBM mainframes
  265.           7.4   may need to re-convert to identify packed values
  266.           9.5   DEBLOC_B program
  267.  
  268. EBC_ASC
  269.           4.8   MIR program to convert an EBCDIC file to ASCII
  270.           9.5   distorts binary values when converting files
  271.  
  272.  
  273. ═════
  274.   F
  275. ═════
  276.  
  277. field
  278.           4.1   unit of data that takes on meaning according to
  279.                 location or an identifying code; examples...
  280.                 purchase order number, street address, quantity,
  281.                 cost per unit, etc.
  282.           5.6, 5.7  recognizing field separators
  283.           6.5   fielded variable length text
  284.           6.6   sequence of data within a field as an analysis aid
  285.           7.2   field layouts
  286.           7.3   extracting a single field from fixed length data
  287.  
  288.  
  289. fixed length records
  290.           4.9   a file consists entirely of equal size segments,
  291.                 and within each segment, fields have specific byte
  292.                 range assignments which do not vary from one
  293.                 record to the next
  294.           7.    topic on worked examples of fixed length records
  295.           8.5   binary data within fixed length records
  296.           9.3   deblocking fixed length records
  297.  
  298. FORtran  (FORmula TRANslation)
  299.                 a procedure oriented programming language
  300.                 developed in the 1950s for solving problems in
  301.                 mathematics, science and engineering; Fortran is
  302.                 still in use
  303.  
  304. FRAGMENT
  305.           5.5   MIR program to display a five line fragment of a
  306.                 file in printable form, providing a quick view of
  307.                 context
  308.  
  309. F_PRINT
  310.           5.3   MIR program to filter/reduce a file to printable
  311.                 characters only
  312.  
  313. F_TRAIL
  314.           9.2   MIR program to remove trailing blanks from lines
  315.                 of ASCII text
  316.  
  317. ═════
  318.   G
  319. ═════
  320.  
  321. gigabyte
  322.                 1,073,742,824 characters of data
  323.  
  324. GNU  (GNU's Not UNIX)
  325.                 a recursive acronym for the Free Software
  326.                 Foundation's alternative to the UNIX operating
  327.                 system; a diabolical threat to mental health if
  328.                 one is asked too frequently: "What's GNU?"
  329.  
  330. ═════
  331.   H
  332. ═════
  333.  
  334. hard copy
  335.           4.4, 7.4  data printed on paper an aid to analysis
  336.  
  337. hardware
  338.           2.3   the physical components of a computer (case, disk
  339.                 drives, boards, chips, etc.) and its peripheral
  340.                 equipment (printer, external drives, terminal,
  341.                 cables, etc.); what you can see, feel, hear, and
  342.                 (when the terminal has been on too many hours)
  343.                 smell
  344.  
  345. HEAD
  346.           5.1   MIR program to display lines at the beginning or
  347.                 end of a text file
  348.           5.2   use to recognize non-DOS text
  349.  
  350. hexadecimal notation
  351.           4.7   Arithmetic to the base 16; the rightmost digit in
  352.                 an octal number is a multiple of 16 to the power 0
  353.                 (i.e., 1), the next digit 16 to the power 1, the
  354.                 third digit from the right 16 to the power 2, etc. 
  355.                 The hexadecimal digits are 0 1 2 3 4 5 6 7 8 9 A B
  356.                 C D E and F.  Example: hexadecimal 6D is 6 X 16
  357.                 plus 13 X 1 which in decimal arithmetic is 109 and
  358.                 in ASCII code is the letter 'm'.  The 256 possible
  359.                 values in one byte are hexadecimal 00 through FF. 
  360.                 Note one hexadecimal digit represents 4 bits.
  361.           5.4   output from DUMP program
  362.           5.6   output from A_PATTRN program when /x argument used
  363.  
  364. HEX_BIN
  365.           8.4   MIR program to create test files with any
  366.                 combination of printable and binary characters
  367.  
  368. high-bit-set
  369.           4.8   the first of eight bits in a byte is turned on
  370.           4.9   bytes show up in binary length blocked records
  371.           4.10  used in DOS for accented characters
  372.  
  373. homonyms
  374.                 words of different meaning which share the same
  375.                 spelling (a significant problem in indexing)
  376.  
  377. ═════
  378.   I
  379. ═════
  380.  
  381. IBM
  382.                 registered trademark of International Business
  383.                 Machines Corporation
  384.  
  385. ISO 9660
  386.                 Standard controlling the headers and file
  387.                 references on CD-ROM that permits any computer
  388.                 program written to standard to access files in
  389.                 conforming CD-ROM readers of any manufacturer; ISO
  390.                 = International Standards Organization
  391.  
  392.  
  393. ═════
  394.   J
  395. ═════
  396.  
  397. ═════
  398.   K
  399. ═════
  400.  
  401. ═════
  402.   L
  403. ═════
  404.  
  405. line records
  406.           4.9   segments of text padded to a fixed length
  407.           9.2   reducing line records
  408.  
  409. LINES
  410.           6.1   MIR program to provide a quick count of the number
  411.                 of lines in each of one or more text files
  412.  
  413. LINE_NUM
  414.           6.1   MIR program to assign a sequence number to each
  415.                 line in a text file
  416.  
  417. ═════
  418.   M
  419. ═════
  420.  
  421. markup codes
  422.           4.8   embedded signals which direct how data should be
  423.                 displayed
  424.           3.6   and standards; and SGML
  425.           6.2   ASCII markup patterns
  426.           6.3   Standard Generalized Markup Language
  427.           8.1   binary markup
  428.  
  429. media
  430.                 alternate methods of storing data so that it may
  431.                 be entered readily into computer memory; examples
  432.                 are hard disk, floppy diskette, optical disk,
  433.                 magnetic tape, laser card, punched card, punched
  434.                 tape
  435.  
  436. media independent
  437.                 describes a technique in which the selection of
  438.                 data storage technology has no bearing
  439.  
  440.  
  441.  
  442. MIR  (Mass Indexing and Retrieval)
  443.                 project whose output is a set of tutorials, plus
  444.                 extensive C language source code under copyleft
  445.                 rules, aimed at enabling technical people to write
  446.                 or adapt software leading to high speed retrieval
  447.                 in any size database
  448.  
  449. mouse
  450.           2.1   a hand operated device to point to objects or text
  451.                 on a computer screen; a mouse-click on an object
  452.                 or piece of text acts as a command to a program
  453.  
  454. ═════
  455.   N
  456. ═════
  457.  
  458. NEWLINES
  459.           7.1   MIR program to insert carriage returns and line
  460.                 feeds at regular intervals, to deblock data
  461.                 received in line blocks
  462.           7.3   use to extract a field from a fixed length ASCII
  463.                 text file
  464.           9.2   use to deblock line records
  465.  
  466. ═════
  467.   O
  468. ═════
  469.  
  470. octal notation
  471.           4.7   Arithmetic to the base 8; the rightmost digit in
  472.                 an octal number is a multiple of 8 to the power 0
  473.                 (i.e., 1), the next digit 8 to the power 1, the
  474.                 third digit from the right 8 to the power 2, etc.
  475.                 Example: octal 376 is 3 X 64 plus 7 X 8 plus 6 X 1
  476.                 which in decimal arithmetic is 254.  The 256
  477.                 possible values in one byte are octal 000 through
  478.                 377.  Note one octal represents 3 bits.
  479.           7.3   used by the UNIX utility TR
  480.  
  481. OCR  (Optical Character Recognition)
  482.           3.5   computer software and a scanning device interact
  483.                 to convert text on paper into machine-readable
  484.                 form
  485.           3.7   human checking for validity
  486.  
  487. open architecture
  488.                 describes hardware and software in which the
  489.                 technical detail is made generally available
  490.  
  491. operating system
  492.           2.3   the software and data that initiates, coordinates
  493.                 and directs the components of a computer; serves
  494.                 as an intermediary between the user's programs and
  495.                 the computer hardware
  496.  
  497. ═════
  498.   P
  499. ═════
  500.  
  501. preprocessing
  502.                 the use of a wide variety of techniques to bring
  503.                 data into a standardized form; used in MIR in
  504.                 preparation for automated indexing
  505.  
  506. P_FIXED
  507.           9.3   MIR program to convert a fixed record length file
  508.                 to ASCII with field numbers
  509.  
  510. P_MARC
  511.           9.5   Program source code, untested, to deblock MARC
  512.                 library records
  513.  
  514. ═════
  515.   Q
  516. ═════
  517.  
  518. ═════
  519.   R
  520. ═════
  521.  
  522. RAM  (Random Access Memory)
  523.           2.2   making do with little high speed memory
  524.           8.6   use of RAM in decompression
  525.  
  526. reboot
  527.           2.1   restart a computer by pressing a reset button or
  528.                 (on a PC compatible) by pressing the three keys
  529.                 CTL-ALT-DEL at the same time; an inelegant way to
  530.                 escape from a badly written computer program
  531.  
  532. REPLACE1
  533.           7.3   table-driven MIR program to replace every byte in
  534.                 an input file with exactly one alternate byte
  535.                 (passing reference; full write-up in Tutorial TWO)
  536.  
  537.  
  538. ═════
  539.   S
  540. ═════
  541.  
  542. SFQL  (Structured Full text Query Language)
  543.                 proposed standard to enable "interoperability" of
  544.                 CD-ROMs and software interfaces by different
  545.                 vendors
  546.  
  547. SGML  (Standard Generalized Markup Language)
  548.           6.3   introduction to SGML
  549.           3.6   user control over format
  550.  
  551. SORT2
  552.           5.8   MIR program to sort large text files using the
  553.                 memory-bound DOS SORT routine in multiple passes
  554.  
  555. source code
  556.           2.    the form in which computer programs are normally
  557.                 written and changed, in a "language" which a
  558.                 compiler program can translate into machine
  559.                 language for high speed use; without access to
  560.                 source code it is very difficult to make changes
  561.                 to a program to accommodate it to new needs
  562.  
  563. stdin  (standard input)
  564.                 instead of taking data from a named file, a
  565.                 program receives data directly from another
  566.                 program or from a terminal;  risky in DOS for non-
  567.                 text files
  568.  
  569. stdout  (standard output)
  570.                 the result of a program is sent to another program
  571.                 or to a terminal;  risky in DOS for non-text files
  572.  
  573. ═════
  574.   T
  575. ═════
  576.  
  577. ═════
  578.   U
  579. ═════
  580.  
  581. UNIX
  582.                 a computer operating system and trademark of Bell
  583.                 Laboratories
  584. ═════
  585.   V
  586. ═════
  587.  
  588. ═════
  589.   W
  590. ═════
  591.  
  592. WordPerfect
  593.                 the word processor used to create the topics on
  594.                 the MIR diskettes; WordPerfect is a registered
  595.                 trademark of WordPerfect Corporation
  596.           8.3   converting a file to ASCII
  597.  
  598. WYSIWYG  (What You See Is What You Get)
  599.           6.2   the simplest form of text file
  600.           6.3   untagged SGML
  601.           8.3   WordPerfect ASCII conversion
  602.  
  603. ═════
  604.   X
  605. ═════
  606.  
  607. ═════
  608.   Y
  609. ═════
  610.  
  611. ═════
  612.   Z
  613. ═════
  614.  
  615.