home *** CD-ROM | disk | FTP | other *** search
/ Power-Programmierung / CD2.mdf / doc / mir / 13gather < prev    next >
Text File  |  1992-06-29  |  24KB  |  487 lines

  1.  
  2.  
  3.                     ══════════════════════════
  4.  
  5.                         3.  DATA GATHERING
  6.  
  7.                     ══════════════════════════
  8.  
  9.  
  10.         ════════════════════════════
  11. 3.1           Some definitions
  12.         ════════════════════════════
  13.  
  14.             Terms like "data" and "information" are often used
  15. interchangeably.  It would be helpful to distinguish among the
  16. following terms and propose working relationships among them:
  17.  
  18.     datum ══>
  19.               data ══>
  20.                        record ══>
  21.                                    information ══>
  22.                                                     knowledge
  23.  
  24.             A datum is a single fact or historical observation or
  25. calculated value.  In itself, a datum has little meaning; it
  26. doesn't "inform".  The digit '5' is a datum, a statistic without
  27. context.
  28.  
  29.             The term data is the plural of datum.  "Data" is a term
  30. used in a very general way for any collection of individual facts,
  31. observations, or calculated values.  (The same word is also used as
  32. a collective singular.  One can say, "The data is in the report" OR
  33. "The data are in the report".)  How many kinds of data are there?:
  34. As many as there are phenomena in the universe that can be observed
  35. or derived by humans.  If we limit the focus to computerized data,
  36. we find even that can take ever so many forms... numbers, readable
  37. text (words, phrases, sentences, etc.), sounds, pictures or
  38. graphics, animation, video sequences, and so forth.
  39.  
  40.             A record is sufficient related data to reconstruct an
  41. event.  Each datum provides context for other data within the
  42. record, so that the combined total takes on meaning.  Example:  The
  43. datum "5" out of context tells us virtually nothing.  Look what
  44. happens when we put it within the "record" of a business
  45. transaction:  listing five pairs of black Oxford shoes, style
  46. D-438, size 10-D, sold to ABC Company on October 20 at $59 per
  47. pair.  This says something useful, especially to persons who
  48. created the record.
  49.  
  50.             A record is treated as a single unit for search
  51. purposes.  When the searcher enters attributes or words or phrases
  52. in combination, the retrieval system responds by returning each set
  53. of data (each "record") that holds those terms or is described by
  54. those attributes.  Some more examples of records:  a paragraph, an
  55. article in a newspaper, a screenful of text, one house in a real
  56. estate database, a Bible verse, a dictionary entry, etc.
  57.  
  58.             Information is created when a person (or program)
  59. searches for, and selects, records according to a purpose.  For
  60. example, the cumulative statistics combining records for all sales
  61. of black Oxford shoes, compared year to year and by region, are
  62. informative to a manufacturer who must decide on production plans
  63. for various shoe styles.  Here we have a selection according to a
  64. purpose.  Merely browsing through the data does not create
  65. information.  A purpose is needed to clarify how some records are
  66. to be selected and all others rejected. 
  67.  
  68.             Knowledge is the accumulation of information linked
  69. into useful relationships within a human mind.  (As a definition,
  70. this won't satisfy the teacher in Philosophy 101, but that isn't
  71. our purpose.)  In a sense, knowledge consists of mutually
  72. reinforcing sets of information.  Relationship or linkage is the
  73. key.  Example:  The shoe product manager puts together information
  74. on past production, current costs, financial condition of the
  75. company, status of equipment, available skilled labor, economic
  76. forecasts, market trends, analysis by sales people, and a personal
  77. awareness of the company and industry.  It is this total set of
  78. linked information that forms the knowledge on which a decision
  79. will be reached.
  80.  
  81.             Let's put these ideas together:
  82.  
  83.         datum + datum + datum + ....        = data
  84.  
  85.         enough related data to
  86.                 reconstruct an event        = a record
  87.  
  88.         records selected with purpose       = information
  89.  
  90.         information linked in a mind        = knowledge
  91.  
  92.  
  93.         ════════════════════════════
  94. 3.2           Why gather data?
  95.         ════════════════════════════
  96.  
  97.             People and organizations accumulate data because it is
  98. a means to create value or add to value.
  99.  
  100.             Note that data is a means, not an end in itself.  Data
  101. is raw material out of which information is derived.  Data has
  102. value for its potential.  But it remains potential until a purpose
  103. is applied to select and group the data into useful information. 
  104. And it need not be one single purpose.  Example:  Tens or hundreds
  105. of thousands of copies of a large metropolitan area telephone book
  106. are distributed to the user public.  Such a data base may be
  107. referred to for a hundred thousand different purposes in a single
  108. day.  Copied into a personal telephone index or dialed on a
  109. telephone, the data takes on the value associated with the purpose
  110. for which it was selected.  The value is often small...  Time is
  111. saved, or the toll charge for phoning an Information operator is
  112. avoided.  Sometimes the value is beyond estimation...  Ask a parent
  113. who happened to have the number of the local poison control center
  114. handy when it was desperately needed.
  115.  
  116.             Data has zero value if it is not accessible.  Data is
  117. a means.  The value is according to purpose.  If the purpose cannot
  118. be applied, there is no value.  If you can't find it, it's of no
  119. use to you.  If you can't find it, you cannot generate information
  120. and knowledge with it.  Accessibility is the heart of the argument
  121. in favor of records and information management, quality indexing,
  122. and simple, powerful retrieval methods.  Everything in the MIR
  123. series aims to add value to data.
  124.  
  125.  
  126.         ═════════════════════════════════
  127. 3.3           Who are data gathers?
  128.         ═════════════════════════════════
  129.  
  130.             Who are data gatherers?  Any person who ever recorded
  131. an observation, or collected observations made by others qualifies
  132. as a data gatherer.  If we leave the definition that broad, every
  133. civilization for which we have any recorded history had its data
  134. gatherers.  Using this definition, even the early cave painters
  135. would qualify.  Let's narrow the focus somewhat.  For our purposes,
  136. data gatherers are organizations or persons who put facts and
  137. observations into a form that can be manipulated by use of a
  138. computer.  The data gatherers may create new data, or alternatively
  139. collect existing data.  In either case, their output is "machine
  140. readable".  The data may be intended for uses that create value
  141. internally within the organization, or there may be possible profit
  142. in wider distribution or publication.
  143.  
  144.  
  145.  
  146.  
  147.  
  148.  
  149.         ═══════════════════════════════
  150. 3.4           Keyboard data input
  151.         ═══════════════════════════════
  152.  
  153.             To get data into machine readable form, some form of
  154. computer software is required.
  155.  
  156.             Many computer users are familiar with text processing. 
  157. Such programs are devices for entering, modifying, deleting and
  158. formatting text data.  They are particularly useful for continuous
  159. text, such as letters and reports.  Typesetting software and
  160. desktop publishing software are variations that offer extended
  161. capabilities to prepare text for widespread distribution.  These
  162. usually insert a wide variety of codes to control the format of the
  163. text.  Format controls include underlining, bold text, margin
  164. sizes, paragraph indentation, centering and justifying text, font
  165. selection, type size, etc.
  166.  
  167.             Another method of input, good for highly structured
  168. data, is to present the user with a template in which fields may be
  169. filled in.  For example, here's part of a primitive real estate
  170. template:
  171.  
  172.     ASKING PRICE, $: ___________     MAP GRID:      _____________
  173.     HOUSE #:    _____   STREET NAME:    _________________________
  174.     DISTRICT:   ____________________    CITY: ___________________
  175.     LOT SIZE (sq ft): _________         HOUSE SIZE: _____________
  176.     NO. OF BEDROOMS: ___   FIREPLACES: ____      GARAGE UNITS: __
  177.     IN-GROUND POOL:  ___   ABOVE-GROUND POOL: __        SAUNA: __
  178.  
  179.             So-called "fourth generation" programming languages are
  180. well adapted to creating and manipulating these templates.  Each
  181. template may appear to have its own program.  Actually, one program
  182. behind the scenes may manipulate data in a variety of templates,
  183. putting limits on the kinds of data and the value ranges that are
  184. acceptable in many of the fields.
  185.  
  186.  
  187.         ══════════════════════════════
  188. 3.5           Scanned data input
  189.         ══════════════════════════════
  190.  
  191.             Many records are created by scanning devices.  Point of
  192. purchase devices interpret universal product symbols; these are
  193. increasingly common in grocery and other retail stores.  Entire
  194. warehouses can be automated with the help of bar code scanners
  195. stationed along control points of conveyor belts.  Movements of
  196. goods are entered as records, with exceptional accuracy and
  197. efficiency.
  198.  
  199.             Not all scanning works that well.  Optical scanners
  200. (which look very much like photocopiers) are used to input the text
  201. content of sheets of paper or pages of books.  Scanning is only as
  202. good as the software that is used in conjunction with the scanner
  203. AND the quality of the text being scanned.  Optical character
  204. recognition (OCR) has advanced dramatically with "omnifont"
  205. software that recognizes characteristics of letters as opposed to
  206. predetermined layouts.  Curiously, the quality of printed text may
  207. be deteriorating with the spread of desktop publishing.  Typeset
  208. text normally leaves clear space around each character.  Low cost
  209. desktop equipment may cause individual letters to run together
  210. slightly... especially double letters ('ss' in assembly).  I tried
  211. scanning a 1976 and a 1991 copy of an annual publication that had
  212. switched from typesetting in 1990.  The error rate was 3 per page
  213. in the 1976 typeset copy, and 103 per page in the 1991 version! 
  214. (One consolation... If desktop publishing was used, somebody
  215. somewhere may have backup of the computer files; in that case,
  216. scanning is unnecessary.)
  217.  
  218.             Scanning can present difficulty where the page is not
  219. a single block.  Suppose the page is in three parallel columns. 
  220. Can the system recognize the switch from one column to the next? 
  221. Or is text horizontally in line across the columns run together as
  222. if it were continuous?  Words hyphenated at column ends (and page
  223. ends) are particularly vulnerable to error.
  224.  
  225.             Early in the 1990s, 99 per cent accuracy in text
  226. scanning was considered very good.  That may be acceptable for
  227. small databases.  But think what a one per cent error rate means
  228. for a gigabyte of scanned information.  Assuming the average word
  229. is 7.6 characters long, 1,316,000 words would contain errors.  A
  230. good portion might be found through comparison with listings of
  231. accepted spellings.  But a smudge can turn the word "leap" into the
  232. entirely different word "heap", and only the most sophisticated
  233. software has any chance of catching word substitutions of this
  234. sort.  Correcting errors in very large databases is not as
  235. straight-forward as in the typical letter or report; sheer size
  236. creates its own problems.  (...Or opportunities!  There will be
  237. more on data cleaning software in Tutorial FIVE.)
  238.  
  239.             Data input is the most labor intensive part of making
  240. data accessible on computers.  It is the area of greatest cost
  241. (barring outrageous royalty charges); input is an area that offers
  242. much opportunity for improvement in quality.
  243.  
  244.             Here are some considerations prior to scanning a large
  245. quantity of material:
  246.  
  247.  
  248.         »   If the work has been republished in recent years, was
  249.             the text newly typeset?  If yes, it may be possible to
  250.             work from the typesetting tape or diskettes.  Some
  251.             desktop publishing systems make it easy to extract
  252.             ASCII copies.  Extracting text from typesetting codes
  253.             is more complex, but it may be the quickest way to
  254.             produce a clean copy of the text.
  255.  
  256.         »   Consider scanning only when there is no really usable
  257.             machine readable alternative.  Search out the best
  258.             possible copy of the typeface which is to be scanned. 
  259.             The poorer the quality, the higher the error rate. 
  260.             Also use recent scanning software, not more than two
  261.             years old.
  262.  
  263.         »   Set a timer as someone proofs a portion of the result. 
  264.             Don't expect a spell checker to provide adequate
  265.             proofing; very few check the context.  Correct
  266.             spellings of wrong words garble the result with
  267.             surprising frequency.
  268.  
  269.         »   If the tests above are within budget, go ahead. 
  270.             Otherwise seriously consider having the whole database 
  271.             entered at keyboards.  (Sigh!)
  272.  
  273.  
  274.         ══════════════════════════════════════════════
  275. 3.6           Format, standards and common sense
  276.         ══════════════════════════════════════════════
  277.  
  278.             From an indexer's point of view, the ideal world would
  279. be one in which all computerized data is received in a standard
  280. format on a standard, large scale medium with a standard, publicly
  281. shared set of markup codes.  Notice a word being repeated?   It
  282. comes from the experience over several years of having to figure
  283. out the most incredible variations in the way computer data is
  284. assembled.
  285.  
  286.             Non-standard media?  It's still around; obsolete
  287. typesetting systems are the worst offenders in producing media that
  288. other machines simply cannot read.  A variation is the nine-track
  289. tape (so far, so good) that turns out to have been created by
  290. back-up software that makes the tape unreadable for any machine not
  291. using the same operating system.
  292.  
  293.             Wrong scale media?  Consider the friendly customer who
  294. provides 200 million characters of data on floppy diskettes,
  295. 360,000 bytes at a time.  At the other extreme, I handled another
  296. database of 2.3 billion characters on good nine-track tape; hours
  297. were wasted because 2.0 billion characters were blank padding in
  298. empty fields.  Then there was the neatly formatted hierarchical
  299. text database, beautifully ready in every detail but one.  The
  300. paragraphs were set 90 characters wide.  Since the target machine
  301. had the standard presentation width of 80 characters, it was back
  302. to the drawing board!
  303.  
  304.             Why this small digression?  Obviously it makes me feel
  305. good.  Far, far more important... the failure to use standards
  306. costs the information industry and the end customer bundles of
  307. money.  Standards save money!  The use of standards and common
  308. sense greatly increase the accuracy of cost and time requirement
  309. forecasts.  Jobs get done on time.  The customer is well served.
  310.  
  311.             One last thought along this line:  The searcher does
  312. not need to know the intricacies of a particular standard.  What is
  313. important is that technical staff accept the responsibility to
  314. ensure standards are applied.  For example, increasingly there are
  315. advantages to using some form of SGML (Standard Generalized Markup
  316. Language).  It permits the end user control over the way data is
  317. presented for viewing on the screen or the way it is printed.  The
  318. results are pleasing, particularly on computers that allow changes
  319. in print size and character fonts.  (Again, the results are even
  320. more pleasing to the wallet.)
  321.  
  322.  
  323.         ════════════════════════
  324. 3.7           Data quality
  325.         ════════════════════════
  326.  
  327.             The potential value of data increases with accuracy. 
  328. The single best protection against errors is neither accuracy
  329. checks nor precise verification methods.  It's people who care.  If
  330. there are trained workers with pride of workmanship who are
  331. permitted reasonable time to ensure quality, then quality has a
  332. fair chance.  There is an attitude, all too common among managers,
  333. that data entry is a menial job to be done in the cheapest possible
  334. way.  They get what they pay for... cheap performance.  The real
  335. cost is borne by the searcher later on.  Data entry errors lead to
  336. missed records, incomplete search results, and frustration.
  337.  
  338.             Some data input systems make accuracy easier.  Template
  339. based software often includes data type and range checks for each
  340. field; this stops many errors at their source.  Word processing
  341. packages have spell checkers which catch all but word substitution
  342. errors.  These too should be used as part of the daily entry
  343. routine.
  344.  
  345.             Quality problems with Optical Character Recognition
  346. (OCR) equipment and software were mentioned earlier.  Visual
  347. checking by a human is the only effective way to ensure validity of
  348. scanned numeric data or of words in isolation.  Error checking of
  349. continuous text can be automated up to a point.  But comparison to
  350. lists of correctly spelled words is not enough.  Some kind of check
  351. of nearby vocabulary is needed to catch word substitutions.  Since
  352. intelligent context checking software is not all that common, the
  353. cost of validating scanned input may turn out to be higher than
  354. that of the original scanning.
  355.  
  356.             Timeliness is another aspect of quality.  Have you ever
  357. kept receiving mail for the previous occupants of your home, five
  358. years after they have moved away?  Mailing lists and many other
  359. forms of data are vulnerable to obsolescence.  Again, the cost of
  360. errors is felt, not by the data gatherer, but by the user.
  361.  
  362.             Consistency is another quality issue that arises in
  363. text data that has been accumulated over an extended period of
  364. time.  There may have been changes in the software used to enter
  365. the data.  The change may be only in successive revisions of the
  366. software, so there may be reasonable consistency over time.  But
  367. complete changeovers to different software packages do occur.  In
  368. gigabyte size databases, the resulting inconsistencies may lie
  369. buried until an attempt is made to prepare the data for indexing
  370. and search.  If so, expect unpredictable and undesirable results.
  371.  
  372.             Data quality can be summed up in terms of the
  373. willingness of the data gatherer to accept costs to ensure
  374. accuracy, timeliness, and consistency.  Be ready to ask some tough
  375. questions of organizations providing data for you:  How was the
  376. data gathered?  Where was it entered into a computer, and under
  377. what conditions?  Were the keypunchers working in their first
  378. language?  What incentives for accuracy were given to keypunchers
  379. and to their supervisors?  What measures were in place to ensure
  380. prompt, accurate updates as data changed?
  381.  
  382.  
  383.         ═════════════════════════
  384. 3.8           Value of data
  385.         ═════════════════════════
  386.  
  387.             Recall that people and organizations accumulate data
  388. because it is a means to create value or add to value.  The primary
  389. marketing question in data gathering is:  For whom?  Who will gain
  390. by having the data available?  What are the characteristics of
  391. persons or groups who are most likely to be able to create value
  392. using this data?
  393.  
  394.             Is a record worth creating in the first place?  We
  395. don't know, apart from awareness of its potential use.  Does the
  396. data have inherent worth?  Any response is idle speculation, apart
  397. from awareness of who is the potential user.  The wise data
  398. gatherer addresses marketing questions early in planning any new
  399. project.
  400.  
  401.             The way the data gatherer plans has a direct bearing on
  402. the quality and cost of use by the searcher (the end customer). 
  403. Here is a series of marketing decisions that impact directly.
  404.  
  405.             Market capacity:  If there are lots of people who
  406. already have a felt need for the data being offered, who have the
  407. computer equipment and money available, volume pricing might be
  408. used right from the start.  If the data is specialized, and of
  409. interest to relatively few potential users, the market capacity is
  410. lower.  In this case, expect a "cherry picking" strategy... top
  411. price at first to reach those most eager, then successive moderate
  412. price drops to broaden the customer base.
  413.  
  414.             Cost recovery strategy:  How much was the investment in
  415. research and development for this project, and how quickly must
  416. those funds be recovered?  If competition is threatening, these
  417. costs must be covered quickly.  This boosts initial prices.  But
  418. expect more dramatic reductions over time.  Alternately,
  419. overpricing for fast cost recovery may simply kill the market's
  420. interest in the product.  This happened with great regularity in
  421. the early days of the CD-ROM industry.  The standing joke was that
  422. the only companies making money on CD-ROMs were the mail couriers.
  423.  
  424.             Educating the market:  If enough prospects recognize
  425. the potential value of the data, marketing and sales costs can be
  426. held to a moderate level.  If on the other hand there must be heavy
  427. investment in communicating product benefits and in customer hand
  428. holding, these costs must be loaded into the price.
  429.  
  430.             Perception of value:  It is easy to kill interest in a
  431. product by underpricing.  "Oh, if it's only that much, it can't be
  432. very good."  An effective marketing technique (perfected in the
  433. cosmetic industry and carried over into information products) is to
  434. build a mystique and sense of prestige around use of the product. 
  435. The other end of the scale is give-away pricing... setting the
  436. information product price low or literally free in order to move
  437. associated products (usually computer hardware).
  438.  
  439.             Value added through combination:  A database may
  440. attract limited interest in its own right.  But combined with other
  441. data, whole new applications open up.  A telephone book alone is
  442. useful for looking up individual addresses and phone numbers.  Add
  443. mailing codes, type of dwelling, years in that residence, and
  444. demographics (relative rankings for small clusters of dwellings for
  445. income level, numbers of children, numbers of retired people, etc.)
  446. and then the combination proves potent for creating targeted
  447. mailing lists.
  448.  
  449.  
  450.         ══════════════════════════
  451. 3.9           Data ownership
  452.         ══════════════════════════
  453.  
  454.             Data gatherers have an understandable interest in
  455. getting paid for their work.  Public opinion has been rather
  456. casual.  Copyright, at least in theory, provides protection for
  457. intellectual property.  In reality, losses through illicit copying
  458. are substantial.  The difficulty is that computer data is so very
  459. easily copied.  Anti-piracy software and encryption of data offer
  460. partial protection;  what they really do is raise the cost of
  461. illegal use high enough to discourage all but the most ardent
  462. computer hack.  Publishing media such as CD-ROM raise the cost by
  463. the sheer volume of data.  Who would want to copy 600 megabytes
  464. onto hard disk?  The worst nightmare for the data gatherer is the
  465. offshore commercial pirate who produces forged product and
  466. introduces it into the domestic market at lower prices.
  467.  
  468.  
  469.         ═══════════════════
  470. 3.10          Summary
  471.         ═══════════════════
  472.  
  473.             Collecting and entering data into a computer is the
  474. first stage in enabling people to find information quickly and
  475. easily in a gigabyte world.  Data is raw material, selected
  476. according to a searcher's purposes, to create useful information. 
  477. Data takes a variety of forms.  Text data, that is, any data that
  478. can be entered through a keyboard, can be prepared for search much
  479. more readily than graphic or sound data.
  480.  
  481.             Methods of input directly affect the quality of data,
  482. and hence its potential value for the searcher.  Use of standard
  483. media and data formatting dramatically lower the costs of
  484. preparation for search.  Marketing issues affect the cost and
  485. ultimately the quality of data products that are available for
  486. search.
  487.