home *** CD-ROM | disk | FTP | other *** search
/ Piper's Pit BBS/FTP: ibm 0010 - 0019 / ibm0010-0019 / ibm0010.tar / ibm0010 / PROD_OCR.ZIP / README.DOC < prev    next >
Encoding:
Text File  |  1989-05-26  |  23.1 KB  |  555 lines

  1. GENIUS GS2000 - GS4000
  2. PRODIGY OCR V1.69
  3. (c) 1988, 1989 Synergy (UK) Ltd. All rights reserved.           25th May 1989
  4.  
  5. NEW FEATURES ---  MAKE SURE YOU READ THIS SECTION CAREFULLY ---
  6. ============
  7.  
  8. V1.67+ :-
  9.         1) Context checking to reduce the chances of 0Oo and 1lI characters
  10.             occurring out of context.
  11.  
  12.         2) Context checking not enabled in learn mode, so upper/lower case
  13.             characters can occur unexepectedly in learn mode. THESE ONLY 
  14.             NEED TO BE TAUGHT IF THE REAL CHARACTER IS NOT SHOWN IN THE 
  15.             POSSIBLE CHARACTER STRING.                 ---
  16.  
  17.         3) The Font dictionary is saved to disk when overflow space has been
  18.             used up in learn mode. It is then rebuilt into memory. This shows
  19.             up as a pause when you are teaching.
  20. V1.69+ :-
  21.         4) Pixel display in learn mode.
  22.  
  23.         5) Font status on display in learn mode.
  24.  
  25.         6) "WORKING" message flashes at bottom right of screen during the
  26.            recognition process.
  27.  
  28.         7) While "WORKING" is displayed, hitting the space bar will cause the 
  29.            recognition on the current line to stop and the OCR will display
  30.            what is has recognised thus far and then move on to the next
  31.            line of text.
  32.  
  33.         8) Only the Escape key will now abandon a run completely.
  34.  
  35.         9) A list of all existing .TIF files will be shown before you enter
  36.            your TIF file name.
  37.  
  38.        10) The text file name will default to the same name as your TIF file
  39.            and you are also shown all your .TXT files before you enter your
  40.            TXT file name.
  41.  
  42.        11) You can choose file names either by using the cursor keys as
  43.            described below, OR by typing the number shown in front of the
  44.            filename and then pressing the <Enter> key.
  45.             
  46.  
  47. List of files
  48. =============
  49.  
  50. OCR.EXE         the OCR program for GS4000/GS2000
  51. REMOVE.EXE       a utility to remove bad characters from a font-file
  52. README.DOC       this file
  53.  
  54. COURIER.OCR      a fontfile ( all fontfiles must have the extension .OCR )
  55. HELVETIC.OCR     a fontfile for Helvetica fonts.
  56. TIMROMAN.OCR     a fontfile for Times Roman fonts.
  57.  
  58. Installing the software
  59. =======================
  60.  
  61. The software can be run from floppy, hard or RAM discs. To install on a hard
  62. disc C:
  63.    A:>C:
  64.    C:>MD \OCR
  65.    C:>CD \OCR
  66.    C:>COPY A:\*.* /V
  67. ( You can install OCR in a different directory, or on a floppy disc, as 
  68. necessary. The configuration file should be in the current working directory
  69. when you run the software. )
  70.  
  71.  
  72.  
  73. Running the software
  74. ====================
  75.  
  76. The OCR program can be run in two modes, either by supplying all options on
  77. the command line, or via a menu screen, (however you can not use the Merge
  78. facility from the command line).
  79.  
  80. (a) Menu screen
  81. ---------------
  82. At the DOS prompt, type 'OCR' to use a GS4000 or 'OCR -2' to use a GS2000
  83. and press enter, e.g.
  84.  
  85.    C:>OCR -2
  86.  
  87. The program will then display a menu screen, thus:
  88. -----------------------------------------------------------------------------
  89.     Resolution (DPI)            GENIUS GS2000      
  90.           200                 PRODIGY OCR V1.69
  91.  
  92.     F1: Merge Scan (ON / OFF)   __OFF      F6:  Learn mode ( ON/OFF)    OFF
  93.     
  94.     F2: Character spacing                  F7:  Scanner /TIF file   SCANNER
  95.  
  96.     F3: Automatic detection                F8:  Select font (.OCR)  COURIER
  97.  
  98.     F4: Sensitivity (-9 to +9)      0      F9:  Change Font file path     
  99.      
  100.     F5: Touching Characters     ___ON      F10: Change image file path
  101.                                                            
  102.                   <Enter> Start OCR        <esc> Exit to DOS
  103. -----------------------------------------------------------------------------
  104.  
  105.                            ( File selection area )
  106.  
  107.  
  108.  
  109. -------------(c) 1988,1989 Synergy (UK) Ltd. All rights reserved. -----------
  110.  
  111. The main box shows which keys to use to control the software, and the lower
  112. box is used to display lists of filenames for selection.
  113.  
  114. Pressing F1 allows you to scan text up to 210mm (8 inches wide).
  115. For scanning text wider than 105mm you can do 2 scans a left and a right scan,
  116. and then merge the text together. This merge facility is enable by pressing F2
  117. to the ON option. To disable this feature, press F2 again to get the OFF 
  118. option.
  119. NOTE: If the merge option is on the next two scans will ALWAYS be merged.
  120. SEE BELOW FOR DETAILED DISCUSSION OF THE MERGE FACILITY.
  121.  
  122. Pressing F2 you can force the OCR software to treat the text to be scanned
  123. as Mono Spaced(Fixed pitch), Proportionally spaced, or let the software work
  124. it out for itself (Automatic detection).
  125. If you select fixed pitch then you must enter the pitch size in characters 
  126. per inch using F3.
  127. If you select proportional then you must use F3 to enter a word gap in pixels.
  128. (Typical values can be 4,5 at 200dpi, 6,7 at 300dpi, 8-10 at 400dpi).
  129. This will help eliminate any extra spaces between letters that form one word 
  130. when the system uses its automatic mode. F3 has no effect if you select 
  131. Automatic detection.
  132.  
  133. F4 allows you to adjust the sensitivity of the recognition algorithm. Normally
  134. the software uses a sensitivity value of 0 in normal mode and +6 in learn
  135. mode. If you wish to make the software more critical then increase the above
  136. values, if you want to make the software less critical then decrease the above
  137. values.
  138.  
  139. F5 allows you to manually control the touching character algorithm. This
  140. will help recognise characters that are touching. However, this algorithm
  141. works best with a GOOD dictionary. If you are in learn mode you will find
  142. it ususally better to turn this OFF since you won't have a good enough font
  143. for it to work well. The default is ON in free run and OFF in learn mode,
  144. however you can override these defaults by using F5 AFTER you have used F6
  145. to select your desired mode.
  146.  
  147. Pressing F6 toggles Learn-Mode on/off. When it is off ( the normal state ),
  148. characters that are not recognised are replaced by another character ( by
  149. default '@' ) and the process proceeds automatically. If learn-mode is on,
  150. characters which are unrecognised, or recognisable but poorly formed, are
  151. displayed on the screen enlarged. The user may enter what the character is,
  152. or skip over it.
  153.  
  154. Pressing F7 toggles between the scanner and image files. You can either 
  155. perform recognition as you scan the page in, or select TIF and recognise
  156. text from a previously scanned .TIF file.
  157.  
  158. The F8 key allows you to select a different font from the one displayed.
  159. Press F8 and a list a font files is displayed. Choose one with the cursor
  160. keys and press Enter to select it, or Esc. to go back to the original menu.
  161. If the font you want is not in the window, press PgUp/PgDn until it appears.
  162. You can also select the file by typing the number that preceeds the filename.
  163.  
  164. Key F9 is used to change the default path for the .OCR files. Press F9 and
  165. the program shows the current path, and prompts you to enter a new path.
  166. To keep the old path just press <Enter> ( or <Esc> ), otherwise type in a
  167. new path.
  168.  
  169. Key F10 is used to change the default path for the .TIF files, and for saving
  170. TIF files produced when scanning with the scanner. Press F10 and
  171. the program shows the current path, and prompts you to enter a new path.
  172. To keep the old path just press <Enter> ( or <Esc> ), otherwise type in a
  173. new path.
  174.  
  175.  
  176. Once the parameters are selected, pressing the Enter key will start the
  177. recognition process. Alternatively, pressing Esc. will write your
  178. configuration to OCR.CFG and exit to DOS.
  179.  
  180.  
  181. Once Enter is pressed the program will either start up the scanner ( if
  182. SCANNER selected ), or ask you to choose an image file ( if TIF selected ).
  183. If the SCANNER is selected then you will be prompted for the name of a file
  184. in which to save the image that the scanner produces. Note that this image
  185. file will be put in the directory that you specified with F10 (above).
  186.  
  187. The image filename is selected in the same way as a font file, with the
  188. cursor and PgUp/PgDn keys. Press enter to select the file, or Esc. to go
  189. back to the menu.
  190.  
  191. Whether SCANNER or TIF is selected, you must now type in a name for the 
  192. output text file, e.g.
  193.    textfile.txt
  194. or
  195.    b:\test.doc
  196. Pressing Esc instead  will return you to the menu.
  197.  
  198. NOTE   --  If you want your output to go into the same file as the previous
  199. ====       scan, then just press return to use the filename as shown on the
  200.            line below the the prompt. If you want the output to go to a new
  201.            file then you MUST change the filename.
  202.  
  203. Once the recognition process has finished, the program returns you to the
  204. menu screen, (UNLESS Merge Scan is ON see below).
  205.  
  206.  
  207.  
  208. (b) DOS command line
  209. --------------------
  210. You can bypass the menu screen by supplying all the parameters on the DOS
  211. command line. The parameters are listed below, and are in the same format
  212. as the OCR.CFG file. Parameters may be preceded by '-' or '/'. The only
  213. mandatory parameter is a filename for the output.
  214. e.g.
  215.    OCR test.txt -s            -s selects the scanner.
  216.    OCR abc.doc /Imanual.img   /I,/i,-I,-i all select imagefile input
  217.    OCR /h                     /h or -h lists the options
  218.  
  219.  
  220. (c) Learn mode
  221. --------------
  222. When you run the program in learn mode, the screen is split into two parts.
  223. The top part shows the scanned text input as pixels, and the bottom part is 
  224. used for teaching or examining characters. Characters are shown with a cursor
  225. around the pixels that the software thinks that the character is comprised.
  226.  
  227. In the lower part of the screen, the current text line will be shown 
  228. next to the '->' symbol, and one of the characters is
  229. being offered for verification as shown by the ^. To teach the character just
  230. type it and press Enter. You will then see the ^ advance to the next character
  231. and the cursor will move to the next characters pixels in the top part of the
  232. screen.
  233. Just pressing Enter will skip over the character to the next one on the
  234. line (if any), <esc> will quit, and
  235. F10 will save the current state of the font data file, if you type Enter
  236. to the prompt SAVE DATA.
  237.  
  238.         TEACHING A NEW FONT
  239.         ===================
  240.  
  241. NOTE -- If you press F1 or the Del key you will delete the character currently 
  242. ====    above the ^ from the currently loaded font file. A message will appear 
  243.         to indicate that it has been deleted.
  244.         Note that the deletion will not affect your file on disk unless you
  245.         finish the entire page in learn mode, OR you use F10 to dump the font
  246.         file.
  247.  
  248.         You may move along the line of characters shown, by using the cursor
  249.         keys on the numeric keypad. "Left arrow" & "Right arrow" move you
  250.         one character to left or right respectively. If you press "Down arrow"
  251.         the cursor will move to the next rightmost character that has a
  252.         probability of less than 88%. If there is no such character, the cursor
  253.         will not move. Pressing "Up arrow" is the same except that the next
  254.         leftmost character will be found.
  255.         The Home key will move you to the first character on the line, and
  256.         the End key will move to the last character on the line.
  257.  
  258.         When you enter a new character and press "return", the cursor will
  259.         move to the next character below 88% if there is one, otherwise it
  260.         will just move to the next character.
  261.  
  262.         If the ^ is under the first character on the line and it has a 
  263.         probability > 88%, then you do not need to edit this line unless you
  264.         can see an obvious mistake.
  265.  
  266.         When you are satisfied with the current line, press F5, and the OCR
  267.         software will proceed to the next line.
  268.  
  269. NOTE    You will also see a display in the lower part of the screen which
  270. ====    indicates which characters are in the dictionary and which are not.
  271.         The fact that a character appears in the list of "Taught Characters"
  272.         does not mean that you don't NEED to teach it. Your only real guide
  273.         to this is the probability figure as discussed above.
  274.         
  275. -----------------------------------------------------------------------------
  276.  
  277. Configuration /Command line options
  278. ===================================
  279.  
  280. These are the options stored in the configuration file OCR.CFG.
  281. They may also be entered on the command line if you do not want to use the
  282. menu screen, e.g.
  283. Key F10 is used to change the default path for the .TIF files. Press F10 and
  284. the program shows the current path, and prompts you to enter a new path.
  285. To keep the old path just press <Enter> ( or <Esc> ), otherwise type in a
  286. new path.
  287.    OCR textfile.txt -ipage1.img -l100
  288. will run the software, produce an output text file 'textfile.txt' from the
  289. image file 'page1.img', with a scan width of 100 mm.
  290.  
  291.    OCR -h     or  OCR /h
  292. will produce a list of the options.
  293.  
  294. -ma             mode -ma learn OFF (auto), -ml learn ON
  295.  
  296. -s              scanner is source for image
  297.  
  298. -i<imagefile>   .TIF file is source
  299. -p.             default path for .TIF files ( . = current directory )
  300.  
  301. -fCOURIER       font-file (.OCR)
  302. -o.             default path for .OCR files ( . = current directory )
  303.  
  304. -d.             default path for text output files ( . = current directory )
  305.  
  306. -h              help - list options
  307.  
  308. -$              units displayed in inches ( default is mm. ).
  309.  
  310. Values shown above are system defaults.
  311. The option '-k' will write the command-line options to OCR.CFG if entered on
  312. the command-line, e.g.
  313.    ocr -$ -k
  314. will set units to inches, write the configuration file, and exit. This method
  315. can be used to change any of the options not available on the main menu.
  316. Alternatively, OCR.CFG may be edited with a simple ASCII editor, or a word-
  317. processor in 'text' or 'ascii' mode.
  318.  
  319.  
  320. The Configuration File
  321. ======================
  322. The configuration file is a plain ASCII text file, which can be edited with
  323. EDLIN or most word-processors. A typical file might look like this:
  324.  
  325. OCR.CFG
  326. -------
  327. -pC:\IMAGES
  328. -d.
  329. -o.
  330. -fCOURIER
  331. -ml
  332. -iTEST.TIF
  333. -$
  334.  
  335.  
  336.                                 *** NB ***
  337.  
  338. The only way to reset to millimetres from inches is to delete the 
  339. line "-$" from the .cfg file using an editor.
  340.  
  341.  
  342. Creating a new font file
  343. ========================
  344.  
  345. A new font data file can be created either by modifying an existing file, or
  346. by making one from scratch. The new file must have the extension OCR.
  347.  
  348. To add new characters to an existing font, copy its .OCR file to a new file
  349. with the same extension, select this as your font file when you run OCR, and
  350. use learn mode to teach it the new characters, e.g.
  351. C:>cd \ocr
  352. C:>copy courier.ocr courier2.ocr /v
  353. C:>ocr
  354. and select font courier2.ocr and learn-mode ON.
  355.  
  356. To create a completely new font, you must start with a 'blank' fontfile, and
  357. teach it characters with learn mode. Run OCR, and press F8 to select a font.
  358. Choose the 'Create font' option. The program now asks you for a filename,
  359. makes an empty fontfile for you, and selects it as the current font.
  360.  
  361. When teaching a new font, it is a good idea to scan in a sheet of all the
  362. characters, something like this:
  363.  
  364.    ABCDEFGHIJKLMNOPQRSTUVWXYZ  0123456789 -=# [] {}  -=#,.;:
  365.    abcdefghijklmnopqrstuvwxyz  !"£$%^&*() \| /? '@ <> 
  366.    ABCDEFGHIJKLMNOPQRSTUVWXYZ  0123456789 -=# [] {}  -=#,.;:
  367.    abcdefghijklmnopqrstuvwxyz  !"£$%^&*() \| /? '@ <> 
  368.    ABCDEFGHIJKLMNOPQRSTUVWXYZ  0123456789 -=# [] {}  -=#,.;:
  369.    abcdefghijklmnopqrstuvwxyz  !"£$%^&*() \| /? '@ <> 
  370.  
  371. ... and so on.
  372.  
  373.    When starting with a brand new dictionary, you may find that a number of 
  374.    the lines at the top of the page being scanned are ignored or produce 
  375.    "noise" characters. Just persevere, the system will soon work out all it 
  376.    needs to scan properly. 
  377.  
  378. Scanning text wider than 105mm (4 in).
  379. ======================================
  380.  
  381. If you select the Merge Scan option using the F1 key, the OCR will work as
  382. described above, except that:-
  383.  
  384. 1)      The text file name that you use will be the name of the MERGED text.
  385.  
  386. 2)      You must first scan the left hand section of the text. This will then
  387.         be OCR'd as usual and when you accept it, it gets saved in a file
  388.         LEFT.TXT. The scanner light is then enabled and you can scan the right
  389.         hand section of the text. YOU MUST ENSURE THAT THERE IS AT LEAST 12mm
  390.         (0.5in) OVERLAP BETWEEN THE TWO SCANS.
  391.  
  392.         Don't worry the the left hand text lines end with funny characters and
  393.         that the right hand text line start with funny characters. This is
  394.         because you can not always get a whole number of characters in the
  395.         scan window.
  396.  
  397. 3)      After you accept the second scan, the Merge facility will run with 
  398.         the following screen display.
  399.  
  400. -----------left.txt-----------------|-----------------Right.txt---------------        
  401.                                     |
  402.                                     |
  403.                                     |
  404.                                     |
  405.                                     |
  406.                                     |
  407.               left                  |                  right
  408.                                     |
  409.               hand                  |                  hand
  410.                                     |                      
  411.               text                  |                  text
  412.                                     |
  413.                                     |
  414.                                     |
  415.                                     |
  416.                                     |
  417.                                     |
  418.                                     |
  419. ------------------------------------|-----------------------------------------
  420. <F10> Save, <Esc> Exit, <F5> Merge, <F6> Toggle display, <cursor keys> Align   
  421.  
  422.         To use the merge facility you must identify any two halves of a full
  423.         line in each window that can be merged.
  424.         To do this you can use the left & right arrow keys to swap between the
  425.         two windows above, and the up & down keys and the PgUp & PgDn keys to
  426.         scroll the windows. You will notice that the line in the centre of 
  427.         each window is highlighted. This is the line that must be
  428.         matched for the merge. When you have two suitable halves highlighted
  429.         simply press the <F5> key to do the merge.
  430.         The screen will then swap to  display the merged text. If the merge is
  431.         not good enough, you can press <F6> and try two different lines for 
  432.         the merge.
  433.         To exit from merge use <Esc>. You can save the merged text at any time
  434.         by pressing <F10>.
  435.  
  436.  
  437. The Remove Utility
  438. ==================
  439.  
  440. The OCR package comes with a utility, REMOVE.EXE, which allows you to remove
  441. from a font-file bad or wrongly entered characters. For example, you may have
  442. mistakenly selected 'C' in learn mode instead of 'V'. The only way to correct
  443. this is to remove all 'C's in the font, and re-teach them. REMOVE cannot
  444. selectively delete only certain instances of a character, all instances will
  445. be removed.
  446. The simplest way to use the utility is to go to your OCR directory and type
  447.    REMOVE
  448. The program will then prompt you for the name of the font-file ( minus the
  449. '.OCR' extension ), and the character(s) you wish to delete. A backup copy of
  450. your font-file will be made, with the same name and the extension '.$CR', e.g.
  451.  
  452.    C:\OCR\REMOVE
  453.  
  454.    REMOVE - Utility to remove characters from a font file.
  455.    (c) 1988 Synergy (UK) Ltd. All rights reserved.
  456.    
  457.      font-file  : COURIER
  458.      characters : RP
  459.    Reading file        :COURIER.OCR
  460.    Backup file         :COURIER.$CR
  461.    Writing file        :COURIER.OCR
  462.    Deleting characters :RP
  463.    
  464.    No. of deletions    :   214
  465.  
  466. In the above example, all occurrences of the characters 'R' and 'P' are removed
  467. from COURIER.OCR, and the old version of COURIER.OCR is copied to a file
  468. called COURIER.$CR.
  469.  
  470. The full format of the command line is
  471.    REMOVE [ < font-file> [ < character-list > ] ]
  472. so you could also type
  473.    REMOVE COURIER
  474. and only be prompted for the character(s) to be removed, or
  475.    REMOVE COURIER a?"W
  476. which will remove the four characters 'a', '?', '"', and 'W' from COURIER.OCR
  477. without further prompting.
  478.  
  479. If the program reports the number of deletions to be zero, then no occurrences
  480. of any of the characters you listed were found.
  481.  
  482.  
  483. Notes
  484. =====
  485.  
  486.  1.) If a particular page gives poor results, try adjusting the contrast - if
  487.      the print is light increase the contrast, otherwise decrease it if the
  488.      print is dark. Obviously this only applies when working directly from
  489.      the scanner.
  490.  
  491.  2.) When teaching a new font the FULL HEIGHT indicator should be ignored on 
  492.      the first few lines of text. It will eventually correct itself and you do
  493.      not lose the information you appear to put in incorrectly.
  494.  
  495.  3.) DOS 2.XX users
  496.      --------------
  497.      The default path for both .OCR files and text output files is '.', which
  498.      is the DOS abbreviation for the current working directory. If your ver-
  499.      sion of DOS does not recognize this abbreviation, you must specify an
  500.      explicit path either by editing the OCR.CFG file or setting these opt-
  501.      ions from the command line, e.g.
  502.  
  503.      Floppy-disc example:     Hard-disc example:
  504.  
  505.      edit OCR.CFG to read
  506.      -oA:\                    -oC:\OCR        ( to change the .OCR path )
  507.      -dA:\                    -dC:\OCR        ( to change the text file path )
  508.  
  509.      or go to the directory containing OCR.CFG, and type
  510.   
  511.      OCR -oA:\ -dA:\ -k       OCR -oC:\OCR -dC:\OCR -k
  512.  
  513.      ( The '-k ' option causes the program to save the preceding options in
  514.      OCR.CFG ).
  515.  
  516.  4.) REMOVE.EXE - When entering the double-quote character on the command
  517.      line, you must precede it with '\', e.g.
  518.         REMOVE COURIER s\"q
  519.      will remove the three characters 's', '"', and 'q'. This is necessary
  520.      because the parameters for a DOS command line may optionally be enclosed
  521.      in quotes, thus
  522.         REMOVE COURIER "sq"
  523.      will remove only 's' and 'q'.
  524.      This does NOT apply when entering characters in response to the programs
  525.      own prompt, e.g.
  526.         C:>REMOVE
  527.  
  528.         REMOVE - Utility to remove characters from a font file.
  529.         (c) 1988 Synergy (UK) Ltd. All rights reserved.
  530.         
  531.           font-file  : courier
  532.           characters : s\"q
  533.         Reading file        :courier.OCR
  534.         Backup file         :courier.$CR
  535.         Writing file        :courier.OCR
  536.         Deleting characters :s\"q
  537.         
  538.         No. of deletions    :    81
  539.  
  540.      will remove all occurrences of 's', '\', '"', and 'q'.
  541.  
  542.  5.) Colour Graphics Adapter ( CGA )
  543.      -------------------------------
  544.      If your are using the IBM CGA or a compatible graphics card, you will
  545.      need to load the Graphic Character Set. ( This is not necessary when
  546.      using EGA or VGA ). If the graphic characters are not loaded some of 
  547.      the line drawing used on the screen will not be displayed correctly.
  548.      This affects only the appearance of the screen, the OCR software will
  549.      perform normally in all other ways.
  550.      To load the graphic characters, go to the directory containing your 
  551.      DOS files and type
  552.           GRAFTABL
  553.  
  554.  
  555.