Jak na text

Mnozφ z nßs se dostßvajφ do problΘmu, jak archivovat hmotnou p°edlohu textu do poΦφtaΦe a nemusφ to b²t nutn∞ jen papφr, tiskne se i na dalÜφ a mΘn∞ skladnΘ materißly. D∙le₧itΘ je p°edlohy sprßvn∞ naskenovat a nejlΘpe, s co nejmenÜφ nßmahou, je p°evΘst do textovΘ podoby pro zp∞tnou editovatelnost. Proto₧e se nßm poda°ilo pro Chip zφskat plnou verzi rozpoznßvacφho programu FineReader 5 Sprint v ΦeskΘ a slovenskΘ lokalizaci (instalace), rozhodli jsme se tΘto otßzce v∞novat vφce vΦetn∞ teorie OCR. Pro ·plnost jsme oprßÜili i poslednφ test stolnφch skener∙ a recenzi nejnov∞jÜφ verze FineReader 6.0.


OCR a Φo s t²m 
alebo Ako previes¥ papierov· predlohu do textovΘho s·boru

Skenovanie:
Tak₧e ak to chceme spravi¥, musφme ma¥ skener, ktor²m obraz predlohy zosnφmame do poΦφtaΦa. M⌠₧e to by¥ aj digitßlny fotoaparßt, ale ten mß na tento ·Φel pomerne nφzke rozlφÜenie. NaÜ¥astie to u₧ prestßva plati¥, ale musφ by¥ k nemu statφv, dobr² /rovnomern²/ zdroj svetla a rozlφÜenie aspo≥ 2MPx. Nezabudnime na to, ₧e v tejto etape dostaneme do poΦφtaΦa iba bitov· mapu, nie hotov² text!

D⌠le₧it² je v²ber vhodnΘho skeneru. Budem hovori¥o skeneroch pre domßce pou₧itie, kateg≤ria SOHO, teraz do cca 3-4000,- Sk. Na knihy s· pomerne nevhodnΘ skenery s CCD snφmaΦom - tie najlacnejÜie a naj╛ahÜie niekedy ani nepotrebuj· napßjacφ zdroj. Rozoznaj· sa aj t²m, ₧e u nich je zdrojom svetla pßs na zeleno svietiacich di≤d. Daj· sa pou₧i¥ iba na jednotlivΘ listy, preto₧e maj· mal² sveteln² v²kon, maximßlne na 1mm od skla. Obvykle s· aj v²razne pomalÜie. Odpor·Φam skenery s vlastnou lampou, Φi u₧ halogΘnovou - /Umax/ alebo lampou so studenou kat≤dou /Microtek/. HalogΘnovΘ lampy maj· r²chlejÜφ nßbeh, ale nieko╛kokrßt menÜiu ₧ivotnos¥, studenokat≤dovΘ by mali chvφ╛u be₧a¥, k²m sa ustßli ich sveteln² tok. Obraz je obvykle ostr² a₧ do 20mm, rozoznate╛n² do 30mm. Pokia╛ maj· extern² zdroj, r²chlosti s· podobnΘ - Φi u₧ s· s rozhranφm SCSII, USB, paraleln² port. Be₧ne zosnφmaj· stranu A4 v rozlφÜenφ 300DPI a vo farbe /25MB/ do dvoch min·t, 600DPI /100MB/ do Ütyroch min·t. Pri 300DPI a 8bit Üedej A4 trvß cca 40-60sek·nd. USB a SCSII mßvaj· r²chlejÜφ nßh╛ad, do 20 sek·nd. ╚o som sk·Üal naprφklad Microtek2000, napßjan² cez USB - je dobr², ale z·falo pomal². Na rozlφÜenφ nezßle₧φ, vÜetky zvlßdaj· rozlφÜenie 300DPI /bodov na palec/, ani pri skenovanφ obrßzkov nemß v²znam φs¥ vyÜÜie - iba pri skenovanφ negatφvov je potrebnΘ aspo≥ 1200DPI, dianßstavec a skener musφ vedie¥ vypn·¥ vlastn· lampu.
Medzi skenermi vybaven²mi USB a paraleln²m portom, prφpadne SCSII nie je v r²chlosti v²razn² rozdiel, robieva to asi 10-20% v prospech USB /SCSII/, ale r²chlos¥ procesora sa podpφÜe ve╛mi v²razne. Naprφklad PII 700 oproti P100 robφ na r²chlosti viac ako 100%!
MultifunkΦnΘ zariadenia sa daj· takisto pou₧i¥ /naprφklad HP/, ale musφme si uvedomi¥, na ak² ·Φel sa bude pou₧φva¥ skenovaciu Φas¥. Ak mß celΘ zariadenie tvar tlaΦiarne, m⌠₧eme do≥ vlo₧i¥ iba jednotlivΘ listy a na oskenovanie zviazanej bro₧·ry m⌠₧eme zabudn·¥. VhodnejÜie /a drahÜie a vΣΦÜie/ s· s rovnou doskou pre skenovanie - ale s· univerzßlnejÜie.
V poslednom Φase sa objavili skenery s rozhranφm USBII. Ich mechaniky s· stavanΘ na r²chlejÜφ pohyb, nßh╛ad b²va do 10 sek·nd, Φo bolo eÜte nedßvno v²sadou ÜpiΦkov²ch SCSII skenerov. Pre t²ch, Φo maj· ve╛a skenovania s· zrejme vhodnejÜie.

Dos¥ ve╛a zßle₧φ od vhodnΘho ovlßdaΦa pre skener. V₧dy nejak² Φas trvß, k²m v²robca vychytß muchy, tak₧e ak pri skenovanφ poΦφtaΦ padß alebo je skenovanie prφliÜ pomalΘ, nevßhajme a stiahnime si novÜφ ovlßdaΦ zo strßnky v²robcu. Mne naprφklad novÜφ ovlßdaΦ /skener Microtek V6USL/ zr²chlil skenovanie skoro o polovicu.

S vhodn²m skenerom sa dß skenova¥ cca 200strßn za hodinu /100 snφmkov/, pri nastavenφ 300DPI, 8bit Üedej /gray scale/, dve strßnky A5 na jeden raz, jeden snφmok potom zaberie asi 7MB. Treba rßta¥ aj s dostatoΦne ve╛k²m diskov²m priestorom cca 500 - 1000MB na jednu knihu. Nezßle₧φ na v²stupnom formßte, ten si prednastavφ skener a bolo by ho potrebnΘ stßle meni¥ - staΦφ pou₧i¥ nekomprimovan² TIFF, BMP, PCX, ka₧d² modern² OCR /Optical Character Recognition - OptickΘ rozoznßvanie znakov/ ich poznß. NajvhodnejÜφ je nekomprimovan² Tiff, naprφklad PNG z AcdSee3 mi FineReader6 nezobral, zatia╛ Φo z XnView bol bez problΘmov.

Ak strßnka obsahuje grafiku, ktor· chceme zachova¥, je vhodnΘ si v₧dy urobi¥ nßh╛ad /preview/, text potom zosnφma¥ ako odtiene Üedej a obrßzok ako pravΘ farby /true color/. OCR to obvykle sφce zvlßdne, ale vΣΦÜinou je potrebnΘ obrßzky mierne natoΦi¥, oreza¥ na sprßvnu ve╛kos¥, pou₧i¥ vhodn² filter, vymaza¥ chyby, upravi¥ ·rovne... Ak ide iba o text, staΦφ si raz nastavi¥ v²rez a potom u₧ iba od¥ukßva¥ a otßΦa¥ strany.

Program na prezeranie obrßzkov ACDSee /od verzie 3.00/ alebo XnView /freevare/ maj· mo₧nos¥ Acquire /vyu₧φvaj· Twain rozhranie na zφskanie obrßzkov/. V polo₧ke Acquire setup nastavφme adresßr, do ktorΘho ukladßme obrßzky, formßt a sp⌠sob automatickΘho Φφslovania a dßme Acquire now. Program zavolß rozhranie Twain a v ≥om sa sa u₧ iba odklepne SCAN. ACDSee v pozadφ preberß obrßzky, konvertuje do zvolenΘho formßtu a Φφsluje ich.

Skenova¥ sa dß aj priamo z OCR - bu∩ pomocou Twain rozhrania alebo priamo z programu. V takom prφpade staΦφ v²razne menÜφ diskov² priestor ale naprφklad FineReader verzie 5 na Win 98 je v tomto re₧ime hßklivejÜφ, ╛ahÜie padß.

╚asom som priÜiel na jednu vec, ako zlepÜi¥ obraz poΦas skenovania. Dlho som toti₧ laboroval s nastavenφm jasu a kontrastu - ve╛mi to nepomßha, tak₧e ich ponechßvam na default hodnotßch. Ale v²razne pomßha v nastavenφ Twain v zßlo₧ke Advanced Image Correction: White/Black Points - najprv dßm Auto - t²m sa automaticky odstrßnia prßzdne okraje a potom ¥ahßm ╛av² /Φierny/ trojuholnφk doprava. T²m sa odstrßni za₧ltnutos¥ strßn a vyblednutos¥ textu.


Prevod do textu:
Je jasnΘ, ₧e oskenovan² obrßzok zaberß prφliÜ ve╛a priestoru. Dß sa zmenÜi¥ pri pou₧itφ vhodnej kompresie, zmenÜenφm poΦtu bodov, farebnej hσbky, orezanφm na vhodn² rozmer, pou₧itφm vhodn²ch filtrov - ale stßle je to obrßzok, v ktorom sa rozumn²m sp⌠sobom nedß text editova¥.

Na tento ·Φel s· vytvorenΘ r⌠zne programy typu OCR, ktorΘ pomocou inteligentn²ch algoritmov, vektorizßcie textu a zabudovan²ch slovnφkov rozoznßvaj· text z bitmapy, prφpadne ho priamo prevßdzaj· do textu alebo do tabuliek. Pre naÜe ·Φely m⌠₧eme pou₧i¥ vlastne iba dva produkty - Recognita z ma∩arskej firmy Recognita, teraz u₧ OmniPage a Finereader od ruskej firmy Abbyy. Oba produkty s· vo verzii 5, 6, u₧ s· ve╛mi sluÜne pou₧ite╛nΘ. Ja osobne preferujem Abby Finereader, preto₧e mß lepÜie v²sledky pri prevode - menej ch²b, nemß problΘmy pri farebnom pozadφ a pri ve╛mi zlom podklade, z domovskej strßnky sa dß stiahnu¥ vo verzii Office alebo Pro + prφsluÜnΘ slovnφky pod╛a v²beru + interface v slovenΦine, Φestine.... Nev²hody - je pomalÜφ ako Recognita, stiahnutß verzia je typu Try & Buy /30 spustenφ, vo verzii 6 u₧ iba 15 spustenφ/ a je hßkliv² na zmeny hardwaru a softwaru. Stiahnutß inÜtalaΦka /verzia 5, iba anglick² jazyk/ zaberß asi 24MB, nainÜtalovanß verzia cca 37MB.

Oficißlna strßnka programu Abby Finereader je www.abbyy.com, je mo₧nΘ si odtia╛ stiahnu¥ prφsluÜn· demoverziu. Odpor·Φam φs¥ aj na strßnku www.nupseso.cz, kde s· k dispozφcii cennφky, aktualizßcie, lokalizovanΘ demoverzie a nßvody na pou₧itie.
Strßnka programu Recognita je www.recogita.hu, na ktorej vidie¥, ₧e preÜla pod ochrannΘ krφdla OmniPage. Kedysi tam bola demoverzia Recognity 5, dnes u₧ iba podpora pre zak·pen² produkt.

╚o sa t²ka stability programu FineReader, je to r⌠zne. Verzia 5 mi chodila bez problΘmov na Win98, Win98SE i WinXP /s patchom na ·pravu registrov/, zatia╛ Φo 6 mi na Win98 pri skenovanφ so s·Φasn²m rozoznßvanφm textu pomerne spo╛ahlivo asi po 30 stranßch spadla /aj s operaΦn²m systΘmom - chyba modulu Scanman/. Tßto chyba zostala i na∩alej, i ke∩ sa tvrdφ, ₧e v novom builde sa zmenil skenovacφ modul. V takom prφpade je najlepÜie najprv oskenova¥ a FineReader /∩alej iba FR/ potom pusti¥ iba na obrßzky. Inak na tom istom HW, s t²mi ist²mi univerzßlnymi ovlßdaΦmi pod WinXP bez problΘmov - a je tam aj r²chlejÜφ.

Pre t²ch, Φo chc· experimentova¥ s ·pravou FR, naprφklad maj· verziu bez jazykovej mutßcie a chc· si ju doinÜtalova¥, pozor. FR si ve╛mi chrßni integritu svojich modulov a pri v²mene kni₧nφc skonΦφ trialovß verzia s nulov²m poΦtom dnφ. Naprφklad ╚ediΦa /http://cedic.bonusweb.cz// svojho Φasu do₧ralo, ₧e FR6 nemal lokalizßciu, upravil prφsluÜn· dll - fungovalo to, ale ak ju pou₧ijeme na najnovÜom builde /647/, okam₧ite je po sk·Üanφ. Dß sa tomu pom⌠c¥ iba tak, ₧e si zazßlohujeme systΘmov² disk /naprφklad programom NortonGhost alebo Powerquest DriveImage eÜte pred inÜtalßciou FR/ a ak sa vßm podarφ zruÜi¥ sk·Üanie, vrßtime si systΘm do p⌠vodnΘho stavu a inÜtalujeme znovu. Pozor, vytvßranie Restore Point vo WinXP nepom⌠₧e.

Porovnanie medzi pln²mi verziami FR5 a 6 je z m⌠jho h╛adiska takΘto: FR6 zaberß viac miesta, je r²chlejÜφ, vie lepÜie rozoznßva¥, trial verzia je iba na 15 spustenφ. V²robca tvrdφ, ₧e vie preΦφta¥ aj zaheslovanΘ pdf s·bory, ale je to tak, ₧e si ich vytlaΦφ do bmp a tie potom rozoznßva - sφce s ve╛kou presnos¥ou, ale aj tak...


Tak₧e ∩alej o programe Abbyy FineReader 5, 6 /plnß verzia/:



Po inÜtalßcii programu a jeho ·speÜnom spustenφ je potrebnΘ najprv zvoli¥ pracovn² adresßr, kde sa ukladaj· texty, obrßzky a v²sledky - bu∩ nov² - File/New Batch alebo otvori¥ predchßdzaj·ci - Open Batch. Potom je potrebnΘ zvoli¥ jazyk, prφpadne viac jazykov naraz, ak sa vyskytuj· v texte.



Ak sa bude prevßdz¥ text priamo zo skeneru, musφte ho najprv nastavi¥ - Tools/Options/zßlo₧ka Scan/Open Image/Select Source.

Ak sa bude prevßdza¥ u₧ naskenovan² obrßzok, potom staΦφ cez tlaΦφtko alebo File/Open Image - formßty bmp, dcx, jpg, pcx, png, tiff.

Program obrßzky naΦφta, vyberie vlastn² nßh╛ad, natoΦφ do sprßvnej polohy, preΦφta, do druhΘho okna vlo₧φ text, prφpadne upozornφ na chyby.

Samozrejmos¥ou je mo₧nos¥ natoΦenia obrßzka, ruΦnΘho upravovania ve╛kosti rßmcov, ich typu /obrßzok, text, tabu╛ka, Φiarov² k≤d/ ... - po t²chto ·pravßch treba prφsluÜn² dokument znovu preΦφta¥. V²sledn² text sa dß u₧ priamo editova¥, ale ja si to nechßvam na nesk⌠r, po naΦφtanφ v²slednΘho dokumentu do Wordu. Vyplatφ sa naÜtudova¥ si uΦiaci proces - hlavne pri Φastej prßci a rovnak²ch podkladoch - naprφklad program si niekedy m²li ∩ a d'...


Ak u₧ boli naΦφtanΘ vÜetky podklady, treba ulo₧i¥ v²sledn² dokument. Ja ho ukladßm do s·boru, vo formßte txt, vÜetky strßnky do jednΘho s·boru, s odstrßnenφm vÜetk²ch formßtovacφch znaΦiek, bez obrßzkov, vo ve╛kosti A5. Ak chceme zachova¥ obrßzky, ulo₧φme dokument ako dokument Word /bude vo formßte rtf, tak sa neΦudujme, ₧e m⌠₧e narßs¥ aj na nieko╛ko sto MB/ a po otvorenφ vo Worde ho ulo₧φme ako html. Obrßzky tam bud· dvakrßt, tie menÜie vyma₧eme a t²m mßme /skoro/ originßlny naskenovan² obrßzok, ktor² si m⌠₧ete upravi¥ pod╛a vlastnej chute. Ale prφliÜ sa neteÜme, preto₧e je pri nich pou₧itß silnß kompresia /JPEG/ a detaily sa dos¥ v²razne zlievaj·. Tak₧e ak chceme zφska¥ dobrΘ obrßzky, najprv podklad oskenujeme, FR pustφme a₧ na skeny a obrßzky si robφme nezßvisle.
V prφpade, ₧e ponechßme vo╛bu "Zachova¥ formßtovanie", FR vytvorφ ve╛kΘ mno₧stvo Üt²lov, ktorΘ sa sna₧ia Φo najvernejÜie kopφrova¥ vzh╛ad p⌠vodnΘho dokumentu. LφÜia sa od seba navzßjom nepodstatn²mi drobnos¥ami - naprφklad ve╛kos¥ pφsma sa lφÜi o 0,5 bodu, odsadenie okrajov v 0,1mm, rozÜφrene a z·₧enie pφsma o 0,01mm... V dlhÜom texte ich m⌠₧e by¥ aj nieko╛ko stoviek. Dß sa to pre₧i¥ vtedy, ak s t²m textom u₧ ∩alej nebudeme pracova¥ a ak je toho iba nieko╛ko strßn. Ak je toho viac, je lepÜie sa formßtovania zbavi¥ a upravova¥ ho a₧ pri korekt·re.

╚o sa t²ka nßroΦnosti na hardware - je vysokß. Ak pustφme rozoznßvanie textu na Celeron 400, je to asi r²chlejÜie klepa¥ ruΦne, pri 850MHz nem⌠₧ete spusti¥ ₧iadnu in· ·lohu, ale stφha v reßlnom Φase - t.j. k²m sa jedna strana oskenuje, predchßdzaj·ca sa stihne rozozna¥ a pri procesore nad 1000MHz u₧ m⌠₧ete popritom aj vypa╛ova¥ CD.

Porovnanie verzie Sprint a plnej verzie:


 

Po ·speÜnej inÜtalßcii m⌠₧ete doΦasn² adresßr C:\ABBY vymaza¥.

Verzia Sprint je ve╛mi zjednoduÜenß, hlavn² rozdiel je v tom, ₧e neumo₧≥uje naΦφta¥ viacero obrßzkov a dßvkovo ich spracova¥. To znamenß, ₧e v₧dy sa dß otvori¥ iba jeden obrßzok, rozozna¥ ho a ulo₧i¥ v²sledok do s·boru iba ako txt alebo rtf. To istΘ platφ aj pre skenovanie, v₧dy sa spracovßva iba jedna strana.

 

Nepodporuje viacstranovΘ tif-y, ktorΘ vytvßra FR6, tak₧e je ich vhodnΘ najprv prekonvertova¥ do png. Okrem toho umo₧≥uje pou₧i¥ iba jeden rozoznßvacφ jazyk, je vidie¥ iba jedno okno - bu∩ obrßzok alebo rozoznan² text, nie oboje naraz, nedß sa upravi¥ nßstrojovß liÜta. Tie₧ ch²ba re₧im uΦenia a vytvßranie u₧φvate╛sk²ch slovnφkov. Kvalita rozoznßvania je ve╛mi dobrß, na poΦudovanie aj funguje celkom svi₧ne /₧eby preto Sprint?/. Na obΦasnΘ pou₧itie je tßto verzia dostaΦuj·ca. Ak by bolo ale potrebnΘ spravi¥ knihu s nieko╛ko sto stranami, potom je vhodnejÜie ju naprv cel· naskenova¥ a na obrßzky pusti¥ pribalen· FR6 trial verziu, prφpadne k·pi¥ pln· ako uprage na verziu Sprint.


Formßtovanie a ·pravy textu:
Najprv troÜku vÜeobecne. Po digitalizßcii dokumentu v texte v₧dy zostane urΦitΘ mno₧stvo znaΦiek, ktorΘ mo₧no prßve teraz problΘmy nerobia, ale nesk⌠r sa mo₧no prejavia - bu∩ pri konverzii do in²ch formßtov, alebo pri Φφtanφ v nov²ch Φφtacφch programoch. Naprφklad Word mß urΦitΘ rezervy, ve╛a vecφ ignoruje - ale Φo ke∩ sa to niekedy trafφ? HTML strßnky tie₧ niekedy na konci riadka pridßvaj· znaΦku, ktor· potom musφme odstrßni¥.

NajjednoduchÜie sa formßtovacie znaΦky odstrßnia tak, ₧e cel² dokument sa ulo₧φ ako prost² text. Ten sa potom otvorφ bu∩ priamo vo Worde alebo /lepÜie/ text sa cez schrßnku /Vybra¥ vÜetko alebo Ctrl+A, Skopφrova¥ do schrßnky alebo Ctrl+C/ vlo₧φ do dokumentu /Vlo₧i¥ alebo Ctrl+V/.

Normßlne nevidite╛nΘ znaky si zobrazφme tlaΦφtkom pre ich zobrazenie . Potom je vidie¥ naprφklad koniec odstavca, oddielu, viacnßsobnΘ medzery, volite╛nΘ rozdelenie, ktorΘ be₧ne nevidφme.  

Vo Worde pou₧φvam funkciu Rozvrhnutie dokumentu , pod╛a m≥a je vhodnejÜia ne₧ Obsah. Umo₧≥uje r²chly pohyb po dokumente a dobr² preh╛ad. Vyvolßva sa tlaΦφtkom alebo z menu Zobrazit / Rozvr₧enφ dokumentu.



Ak je dokument zle naformßtovan², rozvrhnutie je nepreh╛adnΘ, nachßdzaj· sa v ≥om k·sky textu... Vtedy je lepÜie oznaΦi¥ cel² dokument /Ctrl+A/ a z tlaΦφtkovΘho menu èt²ly vybra¥ Normßlny, prφpadne Vymaza¥ formßtovanie.
Potom sa daj· jednotlivΘ nadpisy oznaΦova¥ prφsluÜn²m Üt²lom. Ak aj nebude hne∩ vyhovova¥, nevadφ, po ukonΦenφ oprßv sa daj· naraz upravi¥ z menu Formßt / èt²l / Upravi¥ / Formßt - odstavca alebo pφsma....


╚φslo strßnky sa obvykle nachßdza na zßpΣtφ strßnky, upravi¥ jeho formßt je mo₧nΘ po poklepanφ. Ak chceme zmeni¥ niektorΘ vlastnosti - naprφklad nezobrazova¥ Φφslo strßnky na prvej strane alebo zaΦa¥ Φφslova¥ nie od 1, nßjdeme to v menu Vlo₧i¥ / ╚φsla strßnek / Formßt.
Word mß mo₧nos¥ korekcie pravopisu - samozrejme, musφ by¥ nainÜtalovanß. Vie sφce automaticky rozpoznßva¥ jazyk, ale nie je to slßvne. LepÜie je oznaΦi¥ cel² dokument a z menu Nßstroje / Jazyk / Nastavit jazyk vybra¥ prφsluÜn² jazyk.
Ak chceme ma¥ slovß na konci strßnky rozde╛ovanΘ, /preferujem, dokument sa lepÜie Φφta, s· v ≥om menÜie medzery/, je to dostupnΘ z menu Nßstroje / Jazyk / D∞lenφ slov.

V prφpade, ₧e chceme pou₧i¥ pφsma mierne neÜtandardnΘ /okrem klasick²ch naprφklad Ariel, Times/, je dobrΘ ma¥ povolen· funkciu Vlo₧it pφsma True Type z menu Nßstroje / Mo₧nosti / Ulo₧it. Ak povolφme funkciu Vlo₧it pouze pou₧itΘ znaky, m⌠₧e sa pri otvorenφ na druhom poΦφtaΦi sta¥ to, ₧e dokument bude otvorite╛n² iba pre Φφtanie a nebude sa da¥ editova¥. Pom⌠₧e vybra¥ cel² obsah cez schrßnku a ulo₧i¥ ako nov² dokument.


A na koniec:
Mnoho ╛udφ si myslφ, ₧e po prehnanφ podkladu cez OCR zφska na 100% tak² ist² text. Nie je to pravda. Pod╛a kvality podkladu sa zφska text s urΦitou chybovos¥ou - ak je dobr², b²va 1-2 chyby na strßnke, ale m⌠₧e by¥ i nieko╛ko desiatok. Nerßtam v to zßhlavia a Φφsla strßnok, ktorΘ vlastne tie₧ treba odstra≥ova¥. Preto v₧dy musφme po OCR eÜte skontrolova¥ v²sledn² dokument a porovna¥ ho s originßlom, upravi¥ formßtovanie, aby sa zhruba podobalo na originßl a aby sa dal dobre Φφta¥ na obrazovke. Inak pri takomto porovnßvanφ Φasto prφdete na mno₧stvo ch²b aj v p⌠vodnom dokumente, tak sa ve╛mi neΦudujme. A v tomto okam₧iku si m⌠₧eme by¥ istφ, ₧e v 100 stranovom dokumente mßme eÜte asi 10-20 ch²b, ktorΘ sme prehliadli. Preto nastupuje Φlovek, naz²vam ho korektor, ktor² si tento text preΦφta - obvykle nemusφ ma¥ podklad a bu∩ priamo opravuje chyby v texte alebo ich vyznaΦφ farbou, prφpadne ich ulo₧φ do textovΘho s·boru a poÜle nßm ho naspΣ¥. My tieto opravy bu∩ prijmeme alebo zamietneme. Dobr² text zφskame vtedy, ak si ho preΦφtaj· aspo≥ dvaja r⌠zni korektori. Ak si teraz niekto pomyslφ, ₧e staΦφ, ke∩ si to po sebe preΦφta eÜte dvakrßt, tak je na omyle - t²ch ch²b nßjde ove╛a menej.

OCR je dobrß vec, ale obrßzok niekedy tie₧...

RoboV