Programy OCR

Test

Programy OCR

Dariusz Ha│as

W dzisiejszych komputerach urz▒dzenie peryferyjne takie jak skaner nie nale┐y do rzadko╢ci. Tym samym wzros│o znaczenie program≤w OCR (Optical Character Recognition), dziΩki kt≤rym przeniesienie tekstu wydrukowanego na kartce papieru na komputer nie polega ju┐ na ┐mudnym jego przepisaniu. Ponadto programy OCR pomagaj▒ ustrzec siΩ przed zasypaniem papierami, kt≤re - choµ na pewno niezbΩdne - nie musz▒ ju┐ zajmowaµ cennego miejsca, gdy┐ mo┐na je archiwizowaµ w postaci plik≤w na dysku, CD lub innym no╢niku danych.

Technologia zamiany wskanowanego tekstu, bΩd▒cego - jak ka┐dy wskanowany obraz - zwyczajn▒ bitmap▒, na ci▒g kod≤w ASCII, odpowiadaj▒cych literom i innym znakom pisarskim rozwija siΩ w szybkim tempie. Niekt≤re programy OCR potrafi▒ nie tylko przekszta│ciµ bitmapΩ zawieraj▒c▒ zeskanowany tekst na w pe│ni edytowalny plik tekstowy, lecz tak┐e oferuj▒ zachowanie formatu tekstu odpowiadaj▒cego wskanowanemu orygina│owi, czyli takich element≤w sk│adu, jak uk│ad szpalt, kr≤j czcionki, jej styl (pogrubienie, kursywa itp.), akapity, wciΩcia i inne elementy bΩd▒ce charakterystycznymi cechami ╝r≤d│owego dokumentu. Opr≤cz tego niekt≤re z testowanych przez nas program≤w umo┐liwia│y przeniesienie z wskanowanego orygina│u ilustracji i umieszczenie jej w odpowiednim miejscu rozpoznanego tekstu.
WiΩkszo╢µ program≤w, jakie mieli╢my okazjΩ testowaµ, to wersje tzw. bundle, czyli oprogramowanie do│▒czane do zakupionego sprzΩtu. Niestety specyfika naszego jΩzyka, a zw│aszcza niekt≤rych liter naszego alfabetu stanowi│a dla wiΩkszo╢ci aplikacji barierΩ nie do przebycia. Dlatego w przypadku zakupu skanera, sprawd╝my, czy do│▒czone do danego modelu oprogramowanie OCR potrafi rozpoznaµ polskie znaki diakrytyczne. W przypadku niekt≤rych program≤w nie maj▒cych wbudowanego rozpoznawania polskich znak≤w mo┐liwe by│o "nauczenie" programu, w jaki spos≤b ma interpretowaµ nierozpoznawalny znak przez przyporz▒dkowanie konkretnego znaku odpowiadaj▒cego literze znajduj▒cej siΩ na wskanowanym dokumencie.

Xerox TextBridge Classic 1.05

Xerox TextBridge Classic 1.05

Program Xeroxa pracuj▒cy zar≤wno w 16-, jak i 32-bitowych Windows ma niew▒tpliwie i╢cie sparta±ski interfejs. Program mo┐e pobieraµ dane rastrowe z pliku graficznego b▒d╝ te┐ bezpo╢rednio ze skanera. Skaner jest rozpoznawany przez program dziΩki obs│udze sterownika TWAIN. Wsp≤│praca ze skanerem przebiega│a praktycznie bezproblemowo, lecz mo┐liwe by│o analizowanie tylko dwukolorowych plik≤w rastrowych, tych skanowanych bezpo╢rednio, jak i przygotowanych wcze╢niej.
Rozpoznawane formaty bitmap to TIFF, BMP, PCX, DCX, XIF (Xerox Image Format) oraz Delrina Fax. TextBridge Classic nie ma niestety wbudowanej obs│ugi polskich znak≤w, nie mo┐na r≤wnie┐ wymusiµ rozpoznawania polskich liter przez przypisanie b│Ωdnemu znakowi rozpoznawanemu przez program jego w│a╢ciwego odpowiednika. W przypadku angielskojΩzycznego dokumentu tekst zosta│ odczytany praktycznie bezb│Ωdnie.
Ponadto TextBridge potrafi│ uwzglΩdniµ wiΩkszo╢µ zmian stylu tekstu, wielko╢µ czcionki itp., aczkolwiek nie do ko±ca poradzi│ sobie z prawid│owym rozpoznaniem kroju pisma. Oczywi╢cie uwzglΩdnienie takich aspekt≤w wymaga odpowiedniego zapisu uzyskanego tekstu. TextBridge Classic pozwala zapisaµ rozpoznany tekst jako plik w formacie ASCII, RTF, WordPerfect (wersje od 4.2 do 6.1), a nawet jako dokument HTML czy arkusz Excela. ú▒cznie program oferuje 32 formaty zapisu rozpoznanego tekstu. Dodatkowo umo┐liwia zdefiniowanie parametr≤w, na podstawie kt≤rych dokonywana jest analiza dokumentu ╝r≤d│owego. Opr≤cz ustalenia layoutu (uk│adu strony), orientacji strony i jako╢ci rastrowego ╝r≤d│a mo┐na te┐ zmieniµ jΩzyk (domy╢lnie angielski), jaki ma byµ rozpoznawany.

Recognita Standard 2.0

Recognita Standard 2.0

Program wΩgierskiej firmy Recognita od razu zyska│ w naszych oczach dziΩki obs│udze wielu jΩzyk≤w, w tym tak┐e polskiego.
Wersja 2.0 przeznaczona dla Windows 3.x (dzia│a r≤wnie┐ w Windows 95), opr≤cz jΩzyka polskiego i angielskiego jest w stanie rozpoznaµ znaki charakterystyczne dla 21 innych jΩzyk≤w. Ponadto mo┐liwe jest zdefininiowanie strony kodowej dla tekstu - rezultatu procedury OCR. W przypadku naszego jΩzyka dostΩpny jest standard Mazovii oraz CP-852 (DOS Latin-2). Ustawienie odpowiedniej strony kodowej jest konieczne do uzyskania prawid│owego tekstu z polskimi znakami. Nale┐y o tym pamiΩtaµ, poniewa┐ domy╢lnie program dzia│a w trybie International, nie wy╢wietlaj▒cym w rezultacie charakterystycznych dla naszego jΩzyka ogonk≤w. Podobnie jak w przypadku wiΩkszo╢ci testowanych przez nas program≤w, Recognita 2.0 nie najlepiej rozpoznaje tekst na podstawie obraz≤w o niskiej rozdzielczo╢ci (100 dpi), jednak w wy┐szej radzi sobie bez problemu ze wszystkimi typowo polskimi niuansami liternictwa.
Rozpoznawane przez program formaty plik≤w graficznych (tylko dwukolorowych) to TIFF oraz PCX. Mimo ┐e nie jest to wiele, to popularno╢µ tych format≤w, zw│aszcza przy obrazach dwukolorowych powoduje, ┐e taki wyb≤r jest wystarczaj▒cy. Recognita pozwala zapisaµ rozpoznany tekst jako tekst ASCII oraz RTF. Mo┐liwo╢ci rozpoznawcze Recognity 2.0 to opr≤cz znak≤w, formatowanie tekstu. Program nie potrafi jednak uwzglΩdniµ charakterystycznych styl≤w, wyt│uszcze±, kursyw czy kroj≤w czcionek u┐ytych w dokumencie-grafice ╝r≤d│owym. Jednak rozpoznawanie polskich liter, to funkcja o znacznie wy┐szym priorytecie ni┐ jakiekolwiek opcje uwzglΩdniaj▒ce charakterystyki sk│adu tekstu.

Recognita Standard 3.2

wyb≤r redakcji

Recognita Standard 3.2

Nowsza, oznaczona numerem 3.2, wersja produktu wΩgierskich programist≤w, to program znacznie bardziej zaawansowany od Recognity 2.0. Program stworzony zosta│ do pracy na platformie 32-bitowych Windows (95/98/NT). Baza jΩzykowa nowej Recognity zosta│a powiΩkszona do │▒cznej liczby 28 jΩzyk≤w, w bazie tej znajduje siΩ tak┐e nasz ojczysty jΩzyk. Ju┐ podczas instalacji program instalacyjny pyta o kraj u┐ytkownika i na tej podstawie ustawia domy╢lne parametry rozpoznawania tekstu. Je┐eli chodzi o standardy kodowania, RecognitΩ wyposa┐ono we wszelkie mo┐liwe, w│a╢ciwe dla platformy Windows standardy kodowania.
W przypadku polskich znak≤w program stosuje stronΩ Windows Latin-2. Dane wej╢ciowe Recognita 3.2 mo┐e pobraµ z pliku graficznego zar≤wno mono, jak i grayscale, zapisanego w jednym z akceptowanych format≤w (TIFF, PCX, BMP i DCX) oraz bezpo╢rednio ze skanera.
Ciekaw▒ opcj▒ jest mo┐liwo╢µ rozpoznawania tekstu i jego wklejania bezpo╢rednio do edytora, z kt≤rym aktualnie pracujemy. Osi▒ga siΩ to dziΩki umieszczeniu przez RecognitΩ w pasku zada± ikony, za pomoc▒ kt≤rej mo┐emy uruchomiµ zadanie rozpoznawania tekstu (ze skanera lub z pliku) podczas pracy z dowolnym edytorem tekst≤w dzia│aj▒cym w Windows. Recognita rozpoznawa│a polskie znaki praktycznie bezb│Ωdnie, lecz dotyczy│o to plik≤w skanowanych tylko w rozdzielczo╢ci 300 dpi. W przypadku 100 dpi program sam przestrzega u┐ytkownika, ┐e plik wej╢ciowy winien mieµ rozdzielczo╢µ przynajmniej 200 dpi, niemniej dokonuje pr≤by rozpoznania znak≤w. Rezultaty w tym przypadku by│y niestety ┐a│osne i praktycznie eliminowa│y przydatno╢µ rozpoznanego tekstu jako elektronicznego odpowiednika skanowanego orygina│u.
W rozpoznanym tek╢cie Recognita nie uwzglΩdnia ani kroju pisma, ani te┐ jego charakterystycznych cech, potrafi jednak rozpoznaµ formatowania tekstu. Tekst bΩd▒cy rezultatem procedury OCR mo┐emy zapisaµ jako zwyk│y plik tekstowy, tekst ze znakami ko±ca wiersza, tekst w formacie RTF (uwzglΩdnia formatowania) oraz tekst tabelaryczny (Tab Separated).

ReadIRIS 3.80

ReadIRIS 3.80

Program ten jest powa┐n▒ konkurencj▒ dla Recognity. Jego baza jΩzykowa zawiera dok│adnie tyle samo jΩzyk≤w, co baza Recognity 3.2 (28) i choµ zawarto╢µ jej siΩ nie pokrywa, to na szczΩ╢cie ReadIRIS dysponuje mo┐liwo╢ci▒ rozpoznawania polskich znak≤w. Plik wej╢ciowy mo┐e mieµ postaµ bitmapy w formacie TIFF, Paintbrush oraz MS Paint. Opr≤cz tego dane rastrowe mo┐emy wprowadzaµ bezpo╢rednio ze skanera.
Interesuj▒c▒ funkcj▒ jest interaktywna "nauka". Polega to na tym, ┐e po przeprowadzeniu analizy dokumentu ╝r≤d│owego, ReadIRIS wy╢wietla okno dialogowe, w kt≤rym podaje niezrozumia│e dla niego znaki i umo┐liwia ich zast▒pienie przez u┐ytkownika. Przypisania poszczeg≤lnych znak≤w zostaj▒ zapamiΩtane, co daje du┐e szanse, ┐e dany znak bΩdzie poprawnie rozpoznawany podczas przysz│ych analiz dokument≤w. Tego typu dzia│anie wymusza jednak, aby skanowane dokumenty mia│y w miarΩ jednolity kr≤j tekstu. Rozpoznany tekst mo┐e byµ zapisany zar≤wno jako plik tekstowy, jak i w formacie popularnych edytor≤w tekstu (MS Word, WordPerfect), co umo┐liwia zachowanie znacznie wiΩkszej liczby parametr≤w dokumentu, takich jak: styl i kr≤j pisma, format strony itp.
Podobnie jak w przypadku Recognity, analiza dokument≤w zapisanych/skanowanych w niskiej rozdzielczo╢ci nie da│a pozytywnych rezultat≤w. ZwiΩkszenie rozdzielczo╢ci plik≤w ╝r≤d│owych owocuje znaczn▒ popraw▒ jako╢ci tekstu wynikowego.

OmniPage Limited Edition 5.0

OmniPage Limited Edition 5.0

Ustawienie parametr≤w pracy OmniPage LE zaczyna siΩ ju┐ w chwili instalacji programu, gdy okno dialogowe pozwala na wyb≤r skanera (na podstawie zainstalowanych w systemie sterownik≤w TWAIN) oraz wyb≤r formatu wyj╢ciowego, w jakim rozpoznany tekst ma byµ zapisany. OmniPage LE potrafi pobieraµ dane tylko z bezpo╢rednio skanowanych orygina│≤w. Ponadto program ustawia "na sztywno", bez mo┐liwo╢ci zmiany, rozdzielczo╢µ wskanowanych dokument≤w na 300 dpi. Dlatego nie mogli╢my w pe│ni zrealizowaµ zamierze± testu, gdy┐ program nie pozwala│ na pobranie danych z gotowego ju┐ pliku graficznego zachowanego w komputerze. Tekst wynikowy jest automatycznie zapisywany w formacie podanym podczas instalacji OmniPage. OpcjΩ "Autosave Text" mo┐na wy│▒czyµ. Sam program OCR nie wy╢wietla wynik≤w przeprowadzonej analizy, jest to mo┐liwe dopiero przez otwarcie zapisanego tekstu wynikowego w edytorze odpowiednim dla formatu zapisu. Mimo ┐e program nie ma opcji "samonauczania", umo┐liwia │atwiejsz▒ edycjΩ tekstu wynikowego przez zaznaczanie nierozpoznanych przez program znak≤w bezpo╢rednio w pliku, w jakim ten┐e tekst zosta│ zapisany. Zakres rozpoznawanych przez program jΩzyk≤w jest do╢µ w▒ski i niestety nie zawiera polskiego, co naszym zdaniem dyskwalifikuje go na polskim rynku.

OmniPage Pro 8.0

OmniPage Pro 8.0

Najbardziej zaawansowany pod wzglΩdem mo┐liwo╢ci w naszym te╢cie - ma wszystko, w co program tego typu powinien byµ zaopatrzony. OmniPage 8.0 rozpoznaje tekst z dokument≤w ╝r≤d│owych przeniesionych bezpo╢rednio ze skanera, a tak┐e akceptuje najwiΩcej format≤w obraz≤w rastrowych spo╢r≤d testowanych przez nas program≤w. ¼r≤d│o - plik graficzny (mono) mo┐e byµ zapisany w formacie TIFF, PCX, BMP, DCX, JPG oraz w wewnΩtrznym formacie OmniPage. Interfejs programu zosta│ tak skonstruowany, ┐e praca nawet z wieloma zeskanowanymi dokumentami ╝r≤d│owymi nie powinna sprawiµ k│opotu u┐ytkownikom nieobeznanym z tego typu oprogramowaniem.
Okno OmniPage'a podzielone zosta│o na trzy czΩ╢ci. W pierwszej program wy╢wietla miniatury zeskanowanych dokument≤w, ewentualnie otwartych plik≤w rastrowych, co u│atwia ich podgl▒d i wyb≤r potrzebnego w danej chwili. W drugiej - u┐ytkownik ma podgl▒d aktualnie wybranego pliku ╝r≤d│owego z zaznaczonymi obszarami tekstowymi, automatycznie rozpoznawany przez program. Trzecia czΩ╢µ okna OmniPage przeznaczona jest do wy╢wietlania wynik≤w procedury OCR.
Program w miarΩ poprawnie potrafi rozpoznaµ tekst z dokumentu o rozdzielczo╢ci 100 dpi. Przy 300 dpi interpretacja znak≤w rastrowych jest praktycznie bezb│Ωdna, w│▒czaj▒c w to takie aspekty uk│adu strony jak wielko╢µ znaku/litery, jego kr≤j, styl (kursywa, wyt│uszczenia itp.). R≤wnie┐ zakres format≤w wynikowych tekst≤w obs│ugiwany przez OmniPage jest najszerszy - obejmuje nie tylko najpopularniejsze edytory tekstu, ale tak┐e arkusze kalkulacyjne czy bazy danych.
Niestety, OmniPage ma jedn▒, olbrzymi▒ dla nas wadΩ - nie rozpoznaje polskich znak≤w. Nawet mo┐liwo╢µ "nauczenia" programu, w jaki spos≤b ma interpretowaµ znaki, nie da rezultatu, jaki osi▒gniemy stosuj▒c program obs│uguj▒cy jΩzyk polski.

Nasz wyb≤r

Podsumowuj▒c mo┐liwo╢ci testowanych przez nas aplikacji, zdecydowali╢my siΩ na wyr≤┐nienie programu Recognita Standard 3.2. W pe│ni wystarczaj▒ce funkcje tego programu, mo┐liwo╢µ podgl▒du ╝r≤d│a oraz wynik≤w, jako╢µ i szybko╢µ procedury OCR, a przede wszystkim obs│uga polskich liter zdecydowa│y o wyborze produktu wΩgierskich programist≤w.

Jak testowali╢my?

Lista ┐ycze± Wish List

Programom OCR postawili╢my zadanie prawid│owego rozpoznania tekstu w dw≤ch przygotowanych przez nas uprzednio dokumentach, bΩd▒cych przyk│adowymi faksami, z kt≤rych jeden zawiera│ tekst angielski, za╢ drugi - polski. Ponadto umie╢cili╢my w ka┐dym dokumencie obiekt graficzny przykryty tekstem, co pozwoli│o nam sprawdziµ, jak dany program interpretuje tego typu elementy. Tak spreparowane dokumenty zosta│y wydrukowane na drukarce laserowej HP 5 Si MX, a nastΩpnie zeskanowane skanerem Logitech Pagescan Color Parallel.
Skanowanie przebiega│o w dw≤ch trybach jako╢ci. Ten sam dokument zosta│ zeskanowany z rozdzielczo╢ci▒ 100 dpi oraz 300 dpi. Ponadto przy zadanej rozdzielczo╢ci ╝r≤d│owy dokument skanowali╢my w trybach: dwukolorowym (czer± i biel) oraz w 256 odcieniach szaro╢ci (grayscale). W wynikach uwzglΩdniali╢my liczbΩ b│Ωd≤w, jaka wyst▒pi│a podczas rozpoznawania tekstu przez dany program, a tak┐e wierno╢µ odwzorowania uk│adu strony i formatowania tekstu w stosunku do dokumentu ╝r≤d│owego, o ile dany program oferowa│ tak▒ funkcjΩ.