|
Programy OCR |
|||||||||
Dariusz Ha│as | |||||||||
W dzisiejszych komputerach urz▒dzenie peryferyjne takie jak skaner nie nale┐y do rzadko╢ci. Tym samym wzros│o znaczenie program≤w OCR (Optical Character Recognition), dziΩki kt≤rym przeniesienie tekstu wydrukowanego na kartce papieru na komputer nie polega ju┐ na ┐mudnym jego przepisaniu. Ponadto programy OCR pomagaj▒ ustrzec siΩ przed zasypaniem papierami, kt≤re - choµ na pewno niezbΩdne - nie musz▒ ju┐ zajmowaµ cennego miejsca, gdy┐ mo┐na je archiwizowaµ w postaci plik≤w na dysku, CD lub innym no╢niku danych.
Technologia zamiany wskanowanego tekstu, bΩd▒cego - jak ka┐dy wskanowany obraz - zwyczajn▒ bitmap▒, na ci▒g kod≤w ASCII, odpowiadaj▒cych literom i innym znakom pisarskim rozwija siΩ w szybkim tempie. Niekt≤re programy OCR potrafi▒ nie tylko przekszta│ciµ bitmapΩ zawieraj▒c▒ zeskanowany tekst na w pe│ni edytowalny plik tekstowy, lecz tak┐e oferuj▒ zachowanie formatu tekstu odpowiadaj▒cego wskanowanemu orygina│owi, czyli takich element≤w sk│adu, jak uk│ad szpalt, kr≤j czcionki, jej styl (pogrubienie, kursywa itp.), akapity, wciΩcia i inne elementy bΩd▒ce charakterystycznymi cechami ╝r≤d│owego dokumentu. Opr≤cz tego niekt≤re z testowanych przez nas program≤w umo┐liwia│y przeniesienie z wskanowanego orygina│u ilustracji i umieszczenie jej w odpowiednim miejscu rozpoznanego tekstu.
Xerox TextBridge Classic 1.05
Rozpoznawane formaty bitmap to TIFF, BMP, PCX, DCX, XIF (Xerox Image Format) oraz Delrina Fax. TextBridge Classic nie ma niestety wbudowanej obs│ugi polskich znak≤w, nie mo┐na r≤wnie┐ wymusiµ rozpoznawania polskich liter przez przypisanie b│Ωdnemu znakowi rozpoznawanemu przez program jego w│a╢ciwego odpowiednika. W przypadku angielskojΩzycznego dokumentu tekst zosta│ odczytany praktycznie bezb│Ωdnie. Ponadto TextBridge potrafi│ uwzglΩdniµ wiΩkszo╢µ zmian stylu tekstu, wielko╢µ czcionki itp., aczkolwiek nie do ko±ca poradzi│ sobie z prawid│owym rozpoznaniem kroju pisma. Oczywi╢cie uwzglΩdnienie takich aspekt≤w wymaga odpowiedniego zapisu uzyskanego tekstu. TextBridge Classic pozwala zapisaµ rozpoznany tekst jako plik w formacie ASCII, RTF, WordPerfect (wersje od 4.2 do 6.1), a nawet jako dokument HTML czy arkusz Excela. ú▒cznie program oferuje 32 formaty zapisu rozpoznanego tekstu. Dodatkowo umo┐liwia zdefiniowanie parametr≤w, na podstawie kt≤rych dokonywana jest analiza dokumentu ╝r≤d│owego. Opr≤cz ustalenia layoutu (uk│adu strony), orientacji strony i jako╢ci rastrowego ╝r≤d│a mo┐na te┐ zmieniµ jΩzyk (domy╢lnie angielski), jaki ma byµ rozpoznawany. Recognita Standard 2.0
Wersja 2.0 przeznaczona dla Windows 3.x (dzia│a r≤wnie┐ w Windows 95), opr≤cz jΩzyka polskiego i angielskiego jest w stanie rozpoznaµ znaki charakterystyczne dla 21 innych jΩzyk≤w. Ponadto mo┐liwe jest zdefininiowanie strony kodowej dla tekstu - rezultatu procedury OCR. W przypadku naszego jΩzyka dostΩpny jest standard Mazovii oraz CP-852 (DOS Latin-2). Ustawienie odpowiedniej strony kodowej jest konieczne do uzyskania prawid│owego tekstu z polskimi znakami. Nale┐y o tym pamiΩtaµ, poniewa┐ domy╢lnie program dzia│a w trybie International, nie wy╢wietlaj▒cym w rezultacie charakterystycznych dla naszego jΩzyka ogonk≤w. Podobnie jak w przypadku wiΩkszo╢ci testowanych przez nas program≤w, Recognita 2.0 nie najlepiej rozpoznaje tekst na podstawie obraz≤w o niskiej rozdzielczo╢ci (100 dpi), jednak w wy┐szej radzi sobie bez problemu ze wszystkimi typowo polskimi niuansami liternictwa. Rozpoznawane przez program formaty plik≤w graficznych (tylko dwukolorowych) to TIFF oraz PCX. Mimo ┐e nie jest to wiele, to popularno╢µ tych format≤w, zw│aszcza przy obrazach dwukolorowych powoduje, ┐e taki wyb≤r jest wystarczaj▒cy. Recognita pozwala zapisaµ rozpoznany tekst jako tekst ASCII oraz RTF. Mo┐liwo╢ci rozpoznawcze Recognity 2.0 to opr≤cz znak≤w, formatowanie tekstu. Program nie potrafi jednak uwzglΩdniµ charakterystycznych styl≤w, wyt│uszcze±, kursyw czy kroj≤w czcionek u┐ytych w dokumencie-grafice ╝r≤d│owym. Jednak rozpoznawanie polskich liter, to funkcja o znacznie wy┐szym priorytecie ni┐ jakiekolwiek opcje uwzglΩdniaj▒ce charakterystyki sk│adu tekstu. Recognita Standard 3.2
W przypadku polskich znak≤w program stosuje stronΩ Windows Latin-2. Dane wej╢ciowe Recognita 3.2 mo┐e pobraµ z pliku graficznego zar≤wno mono, jak i grayscale, zapisanego w jednym z akceptowanych format≤w (TIFF, PCX, BMP i DCX) oraz bezpo╢rednio ze skanera. Ciekaw▒ opcj▒ jest mo┐liwo╢µ rozpoznawania tekstu i jego wklejania bezpo╢rednio do edytora, z kt≤rym aktualnie pracujemy. Osi▒ga siΩ to dziΩki umieszczeniu przez RecognitΩ w pasku zada± ikony, za pomoc▒ kt≤rej mo┐emy uruchomiµ zadanie rozpoznawania tekstu (ze skanera lub z pliku) podczas pracy z dowolnym edytorem tekst≤w dzia│aj▒cym w Windows. Recognita rozpoznawa│a polskie znaki praktycznie bezb│Ωdnie, lecz dotyczy│o to plik≤w skanowanych tylko w rozdzielczo╢ci 300 dpi. W przypadku 100 dpi program sam przestrzega u┐ytkownika, ┐e plik wej╢ciowy winien mieµ rozdzielczo╢µ przynajmniej 200 dpi, niemniej dokonuje pr≤by rozpoznania znak≤w. Rezultaty w tym przypadku by│y niestety ┐a│osne i praktycznie eliminowa│y przydatno╢µ rozpoznanego tekstu jako elektronicznego odpowiednika skanowanego orygina│u. W rozpoznanym tek╢cie Recognita nie uwzglΩdnia ani kroju pisma, ani te┐ jego charakterystycznych cech, potrafi jednak rozpoznaµ formatowania tekstu. Tekst bΩd▒cy rezultatem procedury OCR mo┐emy zapisaµ jako zwyk│y plik tekstowy, tekst ze znakami ko±ca wiersza, tekst w formacie RTF (uwzglΩdnia formatowania) oraz tekst tabelaryczny (Tab Separated). ReadIRIS 3.80
Interesuj▒c▒ funkcj▒ jest interaktywna "nauka". Polega to na tym, ┐e po przeprowadzeniu analizy dokumentu ╝r≤d│owego, ReadIRIS wy╢wietla okno dialogowe, w kt≤rym podaje niezrozumia│e dla niego znaki i umo┐liwia ich zast▒pienie przez u┐ytkownika. Przypisania poszczeg≤lnych znak≤w zostaj▒ zapamiΩtane, co daje du┐e szanse, ┐e dany znak bΩdzie poprawnie rozpoznawany podczas przysz│ych analiz dokument≤w. Tego typu dzia│anie wymusza jednak, aby skanowane dokumenty mia│y w miarΩ jednolity kr≤j tekstu. Rozpoznany tekst mo┐e byµ zapisany zar≤wno jako plik tekstowy, jak i w formacie popularnych edytor≤w tekstu (MS Word, WordPerfect), co umo┐liwia zachowanie znacznie wiΩkszej liczby parametr≤w dokumentu, takich jak: styl i kr≤j pisma, format strony itp. Podobnie jak w przypadku Recognity, analiza dokument≤w zapisanych/skanowanych w niskiej rozdzielczo╢ci nie da│a pozytywnych rezultat≤w. ZwiΩkszenie rozdzielczo╢ci plik≤w ╝r≤d│owych owocuje znaczn▒ popraw▒ jako╢ci tekstu wynikowego. OmniPage Limited Edition 5.0
OmniPage Pro 8.0
Okno OmniPage'a podzielone zosta│o na trzy czΩ╢ci. W pierwszej program wy╢wietla miniatury zeskanowanych dokument≤w, ewentualnie otwartych plik≤w rastrowych, co u│atwia ich podgl▒d i wyb≤r potrzebnego w danej chwili. W drugiej - u┐ytkownik ma podgl▒d aktualnie wybranego pliku ╝r≤d│owego z zaznaczonymi obszarami tekstowymi, automatycznie rozpoznawany przez program. Trzecia czΩ╢µ okna OmniPage przeznaczona jest do wy╢wietlania wynik≤w procedury OCR. Program w miarΩ poprawnie potrafi rozpoznaµ tekst z dokumentu o rozdzielczo╢ci 100 dpi. Przy 300 dpi interpretacja znak≤w rastrowych jest praktycznie bezb│Ωdna, w│▒czaj▒c w to takie aspekty uk│adu strony jak wielko╢µ znaku/litery, jego kr≤j, styl (kursywa, wyt│uszczenia itp.). R≤wnie┐ zakres format≤w wynikowych tekst≤w obs│ugiwany przez OmniPage jest najszerszy - obejmuje nie tylko najpopularniejsze edytory tekstu, ale tak┐e arkusze kalkulacyjne czy bazy danych. Niestety, OmniPage ma jedn▒, olbrzymi▒ dla nas wadΩ - nie rozpoznaje polskich znak≤w. Nawet mo┐liwo╢µ "nauczenia" programu, w jaki spos≤b ma interpretowaµ znaki, nie da rezultatu, jaki osi▒gniemy stosuj▒c program obs│uguj▒cy jΩzyk polski. Nasz wyb≤r Podsumowuj▒c mo┐liwo╢ci testowanych przez nas aplikacji, zdecydowali╢my siΩ na wyr≤┐nienie programu Recognita Standard 3.2. W pe│ni wystarczaj▒ce funkcje tego programu, mo┐liwo╢µ podgl▒du ╝r≤d│a oraz wynik≤w, jako╢µ i szybko╢µ procedury OCR, a przede wszystkim obs│uga polskich liter zdecydowa│y o wyborze produktu wΩgierskich programist≤w. Jak testowali╢my?
Skanowanie przebiega│o w dw≤ch trybach jako╢ci. Ten sam dokument zosta│ zeskanowany z rozdzielczo╢ci▒ 100 dpi oraz 300 dpi. Ponadto przy zadanej rozdzielczo╢ci ╝r≤d│owy dokument skanowali╢my w trybach: dwukolorowym (czer± i biel) oraz w 256 odcieniach szaro╢ci (grayscale). W wynikach uwzglΩdniali╢my liczbΩ b│Ωd≤w, jaka wyst▒pi│a podczas rozpoznawania tekstu przez dany program, a tak┐e wierno╢µ odwzorowania uk│adu strony i formatowania tekstu w stosunku do dokumentu ╝r≤d│owego, o ile dany program oferowa│ tak▒ funkcjΩ. (c) Copyright LUPUS |