OCR is een acroniem voor Optical Character Recognition, wat optische tekenherkenning betekent. Met behulp van OCR worden afbeeldingen van tekst, zoals gescande documenten, omgezet in daadwerkelijke teksttekens. OCR maakt het mogelijk om tekst die normalerwijs is opgesloten in gescande afbeeldingen, te bewerken en opnieuw te gebruiken. OCR werkt met behulp van een vorm van kunstmatige intelligentie, die patroonherkenning wordt genoemd, om afzonderlijke teksttekens op een pagina, inclusief leestekens, spaties en regeleinden, te herkennen.
Er zijn drie scenario's mogelijk voor het uitvoeren van OCR:
In elk van de drie OCR-scenario's kunt u de volgende instellingen bepalen. U moet deze opties selecteren in het dialoogvenster Opties voor definitie voordat u gaat scannen of handmatig een OCR-bewerking gaat uitvoeren.
Instellingen voor automatische OCR aanpassen
Instellingen voor handmatige OCR aanpassen
Instellingen voor indexeren aanpassen
De nauwkeurigheid van OCR vergroten
De nauwkeurigheid van de tekstherkenning hangt af van verschillende factoren, waaronder het type document dat wordt gescand en de scannerinstellingen die worden gebruikt. U kunt scandefinities gebruiken om de nauwkeurigheid van OCR te verbeteren.
OpmerkingááDocumenten die worden gescand met een resolutie groter dan 900 dpi worden geconverteerd naar 900 dpi als u Automatisch draaien of Automatisch rechttrekken hebt geselecteerd.
Als u een definitie wilt selecteren, klikt u op Nieuw document scannen in het menu Bestand en selecteert u vervolgens een definitie in de lijst. In de volgende tabel worden suggesties weergegeven voor het optimaliseren van OCR voor het scannen van verschillende typen documenten.
Origineel document | Scandefinitie |
---|---|
Zwarte of gekleurde tekst op gekleurd papier of documenten met een drukke achtergrond
Foto's of illustraties Gekleurde tekst op wit papier of zwart-witafbeeldingen met tinten die in elkaar overlopen (zoals foto's) |
Zwart-witexemplaar van kleurenpagina |
Zwarte tekst op wit papier of lijntekeningen | Zwart-wit |
U kunt ook zelf definities maken of bewerken. Klik in het dialoogvenster Microsoft Office Document Scanning op Opties voor definitie en klik vervolgens op Nieuwe definitie maken of Geselecteerde definitie bewerken.
U bent verzekerd van een maximale nauwkeurigheid van OCR als u ervoor zorgt dat de selectievakjes Automatisch draaien en Automatisch rechttrekken zijn ingeschakeld op het tabblad Verwerking van het dialoogvenster Opties voor definitie. Dit is de standaardinstelling.
Als u handmatige OCR gebruikt, schakelt u de selectievakjes Automatisch draaien en Automatisch rechttrekken op het tabblad OCR in het dialoogvenster Opties in.
Voor een maximale nauwkeurigheid van OCR tijdens het indexeren, klikt u in het menu Extra op Opties, klikt u op het tabblad OCR en klikt u vervolgens op Indexing-service om deze instellingen aan te passen.
Nadat OCR op een document is uitgevoerd, kunt u in het deelvenster Pagina of in de leesweergave tekst selecteren door te slepen, zoals u dat ook doet in andere Microsoft Office-programma's. Als u met de muis sleept om tekst te selecteren, worden alleen hele woorden geselecteerd. Als u met de muis dwars door een woord heen sleept, wordt dat hele woord geselecteerd, zelfs als het gedeeltelijk buiten de selectierechthoek valt.
De geselecteerde tekst bevindt zich in feite op een verborgen laag die losstaat van de afbeelding van het document. U kunt op deze laag op dezelfde manier tekst selecteren en kopiδren als in een gewoon document.