Il documento viene letto dallo scanner. Lo scanner funge da “occhio” del computer, a cui invia l’immagine in forma digitale. A questo punto, l’immagine scansionata non è altro che un ammasso di punti (“pixels”) su sfondo bianco.
Le routine binarie intelligenti convertono le immagini a colori e la scala dei grigi in immagini in bianco e nero.
Il software OCR estrae le informazioni di testo da questi pixel: riconosce le forme e assegna i caratteri.
La segmentazione delle righe consiste nello smembrare una pagina di testo in tutte le sue righe. Questa operazione riconosce anche le righe inclinate, l’interlinea e le capolettere e separa le righe che si toccano.
La segmentazione delle parole isola una parola dall’altra.
La segmentazione dei caratteri separa le varie lettere di una parola. Se i caratteri sono della stessa larghezza (passo fisso), questa operazione è semplice. Il problema si presenta quando l’ampiezza delle lettere dipende dalla loro forma (passo proporzionale), in caso di spaziature intercarattere e quando vengono utilizzati font a matrice di punti.
Il riconoscimento dei caratteri estrae le caratteristiche di ciascuna forma isolata ed assegna un simbolo. I tre stadi più importanti sono la fase di autoapprendimento, l’analisi topologica e la fase interattiva opzionale. Durante il riconoscimento, vengono utilizzate conoscenze linguistiche per convalidare le soluzioni corrette ed individuare quelle dubbie.