Funzione OCR

Optical Character Recognition, abbreviato in OCR, è il riconoscimento meccanico o elettronico del testo presente in immagini.

A cosa serve la funzionalità OCR?

OCR è ampiamente usato per convertire differenti tipi di documenti come documenti cartacei scannerizzati, file PDF o immagini catturate da una fotocamera digitale in dati  digitali (e quindi modificabili). In alcuni ambienti o uffici (esempio librerie), migliaia di libri e documenti vengono scannerizzati regolarmente per poi archiviarli più facilmente. La digitalizzazione dei documenti è anche una cosa molto utile per una piu’ facile ricerca e una migliore organizzazione di qualsiasi archivio.

Uno scanner non è altro che un fotografo che crea un documento immagine magari anche in formato PDF. Il problema è che se poi si vuole andare ad elaborare o fare una ricerca in questi file, ciò non è possibile perchè trattasi di immagini e non di documenti testuali. In questi casi subentra l’importanza dell’ OCR.

Esempio OCR

Prima di eseguire OCR, l’intera area della pagina se selezionata viene evidenziata per intero ed è impossibile fare ricerche.

Dopo aver eseguito OCR, il testo della pagina può essere selezionato come se fosse un solito documento word.