OCR è l'acronimo di Optical Character Recognition, un'espressione in inglese che può essere tradotta come Optical Character Recognition. La nozione viene utilizzata in informatica per nominare una procedura che consente di digitalizzare un testo attraverso uno scanner.
Ciò che l'OCR rende possibile è che, quando si passa un testo attraverso un determinato dispositivo, il sistema riconosce i caratteri come parte di un alfabeto. In questo modo, il documento scansionato può essere modificato con un elaboratore di testi, poiché non viene memorizzato come immagine.
In questo modo, l' OCR facilita il lavoro che molte persone devono svolgere. Se qualcuno scansiona un libro con l'intenzione di fare un riassunto, grazie all'OCR potrà interagire con il testo scansionato attraverso un programma come Microsoft Word, tagliando, copiando e incollando qualsiasi parola, cosa impossibile se non si effettua tale processo di riconoscimento. poiché il computer non è in grado di comprendere il testo che si trova in un'immagine.
Oltre all'ovvio vantaggio di memorizzare un testo come tale e non come immagine, c'è la notevole differenza di peso: le immagini possono occupare molto più spazio su disco rispetto ai testi, e questo va tenuto in considerazione se si vogliono avere dei libri numeri interi scansionati. Ovviamente non in tutti i casi è consigliabile che il computer esegua l'OCR, soprattutto se non si ha intenzione di modificare il contenuto.
È curioso che una sola applicazione possa cambiare la capacità dello stesso computer in modo così drastico, ma è ciò che accade in tutti i casi: sebbene i processori moderni possano essere molto efficienti, soprattutto se combinati con memorie e dischi all'avanguardia, Sono inutili senza i programmi appropriati, motivo per cui la stessa macchina può passare da inutile a estremamente avanzata semplicemente a causa del software che ha.
Nonostante il progresso della tecnologia, l' OCR deve ancora affrontare vari problemi. Far sì che un sistema digitale riconosca il testo scritto a mano, ad esempio, è piuttosto difficile. Il processo è spesso scomodo per segmentare le varie unità di testo. Lo stesso accade quando le parole appaiono vicine tra loro.
Altri difetti dell'OCR possono comparire quando non c'è abbastanza contrasto tra le parole e lo sfondo. Supponiamo che un testo scritto in lettere nere sia stampato su un foglio grigio: il processo OCR potrebbe non essere in grado di distinguere tra lettere e parole.
Non dimentichiamo che, proprio come un'azione apparentemente semplice come camminare per strada richiede una serie di azioni complementari per evitare ostacoli e proteggere la nostra integrità, la lettura di un testo stampato è il risultato di diverse attività di riconoscimento simultanee, che svolgiamo eseguita quasi inconsciamente, ma prendiamo il lavoro.
Di fronte a un testo, il nostro sistema OCR è responsabile della ricerca e del riconoscimento del titolo, dell'identificazione di paragrafi, segni di punteggiatura, spazi tra parole e abbreviazioni, tra gli altri elementi, oltre a fare uno sforzo per comprendere le fonti troppo elaborato o disordinato e per completare le informazioni nelle regioni che hanno subito qualsiasi tipo di usura, come una macchia di inchiostro o un pezzo di carta mancante.