Come servizio connesso e integrativo all'attività di digitalizzazione degli archivi è possibile effettuare un riconoscimento automatico delle testo contenuto nei documenti.
Per poter memorizzare in forma digitale un testo occorre procedere preventivamente alla sua scansione (a meno che il testo non sia già stato creato nativamente in forma elettronica).
L'immagine risultante dal
procedimento di scansione viene quindi sottoposta ad un programma di Optical Character Recognition (OCR), che genera una versione elettronica del testo contenuto nell'immagine. Le percentuali di errore a cui sono soggetti i software OCR si è abbassata notevolmente negli ultimi anni, portando, in condizioni particolarmente favorevoli, a circa il 99% il livello di riconoscimento dei caratteri.
Il testo ottenuto da un OCR può essere memorizzato in una grande varietà di formati, senza quasi alcuno standard: da ASCII a Unicode, da Postscript a TeX, da Microsoft Word a PDF Adobe.