martedì 24 febbraio 2009

Tesseract Ocr su Ubuntu

Oggi volevo parlare di un programmino che ho trovato molto comodo e semplice.
Si tratta di TESSERACT, un programmino OCR da terminale che ci permette di convertire una scansione, preventivamente salvata in TIFF, in un file TXT, sucessivamente editabile con un qualsiasi editor di testo.
L'installazione su Ubuntu (io l'ho provato sia su Ubuntu 8.04 che su Ubuntu 8.10) è molto semplice.
Da SYNAPTIC andiamo su cerca e digitiamo TESSERACT-OCR, da qui marchiamo appunto TESSERACT-OCR, TESSERACT-OCR-DEU, TESSERACT-OCR-ITA e TESSERACT-OCR-ENG, (non dimentichiamoci di quest'ultimo altrimenti al momento della conversione ci restituirà un messaggio di errore) e diamo applica.
Una volta installato il programma non ci resta altro da fare che una scansione, in bianco e nero di 250-300 dpi, salvata in formato TIFF (o TIF), dopodichè da terminale digitiamo:
$ cd nome cartella contenente la nostra scansione
$ ls (per vedere i file presenti nella cartella)
$ tesseract NOME FILE.TIF NOME NUOVO FILE (SENZA ESTENSIONE verrà automaticamente salvato con il nome scelto da noi in formato TXT)
A questo punto ci basterrà attendere che il file venga convertito e aprirlo con il nostro editor di testo preferito!!!

Ovviamente il file risultante conterrà degli errori, che noi andremo semplicemente a correggere senza doverci riscrivere tutto il testo!!!!
Personalmente l'ho trovato molto comodo e mi ha convertito file con tabelle che altri programmi per Windows non convertivano correttamente (il testo veniva sistemato in ordine sparso), cmq per chi usa il sistema operativo di Microsoft consiglio TopOCR, scaricabile gratuitamente da internet e di facile utilizzo (anche se tutto in inglese),
comunque ne parlerò più dettagliatamente nel prossimo post...