[gl-como] OCR per documenti in italiano

Mer 21 Maggio 2008 10:33:04 CEST

Pietro "m0nt0" Montorfano ha scritto:
> Jio ha scritto:
[...]

> 
> Premesso che non ne ho mai usati, ma non dovrebbe esserci distinzione di 
> italiano inglese tedesco e simili, alla fine rileva i caratteri da un 
> immagine e li mette come testo, in gentoo ci sono

in realtà c'è molta differenza, se il motore ocr sa che il testo è in 
italiano e ha a disposizione il dizionario, il suo compito è di gran 
lunga facilitato:

'legge' ogni lettera che compone una parola dando per ciascuna un valore 
di probabilità di correttezza;
mettendo insieme le lettere ottiene la parola inesistente 'intornatica'; 
confronta il risultato con il dizionario e deduce che la parola corretta 
sia 'informatica';

> app-text/clara 		http://www.geocities.com/claraocr/
> app-text/gocr  		http://jocr.sourceforge.net
> app-text/ocrad 		http://www.gnu.org/software/ocrad/ocrad.html
> app-text/ocropus 	http://code.google.com/p/ocropus/
> app-text/tesseract	http://code.google.com/p/tesseract-ocr/

non so se qualcuno tra questi motori ocr sia in grado di appoggiarsi ad 
un dizionario

ciao
riki