[Tech] Pattern Recognition e/o OCR
Marco Marcantelli (kaifa)
kaifa_mm@tin.it
Ven 12 Maggio 2006 09:22:28 CEST
Ciao,
grazie per le dritte ....... a dire il vero ci ho capito ben poco .... cmq
inizierò guardando ocrad...... poi magari mi rifaccio vivo per gli
inevitabili chiarimenti .....
CiA e grazie di nuovo .....
---------- Original Message -----------
From: Szymon Stefanek <pragma@firenze.linux.it>
To: Discussioni tecniche <tech@firenze.linux.it>
Sent: Thu, 11 May 2006 19:40:53 +0200
Subject: Re: [Tech] Pattern Recognition e/o OCR
> On Thursday 11 May 2006 13:08, Marco Marcantelli (kaifa) wrote:
> > Salve Gente,
> >
> > vorrei riconoscere da un immagine scannerizzata (PDF/TIF) una certa
> > forma o scritta fissa, ma in posizione differente.
> >
> > Mi spiego meglio : trovare una forma tipo un cerchio o qualcos'altro con
> > dentro un testo variabile, oppure direttamente un testo variabile che
> > inizia sempre per (ad esemipo) *** e finisce per ***.
>
> > Lo scopo è quello di leggere il testo variabile che sta nel cerchio o tra
> > gli *** anche se sta in posizioni differenti........
>
> Se c'è un pattern ben riconoscibile dentro il testo non hai bisogno
> di "cercare" dentro l'immagine. Passi il tutto all'ocr e cerchi
> dentro il testo a suon di "strcmp" (occhio alla fuzziness: gli ocr
> sbagliano :).
>
> Trovare la forma diventa in generale più complicato. Specialmente se
> questa è variabile, distorta o corrotta da rumore...
>
> Ci sono diversi approcci alla ricerca di forme: dipende da cosa e in
> cosa devi cercare esattamente. Per trovare un timbro ben
> riconoscibile e sempre uguale
> (non ruotato!) in una pagina relativamente vuota puoi usare la
> "minima differenza" rispetto ad un pattern noto. Scorri, cioè,
> l'immagine calcolando la differenza in ogni punto rispetto ad una
> immagine di riferimento del timbro e assumi che esso si trovi nella
> posizione in cui ottieni la differenza minima (se questa è sotto una
> certa soglia).
>
> Un'altro approccio è quello di calcolare le componenti connesse
> presenti all'interno dell'immagine e studiarne la forma. Se cerchi
> delle circonferenze, ad esempio, puoi verificare che la forma sia
> chiusa, abbia il "centro di massa" contenuto all'interno del
> perimetro e che la "varianza" del raggio esterno calcolata rispetto
> a questo centro sia vicina a zero... Questo sistema è,in generale,
> più complicato.
>
> > Avete la minima idea come fare ? esistono delle librerie o programmi da
> > riga comando affidabili in merito ?
>
> C'è ocrad. Non è il massimo, ma se il tuo testo è ben leggibile puoi
> accontentarti. Ci sono altri due o tre ocr liberi in giro ma quando
> li provai ocrad risultò fra tutti il migliore.
>
> Sei comunque nel campo del riconoscimento delle immagini. I problemi
> reali che vi si presentano sono in generale difficili.
>
> --
>
> Szymon Stefanek
>
> ------------------------------------------------------------------------------
> -
> - Powered by Chernobyl Nuclear Power Plant.
> -
> ------------------------------------------------------------------------------
------- End of Original Message -------
Maggiori informazioni sulla lista
flug-tech