[Tech] Pattern Recognition e/o OCR

Marco Marcantelli (kaifa) kaifa_mm@tin.it
Ven 12 Maggio 2006 09:22:28 CEST


Ciao,

   grazie per le dritte ....... a dire il vero ci ho capito ben poco .... cmq
inizierò guardando  ocrad...... poi magari mi rifaccio vivo per gli
inevitabili chiarimenti ..... 

                                        CiA e grazie di nuovo .....




---------- Original Message -----------
From: Szymon Stefanek <pragma@firenze.linux.it>
To: Discussioni tecniche <tech@firenze.linux.it>
Sent: Thu, 11 May 2006 19:40:53 +0200
Subject: Re: [Tech] Pattern Recognition e/o OCR

> On Thursday 11 May 2006 13:08, Marco Marcantelli (kaifa) wrote:
> > Salve Gente,
> >
> >     vorrei riconoscere da un immagine scannerizzata (PDF/TIF) una certa
> > forma o scritta fissa, ma in posizione differente.
> >
> > Mi spiego meglio : trovare una forma tipo un cerchio o qualcos'altro con
> > dentro un testo variabile, oppure direttamente un testo variabile che
> > inizia sempre per (ad esemipo) *** e finisce per ***.
> 
> > Lo scopo è quello di leggere il testo variabile che sta nel cerchio o tra
> > gli *** anche se sta in posizioni differenti........
> 
> Se c'è un pattern ben riconoscibile dentro il testo non hai bisogno 
> di "cercare" dentro l'immagine. Passi il tutto all'ocr e cerchi 
> dentro il testo a suon di "strcmp" (occhio alla fuzziness: gli ocr 
> sbagliano :).
> 
> Trovare la forma diventa in generale più complicato. Specialmente se 
> questa è  variabile, distorta o corrotta da rumore...
> 
> Ci sono diversi approcci alla ricerca di forme: dipende da cosa e in 
> cosa devi cercare esattamente. Per trovare un timbro ben 
> riconoscibile e sempre uguale 
> (non ruotato!) in una pagina relativamente vuota puoi usare la 
> "minima differenza" rispetto ad un pattern noto. Scorri, cioè, 
> l'immagine calcolando la differenza in ogni punto rispetto ad una 
> immagine di riferimento del timbro e assumi che esso si trovi nella 
> posizione in cui ottieni la differenza minima (se questa è sotto una 
> certa soglia).
> 
> Un'altro approccio è quello di calcolare le componenti connesse
> presenti all'interno dell'immagine e studiarne la forma. Se cerchi 
> delle circonferenze, ad esempio, puoi verificare che la forma sia 
> chiusa, abbia il "centro di massa" contenuto all'interno del 
> perimetro e che la "varianza" del raggio esterno calcolata rispetto 
> a questo centro sia vicina a zero... Questo sistema è,in generale, 
> più complicato.
> 
> > Avete la minima idea come fare ? esistono delle librerie o programmi da
> > riga comando affidabili in merito ?
> 
> C'è ocrad. Non è il massimo, ma se il tuo testo è ben leggibile puoi 
> accontentarti. Ci sono altri due o tre ocr liberi in giro ma quando 
> li provai ocrad risultò fra tutti il migliore.
> 
> Sei comunque nel campo del riconoscimento delle immagini. I problemi 
> reali che vi si presentano sono in generale difficili.
> 
> --
> 
> Szymon Stefanek
> 
> ------------------------------------------------------------------------------
> -
> - Powered by Chernobyl Nuclear Power Plant.
> -
> ------------------------------------------------------------------------------
------- End of Original Message -------




Maggiori informazioni sulla lista flug-tech