[luccalug-soci] Test tesseract
Alek Mugnozzo
mugnozzo@gmail.com
Mar 23 Giu 2015 10:14:34 CEST
Sono contento che abbiate fatto tutti questi test.
Sono anche contento che i problemi principali siano la risoluzione e la
rotazione, perché possiamo ovviarli usando fotocamere buone (tipo la mia e
quella del Martinelli) e per le foto dritte basta calibrarle bene
all'inizio.
Poi ne parliamo meglio e appena ho un secondo guardo i test che linkati da
Matteo.
--------------------------------------
Alek Mugnozzo
e-mail: info@mugnozzo.net
pec: mugnozzo@pec.mugnozzo.net
web: http://mugnozzo.net
phone: +39 320 5325471
twitter: @mugnozzo
facebook (Personal): Alek Mugnozzo <https://www.facebook.com/mugnozzo>
facebook (Company): Mugnozzo <https://www.facebook.com/mugnozzo.net>
skype: mugnozzo
linkedin: Alessio Mugnani
--------------------------------------
*AVVERTENZE AI SENSI DEL D.Lgs. 196/2003 E DIRITTO DI OPPOSIZIONE. Le
informazioni contenute in questo messaggio di posta elettronica e/o nel/i
file/s allegato/i sono da considerarsi strettamente riservate. Il loro
utilizzo è consentito esclusivamente al destinatario del messaggio, per le
finalità indicate nel messaggio stesso. Qualora riceviate questo messaggio
senza esserne il destinatario, Vi preghiamo cortesemente di darcene notizia
via e-mail e di procedere alla distruzione del messaggio stesso,
cancellandolo dal Vostro sistema. Conservare il messaggio stesso,
divulgarlo anche in parte, distribuirlo ad altri soggetti, copiarlo, od
utilizzarlo per finalità diverse, costituisce comportamento contrario ai
principi dettati dal D.Lgs. 196/2003.*
Il giorno 23 giugno 2015 00:39, Matteo Martinelli <matomoto32@gmail.com> ha
scritto:
> Aggiungo qualche dettaglio ora dato che la mail precedente l' ho inviata
> via cellulare
> Dopo varie prove siamo arrivati a queste conclusioni:
>
> 1. Tesseract ha bisogno di foto il più risolute possibile, la pulizia
> dell' immagine è di minore importanza.
> Come si vede dai test 2 e 3, le immagini sono perfette ma il
> riconoscimento è pessimo a differenza del test 5, foto più "sporca" ma con
> risoluzione molto più alta
>
> 2. Tesseract divide l' immagine in blocchi di testo che poi riconosce uno
> dopo l' altro, per questo motivo è necessario fare foto più dritte
> possibile.
> L' immagine 4 è un esempio abbastanza lampante, testo semplice con font
> ben riconoscibile, è stata riconosciuta solo la parte destra.
> Un risultato simile lo abbiamo ottenuto con il titolo del test 9
>
> 3. Una carta molto sporca può generare artefatti durante il riconoscimento
> (vedi test 8)
>
> 4. Non riesce a riconoscere i paragrafi che iniziano con lettere grandi,
> questo porta a sbagliare l' inizio di tutte le righe che vengono "invase"
> da queste letterone (vedete il test 11 per capire bene)
>
> 5. Le foto sfocate gli danno molta noia, vedere la seconda colonna del
> test 12
>
> Il test 5 e 6 sono praticamente perfetti
>
>
> Mi sono dimenticato qualcosa ?
> Il giorno 22 giugno 2015 23:19, Matteo Martinelli <matomoto32@gmail.com>
> ha scritto:
>
>> Abbiamo fatto 12 test per valutare tesseract
>> Ci sono anche 2 documenti in inglese
>> Ecco un link con i risultati ottenuti
>> https://goo.gl/nr5EUU
>>
>
>
>
> --
> Mailing list info: http://lists.linux.it/listinfo/luccalug-soci
>
>
-------------- parte successiva --------------
Un allegato HTML è stato rimosso...
URL: <http://lists.linux.it/pipermail/luccalug-soci/attachments/20150623/bb7f1b48/attachment.html>
Maggiori informazioni sulla lista
Luccalug-soci