[luccalug-soci] Test tesseract
Gabriele Tenucci
gabriele.tenucci@gmail.com
Mar 23 Giu 2015 13:38:59 CEST
Ah, i test erano senza vocabolario, implementando quello la precisione
dovrebbe aumentare parecchio
Il 23/giu/2015 10:14, "Alek Mugnozzo" <mugnozzo@gmail.com> ha scritto:
> Sono contento che abbiate fatto tutti questi test.
> Sono anche contento che i problemi principali siano la risoluzione e la
> rotazione, perché possiamo ovviarli usando fotocamere buone (tipo la mia e
> quella del Martinelli) e per le foto dritte basta calibrarle bene
> all'inizio.
> Poi ne parliamo meglio e appena ho un secondo guardo i test che linkati da
> Matteo.
>
> --------------------------------------
>
> Alek Mugnozzo
> e-mail: info@mugnozzo.net
> pec: mugnozzo@pec.mugnozzo.net
> web: http://mugnozzo.net
> phone: +39 320 5325471
> twitter: @mugnozzo
> facebook (Personal): Alek Mugnozzo <https://www.facebook.com/mugnozzo>
> facebook (Company): Mugnozzo <https://www.facebook.com/mugnozzo.net>
> skype: mugnozzo
> linkedin: Alessio Mugnani
> --------------------------------------
>
> *AVVERTENZE AI SENSI DEL D.Lgs. 196/2003 E DIRITTO DI OPPOSIZIONE. Le
> informazioni contenute in questo messaggio di posta elettronica e/o nel/i
> file/s allegato/i sono da considerarsi strettamente riservate. Il loro
> utilizzo è consentito esclusivamente al destinatario del messaggio, per le
> finalità indicate nel messaggio stesso. Qualora riceviate questo messaggio
> senza esserne il destinatario, Vi preghiamo cortesemente di darcene notizia
> via e-mail e di procedere alla distruzione del messaggio stesso,
> cancellandolo dal Vostro sistema. Conservare il messaggio stesso,
> divulgarlo anche in parte, distribuirlo ad altri soggetti, copiarlo, od
> utilizzarlo per finalità diverse, costituisce comportamento contrario ai
> principi dettati dal D.Lgs. 196/2003.*
>
> Il giorno 23 giugno 2015 00:39, Matteo Martinelli <matomoto32@gmail.com>
> ha scritto:
>
>> Aggiungo qualche dettaglio ora dato che la mail precedente l' ho inviata
>> via cellulare
>> Dopo varie prove siamo arrivati a queste conclusioni:
>>
>> 1. Tesseract ha bisogno di foto il più risolute possibile, la pulizia
>> dell' immagine è di minore importanza.
>> Come si vede dai test 2 e 3, le immagini sono perfette ma il
>> riconoscimento è pessimo a differenza del test 5, foto più "sporca" ma con
>> risoluzione molto più alta
>>
>> 2. Tesseract divide l' immagine in blocchi di testo che poi riconosce uno
>> dopo l' altro, per questo motivo è necessario fare foto più dritte
>> possibile.
>> L' immagine 4 è un esempio abbastanza lampante, testo semplice con font
>> ben riconoscibile, è stata riconosciuta solo la parte destra.
>> Un risultato simile lo abbiamo ottenuto con il titolo del test 9
>>
>> 3. Una carta molto sporca può generare artefatti durante il
>> riconoscimento (vedi test 8)
>>
>> 4. Non riesce a riconoscere i paragrafi che iniziano con lettere grandi,
>> questo porta a sbagliare l' inizio di tutte le righe che vengono "invase"
>> da queste letterone (vedete il test 11 per capire bene)
>>
>> 5. Le foto sfocate gli danno molta noia, vedere la seconda colonna del
>> test 12
>>
>> Il test 5 e 6 sono praticamente perfetti
>>
>>
>> Mi sono dimenticato qualcosa ?
>> Il giorno 22 giugno 2015 23:19, Matteo Martinelli <matomoto32@gmail.com>
>> ha scritto:
>>
>>> Abbiamo fatto 12 test per valutare tesseract
>>> Ci sono anche 2 documenti in inglese
>>> Ecco un link con i risultati ottenuti
>>> https://goo.gl/nr5EUU
>>>
>>
>>
>>
>> --
>> Mailing list info: http://lists.linux.it/listinfo/luccalug-soci
>>
>>
>
>
> --
> Mailing list info: http://lists.linux.it/listinfo/luccalug-soci
>
>
-------------- parte successiva --------------
Un allegato HTML è stato rimosso...
URL: <http://lists.linux.it/pipermail/luccalug-soci/attachments/20150623/28f4ef5b/attachment.html>
Maggiori informazioni sulla lista
Luccalug-soci