[luccalug-soci] Test tesseract

Gabriele Tenucci gabriele.tenucci@gmail.com
Mar 23 Giu 2015 14:24:18 CEST


Quella è la lingua, serve per capire le lettere strane. Tipo, in italiano
ci sono molti accenti, in spagnolo ci sono le lettere tipo la n col tilde
sopra, i punti interrogativi e esclamativi rovesciati ecc. In francese c'è
la c col gambino sotto, e così via... per cui imposti la lingua e lui così
vede tra quali caratteri effettuare il riconoscimento.

Il vocabolario però non è implementato, come si vede dai test. Guarda per
esempio le parole con una lettera sbagliata, se il vocabolario fosse
implementato non ci sarebbero quei casi di errore.
Il 23/giu/2015 13:41, "Matteo Martinelli" <matomoto32@gmail.com> ha scritto:

> Ho sempre utilizzato il parametro -l
> Non è quelli a definire il dizionario?
> Il 23/giu/2015 13:39, "Gabriele Tenucci" <gabriele.tenucci@gmail.com> ha
> scritto:
>
>> Ah, i test erano senza vocabolario, implementando quello la precisione
>> dovrebbe aumentare parecchio
>> Il 23/giu/2015 10:14, "Alek Mugnozzo" <mugnozzo@gmail.com> ha scritto:
>>
>>> Sono contento che abbiate fatto tutti questi test.
>>> Sono anche contento che i problemi principali siano la risoluzione e la
>>> rotazione, perché possiamo ovviarli usando fotocamere buone (tipo la mia e
>>> quella del Martinelli) e per le foto dritte basta calibrarle bene
>>> all'inizio.
>>> Poi ne parliamo meglio e appena ho un secondo guardo i test che linkati
>>> da Matteo.
>>>
>>> --------------------------------------
>>>
>>> Alek Mugnozzo
>>> e-mail: info@mugnozzo.net
>>> pec: mugnozzo@pec.mugnozzo.net
>>> web: http://mugnozzo.net
>>> phone: +39 320 5325471
>>> twitter: @mugnozzo
>>> facebook (Personal): Alek Mugnozzo <https://www.facebook.com/mugnozzo>
>>> facebook (Company): Mugnozzo <https://www.facebook.com/mugnozzo.net>
>>> skype: mugnozzo
>>> linkedin: Alessio Mugnani
>>> --------------------------------------
>>>
>>> *AVVERTENZE AI SENSI DEL D.Lgs. 196/2003 E DIRITTO DI OPPOSIZIONE. Le
>>> informazioni contenute in questo messaggio di posta elettronica e/o nel/i
>>> file/s allegato/i sono da considerarsi strettamente riservate. Il loro
>>> utilizzo è consentito esclusivamente al destinatario del messaggio, per le
>>> finalità indicate nel messaggio stesso. Qualora riceviate questo messaggio
>>> senza esserne il destinatario, Vi preghiamo cortesemente di darcene notizia
>>> via e-mail e di procedere alla distruzione del messaggio stesso,
>>> cancellandolo dal Vostro sistema. Conservare il messaggio stesso,
>>> divulgarlo anche in parte, distribuirlo ad altri soggetti, copiarlo, od
>>> utilizzarlo per finalità diverse, costituisce comportamento contrario ai
>>> principi dettati dal D.Lgs. 196/2003.*
>>>
>>> Il giorno 23 giugno 2015 00:39, Matteo Martinelli <matomoto32@gmail.com>
>>> ha scritto:
>>>
>>>> Aggiungo qualche dettaglio ora dato che la mail precedente l' ho
>>>> inviata via cellulare
>>>> Dopo varie prove siamo arrivati a queste conclusioni:
>>>>
>>>> 1. Tesseract ha bisogno di foto il più risolute possibile, la pulizia
>>>> dell' immagine è di minore importanza.
>>>> Come si vede dai test 2 e 3, le immagini sono perfette ma il
>>>> riconoscimento è pessimo a differenza del test 5, foto più "sporca" ma con
>>>> risoluzione molto più alta
>>>>
>>>> 2. Tesseract divide l' immagine in blocchi di testo che poi riconosce
>>>> uno dopo l' altro, per questo motivo è necessario fare foto più dritte
>>>> possibile.
>>>> L' immagine 4 è un esempio abbastanza lampante, testo semplice con font
>>>> ben riconoscibile, è stata riconosciuta solo la parte destra.
>>>> Un risultato simile lo abbiamo ottenuto con il titolo del test 9
>>>>
>>>> 3. Una carta molto sporca può generare artefatti durante il
>>>> riconoscimento (vedi test 8)
>>>>
>>>> 4. Non riesce a riconoscere i paragrafi che iniziano con lettere
>>>> grandi, questo porta a sbagliare l' inizio di tutte le righe che vengono
>>>> "invase" da queste letterone (vedete il test 11 per capire bene)
>>>>
>>>> 5. Le foto sfocate gli danno molta noia, vedere la seconda colonna del
>>>> test 12
>>>>
>>>> Il test 5 e 6 sono praticamente perfetti
>>>>
>>>>
>>>> Mi  sono dimenticato qualcosa ?
>>>> Il giorno 22 giugno 2015 23:19, Matteo Martinelli <matomoto32@gmail.com
>>>> > ha scritto:
>>>>
>>>>> Abbiamo fatto 12 test per valutare tesseract
>>>>> Ci sono anche 2 documenti in inglese
>>>>> Ecco un link con i risultati ottenuti
>>>>> https://goo.gl/nr5EUU
>>>>>
>>>>
>>>>
>>>>
>>>> --
>>>> Mailing list info: http://lists.linux.it/listinfo/luccalug-soci
>>>>
>>>>
>>>
>>>
>>> --
>>> Mailing list info: http://lists.linux.it/listinfo/luccalug-soci
>>>
>>>
>>
>> --
>> Mailing list info: http://lists.linux.it/listinfo/luccalug-soci
>>
>>
>
> --
> Mailing list info: http://lists.linux.it/listinfo/luccalug-soci
>
>
-------------- parte successiva --------------
Un allegato HTML è stato rimosso...
URL: <http://lists.linux.it/pipermail/luccalug-soci/attachments/20150623/181adfbe/attachment.html>


Maggiori informazioni sulla lista Luccalug-soci