[luccalug-soci] Test tesseract

Matteo Martinelli matomoto32@gmail.com
Mar 23 Giu 2015 00:39:55 CEST


Aggiungo qualche dettaglio ora dato che la mail precedente l' ho inviata
via cellulare
Dopo varie prove siamo arrivati a queste conclusioni:

1. Tesseract ha bisogno di foto il più risolute possibile, la pulizia dell'
immagine è di minore importanza.
Come si vede dai test 2 e 3, le immagini sono perfette ma il riconoscimento
è pessimo a differenza del test 5, foto più "sporca" ma con risoluzione
molto più alta

2. Tesseract divide l' immagine in blocchi di testo che poi riconosce uno
dopo l' altro, per questo motivo è necessario fare foto più dritte
possibile.
L' immagine 4 è un esempio abbastanza lampante, testo semplice con font ben
riconoscibile, è stata riconosciuta solo la parte destra.
Un risultato simile lo abbiamo ottenuto con il titolo del test 9

3. Una carta molto sporca può generare artefatti durante il riconoscimento
(vedi test 8)

4. Non riesce a riconoscere i paragrafi che iniziano con lettere grandi,
questo porta a sbagliare l' inizio di tutte le righe che vengono "invase"
da queste letterone (vedete il test 11 per capire bene)

5. Le foto sfocate gli danno molta noia, vedere la seconda colonna del test
12

Il test 5 e 6 sono praticamente perfetti


Mi  sono dimenticato qualcosa ?
Il giorno 22 giugno 2015 23:19, Matteo Martinelli <matomoto32@gmail.com> ha
scritto:

> Abbiamo fatto 12 test per valutare tesseract
> Ci sono anche 2 documenti in inglese
> Ecco un link con i risultati ottenuti
> https://goo.gl/nr5EUU
>
-------------- parte successiva --------------
Un allegato HTML è stato rimosso...
URL: <http://lists.linux.it/pipermail/luccalug-soci/attachments/20150623/185aee28/attachment.html>


Maggiori informazioni sulla lista Luccalug-soci