[gl-como] OCR per documenti in italiano

Jio jiojio74@gmail.com
Gio 22 Maggio 2008 21:05:42 CEST


Prima prova con tesseract che supporta l'italiano ( app-text/ocropus non è
in portage, almeno in ~amd64). Non è stato un completo disastro considerando
che il testo faceva un pò schifo di suo, ma sono abituato a molto meglio. Mi
sa che per l'urgenza (nel frattempo è diventata tale) devo riesumare un
vecchio pc, poi con calma faccio esperimenti più approfonditi.
Al volo ho provato ocrad... a parte l'uso di immagini pnm (giganti), a parte
che i titoli in un altro carattere più grande li scazza alla grande, è più o
meno usabile, ma i risultati sono poco meno precisi di tesseract.
Mi basterebbe qualcosa in cui si possa fare del trainig interattivo per
migliorare parecchio il risultato

On Thu, May 22, 2008 at 9:41 AM, Jio <jiojio74@gmail.com> wrote:

>
>
> On Wed, May 21, 2008 at 10:33 AM, Riccardo (SCASI) <r.penco@scasinet.com>
> wrote:
>
>> Pietro "m0nt0" Montorfano ha scritto:
>> > Jio ha scritto:
>> [...]
>>
>> >
>> in realtà c'è molta differenza, se il motore ocr sa che il testo è in
>> italiano e ha a disposizione il dizionario, il suo compito è di gran
>> lunga facilitato:
>>
>
> Giusto questo intendevo
> Questo pomeriggio sperimento con 30 pagine di documento e vediamo chi sarà
> il vincitore
>
-------------- parte successiva --------------
Un allegato HTML è stato rimosso...
URL: http://lists.linux.it/pipermail/gl-como/attachments/20080522/fddb5530/attachment.htm 


Maggiori informazioni sulla lista gl-como