Prima prova con tesseract che supporta l'italiano (
app-text/ocropus non è in portage, almeno in ~amd64). Non è stato un completo disastro considerando che il testo faceva un pò schifo di suo, ma sono abituato a molto meglio. Mi sa che per l&#39;urgenza (nel frattempo è diventata tale) devo riesumare un vecchio pc, poi con calma faccio esperimenti più approfonditi.<br>
Al volo ho provato ocrad... a parte l&#39;uso di immagini pnm (giganti), a parte che i titoli in un altro carattere più grande li scazza alla grande, è più o meno usabile, ma i risultati sono poco meno precisi di tesseract.<br>
Mi basterebbe qualcosa in cui si possa fare del trainig interattivo per migliorare parecchio il risultato<br><br><div class="gmail_quote">On Thu, May 22, 2008 at 9:41 AM, Jio &lt;<a href="mailto:jiojio74@gmail.com">jiojio74@gmail.com</a>&gt; wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><br><br><div class="gmail_quote"><div class="Ih2E3d">On Wed, May 21, 2008 at 10:33 AM, Riccardo (SCASI) &lt;<a href="mailto:r.penco@scasinet.com" target="_blank">r.penco@scasinet.com</a>&gt; wrote:<br>
</div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><div class="Ih2E3d">
Pietro &quot;m0nt0&quot; Montorfano ha scritto:<br>
&gt; Jio ha scritto:<br>
[...]<br>
<div><br>
&gt;<br>
</div></div><div class="Ih2E3d">in realtà c&#39;è molta differenza, se il motore ocr sa che il testo è in<br>
italiano e ha a disposizione il dizionario, il suo compito è di gran<br>
lunga facilitato:<br>
</div></blockquote><div><br>Giusto questo intendevo<br></div></div>Questo pomeriggio sperimento con 30 pagine di documento e vediamo chi sarà il vincitore<br>
</blockquote></div><br>