[ImoLUG] estrazione dati da pdf

XXX kmfrick98@gmail.com
Mar 6 Set 2016 12:15:55 CEST


Potresti usare pdftotext per convertire il pdf in plaintext, poi
elaborarlo con awk. Se hanno un formato consistente, potresti ad
esempio dare "awk '{FS="/"}; {print $x $x+1 $x+2};'" dove x è il campo
con il giorno. Purtroppo elaborare dei file che non siano plaintext è
piuttosto difficile :/

2016-09-06 11:30 GMT+02:00 Oscar -goo- Martignani <oscar.goo@gmail.com>:
>
> Buongiorno All,
>
> avrei una domanda tecnica (?) da farvi. Io purtroppo ho tralasciato quasi
> tutto da anni e sono a secco di esperienza, per questo mi affido all'aiuto
> vostro.
>
> Avrei un'idea a proposito di un problema che ho: dovrei riuscire a capire se
> dei pdf che mi mandano riguardano qualcosa di urgente da realizzare a breve,
> oppure no. Il problema è, appunto, che le eventuali informazioni sono
> all'interno di pdf allegati a mail che mi vengono mandate.
>
> L'idea era quella di verificare la mail, identificare i pdf presenti,
> estrarli, passarli ad un "qualcosa" che li analizzi e ne estragga
> informazioni utili (e.g.: data, in formato dd/mm/yyyy) e che in base a
> qeulla informazione crei un alert (ad esempio un'altra mail con indicato "la
> mail del ... ricevuta da ... contiene un allegato potenzialmente urgente).
>
> Io ho qui solo machina con windows, ma non avrei problemi a creare una
> macchinetta (e.g.: ho qualche raspberry inutilizzati) linux su cui mettere
> tutto il necessario.
>
> vi sembra un'idea fattibile?
>
>
> grazie, ciao
>
>
> --
> Oscar@gmail
>
> _______________________________________________
> ImoLUG mailing list
> www.imolug.org
> imolug@lists.linux.it
> http://lists.linux.it/listinfo/imolug
> Regolamento ML - http://www.imolug.org/faq/Regolamento_MailingList
> Server e connettivit offerti da Ehiweb - www.ehiweb.it
>
> Facebook: https://www.facebook.com/ImoLUG


Maggiori informazioni sulla lista ImoLUG