[ImoLUG] estrazione dati da pdf

Oscar -goo- Martignani oscar.goo@gmail.com
Gio 8 Set 2016 08:19:49 CEST


On 06/09/2016 21:53, fRANz wrote:

ciao fRANz e grazie anche a te per la risposta

>> il problema è che le mail hanno una specie di formattazione standard non
>> modificabile: nel subj e nel corpo non c'è scritto nulla tranne che dei dati
>> generici, mentre tutto il "corpo" del messaggio è dentro al file .pdf
>> allegato.
> altra domanda: anche il pdf in allegato segue delle regole (vedi
> "specie di formattazione standard non modificabile" sopracitata),
> vero?

si ha una certa formattazione standard, e quindi il campo che poi vado a 
ricercare può essere individuato con alcune regole

> perchè se la risposta è no, parsare allegati 'a caso' con una semplice
> regexp che intercetta una data equivale a tirare su _qualunque_ data
> nel documento ergo quelle sì nel body, ma pure quelle
> nell'intestazione o piè di pagina

infatti mi dovrei studiare un po' la cosa e capire bene che passi fare 
:-) oltre a qualche esperimento!



>> Per sapere se è un argomento urgente (data di consegna) bisogna aprire il
>> pdf e verificare la casella apposta. siccome ci sono decine di mail ogni
>> giorno, che occupano molto tempo alla persona che deve controllare, la mia
>> idea era di fare qualcosa di automatizzato che scremasse almeno una parte
>> delle cose più urgenti, lasciando il controllo manuale del resto un paio di
>> volte alla settimana.
> ho capito bene: l'automatismo che vai cercando sarebbe attivato 'in
> contemporanea' su una mailbox parallelamente verificata da una
> persona?
> non farà casino? separarle in modo da dedicare una mailbox
> all'automatismo? (sempre che la posta sia lo strumento giusto - vedi
> sotto)

Hai capito bene, ma la persona in questione legge la mail una volta ogni 
qualche giorno, e se si riuscisse almeno a scremare una parte delle 
urgenze sarebbe già ottimo. purtroppo non è possibile aumentare la 
frequenza di lettura della persona.
Comunque poi non c'è rischio di doppioni in quanto ci sarebbe un numero 
identificativo (commessa) univoco.



>> però ad esempio se si riesce, come dice Kevin, ad estrarre il .pdf dalla
>> mail, trasformarlo in plain text, applicare un filtro per identificare le
>> date, e da queste fare un confronto con la data di controllo, sarebbe già un
>> grande passo avanti per me.
> sai che alla fine è la parte più semplice?
> googola per fetchmail + procmail + save attachment e troverai un sacco
> di esempi pronti ma rimane in me il dubbio di prima: è il modo più
> furbo/safe?
> se il 'ricevere pdf per posta' non fosse un vincolo, anche un
> banalissimo form via web sarebbe sufficiente allo scopo - con
> l'opportunità di sapere _esattamente_ quali sono i campi chiave e
> gestire a posteriori una notifica puntuale in base alle tue necessità

Purtroppo la ricezione del documento pdf nella posta è vincolante in 
quanto l'ente che lo fa è composto di più persone, che utilizzano questo 
"standard"; btw oltre a noi viene mandato anche ad altri nello stesso 
formato (i quali non so come si siano organizzati.. magari c'è uno/a che 
passa buona parte del suo tempo solo a leggere mail nel caso ne ricevano 
di più oppure non abbiano questo problema nel caso ne ricevano meno).
Non si può quindi chiedere al mittente di cambiare procedura :(

ho fatto qualche prova su un attachment di "esempio" e l'estrazione mi 
ha dato qualche risultato. non sono riuscito ad usare awk decentemente, 
ma è un limite mio, purtroppo.

prima o poi partecipo ad una qualche birrata :-) :-)

ciao e grazie



-- 
Oscar@gmail



Maggiori informazioni sulla lista ImoLUG