Lucky ha scritto:
I pdf sono fatture relative a bollette, e dovrei acquisire dati tipo: consumi, pod, tipo servizio erogato, ecc... vorrei poterli "estrarre" per poter mettere tipo in excel, o calc al fine di fare elaborazioni. il file pdf di fatture è composto da 100 pagine, quindi come fossero 100 fatture,
Come posso fare?
Grazie.
Esattamente come già spiegato.
Estrai il testo, sia in formato layout che raw (a seconda dei casi), ad esempio con pdftotext, poi lo parsi "a mano".
Ti consiglio di fare anche la tecnica del "totalone", cioè controllare il totale preso dal documento con quello che hai determinato durante il parsing.
In questo modo sei sicuro di non aver fatto errori.
Ti consiglio di farti qualche funzione di supporto, tipo tagliaprimaparola(), tagliaultimaparola() e stringaafloat()
Altra cosa un "purgatore" iniziale, che tagli via tutte le righe non interessanti (intestazioni di pagina, righe descrittive eccetera).
1/2 ore di lavoro (delphi)