Andywhite ha scritto:
...Quindi ti sei creato uno script che legge le informazioni in un file pdf , tramite un template impostato da te , e poi li riporta tutti su un file txt , ho inteso bene ? percaso potresti passare qualche guida in modo da poterne creare anche io uno? poi volevo chiederti se e' possibile portare i dati in excel.
...
Probabilmente non hai compreso (oppure non ho spiegato correttamente) come ho agito.
Io ho diversi PDF, tutti con lo stesso layout, dai quali devo estrarre delle informazioni testuali da importare in Access.
Per realizzare il tutto è stato fondamentale l'utilizzo di pdftotext. Che cosa fa? Semplice, estrae tutte le informazioni presenti nel PDF a patto che le stesse siano state inserite come testo (quindi se nel PDF sono presenti immagini che contengono del testo, l'utility pdftotext non è in grado di estrarne il contenuto).
Siccome i miei pdf hanno tutti lo steso layout è abbastanza facile poi andare ad analizzare il file di testo estratto dal pdf per importare in Access solo quelle parti di testo realmente necessarie.
Che poi io abbia fatto una pre-elaborazione in Linux (perché lo utilizzo nativamente e perché mi serviva pdftotext) per estrarre ed elaborare i testi e una post-elaborazione in Win (perché Access gira su Win) diventa un mero dettaglio...
Non esistono guide da passarti ... se i tuoi pdf hanno delle strutture simili e se pdftotext funziona anche con Win puoi tentare il mio approccio usando il linguaggio che più conosci altrimenti devi trovare un'altra strada.