Un buon software per estrapolare dati da Pdf

di il
9 risposte

Un buon software per estrapolare dati da Pdf

Buonasera a tutti, piacere di conoscervi, volevo un consiglio da voi se fosse possibile. Ho l'esigenza di estrapolare delle informazioni da un file pdf e riportarlo in un file excel per poi questi dati sistemarli e andarli a portare in db mysql, in poche parole un ocr

Ho provato Able extraction , Data parser pero' vorrei qualcosa di ancora piu' professionale. Potreste darmi dei consigli a riguardo ?

Grazie

9 Risposte

  • Re: Un buon software per estrapolare dati da Pdf

    Adobe Acrobat DC Pro.
    ABBYY FineReader PDF 15 Standard
    Poi dipende dai pdf e dal tipo di dati che devi estrarre (i pdf non sono proprio lineari nella struttura delle informazioni).
  • Re: Un buon software per estrapolare dati da Pdf

    E' "estrarre', NON "estrapolare" (guarda che cosa dice la Treccani).

    DIPENDE da che cosa vuoi estrarre ed il formato del file da generare

    Un OCR si usa per converire l'IMMAGINE di un un testo (un bitmap) nel testo stesso (in formato ""testuale"").

    Un PDF NON E' un'immagine: CONTIENE il testo in forma ""testuale"" anche se MISCHIATO con le direttive di formattazione.
  • Re: Un buon software per estrapolare dati da Pdf

    Per andrea quaglia , grazie per il consiglio , gia usati tutti e due , e sono due ottimi software , anche se ho trovato maggiore flessibilità in Able Exctract che ti consiglio di dare un'occhiata.

    Il tipo di documento sono dei degli orari e i giorni lavorati da un operatore che poi devono andare a finire su un foglio excel ed essere lavorati. Anche se questi due software indicati da te prendono tutto il documento e tutti i dati , io avrei bisogno di una soluzione che permetta di prendere solo determinati campi di questo documento.

    Ah scusate per aver usato il termine estrapolare.
  • Re: Un buon software per estrapolare dati da Pdf

    Allora dipende da com'è fatto il pdf. Se è un foglio manoscritto e poi trasformato in pdf, serve un OCR+AI che sappia leggere la parte manoscritta, poi il tutto deve finire in un filtro esterno (se l'ocr non lo prevede come plugin), che ne trasformi il contenuto in un qualcosa di strutturato e taggato, tipo Json, da cui andrai a estrapolare i dati che ti servono.
    Se il pdf è di tipo 'stampa', puoi anche scriverti un plugin per Adobe Acrobat Pro (usando ad esempio Javascript) che sia in grado di trovare il dato che ti serve e lo esporti.
  • Re: Un buon software per estrapolare dati da Pdf

    Ottima idea fare un plugin per acrobat e dargli indicazioni sui dati da prendere sul foglio e poi eventualmente farli inviare su un foglio excel nelle celle in cui ho necessità di avere.
    Grazie.

    Ps: oltre acrobat e plugin puoi darmi qualche altro consiglio a livello di creazione di qualche script che faccia quello che serve a me?

    Grazie
  • Re: Un buon software per estrapolare dati da Pdf

    Ci sono molti OCR che sono in grado di estrarre il testo dalla pagina pdf, lo salvi come txt e lo fai digerire da qualche script che cerca le informazioni.
    Anche Acrobat DC è in grado di salvare il documento come testo (se non ricordo male), ma i risultati sono modesti.
    La cosa importante è che l'OCR sia in grado di ricostruire il testo in modo "come si vede", perché non è detto che il pdf abbia la struttura interna del testo identica a come viene mostrata.
  • Re: Un buon software per estrapolare dati da Pdf

    Io ho utilizzato con Linux : non so dirti se esiste qualcosa di analogo per Win.
    Mi sono creato uno script in python che analizza i pdf (pdf generati da programmi e non immagini scansionate) e li trasforma in txt (tramite appunto pdftotext con l'opzione layout) che poi successivamente elaboro ed importo in db access.
  • Re: Un buon software per estrapolare dati da Pdf

    Salve @max.riservo, grazie anche a te per avermi risposto. Quindi ti sei creato uno script che legge le informazioni in un file pdf , tramite un template impostato da te , e poi li riporta tutti su un file txt , ho inteso bene ? percaso potresti passare qualche guida in modo da poterne creare anche io uno? poi volevo chiederti se e' possibile portare i dati in excel.

    Grazie
  • Re: Un buon software per estrapolare dati da Pdf

    Andywhite ha scritto:


    ...Quindi ti sei creato uno script che legge le informazioni in un file pdf , tramite un template impostato da te , e poi li riporta tutti su un file txt , ho inteso bene ? percaso potresti passare qualche guida in modo da poterne creare anche io uno? poi volevo chiederti se e' possibile portare i dati in excel.
    ...
    Probabilmente non hai compreso (oppure non ho spiegato correttamente) come ho agito.
    Io ho diversi PDF, tutti con lo stesso layout, dai quali devo estrarre delle informazioni testuali da importare in Access.
    Per realizzare il tutto è stato fondamentale l'utilizzo di pdftotext. Che cosa fa? Semplice, estrae tutte le informazioni presenti nel PDF a patto che le stesse siano state inserite come testo (quindi se nel PDF sono presenti immagini che contengono del testo, l'utility pdftotext non è in grado di estrarne il contenuto).
    Siccome i miei pdf hanno tutti lo steso layout è abbastanza facile poi andare ad analizzare il file di testo estratto dal pdf per importare in Access solo quelle parti di testo realmente necessarie.
    Che poi io abbia fatto una pre-elaborazione in Linux (perché lo utilizzo nativamente e perché mi serviva pdftotext) per estrarre ed elaborare i testi e una post-elaborazione in Win (perché Access gira su Win) diventa un mero dettaglio...
    Non esistono guide da passarti ... se i tuoi pdf hanno delle strutture simili e se pdftotext funziona anche con Win puoi tentare il mio approccio usando il linguaggio che più conosci altrimenti devi trovare un'altra strada.
Devi accedere o registrarti per scrivere nel forum
9 risposte