Libreria per estrarre testo da file immagine

centurione_agrippa

il 01 feb 2020, 18:02

9 risposte

centurione_agrippa

Utente Attivo

Iscritto da: giu, 2013

Messaggi:: 145

Libreria per estrarre testo da file immagine

01 feb 2020, 18:05

Salve ragazzi mi sapreste suggerire una libreria python per l'estrazione di testo in un file pdf immagine ? ad ora ho usato pdfminer che è ottima per l'estrazione di testo da un pdf non scannerizzato.

9 Risposte

gian82
Molto attivo
Iscritto da
gen, 2015
Messaggi:
1265
Re: Libreria per estrarre testo da file immagine
01 feb 2020, 18:09
Questo l'hai già provato https://www.geeksforgeeks.org/python-reading-contents-of-pdf-using-ocr-optical-character-recognition/ ?
C
centurione_agrippa
Utente Attivo
Iscritto da
giu, 2013
Messaggi:
145
Re: Libreria per estrarre testo da file immagine
01 feb 2020, 19:13
Ciao e grazie del suggerimento,
proprio adesso stavo leggendo il suo potenziale. Ho letto che sfrutta anche le reti neurali. Ho iniziato a fare anche alcune prove del tipo se ho un pdf scannerizzato mi da errore ma se converto il pdf in jpf riesco ad avere degli ottimi risultati. Il mio problema è che devo riuscire a leggere un centinaio di file che comprendono file di tipo doc, pdf e pdf scannerizzati. Hai qualche idea su come potrei automatizzare il tutto ?
Andrea Quaglia
Molto attivo
Iscritto da
giu, 2017
Messaggi:
619
Re: Libreria per estrarre testo da file immagine
01 feb 2020, 23:31
La butto lì, dato che non conosco i termini del tuo problema: stampi tutto come pdf, converti tutti i pdf in jpg e passi il tutto all'ocr.
M
migliorabile
Super Famoso
Iscritto da
apr, 2013
Messaggi:
6247
Re: Libreria per estrarre testo da file immagine
02 feb 2020, 07:51
In che senso il pdf scannerizzato da errore?
Un pdf non si scannerizza!
Si usa uno scanner per convertire un foglio di carta in un'immagine O un pdf.

ATTENZIONE che il pdf generato dal software di scannerizzazione e' un pdf per modo di dire!
E' un pdf che CONTIENE UN'IMMAGINE! NON CONTIENE testo.

Poi ci sono gli OCR che usano lo scanner e generano un PDF che EFFETTIVAMENTE contiene del testo!
C
centurione_agrippa
Utente Attivo
Iscritto da
giu, 2013
Messaggi:
145
Re: Libreria per estrarre testo da file immagine
02 feb 2020, 09:46
Pdf scannerizzato nel senso che anche se ha l'estensione .pdf il documento non è selezionabile
C
centurione_agrippa
Utente Attivo
Iscritto da
giu, 2013
Messaggi:
145
Re: Libreria per estrarre testo da file immagine
02 feb 2020, 09:48
Andrea Quaglia ha scritto:
La butto lì, dato che non conosco i termini del tuo problema: stampi tutto come pdf, converti tutti i pdf in jpg e passi il tutto all'ocr.
Ho pensato anche io alla stessa cosa, cambio il tipo di formato ad ogni file escluso i pdf, poi converto tutto il jpg ed infine passo tutto all'ocr
M
migliorabile
Super Famoso
Iscritto da
apr, 2013
Messaggi:
6247
Re: Libreria per estrarre testo da file immagine
02 feb 2020, 09:58
centurione_agrippa ha scritto:
Pdf scannerizzato nel senso che anche se ha l'estensione .pdf il documento non è selezionabile
Dalle mie parti si dice: parla come mangi

NON E' il documento che non riesci a selezionare, E' IL TESTO all'interno del documento!

DEVI essere chiaro! Le parole non si buttano li a casaccio!
Siamo in un forum tecnico! E' TUA RESPONSABILITA' usare la terminologia TECNICA CORRETTA!
C
centurione_agrippa
Utente Attivo
Iscritto da
giu, 2013
Messaggi:
145
Re: Libreria per estrarre testo da file immagine
02 feb 2020, 21:08
Hai perfettamente ragione, ma non sapevo dare una definizione corretta al "pdf scannerizzato "

centurione_agrippa

Utente Attivo

Iscritto da: giu, 2013

Messaggi:: 145

Re: Libreria per estrarre testo da file immagine

03 feb 2020, 19:29

Ciao a tutti, quando eseguo il codice inerente all'estrazione di testo da un file immagine, ho questo errore:

text.append(str(pytesseract.image_to_string(Image.open(imagefilename)),encoding='utf-8'))
TypeError: str() takes at most 1 argument (2 given)

dove l'struzione è :

text.append(str(pytesseract.image_to_string(Image.open(imagefilename)),encoding='utf-8'))

avete qualche idea ? So che la sintassi corretta di str è :

str(object, encoding=encoding, errors=errors)

ma o con un solo argomento o con tre il risultato non cambia. Se tolgo tutti gli argomenti e lascio solo :

text.append(str(pytesseract.image_to_string(Image.open(imagefilename)),encoding='utf-8'))

il risultato è :

File "/home/luigi/Scrivania/lettura_pdf.py", line 87, in <module>
    text.append(str(pytesseract.image_to_string(Image.open(imagefilename))))
UnicodeEncodeError: 'ascii' codec can't encode character u'\u201c' in position 307: ordinal not in range(128)

qualche suggerimento?

Devi accedere o registrarti per scrivere nel forum

9 risposte