Buongiorno,
ho aggiustato ed ampliato questo script
import PyPDF2
import openpyxl
import os
filenames = []
directory = r"C:\\Users"
for filename in os.listdir(directory):
if filename.lower().endswith('.pdf'):
filenames.append(os.path.join(directory, filename))
wb = openpyxl.load_workbook('excel.xlsx')
sheet = wb.active
sheet.title = 'MyPDF'
for row, filename in enumerate(filenames, start=1):
with open(filename, 'rb') as f:
pdfReader = PyPDF2.PdfFileReader(f)
count=pdfReader.numPages
pageObj = pdfReader.getPage(0)
mytext = pageObj.extractText()
for i in range(count):
page = pdfReader.getPage(i)
output = []
output = page.extractText()
print(output)
sheet[f'A{row}'].value = '\n'.join(output)
sheet[f'B{row}'].value = filename
wb.save('excel.xlsx')
print('DONE!!')
Per poter estrarre il testo da tanti file pdf e salvarlo su excel, il consiglio che vi chiedo, c'è modo modo di estendere la ricerca a delle sotto directory? ho provato con glob ma senza successo.
Cosa mi consigliereste?