Salve ragazzi,sto facendo un progetto sull'estrazione di un pdf. ho scaricato la libreria tesserect. qualcuno mi potrebbe aiutare ad adattare nel ciclo for la libreria tesseract ? grazie mille
package it.silicondev.pdf;
import java.io.File;
import java.io.FilenameFilter;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException;
import org.apache.pdfbox.text.PDFTextStripper;
public class ReaderPdf {
private static String PATH = System.getProperty("propertyPath");
public ReaderPdf() {
}
public static void main(String[] args) throws InvalidPasswordException, IOException {
new ReaderPdf().leggi();
}
public void leggi(/*String fileIn, String stringa*/) throws InvalidPasswordException, IOException {
File cartella = new File(PATH);
File[] lista = cartella.listFiles(new FilenameFilter() {
public boolean accept(File dir, String name) {
return name.endsWith(".pdf");
}
});
List<File> listaFile = new ArrayList<File>();
for (File file : lista) {
String nome = file.getName();
PDDocument doc = PDDocument.load(file);
PDFTextStripper str = new PDFTextStripper();
String testo = str.getText(doc);
System.out.println(testo);
listaFile.add(file);
doc.close();
}
System.out.println(listaFile.size());
}
}