Normalmente si parte proprio da zero, basta poco (al max un'oretta per tipologia di file).
anche meno, se hai un minimo di esperienza.
se utilizzi windows, ed hai un budget modesto, ti consiglio abby finereader 12 professional (proprio la versione 12, perchè c'è il finecmd).
le versioni più vecchie usano meccanismi diversi (molto più brigosi, cioè le cartelle hot), mentre le nuove... non le sto usando
parsa bene, in modalità multithread (cosa non scontata) e soprattutto puoi lanciarlo "a file" (cosa indispensabile per OCR massivi, poniamo di 5.000 pagine, che altrimenti spesso saturano lo spazio temp, o vanno in crash eccetera).
Fondamentale infatti prevedere la possibilità che l'OCR fallisca per 10.000 motivi, ed è banale in questo caso (basta controllare che il file .txt non esiste, come nell'esempio che ti metto)
22/05/2017 16:16:06 Eseguo OCR 000032 c:\ocr_pdf\1313202371401534.pdf => c:\ocr_pdf\1313202371401534.txt
22/05/2017 16:16:39 OK carico testo OCR c:\ocr_pdf\1313202371401534.txt
22/05/2017 16:16:39 Eseguo OCR 000033 c:\ocr_pdf\1313662361161377.pdf => c:\ocr_pdf\1313662361161377.txt
22/05/2017 16:17:24 OK carico testo OCR c:\ocr_pdf\1313662361161377.txt
22/05/2017 16:17:24 Eseguo OCR 000034 c:\ocr_pdf\1326340068699892.pdf => c:\ocr_pdf\1326340068699892.txt
22/05/2017 16:19:16 ERRORE non esiste c:\ocr_pdf\1326340068699892.txt
22/05/2017 16:19:16 Eseguo OCR 000035 c:\ocr_pdf\1334289190183255.pdf => c:\ocr_pdf\1334289190183255.txt
ancor meglio se killi i processi abby prima di lanciare un OCR (utilissimo se crasha e rimane "stuck")
ce ne sono anche altri (di buoni ocr), ma ormai mi sono standardizzato su quest'ultimo
operativamente lancia l'OCR, aspetta che termini (waitexecute), e fagli scrivere un file di testo (un banale TXT).
poi carichi quest'ultimo, e lo parsi come più ti aggrada (io uso delphi, ma questione di gusti), e poi alimenta che so un DB e poi... quello che ti pare
personalmente uso una macchina virtuale windows dedicata che fa quello (cioè l'OCR) senza disturbare gli operatori e dover dedicare una macchina Windows fisica.
tesseract (versione 4 beta) è buono e giusto, ma dipende pesantemente dalla qualità dell'input, e non parsa i PDF (devi prima convertirli in TIFF ad esempio con imagemagick), e in generale è lento, molto lento, e in generale peggiore di abby.
lo uso essenzialmente da linux.