Ciao mi è venuto in mente un programminoOCR che ho fatto molto tempo fà e del quale ho perso i sorgenti(c#),non voglio farlo rifare a te ma ti dico cosa faceva magari può essere uno spunto ,usavo la libreria tessnet per utilizzare il motore di ricoscimento letterale tesseract ,il pratica l'applicazione permetteva di comandare lo scanner ,acquisire il testo da un immagine e salvarlo in un file xml che "faceva da db" o meglio dava persistenza all'applicazione ,questo perchè per poche centinaia/migliaia di immagini acquisite andava bene anche l'xml e mi evitava di distribuire anche un file di database,l'applicazione permetteva di cercare tra i risultati ritornandoli in una datagrid,ad ogni riga della datagrid ritornata corrispondeva un documento che conteneva la stringa cercata ,cliccando sulla riga aprivi il documento originale ,avevo aggiunto una funzione che monitorava una directory in modo che l'utente potesse scegliere una dir e fare scannerizzare le immagini semplicemente aggiungendo i relativi file alla dir monitorata ad es c:\OCR\DOCS