Penso che il problema sia quello descritto in questo articolo:
https://stackoverflow.com/questions/29633504/embedded-fonts-in-pdf-copy-and-paste-problems
in pratica il file ha dei fonts personalizzati dove sono definiti solo i caratteri utilizzati nel file e mappati in modo diverso.
Ad esempio, la lettera A del font personalizzato non è codificata come codice Ascii 65 ma con un valore diverso.
Da quello che ho capito non esiste un sistema automatico per riconvertire il testo in ascii, anche perché molto probabilmente il font embedded potrebbe essere diverso per ogni file.
Credo che la soluzione migliore si quella suggerita anche da patel:
patel ha scritto:
Una possibilità potrebbe essere convertirlo in immagine e scansionarlo con OCR