Al computer sta' tantissimamente sui cabasisi, come diceva il compianto Pasquano, le cose fatte male.
Nel senso: si puo' fare tutto MA ci deve essere una regolarita' che permetta di identificare le parti del documento di interesse.
La pulizia dei dati e' una delle fasi FONDAMENTALI, la piu' rognosa e che fa perdere piu' tempo, in ogni applicazione che abbia a che fare con qualunque tipo di dati.
Quindi, SE vuoi separare il documento in ARTICOLI, OGNI articolo DEVE essere identificabile: DEVE essere chiaro DOVE inizia e DOVE finisce.
Hai DUE possibilita':
1) non ti interessa, e quindi anche se UN articolo in realta' sono due o piu' concatenati, te ne fai una ragione,
2) trovi un modo, eventualmente a mano, per NORMALIZZARE la situazione.
Non ci sono modi MIRACOLOSI! E non c'e' MAGO che tenga!
Il computer e' ASSOLUTAMENTE STUPIDO, ma lo e' milioni di volte piu' velocemente di un essere umano