Gamberonee ha scritto:
è un txt che ho estratto da un pdf con pdftotext sempre usando java, è composto da 2 parti che ho unito, diciamo che la prima parte è a colonne allineate( non tutte larghe uguali però) tipo così:
02 aaaaaaa 12:30-15:30 4.5 aaaaaaaaa 450
03 aaaaaaaa 13:30-16:00 3.5 aaaaaa 350
04 aaa 20:30-23:30 3.0 aaaaaaaa 700
la seconda parte invecie le colonne sono sfasate.......e in alcune righe ho degli spazi bianchi perchè mancano i dati.
I dati cambiano sempre a seconda del txt che uso quindi potrebbero esserci file con tutte le righr complete ed altri con dati mancanti....
Purtroppo, così è molto "critico" e non banale. Il fatto che le colonne siano sfasate tra righe differenti, non è un problema particolare. Potrebbe essere un problema il fatto che per una colonna non ci siano dati (o siano tutti/solo spazi).
Sicuramente ti direi, ad occhio, che è bene sfruttare le "espressioni regolari". Cerca di delineare (lo puoi sapere/vedere solo tu) il formato ben generalizzato. Ad esempio: il valore in 4° colonna può avere un "-" davanti (valore negativo)? Le colonne dove come esempio hai messo aaaaaa possono contenere spazi (es. "aaa bbb ccc")? Sono tutte cose da considerare! A quel punto si può scrivere una espressione regolare per matchare l'intera riga e catturare le parti di interesse.
Visto però che come dicevi prima "non sono molto bravo in java", bisogna anche vedere cosa sai sulla gestione delle stringhe, sulle espressioni regolari, ecc...
La scrittura di un xlsx è una questione meno complessa, la si può vedere anche in un secondo momento (e trovi svariati esempi in rete). Il problema grosso ora, per come la vedo io, è di determinare il formato "generalizzato" di una riga.