morellik ha scritto:
Il risultato delle query sono in formato String che paiono corretti dato che sia nella finestra di output di IntelliJ che su terminale i caratteri vengono stampati correttamente.
La codifica delle pagine web e' content="text/html; charset=UTF-8"
Allora si presuppone che perlomeno fin qui sia tutto corretto, sia dal server, dalla pagina e dalla elaborazione di jsoup.
morellik ha scritto:
All'inizio usavo semplicemente FileWriter perche' su Linux i caratteri sia a schermo che nel file di testo erano corretti. Facendolo girare su Windows i caratteri tipografici e le accentate non venivano riconosciute (ne' con more, ne' con NotePad, ne' con WordPad).
Allora ho provato con OutputStreamWriter provando a modificare il charset (p.e. ISO-8859-1), ma con scarsi risultato. Come riportato in precedenza, alcuni caratteri tipografici non vengono comunque interpretati da Windows (e con ISO-8850-1 neanche da Linux).
Ma dipende quali caratteri devi trattare! ISO-8859-1 è molto ristretto rispetto al Unicode, dato che gli ISO-8859-xx sono single-byte quindi max 256 caratteri.
Se ad esempio dovessi rappresentare il carattere del per mille ‰ in ISO-8859-1 semplicemente non c'è, non è rappresentabile. Quindi o scegli un altro charset oppure fai qualche trasformazione di caratteri lato java prima di scrivere.
E poi comunque, ripeto, dipende anche dal editor e font usati. Anche se scrivessi su file tutto corretto ma poi apri il file con un editor di testo che usa ... che so, un font Courier limitato che non ha i
glyph (la figura di un carattere) per i caratteri particolari che sono stati usati, idem potresti vedere un blocchetto nero o altro.