[Java] Parsing pagina web

di il
16 risposte

16 Risposte - Pagina 2

  • Re: [Java] Parsing pagina web

    No infatti, mi sono subito reso conto della stupidata detta. Ora che ho cominciato il report dei vari siti, mi sono trovato un nuovo problema: il rilevamento di alcune pagine bianche.

    Infatti nel 99% dei casi le PA, per illudere la Bussola della Trasparenza, scrivono all'interno delle pagine frasi come "In costruzione", "In aggiornamento", ecc; io riesco tranquillamente a rilevarle tutte. Nell'1% dei casi però il contenuto del <div> in cui andrebbe inserito il testo è completamente vuoto!

    Ho pensato a più soluzioni:
    - selezionare i vari <p>, se la lunghezza è 0 mi trovo in quel caso (ma in alcuni siti nonostante vi sia del testo vengono inseriti tag <p> vuoti, quindi non va bene questa soluzione);
    -trovare i <p> lunghi 0 e contemporaneamente verificare l'assenza di tag <a>, ma come sopra si può eludere facilmente;
    - contare il numero di tag figli <p> di <div>: se è 1 ed è lungo 0, probabilmente la pagina è bianca.

    Credo che il terzo punto si avvicini di più alla soluzione, che ne dite?
  • Re: [Java] Parsing pagina web

    Beh si, sta a te valutare la migliore soluzione che si adatta alla tue esigenze.
Devi accedere o registrarti per scrivere nel forum
16 risposte