No infatti, mi sono subito reso conto della stupidata detta. Ora che ho cominciato il report dei vari siti, mi sono trovato un nuovo problema: il rilevamento di alcune pagine bianche.
Infatti nel 99% dei casi le PA, per illudere la Bussola della Trasparenza, scrivono all'interno delle pagine frasi come "In costruzione", "In aggiornamento", ecc; io riesco tranquillamente a rilevarle tutte. Nell'1% dei casi però il contenuto del <div> in cui andrebbe inserito il testo è completamente vuoto!
Ho pensato a più soluzioni:
- selezionare i vari <p>, se la lunghezza è 0 mi trovo in quel caso (ma in alcuni siti nonostante vi sia del testo vengono inseriti tag <p> vuoti, quindi non va bene questa soluzione);
-trovare i <p> lunghi 0 e contemporaneamente verificare l'assenza di tag <a>, ma come sopra si può eludere facilmente;
- contare il numero di tag figli <p> di <div>: se è 1 ed è lungo 0, probabilmente la pagina è bianca.
Credo che il terzo punto si avvicini di più alla soluzione, che ne dite?