Eccomi qui, provo ad allegare qualche immagine e a chiedervi consiglio.
Qui ho visto che nel file originale gli ID sono numerati male...
Qui invece ho notato che ci sono parecchi nomi nella lista che hanno caratteri diversi.
Io avrei pensato a questi comandi per sistemare l'ID e correggere eventuali nomi errati:
DS$ID[c(1:499)]<- c(1:499)
DS[DS=="S.Paolo"]<- "SAN PAOLO"
DS[DS=="SANPAOLO"]<- "SAN PAOLO"
DS[DS=="SESTO S.GIOVANNI"]<- "SESTO SAN GIOVANNI"
Ho fatto giusto?
Esiste un comando per esaminare il database Raw ed evidenziare già questi errori o devo accorgermene io esaminando il file excel?
Quello che viene richiesto nel presunto esercizio sarebbe questo:
1° step
? Controllo del database
? Analisi descrittive dei dati
Deliverables (materiali da consegnare):
1. statistical analysis plan (a partire dal file “statistical analysis outline”, preparare una scaletta delle analisi descrittive che avete pensato di eseguire dopo aver dato un’occhiata al database)
2. codice
3. vostre considerazioni (errori nel database, come sistemarli e prevenirli, distribuzione dei dati)
2° step
? Analisi inferenziali dei dati
Deliverables (materiali da consegnare)
1. statistical analysis plan (a partire dal file “statistical analysis outline”, preparare una scaletta delle analisi inferenziali che avete pensato di eseguire dopo aver fatto le analisi descrittive sul database)
2. codice
3. vostre considerazioni (quali variabili dipendenti e quali variabili indipendenti, quali modelli di correlazione ipotizzati e perché)
Grazie a tutti in anticipo e scusate se sono niubbo
Fabio