Ciao,
per una tesi riguardante la diagnosi dell'Alzheimer mediante l'analisi del parlato necessito di un training set formato da coppie di "espressioni" (utterances) in italiano con le seguenti caratteristiche:
- Devono essere coerenti tra loro (ad esempio: <Che tempo fa oggi?> <Oggi fa bello.>);
- Devono essere scritte in italiano colloquiale (se poi riuscite ad emulare il linguaggio parlato degli 80enni tanto meglio);
- Possono riguardare qualsiasi argomento non troppo specialistico;
- Non dovrebbero contenere parole in altre lingue o sigle (a parte eventualmente quelle ormai di uso comune);
- Non dovrebbero contenere parole troppo "rare";
- Ogni utterance può essere:
* Una frase;
* Una porzione di frase (interrotta in qualsiasi punto) (esempio: Mi chiamo);
* Più frasi coerenti tra loro (di cui la prima e l'ultima possono essere parziali) (esempio: svegliato, poi ho fatto colazione. Alle 9 sono uscito. Più tardi ho);
Ho creato una pagina web ("
http://alzthesis.altervista.org") dove chi è interessato a partecipare potrà inserire le espressioni, mentre all'indirizzo "
http://alzthesis.altervista.org/training.tx" sarà possibile vedere i dati già inseriti (nel browser i caratteri accentati vengono visualizzati male, ma nel file sono giusti).
Sperando di trovare qualche volontario, vi auguro buona giornata.
P.S.: @Toki: non è un'offerta di lavoro per cui spero che non violi il regolamento. E' inoltre possibile "fissare" il topic in cima all'elenco per qualche settimana?