WEKA-DATA MINING-REUTERS DATA SET

Anonimizzato15399

il 14 ott 2014, 15:10

12 risposte

Anonimizzato15399

Utente anonimizzato

WEKA-DATA MINING-REUTERS DATA SET

14 ott 2014, 15:16

Di seguito vi descrivo il progetto:

Obiettivo del progetto è il confronto tra le diverse tecniche per il Text Mining su due dataset: Reuters 21578 e Cade12.
Di seguito vengono descritte brevemente le caratteristiche dei due dataset.
REUTERS-21578
Il dataset contiene 21578 documenti collezionati dall’agenzia omonima a partire dal 1987 e classificati manualmente dal personale. Le etichette appartengono a 5 diverse categorie (ad es.'people', 'places' 'topics'). Il numero totale di categorie è 672, ma molte sono estremamente rare.
Il dataset nel formato originario è racchiuso in 22 files di 1000 documenti delimitati da tag SGML e può essere scaricato dalla pagina http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html
CADE 12
I documenti appartenenti al dataset Cade12 rappresentano un sottoinsieme di pagine web estratte dalla directory Cade WEB, classificate manualmente da esperti di dominio. Una versione (parzialmente) pre-processata del dataset vi sarà consegnata insieme alla traccia del progetto.
Il Processo di KDD
Nella realizzazione del progetto devono essere coperti tutti gli step per processo di KDD. Di seguito vengono riportate indicazioni e suggerimenti per lo svolgimento di ogni task.
I TASK(Analisi dei dati)
Il task di analisi dei dati dipende dal particolare dataset e mira a comprendere meglio le informazioni
disponibili e a individuarne le parti di maggiore e minore interesse.
REUTERS:
• Comprensione del formato originario. Le informazioni dettagliate sulla struttura del dataset Reuters possono essere trovate nel file README.
• Selezione dei documenti di interesse. Alcuni documenti appartengono a molte categorie, altri ad una sola e alcuni non hanno nessuna categoria associata. E’ di interesse mantenere solo i documenti associati ad almeno una categoria.
• Tra tutte le categorie presenti nel dataset originiario, si vogliono mantenere solo le 10 più grandi. I documenti appartenenti alle altre categorie devono essere raggruppati sotto un’unica categoria.

Qualcuno sa dirmi come faccio a selezionare i documenti di interesse e a mantenere le 10 categorie più grandi?

Vi ringrazio in anticipo

12 Risposte

O
OsvaldoLaviosa
Super Famoso
Iscritto da
apr, 2012
Messaggi:
7553
Re: WEKA-DATA MINING-REUTERS DATA SET
14 ott 2014, 16:08
Benvenuta nel forum.
Allora, piano piano, respiriamo lentamente. IO NON HO CAPITO NIENTE.
Devi costruire/progettare un database? OK, questa è la sezione giusta.
Che cosa è il Text Mining?
Reuters 21578 e Cade12 sono due database? Sono separati e (se non ho travisato tutto il discorso) vorresti metterli insieme?
Tutto il resto del discorso è relativamente complesso, ma non puoi delegare ad altri utenti la loro comprensione (parlo almeno per me), soprattutto se i termini tecnici del tuo campo professionale sono talmente specifici che occorre una traduzione in termini tecnici da programmatore di database (tabelle, campi, suddivisioni, ecc...).
marina.bavasso ha scritto:
REUTERS-21578
Il dataset contiene 21578 documenti collezionati dall’agenzia omonima a partire dal 1987 e classificati manualmente dal personale.
Potresti spiegare come?
marina.bavasso ha scritto:
Le etichette appartengono a 5 diverse categorie (ad es.'people', 'places' 'topics'). Il numero totale di categorie è 672, ma molte sono estremamente rare.
Cosa sono queste "categorie"? Parli di "etichette": ti riferisci a quelle apposte manualmente dal personale? Puoi descrivere tutto più dettagliatamente?
marina.bavasso ha scritto:
Il dataset nel formato originario è racchiuso in 22 files di 1000 documenti
Qua ci intravedo un discorso da incanalare in un database, ma occorre una descrizione più completa.
marina.bavasso ha scritto:
delimitati da tag SGML
Arabo per me.
marina.bavasso ha scritto:
può essere scaricato dalla pagina http://kdd.ics.uci.edu/databases/reute ... 21578.html
Ho scaricato, ma non ho capito da dove devo cominciare e che interpretazione devo dare a tutti quei files.

...Aiuto...mi fermo qui. Non riesco a proseguire la lettura del resto.
/
Anonimizzato15399
Utente anonimizzato
Re: WEKA-DATA MINING-REUTERS DATA SET
14 ott 2014, 16:22
Ok ok....diciamo che in breve hai raggruppato tutte le mie domande...
Cerco di riassumere ciò che intuitivamente ho capito di dover fare.
L'Obiettivo del progetto didattico è la realizzazione di un processo di KDD(Knowledge Discovery in Databases) su un insieme di dati.
L'insieme di dati su cui devo lavorare è il data set Reuters-21578.
Questo dataset è composto da diversi file ognuno dei quali contiene delle informazioni.
Io dovrei (ed è proprio questo che non so come fare), prendere tutti questi file, individuare tutte le categorie di appartenenza (?categorie che non so come individuare), tra queste prendere le prime 10 e poi iniziare il data mining vero e proprio con weka. Mi dispiace se non sono stata abbastanza chiara ma purtroppo ho scritto in questo forum proprio perchè non ho le idee chiarissime. Spero che qualcuno possa chiarire i miei dubbi e darmi delle linee guida sulla realizzazione di questo progetto.
O
OsvaldoLaviosa
Super Famoso
Iscritto da
apr, 2012
Messaggi:
7553
Re: WEKA-DATA MINING-REUTERS DATA SET
14 ott 2014, 16:50
marina.bavasso ha scritto:
Obiettivo del progetto didattico è la realizzazione di un processo di KDD(Knowledge Discovery in Databases) su un insieme di dati.
Detto così per me è ancora poco comprensibile. Provo a tradurre (ammesso che abbia capito). Bisogna costruire un DATABASE e lavorarci sopra con una serie di operazioni di ricerca, ad esempio una serie di query (termine tecnico da database).
marina.bavasso ha scritto:
L'insieme di dati su cui devo lavorare è il data set Reuters-21578
L'inizio del tuo lavoro parte da qui. Ma allora perchè hai parlato anche di CADE12?
marina.bavasso ha scritto:
Questo dataset è composto da diversi file ognuno dei quali contiene delle informazioni.
Io dovrei (ed è proprio questo che non so come fare), prendere tutti questi file, individuare tutte le categorie di appartenenza (?categorie che non so come individuare),
Botte piena e moglie ubriaca? Secondo me ci sono almeno 2 criteri per individuare le CATEGORIE di qualsiasi cosa si voglia parlare, che sia biologia, libri da inscatolare, files da raggruppare...:
A) Un manuale di accompagnamento (già preesistente) che spiega come fare e al quale attenersi il più scrupolosamente possibile.
B) Inventi tu un modo secondo il quale, bene o male, ti ci ritrovi sempre e comunque.
Di cosa parlano questi files? Se sono davvero talmente strani e indecifrabili tali da dover partire da zero...non so, un primo passo potrebbe essere di fare una ricerca su internet sulla estensione di ognuno di loro.
marina.bavasso ha scritto:
tra queste prendere le prime 10 e poi iniziare il data mining vero e proprio con weka
Perchè devi prendere le prime 10? Si tratta di un lavoro a campione? È solo un metodo di lavoro, come per dire oggi lavoro su 10, domani su altri 10 ecc...?
Cosa è il data mining? In cosa consiste?
Cosa è WEKA?
/
Anonimizzato15399
Utente anonimizzato
Re: WEKA-DATA MINING-REUTERS DATA SET
14 ott 2014, 17:03
Scusami per la franchezza ma se mi chiedi cos'è il data mining o weka vuol dire che ho proprio sbagliato forum o comunque sezione del forum.
Io speravo di trovare aiuto da persone che già erano a conoscenza di questi argomenti e che magari già si erano imbattuti in operazioni di questo genere.
Per tanto mi scuso e magari cerco in qualche altro forum o sezione.
Ti ringrazio comunque per il tempo che mi hai dedicato e per le informazioni che sei riuscito comunque a darmi.
/
Anonimizzato11767
Utente anonimizzato
Re: WEKA-DATA MINING-REUTERS DATA SET
14 ott 2014, 17:14
OsvaldoLaviosa ha scritto:
Cosa è il data mining? In cosa consiste?
Cosa è WEKA?
Bastava fare una ricerca!

http://it.wikipedia.org/wiki/Data_minin
http://it.wikipedia.org/wiki/Wek
/
Anonimizzato15399
Utente anonimizzato
Re: WEKA-DATA MINING-REUTERS DATA SET
14 ott 2014, 17:22
Capisco ma purtroppo a me non servono queste informazioni in modo teorico ma bensì pratico.
E Purtroppo on line non sono riuscita a trovare abbastanza informazioni a riguardo.
O
OsvaldoLaviosa
Super Famoso
Iscritto da
apr, 2012
Messaggi:
7553
Re: WEKA-DATA MINING-REUTERS DATA SET
14 ott 2014, 17:26
gibra ha scritto:
OsvaldoLaviosa ha scritto:
Cosa è il data mining? In cosa consiste?
Cosa è WEKA?
Bastava fare una ricerca!

http://it.wikipedia.org/wiki/Data_minin
http://it.wikipedia.org/wiki/Wek
OK gibra, ho dato un'occhiata a quei due link. Ma quanto aiuta nel prosieguo della discussione in termini di progettazione database?
Personalmente progettare un database con quelle prospettive, non mi sento affatto all'altezza. Ma qualcosa mi dice che mancano innanzitutto le basi per un discorso che possa andare avanti all'interno di questa sezione del forum.
M
migliorabile
Super Famoso
Iscritto da
apr, 2013
Messaggi:
6143
Re: WEKA-DATA MINING-REUTERS DATA SET
14 ott 2014, 18:21
marina.bavasso ha scritto:
Di seguito vi descrivo il progetto:

Obiettivo del progetto è il confronto tra le diverse tecniche per il Text Mining su due dataset: Reuters 21578 e Cade12.
Di seguito vengono descritte brevemente le caratteristiche dei due dataset.
REUTERS-21578
Il dataset contiene 21578 documenti collezionati dall’agenzia omonima a partire dal 1987 e classificati manualmente dal personale. Le etichette appartengono a 5 diverse categorie (ad es.'people', 'places' 'topics'). Il numero totale di categorie è 672, ma molte sono estremamente rare.
Il dataset nel formato originario è racchiuso in 22 files di 1000 documenti delimitati da tag SGML e può essere scaricato dalla pagina http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html
CADE 12
I documenti appartenenti al dataset Cade12 rappresentano un sottoinsieme di pagine web estratte dalla directory Cade WEB, classificate manualmente da esperti di dominio. Una versione (parzialmente) pre-processata del dataset vi sarà consegnata insieme alla traccia del progetto.
Il Processo di KDD
Nella realizzazione del progetto devono essere coperti tutti gli step per processo di KDD. Di seguito vengono riportate indicazioni e suggerimenti per lo svolgimento di ogni task.
I TASK(Analisi dei dati)
Il task di analisi dei dati dipende dal particolare dataset e mira a comprendere meglio le informazioni
disponibili e a individuarne le parti di maggiore e minore interesse.
REUTERS:
• Comprensione del formato originario. Le informazioni dettagliate sulla struttura del dataset Reuters possono essere trovate nel file README.
• Selezione dei documenti di interesse. Alcuni documenti appartengono a molte categorie, altri ad una sola e alcuni non hanno nessuna categoria associata. E’ di interesse mantenere solo i documenti associati ad almeno una categoria.
• Tra tutte le categorie presenti nel dataset originiario, si vogliono mantenere solo le 10 più grandi. I documenti appartenenti alle altre categorie devono essere raggruppati sotto un’unica categoria.

Qualcuno sa dirmi come faccio a selezionare i documenti di interesse e a mantenere le 10 categorie più grandi?

Vi ringrazio in anticipo
Direi che la cosa e' abbastanza semplice.

1) innanzi tutto si puo' dire che come questi documenti sono stati generati ( Text Mining ) non e' un problema.
2) per Cade12, vabbe, ci sara' un po' di elaborazione da fare, con librerie o software adeguati (appunto con Weka), ma anche questa e' una cosa che puo' essere lasciata al momento in sospeso

L'analisi del database REUTERS e' abbastanza banale:

il formato usato e' SGML, la versione generale dell'XML.
Ogni file contiene una concatenazione di documenti XML.

Ora, questo e' un documento SGML valido, ma non e' valido dal punto di vista XML, poiche' un documento XML prevede l'esistenza di un'unica root.

Da una prima analisi, comunque, non ho visto la presenza di tag strani o una struttura che non puo' essere convertita in un formato XML in modo diretto.

Puoi processare il file SGML in due modi:

1) spezzarlo nei singoli documenti, compresi tra i tag <REUTERS> e </REUTERS> (forse la scelta migliore, ma implementativamente un po' piu' complicata)

2) aggiungere una stringa in testa ed in coda all'intero documento (ad esempio <REUTERSROOT> e </REUTERSROOT>) in modo da trasformarlo in un documento XML valido.

3) a questo punto, con una normale libreria che supporta il parsing XML e la sintassi XPath puoi fare tutte le selezioni che ti servono.

Diciamo che, essendo tanti documenti (20.000+), potrebbe valere la pena utilizzare un database, ma database convenzionali (cioe' che usano l'SQL) che supportano colonne di tipo XML e query mediante XPath o XQuery non ce ne sono molti: Oracle, SQLServer, DB2. Tutti bestioni che richiedono un pc ragionevolmente carrozzato per poter funzionare (vabbe, si puo' fare anche in una virtual machine, ma serve un PC con almeno 8GB di ram)

Una soluzione migliore e' sicuramente l'utilizzo di un database NonSQL, ma mi sa che sei alle prime armi e quindi potrebbe essere complicato.

Forse la soluzione piu' semplice, anche se inefficiente, ma potrebbe non essere un problema, e' salvare i singoli documenti su filesystem (quelli tra <REUTERS> e </REUTERS>), e poi leggerli uno alla volta per estrarre le informazioni del caso.

E le informazioni sono abbastanza banali da estrarre: basta accedere al tag XML o all'attributo XML corretto.
Per le categorie e' <TOPIC>!

1) parsi il file con il parser XML
2) estrai le informazioni che ti servono mediante XPath
3) fai le tue statistiche

Finito!

Ora, se non sai che cosa e' l'XML, l'XPath, il DOM e un parser XML/DOM, sei nei guai

Nulla di complicato, ovviamente: dovrai fare un po' di pratica prima, con qualche programmino di prova, per prenderci la mano

Poiche' sei nella sezione Database non so che linguaggi di programmazione conosci, ma parlando di Weka, e' plausibile sia Java.

Se e' Java:

e dulcis in fundo:
/
Anonimizzato15399
Utente anonimizzato
Re: WEKA-DATA MINING-REUTERS DATA SET
15 ott 2014, 09:59
Ti ringrazio infinitamente.
Comunque va benissimo java come linguaggio di programmazione e mi metterò subito all'opera per riuscire a capire bene come fare tutti i passaggi. Grazie grazie grazie
/
Anonimizzato15399
Utente anonimizzato
Re: WEKA-DATA MINING-REUTERS DATA SET
15 ott 2014, 12:19
Ok vorrei chiederti se possibile delle altre informazioni per convertire il file sgml in xml.
Vorrei procedere con la prima soluzione che hai proposto cioè:
1) spezzarlo nei singoli documenti, compresi tra i tag <REUTERS> e </REUTERS> (forse la scelta migliore, ma implementativamente un po' piu' complicata)
Ho cercato un pò on-line e ho trovato SgmlReader version 1.7 dici che potrebbe andare bene?
o in alternativa potrei fare un programma java che legge i file ad uno ad uno e realizza dei file xml contenenti tutte le informazioni all'interno dei tag <REUTERS> e </REUTERS>.
Mi potresti dare dei consigli in merito?...sapresti darmi delle linee guida sull'implementazione di questo passaggio?....
M
migliorabile
Super Famoso
Iscritto da
apr, 2013
Messaggi:
6143
Re: WEKA-DATA MINING-REUTERS DATA SET
15 ott 2014, 13:38
Segui sempre la strada piu' semplice:

spezzare il file leggendolo riga per riga, oppure anche come un'unica gigantesca stringa, e' abbastanza semplice.

Le librerie hanno il grosso diffetto che se non sono famose (cioe usate da moltissime persone), possono contenere dei bug: un programmatore esperto ci puo' anche convivere, nel senso che aggiusta il bug, ma visto che sei alle prime armi, direi, meglio evitare.
/
Anonimizzato15399
Utente anonimizzato
Re: WEKA-DATA MINING-REUTERS DATA SET
15 ott 2014, 15:01
Ti ringrazio nuovamente per la risposta...

Devi accedere o registrarti per scrivere nel forum

12 risposte