WEKA-DATA MINING-REUTERS DATA SET

di il
12 risposte

WEKA-DATA MINING-REUTERS DATA SET

Di seguito vi descrivo il progetto:

Obiettivo del progetto è il confronto tra le diverse tecniche per il Text Mining su due dataset: Reuters 21578 e Cade12.
Di seguito vengono descritte brevemente le caratteristiche dei due dataset.
REUTERS-21578
Il dataset contiene 21578 documenti collezionati dall’agenzia omonima a partire dal 1987 e classificati manualmente dal personale. Le etichette appartengono a 5 diverse categorie (ad es.'people', 'places' 'topics'). Il numero totale di categorie è 672, ma molte sono estremamente rare.
Il dataset nel formato originario è racchiuso in 22 files di 1000 documenti delimitati da tag SGML e può essere scaricato dalla pagina http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html
CADE 12
I documenti appartenenti al dataset Cade12 rappresentano un sottoinsieme di pagine web estratte dalla directory Cade WEB, classificate manualmente da esperti di dominio. Una versione (parzialmente) pre-processata del dataset vi sarà consegnata insieme alla traccia del progetto.
Il Processo di KDD
Nella realizzazione del progetto devono essere coperti tutti gli step per processo di KDD. Di seguito vengono riportate indicazioni e suggerimenti per lo svolgimento di ogni task.
I TASK(Analisi dei dati)
Il task di analisi dei dati dipende dal particolare dataset e mira a comprendere meglio le informazioni
disponibili e a individuarne le parti di maggiore e minore interesse.
REUTERS:
• Comprensione del formato originario. Le informazioni dettagliate sulla struttura del dataset Reuters possono essere trovate nel file README.
• Selezione dei documenti di interesse. Alcuni documenti appartengono a molte categorie, altri ad una sola e alcuni non hanno nessuna categoria associata. E’ di interesse mantenere solo i documenti associati ad almeno una categoria.
• Tra tutte le categorie presenti nel dataset originiario, si vogliono mantenere solo le 10 più grandi. I documenti appartenenti alle altre categorie devono essere raggruppati sotto un’unica categoria.

Qualcuno sa dirmi come faccio a selezionare i documenti di interesse e a mantenere le 10 categorie più grandi?

Vi ringrazio in anticipo

12 Risposte

  • Re: WEKA-DATA MINING-REUTERS DATA SET

    Benvenuta nel forum.
    Allora, piano piano, respiriamo lentamente. IO NON HO CAPITO NIENTE.
    Devi costruire/progettare un database? OK, questa è la sezione giusta.
    Che cosa è il Text Mining?
    Reuters 21578 e Cade12 sono due database? Sono separati e (se non ho travisato tutto il discorso) vorresti metterli insieme?
    Tutto il resto del discorso è relativamente complesso, ma non puoi delegare ad altri utenti la loro comprensione (parlo almeno per me), soprattutto se i termini tecnici del tuo campo professionale sono talmente specifici che occorre una traduzione in termini tecnici da programmatore di database (tabelle, campi, suddivisioni, ecc...).

    marina.bavasso ha scritto:


    REUTERS-21578
    Il dataset contiene 21578 documenti collezionati dall’agenzia omonima a partire dal 1987 e classificati manualmente dal personale.
    Potresti spiegare come?

    marina.bavasso ha scritto:


    Le etichette appartengono a 5 diverse categorie (ad es.'people', 'places' 'topics'). Il numero totale di categorie è 672, ma molte sono estremamente rare.
    Cosa sono queste "categorie"? Parli di "etichette": ti riferisci a quelle apposte manualmente dal personale? Puoi descrivere tutto più dettagliatamente?

    marina.bavasso ha scritto:


    Il dataset nel formato originario è racchiuso in 22 files di 1000 documenti
    Qua ci intravedo un discorso da incanalare in un database, ma occorre una descrizione più completa.

    marina.bavasso ha scritto:


    delimitati da tag SGML
    Arabo per me.

    marina.bavasso ha scritto:


    può essere scaricato dalla pagina http://kdd.ics.uci.edu/databases/reute ... 21578.html
    Ho scaricato, ma non ho capito da dove devo cominciare e che interpretazione devo dare a tutti quei files.

    ...Aiuto...mi fermo qui. Non riesco a proseguire la lettura del resto.
  • Re: WEKA-DATA MINING-REUTERS DATA SET

    Ok ok....diciamo che in breve hai raggruppato tutte le mie domande...
    Cerco di riassumere ciò che intuitivamente ho capito di dover fare.
    L'Obiettivo del progetto didattico è la realizzazione di un processo di KDD(Knowledge Discovery in Databases) su un insieme di dati.
    L'insieme di dati su cui devo lavorare è il data set Reuters-21578.
    Questo dataset è composto da diversi file ognuno dei quali contiene delle informazioni.
    Io dovrei (ed è proprio questo che non so come fare), prendere tutti questi file, individuare tutte le categorie di appartenenza (?categorie che non so come individuare), tra queste prendere le prime 10 e poi iniziare il data mining vero e proprio con weka. Mi dispiace se non sono stata abbastanza chiara ma purtroppo ho scritto in questo forum proprio perchè non ho le idee chiarissime. Spero che qualcuno possa chiarire i miei dubbi e darmi delle linee guida sulla realizzazione di questo progetto.
  • Re: WEKA-DATA MINING-REUTERS DATA SET

    marina.bavasso ha scritto:


    Obiettivo del progetto didattico è la realizzazione di un processo di KDD(Knowledge Discovery in Databases) su un insieme di dati.
    Detto così per me è ancora poco comprensibile. Provo a tradurre (ammesso che abbia capito). Bisogna costruire un DATABASE e lavorarci sopra con una serie di operazioni di ricerca, ad esempio una serie di query (termine tecnico da database).

    marina.bavasso ha scritto:


    L'insieme di dati su cui devo lavorare è il data set Reuters-21578
    L'inizio del tuo lavoro parte da qui. Ma allora perchè hai parlato anche di CADE12?

    marina.bavasso ha scritto:


    Questo dataset è composto da diversi file ognuno dei quali contiene delle informazioni.
    Io dovrei (ed è proprio questo che non so come fare), prendere tutti questi file, individuare tutte le categorie di appartenenza (?categorie che non so come individuare),
    Botte piena e moglie ubriaca? Secondo me ci sono almeno 2 criteri per individuare le CATEGORIE di qualsiasi cosa si voglia parlare, che sia biologia, libri da inscatolare, files da raggruppare...:
    A) Un manuale di accompagnamento (già preesistente) che spiega come fare e al quale attenersi il più scrupolosamente possibile.
    B) Inventi tu un modo secondo il quale, bene o male, ti ci ritrovi sempre e comunque.
    Di cosa parlano questi files? Se sono davvero talmente strani e indecifrabili tali da dover partire da zero...non so, un primo passo potrebbe essere di fare una ricerca su internet sulla estensione di ognuno di loro.

    marina.bavasso ha scritto:


    tra queste prendere le prime 10 e poi iniziare il data mining vero e proprio con weka
    Perchè devi prendere le prime 10? Si tratta di un lavoro a campione? È solo un metodo di lavoro, come per dire oggi lavoro su 10, domani su altri 10 ecc...?
    Cosa è il data mining? In cosa consiste?
    Cosa è WEKA?
  • Re: WEKA-DATA MINING-REUTERS DATA SET

    Scusami per la franchezza ma se mi chiedi cos'è il data mining o weka vuol dire che ho proprio sbagliato forum o comunque sezione del forum.
    Io speravo di trovare aiuto da persone che già erano a conoscenza di questi argomenti e che magari già si erano imbattuti in operazioni di questo genere.
    Per tanto mi scuso e magari cerco in qualche altro forum o sezione.
    Ti ringrazio comunque per il tempo che mi hai dedicato e per le informazioni che sei riuscito comunque a darmi.
  • Re: WEKA-DATA MINING-REUTERS DATA SET

    OsvaldoLaviosa ha scritto:


    Cosa è il data mining? In cosa consiste?
    Cosa è WEKA?
    Bastava fare una ricerca!

    http://it.wikipedia.org/wiki/Data_minin
    http://it.wikipedia.org/wiki/Wek
  • Re: WEKA-DATA MINING-REUTERS DATA SET

    Capisco ma purtroppo a me non servono queste informazioni in modo teorico ma bensì pratico.
    E Purtroppo on line non sono riuscita a trovare abbastanza informazioni a riguardo.
  • Re: WEKA-DATA MINING-REUTERS DATA SET

    gibra ha scritto:


    OsvaldoLaviosa ha scritto:


    Cosa è il data mining? In cosa consiste?
    Cosa è WEKA?
    Bastava fare una ricerca!

    http://it.wikipedia.org/wiki/Data_minin
    http://it.wikipedia.org/wiki/Wek
    OK gibra, ho dato un'occhiata a quei due link. Ma quanto aiuta nel prosieguo della discussione in termini di progettazione database?
    Personalmente progettare un database con quelle prospettive, non mi sento affatto all'altezza. Ma qualcosa mi dice che mancano innanzitutto le basi per un discorso che possa andare avanti all'interno di questa sezione del forum.
  • Re: WEKA-DATA MINING-REUTERS DATA SET

    marina.bavasso ha scritto:


    Di seguito vi descrivo il progetto:

    Obiettivo del progetto è il confronto tra le diverse tecniche per il Text Mining su due dataset: Reuters 21578 e Cade12.
    Di seguito vengono descritte brevemente le caratteristiche dei due dataset.
    REUTERS-21578
    Il dataset contiene 21578 documenti collezionati dall’agenzia omonima a partire dal 1987 e classificati manualmente dal personale. Le etichette appartengono a 5 diverse categorie (ad es.'people', 'places' 'topics'). Il numero totale di categorie è 672, ma molte sono estremamente rare.
    Il dataset nel formato originario è racchiuso in 22 files di 1000 documenti delimitati da tag SGML e può essere scaricato dalla pagina http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html
    CADE 12
    I documenti appartenenti al dataset Cade12 rappresentano un sottoinsieme di pagine web estratte dalla directory Cade WEB, classificate manualmente da esperti di dominio. Una versione (parzialmente) pre-processata del dataset vi sarà consegnata insieme alla traccia del progetto.
    Il Processo di KDD
    Nella realizzazione del progetto devono essere coperti tutti gli step per processo di KDD. Di seguito vengono riportate indicazioni e suggerimenti per lo svolgimento di ogni task.
    I TASK(Analisi dei dati)
    Il task di analisi dei dati dipende dal particolare dataset e mira a comprendere meglio le informazioni
    disponibili e a individuarne le parti di maggiore e minore interesse.
    REUTERS:
    • Comprensione del formato originario. Le informazioni dettagliate sulla struttura del dataset Reuters possono essere trovate nel file README.
    • Selezione dei documenti di interesse. Alcuni documenti appartengono a molte categorie, altri ad una sola e alcuni non hanno nessuna categoria associata. E’ di interesse mantenere solo i documenti associati ad almeno una categoria.
    • Tra tutte le categorie presenti nel dataset originiario, si vogliono mantenere solo le 10 più grandi. I documenti appartenenti alle altre categorie devono essere raggruppati sotto un’unica categoria.

    Qualcuno sa dirmi come faccio a selezionare i documenti di interesse e a mantenere le 10 categorie più grandi?

    Vi ringrazio in anticipo
    Direi che la cosa e' abbastanza semplice.

    1) innanzi tutto si puo' dire che come questi documenti sono stati generati ( Text Mining ) non e' un problema.
    2) per Cade12, vabbe, ci sara' un po' di elaborazione da fare, con librerie o software adeguati (appunto con Weka), ma anche questa e' una cosa che puo' essere lasciata al momento in sospeso


    L'analisi del database REUTERS e' abbastanza banale:

    il formato usato e' SGML, la versione generale dell'XML.
    Ogni file contiene una concatenazione di documenti XML.

    Ora, questo e' un documento SGML valido, ma non e' valido dal punto di vista XML, poiche' un documento XML prevede l'esistenza di un'unica root.

    Da una prima analisi, comunque, non ho visto la presenza di tag strani o una struttura che non puo' essere convertita in un formato XML in modo diretto.

    Puoi processare il file SGML in due modi:

    1) spezzarlo nei singoli documenti, compresi tra i tag <REUTERS> e </REUTERS> (forse la scelta migliore, ma implementativamente un po' piu' complicata)

    2) aggiungere una stringa in testa ed in coda all'intero documento (ad esempio <REUTERSROOT> e </REUTERSROOT>) in modo da trasformarlo in un documento XML valido.

    3) a questo punto, con una normale libreria che supporta il parsing XML e la sintassi XPath puoi fare tutte le selezioni che ti servono.

    Diciamo che, essendo tanti documenti (20.000+), potrebbe valere la pena utilizzare un database, ma database convenzionali (cioe' che usano l'SQL) che supportano colonne di tipo XML e query mediante XPath o XQuery non ce ne sono molti: Oracle, SQLServer, DB2. Tutti bestioni che richiedono un pc ragionevolmente carrozzato per poter funzionare (vabbe, si puo' fare anche in una virtual machine, ma serve un PC con almeno 8GB di ram)

    Una soluzione migliore e' sicuramente l'utilizzo di un database NonSQL, ma mi sa che sei alle prime armi e quindi potrebbe essere complicato.

    Forse la soluzione piu' semplice, anche se inefficiente, ma potrebbe non essere un problema, e' salvare i singoli documenti su filesystem (quelli tra <REUTERS> e </REUTERS>), e poi leggerli uno alla volta per estrarre le informazioni del caso.

    E le informazioni sono abbastanza banali da estrarre: basta accedere al tag XML o all'attributo XML corretto.
    Per le categorie e' <TOPIC>!

    1) parsi il file con il parser XML
    2) estrai le informazioni che ti servono mediante XPath
    3) fai le tue statistiche

    Finito!

    Ora, se non sai che cosa e' l'XML, l'XPath, il DOM e un parser XML/DOM, sei nei guai

    Nulla di complicato, ovviamente: dovrai fare un po' di pratica prima, con qualche programmino di prova, per prenderci la mano

    Poiche' sei nella sezione Database non so che linguaggi di programmazione conosci, ma parlando di Weka, e' plausibile sia Java.

    Se e' Java:






    e dulcis in fundo:

  • Re: WEKA-DATA MINING-REUTERS DATA SET

    Ti ringrazio infinitamente.
    Comunque va benissimo java come linguaggio di programmazione e mi metterò subito all'opera per riuscire a capire bene come fare tutti i passaggi. Grazie grazie grazie
  • Re: WEKA-DATA MINING-REUTERS DATA SET

    Ok vorrei chiederti se possibile delle altre informazioni per convertire il file sgml in xml.
    Vorrei procedere con la prima soluzione che hai proposto cioè:
    1) spezzarlo nei singoli documenti, compresi tra i tag <REUTERS> e </REUTERS> (forse la scelta migliore, ma implementativamente un po' piu' complicata)
    Ho cercato un pò on-line e ho trovato SgmlReader version 1.7 dici che potrebbe andare bene?
    o in alternativa potrei fare un programma java che legge i file ad uno ad uno e realizza dei file xml contenenti tutte le informazioni all'interno dei tag <REUTERS> e </REUTERS>.
    Mi potresti dare dei consigli in merito?...sapresti darmi delle linee guida sull'implementazione di questo passaggio?....
  • Re: WEKA-DATA MINING-REUTERS DATA SET

    Segui sempre la strada piu' semplice:

    spezzare il file leggendolo riga per riga, oppure anche come un'unica gigantesca stringa, e' abbastanza semplice.

    Le librerie hanno il grosso diffetto che se non sono famose (cioe usate da moltissime persone), possono contenere dei bug: un programmatore esperto ci puo' anche convivere, nel senso che aggiusta il bug, ma visto che sei alle prime armi, direi, meglio evitare.
  • Re: WEKA-DATA MINING-REUTERS DATA SET

    Ti ringrazio nuovamente per la risposta...
Devi accedere o registrarti per scrivere nel forum
12 risposte