Text Mining con Rapidminer
Caricare datiUsiamoleestensioniTextprocessingeWebMiningUtilizziamounfileexcel contweet scaricatiesalvati(vd.slideprecedenti)} Percaricaredati:
} operatoreReadExcel} Settareparametri:ImportConfiguration Wizard ->selezionarecelledaimportare
} Finish} Eseguireprocessononprimadiavercollegatol’operatoreallaportaRes
Nominal to Text} Collegare alla porta uscita di Read Excel l’operatore
Nominal to Text} Settare parametri:
} Attribute filter type: Single} Attribute: dal menu a tendina individuare il nome della colonna
dei testi (es. Text)
} Fondamentale per poter passare i testi nel formato corretto all’operatore Process Documents from Data
Process Documents from Data
} OperatoreProcess Documents fromData(collegarelaportaexadiNtT aexa diPDFD)
} Creavettorediparoledaidati(listaparole),es.TF-IDF} Necessitadisotto-processoconoperatoridipre-processing(cliccando2voltesull’operatore)
} Collegareleportediuscitadell’operatoreProcess DocfromDataares
Parametri PDfD
createwordvector:creavettore,es.TF-IDF
addmetainformation:aggiungemetadaticomecolonneneirisultati
keeptext:testoèpresocomeSpecialattributeneirisultati
prunebelowabsolute/percentual:Ignoraleparolecheappaionoinmenodiunrangedidocumenti
pruneaboveabsolute/percentual:Ignoraleparolecheappaionoinpiùdiunrangedidocumenti
Pre-processing
} Tokenize ->Run (primeosservazionifreq parole)
} Transform Cases:lower cases (trasformatuttoinminuscolo)} Filter stopwords (English)
} Filter stopwords (Dictionary)peritaliano(+filestopword-ita.txt dascaricaredallapiattaforma)
} Filter tokens (byLenght):} Param:min 2max 25
} Run (eliminatestopwords)
Analisi occorrenze parole e n-grammi
Cerchiamofrasisignificativeneitestiprocessati:n-grammi(serieditokens consecutividilunghezzan)compostida2o+parole
Aggiungerenelsotto-processodipre-processing:} OperatorGeneraten-Grams (Terms),postotraStopwords eFilter tokens} Param:max lenght 3
} Run} Opzionale:operatorStem (Porter)
Parametri PDfD (2)
Binary Term Occ
Salvataggio dei risultati} Utilizzando operatore Write Excel possiamo salvare su
file excel i risultati di tutti i processi, sia l’ExampleSet sia la Wordlist (con operatore WordList to Data)
Pulire tweets: problema di partenza
} Tweetsscaricatiesalvatiinunfileexcelpossonoesserecaratterizzatidamoltementions(@...)e/ohashtags(#...)e/olinks(http://…)chedisturbanolaletturadeltesto
} Obiettivoèpulireperconservaresololaparteditestosignificativa
Processo con operatore Replace
N.B.L’operatoreSubprocess èstatorinominato“processodipulizia”.All’internodelprocessodipulizial’operatoreReplace siripete5volteedèstatorinominatoperevidenziarecosarimuoveognioperatore.
Rimuovere parti di un tweet
ParametricomuniatuttiglioperatoriReplace:} Attribute filter type:Single} Attribute:Text(ilnomedellacolonnadeltesto)
ParametridiversipersingoloReplace:1.Replace what:RT rimuovelastringaall’iniziodeiretweet2.Replace what:@[a-zA-Z0-9/d\-_]*rimuovelementions3.Replace what:#rimuoveilcancellettodeglihashtags4.Replace what:http://[a-zA-Z0-9/d\-_].* rimuovelink5.Replace what:https://[a-zA-Z0-9/d\-_].* rimuovelink
Aggiunta di pre-processing (opzionale)
Finale
PRIMA:@musicassettaAognunosecondoipropribisognihttps://t.co/r8aAB8MAqRDOPO:Aognunosecondoipropribisogni
Alcuni suggerimenti
} Lasentiment èmeglioapplicarladopoaverripulitoiltweetmasenzailpre-processing
} Altreanalisiditextmining (wordoccurrence,TF-IDF,similarità,clustering ecc.)èmeglioapplicarledopolafasedipre-processing