ANALISI E SINTESI DI NOTIZIE DA TWITTER PER REAL TIME WEB
Candidato:Federico Frappi
Relatori:Prof. Alberto Del BimboDott. Ing. Marco Bertini
Università degli studi di FirenzeFacoltà di Ingegneria
Corso di Laurea in Ingegneria Informatica
COSA È TWITTER?Twitter è un social network
“real time”
Gli utenti hanno a disposizione una pagina aggiornabile attraverso
messaggi di stato di massimo 140 caratteri
Nella timeline di ogni utente compaiono i propri tweet e quelli degli account “seguiti”
Introduzione Il sistema Valutazione Conclusioni
Introduzione Il sistema Valutazione Conclusioni
COME SFRUTTARE QUESTE INFORMAZIONI?
Il flusso dei messaggi inseriti su Twitter aumenta costantemente, superando le decine di milioni di tweet ogni giorno
Twitter è quindi un’ottima fonte di informazioni per svariate operazioni di data mining ed analisi, come ad esempio:
•Psefologia (predizione del risultato delle elezioni)
•Indagini di mercato
•Analisi di trend
DI COSA SI PARLA SU TWITTER?
Uno studio dell’estate 2009 ha mostrato che circa il 4% dei messaggi su Twitter parla
di notizie
Introduzione Il sistema Valutazione Conclusioni
GLI OBIETTIVI
Ogni tweet può essere arricchito includendo anche collegamenti ad immagini
Questo lavoro si concentra proprio sull’analisi dei messaggi contenenti immagini e riguardanti la discussione di notizie
L’obiettivo principale è quindi la progettazione e lo sviluppo di un sistema per l’analisi delle informazioni multimediali pubblicate su
Twitter ed il suo utilizzo per la sintesi di notizie
Introduzione Il sistema Valutazione Conclusioni
IL SISTEMA SVILUPPATO:VISIONE D’INSIEME
Introduzione Il sistema Valutazione Conclusioni
DB
Collezione dati
Recupero informazioni
Analisi e sintesi notizie
Query di ricerca
COLLEZIONE DEI DATI:PANORAMICA
Introduzione Il sistema Valutazione Conclusioni
Feed RSSTestate giornalistiche USA
EstrazioneKeyword
Keyword
Ricerca su Twitter
Tweet
EstrazioneKeyword
Testo Immagini
EstrazioneJCD
DB
EstrazioneHashtag
Disco
Reverse Geocoding
COLLEZIONE DEI DATI:DETTAGLI
Introduzione Il sistema Valutazione Conclusioni
Feed RSSTestate giornalistiche USA
EstrazioneKeyword
Keyword
Ricerca su Twitter
Tweet
EstrazioneKeyword
Testo Immagini
EstrazioneJCD
DB
EstrazioneHashtag
Disco
Reverse Geocoding
Generazione termini di ricerca
Si sfruttano i feed RSS di alcune testate giornalistiche
statunitensi
Ogni titolo di notizia viene processato attraverso la
tecnica della term extraction
COLLEZIONE DEI DATI:DETTAGLI
Introduzione Il sistema Valutazione Conclusioni
Feed RSSTestate giornalistiche USA
EstrazioneKeyword
Keyword
Ricerca su Twitter
Tweet
EstrazioneKeyword
Testo Immagini
EstrazioneJCD
DB
EstrazioneHashtag
Disco
Reverse Geocoding
Ricerca su Twitter
Si sfruttano le API di Twitter per ottenere tutti i messaggi che contengono:
• I termini estratti in precedenza (come
hashtag)•Collegamenti ad immagini
pubblicate su Twitpic e Tweetphoto
COLLEZIONE DEI DATI:DETTAGLI
Introduzione Il sistema Valutazione Conclusioni
Feed RSSTestate giornalistiche USA
EstrazioneKeyword
Keyword
Ricerca su Twitter
Tweet
EstrazioneKeyword
Testo Immagini
EstrazioneJCD
DB
EstrazioneHashtag
Disco
Reverse Geocoding
Salvataggio dati
• Ogni tweet viene processato attraverso la
term extraction• Se possibile si fa reverse
geocoding del tweet• Viene estratto un
descrittore multimediale globale (JCD) per ogni
immagine
Tutto ciò è salvato nel DB
RECUPERO DELLE INFORMAZIONI:PANORAMICA
Introduzione Il sistema Valutazione Conclusioni
Query
Clustering temporale
Clustering semantico
Clustering visuale
Tweet clusterizzati
Votazione tag Visualizzazione
DBRicerca full
text
Tag
Ricerca Notizie
Votazione Notizie
Notizie
Espansione Query
Tweet
RECUPERO DELLE INFORMAZIONI:DETTAGLI
Introduzione Il sistema Valutazione Conclusioni
Query
Clustering temporale
Clustering semantico
Clustering visuale
Tweet clusterizzati
Votazione tag Visualizzazione
DBRicerca full
text
Tag
Ricerca Notizie
Votazione Notizie
Notizie
Espansione Query
Tweet
Recupero dei tweet
L’utente inserisce una query, si recuperano dal DB tutti i tweet
che la contengono
Si espande la query sfruttando la conoscenza che è possibile
inferire dai titoli di notizie trovati in precedenza
RECUPERO DELLE INFORMAZIONI:DETTAGLI
Introduzione Il sistema Valutazione Conclusioni
Query
Clustering temporale
Clustering semantico
Clustering visuale
Tweet clusterizzati
Votazione tag Visualizzazione
DBRicerca full
text
Tag
Ricerca Notizie
Votazione Notizie
Notizie
Espansione Query
Tweet
Catena di clustering
Clustering temporale per ridurre la complessità computazionale ed
organizzare i dati
Clustering semantico e visuale per la propagazione di tag a gruppi di
immagini simili
L’algoritmo di clustering è k-medoids, la distanza semantica è
la distanza coseno
RECUPERO DELLE INFORMAZIONI:DETTAGLI
Introduzione Il sistema Valutazione Conclusioni
Query
Clustering temporale
Clustering semantico
Clustering visuale
Tweet clusterizzati
Votazione tag Visualizzazione
DBRicerca full
text
Tag
Ricerca Notizie
Votazione Notizie
Notizie
Espansione Query
Tweet
Votazione dei tag
I tag di ogni cluster vengono votati con un procedimento che tiene conto delle loro occorrenze
Si ottengono dei cluster di immagini con dei tag abbinati e un punteggio di rilevanza per
ognuno di essi
RECUPERO DELLE INFORMAZIONI:DETTAGLI
Introduzione Il sistema Valutazione Conclusioni
Query
Clustering temporale
Clustering semantico
Clustering visuale
Tweet clusterizzati
Votazione tag Visualizzazione
DBRicerca full
text
Tag
Ricerca Notizie
Votazione Notizie
Notizie
Espansione Query
Tweet
Abbinamento notizia-tweet
A partire dalla query vengono ricercate le notizie correlate
attraverso il servizio di Yahoo! News
Si cerca di valutare l’abbinamento tra ogni notizia ed i tweet dello
stesso periodo
La votazione sfrutta il modello TF-IDF per la distanza tra
documenti
RECUPERO DELLE INFORMAZIONI:DETTAGLI
Introduzione Il sistema Valutazione Conclusioni
Query
Clustering temporale
Clustering semantico
Clustering visuale
Tweet clusterizzati
Votazione tag Visualizzazione
DBRicerca full
text
Tag
Ricerca Notizie
Votazione Notizie
Notizie
Espansione Query
Tweet
Visualizzazione
I risultati sono presentati in una pagina HTML
Distribuzione geografica dei tweet in una mappa
Per ogni cluster temporale, sintesi attraverso l’approccio delle cloud:
News cloudTag cloud
Image cloud
VALUTAZIONE DEL SISTEMA:STATISTICHE
Introduzione Il sistema Valutazione Conclusioni
La collezione dei dati è stata effettuata durante vari periodi tra aprile 2010 e settembre 2010
le statistiche finali dei dati catturati sono le seguenti:
Statistica Valore NoteNumero di tweet nel database 78.320
Numero di tweet con geotagging 1437 1,8% del totale
Numero di retweet 30.571 39% del totale
Numero di immagini (con duplicati) 79.468 Circa 1 immagine per tweet
Numero di immagini (senza duplicati) 46.285 40% di immagini duplicate
Numero di notizie nel database 1755
VALUTAZIONE DEL SISTEMA:PUNTI CRITICI
Feed RSSTestate giornalistiche USA
EstrazioneKeyword
Keyword
Ricerca su Twitter
Tweet
EstrazioneKeyword
Testo Immagini
EstrazioneJCD
DB
EstrazioneHashtag
Disco
Reverse Geocoding
Query
Clustering temporale
Clustering semantico
Clustering visuale
Tweet clusterizzati
Votazione tag Visualizzazione
DBRicerca full
text
Tag
Ricerca Notizie
Votazione Notizie
Notizie
Espansione Query
Tweet
Introduzione Il sistema Valutazione Conclusioni
VALUTAZIONE DEL SISTEMA:PUNTI CRITICI
Feed RSSTestate giornalistiche USA
EstrazioneKeyword
Keyword
Ricerca su Twitter
Tweet
EstrazioneKeyword
Testo Immagini
EstrazioneJCD
DB
EstrazioneHashtag
Disco
Reverse Geocoding
Query
Clustering temporale
Clustering semantico
Clustering visuale
Tweet clusterizzati
Votazione tag Visualizzazione
DBRicerca full
text
Tag
Ricerca Notizie
Votazione Notizie
Notizie
Espansione Query
Tweet
Query
Clustering temporale
Clustering semantico
Clustering visuale
Tweet clusterizzati
Votazione tag Visualizzazione
DBRicerca full
text
Tag
Ricerca Notizie
Votazione Notizie
Notizie
Espansione Query
Tweet
Feed RSSTestate giornalistiche USA
EstrazioneKeyword
Keyword
Ricerca su Twitter
Tweet
EstrazioneKeyword
Testo Immagini
EstrazioneJCD
DB
EstrazioneHashtag
Disco
Reverse Geocoding
Introduzione Il sistema Valutazione Conclusioni
VALUTAZIONE DEL SISTEMA:PUNTI CRITICI
Introduzione Il sistema Valutazione Conclusioni
Sono stati effettuati vari esperimenti, calcolando:
Punteggio di pertinenza per i tweet trovati a partire da un titolo di notizia
Valutazione della qualità dei cluster secondo la metrica della purezza
Risultati intorno al 70% per entrambi
ESEMPI DI QUERY:OBAMA
Introduzione Il sistema Valutazione Conclusioni
Distribuzione dei tweet
ESEMPI DI QUERY:OBAMA
Introduzione Il sistema Valutazione Conclusioni
Obama parla della riforma finanziaria alla Cooper Union
ESEMPI DI QUERY:OBAMA
Introduzione Il sistema Valutazione Conclusioni
28 giugno 2010, il giorno successivo alla chiusura del g-20:News Cloud e Tag Cloud
ESEMPI DI QUERY:WORLD CUP
Introduzione Il sistema Valutazione Conclusioni
Distribuzione dei tweet
ESEMPI DI QUERY:WORLD CUP
Introduzione Il sistema Valutazione Conclusioni
Fase degli scontri diretti: si riconoscono chiaramente le squadre che si devono affrontare
CONCLUSIONI
Introduzione Il sistema Valutazione Conclusioni
E’ stato presentato un primo approccio all’analisi di informazioni multimediali aventi come fonte Twitter
Risultati soddisfacenti, margini di miglioramento nel lato di clustering con la definizione di nuove metriche e algoritmi
Interessante uno sviluppo come sistema per la rappresentazione grafica di concetti e della loro evoluzione nel tempo