+ All Categories
Home > Documents > Presentazione ufficiale

Presentazione ufficiale

Date post: 11-Apr-2017
Category:
Upload: francesco-rizzo
View: 191 times
Download: 0 times
Share this document with a friend
40
VALUTAZIONE DELLA QUALITA’ DI UN DATASET SPERIMENTANDO TRE DIVERSI METODI DI SIMILARITA’ RELATORE: CANDIDATO: SONIA BERGAMASCHI FRANCESCO RIZZO 10/12/20 14 &
Transcript
Page 1: Presentazione ufficiale

VALUTAZIONE DELLA QUALITA’ DI UN DATASET

SPERIMENTANDO TRE DIVERSI METODI DI SIMILARITA’

RELATORE: CANDIDATO:SONIA BERGAMASCHI FRANCESCO RIZZO

10/12/2014

&

Page 2: Presentazione ufficiale

Sviluppo sistema iTag

1

Descrizione del progetto

Studio del sistemaImplementazione similarità

Valutazione qualità

Page 3: Presentazione ufficiale

OVERVIEW Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati?

Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità

Pulizia del dataset Calcolo delle frequenze e del punto di

stabilità Implementazione della strategia ottima

Risultati sperimentali Conclusioni Sviluppi futuri

Page 4: Presentazione ufficiale

Cos’è un tag?PER COMINCIARE

Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi:

IMMAGINI

VIDEO

SITI WEB

2

Page 5: Presentazione ufficiale

OVERVIEW Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati?

Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità

Pulizia del dataset Calcolo delle frequenze e del punto di

stabilità Implementazione della strategia ottima

Risultati sperimentali Conclusioni Sviluppi futuri

Page 6: Presentazione ufficiale

Cosa si intende per similarità?

PER COMINCIARE

“Affinità di natura, struttura o composizione.”

(De Mauro “Il dizionario della lingua italiana”)In informatica, la similarità viene implementata

attraverso il concetto matematico di DISTANZA

3

Page 7: Presentazione ufficiale

OVERVIEW Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati?

Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità

Pulizia del dataset Calcolo delle frequenze e del punto di

stabilità Implementazione della strategia ottima

Risultati sperimentali Conclusioni Sviluppi futuri

Page 8: Presentazione ufficiale

Perchè la pulizia dei dati?PER COMINCIARE

PERCHÈ si effettua la pulizia? Molto spesso i dati sono

INCOMPLETI

INCONSISTENTI

RUMOROSI

Passi principali:

• Pulizia: levigare il rumore nei dati, risolvere le inconsistenze• Integrazione: più fonti eterogenee vengono unite• Riduzione: diminuire il volume del dataset

FONTI ETEROGENEE

4

Page 9: Presentazione ufficiale

OVERVIEW Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati?

Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità

Pulizia del dataset Calcolo delle frequenze e del punto di

stabilità Implementazione della strategia ottima

Risultati sperimentali Conclusioni Sviluppi futuri

Page 10: Presentazione ufficiale

piattaforma online che favorisce il contributo degli utenti dietro incentivo economico

sistema di social bookmarking

Concetti di base di iTagiTAG

RISORSA

DATASET

POST

DELICIOUS

CROWDSOURCING

insieme di tag dati di una risorsa

elemento taggato (foto, video, sito web)

insieme di risorse, ognuna con i suoi post

5

Page 11: Presentazione ufficiale

Scopo di iTagiTAG

Ogni risorsa alla quale è possibile applicare tag può risultare:

• Sovrataggata (per le più popolari)

• Sottotaggata

In questo modo quando unutente effettua una ricerca

Non tutte le risorse vengonomostrate ricerca inefficiente

6

Aumentare la QUALITA’ del dataset

Page 12: Presentazione ufficiale

Sistema iTagiTAG

DATASET

iTAG CREA I LAVORI

VIENE CONSEGNATO L’INCENTIVO

LAVORO COMPLETATO

CROWDSOURCING

i-Tag

MOTORE DI INCENTIVI 7

Page 13: Presentazione ufficiale

OVERVIEW Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati?

Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità

Pulizia del dataset Calcolo delle frequenze e del punto di

stabilità Implementazione della strategia ottima

Risultati sperimentali Conclusioni Sviluppi futuri

Page 14: Presentazione ufficiale

Scopo della ricercaRICERCA

I passi sono stati:

• Analizzare iTag

• Cercare aspetti da migliorare

• Ho fatto alcune proposte:

Similarità

Feedback

Differenziazione incentivi

8

Argomento approvato:

Page 15: Presentazione ufficiale

Il mio contributoRICERCA

Le tre misure di similarità che ho scelto sono state:

Similarità del Coseno

Coefficiente di Dice

Similarità di Jacquard

9

Page 16: Presentazione ufficiale

OVERVIEW Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati?

Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità

Pulizia del dataset Calcolo delle frequenze e del punto di

stabilità Implementazione della strategia ottima

Risultati sperimentali Conclusioni Sviluppi futuri

Page 17: Presentazione ufficiale

Informazioni sul datasetDATASET

Fonte: Delicious

Inizialmente i files, relativi ad 1 mese di utilizzo,

erano 4 da circa 10 GB ciascuno (40GB totali)

Dopo le operazioni di pulizia e filtraggio del dataset,

le dimensioni si sono ridotte a 100MB10

Page 18: Presentazione ufficiale

Struttura del dataset (Delicious)

DATASET

Per ogni risorsa, la prima cifra

rappresenta il numero di post

Le cifre dentro al post rappresentano l’ID

del tagPer ogni post, la prima cifra rappresenta il

numero di tag dentro al post

Ogni linea è una risorsa

129

8

7

6 5

4

3

“viaggi”11

Page 19: Presentazione ufficiale

OVERVIEW Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati?

Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità

Pulizia del dataset Calcolo delle frequenze e del punto di

stabilità Implementazione della strategia ottima

Risultati sperimentali Conclusioni Sviluppi futuri

Page 20: Presentazione ufficiale

finestra (quantità di post) utilizzata per valutare la stabilità

vettore di frequenze relative di ogni tag

Concetti di base del mio contributo

ALGORITMO

STABILITÀ

w

QUALITÀ

RFD

DP

B

si ha quando il livello di informazioni per la risorsa è sufficiente

si ha quando le informazioni della risorsa superano la soglia di stabilità

algoritmo ottimo per generare gli assegnamenti delle risorse

Budget stanziato dal provider per l’incremento della qualità12

Page 21: Presentazione ufficiale

Circa 1TBspaghettispaghetti

Guardiamo i seguenti tag:

1) Pulizia del datasetALGORITMO

4 X 10GB 100 MB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

PULITOFORMATTATO

RIDOTTO

DATASET ORIGINALE

RUMORE: DATI SPORCHI

Circa 40GB 1 mese2 anni

Guardiamo i seguenti tag:

QUESTO E’ IL RUMORE

RIDONDANZA: DATI RIPETUTIr4sa334

sidofhbdjnopf

3dfasgg5

pasta

cucina

ricetta

cucina

cucina

pasta

pasta

spaghetti

QUESTA E’ LA RIDONDANZA

RIDUZIONE RUMORE

RIDUZIONE RIDONDANZA

13

CARATTERISTICHE:

Page 22: Presentazione ufficiale

OVERVIEW Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati?

Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità

Pulizia del dataset Calcolo delle frequenze e del punto di

stabilità Implementazione della strategia ottima

Risultati sperimentali Conclusioni Sviluppi futuri

Page 23: Presentazione ufficiale

2) Calcolo rfd e punti di stabilità

ALGORITMO

APPLICAZIONE

FORMULE STATISTICH

E

DATASET PULITO

RFD

INPUTOUTPUT

Punto di

stabilità

14

Page 24: Presentazione ufficiale

OVERVIEW Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati?

Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità

Pulizia del dataset Calcolo delle frequenze e del punto di

stabilità Implementazione della strategia ottima

Risultati sperimentali Conclusioni Sviluppi futuri

Page 25: Presentazione ufficiale

3) L’algoritmo DPALGORITMO

DP

RFD

Punto di

stabilità

INPUT OUTPUT

Qualità del

dataset

ASSIGNMENTASSIGNMENTASSEGNAMEN

TO OTTIMO

BUDGET

STATO INIZIALE (RANDOM)

15

Page 26: Presentazione ufficiale

OVERVIEW Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati?

Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità

Pulizia del dataset Calcolo delle frequenze e del punto di

stabilità Implementazione della strategia ottima

Risultati sperimentali Conclusioni Sviluppi futuri

Page 27: Presentazione ufficiale

Analisi assegnamentiRISULTATI

COSINE DICE JACQUARD

COME POSSIAMO VEDERE, GLI ASSEGNAMENTI SONO DIVERSI...

... COME VARIA QUINDI IL COMPORTAMENTO DEI GRAFICI?

16

Page 28: Presentazione ufficiale

Punto di stabilità al variare di w

RISULTATI

17

Page 29: Presentazione ufficiale

Qualità vs Budget (w = 4)RISULTATI

18

Page 30: Presentazione ufficiale

Qualità vs Budget (w = 6)RISULTATI

19

Page 31: Presentazione ufficiale

Qualità vs Budget (w = 10)RISULTATI

20

Page 32: Presentazione ufficiale

Qualità vs Budget (w = 15)RISULTATI

21

Page 33: Presentazione ufficiale

Qualità vs finestra (B = 200)

RISULTATI

22

Page 34: Presentazione ufficiale

Qualità vs finestra (B = 500)

RISULTATI

23

Page 35: Presentazione ufficiale

Andamento qualità per Budget piccoli

RISULTATI

24

Page 36: Presentazione ufficiale

OVERVIEW Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati?

Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità

Pulizia del dataset Calcolo delle frequenze e del punto di

stabilità Implementazione della strategia ottima

Risultati sperimentali Conclusioni Sviluppi futuri

Page 37: Presentazione ufficiale

ConclusioniOsservando i risultati sperimentali è possibile vedere

come i risultati in valore assoluto siano simili per quanto riguarda Coseno e Dice, mentre siano diversi per la Jacquard.

Dopo aver analizzato i risultati sperimentali, è possibile affermare che per il sistema analizzato non è presente una misura di similarità migliore delle altre, ma sono tutte e tre equivalenti.

Infatti è interessante notare come, nonostante gli assegnamenti varino da misura a misura, le curve abbiano esattamente lo stesso comportamento, ottenendo alla fine gli stessi valori di qualità.

Il mio contributo è stato apprezzato, verrà introdotto in un’estensione del paper “On incentive-based tagging” (ICDE 2013).

25

Page 38: Presentazione ufficiale

OVERVIEW Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati?

Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità

Pulizia del dataset Calcolo delle frequenze e del punto di

stabilità Implementazione della strategia ottima

Risultati sperimentali Conclusioni Sviluppi futuri

Page 39: Presentazione ufficiale

Sviluppi futuri Effettuare i test anche con le altre strategie di assegnamento

Scelta libera Round Robin Less Posts first Most Unstable first Ibrida

Indirizzare l’utente verso le risorse che più si addicono al suo profilo

Implementare un sistema di feedback

Generare un sistema di riconoscimento semantico dei tag

26

Page 40: Presentazione ufficiale

GRAZIE - THANK YOU - 謝謝


Recommended