Presentazione ufficiale

VALUTAZIONE DELLA QUALITA’ DI UN DATASET

SPERIMENTANDO TRE DIVERSI METODI DI SIMILARITA’

RELATORE: CANDIDATO:SONIA BERGAMASCHI FRANCESCO RIZZO

10/12/2014

&

Sviluppo sistema iTag

1

Descrizione del progetto

Studio del sistemaImplementazione similarità

Valutazione qualità

OVERVIEW Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati?

Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità

Pulizia del dataset Calcolo delle frequenze e del punto di

stabilità Implementazione della strategia ottima

Risultati sperimentali Conclusioni Sviluppi futuri

Cos’è un tag?PER COMINCIARE

Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi:

IMMAGINI

VIDEO

SITI WEB

2






Cosa si intende per similarità?

PER COMINCIARE

“Affinità di natura, struttura o composizione.”

(De Mauro “Il dizionario della lingua italiana”)In informatica, la similarità viene implementata

attraverso il concetto matematico di DISTANZA

3






Perchè la pulizia dei dati?PER COMINCIARE

PERCHÈ si effettua la pulizia? Molto spesso i dati sono

INCOMPLETI

INCONSISTENTI

RUMOROSI

Passi principali:

• Pulizia: levigare il rumore nei dati, risolvere le inconsistenze• Integrazione: più fonti eterogenee vengono unite• Riduzione: diminuire il volume del dataset

FONTI ETEROGENEE

4






piattaforma online che favorisce il contributo degli utenti dietro incentivo economico

sistema di social bookmarking

Concetti di base di iTagiTAG

RISORSA

DATASET

POST

DELICIOUS

CROWDSOURCING

insieme di tag dati di una risorsa

elemento taggato (foto, video, sito web)

insieme di risorse, ognuna con i suoi post

5

Scopo di iTagiTAG

Ogni risorsa alla quale è possibile applicare tag può risultare:

• Sovrataggata (per le più popolari)

• Sottotaggata

In questo modo quando unutente effettua una ricerca

Non tutte le risorse vengonomostrate ricerca inefficiente

6

Aumentare la QUALITA’ del dataset

Sistema iTagiTAG

DATASET

iTAG CREA I LAVORI

VIENE CONSEGNATO L’INCENTIVO

LAVORO COMPLETATO

CROWDSOURCING

i-Tag

MOTORE DI INCENTIVI 7






Scopo della ricercaRICERCA

I passi sono stati:

• Analizzare iTag

• Cercare aspetti da migliorare

• Ho fatto alcune proposte:

Similarità

Feedback

Differenziazione incentivi

8

Argomento approvato:

Il mio contributoRICERCA

Le tre misure di similarità che ho scelto sono state:

Similarità del Coseno

Coefficiente di Dice

Similarità di Jacquard

9






Informazioni sul datasetDATASET

Fonte: Delicious

Inizialmente i files, relativi ad 1 mese di utilizzo,

erano 4 da circa 10 GB ciascuno (40GB totali)

Dopo le operazioni di pulizia e filtraggio del dataset,

le dimensioni si sono ridotte a 100MB10

Struttura del dataset (Delicious)

DATASET

Per ogni risorsa, la prima cifra

rappresenta il numero di post

Le cifre dentro al post rappresentano l’ID

del tagPer ogni post, la prima cifra rappresenta il

numero di tag dentro al post

Ogni linea è una risorsa

129

8

7

6 5

4

3

“viaggi”11






finestra (quantità di post) utilizzata per valutare la stabilità

vettore di frequenze relative di ogni tag

Concetti di base del mio contributo

ALGORITMO

STABILITÀ

w

QUALITÀ

RFD

DP

B

si ha quando il livello di informazioni per la risorsa è sufficiente

si ha quando le informazioni della risorsa superano la soglia di stabilità

algoritmo ottimo per generare gli assegnamenti delle risorse

Budget stanziato dal provider per l’incremento della qualità12

Circa 1TBspaghettispaghetti

Guardiamo i seguenti tag:

1) Pulizia del datasetALGORITMO

4 X 10GB 100 MB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

PULITOFORMATTATO

RIDOTTO

DATASET ORIGINALE

RUMORE: DATI SPORCHI

Circa 40GB 1 mese2 anni

Guardiamo i seguenti tag:

QUESTO E’ IL RUMORE

RIDONDANZA: DATI RIPETUTIr4sa334

sidofhbdjnopf

3dfasgg5

pasta

cucina

ricetta

cucina

cucina

pasta

pasta

spaghetti

QUESTA E’ LA RIDONDANZA

RIDUZIONE RUMORE

RIDUZIONE RIDONDANZA

13

CARATTERISTICHE:






2) Calcolo rfd e punti di stabilità

ALGORITMO

APPLICAZIONE

FORMULE STATISTICH

E

DATASET PULITO

RFD

INPUTOUTPUT

Punto di

stabilità

14






3) L’algoritmo DPALGORITMO

DP

RFD

Punto di

stabilità

INPUT OUTPUT

Qualità del

dataset

ASSIGNMENTASSIGNMENTASSEGNAMEN

TO OTTIMO

BUDGET

STATO INIZIALE (RANDOM)

15






Analisi assegnamentiRISULTATI

COSINE DICE JACQUARD

COME POSSIAMO VEDERE, GLI ASSEGNAMENTI SONO DIVERSI...

... COME VARIA QUINDI IL COMPORTAMENTO DEI GRAFICI?

16

Punto di stabilità al variare di w

RISULTATI

17

Qualità vs Budget (w = 4)RISULTATI

18


19


20


21

Qualità vs finestra (B = 200)

RISULTATI

22

Qualità vs finestra (B = 500)

RISULTATI

23

Andamento qualità per Budget piccoli

RISULTATI

24






ConclusioniOsservando i risultati sperimentali è possibile vedere

come i risultati in valore assoluto siano simili per quanto riguarda Coseno e Dice, mentre siano diversi per la Jacquard.

Dopo aver analizzato i risultati sperimentali, è possibile affermare che per il sistema analizzato non è presente una misura di similarità migliore delle altre, ma sono tutte e tre equivalenti.

Infatti è interessante notare come, nonostante gli assegnamenti varino da misura a misura, le curve abbiano esattamente lo stesso comportamento, ottenendo alla fine gli stessi valori di qualità.

Il mio contributo è stato apprezzato, verrà introdotto in un’estensione del paper “On incentive-based tagging” (ICDE 2013).

25






Sviluppi futuri Effettuare i test anche con le altre strategie di assegnamento

Scelta libera Round Robin Less Posts first Most Unstable first Ibrida

Indirizzare l’utente verso le risorse che più si addicono al suo profilo

Implementare un sistema di feedback

Generare un sistema di riconoscimento semantico dei tag

26

GRAZIE - THANK YOU - 謝謝

Date post:	11-Apr-2017
Category:	Documents
Upload:	francesco-rizzo
View:	191 times
Download:	0 times

Presentazione ufficiale

Documents