Date post: | 15-Jan-2015 |
Category: |
Technology |
Upload: | cataldo-musto |
View: | 600 times |
Download: | 4 times |
STaR: a Social Tag Recommender
@ECML/PKDD Discovery Challenge 2009 Bled (Slovenia) - Settembre 09
Cataldo Musto
mercoledì 16 settembre 2009
ECML/PKDD Discovery Challenge 2009
• Discovery Challenge
• Competizione collaterale alla conferenza
• L’edizione 2009 ha messo a confronto 16 partecipanti sul tema della Tag Recommendation
• Dominio: www.bibsonomy.org
• Raccomandazione di tag per bookmark e BibTeX pubblicati sulla piattaforma
mercoledì 16 settembre 2009
Social Tagging• Nel contesto del Web 2.0 si sta assistendo a una
sempre maggiore diffusione dei sistemi di Tagging Collaborativo
• es) Flickr (www.flickr.com) , Delicious (http://del.icio.us) , Bibsonomy (www.bibsonomy.org) , ecc.
• Un utente fruisce di una risorsa (testuale o multimediale) e la annota con dei termini ritenuti adatti a descriverne il contenuto sulla base del proprio modello mentale
• Questa attività di annotazione collaborativa permette di associare un insieme di tag liberamente definito dagli utenti a ciascuna risorsa fruibile sulla piattaforma. Questo insieme di tag è detto folksonomia
mercoledì 16 settembre 2009
Tag Cloud
mercoledì 16 settembre 2009
Folksonomie
• Una folksonomia è un modello di rappresentazione delle informazioni costruito liberamente dagli utenti in modo collaborativo
• Vantaggi: Curva di apprendimento molto rapida, gli utenti possono immediatamente modellare gli oggetti utilizzando il proprio lessico, facilità di ritrovamento dell’informazione
• Svantaggi: La rappresentazione delle informazioni nelle folksonomie avviene in maniera puramente sintattica
• Problemi di sinonimia, polisemia e rappresentazione su differenti livelli di astrazione
• es) Oggetti annotati con il tag “Apple” o “Rinascimento”
mercoledì 16 settembre 2009
Tag Recommender
• Componente che si occupa di filtrare lo spazio dei tag suggerendo all’utente quelli più adatti a modellare una certa risorsa
• Vantaggi: Condivisione del lessico, velocizzazione della tag convergence, riduzione dei problemi di sinonimia, polisemia, ecc.
• Modello di raccomandazione:
• Analisi del comportamento dell’utente
• Analisi del comportamento della comunità
• Analisi del contenutomercoledì 16 settembre 2009
STaR: a Social Tag Recommender
• Concetti chiave
• Risorse “simili” possono essere modellate con tag simili
• I tag precedentemente usati dall’utente per modellare una certa classe di risorse devono essere valorizzati nei meccanismi di raccomandazione
mercoledì 16 settembre 2009
STaR: a Social Tag Recommender
• Modello di raccomandazione
• Preprocessing
• Indicizzazione di contenuti precedentemente taggati
• Filtraggio
• Ritrovamento di contenuti “simili” a quello da taggare
• Estrazione delle folksonomie sulle risorse simili
• Fusione delle folksonomie e pesatura dei tag
• Ordinamento e filtraggio dei tag candidati
mercoledì 16 settembre 2009
Architettura
mercoledì 16 settembre 2009
Preprocessing• Indexer
• basato su Apache Lucene
• costruisce un indice personale per ciascun utente e un indice della comunità
• Query Processor
• si prende carico della risorsa da taggare
• processa la risorsa estraendo i metadati testuali necessari (titolo della pagina, descrizione, ecc.)
• estrae le informazioni sull’utente (linguaggio, tag usati più frequentemente, ecc.)
• inoltra una query sull’indice dell’utente (se riconosciuto) e della comunità
mercoledì 16 settembre 2009
• Sostituzione della funzione di similarità di Lucene con una implementazione Java della BM25
• Interpretazione “probabilistica” del modello di pesatura TF/IDF
Scenario, step 1
mercoledì 16 settembre 2009
Architettura
mercoledì 16 settembre 2009
Filtering• Tag Extractor
• estrae le folksonomie per ciascuna delle risorse simili restituite dall’Indice Personale e dall’Indice Sociale
• fonde le folksonomie assegnando a ciascun tag uno score
• direttamente proporzionale al numero di occorrenze e alla similarità della risorsa sorgente
• pesato a seconda che il tag provenga dalla componente personale o sociale
• Filter
• filtra i tag che non raggiungono uno score sufficiente e restituisce le raccomandazioni
mercoledì 16 settembre 2009
Scenario, step 2
mercoledì 16 settembre 2009
Discovery Challenge• Test Set
• sorgente: www.bibsonomy.org
• 17.000 bookmark, 26.000 BibTeX, 1.600 utenti
• 48 ore per produrre i risultati
• Metriche di riferimento: Precision, Recall, F1-Measure
• calcolate sui primi cinque tag
• 16 diversi partecipanti
• 13 nazioni
mercoledì 16 settembre 2009
Risultati
http://www.kde.cs.uni-kassel.de/ws/dc09/results/mercoledì 16 settembre 2009
Conclusioni• Lo sviluppo di STaR è nato per scopi puramente didattici
• Confronto con gli altri partecipanti della Challenge
• Viaggio in Slovenia :)
• La validità del primo prototipo permette di delineare degli sviluppi futuri
• Il prototipo manca di una componente di estrazione automatica di tag a partire dal contenuto.
• Applicazioni di STaR
• Miglioramento nell’efficacia della classificazione/browsing di documenti testuali
• Estrazione più efficace di ontologie a partire da folksonomie costruite collaborativamente
• Migliore accuratezza in componenti di personalizzazione tag-based
• Un tag recommender permette di annotare gli oggetti con tag più precisi. Questo produce profili più efficaci che portano a raccomandazioni migliori
mercoledì 16 settembre 2009
Recommender System e Personalizzazione
Sviluppi futuri
Cataldo Musto
mercoledì 16 settembre 2009
Sviluppi futuri
• Miglioramento dei modelli di filtraggio
• Utilizzo di Linked Data
• Analisi dei Social Media per la personalizzazione
• Interoperabilità di Profili Utente
mercoledì 16 settembre 2009
Miglioramento dei modelli di filtraggio
• I migliori risultati ottenuti dalla BM25 rispetto alla classica misura di similarità di Lucene invitano a riflettere
• Molti modelli, compresa la classica TF/IDF, portano a semplificazioni eccessive nei meccanismi di rappresentazione dei documenti
• Recentemente hanno trovato spazio modelli alternativi più efficaci, di tipo probabilistico o orientati a far emergere la caratterizzazione semantica latente dei documenti
• es) ESA (Explicit Semantic Analysis) , LSI/pLSI (Probabilistic Latent Semantic Indexing), LDA (Latent Dirichlet Allocation), Semantic Vectors (legata ai principi della meccanica quantistica)
• L’utilizzo di queste tecniche in ambito di Information Filtering è senza dubbio da investigare
mercoledì 16 settembre 2009
Utilizzo di Linked Data
• Termine coniato da Tim Berners-Lee
• Denota dati rilasciati dagli utenti e modellati seguendo RDF o degli specifici microformati
• Garantisce interoperabilità e reasoning tra dati
• L’esempio più importante è DBPedia
• Un piccolo passo verso il Semantic Web
mercoledì 16 settembre 2009
Linked Data
mercoledì 16 settembre 2009
Linked Data e Recommender Systems• Gli approcci più comuni alla raccomandazione sono legati
a interpretazioni di tipo probabilistico/frequentista
• es) Quante più volte un certo termine appare in elementi graditi, tanto più è probabile che siano graditi altri elementi simili a questo
• Problemi tipici: ridotta serendipità nelle raccomandazioni
• L’integrazione di Linked Data potrebbe attivare dei meccanismi di reasoning più raffinati per arricchire il profilo con termini con termini correlati o classi più astratte
mercoledì 16 settembre 2009
Analisi dei Social Media
• L’elicitazione delle preferenze dell’utente è uno degli aspetti più delicati legati alla personalizzazione e filtraggio
• L’utente spesso è poco motivato ad espletare procedure di addestramento (es. votare un insieme di film)
• I meccanismi di elicitazione impliciti (es. osservazione del comportamento, analisi dei click, ecc.) spesso ci forniscono dati troppo rumorosi
• La continua crescita dei Social Media fornisce uno spunto per ovviare a queste problematiche
mercoledì 16 settembre 2009
Analisi dei Social Media (2)
mercoledì 16 settembre 2009
Analisi dei Social Media (3)
mercoledì 16 settembre 2009
Analisi dei Social Media (4)
• I dati disponibili su queste piattaforme rappresentano un buon compromesso
• Sono dati reali, perchè prodotti liberamente dagli utenti
• Forniscono informazioni esplicite sulle preferenze
• Acquisire e processare questi dati può portare a miglioramenti nella costruzione dei profili e nella generazione di raccomandazioni valide
mercoledì 16 settembre 2009
Interoperabilità tra profili utente
• I modelli attuali di raccomandazione non sono ancora così efficaci da permettere la costruzione di un recommender “universale”
• Le informazioni acquisite in uno specifico dominio, però, possono anche essere riutilizzate in altri ambiti
• es) L’acquisto di un Trolley potrebbe suggerire l’utilità di proporre all’utente un viaggio
• es) Una buona recensione di un libro sulla fotografia potrebbe suggerire di proporre all’utente degli accessori
• Cross-Domain Personalization
mercoledì 16 settembre 2009
Cross-Domain Personalization
• Alcune tendenze recenti sottolineano l’utilità di investire in questo ambito (es. OpenID)
• L’obiettivo a lungo termine è quello di creare un’unica “identità” per utente in cui integrare tutte le informazioni
• In contesti di filtragigo e personalizzazione, questi scopi possono essere raggiunti in più modi
• Costruzione di profili analoghi
• Utilizzo di Standard per la Profilazione
mercoledì 16 settembre 2009
APML (www.apml.org)
• APML (www.apml.org)
• Attention Profiling Markup Language
• Linguaggio di modellazione XML-based
• Orientato alla costruzione di “profili di attenzione”
• Racchiude dati “impliciti” ed “espliciti” sulle attività degli utenti in Rete
• Molto utile per scopi di filtraggio e personalizzazione
mercoledì 16 settembre 2009
fine
mercoledì 16 settembre 2009