+ All Categories
Home > Education > introduzione al data mining

introduzione al data mining

Date post: 13-Nov-2014
Category:
Upload: stefano-de-rossi
View: 3,195 times
Download: 2 times
Share this document with a friend
Description:
introduzione al data mining, definizione, storia e principali tecniche descrittive e predittive powered by admind
38
Data Mining e modelli previsionali Roma 13 settembre 2011
Transcript
Page 1: introduzione al data mining

Data Mining e modelli

previsionali

Roma 13 settembre 2011

Page 2: introduzione al data mining

PARTIAMO

Page 3: introduzione al data mining

Processo di estrazione di conoscenzada banche dati di grandi dimensioni tramite l’applicazione di algoritmi che individuano le associazioni “nascoste”tra le informazioni e le rendono visibili.

Che cosChe cosChe cosChe cos’è’è’è’è il Data il Data il Data il Data MiningMiningMiningMining

Processo di esplorazione ed analisi, automatico o semi-automatico, di un’ampia mole di dati al fine di scoprire modelli e regole significative

Page 4: introduzione al data mining

PerchPerchPerchPerchèèèè usare gli strumenti di data usare gli strumenti di data usare gli strumenti di data usare gli strumenti di data miningminingminingmining

Gli algoritmi di Data Mining sono stati sviluppati per far fronte all’esigenza di sfruttare il patrimonio informativo contenuto nelle grandi raccolte di dati che si hanno a disposizione.

Acquisire informazioni non èun problema se si pensa alla ricchezza delle sorgenti di dati accessibili sul web o attraverso Data Warehouseaziendali, il problema èutilizzarle.

volumevolume

valore

dati

informazione

conoscenza

decisione

Page 5: introduzione al data mining

Il processo di estrazione di conoscenza (KDD)Il processo di estrazione di conoscenza (KDD)Il processo di estrazione di conoscenza (KDD)Il processo di estrazione di conoscenza (KDD)

Data Mining come parte di un processo più generale definito Knowledge Discovery in Database (KDD)

Essenza del Data Mining è la trasformazione dei dati in risultati applicabili

Page 6: introduzione al data mining

Data Mining

Database Technology Statistica

Altre disciplineInformationScience

MachineLearning Visualizzazione

Il data Il data Il data Il data miningminingminingmining èèèè la somma di discipline diversela somma di discipline diversela somma di discipline diversela somma di discipline diverse

Page 7: introduzione al data mining

Una prospettiva storicaUna prospettiva storicaUna prospettiva storicaUna prospettiva storica

1960 1970 1980 1990-2000

Raccolta dati,modelli gerarchici e relazionali

Diffusione DBMS relazionali commerciali

Modello relazionale dei dati, primi DMBS relazionali

Data mining e data warehousing

Modelli predittivi

2000-2011

Page 8: introduzione al data mining

Una prospettiva storicaUna prospettiva storicaUna prospettiva storicaUna prospettiva storica

1960 1970 1980 1990-2000

Raccoltadati

Quanto ho venduto negli ultimi 3 anni

Accessoai dati

Quanto ho venduto al Nordlo scorso gennaio?

Viste le vendite al nord, quale è il

dettaglio per città?

Query a database

Data Mining

Perché vendiamo di più in alcune

città?

1990-2000

Modellipredittivi

Dove/a chi potrò vendere di più?

Page 9: introduzione al data mining

Il ciclo virtuoso del data Il ciclo virtuoso del data Il ciclo virtuoso del data Il ciclo virtuoso del data miningminingminingmining

Individuazionedei problemi e dei settori di business

per cui l’analisi può essere utile

Trasformazionein informazioni applicabili (actionable)

con le tecniche del data mining

Azionesulla base delle informazioni

MisurazioneDei risultati ottenuti per avere info utili

su come utilizzare al meglio i dati

Page 10: introduzione al data mining

Data Data Data Data MiningMiningMiningMining e Business Intelligencee Business Intelligencee Business Intelligencee Business Intelligence

La business intelligence è un insieme di processi e sistemi che consentono di trasformare i dati generati dalle attività aziendali in informazioni.

Il data mining è una “tecnica” di Business Intelligence

Page 11: introduzione al data mining

Ambiente dati a supporto

delle decisionimanageriali

IntegratoSubject-orientedNon Volatile

Tante fonti eterogenee

racchiuse in un unico contenitore

Creazionevantaggio competitivo

Pianificazionestrategie di medio-lungoperiodoOttimizzazione

dei processi

KnowledgeDiscovery in Database

Data Data Data Data MiningMiningMiningMining, Data , Data , Data , Data WarehouseWarehouseWarehouseWarehouse e Business Intelligencee Business Intelligencee Business Intelligencee Business Intelligence

Page 12: introduzione al data mining

Data Data Data Data MiningMiningMiningMining e OLAPe OLAPe OLAPe OLAP

OLAP

Analisi del contenuto attraverso lo studio di aggregazioni guidate

dall’utente

Data Mining

“estrazione di conoscenza (non banale, implicita, nuova, potenzialmente

utile) da grandi quantità di informazioni”

Cosa sta succedendo

Perché sta succedendo

Page 13: introduzione al data mining

PREVISIONE

DataMining

RAGGRUPPAMENTO

CLASSIFICAZIONE

DESCRIZIONEVISUALIZZAZIONE

STIMA

CLUSTERING

Data mining“diretto”

i dati disponibili vengono usati per creare un

modello che descriva una variabile

Data mining“indiretto”

si cerca di stabilire una ben precisa relazione tra tutte le variabili in gioco

Cosa Cosa Cosa Cosa puopuopuopuo’’’’ fare il data fare il data fare il data fare il data miningminingminingmining: aree di applicazioni: aree di applicazioni: aree di applicazioni: aree di applicazioni

Page 14: introduzione al data mining

Contesto applicativo: obiettivi e tecnicheContesto applicativo: obiettivi e tecnicheContesto applicativo: obiettivi e tecnicheContesto applicativo: obiettivi e tecniche

CLASSIFICAZIONE SEGMENTAZIONE PREVISONE ANALISI ASSOCIAZIONI

CLASSIFICAZIONE

FRAUD DETECTION

CLUSTER ANALYSIS

CREDIT SCORING

CROSS SELLING

SCORING PROMOZIONALE

CHURN ANALYSIS

Page 15: introduzione al data mining

Contesto applicativoContesto applicativoContesto applicativoContesto applicativo

DATA MINING

SUB POINT

EFFICIENTE DISTRIBUZIONE

RISORSE

INDIVIDUAZIONE TARGET

REMUNERATIVI

OPPORTUNITA’DI CRESCITA

AUMENTO PRODUTTIVITA’

UP/ CROSS SELLING

FIDELIZZAZIONE

RIDUZIONE RISCHI FRODE

Page 16: introduzione al data mining

Contesto applicativo: alcuni esempiContesto applicativo: alcuni esempiContesto applicativo: alcuni esempiContesto applicativo: alcuni esempi

Page 17: introduzione al data mining

Contesto tecnico: 3 pilastri del data Contesto tecnico: 3 pilastri del data Contesto tecnico: 3 pilastri del data Contesto tecnico: 3 pilastri del data miningminingminingmining

MODELLIEFFICACI

I DATI

DATA MINING

TECNICHE

Page 18: introduzione al data mining

Tecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversi

Le tecniche di data mining non sono altro che un generale approccio alla soluzione dei problemi ed esistono molti modi perrealizzarle.

Ognuno di questi modi rappresenta un diverso algoritmo.

tecnica

algoritmo

La tecnica è l’approccio concettuale che porta all’estrazione delle informazioni dai dati

È il la formula che viene utilizzata per l’implementazione di una tecnica

Page 19: introduzione al data mining

Tecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversi

Il data mining puo’ essere descrittivo, o prescrittivo in base all’obiettivo dell’analisi che si sta svolgendo

DESCRITTIVO

PRESCRITTIVO

TECNICHE

L’obiettivo è approfondire la conoscenza di cio’ che avviene all’interno dei dati e quindi del mondo che rispecchiano. Le azioni non possono essere automatizzate

L’obiettivo principale è l’automazione del processo decisionale ottenuta creando un modello in grado di dare una previsione o stimare un valore

Page 20: introduzione al data mining

Tre tecniche di data Tre tecniche di data Tre tecniche di data Tre tecniche di data miningminingminingmining

Con il termine cluster si intende un gruppo di unità simili o vicine tra loro, dal punto di vista della posizione o della composizione

CLUSTERING

K-Means Method

Page 21: introduzione al data mining

Tre tecniche di data Tre tecniche di data Tre tecniche di data Tre tecniche di data miningminingminingmining

Un albero di decisione viene utilizzato per classificare le istanze di grandi quantità di dati (per questo viene anche chiamato albero di classificazione). In questo ambito un albero di decisione descrive una struttura ad albero dove i nodi foglia rappresentano le classificazioni e le ramificazioni l'insieme delle proprietà che portano a quelle classificazioni.

ALBERI DECISIONALI

Page 22: introduzione al data mining

Tre tecniche di data Tre tecniche di data Tre tecniche di data Tre tecniche di data miningminingminingmining

Le reti neurali rappresentano la tecnica più nota di data mining, ma forse anche la meno compresa. Ciò è dovuto in gran parte alla terminologia delle scienze cognitive da cui deriva il suo nome.

L’obiettivo dei primi modelli era infatti replicare il comportamento delle cellule nervose umane.

Le reti neurali dal punto di vista del data mining non sono altro che un metodo per applicare un modello a dati storici al fine di poter ricavar classificazioni o previsioni.

RETI NEURALI

Page 23: introduzione al data mining

Modelli di reti neuraliModelli di reti neuraliModelli di reti neuraliModelli di reti neurali

Page 24: introduzione al data mining

Contesto tecnico: 3 pilastri del data Contesto tecnico: 3 pilastri del data Contesto tecnico: 3 pilastri del data Contesto tecnico: 3 pilastri del data miningminingminingmining

MODELLIEFFICACI

I DATI

DATA MINING

TECNICHE

Page 25: introduzione al data mining

I 3 pilastri del data I 3 pilastri del data I 3 pilastri del data I 3 pilastri del data miningminingminingmining: dati: dati: dati: dati

Il secondo pilastro su cui poggia il data mining è rappresentato dai dati utilizzati nel processo: senza di essi, il data mining non sarebbe possibile e potrebbe contare solamente su qualche intuizione.

I dati assumono le forme più disparate, sono di tipo diversi e si trovano in molti sistemi; sono “quasi sempre” sporchi, incompleti e talvolta indecifrabili.

I dati sono la

materia prima del

data mining

Page 26: introduzione al data mining

Contesto tecnico: 3 pilastri del data Contesto tecnico: 3 pilastri del data Contesto tecnico: 3 pilastri del data Contesto tecnico: 3 pilastri del data miningminingminingmining

MODELLIEFFICACI

I DATI

DATA MINING

TECNICHE

Page 27: introduzione al data mining

I 3 pilastri del data I 3 pilastri del data I 3 pilastri del data I 3 pilastri del data miningminingminingmining: modellazione: modellazione: modellazione: modellazione

Il terzo pilastro è rappresentato da una serie di competenze di modellistica necessarie per costruire modelli.

Il data mining viene applicato per lo più per costruire modelli previsionali che rilevano pattern significativi sui dati accumulati al fine di fare previsioni relative ad esiti futuri.

Lo scopo dei modelli è l’utilizzo delle previsioni per prendere decisioni più informate.

Page 28: introduzione al data mining

2 stili di data 2 stili di data 2 stili di data 2 stili di data miningminingminingmining

SUPERVISIONATO

NON SUPERVISIONATO

STILI DI DATA MINING

E’ un approccio top-down applicabile quando sappiamo che cosa stiamo cercando, ed assume spesso la forma di modelli previsionali.

E’ un approccio bottom–up in cui si lascia che i dati stessi indichino un risultato.Spetta all’utente stabilirne l’importanza.

I modelli predittivi realizzabili con gli strumenti di data mining sono essenzialmente di due tipi:

Page 29: introduzione al data mining

29

The Predictive Analytics Process:The Predictive Analytics Process:The Predictive Analytics Process:The Predictive Analytics Process:

Decision Optimization

Recommend the mostappropriate actionto take

EnterpriseData Sources

Read new data on customers, events, etc. for continuous improvement

Predictive Analytics

Analyze data toprovide insight andpredict the future

Acquisire

Modelli predittivi

�Improve customer retention

�Grow share of wallet

�Minimize risk

�Increase customer satisfaction

� Enhance market share

Prospects

Customers Constituents

Employees

Students Patients

Agire

DashboardsKiosks / MobileCRM / ERPSterling Apps

Page 30: introduzione al data mining

I modelli previsionaliI modelli previsionaliI modelli previsionaliI modelli previsionali

Il modello predittivo è rappresentato da una black box: a volte non interessa il meccanismo di funzionamento ma interessa la migliore previsione possibile.

Page 31: introduzione al data mining

Costruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionali

Page 32: introduzione al data mining

Costruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionali

Page 33: introduzione al data mining

Dati dipendenti dal tempoDati dipendenti dal tempoDati dipendenti dal tempoDati dipendenti dal tempo

Il passato serve a prevedere il futuro

Per costruire un modello efficace, i dati nel set di costruzione devono imitare il timeframe in cui il modello verrà applicato

Page 34: introduzione al data mining

Misurazione dellMisurazione dellMisurazione dellMisurazione dell’’’’efficaciaefficaciaefficaciaefficacia

Matrice di Confusione: matrice che permette di individuare quali tra le previsioni fornite dal modello previsionale siano corrette e quali errate

Curva Lift: grafico che raffigura le prestazioni di un modello previsionale come funzione della dimensione del campione.

Page 35: introduzione al data mining

Il confronto tra modelli predittivi: le curve ROC Il confronto tra modelli predittivi: le curve ROC Il confronto tra modelli predittivi: le curve ROC Il confronto tra modelli predittivi: le curve ROC

Le curve ROC furono utilizzate per la prima volta da alcuni ingegneri elettrici durante la seconda guerra mondiale, che volevano scovare i nemici utilizzando il radar durante le battaglie. Recentemente invece le curve ROC sono utilizzate anche in medicina, radiologia, psicologia, veterinaria e altri ambiti, come machine learning e data mining.

La statistica di sintesi per valutare l’accuratezza di un modello predittivo è l’area sottesa alla curva (AUC)

Page 36: introduzione al data mining

Data Data Data Data miningminingminingmining e fraud managemente fraud managemente fraud managemente fraud management

Grandi quantità di dati

Associazioni nascoste

Trasformazione dei dati in risultati applicabili

Modelli previsionali

Page 37: introduzione al data mining
Page 38: introduzione al data mining

38

Stefano M. de [email protected]

www.admind.it

www.andreadimartino.wordpress.com

www.facebook.com/admind


Recommended