+ All Categories
Home > Documents > Francesco Cutugno

Francesco Cutugno

Date post: 11-Feb-2016
Category:
Upload: gittel
View: 76 times
Download: 0 times
Share this document with a friend
Description:
Francesco Cutugno. Classificazione - WEKA. #. Classificazione Clusterizzazione Machine learning. Informatica. Data Warehouse. [email protected]. Sommario. Concetti di base Features Apprendimento supervisionato Apprendimento non supervisionato - PowerPoint PPT Presentation
15
Lezione n. Parole chiave: Corso di Laurea: Insegnamento: Email Docente: A.A. 2009-2010 Francesco Cutugno Classificazione - WEKA # Classificazione Clusterizzazione Machine learning Informatica Data Warehouse [email protected]
Transcript
Page 1: Francesco Cutugno

Lezione n. Parole chiave:

Corso di Laurea:

Insegnamento:

Email Docente:

A.A. 2009-2010

Francesco CutugnoClassificazione - WEKA

#ClassificazioneClusterizzazioneMachine learning

Informatica

Data Warehouse

[email protected]

Page 2: Francesco Cutugno

Sommario• Concetti di base

• Features

• Apprendimento supervisionato

• Apprendimento non supervisionato

• Classi di algoritmi di machine learning

• Valutazione

• WEKA

• RapidMiner

Page 3: Francesco Cutugno

Oggetti conosciuti

Oggetti sconosciuti Risposta

Machine learning

Page 4: Francesco Cutugno

FeaturesGli oggetti esistono solo in termini delle caratteristiche registrate

Ogni tipo di analisi automatica riguardante un insieme di oggetti è vincolata a come questi sono stati descritti

Se chiedessimo ad un algoritmo di machine learning di risolvere un problema senza fornire le caratteristiche importanti per tale

scopo?

Page 5: Francesco Cutugno

Apprendimento non supervisionato – Esempio

Page 6: Francesco Cutugno

Apprendimento supervisionato – Esempio

A

A

A BB

B

B A

D

D

DD

C

CC

C

Page 7: Francesco Cutugno

Le istanze sconosciuteNella maggior parte dei casi il dominio delle features è continuo

Tracciare confini di decisione troppo approssimati può rendere la classificazione delle istanze vicine a tali confini praticamente casuale

In ogni caso, verrà fornita una risposta in base alle maggiori probabilità di appartenenza di un oggetto ad una classe piuttosto che ad un'altra

? ?

Page 8: Francesco Cutugno

Clustering

Page 9: Francesco Cutugno

Regressione

Page 10: Francesco Cutugno

Training Set

Test set Classificatore

Classe 1

Classe n

.

.

.

.

.

.

Classificazione

Page 11: Francesco Cutugno

Misure di valutazione

fptptp

Precision

fntptp

Recall

fpfntntptntp

Accuracy

RPRPF

2

2 )(1

True X True YLabeled X True positives False positivesLabeled Y False negatives True negatives

Page 12: Francesco Cutugno

Generalizzazione

step

Page 13: Francesco Cutugno

Cross validation

1

2

10

Page 14: Francesco Cutugno

Il formato ARFFIl formato ARFF è composto da un header, all'interno del quale viene descritta l'organizzazione dei dati, e da una sezione data, all'interno della quale vengono registrati i valori delle features secondo lo schema descritto nell'header. Di seguito riportiamo un esempio sul dataset di riferimento iris:

% 1. Title: Iris Plants Database % % 2. Sources: % (a) Creator: R.A. Fisher % (b) Donor: Michael Marshall (MARSHALL%[email protected]) % (c) Date: July, 1988 % @RELATION iris @ATTRIBUTE sepallength NUMERIC @ATTRIBUTE sepalwidth NUMERIC @ATTRIBUTE petallength NUMERIC @ATTRIBUTE petalwidth NUMERIC @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}

@DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa 5.0,3.6,1.4,0.2,Iris-setosa 5.4,3.9,1.7,0.4,Iris-setosa 4.6,3.4,1.4,0.3,Iris-setosa 5.0,3.4,1.5,0.2,Iris-setosa ...

Page 15: Francesco Cutugno

<dataset name="iris" version="3.5.3"> <header> <attributes> <attribute name="sepallength" type="numeric"/> <attribute name="sepalwidth" type="numeric"/> <attribute name="petallength" type="numeric"/> <attribute name="petalwidth" type="numeric"/> <attribute class="yes" name="class" type="nominal"> <labels> <label>Iris-setosa</label> <label>Iris-versicolor</label> <label>Iris-virginica</label> </labels> </attribute> </attributes> </header> <body> <instances> <instance> <value>5.1</value> <value>3.5</value> <value>1.4</value> <value>0.2</value> <value>Iris-setosa</value> </instance> ... </instances> </body> </dataset>

Il formato XRFF - Esempio


Recommended