Selezione del modello Strumenti quantitativi per la …taufer/Slide-pdf/6a SM.pdfS e l z i o n d m f...

transcript

4/20/2015 Selezione del modello (1)

file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 1/18

Selezione del modello

Strumenti quantitativi per la gestioneEmanuele Taufer

Migliorare il modello di regressionelineare (RL)

Un modello di regressione lineare

ha indubbiamente, rispetto a modelli più sofisticati, il pregio dellasemplicità ed interpretabilità dei risultati.

Può essere inoltre competitivo in molte situazioni complesse.

In questa lezione discutiamo di una serie di tecniche per ovviare aiproblemi tipici che si incontrano nelle applicazioni più moderne.

I metodi sono applicabili anche alle tecniche di classificazione

Y = + + + ⋅ ⋅ ⋅ + + εβ0 β1X1 β2X2 βpXp

MetodiTre classi di metodi per affrontare i problemi:

Subset selection: scegliere tra i predittori disponibili quellieffettivamente rilevanti per il problema (anche nel caso in cui

Shrinkage o regolarizzazione: il metodo dei minimi quadrati èmodificato per effettuare la selezione delle variabili in modoautomatico

Riduzione della dimensionalità: in questo caso la numerosità deipredittori, , è ridotta ricorrendo a tecniche di riduzione delladimensionalità dei dati (Componenti principali)

Selezione Best subsetCon questo metodo si comparano tra loro tutte le possibilicombinazioni dei predittori.

1. indica il modello senza predittori (la media di )

2. Per

adattare tutti i possibili modelli con predittori

scegliere il migliore (minor o maggior ) tra questi:chiamiamolo .

3. Si scelga il modello migliore fra usandola cross validazione oppure uno dei seguenti criteri (discussisotto): , , , -corretto.

k = 1, 2, … , p

RSS R2

, , … ,M0 M1 Mp

Cp AIC BIC R2

Nota: non usiamo o per confrontare poichè diminuisce e cresce monotonicamente all’aumentaredel numero di variabili.

Nella regressione logistica, è possibile usare la devianza comeindicatore al passo 2: più piccola è tanto migliore il modello.

Problema: ci sono modelli possibli: , .

RSS R2 , , … ,M0 M1 Mp

RSS R2

2p = 1024210

= 1.048576 ×220 106

Selezione stepwisePer ridurre il carico computazionale dell’approccio best subet èpossibile ricorrere ad algoritmi più semplici.

Le diverse procedure forniscono spesso modelli simili ma noncoincidenti

Stepwise forward

0. : il modello senza predittori (la media di )

1. Scegli il modello migliore con un predittore (usa o ), chiamalo .

2. Considera i modelli ottenuti aggiungendo a unotra i predittori rimasti e scegli il migliore: chiamalo

3. Continua allo stesso modo aggiungendo un predittore pervolta fra i rimanenti

4. Si scelga il modello migliore fra usandola cross validazione oppure uno dei seguenti criteri (discussisotto): , , , -corretto.

p − 1 M1

p − k k = 2, 3, … , p − 1

, , … ,M0 M1 Mp

Cp AIC BIC R2

In totale il metodo forward implica l’adattamento di modelli. Per

Non garantisce di trovare il modello migliore tra i possibili

Inserita una variabile questa non viene più rimossa

E’ applicabile anche quando

1 + p(p + 1)/2p = 20 → 211

Stepwise backward

Simile a forward ma si parte dal un modello con tutte le variabili: levariabili vengono eliminate una alla volta partendo dalle meno rilevanti.

Stepwise ibrido

Cerca di mediare tra i vantaggi e gli svantaggi dei metodi forward ebackward: inizia in modalità forward, ma se necessario, procede inmodalità backward e rimuovere una variabile precedentementeinserita.

Comparazione e scelta fra modelliTipicamente si individuano più modelli di RL che potrebbero essereadatti al problema in esame.

e sono due indicatori dell’errore training dei modelli

Come già discusso, l’obbiettivo è quello di scegliere un modello che haun basso valore di errore test (MSE nella RL)

Per stimare l’errore test ci sono due strategie:

1. stima indiretta attraverso un aggiustamento dell’erroretraining per eliminarne il bias dovuto all’overfitting (metoditradizionali non intensivi dal punto di vista computazionale)

2. stima diretta attraverso la cross validazione o validation setapproach.

RSS R2

Metodi indirettiI metodi indiretti introducono delle penalità collegate all’aumentare delnumero di predittori .

1. di Mallow

2. - (Akaike information criterion)

3. - (Bayesian information criterion)

4. - ( -corretto)

R2a R2

Nota: la simbologia è tradizionale; per evitare confusione, nelleprossime slide definiamo il numero di predittori con .

dove è una stima della varianza di del modello considerato

Il criterio aggiunge una penalità all’ training che tende asottostimare il test error.

produce una stima corretta per il test MSE del modello.

Il modello preferito è quello con minore

= (RSS + 2d )Cp1n

σ̂2 ε

2dσ̂2 RSS

Il criterio di Akaike è basato sulla funzione di verosimiglianza epertanto utilizzabile in diversi contesti.

Nella RL il criterio assume la forma

Nella regressione lineare dunque e sono proporzionali traloro e pertanto portano alla stessa scelta.

AIC = (RSS + 2d )1

nσ̂2 σ̂2

AIC Cp

L’indice è definito come

dove indica il numero di unità training

Analogamente a e il modello con minor valore di èpreferito

Se allora : pone una penalità maggiore rispetto a e e pertanto tende a scegliere modelli più piccoli.

BIC = (RSS + log(n)d )1n

Cp AIC BIC

n > 7 log n > 2 BICCp AIC

-correttoAbbiamo già visto nella lezione sulla RL che

In questo caso il modello preferito è quello con maggiore.

= 1 −R2a

n − 1n − (p + 1)

Dati Credit.csvUn dataset che parzialmente abbiamo già indontrato (data Default). Inquesto caso la variabile dipendente è rappresentata da Balance, loscoperto, che deve essere analizzato sulla base delle altre variabili

credit<‐read.csv("http://www.cs.unitn.it/~taufer/Data/Credit.csv",header=T)head(credit)

X Income Limit Rating Cards Age Education Gender Student Married1 1 14.891 3606 283 2 34 11 Male No Yes2 2 106.025 6645 483 3 82 15 Female Yes Yes3 3 104.593 7075 514 4 71 11 Male No No4 4 148.924 9504 681 3 36 11 Female No No5 5 55.882 4897 357 2 68 16 Male No Yes6 6 80.180 8047 569 4 77 10 Male No No Ethnicity Balance1 Caucasian 3332 Asian 9033 Asian 5804 Asian 9645 Caucasian 3316 Caucasian 1151

str(credit)

'data.frame': 400 obs. of 12 variables: $ X : int 1 2 3 4 5 6 7 8 9 10 ... $ Income : num 14.9 106 104.6 148.9 55.9 ... $ Limit : int 3606 6645 7075 9504 4897 8047 3388 7114 3300 6819 ... $ Rating : int 283 483 514 681 357 569 259 512 266 491 ... $ Cards : int 2 3 4 3 2 4 2 2 5 3 ... $ Age : int 34 82 71 36 68 77 37 87 66 41 ... $ Education: int 11 15 11 11 16 10 12 9 13 19 ... $ Gender : Factor w/ 2 levels " Male","Female": 1 2 1 2 1 1 2 1 2 2 ... $ Student : Factor w/ 2 levels "No","Yes": 1 2 1 1 1 1 1 1 1 2 ... $ Married : Factor w/ 2 levels "No","Yes": 2 2 1 1 2 1 1 1 1 2 ... $ Ethnicity: Factor w/ 3 levels "African American",..: 3 2 2 2 3 3 1 2 3 1 ... $ Balance : int 333 903 580 964 331 1151 203 872 279 1350 ...

Confronto grafico , , Cp BIC R2a

Confronto grafico -crossvalidazione

Riferimenti bibliograficiAn Introduction to Statistical Learning, with applications in R.(Springer, 2013)

Alcune delle figure in questa presentazione sono tratte dal testo con ilpermesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani

Selezione del modello Strumenti quantitativi per la …taufer/Slide-pdf/6a SM.pdfS e l z i o n d m f...

Documents