Post on 11-Jan-2020
transcript
4/20/2015 Selezione del modello (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 1/18
Selezione del modello
Strumenti quantitativi per la gestioneEmanuele Taufer
4/20/2015 Selezione del modello (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 2/18
Migliorare il modello di regressionelineare (RL)
Un modello di regressione lineare
ha indubbiamente, rispetto a modelli più sofisticati, il pregio dellasemplicità ed interpretabilità dei risultati.
Può essere inoltre competitivo in molte situazioni complesse.
In questa lezione discutiamo di una serie di tecniche per ovviare aiproblemi tipici che si incontrano nelle applicazioni più moderne.
I metodi sono applicabili anche alle tecniche di classificazione
Y = + + + ⋅ ⋅ ⋅ + + εβ0 β1X1 β2X2 βpXp
4/20/2015 Selezione del modello (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 3/18
MetodiTre classi di metodi per affrontare i problemi:
Subset selection: scegliere tra i predittori disponibili quellieffettivamente rilevanti per il problema (anche nel caso in cui
)
Shrinkage o regolarizzazione: il metodo dei minimi quadrati èmodificato per effettuare la selezione delle variabili in modoautomatico
Riduzione della dimensionalità: in questo caso la numerosità deipredittori, , è ridotta ricorrendo a tecniche di riduzione delladimensionalità dei dati (Componenti principali)
p > n
p
4/20/2015 Selezione del modello (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 4/18
Selezione Best subsetCon questo metodo si comparano tra loro tutte le possibilicombinazioni dei predittori.
1. indica il modello senza predittori (la media di )
2. Per
adattare tutti i possibili modelli con predittori
scegliere il migliore (minor o maggior ) tra questi:chiamiamolo .
3. Si scelga il modello migliore fra usandola cross validazione oppure uno dei seguenti criteri (discussisotto): , , , -corretto.
p
M0 Y
k = 1, 2, … , p
( )pk
k
RSS R2
Mk
, , … ,M0 M1 Mp
Cp AIC BIC R2
4/20/2015 Selezione del modello (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 5/18
Nota: non usiamo o per confrontare poichè diminuisce e cresce monotonicamente all’aumentaredel numero di variabili.
Nella regressione logistica, è possibile usare la devianza comeindicatore al passo 2: più piccola è tanto migliore il modello.
Problema: ci sono modelli possibli: , .
RSS R2 , , … ,M0 M1 Mp
RSS R2
2p = 1024210
= 1.048576 ×220 106
4/20/2015 Selezione del modello (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 6/18
Selezione stepwisePer ridurre il carico computazionale dell’approccio best subet èpossibile ricorrere ad algoritmi più semplici.
Le diverse procedure forniscono spesso modelli simili ma noncoincidenti
Stepwise forward
0. : il modello senza predittori (la media di )
1. Scegli il modello migliore con un predittore (usa o ), chiamalo .
2. Considera i modelli ottenuti aggiungendo a unotra i predittori rimasti e scegli il migliore: chiamalo
3. Continua allo stesso modo aggiungendo un predittore pervolta fra i rimanenti
4. Si scelga il modello migliore fra usandola cross validazione oppure uno dei seguenti criteri (discussisotto): , , , -corretto.
M0 Y
RSS
R2 M1
p − 1 M1
M2
p − k k = 2, 3, … , p − 1
, , … ,M0 M1 Mp
Cp AIC BIC R2
4/20/2015 Selezione del modello (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 7/18
In totale il metodo forward implica l’adattamento di modelli. Per
Non garantisce di trovare il modello migliore tra i possibili
Inserita una variabile questa non viene più rimossa
E’ applicabile anche quando
1 + p(p + 1)/2p = 20 → 211
2p
p > n
4/20/2015 Selezione del modello (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 8/18
Stepwise backward
Simile a forward ma si parte dal un modello con tutte le variabili: levariabili vengono eliminate una alla volta partendo dalle meno rilevanti.
Stepwise ibrido
Cerca di mediare tra i vantaggi e gli svantaggi dei metodi forward ebackward: inizia in modalità forward, ma se necessario, procede inmodalità backward e rimuovere una variabile precedentementeinserita.
p
4/20/2015 Selezione del modello (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 9/18
Comparazione e scelta fra modelliTipicamente si individuano più modelli di RL che potrebbero essereadatti al problema in esame.
e sono due indicatori dell’errore training dei modelli
Come già discusso, l’obbiettivo è quello di scegliere un modello che haun basso valore di errore test (MSE nella RL)
Per stimare l’errore test ci sono due strategie:
1. stima indiretta attraverso un aggiustamento dell’erroretraining per eliminarne il bias dovuto all’overfitting (metoditradizionali non intensivi dal punto di vista computazionale)
2. stima diretta attraverso la cross validazione o validation setapproach.
RSS R2
4/20/2015 Selezione del modello (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 10/18
Metodi indirettiI metodi indiretti introducono delle penalità collegate all’aumentare delnumero di predittori .
1. di Mallow
2. - (Akaike information criterion)
3. - (Bayesian information criterion)
4. - ( -corretto)
p
Cp
AIC
BIC
R2a R2
4/20/2015 Selezione del modello (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 11/18
Nota: la simbologia è tradizionale; per evitare confusione, nelleprossime slide definiamo il numero di predittori con .
dove è una stima della varianza di del modello considerato
Il criterio aggiunge una penalità all’ training che tende asottostimare il test error.
produce una stima corretta per il test MSE del modello.
Il modello preferito è quello con minore
Cp
Cp
d
= (RSS + 2d )Cp1n
σ̂2
σ̂2 ε
2dσ̂2 RSS
Cp
Cp
4/20/2015 Selezione del modello (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 12/18
Il criterio di Akaike è basato sulla funzione di verosimiglianza epertanto utilizzabile in diversi contesti.
Nella RL il criterio assume la forma
Nella regressione lineare dunque e sono proporzionali traloro e pertanto portano alla stessa scelta.
AIC
AIC = (RSS + 2d )1
nσ̂2 σ̂2
AIC Cp
4/20/2015 Selezione del modello (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 13/18
L’indice è definito come
dove indica il numero di unità training
Analogamente a e il modello con minor valore di èpreferito
Se allora : pone una penalità maggiore rispetto a e e pertanto tende a scegliere modelli più piccoli.
BIC
BIC
BIC = (RSS + log(n)d )1n
σ̂2
n
Cp AIC BIC
n > 7 log n > 2 BICCp AIC
4/20/2015 Selezione del modello (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 14/18
-correttoAbbiamo già visto nella lezione sulla RL che
In questo caso il modello preferito è quello con maggiore.
R2
= 1 −R2a
n − 1n − (p + 1)
RSS
TSS
R2a
4/20/2015 Selezione del modello (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 15/18
Dati Credit.csvUn dataset che parzialmente abbiamo già indontrato (data Default). Inquesto caso la variabile dipendente è rappresentata da Balance, loscoperto, che deve essere analizzato sulla base delle altre variabili
credit<‐read.csv("http://www.cs.unitn.it/~taufer/Data/Credit.csv",header=T)head(credit)
X Income Limit Rating Cards Age Education Gender Student Married1 1 14.891 3606 283 2 34 11 Male No Yes2 2 106.025 6645 483 3 82 15 Female Yes Yes3 3 104.593 7075 514 4 71 11 Male No No4 4 148.924 9504 681 3 36 11 Female No No5 5 55.882 4897 357 2 68 16 Male No Yes6 6 80.180 8047 569 4 77 10 Male No No Ethnicity Balance1 Caucasian 3332 Asian 9033 Asian 5804 Asian 9645 Caucasian 3316 Caucasian 1151
str(credit)
'data.frame': 400 obs. of 12 variables: $ X : int 1 2 3 4 5 6 7 8 9 10 ... $ Income : num 14.9 106 104.6 148.9 55.9 ... $ Limit : int 3606 6645 7075 9504 4897 8047 3388 7114 3300 6819 ... $ Rating : int 283 483 514 681 357 569 259 512 266 491 ... $ Cards : int 2 3 4 3 2 4 2 2 5 3 ... $ Age : int 34 82 71 36 68 77 37 87 66 41 ... $ Education: int 11 15 11 11 16 10 12 9 13 19 ... $ Gender : Factor w/ 2 levels " Male","Female": 1 2 1 2 1 1 2 1 2 2 ... $ Student : Factor w/ 2 levels "No","Yes": 1 2 1 1 1 1 1 1 1 2 ... $ Married : Factor w/ 2 levels "No","Yes": 2 2 1 1 2 1 1 1 1 2 ... $ Ethnicity: Factor w/ 3 levels "African American",..: 3 2 2 2 3 3 1 2 3 1 ... $ Balance : int 333 903 580 964 331 1151 203 872 279 1350 ...
4/20/2015 Selezione del modello (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 16/18
Confronto grafico , , Cp BIC R2a
4/20/2015 Selezione del modello (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 17/18
Confronto grafico -crossvalidazione
BIC
4/20/2015 Selezione del modello (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 18/18
Riferimenti bibliograficiAn Introduction to Statistical Learning, with applications in R.(Springer, 2013)
Alcune delle figure in questa presentazione sono tratte dal testo con ilpermesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani