Post on 23-Feb-2016
description
transcript
Modello di Cox
• E’ un modello di regressione che esplora la relazione tra la hazard e ipotetiche determinanti.
• L’assunzione principale è che l’effetto delle determinanti sia proporzionale, se assumiamo un soggetto i come baseline, misuriamo di quanto le determinanti relative ad un altro soggetto aumentano la hazard. NON è NECESSARIO determinare il valore numerico della baseline
• Quindi misura il rischio RELATIVO, non quello assoluto
• NON è necessario specificare la baseline
2
Assunzioni del Modello di Cox
• Gli hazards sono proporzionali: il rischio di ogni individuo è una proporzione fissa del rischio di ogni altro individuo (parziale revisione di questa ipotesi in seguito)
• Quindi si parla di “Multiplicative risk”
Modello di Cox
• Dove λ(t,z) è la hazard al tempo t per il soggetto che ha covariate z=(z1,z2,….,zp)
• λ0(t) è la baseline cioè la hazard di chi ha z=(0,0,0,0,…0)
• βi Misura l’effetto moltiplicativo de covariata I, è un coefficiente di regressione stimato via max verosimiglianza (bi) PARZIALE (dopo)
)...(0
2211)(),( ppzzzetzt
Esempio:hazard per i=2 è 5 volte quella per i=1 0
.01
.02
.03
.04
.05
haza
rd
0 50 100 150 200analysis time
Patient 1 Patient 2
Per nisurare l’effetto relativo non è necessario specificare la λ0(t)
• Supponiamo λ0(t) = A (baseline) • Un modello con una sola covariata X• Un coefficiente stimato = 0.5 • 2 soggetti con X=7 e X=4
• Il rapporto tra gli hazard, cioè la misura dell’effetto della X sulla baseline non contiene la baseline (A)
48.45.145.0
75.0
eAeAe
6
In simboli
)(...)(...
0
...0
,1111
11
11
)()(
)()( jkikji
jkkj
ikki xxxxxx
xx
j
iji e
etet
thth
HR
hazards proporzionali:
Implica Hazard functions parallele!
Misura il rischio “aggiustato” per le altre variabili
Hazard persona j (es. Non-fumatore)
Hazard persona i (es fumatore)
Hazard ratio
Consideriamo un modello “semplice”
• Il rapporto tra gli hazard, cioè la misura dell’effetto della X sulla baseline non contiene la baseline (A)
kk
kk
x
eAeA
xeffettokxperrischioeAext
kxperbaselineAext
xperext
0
0
0)(
0
0)(
0
)(0
""),(
),(
0),(
65.1
545.0
5.02
5.2
4*5.0
5*5.0
21
eAeAe
AeAe
xxesempio
In sostanza si tratta di stimare il modello senza intercetta il che significa rinunciare a specificare la “forma del rischio “base”
Un incremento unitario di x aumenta il rischio di circa il 65%, qualunque sia la forma e l’entità della “baseline”
0
2
4
6
8
10
12
14
16
18
0 0,2 0,4 0,6 0,8 1 1,2 1,4
Baselinex=1
In generale:
• Se UNA covariata aumenta di una unità, rispetto al valore precedente il rapporto tra gli hazard è:
• Quindi ogni β è il logaritmo dell’incremento di hazard che si verifica in corrispondenza di un incremento unitario della rispettiva covariata
jj
jj
jj
eeetet xx
xx
xx
)1(
...)1(..0
.....0
11
11
)()(
Interpretazione dei coefficienti
• Un coefficiente>1 indica che la covariata incrementa il rischio
• Un coefficiente<1 indica che la covariata diminuisce il rischio
• Un coefficiente=1 indica che la covariata e il rischio sono indipendenti
Come si leggono i βj?
• Se una covariata aumenta di una unità, rispetto al valore precedente il rapporto tra gli hazard è:
• Quindi β è il logaritmo dell’incremento di hazard che si verifica in corrispondenza di un incremento unitario della covariata
ee
etet zz
zx
xz
)1(
...)1(0
...0
)()(
13
Consideriamo un predittore binario(fumatore/non fumatore di 60 anni)
smoking
smoking
agesmoking
agesmoking
eHR
eetet
ththHR
smoking
j
ismoking
)01(
)60()0(0
)60()1(0
)()(
)()(
Questo è il rischio di un fumatore, aggiustato per l’età
14
Consideriamo un predittore continuo (età)
)10(agein increase 10
)6070()60()0(
0
)70()0(0
agein increase 10 )()(
)()(
age
age
agesmoking
agesmoking
eHR
eetet
ththHR
years
j
iyears
Exp (coefficiente) misura l’hazard ratio corrispondente ad un incremento unitario del predittore continuo.
Questo è l’hazard ratio per un incremento di 10 anni di età, aggiustato per l’abitudine al fumo.
15
The “Partial Likelihood” (PL)
m
iip LL
1
)(β
Quando ci sono m TEMPI DI EVENTO e Li è partial likelihood per il ith tempo:
Definiamo verosimiglianza parziale:
16
La verosimiglianza di un singolo evento:
))18()18(()
)12()12()12((
))4(....)4(
)4(())3()3()3()3()3(
)3((
))1()1()1()1()1()1(
)1(()(
6
6
65
5
63
3
65432
2
654321
1
1
hh
hhh
hhh
hhhhhh
hhhhhhhLL
m
iip
β
Consideriamo questi dati di durataUomini: 1, 3, 4, 10+, 12, 18 (indichiamo con j=1-6 I soggetti)
Dato che un evento si verifica al tempo =3, questa è la probabilità che capiti al soggetto 2 piuttosto che a tutti gli altri ancora nello stato, cioè a rischio.
Il “risk set”
Nota: nella ML c’è un termine per ciascun evento NON per ciascun individuo il termine al numeratore indica il NUMERO di EVENTI
17
Se sostituiamo la h con la sua formulazione secondo COX la PL diventa
))18()18((
....
))1()1()1()1()1()1(
)1((
)(
6
6
654321
1
0
0
000000
0
1
βx
βx
βxβxβxβxβxβx
βx
β
ee
eeeeeet
LLm
iip
1 ....)()(654321
1
1
βxβxβxβxβxβx
βx
βeeeee
eLLm
iip
18
La PL
])log([)(log)(1
i
j
tRjj
m
ijp eL βxβxβ
m
i
tRj
pj
i
j
j
e
eL1
)(
)()(
βx
βx
β
Dove è l’indicatore della censura e (1=conclusa, 0 se censura) e R(ti) è il risk set al tempo ti
j
Metodi di stima e test usuali per MLE
covariata B sd Wald Sig. exp(b)celibe 0,442 .122 13.117 .000 1,556anni perm. indir. attuale 0,061 .009 50.409 .000 0,941anni occ. -0,083 .010 73.287 .000 0,920
Esempio: var.dip. Durata del contratto con gestore telefonico Stima:
• Il rischio di scissione del contratto per un celibe è 1,5 volte quello di un coniugato
• Ogni anno di permanenza all’indirizzo attuale riduce il rischio del 100%-(100%x0.941)=5.9%
• Ogni anno di occupazione riduce il rischio del 100%-(100%x0.920)=8.0%
Esempio: aggiungiamo il tipo di contratto
covariata B SE Wald Sig. Exp(B)celibe .432 .123 12.358 .000 1.541anni perm. indir. attuale -.061 .009 49.768 .000 .940anni occupazione -.081 .010 67.141 .000 .922Total service BASE 28.506 .000Basic-serv. .121 .155 .612 .434 1.129E-service -.574 .170 11.450 .001 .563Plus-service -.658 .186 12.479 .000 .518
23
Test sulla proporzionalità degli hazard:
costante HR ratio hazardcon dove ;)()( :implica tHRhth ji
)(...)(...
0
...0
,1111
11
11
)()(
)()( jkikji
jkkj
ikki xxxxxx
xx
j
iji e
etet
thth
HR
Riprendiamo l’ipotesi di hazards proporzionali:
Hazard persona j (es. Non-fumatore)
Hazard persona i (es fumatore)
Hazard ratio
24
Ricordiamo anche la relazione tra hazard e survival…
txdueu
e 00 ))((
ii (t)St)(XP
t
duuh
e 0
))((
S(t) :hazard dalla Survival
ixi etth )()( 0
25
Il test si basa sul confronto tra le survival
)()( tHRhth ji
))((
)()(
0
00
)(
)( and)(
t
t
j
t
j
duuhHR
i
duuHRh
i
duuh
j
etS
etSetS
HRji
HRduuh
i tStSetSt
)()()()())((
0
)(log)(log)(log)(log tSHRtStStS jiHR
ji
)()(
))(loglog(log))(loglog(
))(loglog())(loglog(
tXKtY
tSHRtS
tSHRtS
ji
ji
Cambio segno e log di nyuovo
Cioè: i log(-log) delle survival are parallel, e differenti per log(HR) CONDIZIONE SOGGETTA A TEST
26
Modello di Cox con Hazard non proporzionali
La violazione della ipotesi di proporzionalità è equivalente ad ammettere che alcune covariate modificano il loro effeto col tempo, hanno una interazione significativa col tempo
xttth
xtxtth
xtx
xtx
)()(log)(log
)(log)(log
0
0
Covariata moltiplicata per t
Coeficiente di interazione col tempo
Se il coefficiente di interazione col tempo è signidicativo, indica non-proportionalità, e allo stesso tempo la inclusione nel modello corregge la non proporzionalità!
Valori positivi (negativi) indicano che l’effetto della x cresce (decresce) linearmente col tempo.
Questo introduce il concetto di time-dependent covariate
27
• Per esempio, valutiamo l’effetto dell’età sul periodo che intercorre tra 2 acquisti di un certo prodotto
• Questi I dati di partenza:• 1000 soggetti osservati per 12 mesi (hanno
effettuato almeno un acquisto)• di questi• 647 hanno ri-acquistato• 353 No (censurati)
Time-dependent covariates, Esempio
Questa è la survival:
29
Questa è la survival per età:
La stima Cox fornisce il seguente risultato:
B SE Wald df Sig. Exp(B)
age -,055 ,006 96,683 1 ,000 ,946
Ma se osserviamo I residui…(naturalmente solo per I NON censurati)scopriamo che non sono del tutto “random”In particolare c’è il sospetto di una correlazione negativa…
0 2 4 6 8 10 12
-15
-10
-5
0
5
10
15
20
25
30
residuo x età
residuo x etàLinear (residuo x età)
31
Quindi creaiamo uan nuova variabile “time dependent” motiplicando l’etàper il periodo di riacquisto (T_cov)
La stima è:
Variabili nell'equazioneB SE Wald df Sig. Exp(B)
age -,026 ,010 6,346 1 ,012 ,975T_COV_-,007 ,002 10,736 1 ,001 ,993
Il coefficiente della variabile “time dependent” è significativo, quindi i rischi non sono proporzionali
Tuttavia, specificata correttamente la “forma” della dipendenza temporale, e inserita la variabile time-dep, il modello di Cox fornisce stime corrette
Si noti la differenza nell’effetto della variabile “age” con e senza T-cov:Ogni anno di età in più diminuisce la probabilità di riacquisto del -5,4% nel primo caso e solo del -2,5% nel secondo!