Post on 03-Jan-2016
description
transcript
“Analisi di dati categoriali”
Corso di Laurea in SociologiaFacoltà di Sociologia
Università Milano-Bicocca
Ottobre 2009Simone Sarti
2
I modelli log-lineari rappresentano un approccio complementare e compatto al problema dell’analisi multivariata delle variabili categorialiObiettivo: esprimere la struttura della tabella di contingenza a più vie con un numero limitato di parametriIl modello si configura come una descrizione plausibile e parsimoniosa della realtà
I modelli log-lineari
3
Il modello moltiplicativotavola 2x2
Le frequenze possono essere espresse come funzione moltiplicativa di quattro parametri
effetto generale, effetto numerositài
A effetto marginale della variabile A
jB effetto marginale della variabile B
ijAB effetto interazione fra le var A e B
L’assenza di un effetto si avrà quando il parametro indicante quell’effetto assume valore 1
B DESTINAZIONEBOR CMI tot
A ORIGINEBOR 47 53 100CMI 44 137 181tot 91 190 281
ABij
Bj
AiijF
4
Esempio DESTINAZIONE
BOR CMI totORIGINE BOR 47 53 100
CMI 44 137 181tot 91 190 281
Tab. contingenza 2 x 2 di mobilità intergenerazionale
BOR CMI
BOR
CMI
ABij
Bj
AiijF
ABBAF 111111 ABBAF 122112
ABBAF 222222 ABBAF 211221
A
B
4 equazioni per 9 incognite!
Occorre introdurre dei
vincoli !
5
La parametrizzazione di Goodman nel caso di 2 variabili dicotomiche
Il prodotto dei parametri relativi alle stesse variabili deve essere uguale
iA =1 j
B =1 ijAB =1
Svolgendo le produttorie ne deriva:
1A 2
A =1 ossia 1A=1/2
A
1B 2
B =1 ossia 1B=1/2
B
11AB =22
AB = 1/12AB=1/ 21
AB
6
BOR CMI
BOR
CMI
Parametrizzazione di Goodman
4 incognite
per 4 valori osservati
AB11A
1B
1
ijF
ABBAF 111111 ABBAF
111112
11
ABB
AF
111
121
11
AB
BAF 11
1122
11
7
25,621374453474422211211 FFFF
DESTINAZIONEBOR CMI tot
ORIGINE BOR 47 53 100CMI 44 137 181tot 91 190 281
A
B
Calcolo dell’effetto numerosità
F11 F12
F21 F22
Frequenze osservate
Media geometrica delle frequenze di cella. Cattura l’effetto dovuto alla numerosità dei casi.
8
DESTINAZIONEBOR CMI tot
ORIGINE BOR 47 53 100CMI 44 137 181tot 91 190 281
A
B
Calcolo dell’effetto marginale di A
F11 F12
F21 F22
Frequenze osservate
A1
80,013744/534744222112111 FFFFA
E’ la radice quarta dell’effetto marginale di A. Se minore di 1 le chance di avere origini borghesi sono minori di quelle di essere CMI.
9
DESTINAZIONEBOR CMI tot
ORIGINE BOR 47 53 100CMI 44 137 181tot 91 190 281
A
B
Calcolo dell’effetto marginale di B
F11 F12
F21 F22
Frequenze osservate
B1
73,013753/444744221221111 FFFFB
E’ la radice quarta dell’effetto marginale di B. Se minore di 1 le chance di avere destinazione borghese sono minori di quelle di essere CMI.
10
DESTINAZIONEBOR CMI tot
ORIGINE BOR 47 53 100CMI 44 137 181tot 91 190 281
A
B
Calcolo dell’effetto interazione
F11 F12
F21 F22
Frequenze osservate
AB11
28,14453/13747441221221111 FFFFAB
E’ la radice quarta dell’odds ratio, che misura l’associazione tra le due variabili A/B. Se maggiore di 1, i soggetti di origine borghese (piuttosto che CMI) hanno più chance di diventare borghesi (piuttosto che CMI).
11
Calcolo degli effetti
25,621374453474422211211 FFFF
80,013744/534744222112111 FFFFA
DESTINAZIONEBOR CMI tot
ORIGINE BOR 47 53 100CMI 44 137 181tot 91 190 281
A
B
73,013753/444744221221111 FFFFB
28,14453/13747441221221111 FFFFAB
AB11A
1B
1
76,228,1 44
11 ABODDSRATIO
12
Ricostruzione delle frequenze. Le frequenze ricostruite (attese) sono uguali a quelle osservate
nella tabella.
ABij
Bj
AiijF
47111111 ABBAF
5311
111112
ABBAF
4411
111
121
ABB
AF
13711
1111
22 ABBA
F
13
L’uso di pochi parametri (che costituiscono il modello dei dati
osservati) ci permette di interpretare gli effetti,
ma anche di testare delle ipotesi.
VEROSIMIGLIANZA E PARSIMONIA
AB11A
1B
1
14
Note conclusive modello moltiplicativo
Il parametro
(e dove 1,284=2,76 è l’odds ratio)
1,28 è l’effetto interazione o associazione tra A e B e quindi evidenzia la forza dell’associazione tra le variabili
La forza della relazione è tanto maggiore quanto più ci allontaniamo da 1. La relazione è positiva se il valore del parametro è superiore ad 1, mentre è negativa se il valore è inferiore ad 1.
28,14453/13747441221221111 FFFFAB
15
Modelli insaturiFij= i
AjBij
AB modello saturo
Fij= iAj
B modello insaturo, assumiamo che tra la var.A e la var.B ci sia indipendenza, dunque poniamo l’effetto interazione (ij
AB) pari a 1.
Fij= iA modello insaturo, la struttura si semplifica
ulteriormente. Fissiamo l’effetto marginale della variabile B pari a 1
Fij= modello insaturo, la struttura si semplifica ulteriormente. Assumiamo che i casi siano distribuiti in modo uniforme in tutte le celle.
16
Il modello additivo Tavola 2x2
Attraverso il logaritmo le frequenze possono essere espresse come funzione additiva ossia come somma dei quattro parametri. L’equazione log-lineare può essere considerata come un’equazione di regressione nella quale l’unità di analisi non sono gli individui bensì le celle (la var. dipendente è rappresentata dal logaritmo della frequenza di cella) (Corbetta 1992)
ABij
Bj
AiijF ln
ABij
Bj
AiijF
ABij
Bj
AiijF lnlnlnlnln
17
La parametrizzazione di Goodman nel caso di 2 variabili dicotomiche nel modello
additivoLa somma dei parametri lambda delle varie categorie di una stessa variabile deve essere uguale a zero.
iA =0 j
B =0 i jijAB =0
Svolgendo le sommatorie ne deriva
2A = - 1
A 2B = - 1
B
22AB = 11
AB = - 12AB = - 21
AB
Tale parametrizzazione, introducendo vincoli sui parametri, serve per identificare il modello: in altre parole, abbiamo 4 equazioni e 9 parametri da stimare a partire dalle quattro celle di frequenze.
Con tale parametrizzazione le 4 frequenze di cella di una tavola 2x2 possono essere ottenute combinando 4 parametri
Calcolo degli effetti modello additivo
INTERPRETAZIONE DEI LAMBDA
Gli effetti dei marginali e di interazione possono essere considerati in termini di deviazioni dai valori medi delle frequenze di celle.
Lo squilibrio fra i due marginali è maggiore per la variabile B rispetto alla variabile A
Il valore positivo di 11AB segnala la presenza di una relazione positiva. Le celle 11
e 22 presentano una frequenza più alta rispetto al caso di indipendenza.
131,4
4
137ln44ln53ln47ln
4
lnln 22211211
FFFF
221,0
4
137ln44ln53ln47ln
4
lnln 22211211
11
FFFFAA
314,0
4
137ln53ln44ln47ln
4
lnln 22122111
11
FFFFBB
254,0
4
53ln44ln137ln47ln
4
lnln 21122211
1111
FFFFABAB
76,2254,044 11 eeODDSRATIOAB
19
Ricostruiamo la tab.2*2 con il modello additivo: le frequenze ricostruite (attese) sono uguali a
quelle osservate.
lnF11 = + 1A+ 1
B+ 11AB=3,85
lnF12 = + 1A- 1
B- 11AB=3,97
lnF21 = - 1A+ 1
B- 11AB=3,78
lnF22 = - 1A- 1
B+ 11AB=4,92
4785,311 eF
5397,312 eF
4478,321 eF
13792,422 eF
20
Modelli insaturi
lnFij= +iA+j
B + ijAB modello saturo
lnFij= +iA+j
B modello insaturo, fissiamo l’effetto interazione pari a zero
lnFij= +iA fissiamo l’effetto interazione e il
marginale della var.b pari a zero
lnFij= fissiamo l’effetto interazione e gli effetti dei marginali della var.A e della var.B pari a zero
21
Come si calcolano gli errori standard delle stime dei
parametri
R = numero di categorie della variabile di rigaC = numero di categorie della variabile di colonna
L’ipotesi nulla secondo la quale nella popolazione il valore di lambda è uguale a zero può essere verificata utilizzando un test t.
2
1 1
)/1(
ˆCR
F
s
R
i
C
jij
066,0
22137
1441
531
471
ˆ2
s
22
Rapportiamo i parametri stimati all’errore standard per calcolare i valori t da confrontare con quelli critici.
32,3066,022,0ˆ
0
s
tA
A
77,3066,025,0ˆ
0
s
tAB
AB
68,4066,031,0ˆ
0
s
tB
B
TEST DI SIGNIFICATIVITA’ DEI PARAMETRI
..0
se
HRVATOVALOREOSSEtTEST
0:0 H
23
0
0,95T
Soglia +1,98
Soglia -1,98
IPOTESI NULLA
Dal momento che i valori ottenuti sono superiori in valore assoluto a ±1,98 (il valore critico di t per alfa=0,05) possiamo concludere che i
parametri sono significativamente diversi da zero per alfa=0,05.
Non si può passare ad un modello insaturo.
0,025 0,025
32,3At
77,3ABt
68,4Bt
24
Possiamo calcolare gli I.C. dei parametri aggiungendo
il valore t all’errore standard:
sA ˆ98,1
INTERVALLI DI CONFIDENZA DEI PARAMETRI
sB ˆ98,1
sAB ˆ98,1
-0.351
-0.089
-0.441
-0.179
0.119
0.381
AB
eODDSRATIO 4
1,61
4,58
lim.inf.
lim.inf.
lim.inf.
lim.sup.
lim.sup.
lim.sup.
25
MODELLO
SATURO*
MODELLO INDIPENDENZA
MODELLO SOLO EFFETTO A
MODELLO SOLO EFFETTO B
EQUIPROBABILITA’
MODELLI TEORICI
A
A
A
BB
B
AB
*Il modello saturo riproduce i dati osservati.
(AB)
Notazione
(A)(B)
(A)
(B)
26
Test dei modelliI modelli con tutti i parametri che ci consentono di realizzare l’identità tra frequenze attese ed osservate si chiamano saturi (esso conterrà tanti parametri quante sono le celle).
I modelli semplificati, nei quali uno o più parametri vengono fissati a zero vengono definiti insaturiIl modello insaturo genererà delle frequenze teoriche o frequenze attese che verranno confrontate con le frequenze osservate.
27
Se gli scarti tra frequenze attese e osservate sono di entità ridotta il modello semplificato (o insaturo) verrà accettato.Il confronto fra frequenze attese e frequenze osservate viene fatto sulla base del calcolo della statistica L2
Nota come statistica del chi-quadrato del rapporto di verosimiglianza. Si distribuisce come una variabile chi-quadrato con tanti gradi di libertà quanti sono i parametri lambda indipendenti posti a zero.
i
ik
ii F
ffL ln2
1
2
Il modello teorico non deve scostarsi troppo dai dati osservati.
L’H0 è che il modello si scosta troppo (contrariamente al test di indipendenza del Chi-quadrato!)
0 L2p
02 L
L2
g = gradi di libertà
Rifiuto H0Non posso rifiutare H0
DATI OSSERVAT
I
MODELLO
P
Probabilità che il modello sia vero !
SEX*TITOLODISTUDIO
Riepilogo dei passi
sex*titolo .000 0 .
sex*titolo 2.166 1 .141 2
sex, titolo 2.166 1 .141
sex 7.369 1 .007 2
titolo 274.170 1 .000 2
sex, titolo 2.166 1 .141
Classe di generazionec
1Effetto eliminato
Classe di generazionec
1
2
Effetto eliminato
Classe di generazionec
Passob
0
1
2
Effetti Chi-quadratoa
df SigNumero diiterazioni
Per ‘Effetto eliminato’, rappresenta la variazione del chi-quadrato dopo l’eliminazione dell’effetto dal modello.a.
In ciascun passaggio viene eliminato l’effetto con il livello di significatività più alto per la variazione del rapporto diverosimiglianza, a condizione che il livello di significatività sia maggiore di .050.
b.
Le statiche del modello migliore verranno visualizzate per ciascun passaggio dopo 0.c.
Tavola di contingenza sex * titolo
Conteggio
696 292 988
586 285 871
1282 577 1859
0 F
1 M
sex
Totale
0 licmedia- 1 diploma+
titolo
Totale
Stime dei parametri
.037 .025 1.472 .141 -.012 .086
.049 .025 1.955 .051 .000 .098
.397 .025 15.826 .000 .348 .446
Parametro1
1
1
Effettosex*titolo
sex
titolo
Stima Errore stand Z SigLimite
inferioreLimite
superiore
Intervallo di confidenzaal 95%
2L
Modello saturo (P=1)Probabilità
che il modello sia
“vero” !
P
30
SINTASSI SPSS
data list free/ n sex titolo.begin data696 1 1292 1 2 586 2 1285 2 2end data.weight by n.value labels sex 1'm' 2'f'
/titolo 1 'licmedia' 2 'diploma'.
HILOGLINEAR sex(0 1) titolo(0 1) /METHOD=BACKWARD /CRITERIA MAXSTEPS(10) P(.05) ITERATION(20) DELTA(.5) /PRINT=FREQ RESID ESTIM /DESIGN .
31
L’obiettivo è trovare un modello con un basso valore di L2 ad esso associato e quindi con un’alta probabilità di rappresentare la struttura delle relazioni tra le variabili a livello di popolazione.Un modello viene corroborato quanto i dati osservati hanno un’elevata probabilità di essere generati dal modello ipotizzato.Il rapporto di verosimiglianza è utile per individuare gli scarti tra modello e dati quanto il campione non supera i 1500 casi.Quando il campione è molto ampio l’adozione della statistica L2 comporta il rifiuto di modelli “buoni”. Il valore della statistica L2 aumenta all’aumentare della dimensione del campione.
32
BICUna statistica più appropriata per valutare la bontà di adattamento del modello ai dati è rappresentata dal Criterio bayesiano di informazione (BIC)
LnN è il logaritmo naturale della dimensione del campione
Il BIC rappresenta un buon compromesso tra capacità di riproduzione dei dati e parsimonia.
Più negativo è il valore assunto dalla statistica BIC, migliore è l’adattamento ai dati di un certo modello.
NgLBIC ln2
33
MODELLO A TRE VIE
Modelli gerarchici
34
Nei modelli gerarchici le relazioni multivariate di un certo livello includono tutte le relazioni più semplici di livello subordinato.
Le frequenze attese vengono stimate sulla base del modello teorico
attraverso algoritmi iterativi (ad esempio
l’“adattamento proporzionale iterativo”)
Esempi di notazione dei modelli gerarchici
A=area S=sex E=educ
(ASE) - modello saturo lnFijk= + i
A + jS + k
E + ijAS + ik
AE + jkSE + ijk
ASE
(AS)(AE)(SE) – effetti a duelnFijk= + i
A + jS + k
E + ijAS + ik
AE + jkSE
(AS)(SE) – effetti a due di sole due variabililnFijk= + i
A + jS + k
E + ijAS + jk
SE
(A)(S) – effetti marginali di sole due variabililnFijk= + i
A + jS
36
Modello L2 g p
(ABC) 0,0 0 1,00
(AB)(AC)(BC) 1,5 1 0,20
(AB)(C) 34,0 3 0,00
(A)(B)(C) 76,2 4 0,00
ESEMPIO DI VALUTAZIONE DEI MODELLI
Probabilità che il
modello sia “vero” !
37
CONFRONTO FRA MODELLI
ELIMINAZIONE DEI PARAMETRI DAI MODELLI
PROCEDURA BACKWARD
Si parte dal modello saturo e si eliminano man mano i parametri che non tolgono verosimiglianza.
Si aumenta la parsimonia lasciando il modello verosimile
38
*PM (1=favorevole alla pena di morte 2=non favorevole)*REL(1=non-praticante 2=praticante)*POL(1=centro-destra 2=centro-sinistra)
REL atteggiamento religioso * PM pena di morte * POL orientamento politico Crosstabulation
Count
456 112 568
213 110 323
669 222 891
344 184 528
37 38 75
381 222 603
1,00 non praticante
2,00 praticante
REL atteggiamentoreligiosoTotal
1,00 non praticante
2,00 praticante
REL atteggiamentoreligiosoTotal
POL orientamentopolitico1,00 centro destra
2,00 centro sinistra
1,00 favorevole
2,00 nonfavorevole
PM pena di morte
Total
VALUTAZIONE DEL PASSAGGIO DAL MODELLO SATURO AL MODELLO 2
L22 - L2
1= 0,095 g2 - g1 =1 ACCETTATO !
VALUTAZIONE DEL PASSAGGIO DAL MODELLO 2 AL MODELLO 3
L23 - L2
2=126,835 g3 - g2 =1 NON ACCETTATO!
MODELLO 1 SATURO
[PM*REL*POL] L2= 0 g=0 P=1,00
MODELLO 2 INSATURO
[PM*REL] [PM*POL] [REL*POL] L2= 0,095 g=1 P=0.75
MODELLO 3 INSATURO
[PM*REL] [PM*POL] L2= 126,926 g=2 P=0,00
Il passaggio da un modello all’altro è valutato attraverso la differenza tra i valori L2 associati ai due modelli (+ PARSIMONIOSO -PARSIMONIOSO), e la differenza tra i rispettivi gradi di libertà.
Delta L2 e Delta G hanno la distribuzione nota del Chi-quadrato, per cui è possibile effettuare un test di significatività.
222 LLL ggg
40
*PM (1=favorevole alla pena di morte 2=non favorevole)
*REL(1=non-praticante 2=praticante)
*POL(1=centro-destra 2=centro-sinistra)
data list free/ PM REL POL PESO.
begin data
1 1 1 456
1 1 2 344
1 2 1 213
1 2 2 37
2 1 1 112
2 1 2 184
2 2 1 110
2 2 2 38
end data.
weight by PESO.
LOGLINEAR PM(1,2) REL(1,2) POL(1,2)
/PRINT= ESTIM
/DESIGN = PM REL POL PM BY REL PM BY POL REL BY POL.
41
SESSO EDUCAZIONE
AREA
Modello: area*sex*educ
lnFijk= + iA + j
S + kE + ij
AS + ikAE + jk
SE + ijkASE
Abbiamo una relazione tra genere (M/F) e educazione (D/ND). Vogliamo sapere se l’area geografica (sud/nord) influisce su questa relazione.
Costruiamo un modello teorico di indipendenza e lo confrontiamo con le frequenze osservate.
Si tratta di porre a zero i seguenti parametri: ijkASE
42
Modello saturo ASE
Modello area*sex*educ
lnFijk= + iA + j
S + kE + ij
AS + ikAE + jk
SE + ijkASE
Tavola di contingenza sex * titolo * area
Conteggio
415 177 592
326 175 501
741 352 1093
281 115 396
260 110 370
541 225 766
0 F
1 M
sex
Totale
0 F
1 M
sex
Totale
area0 Nord
1 Sud
0 licmedia- 1 diploma+
titolo
Totale
43
Stime dei parametri
.025 .026 .960 .337 -.026 .075
.033 .026 1.285 .199 -.017 .083
.016 .026 .638 .523 -.034 .066
-.035 .026 -1.354 .176 -.085 .016
.047 .026 1.828 .068 -.003 .097
.402 .026 15.729 .000 .352 .453
.188 .026 7.365 .000 .138 .239
Parametro1
1
1
1
1
1
1
Effettosex*titolo*area
sex*titolo
sex*area
titolo*area
sex
titolo
area
Stima Errore stand Z SigLimite
inferioreLimite
superiore
Intervallo di confidenzaal 95%
SINTASSI SPSS
HILOGLINEAR sex(0 1) titolo(0 1) area(0 1) /METHOD=BACKWARD /CRITERIA MAXSTEPS(10) P(.05) ITERATION(20) DELTA(.5) /PRINT=FREQ RESID ESTIM /DESIGN .
Modello saturo
026,0
)/1(
ˆ2
1 1 1
CRS
F
s
S
k
R
i
C
jijk
44
Riepilogo dei passi
sex*titolo*area .000 0 .
sex*titolo*area .922 1 .337 3
sex*titolo, sex*area, titolo*area .922 1 .337
sex*titolo 2.264 1 .132 2
sex*area 1.197 1 .274 2
titolo*area 1.790 1 .181 2
sex*titolo, titolo*area 2.118 2 .347
sex*titolo 2.166 1 .141 2
titolo*area 1.692 1 .193 2
sex*titolo, area 3.811 3 .283
sex*titolo 2.166 1 .141 2
area 57.820 1 .000 2
area, sex, titolo 5.977 4 .201
area 57.820 1 .000 2
sex 7.369 1 .007 2
titolo 274.170 1 .000 2
area, sex, titolo 5.977 4 .201
Classe di generazionec
1Effetto eliminato
Classe di generazionec
1
2
3
Effetto eliminato
Classe di generazionec
1
2
Effetto eliminato
Classe di generazionec
1
2
Effetto eliminato
Classe di generazionec
1
2
3
Effetto eliminato
Classe di generazionec
Passob
0
1
2
3
4
5
Effetti Chi-quadratoa
df SigNumero diiterazioni
Per ‘Effetto eliminato’, rappresenta la variazione del chi-quadrato dopo l’eliminazione dell’effetto dal modello.a.
In ciascun passaggio viene eliminato l’effetto con il livello di significatività più alto per la variazione del rapporto di verosimiglianza, acondizione che il livello di significatività sia maggiore di .050.
b.
Le statiche del modello migliore verranno visualizzate per ciascun passaggio dopo 0.c. (A)(S)(E) lnFijk= + i
A + jS + j
E
45
Altro esempio: SPSS
Riepilogo dei passi
V15*civile*titolo .000 0 .
V15*civile*titolo 1.764 1 .184 3
V15*civile, V15*titolo, civile*titolo 1.764 1 .184
V15*civile .854 1 .355 2
V15*titolo 4.258 1 .039 2
civile*titolo 3.056 1 .080 2
V15*titolo, civile*titolo 2.619 2 .270
V15*titolo 3.907 1 .048 2
civile*titolo 2.704 1 .100 2
V15*titolo, civile 5.323 3 .150
V15*titolo 3.907 1 .048 2
civile 5.895 1 .015 2
V15*titolo, civile 5.323 3 .150
Classe di generazionec
1Effetto eliminato
Classe di generazionec
1
2
3
Effetto eliminato
Classe di generazionec
1
2
Effetto eliminato
Classe di generazionec
1
2
Effetto eliminato
Classe di generazionec
Passob
0
1
2
3
4
Effetti Chi-quadratoa
df SigNumero diiterazioni
Per ‘Effetto eliminato’, rappresenta la variazione del chi-quadrato dopo l’eliminazione dell’effetto dal modello.a.
In ciascun passaggio viene eliminato l’effetto con il livello di significatività più alto per la variazione del rapporto di verosimiglianza, a condizione che il livellodi significatività sia maggiore di .050.
b.
Le statiche del modello migliore verranno visualizzate per ciascun passaggio dopo 0.c.
2LSESSO*TITOLODISTUDIO*STATOCIVILE === STC
Modello più parsimonioso: (ST)(C)