“Analisi di dati categoriali”

transcript

Corso di Laurea in SociologiaFacoltà di Sociologia

Università Milano-Bicocca

Ottobre 2009Simone Sarti

I modelli log-lineari rappresentano un approccio complementare e compatto al problema dell’analisi multivariata delle variabili categorialiObiettivo: esprimere la struttura della tabella di contingenza a più vie con un numero limitato di parametriIl modello si configura come una descrizione plausibile e parsimoniosa della realtà

I modelli log-lineari

Il modello moltiplicativotavola 2x2

Le frequenze possono essere espresse come funzione moltiplicativa di quattro parametri

effetto generale, effetto numerositài

A effetto marginale della variabile A

jB effetto marginale della variabile B

ijAB effetto interazione fra le var A e B

L’assenza di un effetto si avrà quando il parametro indicante quell’effetto assume valore 1

B DESTINAZIONEBOR CMI tot

A ORIGINEBOR 47 53 100CMI 44 137 181tot 91 190 281

Esempio DESTINAZIONE

BOR CMI totORIGINE BOR 47 53 100

CMI 44 137 181tot 91 190 281

Tab. contingenza 2 x 2 di mobilità intergenerazionale

BOR CMI

ABBAF 111111 ABBAF 122112

ABBAF 222222 ABBAF 211221

4 equazioni per 9 incognite!

Occorre introdurre dei

vincoli !

La parametrizzazione di Goodman nel caso di 2 variabili dicotomiche

Il prodotto dei parametri relativi alle stesse variabili deve essere uguale

iA =1 j

B =1 ijAB =1

Svolgendo le produttorie ne deriva:

A =1 ossia 1A=1/2

B =1 ossia 1B=1/2

11AB =22

AB = 1/12AB=1/ 21

BOR CMI

Parametrizzazione di Goodman

4 incognite

per 4 valori osservati

ABBAF 111111 ABBAF

111112

BAF 11

25,621374453474422211211 FFFF

DESTINAZIONEBOR CMI tot

ORIGINE BOR 47 53 100CMI 44 137 181tot 91 190 281

Calcolo dell’effetto numerosità

F11 F12

F21 F22

Frequenze osservate

Media geometrica delle frequenze di cella. Cattura l’effetto dovuto alla numerosità dei casi.

Calcolo dell’effetto marginale di A

F11 F12

F21 F22

Frequenze osservate

80,013744/534744222112111 FFFFA

E’ la radice quarta dell’effetto marginale di A. Se minore di 1 le chance di avere origini borghesi sono minori di quelle di essere CMI.

Calcolo dell’effetto marginale di B

F11 F12

F21 F22

Frequenze osservate

73,013753/444744221221111 FFFFB

E’ la radice quarta dell’effetto marginale di B. Se minore di 1 le chance di avere destinazione borghese sono minori di quelle di essere CMI.

Calcolo dell’effetto interazione

F11 F12

F21 F22

Frequenze osservate

28,14453/13747441221221111 FFFFAB

E’ la radice quarta dell’odds ratio, che misura l’associazione tra le due variabili A/B. Se maggiore di 1, i soggetti di origine borghese (piuttosto che CMI) hanno più chance di diventare borghesi (piuttosto che CMI).

Calcolo degli effetti

25,621374453474422211211 FFFF

80,013744/534744222112111 FFFFA

73,013753/444744221221111 FFFFB

28,14453/13747441221221111 FFFFAB

76,228,1 44

11 ABODDSRATIO

Ricostruzione delle frequenze. Le frequenze ricostruite (attese) sono uguali a quelle osservate

nella tabella.

47111111 ABBAF

111112

22 ABBA

L’uso di pochi parametri (che costituiscono il modello dei dati

osservati) ci permette di interpretare gli effetti,

ma anche di testare delle ipotesi.

VEROSIMIGLIANZA E PARSIMONIA

Note conclusive modello moltiplicativo

Il parametro

(e dove 1,284=2,76 è l’odds ratio)

1,28 è l’effetto interazione o associazione tra A e B e quindi evidenzia la forza dell’associazione tra le variabili

La forza della relazione è tanto maggiore quanto più ci allontaniamo da 1. La relazione è positiva se il valore del parametro è superiore ad 1, mentre è negativa se il valore è inferiore ad 1.

28,14453/13747441221221111 FFFFAB

Modelli insaturiFij= i

AB modello saturo

Fij= iAj

B modello insaturo, assumiamo che tra la var.A e la var.B ci sia indipendenza, dunque poniamo l’effetto interazione (ij

AB) pari a 1.

Fij= iA modello insaturo, la struttura si semplifica

ulteriormente. Fissiamo l’effetto marginale della variabile B pari a 1

Fij= modello insaturo, la struttura si semplifica ulteriormente. Assumiamo che i casi siano distribuiti in modo uniforme in tutte le celle.

Il modello additivo Tavola 2x2

Attraverso il logaritmo le frequenze possono essere espresse come funzione additiva ossia come somma dei quattro parametri. L’equazione log-lineare può essere considerata come un’equazione di regressione nella quale l’unità di analisi non sono gli individui bensì le celle (la var. dipendente è rappresentata dal logaritmo della frequenza di cella) (Corbetta 1992)

AiijF ln

AiijF lnlnlnlnln

La parametrizzazione di Goodman nel caso di 2 variabili dicotomiche nel modello

additivoLa somma dei parametri lambda delle varie categorie di una stessa variabile deve essere uguale a zero.

iA =0 j

B =0 i jijAB =0

Svolgendo le sommatorie ne deriva

2A = - 1

A 2B = - 1

22AB = 11

AB = - 12AB = - 21

Tale parametrizzazione, introducendo vincoli sui parametri, serve per identificare il modello: in altre parole, abbiamo 4 equazioni e 9 parametri da stimare a partire dalle quattro celle di frequenze.

Con tale parametrizzazione le 4 frequenze di cella di una tavola 2x2 possono essere ottenute combinando 4 parametri

Calcolo degli effetti modello additivo

INTERPRETAZIONE DEI LAMBDA

Gli effetti dei marginali e di interazione possono essere considerati in termini di deviazioni dai valori medi delle frequenze di celle.

Lo squilibrio fra i due marginali è maggiore per la variabile B rispetto alla variabile A

Il valore positivo di 11AB segnala la presenza di una relazione positiva. Le celle 11

e 22 presentano una frequenza più alta rispetto al caso di indipendenza.

137ln44ln53ln47ln

lnln 22211211

137ln44ln53ln47ln

lnln 22211211

FFFFAA

137ln53ln44ln47ln

lnln 22122111

FFFFBB

53ln44ln137ln47ln

lnln 21122211

FFFFABAB

76,2254,044 11 eeODDSRATIOAB

Ricostruiamo la tab.2*2 con il modello additivo: le frequenze ricostruite (attese) sono uguali a

quelle osservate.

lnF11 = + 1A+ 1

B+ 11AB=3,85

lnF12 = + 1A- 1

B- 11AB=3,97

lnF21 = - 1A+ 1

B- 11AB=3,78

lnF22 = - 1A- 1

B+ 11AB=4,92

4785,311 eF

5397,312 eF

4478,321 eF

13792,422 eF

Modelli insaturi

lnFij= +iA+j

B + ijAB modello saturo

lnFij= +iA+j

B modello insaturo, fissiamo l’effetto interazione pari a zero

lnFij= +iA fissiamo l’effetto interazione e il

marginale della var.b pari a zero

lnFij= fissiamo l’effetto interazione e gli effetti dei marginali della var.A e della var.B pari a zero

Come si calcolano gli errori standard delle stime dei

parametri

R = numero di categorie della variabile di rigaC = numero di categorie della variabile di colonna

L’ipotesi nulla secondo la quale nella popolazione il valore di lambda è uguale a zero può essere verificata utilizzando un test t.

Rapportiamo i parametri stimati all’errore standard per calcolare i valori t da confrontare con quelli critici.

32,3066,022,0ˆ

77,3066,025,0ˆ

68,4066,031,0ˆ

TEST DI SIGNIFICATIVITA’ DEI PARAMETRI

HRVATOVALOREOSSEtTEST

Soglia +1,98

Soglia -1,98

IPOTESI NULLA

Dal momento che i valori ottenuti sono superiori in valore assoluto a ±1,98 (il valore critico di t per alfa=0,05) possiamo concludere che i

parametri sono significativamente diversi da zero per alfa=0,05.

Non si può passare ad un modello insaturo.

0,025 0,025

32,3At

77,3ABt

68,4Bt

Possiamo calcolare gli I.C. dei parametri aggiungendo

il valore t all’errore standard:

sA ˆ98,1

INTERVALLI DI CONFIDENZA DEI PARAMETRI

sB ˆ98,1

sAB ˆ98,1

-0.351

-0.089

-0.441

-0.179

eODDSRATIO 4

lim.inf.

lim.sup.

MODELLO

SATURO*

MODELLO INDIPENDENZA

MODELLO SOLO EFFETTO A

MODELLO SOLO EFFETTO B

EQUIPROBABILITA’

MODELLI TEORICI

*Il modello saturo riproduce i dati osservati.

Notazione

(A)(B)

Test dei modelliI modelli con tutti i parametri che ci consentono di realizzare l’identità tra frequenze attese ed osservate si chiamano saturi (esso conterrà tanti parametri quante sono le celle).

I modelli semplificati, nei quali uno o più parametri vengono fissati a zero vengono definiti insaturiIl modello insaturo genererà delle frequenze teoriche o frequenze attese che verranno confrontate con le frequenze osservate.

Se gli scarti tra frequenze attese e osservate sono di entità ridotta il modello semplificato (o insaturo) verrà accettato.Il confronto fra frequenze attese e frequenze osservate viene fatto sulla base del calcolo della statistica L2

Nota come statistica del chi-quadrato del rapporto di verosimiglianza. Si distribuisce come una variabile chi-quadrato con tanti gradi di libertà quanti sono i parametri lambda indipendenti posti a zero.

ffL ln2

Il modello teorico non deve scostarsi troppo dai dati osservati.

L’H0 è che il modello si scosta troppo (contrariamente al test di indipendenza del Chi-quadrato!)

g = gradi di libertà

Rifiuto H0Non posso rifiutare H0

DATI OSSERVAT

MODELLO

Probabilità che il modello sia vero !

SEX*TITOLODISTUDIO

Riepilogo dei passi

sex*titolo .000 0 .

sex*titolo 2.166 1 .141 2

sex, titolo 2.166 1 .141

sex 7.369 1 .007 2

titolo 274.170 1 .000 2

sex, titolo 2.166 1 .141

Classe di generazionec

1Effetto eliminato

Effetto eliminato

Passob

Effetti Chi-quadratoa

df SigNumero diiterazioni

Per ‘Effetto eliminato’, rappresenta la variazione del chi-quadrato dopo l’eliminazione dell’effetto dal modello.a.

In ciascun passaggio viene eliminato l’effetto con il livello di significatività più alto per la variazione del rapporto diverosimiglianza, a condizione che il livello di significatività sia maggiore di .050.

Le statiche del modello migliore verranno visualizzate per ciascun passaggio dopo 0.c.

Tavola di contingenza sex * titolo

Conteggio

696 292 988

586 285 871

1282 577 1859

Totale

0 licmedia- 1 diploma+

titolo

Totale

Stime dei parametri

.037 .025 1.472 .141 -.012 .086

.049 .025 1.955 .051 .000 .098

.397 .025 15.826 .000 .348 .446

Parametro1

Effettosex*titolo

titolo

Stima Errore stand Z SigLimite

inferioreLimite

superiore

Intervallo di confidenzaal 95%

Modello saturo (P=1)Probabilità

che il modello sia

“vero” !

SINTASSI SPSS

data list free/ n sex titolo.begin data696 1 1292 1 2 586 2 1285 2 2end data.weight by n.value labels sex 1'm' 2'f'

/titolo 1 'licmedia' 2 'diploma'.

HILOGLINEAR sex(0 1) titolo(0 1) /METHOD=BACKWARD /CRITERIA MAXSTEPS(10) P(.05) ITERATION(20) DELTA(.5) /PRINT=FREQ RESID ESTIM /DESIGN .

L’obiettivo è trovare un modello con un basso valore di L2 ad esso associato e quindi con un’alta probabilità di rappresentare la struttura delle relazioni tra le variabili a livello di popolazione.Un modello viene corroborato quanto i dati osservati hanno un’elevata probabilità di essere generati dal modello ipotizzato.Il rapporto di verosimiglianza è utile per individuare gli scarti tra modello e dati quanto il campione non supera i 1500 casi.Quando il campione è molto ampio l’adozione della statistica L2 comporta il rifiuto di modelli “buoni”. Il valore della statistica L2 aumenta all’aumentare della dimensione del campione.

BICUna statistica più appropriata per valutare la bontà di adattamento del modello ai dati è rappresentata dal Criterio bayesiano di informazione (BIC)

LnN è il logaritmo naturale della dimensione del campione

Il BIC rappresenta un buon compromesso tra capacità di riproduzione dei dati e parsimonia.

Più negativo è il valore assunto dalla statistica BIC, migliore è l’adattamento ai dati di un certo modello.

NgLBIC ln2

MODELLO A TRE VIE

Modelli gerarchici

Nei modelli gerarchici le relazioni multivariate di un certo livello includono tutte le relazioni più semplici di livello subordinato.

Le frequenze attese vengono stimate sulla base del modello teorico

attraverso algoritmi iterativi (ad esempio

l’“adattamento proporzionale iterativo”)

Esempi di notazione dei modelli gerarchici

A=area S=sex E=educ

(ASE) - modello saturo lnFijk= + i

A + jS + k

E + ijAS + ik

AE + jkSE + ijk

(AS)(AE)(SE) – effetti a duelnFijk= + i

A + jS + k

E + ijAS + ik

AE + jkSE

(AS)(SE) – effetti a due di sole due variabililnFijk= + i

A + jS + k

E + ijAS + jk

(A)(S) – effetti marginali di sole due variabililnFijk= + i

A + jS

Modello L2 g p

(ABC) 0,0 0 1,00

(AB)(AC)(BC) 1,5 1 0,20

(AB)(C) 34,0 3 0,00

(A)(B)(C) 76,2 4 0,00

ESEMPIO DI VALUTAZIONE DEI MODELLI

Probabilità che il

modello sia “vero” !

CONFRONTO FRA MODELLI

ELIMINAZIONE DEI PARAMETRI DAI MODELLI

PROCEDURA BACKWARD

Si parte dal modello saturo e si eliminano man mano i parametri che non tolgono verosimiglianza.

Si aumenta la parsimonia lasciando il modello verosimile

*PM (1=favorevole alla pena di morte 2=non favorevole)*REL(1=non-praticante 2=praticante)*POL(1=centro-destra 2=centro-sinistra)

REL atteggiamento religioso * PM pena di morte * POL orientamento politico Crosstabulation

456 112 568

213 110 323

669 222 891

344 184 528

37 38 75

381 222 603

1,00 non praticante

2,00 praticante

REL atteggiamentoreligiosoTotal

1,00 non praticante

2,00 praticante

REL atteggiamentoreligiosoTotal

POL orientamentopolitico1,00 centro destra

2,00 centro sinistra

1,00 favorevole

2,00 nonfavorevole

PM pena di morte

VALUTAZIONE DEL PASSAGGIO DAL MODELLO SATURO AL MODELLO 2

L22 - L2

1= 0,095 g2 - g1 =1 ACCETTATO !

VALUTAZIONE DEL PASSAGGIO DAL MODELLO 2 AL MODELLO 3

L23 - L2

2=126,835 g3 - g2 =1 NON ACCETTATO!

MODELLO 1 SATURO

[PM*REL*POL] L2= 0 g=0 P=1,00

MODELLO 2 INSATURO

[PM*REL] [PM*POL] [REL*POL] L2= 0,095 g=1 P=0.75

MODELLO 3 INSATURO

[PM*REL] [PM*POL] L2= 126,926 g=2 P=0,00

Il passaggio da un modello all’altro è valutato attraverso la differenza tra i valori L2 associati ai due modelli (+ PARSIMONIOSO -PARSIMONIOSO), e la differenza tra i rispettivi gradi di libertà.

Delta L2 e Delta G hanno la distribuzione nota del Chi-quadrato, per cui è possibile effettuare un test di significatività.

222 LLL ggg

*PM (1=favorevole alla pena di morte 2=non favorevole)

*REL(1=non-praticante 2=praticante)

*POL(1=centro-destra 2=centro-sinistra)

data list free/ PM REL POL PESO.

begin data

1 1 1 456

1 1 2 344

1 2 1 213

1 2 2 37

2 1 1 112

2 1 2 184

2 2 1 110

2 2 2 38

end data.

weight by PESO.

LOGLINEAR PM(1,2) REL(1,2) POL(1,2)

/PRINT= ESTIM

/DESIGN = PM REL POL PM BY REL PM BY POL REL BY POL.

SESSO EDUCAZIONE

Modello: area*sex*educ

lnFijk= + iA + j

S + kE + ij

AS + ikAE + jk

SE + ijkASE

Abbiamo una relazione tra genere (M/F) e educazione (D/ND). Vogliamo sapere se l’area geografica (sud/nord) influisce su questa relazione.

Costruiamo un modello teorico di indipendenza e lo confrontiamo con le frequenze osservate.

Si tratta di porre a zero i seguenti parametri: ijkASE

Modello saturo ASE

Modello area*sex*educ

lnFijk= + iA + j

S + kE + ij

AS + ikAE + jk

SE + ijkASE

Tavola di contingenza sex * titolo * area

Conteggio

415 177 592

326 175 501

741 352 1093

281 115 396

260 110 370

541 225 766

Totale

area0 Nord

0 licmedia- 1 diploma+

titolo

Totale

Stime dei parametri

.025 .026 .960 .337 -.026 .075

.033 .026 1.285 .199 -.017 .083

.016 .026 .638 .523 -.034 .066

-.035 .026 -1.354 .176 -.085 .016

.047 .026 1.828 .068 -.003 .097

.402 .026 15.729 .000 .352 .453

.188 .026 7.365 .000 .138 .239

Parametro1

Effettosex*titolo*area

sex*titolo

sex*area

titolo*area

titolo

Stima Errore stand Z SigLimite

inferioreLimite

superiore

Intervallo di confidenzaal 95%

SINTASSI SPSS

HILOGLINEAR sex(0 1) titolo(0 1) area(0 1) /METHOD=BACKWARD /CRITERIA MAXSTEPS(10) P(.05) ITERATION(20) DELTA(.5) /PRINT=FREQ RESID ESTIM /DESIGN .

Modello saturo

Riepilogo dei passi

sex*titolo*area .000 0 .

sex*titolo*area .922 1 .337 3

sex*titolo, sex*area, titolo*area .922 1 .337

sex*titolo 2.264 1 .132 2

sex*area 1.197 1 .274 2

titolo*area 1.790 1 .181 2

sex*titolo, titolo*area 2.118 2 .347

sex*titolo 2.166 1 .141 2

titolo*area 1.692 1 .193 2

sex*titolo, area 3.811 3 .283

sex*titolo 2.166 1 .141 2

area 57.820 1 .000 2

area, sex, titolo 5.977 4 .201

area 57.820 1 .000 2

sex 7.369 1 .007 2

titolo 274.170 1 .000 2

area, sex, titolo 5.977 4 .201

1Effetto eliminato

Effetto eliminato

Passob

In ciascun passaggio viene eliminato l’effetto con il livello di significatività più alto per la variazione del rapporto di verosimiglianza, acondizione che il livello di significatività sia maggiore di .050.

Le statiche del modello migliore verranno visualizzate per ciascun passaggio dopo 0.c. (A)(S)(E) lnFijk= + i

A + jS + j

Altro esempio: SPSS

Riepilogo dei passi

V15*civile*titolo .000 0 .

V15*civile*titolo 1.764 1 .184 3

V15*civile, V15*titolo, civile*titolo 1.764 1 .184

V15*civile .854 1 .355 2

V15*titolo 4.258 1 .039 2

civile*titolo 3.056 1 .080 2

V15*titolo, civile*titolo 2.619 2 .270

V15*titolo 3.907 1 .048 2

civile*titolo 2.704 1 .100 2

V15*titolo, civile 5.323 3 .150

V15*titolo 3.907 1 .048 2

civile 5.895 1 .015 2

V15*titolo, civile 5.323 3 .150

1Effetto eliminato

Effetto eliminato

Passob

In ciascun passaggio viene eliminato l’effetto con il livello di significatività più alto per la variazione del rapporto di verosimiglianza, a condizione che il livellodi significatività sia maggiore di .050.

Le statiche del modello migliore verranno visualizzate per ciascun passaggio dopo 0.c.

2LSESSO*TITOLODISTUDIO*STATOCIVILE === STC

Modello più parsimonioso: (ST)(C)

“Analisi di dati categoriali”

Documents