La relazione tra studiata per mezzo di...

transcript

Statistica 2010/2011 1

Regressione

Cicchitelli Cap. 10

Modelli statistici

La relazione tra variabili può essere

studiata per mezzo di ‘modelli statistici’

1 variabile (es. peso)Quanto ci si discosta da un valore ‘tipico’

2 variabili (peso-altezza)Quanto ci si discosta da

una relazione sistematica

modello

altezza

177 178 179 180 181 182 183 184 185 186

modello

Esempio: le automobili si vendono a peso?

PACE L. e SALVAN A., 1996, Introduzione alla Statistica - I Statistica Descrittiva, CEDAM, Padova

Autovettura PESO PREZZO (kg) (mil lire)

Cinquecento 700 ED 690 9697Panda 1.0 i.e. L. 715 11071Uno Fire 1.0 i.e 3P 770 13041Tipo 1.4 i.e. 990 17580Tempra 1.4 e.e. 1040 20549Croma 2.0 1250 29366 Fonte: Gente Motori, febbraio 1993

Peso e prezzo dei modelli base della FIAT, marzo 1993

500 600 700 800 900 1000 1100 1200 130

Esempio: le automobili si vendono a peso?

Autovettura PESO PREZZO (kg) (mil lire)

Cinquecento 700 ED 690 9697Panda 1.0 i.e. L. 715 11071Uno Fire 1.0 i.e 3P 770 13041Tipo 1.4 i.e. 990 17580Tempra 1.4 e.e. 1040 20549Croma 2.0 1250 29366

prezzo=a+b*(peso-500)+errore

parte sistematicascostamento dovuto ad altri ‘fattori’

500 600 700 800 900 1000 1100 1200 1300

costi fissi a b

errore

Sintesi tramite funzioni analitiche

La relazione tra due variabili numeriche può essere sintetizzata con una funzione matematica (retta, parabola, logaritmo …)La retta è la funzione più semplice da adattare ai dati e da interpretare

Esempio di relazione lineare crescente

β0 è l’intercetta, cioè il punto in cui la retta interseca l’asse di Y (valore di Y quando X=0)

β1 è la pendenza o coefficiente angolare o rapporto incrementale (variazione in Y quando X aumenta di 1)

β Δ=Δ

Equazione della retta: Y = β0+β1X

Regressione lineare semplice

REGRESSIONE: metodo per studiare come una variabile di risposta (detta anche variabile dipendente) Y dipende da una o più variabili esplicative (dette anche variabili indipendenti o regressori)

In uno studio sui fattori che influenzano la spesa annuale per consumi di una famiglia, la variabile di risposta è la spesa annuale per consumi, mentre le variabili esplicative sono il reddito annuale complessivo, il tipo di lavoro svolto dal capofamiglia, il numero di componenti della famiglia, …

SEMPLICE: è il caso in cui vi è una sola variabile esplicativa si tratta di un metodo bivariato perché riguarda due variabili: una variabile di risposta Y e una variabile esplicativa XLINEARE: si assume che, nella popolazione, la relazione tra la variabile di risposta Y e la variabile esplicativa X sia di tipo lineare (= una retta); più precisamente, si assume che per ogni valore x appartenente al range di X il valor medio di Y condizionatamente a x, M(Y |X=x), sia una funzione lineare di x

La regressione lineare semplice è un metodo per studiare la dipendenza di una variabile quantitativa Y da una variabile X che può essere sia quantitativa che qualitativa (anche se in questo corso trattiamo solo il caso di X quantitativa); quando la risposta Y è qualitativa occorrono modelli di regressione di altro tipo

0 1y xβ β ε= + +Variabile dipendente (risposta)

Variabile indipendente (esplicativa)

Parte sistematica

(segnale)

Parte accidentale

(rumore)

Questo modello ipotizza che la risposta y sia generata dalla somma di

• una parte sistematica (che è funzione lineare di x)

• una parte accidentale (che è puramente casuale e quindi non dipende da x)Statistica 2010/2011 10

L’ipotesi fondamentale del modello è che l’effetto di X sulla media di Y sia completamente catturato dalla parte sistematica; in altri termini, che la media della parte accidentale non dipenda da X

In alternativa

0 1( | )M Y X x x xβ β= = + ∀

( | ) 0M X x xε = = ∀

Il modello assume che la relazione che lega la media di Y condizionata a X sia una funzione lineare di X (per i valori x appartenenti al range)

Y = “spesa per consumi” e X = “reddito”

ad ogni valore del reddito x appartenente al rangecorrisponde un insieme di famiglie con una certa distribuzione della spesa per consumi e quindi con una certa spesa media per consumi M(Y | X=x). La teoria economica (supportata dall’evidenza empirica) sostiene che al crescere del reddito cresce la spesa per consumi, cioè M(Y | X=x) è funzione crescente di x; se si usa la regressione lineare semplice si assume che tale funzione sia lineare

Interpretazione della pendenza

Supponiamo che X assuma un certo valore x* in corrispondenza del quale la media condizionata di Y è

Supponiamo poi che X aumenti di 1 e quindi assuma il valore x*+1, in corrispondenza del quale la media condizionata di Y è

Sottraendo si ottiene

Pertanto β1 è la variazione della media condizionata di Y conseguente all’aumento di 1 di x, qualunque sia il valore x* di partenza

* *0 1( | )M Y X x xβ β= = +

* *0 1( | 1) ( 1)M Y X x xβ β= + = + +

* *1( | 1) ( | )M Y X x M Y X x β= + − = =

Interpretazione della pendenza

L’interpretazione di β1 dipende dall’unità di misura delle due variabiliSe X è l’altezza in cm e Y è il peso in kg allora β1 è espresso in kg/cm perché rappresenta la variazione in kgdel peso quando l’altezza aumenta di 1 cm

Dal modello ai dati

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

1,2, ,i n= K

Popolazione o campione di n unità statistiche

Unità statistiche

variabili

0 1i i iY xβ β ε= + +

Si aggiunge l’indice i

Determinare la retta di regressione:

il metodo dei minimi quadrati

Statistica 2010/2011 15 Statistica 2010/2011 16

Dati e retta di regressione stimata

retta stimataˆi iy b b x= +

. ... ..

0 1b b x+

stimabb

⇒⇒

Retta di regressione stimata

In termini geometrici: dato un diagramma di dispersione (che rappresenta n osservazioni della coppia di variabili in esame), qual è la retta che si adatta meglio ai punti, che passa più “vicina” all’insieme dei punti?

In termini algebrici: come si calcolano l’intercetta b0 e la pendenza b1 della retta di regressione stimata in modo che l’errore di previsione che si commette con la retta sia il più piccolo possibile?

Retta di regressione stimata

Occorre stabilire una misura di distanza tra retta e insieme di punti (punto di vista geometrico)errore di previsione complessivo (punto di vista algebrico)

I valori x sono considerati quantità date per cui il problema della previsione riguarda i valori y

Il criterio più usato per definire la distanza tra retta e insieme di punti o per definire l’errore di previsione complessivo è quello della somma dei quadrati degli errori (di previsione)

valore di per l'unità ˆ valore di per l'unità

ˆ errore di previsione (scarto)

y osservato Y iy b b x previsto Y ie y y

= + == − =

ˆ( )n n

i i ii i

e y y= =

= −∑ ∑

Minimi Quadrati (MQ)

La retta che rende minimo l’errore di previsione quadratico è chiamata retta dei minimi quadratiLe rette del piano sono infinite, ognuna individuata in modo univoco da una coppia di valori (intercetta, pendenza): determinare la retta dei minimi quadrati significa determinare la coppia di valori (intercetta, pendenza) per cui la somma dei quadrati degli errori è minimaDa un punto di vista matematico si tratta di un problema di minimizzazione di una funzione in due variabili; per fortuna, la soluzione è unica ed è esprimibile con due semplici formule

Retta di MQ

( )( )( , )( )( )

i iiXY XY

x x y yC Cov X YbD Var Xx x

b y b x

− −= = = =

Per determinare i coefficienti della retta di MQ occorrono quattro indici: media di Y, media di X, devianza di X, codevianza tra X e Y

0 1y b b x= +

CXY è detta CODEVIANZA, σXY è detta COVARIANZA

Esempio: come crescono i bambini? /1

Il ritmo di crescita varia da bambino a bambino, possiamo capire meglio il modello generale di crescita osservando come varia nel tempo l’altezza media di un gruppo di bambini

età (mesi) altezza media (cm)

18 76.119 77.020 78.121 78.222 78.823 79.724 79.925 81.126 81.227 81.828 82.829 83.5

Altezza media per mese di 161 bambini

Es. tratto da Moore (2005) Statistica 2010/2011 22

I punti sono quasi allineati una linea retta che passa tra i punti descrive bene il legame tra X e Y

16 18 20 22 24 26 28 30 3

età (mesi)

X=Età (variabile esplicativa)

Y=Altezza media (variabile dipendente)

Scatterplot dell’altezza media di 161 bambini per età

( , )( )

Cov X YbVar X

b y b x

Nel nostro esempio:M(x)=23.5 mesi, M(y)=79.85Var(x)=11.52, Cov(x,y)=7.57

b1=7.57/11.52=0.635b0=79.85-23.5*0.635=64.93

I coefficienti della retta di MQ sono

Retta di MQ: altezza=64.93+0.635*età

b1=0.635 pendenza: l’altezza dei bambini cresce ogni mese in media di 0.6 cm la pendenza della retta è il tasso di variazione Y al variare di X

16 18 20 22 24 26 28 30 3

età (mesi)

b0=64.93 cm intercetta: altezza media alla nascita (età=0)

Alcune proprietà delle stime di MQ

11 0 1

( )( )

i iiXY

x x y yCb b y b xD x x

− −= = = −

( )0 1 1 1

ˆ ˆ:

x x y yInfatti y b b x y b x b x y= ⇒ =

= + = − + =

ˆ ˆ 0

i i i i ii i i iInfatti

e y y y y=

= − = − =

∑ ∑ ∑ ∑

La retta dei MQ passa per il baricentro

La somma dei residui è nulla

Alcune proprietà dei MQ

( ) ( )( )( )

0 1 1 1

ˆ(da cui segue )ˆ

ˆ:i ii i

i i ii i i

i ii i i

y yy y

Infatti y b b x y b x b x

y b x x y

= + = − +

= + − =

∑ ∑∑ ∑ ∑∑ ∑ ∑

11 0 1

( )( )

i iiXY

x x y yCb b y b xD x x

− −= = = −

La somma dei valori stimati è uguale alla somma dei valori osservati

Traslazione

Consideriamo una traslazione a della x

( ' )( ) '

β β εβ β εβ β β ε

= + − +

= − + +Pendenza invariata

Caso speciale: , cioè ' Pendenza invariata Nuova intercetta ben interpretabile:

è il valore previsto di quando

x x x x

= − = −→→

' 'ax x ax x= + ⇔ = −

Cambiamento di scala

y xd d

dy d x d

β β ε

⎛ ⎞= + +⎜ ⎟

⎝ ⎠

⎛ ⎞= + +⎜ ⎟

⎝ ⎠

' 'x yx d x y d y= =

• espansione della scala y (dy > 1) aumenta pendenza

• espansione della scala x (dx > 1) diminuisce pendenza

Interpolazione

estrapolazione

Interpolazione

Possiamo utilizzare la retta di regressione per prevedere il valore di Y per un dato valore di X non osservato, ma interno al range di X (nell’esempio 18-29 mesi).

Altezza media dei bambini per x=20.5 mesi:

altezza=64.93+0.635*20.5=77.95 cm

Estrapolazione

Possiamo utilizzare la retta di regressione per prevedereil valore di Y per un dato valore di X esterno al suo range (nell’esempio 18-29 mesi).

Altezza media dei bambini per x=32 mesi:

altezza=64.93+0.635*32=85.25 cm

L’accuratezza dell’estrapolazione dipende da:• quanto la retta si adatta bene ai dati• quanto il valore di X è lontano dai valori osservatiEsempioX=0 è un valore esterno lontano intercetta potrebbe

non essere una buona previsione dell’altezza alla nascitaStatistica 2010/2011 32

Esempio del tempo TV: dati

I dati riportati nella tabella seguente si riferiscono all’età in anni(X) e al tempo in minuti passato davanti alla televisione nell’ultima settimana (Y) per un campione di 6 soggetti:

Età Tempo TV X Y

34 430 42 365 55 620 59 580 61 800 63 780

Somma 314 3575 Media 52.3 595.8

( ) 683.333

( )( ) 9118.333

x x y y

− − =

Esempio del tempo TV: retta di regressione

Diagramma di dispersione e retta di regressione

0100200300400500600700800900

0 10 20 30 40 50 60 70età (X)

( )( )9118.333 13.344683.333( )

x x y yb

− −= = =

0 1 595.8 13.344 52.3 102.498b y b x= − = − × = −

ˆ 102.498 13.344y x= − +

Esempio del tempo TV: interpretazione

La pendenza b1 = 13.3 è la variazione media del tempo TV settimanale in minuti corrispondente ad un aumento di 1 anno dell’età

Poiché la pendenza è positiva all’aumentare dell’età tende ad aumentare il tempo TV:

1 anno in più aumento medio di 13.3 minuti per settimana2 anni in più aumento medio di 26.6 minuti per settimana10 anni in più aumento medio di 133 minuti per settimana1 anno in meno riduzione media di 13.3 minuti per settimana … ecc.

L’intercetta b0 = –102.5 è il tempo TV settimanale previsto per un soggetto di età zero (x=0)

In questa applicazione l’intercetta non è interpretabile perché non ha senso chiedersi qual è il valore previsto del tempo TV per un neonato!

L’intercetta è un caso speciale di valore previsto (è il valore previsto di Yquando x=0)

Esempio del tempo TV: previsioniLa retta di regressione può essere usata per calcolare il valore previsto di Y in corrispondenza di un qualunque valore di X, sia un valore osservato nel campione che un valore non osservatoUsando la retta di regressione precedentesi ottengono, ad esempio, i seguenti valori previsti (arrotondati all’intero)

ˆ 102.498 13.344y x= − +

x-10 -236

0 -10220 16430 29855 63160 69870 832

100 1232500 6570

y La retta, come funzione matematica, è definita sull’intero asse dei reali e quindi qualsiasi valore x di X può essere usato per fare la previsione di Y

Tuttavia non tutti i valori di x hanno senso nel contesto applicativo: nell’esempio del tempo TV x è l’età e quindi non può essere negativa, ma non ha senso nemmeno prendere in considerazione valori di x vicini a 0 (perché i neonati non guardano la TV) e valori di x oltre 100 (perché gli esseri umani raramente superano tale età)

Interpolazione vs estrapolazione

In ogni applicazione si può determinare a priori (cioè indipendentemente dai dati effettivamente rilevati) un intervallo di valori di x che ha senso prendere in considerazione

nell’esempio del tempo TV l’intervallo di x che ha senso considerare va grosso modo da 3 a 100 anni

A posteriori, alla luce dei dati effettivamente rilevati, l’intervallo di valori di x che è opportuno utilizzare per prevedere la Y non dovrebbe essere molto più ampio del cosiddetto intervallo rilevante, cioè l’intervallo di valori assunti dalla variabile esplicativa X nel campione osservato

nell’esempio del tempo TV l’intervallo rilevante va da 34 a 63 anni

Interpolazione vs estrapolazione

Interpolazione: prevedere Y in corrispondenza di un valore xinterno all’intervallo rilevante (come la previsione di 398 per x=60)Estrapolazione: prevedere Y in corrispondenza di un valore x esterno all’intervallo rilevante (come la previsione di 164 per x=20 o la previsione di 832 per x=70)Le estrapolazioni vanno evitate o, per lo meno, limitate a valori x appena fuori dall’intervallo rilevante.

Infatti la retta di regressione è stata determinata usando i valori xdell’intervallo rilevante e non vi è alcun modo di sapere come la retta si modificherebbe aggiungendo valori x esterni all’intervallo rilevante; facendo estrapolazioni si assume implicitamente che aggiungendo valori x esterni la retta rimarrebbe sostanzialmente invariata, ma tale ipotesi non è verificabile ed è tanto meno plausibile quanto più i punti considerati sono lontani dall’intervallo rilevante

I pericoli dell’estrapolazione

Diagramma di dispersione e retta di regressione

0100200300400500600700800900

0 10 20 30 40 50 60 70

età (X)

Intervallo rilevante

La linea rossa rappresenta una possibile relazione tra Y e X nella popolazione, mentre la retta nera è la retta di regressione determinata con i dati campionari, in cui l’intervallo rilevante è [34,63]

Bontà di adattamento della retta di regressione:

il coefficiente di determinazione r2

Misure di variabilità nella regressioneDY (Devianza totale di Y): misura la variabilità dei valori Yosservati attorno alla loro media

DSL (Devianza di Y Spiegata della regressione Lineare su X): misura la variabilità dei valori Y previsti attorno alla loro media (la quale, per una proprietà del metodo dei minimi quadrati, coincide con la media dei valori osservati)

DRL (Devianza di Y Residua rispetto alla regressione Lineare su X): misura la variabilità degli errori di regressione attorno alla loro media

D y y=

= −∑

ˆ ˆ ˆ( ) ( )n n

SL i ii i

D y y y y= =

= − = −∑ ∑

ˆ( ) ( )n n n

RL i i i ii i i

D e e e y y= = =

= − = = −∑ ∑ ∑Statistica 2010/2011 40

Misure di variabilità nella regressione

D y y=

= −∑2

ˆ( )n

D y y=

= −∑

ˆ( )n

RL i ii

D y y=

= −∑

Misure di variabilità nella regressione

Con alcuni passaggi algebrici si dimostra che

Pertanto la regressione lineare semplice opera una scomposizione della variabilità totale di Y in due parti, interpretabili come

DSL: variabilità di Y spiegata da X (più precisamente: variabilità di Y dovuta alla relazione lineare con X )DRL: variabilità residuale di Y (cioè non dovuta alla relazione lineare con X)

Y SL RLD D D= +

Regressione: spiegare la variabilità

La regressione può essere vista come un metodo per spiegare la variabilità di una variabile (Y) tramite la relazione lineare con un’altra variabile (X)

La spesa per consumi (Y) varia molto da famiglia a famiglia e può essere misurata da SST (che è il numeratore della varianza).

D: perché le famiglie hanno consumi diversi? R: i motivi sono molti, uno è perché le famiglie hanno redditi diversi e il consumo cresce al crescere del reddito.

D: quanto è importante il ruolo del reddito nello spiegare la variabilità dei consumi delle famiglie? R: assumendo una relazione lineare tra consumi e reddito, la risposta è fornita dalla scomposizione di SST nelle due parti SSR (variabilità dei consumi spiegata dalla relazione lineare con il reddito) e SSE(variabilità residuale dei consumi)

Coefficiente di determinazione r2

Poiché DSL≥0 e DSL≤DY segue che r2 ∈[0,1]. Dunque r2 è un indice normalizzato: per ogni insieme di dati r2 ha valore min 0 e max 1Il coefficiente di determinazione misura la bontà di adattamentodella retta di regressione; infatti per la scomposizione di DY, r2 si può scrivere anche

La retta di regressione si adatta ai dati tanto meglio quanto più piccola è la somma dei quadrati degli errori, DRL, ovvero quanto più grande è il coefficiente di determinazione r2 (ma r2 è più facilmente interpretabile perché è un indice normalizzato)

2 1 RL

Il coefficiente di determinazione è la proporzione di variabilità totale di Yspiegata dalla relazione lineare con X:

Misurare la bontà di adattamento è cruciale per l’interpretazione e l’utilizzo dei risultati della regressioneLa retta di regressione è la retta che meglio si adatta ai dati, quella che minimizza l’errore di previsione complessivo (definito dalla somma dei quadrati degli errori); Tuttavia la migliore retta potrebbe comunque fare un pessimo lavoro, cioè la regressione lineare potrebbe spiegare solo una piccola parte della variabilità di Y ( enormi errori diprevisione)Quando il coefficiente di determinazione r2 è piccolo l’adattamento della retta è scarso e quindi la regressione lineare è uno strumento inutile

Il metro di giudizio sul valore assunto da r2 dipende dal contesto applicativo: in alcuni campi r2 è solitamente su valori tra 0.15 e 0.30, in altri campi (ad es. serie temporali) r2 è spesso intorno a 0.90 non si può dire in generale quale sia la soglia al di sotto della quale r2 debba ritenersi insoddisfacenteCaso limite r2=1: accade quando DRL=0, il che significa che tutti gli errori di previsione sono nulli e quindi tutti i punti del diagramma di dispersione giacciono sulla retta di regressione (che può avere qualunque pendenza, positiva o negativa)Caso limite r2=0: accade quando DSL=0, il che significa che i valori previsti sono tutti uguali a e quindi la retta di regressione è orizzontale (ha pendenza nulla)

ˆiy y

Calcolo di r2

Per calcolare r2 occorre calcolare DY e, a scelta, uno dei due termini della scomposizione della devianzaLa via più veloce è quella di calcolare DSL perché

Pertanto r2 si può scrivere anche

( ) ( )2 20 1 0 1

2 2 2 21 1 1

ˆ ( ) ( )

( ) ( ) ( ) ( )

SL i ii in n

i i Xi i

D y y b b x b b x

b x x b x x b D

= − = + − +

= − = − =

∑ ∑

2 22 1( )

XSL X XY

Y Y Y X Y

C DDD b D Cr

D D D D D

⎛ ⎞⎜ ⎟⎝ ⎠= = = =

Questo è il quadrato del coefficiente di correlazione lineare(vedi più avanti)

Calcolo di r2

Nell’esempio del tempo TV si ha DY = 157220.833 DX = 683.333 b1 = 13.344.

Pertanto, DSL = (13.344)2 × 683.333 = 121675.870

2 121675.870 0.7739157220.833

= = =Il 77.39% della variabilità del tempo TV è spiegata dalla relazione lineare con l’età

Errore medio di previsione

La radice quadrata della varianza residua è interpretabile come l’errore medio che si commette prevedendo Y tramite il modello di regressione lineare su X

Nell’esempio del tempo TV

1 ˆ( )n

RLRL i i

D y yn n

= = −∑

157220.833 121675.87 35544.963

35544.963 76.969 (minuti)6

= − =

La simmetria di r2

Guadiamo l’indice di determinazione nella forma

L’indice è simmetrico: rimane invariato cambiando l’ordine di X e Y cioè invertendo il ruolo di X e Y nella regressione: la regressione di Y su X e la regressione di X su Y producono lo stesso coeff. di determinazione, cioè hanno la stessa bontà di adattamentoDunque i risultati della regressione non forniscono alcuna indicazione in merito alla scelta di quale variabile usare come risposta e quale come esplicativa: tale scelta è necessariamente basata sulla conoscenza a priori di quale è la causa (= l’esplicativa) e quale l’effetto (la risposta); in mancanza di tale conoscenza la scelta è effettuata arbitrariamente dall’analista in base al punto di vista che vuole privilegiare

Regressione e relazioni causa-effetto

Relazioni causa-effetto

Si può affermare che X è la causa e Y l’effetto?La domanda è rilevante sia da un punto di vista teorico (come funziona il mondo?) che praticoInfatti, se si interviene nel sistema fissando la X ad un valore arbitrario, in presenza di una pura relazione causa-effetto la Y risponde assumendo il valore medio previsto dal modello, altrimenti ha un comportamento imprevedibile

Relazioni causa-effetto: esempio

Sia X la spesa annuale in pubblicità e Y l’ammontare annuale di venditeLa pendenza stimata usando i dati degli ultimi anni è 1.2, cioè ogni euro in più di spesa in pubblicità è associato a 1.2 euro in più di vendite: se l’anno prossimo l’azienda aumenta la spesa in pubblicità di 100000 euro si deve attendere un aumento delle vendite di 120000 euro (e viceversa se riduce la spesa)Queste previsioni sono attendibili? No!

In realtà l’ammontare delle vendite dipende solo in parte dalla pubblicità, perché è fortemente influenzato da fattori come il ciclo economicoInoltre è pure possibile una relazione inversa, cioè che la spesa in pubblicità sia influenzata dall’andamento delle vendite (se le vendite aumentano si rendono disponibili risorse aggiuntive che possono essere destinate alla pubblicità)

Relazioni causa-effetto e regressione

Il modello di regressione può evidenziare un’associazione tra X e Y ma non consente di dire niente sulla relazione causa-effetto

Ad es. non vi è alcun criterio statistico per preferire (1) la regressione del consumo sul reddito piuttosto che (2) la regressione del reddito sul consumo (ricorda: entrambe le regressioni hanno lo stesso r2): è la teoria economica che suggerisce di usare la versione (1), in quanto asserisce che il reddito influenza il consumo e non viceversa

Tuttavia per certe finalità può essere utile specificare la regressione in modo contrario alla relazione causa-effetto: nell’esempio precedente la versione (2) potrebbe essere specificata dall’Agenzia delle Entrate qualora disponga di dati sui consumi dei contribuenti e voglia usarli per inferire il loro reddito

Relazioni causa-effetto e regressione

Date due variabili, i due possibili modi di specificare il modello di regressione (scambiando i ruoli di risposta ed esplicativa) sono solo due punti di vista alternativi: scegliere un punto di vista o l’altro ovviamente non modifica la realtà, semplicemente si traggono impressioni diverse dello stesso fenomeno

è come assistere ad un incontro di calcio dalla tribuna o dalla curva: ciò non modifica l’incontro, anche se si ottengono impressioni diverse

Tipi di relazioni causa-effetto

Assenza di relazione

Z1 causa Z2

Z2 causa Z1

Z1 causa Z2 e viceversa

Date due variabili osservate Z1 e Z2 le possibili relazioni causali sono:

Relazioni causa-effetto e variabili nascoste

L’unico modo affidabile di stabilire una relazione causa-effetto consiste nel raccogliere i dati tramite un esperimento controllato (assegnare a caso le unità statistiche ai diversi valori di X, poi osservare la Y)Al di fuori dei dati sperimentali, vi è sempre un pericolo in agguato: la relazione tra Z1 e Z2 potrebbe essere in tutto o in parte dovuta ad una variabile non osservata, o comunque non inclusa nell’analisi Z0 (variabile nascosta)

Associazione tra Z1 e Z2interamente dovuta a Z0

Esempio. In una applicazione su bambini di diverse età: Z1 = lunghezza del piede; Z2 = numero di vocaboli conosciuti; Z0 = età. La regressione del numero di vocaboli sulla lunghezza del piede dà luogo ad una pendenza positiva significativa, ma ovviamente tra le due variabili non vi è alcuna relazione causa-effetto

Relazioni causa-effetto e variabili nascoste

Associazione tra Z1 e Z2in parte dovuta a Z0

La regressione della capacità respiratoria sul numero di sigari dà luogo ad una pendenza significativa (di segno negativo: cioè all’aumentare del numero di sigari la capacità polmonare tende a diminuire). Tuttavia, entrambe le variabili sono associate all’età: negli anziani è maggiore la frequenza sia di coloro che fumano il sigaro, sia di coloro che hanno scarsa capacità polmonare. Gli studi epidemiologici hanno dimostrato che il fumo (anche quello di sigaro) riduce la capacità polmonare, cioè esiste una relazione causa-effetto: tuttavia, se nell’analisi si ignora che i soggetti hanno diverse età, risulta un’associazione più forte di quanto è realmente (la pendenza della retta di regressione è “troppo” negativa perché incorpora anche l’effetto dell’età). Una semplice soluzione è di eseguire l’analisi di regressione separatamente per fasce di età.

Esempio. In una applicazione su adulti di diverse età:

Z1 = numero di sigari fumati al giorno

Z2 = capacità respiratoria

Z0 = età

Analisi dei residui

Punti influenti

Variabili nascoste

Analisi dei residui

r2 non sempre è sufficiente a verificare la bontà di adattamento del modello

Plot dei residui vs valori previsti:La relazione tra X e Y è lineare?La variabilità di Y resta costante al variare di X?Sono presenti valori anomali nei dati?

iii yye ˆ−= residui

Residui disposti casualmente

Analisi dei residui: relazione non lineare Esempio: relazione non lineare

x y6.10 87.495.91 83.591.79 11.712.37 18.641.66 9.875.21 67.964.04 42.311.95 12.753.64 33.632.94 23.535.38 68.192.34 17.602.55 17.900.91 4.543.96 41.09

Y*=-20.25+16.64X

r2=0.9716

Analisi dei residui: relazione quadratica tra X e Y?

Esempio: relazione non lineare (segue)

Y*=1.49+1.79X+2.03X2

r2=0.9986

Analisi dei residui:andamento casuale

Analisi dei residui: varianza di Y non costante

Osservazioni particolari

OUTLIER: osservazione con residuo elevato (valore anomalo di Y rispetto alla previsione)LEVERAGE (punto di leva): valore anomalo della variabile indipendente (X)

PUNTI INFLUENTI: osservazioni con comportamento anomalo che influenzano

notevolmente i risultati

Non tutti gli outlier e i leverage sono necessariamente punti influenti

Esempio: outlier (residui grandi)

x y-0.73 -1.57-0.24 2.690.41 2.671.51 -1.942.46 12.542.71 13.472.93 14.143.10 14.893.37 15.033.55 15.404.12 19.464.26 18.464.62 20.766.00 1.957.92 34.29

Y*=2.11+3.27X

r2=0.5731

Valori anomali!!

Esempio: outlier (residui grandi) /segue

Y*=2.06+4.04X

r2=0.9925

Migliore adattamento del modello!!

Cancelliamo i valori anomali e ristimiamo il modello …

Valori anomali e osservazioni influenti

Un valore anomalo è un’osservazione che sta “lontana” dalle altre osservazioni. I punti che presentano un valore anomalo per Y (outlier) hanno residui alti, ma i punti con valori anomali in X (leverage) non necessariamente presentano residui alti!

Un’osservazione è influente se la sua rimozione comporta un cambiamento notevole nelle stime dei parametri e/o in r2. Punti con valori anomali in X sono spesso influenti!

Esempio: parola e abilità

x y15 9526 7110 839 9115 10220 8718 9311 1008 10420 947 113

x y 9 9610 8311 8411 10210 10012 10542 5717 12111 8610 100

Per 21 bambini si conosce l’età, in mesi X, in cui è stata pronunciata la prima parola e il punteggio ad un test di abilità Y (Moore e McCabe)

Y*=109.87-1.127X

r2=0.41

n.19 Y grande!

n.18: x grande!

L’età in cui un bimbo inizia a parlare è un buon previsore del punteggio ad un successivo test di abilità mentali?

Esempio: parola e abilità /segue

Il bambino n.18inizia a parlare molto più tardi degli altri: per la sua posizione estrema (leverage) questo punto ha una forte influenzasulla posizione della retta di regressione!

Attenzione: non tutti i valori anomali sono influenti!!

outlier

leverage

Esempio: parola e abilità /segue

y = 105.6299 - 0.779221*xr2= 0.11 La relazione tra X

e Y è debole! Prima sembrava alta a causa della sola osservazione n. 18! Servono più dati per capire meglio la relazione studiata!

Cosa succede se cancelliamo l’osservazione n.18?

Esempio: cambiamento strutturale

anno x y1990 4595 73641991 4827 75471992 4427 70991993 4258 68941994 3995 65721995 4330 71561996 4265 72321997 4351 7450

Il dipartimento di matematica di una grande università deve pianificare il numero di corsi elementari richiesti.X = studenti iscritti al primo annoY = studenti che scelgono il corso di matematica

Y*=2492.69+1.066X

r2=0.694

Esempio: cambiamento strutturale \segue

I residui mostrano un andamento differenziato:da cosa dipende?

Andamento per anno: dal 1995 una % più elevata di studenti sceglie il corso di matematica. È questo cambiamento che spiega l’andamento osservato nei residui! I dati antecedenti il 1995 non possono essere usati per previsioni

Variabili nascoste: esempio #1

Per le nazioni del mondo rileviamoX = numero di apparecchi TV per 1000 abitanti Y = speranza di vita alla nascita

La regressione di Y su X fornisce un coefficiente angolare positivo e un elevato indice di determinazione Possiamo allungare la vita del popolo del Rwanda inviando loro delle TV? NO!Le nazioni più ricche hanno più TV di quelle povere e hanno anche una speranza di vita più elevata perché hanno una migliore alimentazione, acqua potabile e cure mediche.Non c’è un rapporto di causa effetto tra TV e speranza di vita!!

Uno studio sulle condizioni di salute nella città di Hull (GB) ha misurato per i quartieri più poveri della città

X = indice di sovraffollamento Y = indice di mancanza di servizi igienici

Poiché X e Y sono entrambe misure di abitazioni inadeguate ci aspettiamo una forte relazione; invece la regressione produce r2=0.006. Come è possibile?Ulteriori indagini hanno mostrato che in alcuni dei quartieri più poveri c’è una prevalenza di case pubbliche, con servizi igienici, mentre in altri non è cosìLa relazione tra X e Y è diversa in questi due tipi di quartiere analizzare tutti i quartieri insieme oscura la relazione tra X e Y.

Y su X | Z=0 r2 = 0.79Y su X | Z=1 r2 = 0.41

Y su X | tutti r2 = 0.12

La rappresentazione grafica è importante per capire il legame tra X e Y nei sottogruppi individuati da Z!

Due gruppi formati da una variabile categorica

Modello statistico: costruzione e uso

Teorizzazione fenomeno

Individuazione variabiliesplicative

Formulazione o identificazione modello

Uso dei dati per la stima del modello

verifica modello

Utilizzo del modello

Uso del modello:•Descrizione delle relazioni

• Inferenza (conoscenza del processo generatore dei dati)

• Previsione dei valori della variabile di risposta

Correlazione

Cicchitelli Cap. 11

Covarianza /1

Consideriamo due variabili quantitative, ad es. SPESE (X) e RENDIMENTO (Y) nel 2003 per 9 fondi comuni Esiste una associazione tra SPESE e RENDIMENTO ?Ovvero: al crescere delle spese il rendimento tende a crescere, tende a calare o nessuna delle due?

0.00 0.50 1.00 1.50 2.00

Spese (X)

Spese Rendim.

1.25 37.3

0.72 39.2

1.57 44.2

1.40 44.5

1.33 53.8

1.61 56.6

1.68 59.3

1.42 62.4

1.20 66.5

Covarianza /2

Sia per le SPESE (X) che per il RENDIMENTO (Y) posso calcolare separatamente media e deviazione std

μX=1.353 e σX= 0.271

μY= 51.533 e σY= 9.951

Ma questi indici non dicono nulla sulla associazione tra X e Y

Per questo fine serve un indice calcolato congiuntamente, come la covarianza

Covarianza /3

0.00 0.50 1.00 1.50 2.00

Spese (X)

− − + −

+ + e − − concordanti

+ − e − + discordanti

Covarianza /4

Le osservazioni (Xi, Yi) con valori concordantihanno scarti dalla media con lo stesso segno (+ + o − −) e quindi il prodotto degli scarti ha segno positivoLe osservazioni (Xi, Yi) con valori discordantihanno scarti dalla media con segno opposto (+ −o − +) e quindi il prodotto degli scarti ha segno negativoPer ottenere un indice di associazione basta sommare i prodotti degli scarti e vedere se il risultato è positivo (prevalgono i concordanti) o negativo (prevalgono i discordanti)

Covarianza /5

Se positiva al crescere di X, Y tende a crescere(notare l’uso della parola tende: infatti, se una unità sta sopra alla media per X è probabile che vi stia anche per Y, ma non è detto)Se negativa al crescere di X, Y tende a diminuireSe nulla non vi è nessuna tendenza

1( , ) ( )( )N

XY i X i Yi

Cov X Y x yN

σ μ μ=

= = − −∑

Calcolo della covarianza

spese (X) rendim (Y) X-M(X) Y-M(Y) prodotto1.25 37.3 -0.103 -14.233 1.4660.72 39.2 -0.633 -12.333 7.8071.57 44.2 0.217 -7.333 -1.5911.40 44.5 0.047 -7.033 -0.3311.33 53.8 -0.023 2.267 -0.0521.61 56.6 0.257 5.067 1.3021.68 59.3 0.327 7.767 2.5401.42 62.4 0.067 10.867 0.7281.20 66.5 -0.153 14.967 -2.290

9.579Covarianza 9.579 / 9 = 1.064

1.353 51.533

Coefficiente di correlazione lineare /1

I valori minimo e massimo assumibili dalla covarianza dipendono dai dati in esame non si può dire se un valore (come il 1.064 dell’esempio) sia da considerarsi grande o piccoloPer questo si trasforma la covarianza in modo che abbia sempre lo stesso minimo (−1) e massimo (+1)

Nell’esempio ρXY = 1.064 / (0.271 × 9.951) = 0.395

σρσ σ

Media del prodotto delle variabili standardizzate:

Simmetrico: ρ rimane invariato se le due variabili sono scambiate

Numero puro: ρ non ha unità di misura (es. X altezza in cm, Ypeso in kg SXY è in cm×kg, SX è in cm, SY è in kg, e quindi rXYè un numero puro)

Invariante per trasformazioni lineari: ρ rimane invariato se le variabili vengono linearmente trasformate (traslazione e/o moltiplicazione per una costante) (es. X temperatura in gradi Celsius, Y raccolto in quintali, ρ non cambia se si esprime la temperatura in gradi Fahrenheit e il raccolto in tonnellate)

i ix y

X Yi i

XY x yi

x yz zz z

Nμ μ

σ σρ

− −= == ∑

rXY >0 X e Y correlate positivamenterXY <0 X e Y correlate negativamenterXY =0 X e Y incorrelate (assenza di correlazione)

rXY = +1 X e Y hanno massima (perfetta) correlazione positiva = tutte le osservazioni stanno su una retta crescenterXY = −1 X e Y hanno massima (perfetta) correlazione negativa = tutte le osservazioni stanno su una retta decrescente

Diagrammi di dispersione con vari Coefficienti di Correlazione

r = -1 r = -0.6 r = 0

r = +0.3r = +1

Xr = 0

Diagrammi di dispersione per due variabili utilizzando sei data set con 100 osservazioni

r = -0.9 r = -0.6

r = -0.3 r = +0.3

r = +0.6 r = +0.992

Correlazione e linearità /1

L’indice rXY fa una sintesi di tutte le osservazioni, ma nei dati vi potrebbero essere andamenti molto diversi

In questo es. vi sono due sottoinsiemi, uno con correlazione negativa e l’altro con correlazione positiva. Nel complesso la correlazione è positiva (r = 0.612)

Correlazione e linearità /2

Il termine “lineare” è spesso sottinteso, ma è importante: infatti rXYmisura l’associazione di tipo lineare (e non parabolico, esponenziale o altro)

rXY = −1 o +1 significa che vi è relazione lineare perfettarXY = 0 significa che, nel complesso, vi è assenza di relazione

lineare, ma vi potrebbe essere una relazione non lineare, anche forte!

In questo es. vi è una relazione di tipo parabolico, con due sottoinsiemi. Nel complesso la correlazione è quasi nulla (r = -0.001)

Correlazione e causalità /1

Se due variabili X e Y sono correlate signfica che tendono a muoversi insieme (in modo concorde se r >0 o discorde se r <0)

Ma il valore di r non dice niente su come e perché X e Ysi muovono insieme: può essere che

X è causa di YY è causa di XX è causa di Y e al tempo stesso Y è causa di XX e Y non sono in relazione di causa-effetto (cosiddetta correlazione spuria)

Es: X = “spesa in pubblicità” e Y = “fatturato”

X influenza Y, ma anche Y influenza X

In una certa regione geografica è stata rilevata una forte correlazione tra X = “numero di cicogne di passaggio” e Y = “numero di bambini nati”

è un caso di correlazione spuria, perché tra X e Y non vi è alcuna relazione!

In alcuni casi la correlazione tra X e Y è generata da una terza variabile Z nascosta

Es. X = “macchie gialle sulle dita” e Y = “tosse”: non vi è relazione causa-effetto, ma la variabile Z = “fumatore” è causa di entrambe e provoca la correlazione

Le serie temporali spesso danno luogo a forti correlazioni spurie perché vi sono andamenti simili nel tempo e nello spazio, ad es. in quasi tutti i paesi del mondo di anno in anno i prezzi crescono, così come gli studenti che frequentano la scuola superiore, il numero di donne nel mercato del lavoro …

E’ quindi plausibile trovare una correlazione positiva elevata tra due fenomeni che tendono a crescere nel tempo, es. il prezzo delle banane in Italia e il salario degli operai canadesi, oppure il numero di laureati in Brasile …

Concordanza

Tra due variabili X e Y vi è concordanza o correlazione positiva quando tendono a crescere insiemeNel caso contrario si parla di discordanza o correlazione negativaIl termine correlazione viene spesso usato nel senso restrittivo di correlazione lineare, che è un tipo particolare di concordanza

Il coefficiente di correlazione di Bravais-Galton-Pearson misura la correlazione lineare (assume i valori estremi in caso di perfetta relazione lineare)

Massima concordanza/discordanza

Si elencano le coppie (xi,yi) in ordine crescente della x:

Se i valori della y sono crescenti massima concordanzaSe i valori della y sono decrescenti massima discordanza

Indice di Spearman /1

Per ognuna delle due variabili si trasformano i valori in ranghi (ranks), cioè posizioni in graduatoria (dal più piccolo)

id x y g(x) g(y)1 25 28 6 82 18 21 1 23 20 23 2 44 27 30 8 105 28 24 9 56 22 20 4 17 21 22 3 38 30 29 10 99 26 26 7 710 24 25 5 6

Voto riportato da 10 studenti agli esami di matematica Xe statistica Y

L’indice di Spearman (o coefficiente di correlazione tra ranghi) rS è il coefficiente di correlazione lineare tra i ranghi delle due variabili

Nell’esempio precedenteCoeff. di correlazione lineare: r = 0.78Coeff. di correlazione tra ranghi: rS = 0.76

Minimo rS = −1 in caso di massima discordanzaMassimo rS = +1 in caso di massima concordanza

Perfetta relazione lineare crescente (decrescente)Massima concordanza (discordanza)

Massima concordanza o discordanzanon implica perfetta relazione lineare

x y1 0.125 0.60

10 1.2025 3.00

x y1 0.005 1.61

10 2.3025 3.22

0 5 10 15 20 25 30

y = 0.12x

y = ln(x)r = 1 rS = 1

r = 0.90 rS = 1

Indice di Spearman – caso di parità

In caso di parità (due o più unità con lo stesso valore) si attribuisce il rango medio

id x y g(x) g(y)1 25 28 6 82 20 21 1.5 23 20 23 1.5 44 27 30 8 105 28 25 9 66 22 20 4 17 21 22 3 38 30 29 10 99 26 25 7 610 24 25 5 6

Voto riportato da 10 studenti agli esami di matematica Xe statistica Y

rS = 0.78

La relazione tra studiata per mezzo di...

Documents