Post on 17-Feb-2019
transcript
Statistica 2010/2011 1
Regressione
Cicchitelli Cap. 10
Statistica 2010/2011 2
Modelli statistici
La relazione tra variabili può essere
studiata per mezzo di ‘modelli statistici’
1 variabile (es. peso)Quanto ci si discosta da un valore ‘tipico’
2 variabili (peso-altezza)Quanto ci si discosta da
una relazione sistematica
peso
modello
altezza
peso
74
76
78
80
82
84
86
88
177 178 179 180 181 182 183 184 185 186
modello
Esempio: le automobili si vendono a peso?
PACE L. e SALVAN A., 1996, Introduzione alla Statistica - I Statistica Descrittiva, CEDAM, Padova
Autovettura PESO PREZZO (kg) (mil lire)
Cinquecento 700 ED 690 9697Panda 1.0 i.e. L. 715 11071Uno Fire 1.0 i.e 3P 770 13041Tipo 1.4 i.e. 990 17580Tempra 1.4 e.e. 1040 20549Croma 2.0 1250 29366 Fonte: Gente Motori, febbraio 1993
Peso e prezzo dei modelli base della FIAT, marzo 1993
0
5000
10000
15000
20000
25000
30000
35000
500 600 700 800 900 1000 1100 1200 130
PESO
PREZ
ZO
3
Esempio: le automobili si vendono a peso?
Autovettura PESO PREZZO (kg) (mil lire)
Cinquecento 700 ED 690 9697Panda 1.0 i.e. L. 715 11071Uno Fire 1.0 i.e 3P 770 13041Tipo 1.4 i.e. 990 17580Tempra 1.4 e.e. 1040 20549Croma 2.0 1250 29366
prezzo=a+b*(peso-500)+errore
parte sistematicascostamento dovuto ad altri ‘fattori’
0
5000
10000
15000
20000
25000
30000
35000
500 600 700 800 900 1000 1100 1200 1300
PESO
PREZ
ZO
costi fissi a b
errore
Statistica 2010/2011 4
Sintesi tramite funzioni analitiche
La relazione tra due variabili numeriche può essere sintetizzata con una funzione matematica (retta, parabola, logaritmo …)La retta è la funzione più semplice da adattare ai dati e da interpretare
Levine, Krehbiel, Berenson - Statistica II ed.© 2006 Apogeo 5
Esempio di relazione lineare crescente
β0 è l’intercetta, cioè il punto in cui la retta interseca l’asse di Y (valore di Y quando X=0)
β1 è la pendenza o coefficiente angolare o rapporto incrementale (variazione in Y quando X aumenta di 1)
1YX
β Δ=Δ
Equazione della retta: Y = β0+β1X
Statistica 2010/2011 6
Statistica 2010/2011 7
Regressione lineare semplice
REGRESSIONE: metodo per studiare come una variabile di risposta (detta anche variabile dipendente) Y dipende da una o più variabili esplicative (dette anche variabili indipendenti o regressori)
In uno studio sui fattori che influenzano la spesa annuale per consumi di una famiglia, la variabile di risposta è la spesa annuale per consumi, mentre le variabili esplicative sono il reddito annuale complessivo, il tipo di lavoro svolto dal capofamiglia, il numero di componenti della famiglia, …
Statistica 2010/2011 8
Regressione lineare semplice
SEMPLICE: è il caso in cui vi è una sola variabile esplicativa si tratta di un metodo bivariato perché riguarda due variabili: una variabile di risposta Y e una variabile esplicativa XLINEARE: si assume che, nella popolazione, la relazione tra la variabile di risposta Y e la variabile esplicativa X sia di tipo lineare (= una retta); più precisamente, si assume che per ogni valore x appartenente al range di X il valor medio di Y condizionatamente a x, M(Y |X=x), sia una funzione lineare di x
La regressione lineare semplice è un metodo per studiare la dipendenza di una variabile quantitativa Y da una variabile X che può essere sia quantitativa che qualitativa (anche se in questo corso trattiamo solo il caso di X quantitativa); quando la risposta Y è qualitativa occorrono modelli di regressione di altro tipo
Statistica 2010/2011 9
Regressione lineare semplice
0 1y xβ β ε= + +Variabile dipendente (risposta)
Variabile indipendente (esplicativa)
Parte sistematica
(segnale)
Parte accidentale
(rumore)
Questo modello ipotizza che la risposta y sia generata dalla somma di
• una parte sistematica (che è funzione lineare di x)
• una parte accidentale (che è puramente casuale e quindi non dipende da x)Statistica 2010/2011 10
Regressione lineare semplice
L’ipotesi fondamentale del modello è che l’effetto di X sulla media di Y sia completamente catturato dalla parte sistematica; in altri termini, che la media della parte accidentale non dipenda da X
In alternativa
0 1( | )M Y X x x xβ β= = + ∀
( | ) 0M X x xε = = ∀
Statistica 2010/2011 11
Regressione lineare semplice
Il modello assume che la relazione che lega la media di Y condizionata a X sia una funzione lineare di X (per i valori x appartenenti al range)
Y = “spesa per consumi” e X = “reddito”
ad ogni valore del reddito x appartenente al rangecorrisponde un insieme di famiglie con una certa distribuzione della spesa per consumi e quindi con una certa spesa media per consumi M(Y | X=x). La teoria economica (supportata dall’evidenza empirica) sostiene che al crescere del reddito cresce la spesa per consumi, cioè M(Y | X=x) è funzione crescente di x; se si usa la regressione lineare semplice si assume che tale funzione sia lineare
Statistica 2010/2011 12
Interpretazione della pendenza
Supponiamo che X assuma un certo valore x* in corrispondenza del quale la media condizionata di Y è
Supponiamo poi che X aumenti di 1 e quindi assuma il valore x*+1, in corrispondenza del quale la media condizionata di Y è
Sottraendo si ottiene
Pertanto β1 è la variazione della media condizionata di Y conseguente all’aumento di 1 di x, qualunque sia il valore x* di partenza
* *0 1( | )M Y X x xβ β= = +
* *0 1( | 1) ( 1)M Y X x xβ β= + = + +
* *1( | 1) ( | )M Y X x M Y X x β= + − = =
Statistica 2010/2011 13
Interpretazione della pendenza
L’interpretazione di β1 dipende dall’unità di misura delle due variabiliSe X è l’altezza in cm e Y è il peso in kg allora β1 è espresso in kg/cm perché rappresenta la variazione in kgdel peso quando l’altezza aumenta di 1 cm
Statistica 2010/2011 14
Dal modello ai dati
1 1
i i
n n
y x
y x
y x
⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
M M
M M
1,2, ,i n= K
Popolazione o campione di n unità statistiche
Unità statistiche
variabili
0 1i i iY xβ β ε= + +
Si aggiunge l’indice i
Determinare la retta di regressione:
il metodo dei minimi quadrati
Statistica 2010/2011 15 Statistica 2010/2011 16
Dati e retta di regressione stimata
0 1
retta stimataˆi iy b b x= +
.
..
.
. ..
..
..
. ... ..
xix
ie
y
0 1b b x+
ˆiy
iy
0 0
1 1
stimabb
ββ
⇒⇒
dati
Statistica 2010/2011 17
Retta di regressione stimata
In termini geometrici: dato un diagramma di dispersione (che rappresenta n osservazioni della coppia di variabili in esame), qual è la retta che si adatta meglio ai punti, che passa più “vicina” all’insieme dei punti?
In termini algebrici: come si calcolano l’intercetta b0 e la pendenza b1 della retta di regressione stimata in modo che l’errore di previsione che si commette con la retta sia il più piccolo possibile?
Statistica 2010/2011 18
Retta di regressione stimata
Occorre stabilire una misura di distanza tra retta e insieme di punti (punto di vista geometrico)errore di previsione complessivo (punto di vista algebrico)
I valori x sono considerati quantità date per cui il problema della previsione riguarda i valori y
Il criterio più usato per definire la distanza tra retta e insieme di punti o per definire l’errore di previsione complessivo è quello della somma dei quadrati degli errori (di previsione)
0 1
valore di per l'unità ˆ valore di per l'unità
ˆ errore di previsione (scarto)
i
i i
i i i
y osservato Y iy b b x previsto Y ie y y
=
= + == − =
2 2
1 1
ˆ( )n n
i i ii i
e y y= =
= −∑ ∑
Statistica 2010/2011 19
Minimi Quadrati (MQ)
La retta che rende minimo l’errore di previsione quadratico è chiamata retta dei minimi quadratiLe rette del piano sono infinite, ognuna individuata in modo univoco da una coppia di valori (intercetta, pendenza): determinare la retta dei minimi quadrati significa determinare la coppia di valori (intercetta, pendenza) per cui la somma dei quadrati degli errori è minimaDa un punto di vista matematico si tratta di un problema di minimizzazione di una funzione in due variabili; per fortuna, la soluzione è unica ed è esprimibile con due semplici formule
Retta di MQ
11 2
2
1
0 1
( )( )( , )( )( )
n
i iiXY XY
nX X
ii
x x y yC Cov X YbD Var Xx x
b y b x
σσ
=
=
− −= = = =
−
= −
∑
∑
Per determinare i coefficienti della retta di MQ occorrono quattro indici: media di Y, media di X, devianza di X, codevianza tra X e Y
0 1y b b x= +
CXY è detta CODEVIANZA, σXY è detta COVARIANZA
Statistica 2010/2011 20
Statistica 2010/2011 21
Esempio: come crescono i bambini? /1
Il ritmo di crescita varia da bambino a bambino, possiamo capire meglio il modello generale di crescita osservando come varia nel tempo l’altezza media di un gruppo di bambini
età (mesi) altezza media (cm)
18 76.119 77.020 78.121 78.222 78.823 79.724 79.925 81.126 81.227 81.828 82.829 83.5
Altezza media per mese di 161 bambini
Es. tratto da Moore (2005) Statistica 2010/2011 22
Esempio: come crescono i bambini? /2
I punti sono quasi allineati una linea retta che passa tra i punti descrive bene il legame tra X e Y
75.0
76.0
77.0
78.0
79.0
80.0
81.0
82.0
83.0
84.0
16 18 20 22 24 26 28 30 3
età (mesi)
alte
zza
(cm
)
X=Età (variabile esplicativa)
Y=Altezza media (variabile dipendente)
Scatterplot dell’altezza media di 161 bambini per età
Statistica 2010/2011 23
Esempio: come crescono i bambini? /3
1
0 1
( , )( )
Cov X YbVar X
b y b x
=
= −
Nel nostro esempio:M(x)=23.5 mesi, M(y)=79.85Var(x)=11.52, Cov(x,y)=7.57
b1=7.57/11.52=0.635b0=79.85-23.5*0.635=64.93
I coefficienti della retta di MQ sono
Statistica 2010/2011 24
Esempio: come crescono i bambini? /4
Retta di MQ: altezza=64.93+0.635*età
b1=0.635 pendenza: l’altezza dei bambini cresce ogni mese in media di 0.6 cm la pendenza della retta è il tasso di variazione Y al variare di X
75.0
76.0
77.0
78.0
79.0
80.0
81.0
82.0
83.0
84.0
16 18 20 22 24 26 28 30 3
età (mesi)
alte
zza
(cm
)
b0=64.93 cm intercetta: altezza media alla nascita (età=0)
Alcune proprietà delle stime di MQ
11 0 1
2
1
( )( )
( )
n
i iiXY
nX
ii
x x y yCb b y b xD x x
=
=
− −= = = −
−
∑
∑
Statistica 2010/2011 25
( )0 1 1 1
ˆ ˆ:
x x y yInfatti y b b x y b x b x y= ⇒ =
= + = − + =
( )1
:
0
ˆ ˆ 0
n
ii
i i i i ii i i iInfatti
e
e y y y y=
=
= − = − =
∑
∑ ∑ ∑ ∑
La retta dei MQ passa per il baricentro
La somma dei residui è nulla
Alcune proprietà dei MQ
Statistica 2010/2011 26
( ) ( )( )( )
0 1 1 1
1
ˆ(da cui segue )ˆ
ˆ:i ii i
i i ii i i
i ii i i
y yy y
Infatti y b b x y b x b x
y b x x y
==
= + = − +
= + − =
∑ ∑∑ ∑ ∑∑ ∑ ∑
11 0 1
2
1
( )( )
( )
n
i iiXY
nX
ii
x x y yCb b y b xD x x
=
=
− −= = = −
−
∑
∑
La somma dei valori stimati è uguale alla somma dei valori osservati
Statistica 2010/2011 27
Traslazione
Consideriamo una traslazione a della x
0 1
0 1
0 1 1
( ' )( ) '
ay x
ax
x
β β εβ β εβ β β ε
= + +
= + − +
= − + +Pendenza invariata
Caso speciale: , cioè ' Pendenza invariata Nuova intercetta ben interpretabile:
è il valore previsto di quando
x x x x
y
a
x x
= − = −→→
=
' 'ax x ax x= + ⇔ = −
Statistica 2010/2011 28
Cambiamento di scala
0 1
0 1
0 1
' '
' '
y x
yy y
x
y x
y xd d
dy d x d
d
β β ε
β β ε
β β ε
= + +
⎛ ⎞= + +⎜ ⎟
⎝ ⎠
⎛ ⎞= + +⎜ ⎟
⎝ ⎠
' 'x yx d x y d y= =
• espansione della scala y (dy > 1) aumenta pendenza
• espansione della scala x (dx > 1) diminuisce pendenza
Interpolazione
ed
estrapolazione
Statistica 2010/2011 29 Statistica 2010/2011 30
Interpolazione
Possiamo utilizzare la retta di regressione per prevedere il valore di Y per un dato valore di X non osservato, ma interno al range di X (nell’esempio 18-29 mesi).
Altezza media dei bambini per x=20.5 mesi:
altezza=64.93+0.635*20.5=77.95 cm
Statistica 2010/2011 31
Estrapolazione
Possiamo utilizzare la retta di regressione per prevedereil valore di Y per un dato valore di X esterno al suo range (nell’esempio 18-29 mesi).
Altezza media dei bambini per x=32 mesi:
altezza=64.93+0.635*32=85.25 cm
L’accuratezza dell’estrapolazione dipende da:• quanto la retta si adatta bene ai dati• quanto il valore di X è lontano dai valori osservatiEsempioX=0 è un valore esterno lontano intercetta potrebbe
non essere una buona previsione dell’altezza alla nascitaStatistica 2010/2011 32
Esempio del tempo TV: dati
I dati riportati nella tabella seguente si riferiscono all’età in anni(X) e al tempo in minuti passato davanti alla televisione nell’ultima settimana (Y) per un campione di 6 soggetti:
Età Tempo TV X Y
34 430 42 365 55 620 59 580 61 800 63 780
Somma 314 3575 Media 52.3 595.8
2
1
1
( ) 683.333
( )( ) 9118.333
n
iin
i ii
x x
x x y y
=
=
− =
− − =
∑
∑
Esempio del tempo TV: retta di regressione
Diagramma di dispersione e retta di regressione
0100200300400500600700800900
0 10 20 30 40 50 60 70età (X)
tem
po T
V (Y
)
11
2
1
( )( )9118.333 13.344683.333( )
n
i ii
n
ii
x x y yb
x x
=
=
− −= = =
−
∑
∑
0 1 595.8 13.344 52.3 102.498b y b x= − = − × = −
ˆ 102.498 13.344y x= − +
Statistica 2010/2011 33 Statistica 2010/2011 34
Esempio del tempo TV: interpretazione
La pendenza b1 = 13.3 è la variazione media del tempo TV settimanale in minuti corrispondente ad un aumento di 1 anno dell’età
Poiché la pendenza è positiva all’aumentare dell’età tende ad aumentare il tempo TV:
1 anno in più aumento medio di 13.3 minuti per settimana2 anni in più aumento medio di 26.6 minuti per settimana10 anni in più aumento medio di 133 minuti per settimana1 anno in meno riduzione media di 13.3 minuti per settimana … ecc.
L’intercetta b0 = –102.5 è il tempo TV settimanale previsto per un soggetto di età zero (x=0)
In questa applicazione l’intercetta non è interpretabile perché non ha senso chiedersi qual è il valore previsto del tempo TV per un neonato!
L’intercetta è un caso speciale di valore previsto (è il valore previsto di Yquando x=0)
Esempio del tempo TV: previsioniLa retta di regressione può essere usata per calcolare il valore previsto di Y in corrispondenza di un qualunque valore di X, sia un valore osservato nel campione che un valore non osservatoUsando la retta di regressione precedentesi ottengono, ad esempio, i seguenti valori previsti (arrotondati all’intero)
ˆ 102.498 13.344y x= − +
x-10 -236
0 -10220 16430 29855 63160 69870 832
100 1232500 6570
y La retta, come funzione matematica, è definita sull’intero asse dei reali e quindi qualsiasi valore x di X può essere usato per fare la previsione di Y
Tuttavia non tutti i valori di x hanno senso nel contesto applicativo: nell’esempio del tempo TV x è l’età e quindi non può essere negativa, ma non ha senso nemmeno prendere in considerazione valori di x vicini a 0 (perché i neonati non guardano la TV) e valori di x oltre 100 (perché gli esseri umani raramente superano tale età)
Statistica 2010/2011 35 Statistica 2010/2011 36
Interpolazione vs estrapolazione
In ogni applicazione si può determinare a priori (cioè indipendentemente dai dati effettivamente rilevati) un intervallo di valori di x che ha senso prendere in considerazione
nell’esempio del tempo TV l’intervallo di x che ha senso considerare va grosso modo da 3 a 100 anni
A posteriori, alla luce dei dati effettivamente rilevati, l’intervallo di valori di x che è opportuno utilizzare per prevedere la Y non dovrebbe essere molto più ampio del cosiddetto intervallo rilevante, cioè l’intervallo di valori assunti dalla variabile esplicativa X nel campione osservato
nell’esempio del tempo TV l’intervallo rilevante va da 34 a 63 anni
Statistica 2010/2011 37
Interpolazione vs estrapolazione
Interpolazione: prevedere Y in corrispondenza di un valore xinterno all’intervallo rilevante (come la previsione di 398 per x=60)Estrapolazione: prevedere Y in corrispondenza di un valore x esterno all’intervallo rilevante (come la previsione di 164 per x=20 o la previsione di 832 per x=70)Le estrapolazioni vanno evitate o, per lo meno, limitate a valori x appena fuori dall’intervallo rilevante.
Infatti la retta di regressione è stata determinata usando i valori xdell’intervallo rilevante e non vi è alcun modo di sapere come la retta si modificherebbe aggiungendo valori x esterni all’intervallo rilevante; facendo estrapolazioni si assume implicitamente che aggiungendo valori x esterni la retta rimarrebbe sostanzialmente invariata, ma tale ipotesi non è verificabile ed è tanto meno plausibile quanto più i punti considerati sono lontani dall’intervallo rilevante
I pericoli dell’estrapolazione
Diagramma di dispersione e retta di regressione
0100200300400500600700800900
0 10 20 30 40 50 60 70
età (X)
tem
po T
V (Y
)
Intervallo rilevante
La linea rossa rappresenta una possibile relazione tra Y e X nella popolazione, mentre la retta nera è la retta di regressione determinata con i dati campionari, in cui l’intervallo rilevante è [34,63]
Statistica 2010/2011 38
Bontà di adattamento della retta di regressione:
il coefficiente di determinazione r2
Statistica 2010/2011 39
Misure di variabilità nella regressioneDY (Devianza totale di Y): misura la variabilità dei valori Yosservati attorno alla loro media
DSL (Devianza di Y Spiegata della regressione Lineare su X): misura la variabilità dei valori Y previsti attorno alla loro media (la quale, per una proprietà del metodo dei minimi quadrati, coincide con la media dei valori osservati)
DRL (Devianza di Y Residua rispetto alla regressione Lineare su X): misura la variabilità degli errori di regressione attorno alla loro media
2
1( )
n
Y ii
D y y=
= −∑
2 2
1 1
ˆ ˆ ˆ( ) ( )n n
SL i ii i
D y y y y= =
= − = −∑ ∑
2 2 2
1 1 1
ˆ( ) ( )n n n
RL i i i ii i i
D e e e y y= = =
= − = = −∑ ∑ ∑Statistica 2010/2011 40
Misure di variabilità nella regressione
2
1( )
n
Y ii
D y y=
= −∑2
1
ˆ( )n
SL ii
D y y=
= −∑
2
1
ˆ( )n
RL i ii
D y y=
= −∑
Statistica 2010/2011 41 Statistica 2010/2011 42
Misure di variabilità nella regressione
Con alcuni passaggi algebrici si dimostra che
Pertanto la regressione lineare semplice opera una scomposizione della variabilità totale di Y in due parti, interpretabili come
DSL: variabilità di Y spiegata da X (più precisamente: variabilità di Y dovuta alla relazione lineare con X )DRL: variabilità residuale di Y (cioè non dovuta alla relazione lineare con X)
Y SL RLD D D= +
Statistica 2010/2011 43
Regressione: spiegare la variabilità
La regressione può essere vista come un metodo per spiegare la variabilità di una variabile (Y) tramite la relazione lineare con un’altra variabile (X)
La spesa per consumi (Y) varia molto da famiglia a famiglia e può essere misurata da SST (che è il numeratore della varianza).
D: perché le famiglie hanno consumi diversi? R: i motivi sono molti, uno è perché le famiglie hanno redditi diversi e il consumo cresce al crescere del reddito.
D: quanto è importante il ruolo del reddito nello spiegare la variabilità dei consumi delle famiglie? R: assumendo una relazione lineare tra consumi e reddito, la risposta è fornita dalla scomposizione di SST nelle due parti SSR (variabilità dei consumi spiegata dalla relazione lineare con il reddito) e SSE(variabilità residuale dei consumi)
Coefficiente di determinazione r2
Poiché DSL≥0 e DSL≤DY segue che r2 ∈[0,1]. Dunque r2 è un indice normalizzato: per ogni insieme di dati r2 ha valore min 0 e max 1Il coefficiente di determinazione misura la bontà di adattamentodella retta di regressione; infatti per la scomposizione di DY, r2 si può scrivere anche
La retta di regressione si adatta ai dati tanto meglio quanto più piccola è la somma dei quadrati degli errori, DRL, ovvero quanto più grande è il coefficiente di determinazione r2 (ma r2 è più facilmente interpretabile perché è un indice normalizzato)
2 SL
Y
DrD
=
2 1 RL
Y
DrD
= −
Il coefficiente di determinazione è la proporzione di variabilità totale di Yspiegata dalla relazione lineare con X:
Statistica 2010/2011 44
Statistica 2010/2011 45
Coefficiente di determinazione r2
Misurare la bontà di adattamento è cruciale per l’interpretazione e l’utilizzo dei risultati della regressioneLa retta di regressione è la retta che meglio si adatta ai dati, quella che minimizza l’errore di previsione complessivo (definito dalla somma dei quadrati degli errori); Tuttavia la migliore retta potrebbe comunque fare un pessimo lavoro, cioè la regressione lineare potrebbe spiegare solo una piccola parte della variabilità di Y ( enormi errori diprevisione)Quando il coefficiente di determinazione r2 è piccolo l’adattamento della retta è scarso e quindi la regressione lineare è uno strumento inutile
Statistica 2010/2011 46
Coefficiente di determinazione r2
Il metro di giudizio sul valore assunto da r2 dipende dal contesto applicativo: in alcuni campi r2 è solitamente su valori tra 0.15 e 0.30, in altri campi (ad es. serie temporali) r2 è spesso intorno a 0.90 non si può dire in generale quale sia la soglia al di sotto della quale r2 debba ritenersi insoddisfacenteCaso limite r2=1: accade quando DRL=0, il che significa che tutti gli errori di previsione sono nulli e quindi tutti i punti del diagramma di dispersione giacciono sulla retta di regressione (che può avere qualunque pendenza, positiva o negativa)Caso limite r2=0: accade quando DSL=0, il che significa che i valori previsti sono tutti uguali a e quindi la retta di regressione è orizzontale (ha pendenza nulla)
ˆiy y
Statistica 2010/2011 47
Calcolo di r2
Per calcolare r2 occorre calcolare DY e, a scelta, uno dei due termini della scomposizione della devianzaLa via più veloce è quella di calcolare DSL perché
Pertanto r2 si può scrivere anche
( ) ( )2 20 1 0 1
1 1
2 2 2 21 1 1
1 1
ˆ ( ) ( )
( ) ( ) ( ) ( )
n n
SL i ii in n
i i Xi i
D y y b b x b b x
b x x b x x b D
= =
= =
= − = + − +
= − = − =
∑ ∑
∑ ∑
2
2 22 1( )
XYX
XSL X XY
Y Y Y X Y
C DDD b D Cr
D D D D D
⎛ ⎞⎜ ⎟⎝ ⎠= = = =
Questo è il quadrato del coefficiente di correlazione lineare(vedi più avanti)
Statistica 2010/2011 48
Calcolo di r2
Nell’esempio del tempo TV si ha DY = 157220.833 DX = 683.333 b1 = 13.344.
Pertanto, DSL = (13.344)2 × 683.333 = 121675.870
2 121675.870 0.7739157220.833
SL
Y
DrD
= = =Il 77.39% della variabilità del tempo TV è spiegata dalla relazione lineare con l’età
Statistica 2010/2011 49
Errore medio di previsione
La radice quadrata della varianza residua è interpretabile come l’errore medio che si commette prevedendo Y tramite il modello di regressione lineare su X
Nell’esempio del tempo TV
2
1
1 ˆ( )n
RLRL i i
i
D y yn n
σ=
= = −∑
157220.833 121675.87 35544.963
35544.963 76.969 (minuti)6
RL
RL
D
σ
= − =
= =
Statistica 2010/2011 50
La simmetria di r2
Guadiamo l’indice di determinazione nella forma
L’indice è simmetrico: rimane invariato cambiando l’ordine di X e Y cioè invertendo il ruolo di X e Y nella regressione: la regressione di Y su X e la regressione di X su Y producono lo stesso coeff. di determinazione, cioè hanno la stessa bontà di adattamentoDunque i risultati della regressione non forniscono alcuna indicazione in merito alla scelta di quale variabile usare come risposta e quale come esplicativa: tale scelta è necessariamente basata sulla conoscenza a priori di quale è la causa (= l’esplicativa) e quale l’effetto (la risposta); in mancanza di tale conoscenza la scelta è effettuata arbitrariamente dall’analista in base al punto di vista che vuole privilegiare
22 XY
X Y
CrD D
=
Regressione e relazioni causa-effetto
Statistica 2010/2011 51 Statistica 2010/2011 52
Relazioni causa-effetto
Si può affermare che X è la causa e Y l’effetto?La domanda è rilevante sia da un punto di vista teorico (come funziona il mondo?) che praticoInfatti, se si interviene nel sistema fissando la X ad un valore arbitrario, in presenza di una pura relazione causa-effetto la Y risponde assumendo il valore medio previsto dal modello, altrimenti ha un comportamento imprevedibile
Statistica 2010/2011 53
Relazioni causa-effetto: esempio
Sia X la spesa annuale in pubblicità e Y l’ammontare annuale di venditeLa pendenza stimata usando i dati degli ultimi anni è 1.2, cioè ogni euro in più di spesa in pubblicità è associato a 1.2 euro in più di vendite: se l’anno prossimo l’azienda aumenta la spesa in pubblicità di 100000 euro si deve attendere un aumento delle vendite di 120000 euro (e viceversa se riduce la spesa)Queste previsioni sono attendibili? No!
In realtà l’ammontare delle vendite dipende solo in parte dalla pubblicità, perché è fortemente influenzato da fattori come il ciclo economicoInoltre è pure possibile una relazione inversa, cioè che la spesa in pubblicità sia influenzata dall’andamento delle vendite (se le vendite aumentano si rendono disponibili risorse aggiuntive che possono essere destinate alla pubblicità)
Statistica 2010/2011 54
Relazioni causa-effetto e regressione
Il modello di regressione può evidenziare un’associazione tra X e Y ma non consente di dire niente sulla relazione causa-effetto
Ad es. non vi è alcun criterio statistico per preferire (1) la regressione del consumo sul reddito piuttosto che (2) la regressione del reddito sul consumo (ricorda: entrambe le regressioni hanno lo stesso r2): è la teoria economica che suggerisce di usare la versione (1), in quanto asserisce che il reddito influenza il consumo e non viceversa
Tuttavia per certe finalità può essere utile specificare la regressione in modo contrario alla relazione causa-effetto: nell’esempio precedente la versione (2) potrebbe essere specificata dall’Agenzia delle Entrate qualora disponga di dati sui consumi dei contribuenti e voglia usarli per inferire il loro reddito
Statistica 2010/2011 55
Relazioni causa-effetto e regressione
Date due variabili, i due possibili modi di specificare il modello di regressione (scambiando i ruoli di risposta ed esplicativa) sono solo due punti di vista alternativi: scegliere un punto di vista o l’altro ovviamente non modifica la realtà, semplicemente si traggono impressioni diverse dello stesso fenomeno
è come assistere ad un incontro di calcio dalla tribuna o dalla curva: ciò non modifica l’incontro, anche se si ottengono impressioni diverse
Statistica 2010/2011 56
Tipi di relazioni causa-effetto
Z1 Z2
Assenza di relazione
Z1 Z2
Z1 causa Z2
Z1 Z2
Z2 causa Z1
Z1 Z2
Z1 causa Z2 e viceversa
Date due variabili osservate Z1 e Z2 le possibili relazioni causali sono:
Statistica 2010/2011 57
Relazioni causa-effetto e variabili nascoste
L’unico modo affidabile di stabilire una relazione causa-effetto consiste nel raccogliere i dati tramite un esperimento controllato (assegnare a caso le unità statistiche ai diversi valori di X, poi osservare la Y)Al di fuori dei dati sperimentali, vi è sempre un pericolo in agguato: la relazione tra Z1 e Z2 potrebbe essere in tutto o in parte dovuta ad una variabile non osservata, o comunque non inclusa nell’analisi Z0 (variabile nascosta)
Z1 Z2
Associazione tra Z1 e Z2interamente dovuta a Z0
Z0
Esempio. In una applicazione su bambini di diverse età: Z1 = lunghezza del piede; Z2 = numero di vocaboli conosciuti; Z0 = età. La regressione del numero di vocaboli sulla lunghezza del piede dà luogo ad una pendenza positiva significativa, ma ovviamente tra le due variabili non vi è alcuna relazione causa-effetto
Statistica 2010/2011 58
Relazioni causa-effetto e variabili nascoste
Z1 Z2
Z0
Associazione tra Z1 e Z2in parte dovuta a Z0
La regressione della capacità respiratoria sul numero di sigari dà luogo ad una pendenza significativa (di segno negativo: cioè all’aumentare del numero di sigari la capacità polmonare tende a diminuire). Tuttavia, entrambe le variabili sono associate all’età: negli anziani è maggiore la frequenza sia di coloro che fumano il sigaro, sia di coloro che hanno scarsa capacità polmonare. Gli studi epidemiologici hanno dimostrato che il fumo (anche quello di sigaro) riduce la capacità polmonare, cioè esiste una relazione causa-effetto: tuttavia, se nell’analisi si ignora che i soggetti hanno diverse età, risulta un’associazione più forte di quanto è realmente (la pendenza della retta di regressione è “troppo” negativa perché incorpora anche l’effetto dell’età). Una semplice soluzione è di eseguire l’analisi di regressione separatamente per fasce di età.
Esempio. In una applicazione su adulti di diverse età:
Z1 = numero di sigari fumati al giorno
Z2 = capacità respiratoria
Z0 = età
www.
caus
eweb
.org
59
Analisi dei residui
Punti influenti
Variabili nascoste
Statistica 2010/2011 60
Statistica 2010/2011 61
Analisi dei residui
r2 non sempre è sufficiente a verificare la bontà di adattamento del modello
Plot dei residui vs valori previsti:La relazione tra X e Y è lineare?La variabilità di Y resta costante al variare di X?Sono presenti valori anomali nei dati?
iii yye ˆ−= residui
Statistica 2010/2011 62
Residui disposti casualmente
Statistica 2010/2011 63
Analisi dei residui: relazione non lineare Esempio: relazione non lineare
x y6.10 87.495.91 83.591.79 11.712.37 18.641.66 9.875.21 67.964.04 42.311.95 12.753.64 33.632.94 23.535.38 68.192.34 17.602.55 17.900.91 4.543.96 41.09
Y*=-20.25+16.64X
r2=0.9716
Analisi dei residui: relazione quadratica tra X e Y?
Statistica 2010/2011 64
Statistica 2010/2011 65
Esempio: relazione non lineare (segue)
Y*=1.49+1.79X+2.03X2
r2=0.9986
Analisi dei residui:andamento casuale
Statistica 2010/2011 66
Analisi dei residui: varianza di Y non costante
Statistica 2010/2011 67
Osservazioni particolari
OUTLIER: osservazione con residuo elevato (valore anomalo di Y rispetto alla previsione)LEVERAGE (punto di leva): valore anomalo della variabile indipendente (X)
PUNTI INFLUENTI: osservazioni con comportamento anomalo che influenzano
notevolmente i risultati
Non tutti gli outlier e i leverage sono necessariamente punti influenti
Statistica 2010/2011 68
Esempio: outlier (residui grandi)
x y-0.73 -1.57-0.24 2.690.41 2.671.51 -1.942.46 12.542.71 13.472.93 14.143.10 14.893.37 15.033.55 15.404.12 19.464.26 18.464.62 20.766.00 1.957.92 34.29
Y*=2.11+3.27X
r2=0.5731
Valori anomali!!
Statistica 2010/2011 69
Esempio: outlier (residui grandi) /segue
Y*=2.06+4.04X
r2=0.9925
Migliore adattamento del modello!!
Cancelliamo i valori anomali e ristimiamo il modello …
Statistica 2010/2011 70
Valori anomali e osservazioni influenti
Un valore anomalo è un’osservazione che sta “lontana” dalle altre osservazioni. I punti che presentano un valore anomalo per Y (outlier) hanno residui alti, ma i punti con valori anomali in X (leverage) non necessariamente presentano residui alti!
Un’osservazione è influente se la sua rimozione comporta un cambiamento notevole nelle stime dei parametri e/o in r2. Punti con valori anomali in X sono spesso influenti!
Statistica 2010/2011 71
Esempio: parola e abilità
x y15 9526 7110 839 9115 10220 8718 9311 1008 10420 947 113
x y 9 9610 8311 8411 10210 10012 10542 5717 12111 8610 100
Per 21 bambini si conosce l’età, in mesi X, in cui è stata pronunciata la prima parola e il punteggio ad un test di abilità Y (Moore e McCabe)
Y*=109.87-1.127X
r2=0.41
n.19 Y grande!
n.18: x grande!
L’età in cui un bimbo inizia a parlare è un buon previsore del punteggio ad un successivo test di abilità mentali?
Statistica 2010/2011 72
Esempio: parola e abilità /segue
Il bambino n.18inizia a parlare molto più tardi degli altri: per la sua posizione estrema (leverage) questo punto ha una forte influenzasulla posizione della retta di regressione!
Attenzione: non tutti i valori anomali sono influenti!!
outlier
leverage
Statistica 2010/2011 73
Esempio: parola e abilità /segue
y = 105.6299 - 0.779221*xr2= 0.11 La relazione tra X
e Y è debole! Prima sembrava alta a causa della sola osservazione n. 18! Servono più dati per capire meglio la relazione studiata!
Cosa succede se cancelliamo l’osservazione n.18?
www.
caus
eweb
.org
74
Statistica 2010/2011 75
Esempio: cambiamento strutturale
anno x y1990 4595 73641991 4827 75471992 4427 70991993 4258 68941994 3995 65721995 4330 71561996 4265 72321997 4351 7450
Il dipartimento di matematica di una grande università deve pianificare il numero di corsi elementari richiesti.X = studenti iscritti al primo annoY = studenti che scelgono il corso di matematica
Y*=2492.69+1.066X
r2=0.694
Esempio: cambiamento strutturale \segue
I residui mostrano un andamento differenziato:da cosa dipende?
Andamento per anno: dal 1995 una % più elevata di studenti sceglie il corso di matematica. È questo cambiamento che spiega l’andamento osservato nei residui! I dati antecedenti il 1995 non possono essere usati per previsioni
Statistica 2010/2011 76
Statistica 2010/2011 77
Variabili nascoste: esempio #1
Per le nazioni del mondo rileviamoX = numero di apparecchi TV per 1000 abitanti Y = speranza di vita alla nascita
La regressione di Y su X fornisce un coefficiente angolare positivo e un elevato indice di determinazione Possiamo allungare la vita del popolo del Rwanda inviando loro delle TV? NO!Le nazioni più ricche hanno più TV di quelle povere e hanno anche una speranza di vita più elevata perché hanno una migliore alimentazione, acqua potabile e cure mediche.Non c’è un rapporto di causa effetto tra TV e speranza di vita!!
Statistica 2010/2011 78
Variabili nascoste: esempio #2
Uno studio sulle condizioni di salute nella città di Hull (GB) ha misurato per i quartieri più poveri della città
X = indice di sovraffollamento Y = indice di mancanza di servizi igienici
Poiché X e Y sono entrambe misure di abitazioni inadeguate ci aspettiamo una forte relazione; invece la regressione produce r2=0.006. Come è possibile?Ulteriori indagini hanno mostrato che in alcuni dei quartieri più poveri c’è una prevalenza di case pubbliche, con servizi igienici, mentre in altri non è cosìLa relazione tra X e Y è diversa in questi due tipi di quartiere analizzare tutti i quartieri insieme oscura la relazione tra X e Y.
Statistica 2010/2011 79
Variabili nascoste: esempio #3
Y su X | Z=0 r2 = 0.79Y su X | Z=1 r2 = 0.41
Y su X | tutti r2 = 0.12
La rappresentazione grafica è importante per capire il legame tra X e Y nei sottogruppi individuati da Z!
Z=0
Z=1
Due gruppi formati da una variabile categorica
Modello statistico: costruzione e uso
Teorizzazione fenomeno
Individuazione variabiliesplicative
Formulazione o identificazione modello
Uso dei dati per la stima del modello
verifica modello
Utilizzo del modello
Uso del modello:•Descrizione delle relazioni
• Inferenza (conoscenza del processo generatore dei dati)
• Previsione dei valori della variabile di risposta
Statistica 2010/2011 80
Statistica 2010/2011 81
Correlazione
Cicchitelli Cap. 11
Statistica 2010/2011 82
Covarianza /1
Consideriamo due variabili quantitative, ad es. SPESE (X) e RENDIMENTO (Y) nel 2003 per 9 fondi comuni Esiste una associazione tra SPESE e RENDIMENTO ?Ovvero: al crescere delle spese il rendimento tende a crescere, tende a calare o nessuna delle due?
0.0
10.0
20.0
30.0
40.0
50.0
60.0
70.0
0.00 0.50 1.00 1.50 2.00
Spese (X)
Ren
dim
ento
(Y)
Spese Rendim.
1.25 37.3
0.72 39.2
1.57 44.2
1.40 44.5
1.33 53.8
1.61 56.6
1.68 59.3
1.42 62.4
1.20 66.5
Statistica 2010/2011 83
Covarianza /2
Sia per le SPESE (X) che per il RENDIMENTO (Y) posso calcolare separatamente media e deviazione std
μX=1.353 e σX= 0.271
μY= 51.533 e σY= 9.951
Ma questi indici non dicono nulla sulla associazione tra X e Y
Per questo fine serve un indice calcolato congiuntamente, come la covarianza
Covarianza /3
0.0
10.0
20.0
30.0
40.0
50.0
60.0
70.0
0.00 0.50 1.00 1.50 2.00
Spese (X)
Ren
dim
ento
(Y)
+ +
− − + −
− +
Y
X
+ + e − − concordanti
+ − e − + discordanti
Statistica 2010/2011 84
Statistica 2010/2011 85
Covarianza /4
Le osservazioni (Xi, Yi) con valori concordantihanno scarti dalla media con lo stesso segno (+ + o − −) e quindi il prodotto degli scarti ha segno positivoLe osservazioni (Xi, Yi) con valori discordantihanno scarti dalla media con segno opposto (+ −o − +) e quindi il prodotto degli scarti ha segno negativoPer ottenere un indice di associazione basta sommare i prodotti degli scarti e vedere se il risultato è positivo (prevalgono i concordanti) o negativo (prevalgono i discordanti)
Statistica 2010/2011 86
Covarianza /5
Se positiva al crescere di X, Y tende a crescere(notare l’uso della parola tende: infatti, se una unità sta sopra alla media per X è probabile che vi stia anche per Y, ma non è detto)Se negativa al crescere di X, Y tende a diminuireSe nulla non vi è nessuna tendenza
1
1( , ) ( )( )N
XY i X i Yi
Cov X Y x yN
σ μ μ=
= = − −∑
Statistica 2010/2011 87
Calcolo della covarianza
spese (X) rendim (Y) X-M(X) Y-M(Y) prodotto1.25 37.3 -0.103 -14.233 1.4660.72 39.2 -0.633 -12.333 7.8071.57 44.2 0.217 -7.333 -1.5911.40 44.5 0.047 -7.033 -0.3311.33 53.8 -0.023 2.267 -0.0521.61 56.6 0.257 5.067 1.3021.68 59.3 0.327 7.767 2.5401.42 62.4 0.067 10.867 0.7281.20 66.5 -0.153 14.967 -2.290
9.579Covarianza 9.579 / 9 = 1.064
1.353 51.533
Statistica 2010/2011 88
Coefficiente di correlazione lineare /1
I valori minimo e massimo assumibili dalla covarianza dipendono dai dati in esame non si può dire se un valore (come il 1.064 dell’esempio) sia da considerarsi grande o piccoloPer questo si trasforma la covarianza in modo che abbia sempre lo stesso minimo (−1) e massimo (+1)
Nell’esempio ρXY = 1.064 / (0.271 × 9.951) = 0.395
XYXY
X Y
σρσ σ
=
Statistica 2010/2011 89
Coefficiente di correlazione lineare /2
Media del prodotto delle variabili standardizzate:
Simmetrico: ρ rimane invariato se le due variabili sono scambiate
Numero puro: ρ non ha unità di misura (es. X altezza in cm, Ypeso in kg SXY è in cm×kg, SX è in cm, SY è in kg, e quindi rXYè un numero puro)
Invariante per trasformazioni lineari: ρ rimane invariato se le variabili vengono linearmente trasformate (traslazione e/o moltiplicazione per una costante) (es. X temperatura in gradi Celsius, Y raccolto in quintali, ρ non cambia se si esprime la temperatura in gradi Fahrenheit e il raccolto in tonnellate)
1
1i i
i ix y
X Yi i
NX Y
XY x yi
x yz zz z
Nμ μ
σ σρ
=
− −= == ∑
Statistica 2010/2011 90
Coefficiente di correlazione lineare /3
rXY >0 X e Y correlate positivamenterXY <0 X e Y correlate negativamenterXY =0 X e Y incorrelate (assenza di correlazione)
rXY = +1 X e Y hanno massima (perfetta) correlazione positiva = tutte le osservazioni stanno su una retta crescenterXY = −1 X e Y hanno massima (perfetta) correlazione negativa = tutte le osservazioni stanno su una retta decrescente
Diagrammi di dispersione con vari Coefficienti di Correlazione
Y
X
Y
X
Y
X
Y
X
Y
X
r = -1 r = -0.6 r = 0
r = +0.3r = +1
Y
Xr = 0
Statistica 2010/2011 91
Diagrammi di dispersione per due variabili utilizzando sei data set con 100 osservazioni
r = -0.9 r = -0.6
r = -0.3 r = +0.3
r = +0.6 r = +0.992
Statistica 2010/2011 93
Correlazione e linearità /1
L’indice rXY fa una sintesi di tutte le osservazioni, ma nei dati vi potrebbero essere andamenti molto diversi
In questo es. vi sono due sottoinsiemi, uno con correlazione negativa e l’altro con correlazione positiva. Nel complesso la correlazione è positiva (r = 0.612)
Statistica 2010/2011 94
Correlazione e linearità /2
Il termine “lineare” è spesso sottinteso, ma è importante: infatti rXYmisura l’associazione di tipo lineare (e non parabolico, esponenziale o altro)
rXY = −1 o +1 significa che vi è relazione lineare perfettarXY = 0 significa che, nel complesso, vi è assenza di relazione
lineare, ma vi potrebbe essere una relazione non lineare, anche forte!
In questo es. vi è una relazione di tipo parabolico, con due sottoinsiemi. Nel complesso la correlazione è quasi nulla (r = -0.001)
Statistica 2010/2011 95
Correlazione e causalità /1
Se due variabili X e Y sono correlate signfica che tendono a muoversi insieme (in modo concorde se r >0 o discorde se r <0)
Ma il valore di r non dice niente su come e perché X e Ysi muovono insieme: può essere che
X è causa di YY è causa di XX è causa di Y e al tempo stesso Y è causa di XX e Y non sono in relazione di causa-effetto (cosiddetta correlazione spuria)
Statistica 2010/2011 96
Correlazione e causalità /2
Es: X = “spesa in pubblicità” e Y = “fatturato”
X influenza Y, ma anche Y influenza X
In una certa regione geografica è stata rilevata una forte correlazione tra X = “numero di cicogne di passaggio” e Y = “numero di bambini nati”
è un caso di correlazione spuria, perché tra X e Y non vi è alcuna relazione!
In alcuni casi la correlazione tra X e Y è generata da una terza variabile Z nascosta
Es. X = “macchie gialle sulle dita” e Y = “tosse”: non vi è relazione causa-effetto, ma la variabile Z = “fumatore” è causa di entrambe e provoca la correlazione
Statistica 2010/2011 97
Correlazione e causalità /3
Le serie temporali spesso danno luogo a forti correlazioni spurie perché vi sono andamenti simili nel tempo e nello spazio, ad es. in quasi tutti i paesi del mondo di anno in anno i prezzi crescono, così come gli studenti che frequentano la scuola superiore, il numero di donne nel mercato del lavoro …
E’ quindi plausibile trovare una correlazione positiva elevata tra due fenomeni che tendono a crescere nel tempo, es. il prezzo delle banane in Italia e il salario degli operai canadesi, oppure il numero di laureati in Brasile …
Statistica 2010/2011 98
Concordanza
Tra due variabili X e Y vi è concordanza o correlazione positiva quando tendono a crescere insiemeNel caso contrario si parla di discordanza o correlazione negativaIl termine correlazione viene spesso usato nel senso restrittivo di correlazione lineare, che è un tipo particolare di concordanza
Il coefficiente di correlazione di Bravais-Galton-Pearson misura la correlazione lineare (assume i valori estremi in caso di perfetta relazione lineare)
Statistica 2010/2011 99
Massima concordanza/discordanza
Si elencano le coppie (xi,yi) in ordine crescente della x:
Se i valori della y sono crescenti massima concordanzaSe i valori della y sono decrescenti massima discordanza
Statistica 2010/2011 100
Indice di Spearman /1
Per ognuna delle due variabili si trasformano i valori in ranghi (ranks), cioè posizioni in graduatoria (dal più piccolo)
id x y g(x) g(y)1 25 28 6 82 18 21 1 23 20 23 2 44 27 30 8 105 28 24 9 56 22 20 4 17 21 22 3 38 30 29 10 99 26 26 7 710 24 25 5 6
Voto riportato da 10 studenti agli esami di matematica Xe statistica Y
Statistica 2010/2011 101
Indice di Spearman /2
L’indice di Spearman (o coefficiente di correlazione tra ranghi) rS è il coefficiente di correlazione lineare tra i ranghi delle due variabili
Nell’esempio precedenteCoeff. di correlazione lineare: r = 0.78Coeff. di correlazione tra ranghi: rS = 0.76
Minimo rS = −1 in caso di massima discordanzaMassimo rS = +1 in caso di massima concordanza
Statistica 2010/2011 102
Indice di Spearman /3
Perfetta relazione lineare crescente (decrescente)Massima concordanza (discordanza)
Massima concordanza o discordanzanon implica perfetta relazione lineare
x y1 0.125 0.60
10 1.2025 3.00
x y1 0.005 1.61
10 2.3025 3.22
0.00
0.50
1.00
1.50
2.00
2.50
3.00
3.50
0 5 10 15 20 25 30
x
y
y = 0.12x
y = ln(x)r = 1 rS = 1
r = 0.90 rS = 1
Statistica 2010/2011 103
Indice di Spearman – caso di parità
In caso di parità (due o più unità con lo stesso valore) si attribuisce il rango medio
id x y g(x) g(y)1 25 28 6 82 20 21 1.5 23 20 23 1.5 44 27 30 8 105 28 25 9 66 22 20 4 17 21 22 3 38 30 29 10 99 26 25 7 610 24 25 5 6
Voto riportato da 10 studenti agli esami di matematica Xe statistica Y
rS = 0.78