RENATO LEONI
Regressione lineare
UNIVERSITÀ DI FIRENZE
DIPARTIMENTO DI STATISTICA "G. PARENTI"
FIRENZE, 2007
Questo lavoro è destinato a un uso personale e ne è vietata la
commercializzazione.
REGRESSIONE LINEARE 3
1 IL MODELLO DI REGRESSIONE LINEARE
Dati 1+p caratteri quantitativi, supponiamo che questi siano distinti in
due gruppi il primo dei quali è formato da un solo carattere, che indichiamo
con Y, il secondo dai rimanenti p caratteri, che indichiamo con X 1 , ... , X p .
Chiamiamo il carattere che entra nel primo gruppo variabile dipendente e
i caratteri del secondo gruppo variabili indipendenti o variabili esplicative
o regressori.Indichiamo inoltre con yi la i-esima determinazione della variabile dipen-
dente Y e con xi j la i-esima determinazione della variabile indipendente X j
(i = 1,... ,n; j = 1,... ,p).
Considerata una famiglia di funzioni del tipo
Y = b0 + b1 X 1 + ... + bp X p ,
si fissi per il momento l'attenzione su un certo insieme di valori (qualsiasi)
dei coefficienti b0 , b1 , ... , bp (coefficienti di regressione lineare).
Ovviamente, in corrispondenza delle determinazioni xi 1 , ... , x i p assunte
dalle variabili indipendenti X 1 , ... , X p , si ottiene, in generale, un valore
teorico b0 + b1 xi 1 + ... + bp xi p che si discosta, per difetto o per eccesso, dal
valore osservato y i .
La differenza yi − b0 − b1 xi 1 − ... − bp xi p riceve la denominazione di
residuo (scostamento, errore, scarto) e sarà indicata con e i .
Si ha quindi che (modello di regressione lineare)
(1) yi = b0 + b1 xi 1 + ... + bp xi p + e i
OSSERVAZIONE 1. Come si è ora detto, la (1) assume genericamente la
denominazione di modello di regressione lineare.
Più specificatamente, nel caso in cui si abbia una sola variabile indi-
pendente (p = 1) si parla di modello di regressione lineare semplice, mentre
qualora si abbiano più variabili indipendenti (p >1) si parla di modello di
4 RENATO LEONI
regressione lineare multipla.
OSSERVAZIONE 2. Si consideri un modello del tipo (modello di regressione
funzionale)
g (yi) = b0 + b1 g1 (xi 1) + ... + bp gp (xi p) + e i
dove g , g1 , ... , gp sono funzioni note, rispettivamente, di Y , X 1 , ... , X p .
Chiaramente, posto
yi* = g(yi) , x i 1
* = g1 (xi 1) , ... , x i p* = gp (xi p) ,
ci si riconduce a un modello di regressione del tipo considerato in prece-
denza in cui tuttavia − in luogo delle determinazioni delle variabili originarie
Y , X 1 , ... , X p . − compaiono le determinazioni delle variabili trasformate
Y * , X 1* , ... , X p
*.
OSSERVAZIONE 3. Supposto che si abbia una sola variabile indipendente X,
indichiamo le determinazioni da essa assunte con x1 , ... , xn .
Considerato un modello del tipo (modello di regressione funzionale
semplice)
yi = b0 + b1 g1 (xi) + ... + bp gp (xi) + e i
dove g1 , ... , gp sono funzioni note di X, ci si riconduce al modello di regres-
sione descritto in precedenza ponendo
xi 1* = g1 (xi) , ... , x i p
* = gp (xi) .
REGRESSIONE LINEARE 5
2 LA DETERMINAZIONE DEI COEFFICIENTI DI REGRESSIONE
LINEARE
Il problema che ci proponiamo di risolvere per primo riguarda la determi-
nazione dei coefficienti di regressione lineare b0 , b1 , ... , bp che compaiono
nella (1) attraverso il metodo dei minimi quadrati (m.q.).
In termini formali, si tratta di determinare i coefficienti b0 , b1 , ... , bp che
rendono minima la quantità
S = Σ i e i2 = Σ i (y i − b0 − b1 xi 1 − ... − bp xi p)
2
Allo scopo di procedere il più rapidamente possibile alla soluzione di tale
problema è conveniente introdurre una notazione di tipo matriciale.
Siano
y = y1
yn
, Z = 1 x1 1 x1 p
1 xn 1 xn p
, b = b0
bp
, e = e 1
e n
cosicché la (1) assume la forma
(1') y = Zb + e
Posto (1)
S = Σ i e i2 = e'e
= (y − Zb)'(y − Zb) = y'y − y'Zb − b'Z'y + b'Z'Zb= y'y − 2 y'Zb + b'Z'Zb ,
il vettore b dei coefficienti che rende minima la quantità S deve essere tale
che la derivata di S rispetto a b, calcolata in b, risulti nulla.
Ma,
(1) Si osservi che nella espressione che segue è y 'Zb = b 'Z 'y essendo entrambi i membri di questaeguaglianza degli scalari.
6 RENATO LEONI
∂S∂b
= − 2Z'y + 2Z'Zb
e quindi, eguagliando a zero tale espressione, si ha (sistema di equazioni
normali)
Z 'Zb = Z'y
D'altro canto, nell'ipotesi a cui ci atterremo anche nel seguito che Z sia di
pieno rango per colonne (2), Z'Z risulta invertibile; pertanto, il sistema di cui
sopra ammette un'unica soluzione rispetto al vettore dei coefficienti inco-
gniti b data da
(2) b = (Z 'Z)- 1 Z'y
Inoltre, poiché la matrice ∂2 S ∂b∂b' = 2Z'Z è definita positiva, la soluzio-
ne ottenuta rappresenta effettivamente un minimo (globale) di S.
ESEMPIO 1. Dati
y = 4202
, Z = 1 −1 −11 −1 −11 1 −21 1 0
risulta
Z'Z = 4 0 −4 0 4 0−4 0 6
, (Z 'Z)- 1 = 14
3 0 20 1 02 0 2
e, quindi,
b = 14
3 0 20 1 02 0 2
1 1 1 1−1 −1 1 1−1 −1 −2 0
4202
= 3−1 1
.
(2) Si noti che una condizione necessaria affinché ciò si verifichi è che sia n ≥1+p .
REGRESSIONE LINEARE 7
3 ALCUNE PROPRIETÀ ELEMENTARI DELLA SOLUZIONE
DEI MINIMI QUADRATI
Allo scopo di evidenziare alcune semplici proprietà della soluzione otte-
nuta mediante il metodo dei m.q., si osservi anzitutto che, indicando con
y = Zb
il vettore dei valori teorici e con
e = y − y = y − Zb
il vettore dei residui, risulta
Z' e = Z '(y − y) = Z 'y − Z ' y = Z 'y − Z 'Zb
= Z 'y − Z 'Z(Z 'Z)- 1 Z'y = Z 'y − Z 'y = 0
In particolare, tenendo presente che la prima riga della matrice Z' è
costituita dal vettore riga (di ordine n) u' = 1 1 , si ha che
u ' e = u ' (y − y) = 0
da cui
u ' y = u ' y
ovvero che la somma dei valori osservati eguaglia la somma dei valori
teorici.
Inoltre, essendo
e ' y = y ' e = b' Z' e = b' 0 = 0 ,
risulta che
8 RENATO LEONI
y ' y = (y + e ) '(y + e ) = y ' y + y ' e + e ' y + e ' e
= y ' y + e ' e
ovvero che la somma dei quadrati dei valori osservati può essere
scomposta in due parti di cui la prima rappresenta la somma dei quadrati
dei valori teorici, la seconda rappresenta la somma dei quadrati dei
residui.
ESEMPIO 2. Proseguendo nell'Esempio 1, si ha che
y = 1 −1 −11 −1 −11 1 −21 1 0
3−1 1
= 3302
, e = 4202
− 3302
= 1−1 0 0
.
ed, essendo y ' y = 24, y ' y = 22, e ' e = 2, la proprietà di scomponibilità della
somma dei quadrati dei valori osservati risulta verificata.
OSSERVAZIONE 4. La relazione esistente tra le determinazioni assunte dalla
variabile dipendente e le determinazioni assunte dalle variabili indipendenti
è, talvolta, descritta da un modello del tipo
yi = b1 xi 1 + ... + bp xi p + e i
in cui cioè manca il coefficiente b0.
Qualora si proceda al calcolo dei coefficienti incogniti b1 , ... , bp mediante
il metodo dei m.q. (3), si ottiene, com'è facile verificare, una espressione del
tutto analoga alla (2).
In tal caso, tuttavia, pur continuando a valere la proprietà di scomponi-
bilità della somma dei quadrati dei valori osservati, non sussiste più, in
generale, l'eguaglianza tra la somma dei valori osservati e la somma dei
valori teorici.
(3) Si noti che, in questo caso, una condizione necessaria affinché la matrice delle determinazioni
assunte dalle variabili indipendenti sia di pieno rango per colonne è che si abbia n ≥ p .
REGRESSIONE LINEARE 9
4 UNA INTERPRETAZIONE GEOMETRICA DELLA SOLUZIONE
DEI MINIMI QUADRATI
Vogliamo, adesso, mostrare come i risultati conseguiti in precedenza
attraverso il metodo dei m.q. siano suscettibili di ricevere una semplice, ma
significativa, interpretazione geometrica.
A questo fine, definiamo anzitutto il prodotto scalare G( v , w) di due
generici vettori v ,w∈ Rn ponendo (metrica standard)
G( v , w) = v' w .
Come è noto, risulta allora possibile esprimere la lunghezza v di ogni
vettore v ∈ Rn mediante l'espressione
v = G( v , w) = v' v
e la distanza tra due vettori v ,w∈ Rn attraverso la relazione
d(v ,w) = v−w = G( v−w , v−w) = (v −w)'(v−w) .
Assunta quale base di Rn quella costituita dagli n vettori canonici (di
ordine n) u 1 , ... , u n e posto
x j =
x 1 j
x n j
,
indichiamo con S1 il sottospazio di Rn generato da u , x1 , ... , xp .
Dato il vettore y definito in precedenza, è immediato riconoscere che il
vettore
y = Z(Z 'Z)- 1 Z'y = Z b
− tale che la distanza al quadrato
d2 (y , y) = (y − Z b)'(y − Z b) = S
10 RENATO LEONI
di y da y sia minima rispetto a ogni altro vettore di S1 − non è altro che la
proiezione ortogonale di y su S1.
Inoltre, il teorema di Pitagora, applicato ai vettori (ortogonali) y − y = e e
y , fornisce immediatamente la proprietà di scomponibilità della somma dei
quadrati dei valori osservati.
La Fig. 1 che segue, in cui p = 1, illustra quanto ora detto.
In essa il vettore y è rappresentato come un vettore non appartenente al
sottospazio S1 di R3 generato dai vettori u e x1 e il vettore y è ottenuto come
proiezione ortogonale di y su S1.
Le coordinate di y rispetto a u e a x1 (non disegnate in figura) rappre-
sentano i coefficienti di regressione b0 e b1.
•
0
Fig. 1
S1•yy
x1
u•e
•
REGRESSIONE LINEARE 11
5 LA DETERMINAZIONE DEI COEFFICIENTI DI REGRESSIONE
LINEARE: CONSIDERAZIONI ULTERIORI
Come si è visto, il calcolo dei coefficienti di regressione può essere
eseguito direttamente sulla base della (2).
Tuttavia, sia allo scopo di rendere più agevole l'esecuzione dei calcoli, sia
perché i coefficienti che realmente interessano sono quelli che si accompa-
gnano a x1 , ... , xp , può essere conveniente impostare il problema in maniera
leggermente differente da quella che abbiamo esposto in precedenza.
A questo fine, consideriamo i vettori
y = u (u ' u)- 1 u ' y = u u ' yn = u y , x j = u (u ' u)- 1 u ' x j = u
u ' x j
n = u xj
dove y e xj rappresentano le medie degli elementi contenuti, rispettiva-
mente, in y e x j (4).
Definiti i vettori (scarti dalle rispettive medie)
y = y − y = y1 − y
yn − y , x j = x j − x j =
x1 j − x j
xn j − x j
e posto
X = x1 xp ,
vogliamo anzitutto mostrare che gli elementi del vettore
(3) b = (X'X)- 1X' y
− ottenuto minimizzando, rispetto a b, l'espressione
( y − Xb) '( y − Xb)
(4) Si noti che y e x j si possono interpretare come le proiezioni di y e x j nel sottospazio generatodal vettore u .
12 RENATO LEONI
− sono gli stessi, nell'ordine, di quelli che compaiono nel vettore b (Cfr. la
(2)) in corrispondenza di x1 , ... , xp e che b0 può essere facilmente calcolato,
qualora interessi, sulla base di b.
A questo scopo, supponiamo di ripartire la matrice Z e il vettore b nel
seguente modo
Z = u x1 xp = u X , b =
b0
b1
bp
= b0
b1
.
Le posizioni fatte consentono di scrivere la (2) nella forma
b = b0
b1
= ( u 'X'
u X )- 1 u '
X' y = u ' u u ' X
X' u X ' X
-1
u ' y
X' y
da cui, tenuto conto della formula di inversione di una matrice a blocchi e
posto
H = I n − 1n u u ' ,
dopo qualche passaggio si ottiene
b0 = 1n {1 + u ' X(X 'H X)- 1 X' u 1n}u ' y − 1n u ' X(X 'H X)- 1 X' y
= 1n {u ' y − u ' X(X 'H X)- 1 X'H y} ,
b1 = −(X 'H X)- 1 X'u 1n u ' y + (X 'H X)- 1 X' y
= (X 'H X)- 1 X'H y .
Si osservi che la matrice H qui sopra definita è simmetrica (H = H ') e
idempotente (H = H 2 ) per cui possiamo anche scrivere (5)
(5) Si noti che H è la matrice di proiezione ortogonale nel complemento ortogonale del sottospaziogenerato da u .
REGRESSIONE LINEARE 13
b1 = ((H X)'(H X)) -1(H X)'(H y) .
D'altro canto, si riconosce facilmente che
H X = X , Hy = y
e, quindi, risulta intanto che
b1 = b
Infine, noto b, si ha che
(4) b0 = 1n {u ' y − u ' Xb}
OSSERVAZIONE 5. Vogliamo mostrare che la matrice X di ordine (n,p), ha
rango pari a p, vale a dire è una matrice di pieno rango per colonne, e che
pertanto X ' X è invertibile, come si è implicitamente supposto nella (3).
A questo fine, osserviamo intanto che, essendo Z = u X e r(Z) = 1+p
risulta r(X) = p.
Allora, tenuto conto della formula sullo sviluppo del determinante di una
matrice a blocchi, si ha
det (Z 'Z) = det u ' u u ' XX' u X ' X
= det(X'X − X 'u (u ' u)- 1 u'X) det(u ' u)≠ 0
da cui
det(X'X − X 'u (u ' u)- 1 u ' X) = det(X '(I − 1n uu ') X)
= det(X'H X)≠ 0
e, quindi,
r( X'H'H X) = p = r(H X) = (X) .
14 RENATO LEONI
OSSERVAZIONE 6. Si noti che il vettore dei residui e che si ottiene come
differenza tra y e la proiezione ortogonale
y = Xb1 = X(X ' X)-1X ' y
di y nel sottospazio generato dai vettori colonna di X è eguale al vettore dei
residui e che si ottiene come differenza tra y e la proiezione ortogonale y di
y nel sottospazio generato dai vettori colonna di Z.
Infatti, posto
e = y − Z b = y − u X b0
b1
= y − u b0 − X b1 ,
premoltiplicando il primo e l'ultimo membro per H e osservando che
H e = (I − u u 'n ) e = e , Hu = (I − u u '
n ) u = 0
si ottiene
e = y − y = e
OSSERVAZIONE 7. Si noti che risulta
y = Xb1 = HXb1 = Hu b0 + H Xb1 = Hy = (I − u u 'n ) y = y − y
REGRESSIONE LINEARE 15
6 SCOMPONIBILITÀ DELLA DEVIANZA E INDICE
DI DETERMINAZIONE LINEARE
Applicando il teorema di Pitagora ai vettori (ortogonali) y ed e , si ottiene
(Fig. 2)
y ' y = y ' y + e ' e
Tenuto conto dell'Osservazione 7, si ha poi che
y ' y = Σ i (y i − y)2 , y ' y = Σ i (y i − y)2 , e ' e = Σ i e i2
I termini di qui sopra ricevono la denominazione, rispettivamente, di de-
vianza totale, devianza di regressione, devianza residua e il loro legame
esprime la cosiddetta scomponibilità della devianza.
y
ye
Fig. 2
•
•
0
OSSERVAZIONE 8. In generale, la proprietà di scomponibilità della devianza
non risulta verificata in un modello in cui manchi il coefficiente b 0 (6). z
(6) Per una discussione di questo punto si veda: Leoni, R., Una osservazione sulla scomponibilitàdella devianza nel modello di regressione lineare multipla "senza intercetta", Rivista di StatisticaApplicata, N. 4, 1985.
16 RENATO LEONI
Il rapporto
ρ = y ' yy ' y
= Σ i (y i − y)2
Σ i (y i − y)2 = 1 − e ' e
y ' y = 1 − Σ i e i
2
Σ i (y i − y)2
riceve la denominazione di indice di determinazione lineare.
Da un punto di vista geometrico, ρ è interpretabile come il quadrato del
coseno dell'angolo formato dai vettori y e y , cioè ρ = cos2 ( y , y).
Tale indice assume il valore 1 se e soltanto se, per ogni i = 1,... ,n, risulta
yi = y i , ovvero quando il vettore y è eguale al vettore y; assume, invece, il
valore 0 se e soltanto se, per ogni i = 1,... ,n, risulta yi = y, vale a dire
quando y = 0 .
L'indice di determinazione lineare rappresenta quindi una misura del
grado di accostamento tra i valori osservati e i valori teorici.
OSSERVAZIONE 9. Nel caso di un modello di regressione semplice, la radice
quadrata di ρ − a cui è attribuito un segno (sgn), quello stesso di b1
(concordanza positiva o negativa) − è solitamente indicata con r e riceve la
denominazione di coefficiente di correlazione lineare semplice; quindi, si
ha che −1 ≤ r ≤ +1.
Come si verifica facilmente, r può essere espresso nelle forme
r = sgn( b1 )y ' y
y ' y= sgn( b1 )
( y − e )' x1 b1
y ' y
= sgn( b1 )y ' x1 b1 − e ' x1 b1
y ' y= sgn( b1 )
y ' x1 b1
y ' y
= sgn( b1 )( y ' x1 )2
( y ' y) ( x1' x1 )= sgn( b1 )
y ' x1
( y ' y) ( x1' x1 ) .
ESEMPIO 3. Riprendendo l'Esempio 1, risulta (p = 2)
REGRESSIONE LINEARE 17
y = 2 0−2 0
, X = −1 0−1 0 1 −1 1 1
.
Pertanto,
b1 = ( −1 −1 1 1 0 0 −1 1
−1 0−1 0 1 −1 1 1
)- 1 −1 −1 1 1
0 0 −1 1
2 0−2 0
= −1 1
,
b0 = 14
1 1 1 1 4202
− 1 1 1 1 −1 −1−1 −1 1 −2 1 0
−1 1
= 3
e, inoltre,
y = 1 1−2 0
, e = 1−1 0 0
, ρ = 68
= 34
.
18 RENATO LEONI
8 CAMBIAMENTI DI UNITÀ DI MISURA
Ci proponiamo di mostrare come muta b1 = b quando cambiano le unità di
misura in cui sono espresse le determinazioni delle variabili considerate.
A questo fine, posto (kj >0, per j = 1,... ,p)
K = diag(k1 , ... , kp ) ,
siano (k > 0)
y ∗ = y k , X∗ = XK .
Allora ((K- 1)' = K- 1) ,
(X' X)-1 = ((X∗ K-1) '( X∗ K-1)) -1 = K(( X∗ )'( X∗ ) ) -1 K ,
X' y = K-1 ( X∗ )' y ∗ k-1
e, quindi,
b1 = (X' X)-1X' y = K(( X∗ )'( X∗ ) ) -1 KK-1 ( X∗ )' y ∗ k-1
= k-1 K(( X∗ )'( X∗ ) ) -1 ( X∗ )' y ∗ = k-1 Kb1∗
ovvero
b1∗ = kK-1 b1
A sua volta, si verifica facilmente che (K' = K)
ρ = y ' yy ' y
= ( y ∗ )' ( y ∗ )
( y ∗ )' ( y ∗ ) = cos2 ( y ∗ , y ∗ )
In conclusione, cambiando le unità di misura, il vettore dei coefficienti di
regressione b1 varia nel modo indicato qui sopra; invece, l'indice di
determinazione lineare, come è facilmente intuibile quando si rifletta sul
significato geometrico di ρ, rimane invariato.
REGRESSIONE LINEARE 19
9 REGRESSIONE PARZIALE
Circa il significato da attribuire ai coefficienti di regressione b1 , ... , bp , s i
può intanto osservare che, considerata la funzione di regressione
Y = b0 + b1 X 1 + ... + bp X p ,
chiaramente bj (j = 1,... ,p) esprime la variazione (incremento o decremen-
to) che subisce la variabile dipendente Y allorché la variabile indipendente
X j subisce un incremento unitario, fermo restando il valore assunto dalle
altre variabili indipendenti.
Oltre a quello ora indicato, il coefficiente di regressione bj presenta un
altro significato che vogliamo porre in evidenza.
A questo fine, riprendiamo in considerazione la matrice Z definita in
precedenza e supponiamo di ripartirla nel seguente modo
Z = u x1 xp -1 xp = Z (p -1) xp .
Siano
yZ (p -1) = Z (p -1)(Z (p -1)' Z (p -1))- 1 Z (p -1)' y , xp , Z (p -1) = Z (p -1)(Z (p -1)' Z (p -1))
- 1 Z (p -1)' xp
i vettori che si ottengono dalla regressione di y e xp rispetto ai vettori
colonna che compongono Z (p -1) , ovverosia le proiezioni ortogonali di y e xp
nel sottospazio generato dai vettori colonna di Z (p -1) .
Con un linguaggio assai espressivo − al quale, tuttavia, non sempre
corrisponde un significato sostanziale − si suole dire che tali vettori
rappresentano l'influenza determinata dalle variabili X 1 , ... , X p -1 sul le
variabili Y e X p .
Ne consegue che i vettori
yZ (p -1) = y − yZ (p -1) , xp , Z (p -1) = x p − xp , Z (p -1)
rappresentano ciò che rimane dopo che tale influenza è stata eliminata.
20 RENATO LEONI
Eseguendo la regressione di yZ (p -1) rispetto a xp , Z (p -1) − ovvero,proiettando ortogonalmente yZ (p -1)
nel sottospazio generato da xp , Z (p -1) − siottiene
yZ (p -1) = xp , Z (p -1)( xp , Z (p -1)' xp , Z (p -1))- 1 xp , Z (p -1)' yZ (p -1)
Il coefficiente
bp , Z(p -1) = (xp , Z (p -1)' xp , Z (p -1))- 1 xp , Z (p -1)' yZ (p -1)
è detto coefficiente di regressione lineare parziale (o netta) di yZ (p -1)
rispetto a xp , Z (p -1) .
A sua volta, il coefficiente
rZ (p -1) = sgn( bp , Z (p -1))yZ (p -1)
' yZ (p -1)
yZ (p -1)' yZ (p -1)
= sgn( bp , Z (p -1)) cos2 ( yZ (p -1) , yZ (p -1))
è denominato coefficiente di correlazione lineare parziale (o netta) tra
yZ (p -1) e xp , Z (p -1) .
Si tratta, in entrambi i casi, di coefficienti calcolati dopo che l'influenza di
X 1 , ... , X p -1 su Y e X p è stata eliminata o, come anche si dice, al netto
dell'influenza di X 1 , ... , X p -1 .
OSSERVAZIONE 10. Con un procedimento analogo a quello utilizzato nella
Osservazione 5 si può facilmente dimostrare mostrare che il vettore xp , Z (p -1)
è diverso dal vettore zero e che pertanto xp , Z (p -1)' xp , Z (p -1) è un numero reale
non nullo, come si è implicitamente supposto qui sopra. z
Vogliamo mettere in evidenza, adesso, che bp , Z (p -1) è uguale a bp, cosic-
REGRESSIONE LINEARE 21
ché quest'ultimo ha anche il significato di coefficiente di regressione netta.
Eseguiamo, a tal fine, una ripartizione del vettore b nel seguente modo
b =
b0
bp -1
bp
= b(p -1)
bp
.
Le posizioni fatte consentono di scrivere la (2) nella forma
b = b(p -1)
bp
= ( Z (p -1)'
xp' Z (p -1) x p )- 1
Z (p -1)'
xp' y
= Z (p -1)' Z (p -1) Z (p -1)' xp
xp' Z (p -1) xp' xp
-1
Z (p -1)' yxp' y
da cui, tenuto conto della formula di inversione di una matrice a blocchi,
dopo qualche passaggio, si ottiene
bp =(xp' xp −xp' Z (p -1)( Z (p -1)' Z (p -1))- 1 Z (p -1)' xp )- 1 (−xp' Z (p -1)( Z (p -1)' Z (p -1))
- 1 Z (p -1)' y+xp' y) .
Ma − tenuto conto delle espressioni di xp , Z (p -1) , xp , Z (p -1) , yZ (p -1) , yZ (p -1)
date in precedenza e del fatto che
xp , Z (p -1)' xp , Z (p -1) = xp , Z (p -1)' (x p − xp , Z (p -1))
= (Z (p -1)(Z (p -1)' Z (p -1))- 1 Z (p -1)' xp )'(x p − Z (p -1)(Z (p -1)' Z (p -1))
- 1 Z (p -1)' xp ) = 0
e
xp , Z (p -1)' yZ (p -1) = (x p − xp , Z (p -1))' yZ (p -1)
= (x p − Z (p -1)(Z (p -1)' Z (p -1))- 1 Z (p -1)' xp )' Z (p -1)(Z (p -1)' Z (p -1))
- 1 Z (p -1)' y = 0
− si ha
bp = (x p' xp − xp' xp , Z (p -1))- 1 (− xp , Z (p -1)' y + x p' y)
= (x p' (x p − xp , Z (p -1)))- 1 (x p − xp , Z (p -1))' y
22 RENATO LEONI
= (x p' xp , Z (p -1))- 1 (xp , Z (p -1)' y)
= (x p' xp , Z (p -1) − xp , Z (p -1) xp , Z (p -1))- 1 (xp , Z (p -1)' y − xp , Z (p -1)' yp , Z (p -1))
= (xp , Z (p -1)' xp , Z (p -1))- 1 (xp , Z (p -1)' yZ (p -1))
ovvero
bp = bp , Z (p -1)
Ovviamente, il ragionamento ora svolto può essere ripetuto per ciascuno
degli altri coefficienti di regressione e, quindi, a ciascuno di essi può essere
attribuito il significato di coefficiente di regressione netta.
ESEMPIO 4. Riprendendo l'Esempio 1 e con le notazioni ora introdotte, si ha
che (p = 2)
Z (p -1) = 1 −11 −11 11 1
, xp = −1−1−2 0
yZ (p -1) = 3311
, xp , Z (p -1) = −1−1−1−1
, yZ (p -1) = 1−1−1 1
, xp , Z (p -1) = 0 0−1 1
e, quindi,
bp , Z (p -1) = 1 = bp , yZ (p -1) = 0 0−1 1
, rZ (p -1) = 12 2
. z
Supponiamo adesso di eseguire una ripartizione della matrice Z nel
seguente modo
Z = u x1 xh xh + 1 xp = Z (h ) X (p - h ) .
Siano (j = h+1, ... , p)
REGRESSIONE LINEARE 23
yZ ( h ) = Z ( h ) (Z ( h )' Z ( h ))- 1 Z ( h )' y , x j , Z ( h ) = Z ( h ) (Z ( h )' Z ( h ))
- 1 Z ( h )' x j
i vettori che si ottengono dalla regressione di y e x j rispetto ai vettori
colonna che compongono Z (h ), ovverosia le proiezioni ortogonali di y e x j nel
sottospazio generato dai vettori colonna di Z (h ).
Chiaramente, tali vettori rappresentano l'influenza determinata dalle
variabili X 1 , ... , X h sulle variabili Y e X j.
Ne consegue che i vettori
yZ ( h ) = y − yZ ( h ) , x j , Z ( h ) = x j − x j , Z ( h )
rappresentano ciò che rimane dopo che tale influenza è stata eliminata.
Ciò premesso, operando la regressione di yZ ( h ) rispetto ai vettori colonna
della matrice (7)
Xp , Z ( h ) = xh +1 , Z ( h ) xp , Z ( h ) ,
si ottiene
yZ ( h ) = Xp , Z ( h )(Xp , Z ( h )' Xp , Z ( h ))
- 1 Xp , Z ( h )' yZ ( h )
Il vettore
bp , Z ( h ) = (Xp , Z ( h )' Xp , Z ( h ))
- 1 Xp , Z ( h )' yZ ( h )
è anche detto vettore dei coefficienti di regressione multipla-parziale di
yZ ( h ) rispetto a Xp , Z ( h ) .
Ora, con un procedimento analogo a quello esposto in precedenza, si
dimostra che gli elementi bh + 1 , Z ( h ) , ... , bp , Z ( h ) di bp , Z ( h ) sono gli stessi,
nell'ordine, dei coefficienti di regressione bh + 1 , ... , bp che si accompagnano
alle variabili Xh + 1 , ... , Xp e che sono parte del vettore b.
(7) Si può facilmente dimostrare, seguendo una linea di ragionamento simile a quella seguita nellaOsservazione 5, che tale matrice è di pieno rango per colonne.
24 RENATO LEONI
Ne consegue che questi ultimi, considerati congiuntamente, assumono il
significato di coefficienti di regressione multipla parziale, mentre, presi ad
uno ad uno, assumono quello di coefficienti di regressione parziale o netta.
REGRESSIONE LINEARE 25
10 IL MODELLO MULTIVARIATO DI REGRESSIONE LINEARE
Finora ci siamo occupati del caso in cui il gruppo delle variabili dipendenti
fosse costituito da una sola variabile Y.
Supponiamo adesso che tale gruppo sia composto da t ≥2 variabili
Y 1 , ... , Y t .
Considerati i t modelli di regressione
(5) yi 1 = a0 1 + a1 1 xi 1 + + ap 1 xi p + e i 1
y i t = a0 t + a1 t x i 1 + + ap t x i p + e i t
e posto (s = 1,... , t )
y s = y1 s
yn s
, a s = a 0 s
a p s
, e s = e 1 s
e n s
Y = y1 y t , A = a 1 a t , E = e 1 e t
è intanto ovvio che possiamo scrivere, più compattamente, la (5) nella forma
(modello multivariato di regressione lineare)
(5') Y = ZA + E
Inoltre, poiché il metodo dei m.q., applicato a ciascuno dei t modelli di
regressione di cui sopra, fornisce
a s = (Z 'Z)- 1 Z'y s ,
si ha che
(6) A = a 1 a t = (Z 'Z) -1 Z'Y
Vogliamo adesso mostrare che, applicando il metodo dei m.q. simulta-
neamente ai t modelli di regressione scritti nella (5), si perviene allo stesso
26 RENATO LEONI
risultato.
In effetti, considerata la quantità
S = Σ s Σ i e i s2 = tr{E'E} = tr{(Y − ZA)'(Y − ZA)}
= tr{Y'Y} − tr{Y'ZA} − tr{A'Z'Y} + tr{A'Z'ZA}
= tr{Y'Y} − 2 tr{Y'ZA} + tr{A'Z'ZA}
la matrice A che minimizza S deve esser tale che la derivata di S rispetto ad
A, calcolata in A, risulti nulla.
Ma,
∂S∂A
= − 2Z'Y + 2Z'ZA
ed eguagliando a zero tale espressione, si ottiene immediatamente la (6).
OSSERVAZIONE 11. Si noti che applicando l'operatore vec a entrambi i
membri della (5'), si ottiene
vec(Y) = vec(ZA) + vec(E) = (I ⊗ Z)vec(A) + vec(E)
da cui
vec(A) = ((I ⊗ Z)'(I ⊗ Z)) -1 (I ⊗ Z)'vec(Y)
= ((I ⊗ Z')(I ⊗ Z)) -1 (I ⊗ Z')vec(Y)
= (I ⊗ (Z'Z)) -1 (I ⊗ Z')vec(Y)
= (I ⊗ (Z'Z) -1) (I ⊗ Z')vec(Y)
= (I ⊗ [(Z'Z) -1 Z'])vec(Y)
la quale non è altro che un modo diverso di scrivere la (6).
OSSERVAZIONE 12. Si potrebbe dimostrare che la matrice dei coefficienti di
regressione A che minimizza S, ovvero tr(E'E), minimizza det(E'E) e,
quindi, anche la varianza generalizzata dei residui, vale a dire det( 1n E'E).