CAPITOLO 10
Funzione Caratteristica, Normale multivariata,convergenze
152
10.1 Funzione caratteristica 153
10.1. Funzione caratteristica
La funzione caratteristica e uno strumento teorico utile sotto diversi aspettiper studiare la distribuzione di probabilita di numeri aleatori discreti e con-tinui.Dato un numero aleatorio X , discreto o continuo, sia
Y = eitX = cos(tX) + isen(tX),
dove i e l’unita immaginaria e t e un fissato valore reale, e indichiamo conφX(t) la previsione di Y , che risulta essere una funzione di t. La funzioneφX(t) si chiama funzione caratteristica di X .Nel caso discreto, posto P (X = xh) = ph, si ha
φX(t) =∑h
pheitxh ,
mentre nel caso continuo, indicando con f(x) la densita di X , si ha
φX(t) =
∫ +∞
−∞eitxf(x)dx
ovvero
φX(t) =
∫ +∞
−∞cos(tx)f(x)dx+ i
∫ +∞
−∞sin(tx)f(x)dx .
Alcune proprieta:(1) φX(0) = 1 , (
∑h ph = 1 ,
∫ +∞−∞ f(x)dx = 1);
(2) |φX(t)| ≤ φX(0) = 1 , ∀ t ; Consideriamo il caso in cui X e unnumero aleatorio continuo.
|φX(t)| =∣∣∣∣∫ +∞
−∞eitxf(x)dx
∣∣∣∣ ≤ ∫ +∞
−∞|eitxf(x)|dx
=
∫ +∞
−∞|eitx|︸︷︷︸
=√
cos2(tX)+sin2(tX)=1
f(x)dx =
∫ +∞
−∞f(x)dx = 1
(3) Se Y = aX + b, si ha
φY (t) = P(eitY ) = P(eit(aX+b)) =
eibtP(eiatX) = eibtφX(at);
(4) In particolare, se Y = −X , si ha:
φY (t) = φ−X(t) = P(e−itX) = φX(−t) = φX(t),
dove il numero complesso α + iβ = α − iβ, ovvero il coniugatodi α + iβ. Infatti
φX(t) = P(cos(tX) + i sin(tX)) =
P(cos(tX)) + iP(sin(tX)) =
P(cos(tX))− iP(sin(tX)) = φX(−t)
G.Sanfilippo
10.1 Funzione caratteristica 154
(5) Se φX(t) e una funzione reale, si ha
φX(−t) = φX(t).
Se φX(t) e una funzione reale, si ha φX(t) = φX(t). Alloraφ−X(t) = φX(−t) = φX(t) e quindi φX(t) e una funzione rea-le pari.
(6) Se X ha una densita simmetrica rispetto all’asse delle y, cioe
f(x) = f(−x), ∀x ∈ R,
allora X e −X hanno la stessa densita e pertanto si ha φ−X(t) =φX(t), ovvero φX(t) e reale.
Esempi.a) Dato un evento E di probabilita p, sia X = |E|. Si ha
φX(t) = φ|E|(t) = peit·1 + qeit·0 = peit + q .
b) Dati n eventi E1, . . . , En, indipendenti ed equiprobabili di probabilita p,consideriamo il n.a. X = |E1|+ · · ·+ |En|. Si ha X ∼ B(n, p); inoltre
φX(t) =n∑h=0
P (X = h)eith =n∑h=0
(n
h
)phqn−heith
· · · = (peit + q)n .
c) Sia dato un numero aleatorio X con distribuzione di Poisson di parame-tro λ. Indicando con pn = P (X = n), si ha
φX(t) =+∞∑n=0
pneitn =
+∞∑n=0
λn
n!e−λeitn = e−λ
+∞∑n=0
(λeit)n
n!
= e−λeλeit
= eλ(eit−1).
d) Sia dato un numero aleatorio X con distribuzione geometrica di para-metro p, ovvero ph = pqh−1 per h ∈ N. Ricordando che per un numerocomplesso |x| < 1 si ha (serie geometrica di ragione x)
∞∑h=1
xh−1 =1
1− x,
otteniamo
φX(t) =+∞∑h=1
pheith =
+∞∑h=1
pqh−1eith =
= peit+∞∑h=1
(qeit)h−1 =peit
1− qeit.
G.Sanfilippo
10.1 Funzione caratteristica 155
e) Se X ha una distribuzione normale standard, X ∼ N0,1, si ha
φX(t) =
∫ +∞
−∞eitx
1√2πe−
x2
2 dx .
Poiche X ha una densita simmetrica rispetto all’asse y, per la proprieta (6),si ha che φX(t) e una funzione reale, cioe
φX(t) =
∫ +∞
−∞cos(tx)
1√2πe−
x2
2 dx .
Consideriamo la derivata prima di φX(t) (come funzione in t). Si puodimostrare che
φ′X(t) = ddt
∫ +∞−∞ cos(tX) 1√
2πe−
x2
2 dx =∫ +∞−∞
d[cos(tX) 1√2πe−
x2
2 ]
dtdx =∫ +∞
−∞ −x sin(tx) 1√2πe−
x2
2 dx .
Risolviamo il precedente integrale (nella variabile x) mediante integrazioneper parti. Poniamo
h(x) = sin(tx)→ d(h(x))dx
= t cos(tx)
d(g(x))dx
= −x 1√2πe−
x2
2 → g(x) =∫x 1√
2π− e−x
2
2 dx =︸︷︷︸y=x2
2
∫− 1√
2πe−ydy = 1√
2πe−
x2
2
Si ha
φ′X(t) = −∫ +∞−∞ x sin(tx) 1√
2πe−
x2
2 dx =
= [sin(tx) 1√2πe−
x2
2 ]+∞−∞ − t∫ +∞−∞ cos(tx) 1√
2πe−
x2
2 dx =
= 0− tφX(t) = −tφX(t) .
Quindiφ′X(t)
φX(t)=
d
dtlog φX(t) = −t ,
da cui segue
log φX(t) = −t2
2+ c ,
ed essendo φX(0) = 1, risulta c = 0.
Quindi: φX(t) = e−t2
2 (funzione reale e pari).
f) Se X ha una distribuzione normale di parametri m,σ, il n.a. Y = X−mσ
ha una distribuzione normale standard e si ha φY (t) = e−t2
2 . Allora, osser-vando che X = σY + m, applicando la proprieta 3), con a = σ, b = m, si
G.Sanfilippo
10.1 Funzione caratteristica 156
ottieneφX(t) = eimt−
σ2t2
2 .
g) Se X ha una distribuzione esponenziale di parametro λ, si ha
φX(t) =
∫ +∞
0eitxλe−λxdx =
= λ
∫ +∞
0e−(λ−it)xdx =
λ
λ− it·
h) X ∼ Gc,λ. Si ha
φX(t) =∫ +∞
0eitx λc
Γ(c)xc−1e−λxdx =
=(
λλ−it
)c= [φY (t)]c , (Y ∼ G1,λ = Exp(λ)) .
Calcolo dei momenti.Per ogni fissato intero k = 1, 2, . . ., la previsione di Xk, che indichiamocon m(k), si chiama momento di ordine k di X .
TEOREMA 10.1. Se, per un intero positivo k e P(|X|k) < ∞, allora laderivata k − esima di φX(t) esiste per ogni t, e continua, e si ha
φ(k)X (t) =
∫ +∞
−∞(ix)keitxf(x)dx .
Cenno sulla dimostrazione. Ricordiamo che, dato un numero aleatoriocontinuo X , con densita f(x), si ha
φX(t) =
∫ +∞
−∞eitxf(x)dx .
Nelle ipotesi del Teorema 10.1 derivando rispetto alla variabile t, si ha
φ′X(t) =
∫ +∞
−∞ixeitxf(x)dx ,
φ′′X(t) =
∫ +∞
−∞(ix)2eitxf(x)dx ,
........................................
φ(k)X (t) =
∫ +∞
−∞(ix)keitxf(x)dx .
........................................
Allora, se esistono i vari momenti di X , si ha
φ′X(0) = i
∫ +∞
−∞xf(x)dx = im(1) ,
φ′′X(0) = i2∫ +∞
−∞x2f(x)dx = i2m(2) ,
........................................
φ(k)X (0) = ik
∫ +∞
−∞xkf(x)dx = ikm(k) .
G.Sanfilippo
10.2 Somma di numeri aleatori stocasticamente indipendenti 157
........................................
Pertanto, si ha m(k) =φ
(k)X (0)
ik. Un ragionamento analogo si puo fare se X e
un n.a. discreto. In molti casi, dovendo calcolare m(k), conviene sfruttaretale formula anziche applicare la definizione
m(k) =
∫ +∞
−∞xkf(x)dx ,
nel caso continuo, oppure
m(k) =∑n
pnxkn ,
nel caso discreto.
ESEMPIO 10.1. Sia X ∼ N0,1, si ha
P(Xr) = 0, r dispari
P(Xr) = P(X2k) =(2k)!
2kk!, r = 2k, k ∈ N.
ESERCIZIO 10.1. Sia X un numero aleatorio con distribuzione uniforme in[a, b], con a < b, verificare che
φX(t) =
eitb−eitait(b−a)
, t 6= 0
1, t = 0
Sia Y = cX + d, con c > 0, verificare che Y ha distribuzione uniforme in[ac+ d, bc+ d].
ESERCIZIO 10.2. Sia X un numero aleatorio con distribuzione uniforme in[0, 1], verificare che
limt→0
φ′X(t) =i
2.
( Sfruttare il fatto che limt→0 φX(t) = 1 ).
ESERCIZIO 10.3. Sia X un numero aleatorio con distribuzione esponen-ziale di parametro λ > 0 e sia Y = aX , con a > 0, verificare che Y hadistribuzione esponenziale di parametro λ/a.
10.2. Somma di numeri aleatori stocasticamente indipendenti
La proprieta piu importante delle funzioni caratteristiche e la seguente:dati n numeri aleatori X1, . . . , Xn stocasticamente indipendenti e postoY = X1 + · · ·+Xn, si ha
φY (t) = φX1(t) · φX2(t) · · · · φXn(t) .
G.Sanfilippo
10.2 Somma di numeri aleatori stocasticamente indipendenti 158
Consideriamo il caso n = 2. Si ha
φX1+X2(t) = P(eit(X1+X2)) = P(eitX1eitX2) =
P(eitX1)P(eitX2)︸ ︷︷ ︸X1⊥X2
= φX1(t)φX2(t).
Ad esempio, dati n eventi E1, . . . , En, indipendenti ed equiprobabili diprobabilita p, e posto
X1 = |E1| , . . . , Xn = |En| ,
si haφX1(t) = · · · = φXn(t) = peit + q .
Quindi
φX1+···+Xn(t) = φX1(t) · · · · · φXn(t) = (peit + q)n .
Ritroviamo in questo modo la funzione caratteristica del numero aleatorio|E1|+ · · ·+ |En|, che ha distribuzione binomiale di parametri n, p.
Altri due aspetti teorici importanti relativi alle funzioni caratteristiche sono:1. La corrispondenza tra funzioni caratteristiche e distribuzioni di probabi-lita e biunivoca; quindi la funzione caratteristica φX(t) determina univoca-mente la distribuzione di probabilita di X .
ESEMPIO 10.2. Ricordando che ad una distribuzione normale di parame-tri m,σ corrisponde la funzione caratteristica eimt−
σ2t2
2 e quindi, se X ∼N(x), si ha φX(t) = e−
t2
2 . Allora, se Y = 2X + 3, si ha
φY (t) = · · · = e3it−2t2 ,
e quindi Y ∼ N3,2.Altro esempio: se X ∼ Nm1,σ1 e Y ∼ Nm2,σ2 , con X, Y stocasticamenteindipendenti, si ha
φX(t) = eim1t−σ2
1t2
2 , φY (t) = eim2t−σ2
2t2
2 .
Inoltre, per il n.a. Z = aX + bY si ha
φZ(t) = · · · = eim3t−σ2
3t2
2 ,
con
m3 = am1 + bm2 , σ3 =√a2σ2
1 + b2σ22 .
Pertanto Z ∼ Nm3,σ3 . Si noti che, volendo evitare l’uso della funzionecaratteristica, il calcolo della di- stribuzione di Z richiederebbe un ragiona-mento pro- babilistico molto piu complicato.
G.Sanfilippo
10.2 Somma di numeri aleatori stocasticamente indipendenti 159
ESEMPIO 10.3. Siano X1 ∼ P(λ1) e X2 ∼ P(λ2) si ha
φX1+2(t) = φX1(t)φX2(t) = eλ1(eit−1)eλ2(eit−1) =
e(λ1+λ2)(eit−1).
Pertanto X1 +X2 ∼ P(λ1 + λ2)
ESEMPIO 10.4. La funzione caratteristica di un n.a. X con distribuzioneGα,λ, cioe con densita,
Gα,λ(x) =λα
Γ(α)xα−1eλx, x > 0.
e data da
φX(t) =
(λ
λ− it
)α.
Pertanto dati 2 numeri aleatori X1, X2, rispettivamente, con distribuzioneGα1,λ e Gα2,λ, si ha X1 +X2 ∼ Gα1+α2,λ.
ESERCIZIO 10.4. La funzione caratteristica di un numero aleatorio discretoX e φX(t) =
∑5k=1
eikt
5. Calcolare la previsione di X .
P(X) =
Soluzione.Si ha
φ′X(t) =5∑
k=1
ikeikt
5,
da cui segue
φ′X(o) =5∑
k=1
ik
5=i(1 + 2 + 3 + 4 + 5)
5= 3i = iP(X) .
Pertanto: P(X) = 3 .
ESERCIZIO 10.5. La funzione caratteristica di un numero aleatorioX e datada φX(t) = e2it− t
2
2 . Posto Y = X−2, calcolare la probabilita p dell’evento(|Y | ≤ 2).Risp.: p =
Soluzione.φX(t) = e2it− t
2
2 e la funzione caratteristica di una distribuzione normale diparametri m = 2, σ = 1. Pertanto Y = X−2 ha una distribuzione normalestandard. Allora:
p = P (|Y | ≤ 2) = 2Φ(2)− 1 ' 0.9545 .
ESERCIZIO 10.6. Le funzioni caratteristiche di due numeri aleatori X, Yindipendenti sono rispettivamente φX(t) = e2(eit−1) e φY (t) = e3(eit−1).
G.Sanfilippo
10.2 Somma di numeri aleatori stocasticamente indipendenti 160
Posto Z = X + Y , calcolare la previsione m di Z.Risp.: m = Si ha:
φZ(t) = φX(t)φY (t) = e2(eit−1)e3(eit−1) = e5(eit−1),
da cui ricordando che φ′Z(0) = imZ e osservando che
φ′Z(t) = e5(eit−1)5eiti, φ′Z(0) = 5i,
segue: mZ = 5. In effetti, e5(eit−1) e la funzione caratteristica di unadistribuzione di Poisson di parametro λ = 5.
G.Sanfilippo
10.3 Distribuzione normale multidimensionale - versione provvisoria 161
10.3. Distribuzione normale multidimensionale - versione provvisoria
Un vettore aleatorio continuo (X, Y ) ha una distribuzione normale bidi-mensionale (o doppia) se ha la seguente densita di probabilita
f(x, y) = 1
2πσ1σ2
√1−ρ2· e− 1
2(1−ρ2)
[(x−µ1σ1
)2−2ρ
(x−µ1σ1
)(y−µ2σ2
)+(y−µ2σ2
)2],
per ogni (x, y) ∈ R2, dove µ1, µ2, σ1, σ2, ρ, sono valori reali con σ1 >0, σ2 > 0, |ρ| < 1.http://www.unipa.it/sanfilippo/pub/sigad/approfondimenti/Tale distribuzione gode delle seguenti proprieta:
• f1(x) = Nµ1,σ1(x) , f2(y) = Nµ2,σ2(y) , pertanto le previsioni egli scarti quadratici medi di X e Y sono rispettivamente µ1, µ2 eσ1, σ2;• f1(x|y) = Nµ∗1,σ
∗1(x) , con
µ∗1 = µ1 + ρσ1
σ2
(y − µ2) , σ∗1 = σ1
√1− ρ2 ;
• f2(y|x) = Nµ∗2,σ∗2(y) , con
µ∗2 = µ2 + ρσ2
σ1
(x− µ1) , σ∗2 = σ2
√1− ρ2 ;
• P(XY ) =∫ +∞−∞
∫ +∞−∞ xyf(x, y)dxdy = · · · = µ1µ2 + ρσ1σ2 ,
pertanto ρ rappresenta il coefficiente di correlazione di X e Y ;• se ρ = 0 risulta f(x, y) = f1(x)f2(y), pertanto se X e Y sono
incorrelati, segue che sono indipendenti;• infine, se i parametri µ1, µ2, σ1, σ2 sono fissati, al variare di ρ si ot-
tengono infinite distribuzioni normali bidimensionali con le stes-se marginali Nµ1,σ1(x), Nµ2,σ2(y); il che significa che date le di-stribuzioni marginali non e possibile determinare la distribuzionecongiunta.
10.3.1. Distribuzioni marginali. Si ha X ∼ Nµ1,σ1 e Y ∼ Nµ2,σ2 .
Dimostriamo che X ∼ Nµ1,σ1 . Con la trasformazione lineare u =(x−µ1
σ1
)e v =
(y−µ2
σ2
), si ha dy = σ2dv e limy→±∞ v = ±∞. Pertanto si ha,
f1(x) =
∫Rf(x, y)dy =
σ22πσ1σ2
√1− ρ2
∫Re− 1
2(1−ρ2)[u2−2ρuv+v2]
dv.
Osservando che
u2 − 2ρuv + v2 = u2 − ρ2u2 + (v − ρu)2 = u2(1− ρ2) + (v − ρu)2
G.Sanfilippo
10.3 Distribuzione normale multidimensionale - versione provvisoria 162
f1(x) si puo scrivere come segue
f1(x) =1
2πσ1
√1− ρ2
∫Re− 1
2(1−ρ2)[u2(1−ρ2)+(v−ρu)2]
dv.
=e−
12
[u2]
√2πσ1
∫R
1√
2π√
1− ρ2e− 1
2
(v−ρu√1−ρ2
)2
dv︸ ︷︷ ︸=1
.
=1√
2πσ1
e− 1
2
(x−µ1σ1
)2
.
Pertanto X ∼ Nµ1,σ1 . Procedendo in maniera analoga, ma scambiando xcon y, si ricava che
f2(y) =
∫Rf(x, y)dy =
1√2πσ2
e− 1
2
(y−µ2σ2
)2
ovvero Y ∼ Nµ2,σ2 . Quindi si ha che
µ1 = P(X), µ2 = P(Y ), σ21 = var(X), σ2
2 = var(Y ).
10.3.2. Distribuzioni marginali condizionate. Calcoliamo la densitadi probabilita di Y dato X = x.
f2(y|x) =f(x, y)
f1(x)=
1
2πσ1σ2
√1−ρ2· e− 1
2(1−ρ2)
(x−µ1σ1
)2−(x−µ1σ1
)2ρ2+
[(y−µ2σ2
)−(x−µ1σ1
)ρ]2
1√2πσ1
e− 1
2
(x−µ1σ1
)2 =
=
1√2πσ2
√1−ρ2· e− 1
2(1−ρ2)
(x−µ1σ1
)2(1−ρ2)+
[(y−µ2σ2
)−(x−µ1σ1
)ρ]2
e− 1
2
(x−µ1σ1
)2 =
=1
√2πσ2
√1− ρ2
e− 1
2(1−ρ2)
[(y−µ2σ2
)−(x−µ1σ1
)ρ]2
=
=1
√2πσ2
√1− ρ2
e− 1
2
[y−µ2−ρ
σ2σ1
(x−µ1)
σ2(1−ρ2)
]2.
Se poniamo µ∗2 = µ2 + ρσ2
σ1(x− µ1) e σ∗2 = σ2
√(1− ρ2) si ha
f2(y|x) =1√
2πσ∗2e− 1
2
[y−µ∗2σ∗2
]2
, ∀y ∈ R.
Pertanto, per ogni fissato x ∈ R, si ha f2(y|x) = Nµ∗2,σ∗2(y) , con
µ∗2 = µ2 + ρσ2
σ1
(x− µ1) , σ∗2 = σ2
√1− ρ2.
G.Sanfilippo
10.3 Distribuzione normale multidimensionale - versione provvisoria 163
In maniera analoga si dimostra che, per ogni fissato x ∈ R, si ha f1(x|y) =Nµ∗1,σ
∗1(x) , con
µ∗1 = µ1 + ρσ1
σ2
(y − µ2) , σ∗1 = σ1
√1− ρ2.
Concludendo si ha
µ∗1 = P(Y |x) = µy(x), µ∗2 = P(X|y) = µx(y)
cioe µ∗1 = µy(x) e proprio la funzione di regressione di X su Y e µ∗2 =µx(y) e proprio la funzione di regressione di Y su X .Poiche la curva di regressione di Y su X e una retta essa coincide con laretta di regressione. Pertanto ρ coincide con il coefficiente di correlazionelineare di X e Y (per la dimostrazione analitica vedi dall’Aglio pag 144).In particolare, osserviamo che se ρ = 0 si ha
f2(y|x) ≡ f2(y), f1(y|x) ≡ f1(y).
Quindi, dato un vettore aleatorio (X, Y ) con distribuzione normale bidi-mensionale si ha
X, Y stocasticamente indipendenti ⇔ X, Y sono incorrelati
10.3.3. Matrice delle varianze e covarianze. Osserviamo che la ma-trice delle varianze-covarianze del vettore (X, Y ) e data da
Σ2 =
(σ11 σ12
σ21 σ22
)=
(σ2
1 ρσ1σ2
ρσ1σ2 σ22
),
e si hadetΣ2 = |Σ2| = · · · = σ2
1σ22(1− ρ2) ,
Σ−12 =
1
detΣ2
(σ2
2 −ρσ1σ2
−ρσ1σ2 σ21
).
Allora, com’e possibile verificare, la densita congiunta si puo rappresentarenella forma matriciale seguente
f(x, y) =1
2π√|Σ2|
e−12A(x−µ1,y−µ2) ,
dove
A(x− µ1, y − µ2) = (x− µ1, y − µ2) · Σ−12 ·
(x− µ1
y − µ2
).
In generale, dato un vettore aleatorio continuoX = (X1, . . . , Xn), sia Σn lamatrice delle varianze-covarianze di X . Si dice che X ha una distribuzionenormale n−dimensionale se la densita congiunta e data da
f(x1, . . . , xn) =1
(2π)n2
√detΣn
e−12A(x1−µ1,...,xn−µn) ,
G.Sanfilippo
10.3 Distribuzione normale multidimensionale - versione provvisoria 164
doveA(x1 − µ1, . . . , xn − µn) =
= (x1 − µ1, . . . , xn − µn) · Σ−1n ·
x1 − µ1
· · ·xn − µn
.
In forma matriciale e vettoriale si ha
f(x1, . . . , xn) =|Σn|−
12
(2π)n2
e−12
(x−µ)·Σ−1n ·(x−µ)t ,
dovex = (x1, x2 . . . , xn), µ = (µ1, µ2 . . . , µn).
La distribuzione normale n−dimensionale gode di proprieta simili a quellabidimensionale; in particolare
Xi ∼ Nµi,σi , i = 1, . . . , n .
Inoltre, se per ogni i 6= j si ha σij = 0, la matrice delle varianze-covarianzediventa diagonale e la densita congiunta coincide con il prodotto delle den-sita marginali, ovvero i numeri aleatori X1, . . . , Xn sono stocasticamenteindipendenti.Costruzione di una variabile aleatoria normale multidimensionale.*Dati n numeri aleatori X1, X2, . . . , Xn indipendenti e identicamente distri-buiti con distribuzione normale standard (Xi ∼ N0,1) siaX = (X1, X2, . . . , Xn)il vettore aleatorio congiunto. Ovviamente la densita di X e data da
fX(x1, . . . , xn) =1
(2π)n2
e−12x·xt .
In tal caso X ha una distribuzione normale multidimensionale con matricedelle varianze e covarianze la matrice Identita n× n .
Consideriamo una trasformazione lineare di X . Sian×1︷︸︸︷Y =
n×n︷︸︸︷A ·
n×1︷︸︸︷X +
n×1︷︸︸︷µ
con A una matrice n × n con |A| 6= 0 e µ un vettore (colonna?). Si ha chele componenti di Y sono
Y1 = a11X1 + a12X2 + . . .+ a1nXn + µ1;...Yi = ai1X1 + ai2X2 + . . .+ ainXn + µi;...Yn = an1X1 + an2X2 + . . .+ annXn + µn.
Inoltre, essendo A invertibile, si ha
X = (Y − µ)A−1.
G.Sanfilippo
10.3 Distribuzione normale multidimensionale - versione provvisoria 165
PoicheCov(Yi, Yj) = Cov(ai1X1 + ai2X2 + . . .+ ainXn, aj1X1 + aj2X2 + . . .+ ajnXn) =
=∑n
h=1
∑nk=1 aihajkcov(Xh, Xk) =
= ai1aj1 + ai2aj2 + . . .+ ainajn == ai · ajt
si ha che la matrice varianze-covarianze di Y e
ΣY = A · At.Si dimostra che Y ha una distribuzione normale multivariata con densita
f(y1, . . . , yn) =|ΣY |−
12
(2π)n2
e−12
(y−µ)·Σ−1Y ·(y−µ)t)t.
ESERCIZIO 10.7. Dati 2 numeri aleatori X1, X2 indipendenti e identica-mente distribuiti con distribuzione normale standard e definiti
Y1 = X1 +X2 + 1; Y2 = X1 −X2 − 1
determinare la densita Y1 e la densita di Y2.Poiche X1, X2 sono stocasticamente indipendenti si ha
ΣX =
(1 00 1
)Inoltre sappiamo che (Y1, Y2) ha una distribuzione normale bidimensionale.Determiniamone la densita. Poiche
A =
(1 11 −1
)e |A| = −2 segue che la matrice varianze-covarianze di Y e
ΣY = A · At =
(2 00 2
)Quindi, Y1, Y2 sono stocasticamente indipendenti con distribuzione, rispet-tivamente, Y1 ∼ N1,
√2 e Y2 ∼ N−1,
√2.
G.Sanfilippo
10.4 Convergenze 166
10.4. Convergenze
10.4.1. Convergenza in legge o in distribuzione.
DEFINIZIONE 10.1 (Convergenza in legge o in distribuzione). Una succes-sione di distribuzioni con funzioni di ripartizione F1(x), F2(x), . . . convergead una distribuzione se esiste una funzione di ripartizione, F (x), tale che
limn→∞
Fn(x) = F (x), in ogni punto di continuita di F (x)
Se indichiamo con X1, X2, . . . la successione dei numeri aleatori con fun-zione di ripartizione F1(x), F2(x), . . . e con X un numero aleatorio confunzione di ripartizione F (X), se Fn converge in distribuzione a F scrive-remo
XnL→ X, (Xn
d→ X)
e diremo che Xn converge in legge (o debolmente) a X .
Tale tipo di convergenza si suole dire convergenza debole. Notare che vienerichiesta la convergenza delle funzioni distribuzioni soltanto nei punti dicontinuita per F .
ESEMPIO 10.1. Consideriamo una successione di numeri aleatoriX1, X2, . . . , Xn, . . .con funzione di ripartizione del generico Xn definita da
Fn(x) =
0 x < (−1)n
n,
1 x ≥ (−1)n
n.
Sia X un numero aleatorio con funzione di ripartizione data da
F (x) =
0 x < 0,
1 x ≥ 0.
Verificare se XnL→ X . Distinguiamo tre casi.
(1) Sia x < 0. Si ha F (x) = 0. Poiche limn→∞(−1)n
n= 0 esiste un nx tale
che
x <(−1)n
n, ∀n > nx .
Allora si ha Fn(x) = 0 = F (x) per n > nx, cioe Fn(x)→ F (x).(2) Sia x > 0. Poiche limn→∞
(−1)n
n= 0 esiste un nx tale che
x >(−1)n
n, ∀n > nx .
Allora si ha Fn(x) = 1 = F (x) per n > nx, cioe Fn(x)→ F (x).(3) Sia x = 0. In tal caso F2k(0) = 0, F2k+1(0) = 1 pertanto Fn(0) non halimite. Osserviamo che pero il punto x = 0 non e di continuita per F (x).Quindi Fn(x)→ F (x) in ogni punto di continuita per F (X), cioeXn
L→ X .
G.Sanfilippo
10.4 Convergenze 167
TEOREMA 10.2. Indicando con ψ la funzione caratteristica corrispondentead F , la successione F1, . . . , Fn, . . . converge in distribuzione ad F se e solose la corrispondente successione di funzioni caratteristiche ψ1, . . . , ψn, . . .converge a ψ. In breve
Fn(x)→ F (x)⇐⇒ ψn(t)→ ψ(t)
Tale risultato teorico permette di dimostrare il Teorema centrale del limite.
10.4.2. Teorema centrale del limite. Data una successione di numerialeatoriX1, . . . , Xn, . . ., indipendenti ed ugualmente distribuiti, con P(Xi) =m, Var(Xi) = σ2, si consideri la successione delle medie aritmetiche
Y1 = X1 , Y2 =X1 +X2
2, Yn =
X1 + · · ·+Xn
n, . . . ,
e quella delle medie aritmetiche ridotte Z1, . . . , Zn. Ovviamente P(Yn) =
m, Var(Yn) = σ2
ne quindi Zn = Yn−m
σ/√n
. Indicando con Fi la funzione diripartizione di Zi, la successione F1, . . . , Fn, . . . converge alla funzione diripartizione (di una distribuzione normale standard) Φ0,1, ovvero si ha
limn→+∞
Fn(z) = limn→+∞
P (Zn ≤ z) = Φ(z) , ∀ z ∈ R .
Il risultato precedente si ottiene dimostrando che la successioneψ1, . . . , ψn, . . .(di funzioni caratteristiche dei numeri aleatoriZ1, . . . , Zn, . . .) converge allafunzione caratteristica (della distribuzione normale standard) ψ(t) = e−
t2
2 .
TEOREMA 10.3 (Teorema centrale del limite). Data una successione di n.a. X1, . . . , Xn, . . ., indipendenti ed ugualmente distribuiti, con P(Xi) = m,Var(Xi) = σ2 < +∞, e posto
Y1 = X1 , Y2 = X1+X2
2, . . . , Yn = X1+···+Xn
n, . . . ,
Z1 = Y1−mσ
, Z2 = Y2−mσ/√
2, . . . , Zn = Yn−m
σ/√n, . . . ,
si halim
n→+∞P (Zn ≤ z) = Φ(z) =
∫ z
−∞N(t)dt , ∀ z ∈ R ;
ovvero, la successione Z1, . . . , Zn, . . . converge in legge ad un n. a. Z condistribuzione normale standard.
DIMOSTRAZIONE. Dim.: si ha
Zn =Yn −mσ/√n
=1√n
n∑h=1
(Xh −m
σ
)=
n∑h=1
Uh√n,
con P(Un) = 0 , V ar(Un) = 1 , ∀n.
I n. a. standardizzati U1, . . . , Un, . . . sono indipendenti ed ugualmentedistribuiti; indicando con ψ(t) la loro funzione caratteristica, si ha
ψ(t) = ψ(0) + ψ′(0) t+ψ′′(0)
2!t2 + · · · = 1− t2
2+ · · · ;
G.Sanfilippo
10.4 Convergenze 168
inoltre: ψ Uh√n
(t) = P(eitUh√n
)= ψ
(t√n
)=
= 1− t2
2n+ · · · = 1− t2
2n+ o
(1
n
),
ψZn(t) = ψ∑hUh√n
(t) = Πnh=1ψ Uh√
n
(t) =
=
[ψ
(t√n
)]n=
[1 + ψ
(t√n
)− 1
]n;
ricordiamo che: log(1 + z) =∑∞
n=1(−1)n+1 zn
n=
= z − z2
2+ · · · = z + o(z) ' z (z ' 0) ;
quindi: log ψZn(t) = log[1 + ψ
(t√n
)− 1]n
=
= n log
[1 + ψ
(t√n
)− 1
]' n
[ψ
(t√n
)− 1
]=
= −t2
2+ n o
(1
n
)−→ −t
2
2;
allora:
limn→∞
ψZn(t) = elimn→∞ log ψZn (t) = e−t2
2 .
Osservazione. La variabile aleatoria Zn, cioe la media aritmetica diX1, X2, . . . , Xn standardizzata, coincide con la somma Sn = X1 + X2 +. . .+Xn standardizzata, ovvero
Zn =X1+X2+...+Xn
n−m
σ√n
= X1+X2+...+Xn−nmσ√n
= Sn−P(Sn)√V ar(Sn)
.
Pertanto, possiamo dire che la successione delle somme aleatorie standar-dizzate Sn−P(Sn)√
V ar(Sn)converge in distribuzione ad una variabile aleatoria con
distribuzione normale standard. In sintesi
P (Zn ≤ z) = P ( Sn−P(Sn)√V ar(Sn)
≤ z) −→n→∞
∫ z−∞
1√2πe−
12x2dx
ESEMPIO 10.5 (Processo Bernoulliano). Consideriamo una successione dieventi E1, E2, . . . , En, . . . indipendenti ed equiprobabili, con probabilitaP (En) = p. Sia Xi = |Ei|, i ∈ N . Si ha P(Xi) = p, σ2(Xi) = p(q − p).Per ogni n ∈ N poniamo
Sn = X1 +X2 + · · ·Xn = |E1|+ |E2|+ · · · |En| .
G.Sanfilippo
10.4 Convergenze 169
Si ha che Sn ∼ Bin(n, p) e quindi P(Sn) = np e σ2(Sn) = np(1− p). Peril teorema centrale del limite possiamo concludere
P
(Sn − np√np(1− p)
< x
)→n→∞
Φ0,1(x).
Quindi, per n grande, la distribuzione del numero aleatorio (delle frequenzeridotte)
Sn − np√np(1− p)
si puo approssimare con una normale standard.
ESERCIZIO 10.8. Da un’urna contenente 1 pallina bianca e 19 nere si effet-tuano 200 estrazioni con restituzione. Sia Ei l’evento ”la i− esima pallinaestratta e bianca”, i ∈ 1, 2, . . . , 200. Sia S200 il numero aleatorio di pal-line bianche estratte. Calcolare mediante un’opportuna approssimazioneP (5 ≤ S200 ≤ 15).
ESEMPIO 10.2. Sia X sinBin(n, p), con n = 40, p = 12
. Calcolare,mediante un’opportuna approssimazione, P (X = 20). Si ha
P (X = 20) = P (19.5 < X < 20.5) == P (−0.16 < Z < 0.16) ' 2Φ0,1(0.16)− 1 = 0.1272 .
Osserviamo che
P (X = 20) =
(40
20
)1
240= 0.1253 .
ESEMPIO 10.3. SianoX1, X2, . . . , Xn, . . . una successione di variabili alea-tori indipendenti e identicamente distribuiti con Xi ∼ U([0, 1]). CalcolareP (∑10
i=1Xi > 7) mediante un’opportuna approssimazione.Ricordiamo che P(Xi) = 1
2e V ar(Xi) = 1
12. Utilizzando il Teorema
centrale del limite si ha
P (∑10
i=1Xi > 7) = P
(∑10i=1 Xi−5√
1012
> 7−5√1012
)' 1− Φ0,1(2.19)
G.Sanfilippo
10.4 Convergenze 170
10.4.3. Convergenza in Probabilita.
DEFINIZIONE 10.2. Data una successione X1, X2, . . . , Xn, . . . di numerialeatori e un numero aleatorio X diremo che Xn tende in probabilita a X escriveremo
(100) XnP→ X
se fissati comunque due numeri positivi ε, θ e possibile determinare unintero nε,θ, tale che per ogni n > nε,θ risulti
(101) P (|Xn −X| ≥ ε) < θ
o, in altri termini, se
(102) ∀ε > 0 limn→∞
P (|Xn −X| ≥ ε) = 0
Nel caso di vettori aleatori con dimensioni k maggiori di 1 la disuguaglianza|Xn −X| vale componente per componente.Significato geometrico per k = 1. Dire che Xn
P→ X equivale a dire che laprobabilita della striscia |Xn−X| < ε qualunque sia l’ampiezza (2ε) tendea 1 o equivalentemente che la probabilita della parte di piano |Xn−X| ≥ εtende a 0.
10.4.4. Convergenza Quasi certa. Una successione di variabili alea-torie Xn(ω) rappresenta una successione di funzioni misurabili da (Ω,F)in (R,B1). Per tale successione un’usuale convergenza matematica e quellapuntuale, cioe
Xn(ω)→ X, ∀ω ∈ Ω
ovvero (se come distanza consideriamo quella euclidea)
∀ε > 0, ∃m : |Xn(ω)−X(ω)| < ε per n > m.
Una convergenza del genere pero e troppo forte per le variabili aleatorie,visto che siamo interessati allo studio delle probabilita. Pertanto la conver-genza sara sufficiente anche se non si realizza in alcuni punti, purche questiformino un insieme di misura trascurabile.
DEFINIZIONE 10.3 (Convergenza quasi certa.). Data una successione div.a. Xn e una v.a. X , diremo che Xn converge quasi certamente a X sel’evento Xn(ω)→ X(ω) e quasi certo, ovvero se
P (Xn → X) = P (ω ∈ Ω : Xn(ω)→ X(ω)) = 1
In tal caso si scrive Xnq.c.→ X , oppure che Xn tende a X con probabilita 1.
La convergenza q.c. di Xn ad una v.a. X significa prendere in considerazio-ne in una “prova” (ipotetica) i valori assunti dalle infinite v.a. Xn e vederese questi convergono al valore assunto dalla v.a. X: tale evento deve avereprobabilita 1.Caratterizzazione della convergenza quasi certa ,
G.Sanfilippo
10.4 Convergenze 171
TEOREMA 10.1. Xnq.c.→ X se e solo se
∀ε > 0, limn→∞
P (∞⋂r=n
|Xr −X| < ε) = 1
Pertanto una definizione alternativa di convergenza quasi certa potrebbeessere la seguente .
DEFINIZIONE 10.4. Data una successione di v.a. Xn e una v.a. X , di-remo che Xn converge quasi certamente a X se, fissati due numeri positiviε, θ, e possibile determinare un intero nε,θ, tale che per ogni n > nε,θ risulti
P( +∞⋃r=n
(|Xr −X| ≥ ε
))< θ.
Fissati, in altri termini, arbitrariamente ε e θ debbono risultare minori di θ,per n > nε,θ, non solo le probabilita, P
(|Xn−X| ≥ ε
), che ciascuno singo-
larmente degli scarti sia non inferiore a ε (come richiesto dalla convergenzain probabilita), ma anche le probabilita che anche uno solo su tutti gli scarti|Xn −X| da nε,θ in poi sia non inferiore a ε.Si dimostra il seguente
TEOREMA 10.2. Se Xnq.c.→ X allora Xn
P→ X .
Il viceversa non vale. Si possono costruire alcuni controesempi. In definiti-va la relazione che sussiste, solo in un verso, tra le verie convergenze, e laseguente.
Xnq.c.→ X ⇒ Xn
P→ X ⇒ XnL→ X
10.4.5. Applicazione - Legge dei grandi numeri. SiaX1, X2, . . . , Xn, . . .una successione di variabili aleatorie i.i.d, con P(Xn) = µ e var(Xn) = σ2
finite.Consideriamo la successione delle medie aritmetiche
Xn =n∑i=1
Xi/n.
Si ha P(Xn) = µ e var(Xn) = σ2/n. Pertanto la media aritmetica avra unadistribuzione centrata su µ che al tendere di n all’infinito avra una varianzainfinitesima var(Xn) = σ2/n→ 0, ovvero sempre piu concentrata su µ.Osserviamo che per trovare la distribuzione di Xn bisognerebbe fare n− 1convoluzioni.Proviamo che
XnP→ X ⇒
la successione Xn converge in probabilita al numero aleatorio X = µ.Per la disuguaglianza di Cebicev si ha
P (|Xn − µ| > ε) ≤ var(Xn)
ε2
G.Sanfilippo
10.4 Convergenze 172
ma var(Xn) = σ2/n→ 0 pertanto si ha
∀ε > 0 limn→∞
P (|Xn − µ| > ε) = 0.
Tale risultato prende il nome di Legge (debole) dei grandi numeri. Ad esem-pio e utile per stimare la vera misura di una lunghezza, dopo aver effettuatodiverse misure, si puo considerare come vera misura la media aritmetica.In particolare tale risultato prende anche il nome di Teorema di Bernoulli,in quanto nella sua prima forma fu dimostrato da Bernoulli.Sia X1, X2, . . . , Xn, . . . una successione di variabili aleatorie bernoullianei.i.d, con P(Xn) = p e var(Xn) = p(1− p) finite. Ovvero
Xn =
1, con P (Xn = 1) = p0, con P (Xn = 0) = 1− p = q
In tal caso la successione delle medie aritmetiche diviene la frequenza rela-tiva fn di successo su n prove e il teorema diviene
∀ε > 0 limn→∞
P (|fn − p| > ε) = 0.
Cioe la frequenza relativa di successo converge in probabilita alla probabi-lita p di successo.Un altro importante risultato dovuto a Bernoulli, indicando con Sn =
∑ni=1Xi
la frequenza assoluta, e il seguente
∀k > 0 limn→∞
P (|Sn − np| > k) = 1.
Cioe il numero di Sn − np tende in probabilita all’infinito. Possiamo per-tanto dire che, in riferimento al lancio di una moneta, se si fanno un nume-ro elevati di lanci la frequenze relativa di Testa sara, con probabilita alta,vicina a 1/2, ma la frequenza assoluta, cioe il numero di Testa, sara proba-bilmente lontano da n/2. Se ad ogni lancio si vince 1 se esce Testa e −1se esce Croce, allora dopo un numero elevato di lanci la vincita (positiva onegativa) sara lontana da zero.
10.4.6. Convergenza in Legge e convergenza in Probabilita.
TEOREMA 10.3. Se XnP→ X allora Xn
L→ X . Inoltre se X = a conprobabilita 1 vale il viceversa, cioe se Xn
L→ X allora XnP→ X
Il precedente teorema dimostra che la convergenza in probabilita e piu fortedella convergenza in legge, tranne per variabili degenere. In generale laconvergenza in legge non implica la convergenza in probabilita. Vediamoun controesempio.
ESEMPIO 10.4. SiaX1, X2, . . . , Xn, . . . una successione di variabili aleato-rie indipendenti e uniformemente distribuite in (0, 1) e sia X una variabile
G.Sanfilippo
10.4 Convergenze 173
aleatoria con distr. unif. sempre in (0, 1) Essendo tutte le variabili in gio-co con stessa distribuzione tutte avranno come funzione di ripartizione lafunzione Fn = F definita come
F (x) =
0, se x ≤ 0,x, se 0 ≤ x < 1,1, se x ≥ 1.
Quindi Xn converge in legge a X . Proviamo che non c’e convergenza inprobabilita. Osserviamo che la densita marginale f(xn, x) e
fn(xn, x) =
1, se (xn, x) ∈ Q1,0, altrimenti
avendo indicato con Q1 il quadrato unitario, Q1 = (x, y) : 0 ≤ x ≤ 1, 0 ≤y ≤ 1. Consideriamo l’evento |Xn −X| > ε si ha
P (|Xn −X| > ε) = (1− ε)2
cioe fissato ε la quantita P (|Xn−X| > ε) rimane costante al crescere di n,quindi
XnP9 X.
ESERCIZIO 10.1. Sia Xn ∼ U(0, 1/n), n ∈ N una successione di varia-bili aleatorie ( delta di Dirac), provare che Xn converge sia in legge che inprobabilita a X = 0
10.4.7. Convergenza in Media. Dato un numero reale r > 0, diciamoche Xn tende a X in media r − esima, e scriviamo
Xnm.r.→ X.
seP(|Xn −X|r)→ 0.
Per r = 2 si parla di convergenza in media quadratica. Inoltre tale con-vergenza, poiche prende in considerazione i valori medi, richiede che essisiano finiti.Ricordiamo che la disuguaglianza di Cebicev (Markov). Per r > 0, ε > 0,si ha
P (|X| > ε) ≤ P(|X|r)εr
,
pertanto possiamo dimostrare che
TEOREMA 10.4.Xn
m.r.→ X ⇒ XnP→ X,
infatti
∀ε, P (|Xn −X| > ε) ≤ P(|Xn −X|r)εr
→ 0
G.Sanfilippo
10.4 Convergenze 174
ESEMPIO 10.5. Nell’inferenza statistica classica (oltre alla correttezza) sidice che uno stimatore Yn e consistente se tende in probabilita alla grandez-za η da stimare.Se P(Yn) = η, cioe lo stimatore e corretto, si ha
P((Yn − η)2) = P((Yn − P(Yn))2) = var(Yn)
quindi se la var(Yn)→ 0 segue che
Ynm.q.→ η.
e per il Teorema 10.4 si haYn
P→ η
cioe lo stimatore e consistente.Pertanto la media campionaria Xn (per variabili con momenti di ordine 2finiti) e uno stimatore corretto e consistente della media.
G.Sanfilippo