Funzione Caratteristica, Normale multivariata, convergenze · 10.1 Funzione caratteristica 153...

CAPITOLO 10

Funzione Caratteristica, Normale multivariata,convergenze

152

10.1 Funzione caratteristica 153

10.1. Funzione caratteristica

La funzione caratteristica e uno strumento teorico utile sotto diversi aspettiper studiare la distribuzione di probabilita di numeri aleatori discreti e con-tinui.Dato un numero aleatorio X , discreto o continuo, sia

Y = eitX = cos(tX) + isen(tX),

dove i e l’unita immaginaria e t e un fissato valore reale, e indichiamo conφX(t) la previsione di Y , che risulta essere una funzione di t. La funzioneφX(t) si chiama funzione caratteristica di X .Nel caso discreto, posto P (X = xh) = ph, si ha

φX(t) =∑h

pheitxh ,

mentre nel caso continuo, indicando con f(x) la densita di X , si ha

φX(t) =

∫ +∞

−∞eitxf(x)dx

ovvero

φX(t) =

∫ +∞

−∞cos(tx)f(x)dx+ i

∫ +∞

−∞sin(tx)f(x)dx .

Alcune proprieta:(1) φX(0) = 1 , (

∑h ph = 1 ,

∫ +∞−∞ f(x)dx = 1);

(2) |φX(t)| ≤ φX(0) = 1 , ∀ t ; Consideriamo il caso in cui X e unnumero aleatorio continuo.

|φX(t)| =∣∣∣∣∫ +∞

−∞eitxf(x)dx

∣∣∣∣ ≤ ∫ +∞

−∞|eitxf(x)|dx

=

∫ +∞

−∞|eitx|︸︷︷︸

=√

cos2(tX)+sin2(tX)=1

f(x)dx =

∫ +∞

−∞f(x)dx = 1

(3) Se Y = aX + b, si ha

φY (t) = P(eitY ) = P(eit(aX+b)) =

eibtP(eiatX) = eibtφX(at);

(4) In particolare, se Y = −X , si ha:

φY (t) = φ−X(t) = P(e−itX) = φX(−t) = φX(t),

dove il numero complesso α + iβ = α − iβ, ovvero il coniugatodi α + iβ. Infatti

φX(t) = P(cos(tX) + i sin(tX)) =

P(cos(tX)) + iP(sin(tX)) =

P(cos(tX))− iP(sin(tX)) = φX(−t)

G.Sanfilippo


(5) Se φX(t) e una funzione reale, si ha

φX(−t) = φX(t).

Se φX(t) e una funzione reale, si ha φX(t) = φX(t). Alloraφ−X(t) = φX(−t) = φX(t) e quindi φX(t) e una funzione rea-le pari.

(6) Se X ha una densita simmetrica rispetto all’asse delle y, cioe

f(x) = f(−x), ∀x ∈ R,

allora X e −X hanno la stessa densita e pertanto si ha φ−X(t) =φX(t), ovvero φX(t) e reale.

Esempi.a) Dato un evento E di probabilita p, sia X = |E|. Si ha

φX(t) = φ|E|(t) = peit·1 + qeit·0 = peit + q .

b) Dati n eventi E1, . . . , En, indipendenti ed equiprobabili di probabilita p,consideriamo il n.a. X = |E1|+ · · ·+ |En|. Si ha X ∼ B(n, p); inoltre

φX(t) =n∑h=0

P (X = h)eith =n∑h=0

(n

h

)phqn−heith

· · · = (peit + q)n .

c) Sia dato un numero aleatorio X con distribuzione di Poisson di parame-tro λ. Indicando con pn = P (X = n), si ha

φX(t) =+∞∑n=0

pneitn =

+∞∑n=0

λn

n!e−λeitn = e−λ

+∞∑n=0

(λeit)n

n!

= e−λeλeit

= eλ(eit−1).

d) Sia dato un numero aleatorio X con distribuzione geometrica di para-metro p, ovvero ph = pqh−1 per h ∈ N. Ricordando che per un numerocomplesso |x| < 1 si ha (serie geometrica di ragione x)

∞∑h=1

xh−1 =1

1− x,

otteniamo

φX(t) =+∞∑h=1

pheith =

+∞∑h=1

pqh−1eith =

= peit+∞∑h=1

(qeit)h−1 =peit

1− qeit.

G.Sanfilippo


e) Se X ha una distribuzione normale standard, X ∼ N0,1, si ha

φX(t) =

∫ +∞

−∞eitx

1√2πe−

x2

2 dx .

Poiche X ha una densita simmetrica rispetto all’asse y, per la proprieta (6),si ha che φX(t) e una funzione reale, cioe

φX(t) =

∫ +∞

−∞cos(tx)

1√2πe−

x2

2 dx .

Consideriamo la derivata prima di φX(t) (come funzione in t). Si puodimostrare che

φ′X(t) = ddt

∫ +∞−∞ cos(tX) 1√

2πe−

x2

2 dx =∫ +∞−∞

d[cos(tX) 1√2πe−

x2

2 ]

dtdx =∫ +∞

−∞ −x sin(tx) 1√2πe−

x2

2 dx .

Risolviamo il precedente integrale (nella variabile x) mediante integrazioneper parti. Poniamo

h(x) = sin(tx)→ d(h(x))dx

= t cos(tx)

d(g(x))dx

= −x 1√2πe−

x2

2 → g(x) =∫x 1√

2π− e−x

2

2 dx =︸︷︷︸y=x2

2

∫− 1√

2πe−ydy = 1√

2πe−

x2

2

Si ha

φ′X(t) = −∫ +∞−∞ x sin(tx) 1√

2πe−

x2

2 dx =

= [sin(tx) 1√2πe−

x2

2 ]+∞−∞ − t∫ +∞−∞ cos(tx) 1√

2πe−

x2

2 dx =

= 0− tφX(t) = −tφX(t) .

Quindiφ′X(t)

φX(t)=

d

dtlog φX(t) = −t ,

da cui segue

log φX(t) = −t2

2+ c ,

ed essendo φX(0) = 1, risulta c = 0.

Quindi: φX(t) = e−t2

2 (funzione reale e pari).

f) Se X ha una distribuzione normale di parametri m,σ, il n.a. Y = X−mσ

ha una distribuzione normale standard e si ha φY (t) = e−t2

2 . Allora, osser-vando che X = σY + m, applicando la proprieta 3), con a = σ, b = m, si

G.Sanfilippo


ottieneφX(t) = eimt−

σ2t2

2 .

g) Se X ha una distribuzione esponenziale di parametro λ, si ha

φX(t) =

∫ +∞

0eitxλe−λxdx =

= λ

∫ +∞

0e−(λ−it)xdx =

λ

λ− it·

h) X ∼ Gc,λ. Si ha

φX(t) =∫ +∞

0eitx λc

Γ(c)xc−1e−λxdx =

=(

λλ−it

)c= [φY (t)]c , (Y ∼ G1,λ = Exp(λ)) .

Calcolo dei momenti.Per ogni fissato intero k = 1, 2, . . ., la previsione di Xk, che indichiamocon m(k), si chiama momento di ordine k di X .

TEOREMA 10.1. Se, per un intero positivo k e P(|X|k) < ∞, allora laderivata k − esima di φX(t) esiste per ogni t, e continua, e si ha

φ(k)X (t) =

∫ +∞

−∞(ix)keitxf(x)dx .

Cenno sulla dimostrazione. Ricordiamo che, dato un numero aleatoriocontinuo X , con densita f(x), si ha

φX(t) =

∫ +∞

−∞eitxf(x)dx .

Nelle ipotesi del Teorema 10.1 derivando rispetto alla variabile t, si ha

φ′X(t) =

∫ +∞

−∞ixeitxf(x)dx ,

φ′′X(t) =

∫ +∞

−∞(ix)2eitxf(x)dx ,

........................................

φ(k)X (t) =

∫ +∞

−∞(ix)keitxf(x)dx .

........................................

Allora, se esistono i vari momenti di X , si ha

φ′X(0) = i

∫ +∞

−∞xf(x)dx = im(1) ,

φ′′X(0) = i2∫ +∞

−∞x2f(x)dx = i2m(2) ,

........................................

φ(k)X (0) = ik

∫ +∞

−∞xkf(x)dx = ikm(k) .

G.Sanfilippo

10.2 Somma di numeri aleatori stocasticamente indipendenti 157

........................................

Pertanto, si ha m(k) =φ

(k)X (0)

ik. Un ragionamento analogo si puo fare se X e

un n.a. discreto. In molti casi, dovendo calcolare m(k), conviene sfruttaretale formula anziche applicare la definizione

m(k) =

∫ +∞

−∞xkf(x)dx ,

nel caso continuo, oppure

m(k) =∑n

pnxkn ,

nel caso discreto.

ESEMPIO 10.1. Sia X ∼ N0,1, si ha

P(Xr) = 0, r dispari

P(Xr) = P(X2k) =(2k)!

2kk!, r = 2k, k ∈ N.

ESERCIZIO 10.1. Sia X un numero aleatorio con distribuzione uniforme in[a, b], con a < b, verificare che

φX(t) =

eitb−eitait(b−a)

, t 6= 0

1, t = 0

Sia Y = cX + d, con c > 0, verificare che Y ha distribuzione uniforme in[ac+ d, bc+ d].

ESERCIZIO 10.2. Sia X un numero aleatorio con distribuzione uniforme in[0, 1], verificare che

limt→0

φ′X(t) =i

2.

( Sfruttare il fatto che limt→0 φX(t) = 1 ).

ESERCIZIO 10.3. Sia X un numero aleatorio con distribuzione esponen-ziale di parametro λ > 0 e sia Y = aX , con a > 0, verificare che Y hadistribuzione esponenziale di parametro λ/a.

10.2. Somma di numeri aleatori stocasticamente indipendenti

La proprieta piu importante delle funzioni caratteristiche e la seguente:dati n numeri aleatori X1, . . . , Xn stocasticamente indipendenti e postoY = X1 + · · ·+Xn, si ha

φY (t) = φX1(t) · φX2(t) · · · · φXn(t) .

G.Sanfilippo


Consideriamo il caso n = 2. Si ha

φX1+X2(t) = P(eit(X1+X2)) = P(eitX1eitX2) =

P(eitX1)P(eitX2)︸︷︷︸X1⊥X2

= φX1(t)φX2(t).

Ad esempio, dati n eventi E1, . . . , En, indipendenti ed equiprobabili diprobabilita p, e posto

X1 = |E1| , . . . , Xn = |En| ,

si haφX1(t) = · · · = φXn(t) = peit + q .

Quindi

φX1+···+Xn(t) = φX1(t) · · · · · φXn(t) = (peit + q)n .

Ritroviamo in questo modo la funzione caratteristica del numero aleatorio|E1|+ · · ·+ |En|, che ha distribuzione binomiale di parametri n, p.

Altri due aspetti teorici importanti relativi alle funzioni caratteristiche sono:1. La corrispondenza tra funzioni caratteristiche e distribuzioni di probabi-lita e biunivoca; quindi la funzione caratteristica φX(t) determina univoca-mente la distribuzione di probabilita di X .

ESEMPIO 10.2. Ricordando che ad una distribuzione normale di parame-tri m,σ corrisponde la funzione caratteristica eimt−

σ2t2

2 e quindi, se X ∼N(x), si ha φX(t) = e−

t2

2 . Allora, se Y = 2X + 3, si ha

φY (t) = · · · = e3it−2t2 ,

e quindi Y ∼ N3,2.Altro esempio: se X ∼ Nm1,σ1 e Y ∼ Nm2,σ2 , con X, Y stocasticamenteindipendenti, si ha

φX(t) = eim1t−σ2

1t2

2 , φY (t) = eim2t−σ2

2t2

2 .

Inoltre, per il n.a. Z = aX + bY si ha

φZ(t) = · · · = eim3t−σ2

3t2

2 ,

con

m3 = am1 + bm2 , σ3 =√a2σ2

1 + b2σ22 .

Pertanto Z ∼ Nm3,σ3 . Si noti che, volendo evitare l’uso della funzionecaratteristica, il calcolo della distribuzione di Z richiederebbe un ragiona-mento pro- babilistico molto piu complicato.

G.Sanfilippo


ESEMPIO 10.3. Siano X1 ∼ P(λ1) e X2 ∼ P(λ2) si ha

φX1+2(t) = φX1(t)φX2(t) = eλ1(eit−1)eλ2(eit−1) =

e(λ1+λ2)(eit−1).

Pertanto X1 +X2 ∼ P(λ1 + λ2)

ESEMPIO 10.4. La funzione caratteristica di un n.a. X con distribuzioneGα,λ, cioe con densita,

Gα,λ(x) =λα

Γ(α)xα−1eλx, x > 0.

e data da

φX(t) =

(λ

λ− it

)α.

Pertanto dati 2 numeri aleatori X1, X2, rispettivamente, con distribuzioneGα1,λ e Gα2,λ, si ha X1 +X2 ∼ Gα1+α2,λ.

ESERCIZIO 10.4. La funzione caratteristica di un numero aleatorio discretoX e φX(t) =

∑5k=1

eikt

5. Calcolare la previsione di X .

P(X) =

Soluzione.Si ha

φ′X(t) =5∑

k=1

ikeikt

5,

da cui segue

φ′X(o) =5∑

k=1

ik

5=i(1 + 2 + 3 + 4 + 5)

5= 3i = iP(X) .

Pertanto: P(X) = 3 .

ESERCIZIO 10.5. La funzione caratteristica di un numero aleatorioX e datada φX(t) = e2it− t

2

2 . Posto Y = X−2, calcolare la probabilita p dell’evento(|Y | ≤ 2).Risp.: p =

Soluzione.φX(t) = e2it− t

2

2 e la funzione caratteristica di una distribuzione normale diparametri m = 2, σ = 1. Pertanto Y = X−2 ha una distribuzione normalestandard. Allora:

p = P (|Y | ≤ 2) = 2Φ(2)− 1 ' 0.9545 .

ESERCIZIO 10.6. Le funzioni caratteristiche di due numeri aleatori X, Yindipendenti sono rispettivamente φX(t) = e2(eit−1) e φY (t) = e3(eit−1).

G.Sanfilippo


Posto Z = X + Y , calcolare la previsione m di Z.Risp.: m = Si ha:

φZ(t) = φX(t)φY (t) = e2(eit−1)e3(eit−1) = e5(eit−1),

da cui ricordando che φ′Z(0) = imZ e osservando che

φ′Z(t) = e5(eit−1)5eiti, φ′Z(0) = 5i,

segue: mZ = 5. In effetti, e5(eit−1) e la funzione caratteristica di unadistribuzione di Poisson di parametro λ = 5.

G.Sanfilippo

10.3 Distribuzione normale multidimensionale - versione provvisoria 161

10.3. Distribuzione normale multidimensionale - versione provvisoria

Un vettore aleatorio continuo (X, Y ) ha una distribuzione normale bidi-mensionale (o doppia) se ha la seguente densita di probabilita

f(x, y) = 1

2πσ1σ2

√1−ρ2· e− 1

2(1−ρ2)

[(x−µ1σ1

)2−2ρ

(x−µ1σ1

)(y−µ2σ2

)+(y−µ2σ2

)2],

per ogni (x, y) ∈ R2, dove µ1, µ2, σ1, σ2, ρ, sono valori reali con σ1 >0, σ2 > 0, |ρ| < 1.http://www.unipa.it/sanfilippo/pub/sigad/approfondimenti/Tale distribuzione gode delle seguenti proprieta:

• f1(x) = Nµ1,σ1(x) , f2(y) = Nµ2,σ2(y) , pertanto le previsioni egli scarti quadratici medi di X e Y sono rispettivamente µ1, µ2 eσ1, σ2;• f1(x|y) = Nµ∗1,σ

∗1(x) , con

µ∗1 = µ1 + ρσ1

σ2

(y − µ2) , σ∗1 = σ1

√1− ρ2 ;

• f2(y|x) = Nµ∗2,σ∗2(y) , con

µ∗2 = µ2 + ρσ2

σ1

(x− µ1) , σ∗2 = σ2

√1− ρ2 ;

• P(XY ) =∫ +∞−∞

∫ +∞−∞ xyf(x, y)dxdy = · · · = µ1µ2 + ρσ1σ2 ,

pertanto ρ rappresenta il coefficiente di correlazione di X e Y ;• se ρ = 0 risulta f(x, y) = f1(x)f2(y), pertanto se X e Y sono

incorrelati, segue che sono indipendenti;• infine, se i parametri µ1, µ2, σ1, σ2 sono fissati, al variare di ρ si ot-

tengono infinite distribuzioni normali bidimensionali con le stes-se marginali Nµ1,σ1(x), Nµ2,σ2(y); il che significa che date le di-stribuzioni marginali non e possibile determinare la distribuzionecongiunta.

10.3.1. Distribuzioni marginali. Si ha X ∼ Nµ1,σ1 e Y ∼ Nµ2,σ2 .

Dimostriamo che X ∼ Nµ1,σ1 . Con la trasformazione lineare u =(x−µ1

σ1

)e v =

(y−µ2

σ2

), si ha dy = σ2dv e limy→±∞ v = ±∞. Pertanto si ha,

f1(x) =

∫Rf(x, y)dy =

σ22πσ1σ2

√1− ρ2

∫Re− 1

2(1−ρ2)[u2−2ρuv+v2]

dv.

Osservando che

u2 − 2ρuv + v2 = u2 − ρ2u2 + (v − ρu)2 = u2(1− ρ2) + (v − ρu)2

G.Sanfilippo


f1(x) si puo scrivere come segue

f1(x) =1

2πσ1

√1− ρ2

∫Re− 1

2(1−ρ2)[u2(1−ρ2)+(v−ρu)2]

dv.

=e−

12

[u2]

√2πσ1

∫R

1√

2π√

1− ρ2e− 1

2

(v−ρu√1−ρ2

)2

dv︸︷︷︸=1

.

=1√

2πσ1

e− 1

2

(x−µ1σ1

)2

.

Pertanto X ∼ Nµ1,σ1 . Procedendo in maniera analoga, ma scambiando xcon y, si ricava che

f2(y) =

∫Rf(x, y)dy =

1√2πσ2

e− 1

2

(y−µ2σ2

)2

ovvero Y ∼ Nµ2,σ2 . Quindi si ha che

µ1 = P(X), µ2 = P(Y ), σ21 = var(X), σ2

2 = var(Y ).

10.3.2. Distribuzioni marginali condizionate. Calcoliamo la densitadi probabilita di Y dato X = x.

f2(y|x) =f(x, y)

f1(x)=

1

2πσ1σ2

√1−ρ2· e− 1

2(1−ρ2)

(x−µ1σ1

)2−(x−µ1σ1

)2ρ2+

[(y−µ2σ2

)−(x−µ1σ1

)ρ]2

1√2πσ1

e− 1

2

(x−µ1σ1

)2 =

=

1√2πσ2

√1−ρ2· e− 1

2(1−ρ2)

(x−µ1σ1

)2(1−ρ2)+

[(y−µ2σ2

)−(x−µ1σ1

)ρ]2

e− 1

2

(x−µ1σ1

)2 =

=1

√2πσ2

√1− ρ2

e− 1

2(1−ρ2)

[(y−µ2σ2

)−(x−µ1σ1

)ρ]2

=

=1

√2πσ2

√1− ρ2

e− 1

2

[y−µ2−ρ

σ2σ1

(x−µ1)

σ2(1−ρ2)

]2.

Se poniamo µ∗2 = µ2 + ρσ2

σ1(x− µ1) e σ∗2 = σ2

√(1− ρ2) si ha

f2(y|x) =1√

2πσ∗2e− 1

2

[y−µ∗2σ∗2

]2

, ∀y ∈ R.

Pertanto, per ogni fissato x ∈ R, si ha f2(y|x) = Nµ∗2,σ∗2(y) , con

µ∗2 = µ2 + ρσ2

σ1

(x− µ1) , σ∗2 = σ2

√1− ρ2.

G.Sanfilippo


In maniera analoga si dimostra che, per ogni fissato x ∈ R, si ha f1(x|y) =Nµ∗1,σ

∗1(x) , con

µ∗1 = µ1 + ρσ1

σ2

(y − µ2) , σ∗1 = σ1

√1− ρ2.

Concludendo si ha

µ∗1 = P(Y |x) = µy(x), µ∗2 = P(X|y) = µx(y)

cioe µ∗1 = µy(x) e proprio la funzione di regressione di X su Y e µ∗2 =µx(y) e proprio la funzione di regressione di Y su X .Poiche la curva di regressione di Y su X e una retta essa coincide con laretta di regressione. Pertanto ρ coincide con il coefficiente di correlazionelineare di X e Y (per la dimostrazione analitica vedi dall’Aglio pag 144).In particolare, osserviamo che se ρ = 0 si ha

f2(y|x) ≡ f2(y), f1(y|x) ≡ f1(y).

Quindi, dato un vettore aleatorio (X, Y ) con distribuzione normale bidi-mensionale si ha

X, Y stocasticamente indipendenti ⇔ X, Y sono incorrelati

10.3.3. Matrice delle varianze e covarianze. Osserviamo che la ma-trice delle varianze-covarianze del vettore (X, Y ) e data da

Σ2 =

(σ11 σ12

σ21 σ22

)=

(σ2

1 ρσ1σ2

ρσ1σ2 σ22

),

e si hadetΣ2 = |Σ2| = · · · = σ2

1σ22(1− ρ2) ,

Σ−12 =

1

detΣ2

(σ2

2 −ρσ1σ2

−ρσ1σ2 σ21

).

Allora, com’e possibile verificare, la densita congiunta si puo rappresentarenella forma matriciale seguente

f(x, y) =1

2π√|Σ2|

e−12A(x−µ1,y−µ2) ,

dove

A(x− µ1, y − µ2) = (x− µ1, y − µ2) · Σ−12 ·

(x− µ1

y − µ2

).

In generale, dato un vettore aleatorio continuoX = (X1, . . . , Xn), sia Σn lamatrice delle varianze-covarianze di X . Si dice che X ha una distribuzionenormale n−dimensionale se la densita congiunta e data da

f(x1, . . . , xn) =1

(2π)n2

√detΣn

e−12A(x1−µ1,...,xn−µn) ,

G.Sanfilippo


doveA(x1 − µ1, . . . , xn − µn) =

= (x1 − µ1, . . . , xn − µn) · Σ−1n ·

x1 − µ1

· · ·xn − µn

.

In forma matriciale e vettoriale si ha

f(x1, . . . , xn) =|Σn|−

12

(2π)n2

e−12

(x−µ)·Σ−1n ·(x−µ)t ,

dovex = (x1, x2 . . . , xn), µ = (µ1, µ2 . . . , µn).

La distribuzione normale n−dimensionale gode di proprieta simili a quellabidimensionale; in particolare

Xi ∼ Nµi,σi , i = 1, . . . , n .

Inoltre, se per ogni i 6= j si ha σij = 0, la matrice delle varianze-covarianzediventa diagonale e la densita congiunta coincide con il prodotto delle den-sita marginali, ovvero i numeri aleatori X1, . . . , Xn sono stocasticamenteindipendenti.Costruzione di una variabile aleatoria normale multidimensionale.*Dati n numeri aleatori X1, X2, . . . , Xn indipendenti e identicamente distri-buiti con distribuzione normale standard (Xi ∼ N0,1) siaX = (X1, X2, . . . , Xn)il vettore aleatorio congiunto. Ovviamente la densita di X e data da

fX(x1, . . . , xn) =1

(2π)n2

e−12x·xt .

In tal caso X ha una distribuzione normale multidimensionale con matricedelle varianze e covarianze la matrice Identita n× n .

Consideriamo una trasformazione lineare di X . Sian×1︷︸︸︷Y =

n×n︷︸︸︷A ·

n×1︷︸︸︷X +

n×1︷︸︸︷µ

con A una matrice n × n con |A| 6= 0 e µ un vettore (colonna?). Si ha chele componenti di Y sono

Y1 = a11X1 + a12X2 + . . .+ a1nXn + µ1;...Yi = ai1X1 + ai2X2 + . . .+ ainXn + µi;...Yn = an1X1 + an2X2 + . . .+ annXn + µn.

Inoltre, essendo A invertibile, si ha

X = (Y − µ)A−1.

G.Sanfilippo


PoicheCov(Yi, Yj) = Cov(ai1X1 + ai2X2 + . . .+ ainXn, aj1X1 + aj2X2 + . . .+ ajnXn) =

=∑n

h=1

∑nk=1 aihajkcov(Xh, Xk) =

= ai1aj1 + ai2aj2 + . . .+ ainajn == ai · ajt

si ha che la matrice varianze-covarianze di Y e

ΣY = A · At.Si dimostra che Y ha una distribuzione normale multivariata con densita

f(y1, . . . , yn) =|ΣY |−

12

(2π)n2

e−12

(y−µ)·Σ−1Y ·(y−µ)t)t.

ESERCIZIO 10.7. Dati 2 numeri aleatori X1, X2 indipendenti e identica-mente distribuiti con distribuzione normale standard e definiti

Y1 = X1 +X2 + 1; Y2 = X1 −X2 − 1

determinare la densita Y1 e la densita di Y2.Poiche X1, X2 sono stocasticamente indipendenti si ha

ΣX =

(1 00 1

)Inoltre sappiamo che (Y1, Y2) ha una distribuzione normale bidimensionale.Determiniamone la densita. Poiche

A =

(1 11 −1

)e |A| = −2 segue che la matrice varianze-covarianze di Y e

ΣY = A · At =

(2 00 2

)Quindi, Y1, Y2 sono stocasticamente indipendenti con distribuzione, rispet-tivamente, Y1 ∼ N1,

√2 e Y2 ∼ N−1,

√2.

G.Sanfilippo

10.4 Convergenze 166

10.4. Convergenze

10.4.1. Convergenza in legge o in distribuzione.

DEFINIZIONE 10.1 (Convergenza in legge o in distribuzione). Una succes-sione di distribuzioni con funzioni di ripartizione F1(x), F2(x), . . . convergead una distribuzione se esiste una funzione di ripartizione, F (x), tale che

limn→∞

Fn(x) = F (x), in ogni punto di continuita di F (x)

Se indichiamo con X1, X2, . . . la successione dei numeri aleatori con fun-zione di ripartizione F1(x), F2(x), . . . e con X un numero aleatorio confunzione di ripartizione F (X), se Fn converge in distribuzione a F scrive-remo

XnL→ X, (Xn

d→ X)

e diremo che Xn converge in legge (o debolmente) a X .

Tale tipo di convergenza si suole dire convergenza debole. Notare che vienerichiesta la convergenza delle funzioni distribuzioni soltanto nei punti dicontinuita per F .

ESEMPIO 10.1. Consideriamo una successione di numeri aleatoriX1, X2, . . . , Xn, . . .con funzione di ripartizione del generico Xn definita da

Fn(x) =

0 x < (−1)n

n,

1 x ≥ (−1)n

n.

Sia X un numero aleatorio con funzione di ripartizione data da

F (x) =

0 x < 0,

1 x ≥ 0.

Verificare se XnL→ X . Distinguiamo tre casi.

(1) Sia x < 0. Si ha F (x) = 0. Poiche limn→∞(−1)n

n= 0 esiste un nx tale

che

x <(−1)n

n, ∀n > nx .

Allora si ha Fn(x) = 0 = F (x) per n > nx, cioe Fn(x)→ F (x).(2) Sia x > 0. Poiche limn→∞

(−1)n

n= 0 esiste un nx tale che

x >(−1)n

n, ∀n > nx .

Allora si ha Fn(x) = 1 = F (x) per n > nx, cioe Fn(x)→ F (x).(3) Sia x = 0. In tal caso F2k(0) = 0, F2k+1(0) = 1 pertanto Fn(0) non halimite. Osserviamo che pero il punto x = 0 non e di continuita per F (x).Quindi Fn(x)→ F (x) in ogni punto di continuita per F (X), cioeXn

L→ X .

G.Sanfilippo


TEOREMA 10.2. Indicando con ψ la funzione caratteristica corrispondentead F , la successione F1, . . . , Fn, . . . converge in distribuzione ad F se e solose la corrispondente successione di funzioni caratteristiche ψ1, . . . , ψn, . . .converge a ψ. In breve

Fn(x)→ F (x)⇐⇒ ψn(t)→ ψ(t)

Tale risultato teorico permette di dimostrare il Teorema centrale del limite.

10.4.2. Teorema centrale del limite. Data una successione di numerialeatoriX1, . . . , Xn, . . ., indipendenti ed ugualmente distribuiti, con P(Xi) =m, Var(Xi) = σ2, si consideri la successione delle medie aritmetiche

Y1 = X1 , Y2 =X1 +X2

2, Yn =

X1 + · · ·+Xn

n, . . . ,

e quella delle medie aritmetiche ridotte Z1, . . . , Zn. Ovviamente P(Yn) =

m, Var(Yn) = σ2

ne quindi Zn = Yn−m

σ/√n

. Indicando con Fi la funzione diripartizione di Zi, la successione F1, . . . , Fn, . . . converge alla funzione diripartizione (di una distribuzione normale standard) Φ0,1, ovvero si ha

limn→+∞

Fn(z) = limn→+∞

P (Zn ≤ z) = Φ(z) , ∀ z ∈ R .

Il risultato precedente si ottiene dimostrando che la successioneψ1, . . . , ψn, . . .(di funzioni caratteristiche dei numeri aleatoriZ1, . . . , Zn, . . .) converge allafunzione caratteristica (della distribuzione normale standard) ψ(t) = e−

t2

2 .

TEOREMA 10.3 (Teorema centrale del limite). Data una successione di n.a. X1, . . . , Xn, . . ., indipendenti ed ugualmente distribuiti, con P(Xi) = m,Var(Xi) = σ2 < +∞, e posto

Y1 = X1 , Y2 = X1+X2

2, . . . , Yn = X1+···+Xn

n, . . . ,

Z1 = Y1−mσ

, Z2 = Y2−mσ/√

2, . . . , Zn = Yn−m

σ/√n, . . . ,

si halim

n→+∞P (Zn ≤ z) = Φ(z) =

∫ z

−∞N(t)dt , ∀ z ∈ R ;

ovvero, la successione Z1, . . . , Zn, . . . converge in legge ad un n. a. Z condistribuzione normale standard.

DIMOSTRAZIONE. Dim.: si ha

Zn =Yn −mσ/√n

=1√n

n∑h=1

(Xh −m

σ

)=

n∑h=1

Uh√n,

con P(Un) = 0 , V ar(Un) = 1 , ∀n.

I n. a. standardizzati U1, . . . , Un, . . . sono indipendenti ed ugualmentedistribuiti; indicando con ψ(t) la loro funzione caratteristica, si ha

ψ(t) = ψ(0) + ψ′(0) t+ψ′′(0)

2!t2 + · · · = 1− t2

2+ · · · ;

G.Sanfilippo


inoltre: ψ Uh√n

(t) = P(eitUh√n

)= ψ

(t√n

)=

= 1− t2

2n+ · · · = 1− t2

2n+ o

(1

n

),

ψZn(t) = ψ∑hUh√n

(t) = Πnh=1ψ Uh√

n

(t) =

=

[ψ

(t√n

)]n=

[1 + ψ

(t√n

)− 1

]n;

ricordiamo che: log(1 + z) =∑∞

n=1(−1)n+1 zn

n=

= z − z2

2+ · · · = z + o(z) ' z (z ' 0) ;

quindi: log ψZn(t) = log[1 + ψ

(t√n

)− 1]n

=

= n log

[1 + ψ

(t√n

)− 1

]' n

[ψ

(t√n

)− 1

]=

= −t2

2+ n o

(1

n

)−→ −t

2

2;

allora:

limn→∞

ψZn(t) = elimn→∞ log ψZn (t) = e−t2

2 .

Osservazione. La variabile aleatoria Zn, cioe la media aritmetica diX1, X2, . . . , Xn standardizzata, coincide con la somma Sn = X1 + X2 +. . .+Xn standardizzata, ovvero

Zn =X1+X2+...+Xn

n−m

σ√n

= X1+X2+...+Xn−nmσ√n

= Sn−P(Sn)√V ar(Sn)

.

Pertanto, possiamo dire che la successione delle somme aleatorie standar-dizzate Sn−P(Sn)√

V ar(Sn)converge in distribuzione ad una variabile aleatoria con

distribuzione normale standard. In sintesi

P (Zn ≤ z) = P ( Sn−P(Sn)√V ar(Sn)

≤ z) −→n→∞

∫ z−∞

1√2πe−

12x2dx

ESEMPIO 10.5 (Processo Bernoulliano). Consideriamo una successione dieventi E1, E2, . . . , En, . . . indipendenti ed equiprobabili, con probabilitaP (En) = p. Sia Xi = |Ei|, i ∈ N . Si ha P(Xi) = p, σ2(Xi) = p(q − p).Per ogni n ∈ N poniamo

Sn = X1 +X2 + · · ·Xn = |E1|+ |E2|+ · · · |En| .

G.Sanfilippo


Si ha che Sn ∼ Bin(n, p) e quindi P(Sn) = np e σ2(Sn) = np(1− p). Peril teorema centrale del limite possiamo concludere

P

(Sn − np√np(1− p)

< x

)→n→∞

Φ0,1(x).

Quindi, per n grande, la distribuzione del numero aleatorio (delle frequenzeridotte)

Sn − np√np(1− p)

si puo approssimare con una normale standard.

ESERCIZIO 10.8. Da un’urna contenente 1 pallina bianca e 19 nere si effet-tuano 200 estrazioni con restituzione. Sia Ei l’evento ”la i− esima pallinaestratta e bianca”, i ∈ 1, 2, . . . , 200. Sia S200 il numero aleatorio di pal-line bianche estratte. Calcolare mediante un’opportuna approssimazioneP (5 ≤ S200 ≤ 15).

ESEMPIO 10.2. Sia X sinBin(n, p), con n = 40, p = 12

. Calcolare,mediante un’opportuna approssimazione, P (X = 20). Si ha

P (X = 20) = P (19.5 < X < 20.5) == P (−0.16 < Z < 0.16) ' 2Φ0,1(0.16)− 1 = 0.1272 .

Osserviamo che

P (X = 20) =

(40

20

)1

240= 0.1253 .

ESEMPIO 10.3. SianoX1, X2, . . . , Xn, . . . una successione di variabili alea-tori indipendenti e identicamente distribuiti con Xi ∼ U([0, 1]). CalcolareP (∑10

i=1Xi > 7) mediante un’opportuna approssimazione.Ricordiamo che P(Xi) = 1

2e V ar(Xi) = 1

12. Utilizzando il Teorema

centrale del limite si ha

P (∑10

i=1Xi > 7) = P

(∑10i=1 Xi−5√

1012

> 7−5√1012

)' 1− Φ0,1(2.19)

G.Sanfilippo


10.4.3. Convergenza in Probabilita.

DEFINIZIONE 10.2. Data una successione X1, X2, . . . , Xn, . . . di numerialeatori e un numero aleatorio X diremo che Xn tende in probabilita a X escriveremo

(100) XnP→ X

se fissati comunque due numeri positivi ε, θ e possibile determinare unintero nε,θ, tale che per ogni n > nε,θ risulti

(101) P (|Xn −X| ≥ ε) < θ

o, in altri termini, se

(102) ∀ε > 0 limn→∞

P (|Xn −X| ≥ ε) = 0

Nel caso di vettori aleatori con dimensioni k maggiori di 1 la disuguaglianza|Xn −X| vale componente per componente.Significato geometrico per k = 1. Dire che Xn

P→ X equivale a dire che laprobabilita della striscia |Xn−X| < ε qualunque sia l’ampiezza (2ε) tendea 1 o equivalentemente che la probabilita della parte di piano |Xn−X| ≥ εtende a 0.

10.4.4. Convergenza Quasi certa. Una successione di variabili alea-torie Xn(ω) rappresenta una successione di funzioni misurabili da (Ω,F)in (R,B1). Per tale successione un’usuale convergenza matematica e quellapuntuale, cioe

Xn(ω)→ X, ∀ω ∈ Ω

ovvero (se come distanza consideriamo quella euclidea)

∀ε > 0, ∃m : |Xn(ω)−X(ω)| < ε per n > m.

Una convergenza del genere pero e troppo forte per le variabili aleatorie,visto che siamo interessati allo studio delle probabilita. Pertanto la conver-genza sara sufficiente anche se non si realizza in alcuni punti, purche questiformino un insieme di misura trascurabile.

DEFINIZIONE 10.3 (Convergenza quasi certa.). Data una successione div.a. Xn e una v.a. X , diremo che Xn converge quasi certamente a X sel’evento Xn(ω)→ X(ω) e quasi certo, ovvero se

P (Xn → X) = P (ω ∈ Ω : Xn(ω)→ X(ω)) = 1

In tal caso si scrive Xnq.c.→ X , oppure che Xn tende a X con probabilita 1.

La convergenza q.c. di Xn ad una v.a. X significa prendere in considerazio-ne in una “prova” (ipotetica) i valori assunti dalle infinite v.a. Xn e vederese questi convergono al valore assunto dalla v.a. X: tale evento deve avereprobabilita 1.Caratterizzazione della convergenza quasi certa ,

G.Sanfilippo


TEOREMA 10.1. Xnq.c.→ X se e solo se

∀ε > 0, limn→∞

P (∞⋂r=n

|Xr −X| < ε) = 1

Pertanto una definizione alternativa di convergenza quasi certa potrebbeessere la seguente .

DEFINIZIONE 10.4. Data una successione di v.a. Xn e una v.a. X , di-remo che Xn converge quasi certamente a X se, fissati due numeri positiviε, θ, e possibile determinare un intero nε,θ, tale che per ogni n > nε,θ risulti

P( +∞⋃r=n

(|Xr −X| ≥ ε

))< θ.

Fissati, in altri termini, arbitrariamente ε e θ debbono risultare minori di θ,per n > nε,θ, non solo le probabilita, P

(|Xn−X| ≥ ε

), che ciascuno singo-

larmente degli scarti sia non inferiore a ε (come richiesto dalla convergenzain probabilita), ma anche le probabilita che anche uno solo su tutti gli scarti|Xn −X| da nε,θ in poi sia non inferiore a ε.Si dimostra il seguente

TEOREMA 10.2. Se Xnq.c.→ X allora Xn

P→ X .

Il viceversa non vale. Si possono costruire alcuni controesempi. In definiti-va la relazione che sussiste, solo in un verso, tra le verie convergenze, e laseguente.

Xnq.c.→ X ⇒ Xn

P→ X ⇒ XnL→ X

10.4.5. Applicazione - Legge dei grandi numeri. SiaX1, X2, . . . , Xn, . . .una successione di variabili aleatorie i.i.d, con P(Xn) = µ e var(Xn) = σ2

finite.Consideriamo la successione delle medie aritmetiche

Xn =n∑i=1

Xi/n.

Si ha P(Xn) = µ e var(Xn) = σ2/n. Pertanto la media aritmetica avra unadistribuzione centrata su µ che al tendere di n all’infinito avra una varianzainfinitesima var(Xn) = σ2/n→ 0, ovvero sempre piu concentrata su µ.Osserviamo che per trovare la distribuzione di Xn bisognerebbe fare n− 1convoluzioni.Proviamo che

XnP→ X ⇒

la successione Xn converge in probabilita al numero aleatorio X = µ.Per la disuguaglianza di Cebicev si ha

P (|Xn − µ| > ε) ≤ var(Xn)

ε2

G.Sanfilippo


ma var(Xn) = σ2/n→ 0 pertanto si ha

∀ε > 0 limn→∞

P (|Xn − µ| > ε) = 0.

Tale risultato prende il nome di Legge (debole) dei grandi numeri. Ad esem-pio e utile per stimare la vera misura di una lunghezza, dopo aver effettuatodiverse misure, si puo considerare come vera misura la media aritmetica.In particolare tale risultato prende anche il nome di Teorema di Bernoulli,in quanto nella sua prima forma fu dimostrato da Bernoulli.Sia X1, X2, . . . , Xn, . . . una successione di variabili aleatorie bernoullianei.i.d, con P(Xn) = p e var(Xn) = p(1− p) finite. Ovvero

Xn =

1, con P (Xn = 1) = p0, con P (Xn = 0) = 1− p = q

In tal caso la successione delle medie aritmetiche diviene la frequenza rela-tiva fn di successo su n prove e il teorema diviene

∀ε > 0 limn→∞

P (|fn − p| > ε) = 0.

Cioe la frequenza relativa di successo converge in probabilita alla probabi-lita p di successo.Un altro importante risultato dovuto a Bernoulli, indicando con Sn =

∑ni=1Xi

la frequenza assoluta, e il seguente

∀k > 0 limn→∞

P (|Sn − np| > k) = 1.

Cioe il numero di Sn − np tende in probabilita all’infinito. Possiamo per-tanto dire che, in riferimento al lancio di una moneta, se si fanno un nume-ro elevati di lanci la frequenze relativa di Testa sara, con probabilita alta,vicina a 1/2, ma la frequenza assoluta, cioe il numero di Testa, sara proba-bilmente lontano da n/2. Se ad ogni lancio si vince 1 se esce Testa e −1se esce Croce, allora dopo un numero elevato di lanci la vincita (positiva onegativa) sara lontana da zero.

10.4.6. Convergenza in Legge e convergenza in Probabilita.

TEOREMA 10.3. Se XnP→ X allora Xn

L→ X . Inoltre se X = a conprobabilita 1 vale il viceversa, cioe se Xn

L→ X allora XnP→ X

Il precedente teorema dimostra che la convergenza in probabilita e piu fortedella convergenza in legge, tranne per variabili degenere. In generale laconvergenza in legge non implica la convergenza in probabilita. Vediamoun controesempio.

ESEMPIO 10.4. SiaX1, X2, . . . , Xn, . . . una successione di variabili aleato-rie indipendenti e uniformemente distribuite in (0, 1) e sia X una variabile

G.Sanfilippo


aleatoria con distr. unif. sempre in (0, 1) Essendo tutte le variabili in gio-co con stessa distribuzione tutte avranno come funzione di ripartizione lafunzione Fn = F definita come

F (x) =

0, se x ≤ 0,x, se 0 ≤ x < 1,1, se x ≥ 1.

Quindi Xn converge in legge a X . Proviamo che non c’e convergenza inprobabilita. Osserviamo che la densita marginale f(xn, x) e

fn(xn, x) =

1, se (xn, x) ∈ Q1,0, altrimenti

avendo indicato con Q1 il quadrato unitario, Q1 = (x, y) : 0 ≤ x ≤ 1, 0 ≤y ≤ 1. Consideriamo l’evento |Xn −X| > ε si ha

P (|Xn −X| > ε) = (1− ε)2

cioe fissato ε la quantita P (|Xn−X| > ε) rimane costante al crescere di n,quindi

XnP9 X.

ESERCIZIO 10.1. Sia Xn ∼ U(0, 1/n), n ∈ N una successione di varia-bili aleatorie ( delta di Dirac), provare che Xn converge sia in legge che inprobabilita a X = 0

10.4.7. Convergenza in Media. Dato un numero reale r > 0, diciamoche Xn tende a X in media r − esima, e scriviamo

Xnm.r.→ X.

seP(|Xn −X|r)→ 0.

Per r = 2 si parla di convergenza in media quadratica. Inoltre tale con-vergenza, poiche prende in considerazione i valori medi, richiede che essisiano finiti.Ricordiamo che la disuguaglianza di Cebicev (Markov). Per r > 0, ε > 0,si ha

P (|X| > ε) ≤ P(|X|r)εr

,

pertanto possiamo dimostrare che

TEOREMA 10.4.Xn

m.r.→ X ⇒ XnP→ X,

infatti

∀ε, P (|Xn −X| > ε) ≤ P(|Xn −X|r)εr

→ 0

G.Sanfilippo


ESEMPIO 10.5. Nell’inferenza statistica classica (oltre alla correttezza) sidice che uno stimatore Yn e consistente se tende in probabilita alla grandez-za η da stimare.Se P(Yn) = η, cioe lo stimatore e corretto, si ha

P((Yn − η)2) = P((Yn − P(Yn))2) = var(Yn)

quindi se la var(Yn)→ 0 segue che

Ynm.q.→ η.

e per il Teorema 10.4 si haYn

P→ η

cioe lo stimatore e consistente.Pertanto la media campionaria Xn (per variabili con momenti di ordine 2finiti) e uno stimatore corretto e consistente della media.

G.Sanfilippo

Date post:	14-Feb-2019
Category:	Documents
Upload:	hoangnhu
View:	219 times
Download:	0 times

Funzione Caratteristica, Normale multivariata, convergenze · 10.1 Funzione caratteristica 153...

Documents