Lezioni CalcProb A

transcript

Lezioni di Calcolo delle Probabilità

Giuseppe Nolfe

a.a. 2014-2015

Università degli Studi del Sannio

Facoltà di Scienze Economiche ed Aziendali

Corso di Laurea in Scienze Statistiche e Attuariali

Indice

Elenco delle figure xii

1 Definizione assiomatica di probabilità 1

1.1 Concetti introduttivi . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.1 Oggetto della teoria della probabilità . . . . . . . . . . . .1

1.1.2 Gli eventi . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.1.3 Unione ed intersezione di eventi . . . . . . . . . . . . . . 10

1.1.4 Alcune relazioni fondamentali . . . . . . . . . . . . . . . 17

1.1.5 Successioni di eventi e loro limiti . . . . . . . . . . . . . . 19

1.2 Strutture algebriche di interesse probabilistico . . . .. . . . . . . 23

1.2.1 La struttura degli eventi . . . . . . . . . . . . . . . . . . . 23

1.2.2 Laσ-algebra di BorelB . . . . . . . . . . . . . . . . . . . 28

1.3 La probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

1.3.1 Considerazioni preliminari . . . . . . . . . . . . . . . . . 28

1.3.2 Gli assiomi di Kolmogorov . . . . . . . . . . . . . . . . . 32

1.3.3 Prime conseguenze degli assiomi . . . . . . . . . . . . . . 36

1.3.4 Il teorema di equivalenza . . . . . . . . . . . . . . . . . . 44

1.3.5 Eventi quasi certi ed eventi quasi impossibili . . . . . .. . 45

2 Spazi campionari discreti 47

2.1 Applicazione della definizione di Kolmogorov al caso discreto . . 47

2.1.1 Esiti equiprobabili . . . . . . . . . . . . . . . . . . . . . 48

2.2 Alcune situazioni specifiche e richiami di calcolo combinatorio . . 51

2.2.1 Coppie edr-ple . . . . . . . . . . . . . . . . . . . . . . . 51

2.2.2 Il campionamento . . . . . . . . . . . . . . . . . . . . . . 54

2.2.3 Campione ordinato . . . . . . . . . . . . . . . . . . . . . 55

2.2.4 Campione non ordinato . . . . . . . . . . . . . . . . . . . 58

2.2.5 Coefficiente multinomiale . . . . . . . . . . . . . . . . . 62

2.3 Problemi di occupazione . . . . . . . . . . . . . . . . . . . . . . 65

2.3.1 Statistiche di Bose-Einstein e Fermi-Dirac . . . . . . . .. 74

2.4 Distribuzione ipergeometrica . . . . . . . . . . . . . . . . . . . . 75

3 Condizionamento ed indipendenza di eventi 79

3.1 Probabilità condizionata . . . . . . . . . . . . . . . . . . . . . . . 79

3.1.1 La legge di Bayes . . . . . . . . . . . . . . . . . . . . . . 84

3.2 Indipendenza stocastica . . . . . . . . . . . . . . . . . . . . . . . 92

3.2.1 La rovina del giocatore . . . . . . . . . . . . . . . . . . . 98

3.2.2 Il lemma di Borel e Cantelli . . . . . . . . . . . . . . . . 105

3.2.3 Esperimenti indipendenti e spazio campionario prodotto . 108

4 La distribuzione binomiale e la distribuzione di Poisson 111

4.1 Le prove del Bernoulli . . . . . . . . . . . . . . . . . . . . . . . 111

4.2 La distribuzione binomiale . . . . . . . . . . . . . . . . . . . . . 113

4.3 Distribuzione di Poisson . . . . . . . . . . . . . . . . . . . . . . 119

4.4 Tempi di attesa in prove del Bernoulli . . . . . . . . . . . . . . . 124

4.5 La distribuzione multinomiale . . . . . . . . . . . . . . . . . . . 129

5 Variabili aleatorie 133

5.1 Il concetto di variabile casuale . . . . . . . . . . . . . . . . . . . 133

5.1.1 Considerazioni preliminari . . . . . . . . . . . . . . . . . 133

5.1.2 Definizione di variabile casuale . . . . . . . . . . . . . . . 135

5.2 La funzione di distribuzione . . . . . . . . . . . . . . . . . . . . 139

5.3 Variabili aleatorie discrete . . . . . . . . . . . . . . . . . . . . . .145

5.3.1 Alcune variabili casuali discrete . . . . . . . . . . . . . . 149

5.4 Variabili aleatorie assolutamente continue . . . . . . . . .. . . . 151

5.5 Variabili casualin-dimensionali . . . . . . . . . . . . . . . . . . 161

5.5.1 Distribuzioni marginali . . . . . . . . . . . . . . . . . . . 167

5.5.2 Distribuzioni condizionate . . . . . . . . . . . . . . . . . 168

5.6 Indipendenza di variabili casuali . . . . . . . . . . . . . . . . . .173

5.7 Funzioni di una variabile casuale . . . . . . . . . . . . . . . . . . 174

5.7.1 Il metodo delle trasformazioni . . . . . . . . . . . . . . . 180

5.8 Somme, prodotti e rapporti di variabili casuali . . . . . . .. . . . 185

5.8.1 Somma di due variabili casuali . . . . . . . . . . . . . . . 186

5.8.2 Differenza di due variabili casuali . . . . . . . . . . . . . 188

5.8.3 Prodotto di due variabili casuali . . . . . . . . . . . . . . 189

5.8.4 Rapporto di due variabili casuali . . . . . . . . . . . . . . 192

5.8.5 Variabili casuali indipendenti ed alcuni esempi . . . .. . 194

5.9 Funzioni di un vettore casuale . . . . . . . . . . . . . . . . . . . 197

6 Caratteristiche numeriche delle variabili aleatorie 213

6.1 Valore medio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214

6.2 Momenti di ordine superiore . . . . . . . . . . . . . . . . . . . . 223

6.2.1 La varianza di una variabile casuale . . . . . . . . . . . . 225

6.2.2 La disuguaglianza di Tchebycheff e il teorema di Bernoulli 236

6.3 Ulteriori misure di tendenza centrale e dispersione . . .. . . . . . 239

6.3.1 Valori caratteristici di forma . . . . . . . . . . . . . . . . 240

7 Momenti di variabili casuali multidimensionali 243

7.1 Momenti congiunti . . . . . . . . . . . . . . . . . . . . . . . . . 243

7.1.1 Covarianza e correlazione . . . . . . . . . . . . . . . . . 246

7.2 Alcune disuguaglianze notevoli . . . . . . . . . . . . . . . . . . . 249

7.2.1 La disuguaglianza di Cauchy e Schwarz . . . . . . . . . . 250

7.3 Momenti condizionati . . . . . . . . . . . . . . . . . . . . . . . . 252

7.3.1 Somma di un numero casuale di variabili aleatorie indi-

pendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . 255

8 La legge di Gauss ed alcune distribuzioni collegate 257

8.1 Proprietà della densità normale . . . . . . . . . . . . . . . . . . . 258

8.1.1 Momenti della distribuzione normale . . . . . . . . . . . . 266

8.1.2 La variabile casuale lognormale . . . . . . . . . . . . . . 267

8.2 Distribuzione Gamma . . . . . . . . . . . . . . . . . . . . . . . . 268

8.2.1 La variabile casuale chi-quadrato . . . . . . . . . . . . . . 270

8.3 Distribuzione Beta . . . . . . . . . . . . . . . . . . . . . . . . . . 273

9 Funzioni generatrici 275

9.1 Funzione generatrice dei momenti . . . . . . . . . . . . . . . . . 275

10 La convergenza stocastica e teoremi limite 293

10.1 La convergenza delle variabili aleatorie . . . . . . . . . . .. . . . 293

10.1.1 Convergenza in distribuzione . . . . . . . . . . . . . . . . 294

10.1.2 Convergenza in probabilità . . . . . . . . . . . . . . . . . 295

10.1.3 Convergenza in mediar-ma . . . . . . . . . . . . . . . . . 298

10.1.4 Convergenza quasi certa . . . . . . . . . . . . . . . . . . 300

10.2 Teorema limite locale . . . . . . . . . . . . . . . . . . . . . . . . 301

10.3 Teorema limite integrale . . . . . . . . . . . . . . . . . . . . . . 303

10.4 Legge dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . 307

10.4.1 Legge dei grandi numeri nella forma di Tchebycheff . .. 310

10.4.2 Legge forte dei grandi numeri . . . . . . . . . . . . . . . 316

10.4.3 Il teorema centrale del limite . . . . . . . . . . . . . . . . 318

Elenco delle figure

1.1 Rappresentazione di una partizione mediante un diagramma di Venn. 13

1.2 Partizione di un eventoE. . . . . . . . . . . . . . . . . . . . . . . 14

1.3 Partizione dell’eventoA prodotta dall’intersezione con una parti-

zione diΩ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.4 Relazione Fondamentale. . . . . . . . . . . . . . . . . . . . . . . 18

4.1 Distribuzione Binomiale. . . . . . . . . . . . . . . . . . . . . . . 115

4.2 Distribuzione di Poisson. . . . . . . . . . . . . . . . . . . . . . . 122

4.3 Grafico di(1 + λ)e−λ in funzione diλ. . . . . . . . . . . . . . . . 124

5.1 Misura di probabilità indotta suR dallav-aX. . . . . . . . . . . . 138

5.2 P(a 6 X 6 b) ≡∫ b

af(x)dx ≡ area sottesa daf(x) traa e b. . . . 154

5.3 f(x)∆x ≈ P(x 6 X 6 x+∆x). . . . . . . . . . . . . . . . . . . 155

5.4 Densità di probabilità esponenziale. . . . . . . . . . . . . . . .. 157

5.5 Funzione di distribuzione esponenziale. . . . . . . . . . . . .. . 158

5.6 (x1 < X 6 x2, y1 < Y 6 y2) ≡ (X, Y ) ∈ (x1, x2]× (y1, y2]. . . . 164

5.7(X1/2 6 y

). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

5.8 (− ln(X) 6 y). . . . . . . . . . . . . . . . . . . . . . . . . . . . 180

5.9 g(x) funzione crescente. . . . . . . . . . . . . . . . . . . . . . . 181

5.10 g(x) funzione decrescente. . . . . . . . . . . . . . . . . . . . . . 182

5.11 Dominio di integrazione della (5.79) per il calcolo diFX+Y (z). . . 186

5.12 Dominio di integrazione della (5.79) per il calcolo diFY−X(z). . . 188

5.13 Dominio di integrazione,D, della (5.79) per il calcolo diFXY (z)

ovez è un numero realepositivo. . . . . . . . . . . . . . . . . . . 190

5.14 Dominio di integrazione,D, della (5.79) per il calcolo diFXY (z)

per ogniz numero realenegativo. . . . . . . . . . . . . . . . . . . 191

5.15 Dominio di integrazione,D, della (5.79) per il calcolo diFY/X(z)

perz numero realepositivo. . . . . . . . . . . . . . . . . . . . . . 193

5.16 Dominio di integrazione,D, della (5.79) per il calcolo diFY/X(z)

conz numero realenegativo. . . . . . . . . . . . . . . . . . . . . 194

5.17 Significato geometrico del modulo di un prodotto vettoriale. . . . 203

5.18 R ⊂ A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204

5.19 S ⊂ D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

5.20 A ≡ (x1, x2) : fX1X2(x1, x2) > 0. . . . . . . . . . . . . . . . . 208

5.21 D ≡ (u1, u2) : fU1U2(u1, u2) > 0. . . . . . . . . . . . . . . . . 209

6.1 Funzione di densità di Pareto. . . . . . . . . . . . . . . . . . . . . 235

8.1 Funzione di densità div-cnormali con la stessa media e differente

varianza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260

8.2 Funzione di densità div-c normali con la media diversa e identica

varianza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261

8.3 Funzione di densitàn(x) dellav-c normale standardizzata. . . . . 262

8.4 Funzione di distribuzioneN(x) dellav-c normale standardizzata. . 263

CAPITOLO 1

Definizione assiomatica di

probabilità

1.1 Concetti introduttivi

1.1.1 Oggetto della teoria della probabilità

Spesso lo scopo della ricerca scientifica è la formulazione di una adeguata descri-

zione matematica di un fenomeno naturale o di un processo artificiale. L’idea-

lizzazione matematica di un fenomeno osservabile viene genericamente chiamata

Modello. I fenomeni che possono essere osservati, siano essi naturali o artificiali,

si suddividono in due categorie fondamentali: fenomenideterministicie fenome-

ni casuali o aleatori1. Un fenomeno è detto deterministico se, note le condizioni

iniziali del sistema al quale esso si riferisce, è possibileprevederne esattamen-

te l’evoluzione. In questo caso il modello che descrive il fenomeno in studio è

1Aleain latino indica il dado, l’aggettivoaleatoriusè traducibile comeriguardante il gioco dei

dadio d’azzardo

2 Capitolo 1. Definizione assiomatica di probabilità

una legge matematica. Consideriamo il sistema solare, il moto dei pianeti intorno

al sole è descritto dalle leggi di Keplero che rappresentanola idealizzazione ma-

tematica di questo particolare fenomeno naturale. Esse, fissata una determinata

configurazione iniziale, consentono non solo di prevedere con precisione le posi-

zioni relative dei pianeti nel futuro ma anche di calcolare le traiettorie seguite nel

passato. La legge di Ohm è un ulteriore esempio di modello deterministico: in un

circuito elettrico composto da un resistoreR alimentato da una tensione continua

V , la correnteI che fluisce nel circuito è legata alla tensione applicata ed alla re-

sistenza del carico dalla relazione:V = R · I. Una massa soggetta ad una forza

e libera di muoversi nello spazio segue una traiettoria che può essere calcolata a

partire dalla seconda legge della dinamica,−→f = m · −→a , se è nota sia la posizio-

ne che la velocità iniziale della massam. Diversamente da quanto avviene per i

fenomeni deterministici, per i fenomeni casuali non è possibile stabilire una legge

matematica che ne descriva l’evoluzione futura anche essendo nota la storia pas-

sata del sistema. Per tali fenomeni si adottano i cosiddettimodelli probabilistici2

o stocastici. Supponiamo di lanciare più volte una moneta; non vi è possibilità di

prevedere con esattezza l’esito del lancio anche se è noto l’esito di tutti i lanci pre-

cedenti. Un esempio analogo è costituito dalla previsione del sesso di un neonato,

noto il sesso dei bambini precedentemente nati nello stessopresidio ospedaliero.

In entrambi gli esempi precedenti, lanciando ripetutamente la moneta o registran-

do il sesso dei neonati per un lungo periodo di tempo, si osserva che la frazione di

esiti testa, o di neonati di sesso maschile, è circa12. Questo comportamento a lun-

go termine è chiamatoregolarità statistica. I fenomeni casuali che esibiscono una

regolarità statistica possono essere descritti con modelli di tipo probabilistico nei

quali l’evoluzione del sistema in studio non è descritto da una legge matematica

ma si determinano relazioni probabilistiche fra le possibili osservazioni.

2Probabilità, dal latinoprobabilitas[probabilis + -tas]; l’aggettivo probabilis può essere inteso

comericco di prove, facile da dimostrare, verificabile.

1.1 Concetti introduttivi 3

Il modello deterministico costituisce, molto spesso, un modello di prima appros-

simazione di un fenomeno nel quale a rigore dovrebbero essere contemplate le

variazioni casuali di alcuni parametri. Si consideri il tiro di una batteria di arti-

glieria contro un bersaglio fisso. Stimata la posizione del bersaglio, il direttore

del tiro determina l’angolo di inclinazione del cannone basandosi sulle leggi della

meccanica newtoniana, che si applicano al moto di un proiettile nel vuoto sogget-

to ad un impulso iniziale ed alla forza di gravità. In realtà sul proiettile agiranno

fattori casuali come l’attrito dell’aria e l’azione del vento, che dipendono dalle mu-

tevoli condizioni atmosferiche variabili in maniera imprevedibile sia nello spazio

che nel tempo; considerato, inoltre, che la posizione del bersaglio, l’inclinazio-

ne del cannone e la velocità iniziale del proiettile sono noti con un determinato

margine di errore, non stupisce che molti colpi non vadano a segno, nonostante il

carattere deterministico delle leggi della meccanica classica. Pertanto la descrizio-

ne più aderente alla realtà del processo di tiro può avveniresecondo un modello

probabilistico ovvero nei termini del calcolo della probabilità di centrare uno o

più volte il bersaglio o di non colpirlo affatto. Un altro esempio è costituito dalla

determinazione del peso di una data quantità di un composto chimico mediante

una bilancia automatica di alta precisione. Se si ripete la procedura di pesata più

volte si ottengono valori che non sono rigorosamente costanti ma che differisco-

no tra loro di piccole quantità variabili. Tali fluttuazionisono dovute all’azione

combinata di numerosi fattori, quali ad esempio, la posizione del corpo da pesare

sul piatto della bilancia, fenomeni vibratori accidentalie, cosa fondamentale, gli

errori della stima delle indicazioni della bilancia.

Si potrebbe d’altro canto sostenere che molti fenomeni fisici non sono veramente

casuali; infatti una più approfondita conoscenza dei meccanismi di base potrebbe

condurre alla elaborazione di un modello matematico preciso. La classificazione

dei fenomeni fisici come fenomeni casuali o deterministici èquindi spesso oggetto

di discussione. In termini pratici la decisione di elaborare un modello deterministi-

co o probabilistico per il fenomeno in studio è basata sulla possibilità di riprodurre

i dati attraverso esperimenti controllati. Se un esperimento, ripetuto molte volte,

produce gli stessi risultati, nei limiti dell’errore di misura, allora è ipotizzabile l’e-

laborazione di un modello deterministico. Quando ciò non avviene il fenomeno è

considerato, per sua natura, casuale.

1.1.2 Gli eventi

Per esperimento si intende una generica procedura3 che genera dati numerici. Si

definisceesperimento casuale, E , un esperimento che soddisfa le seguenti condi-

zioni:

1. tutti i possibili esiti sperimentali sono noti a priori, nel senso che sono ben

definiti o precisabili prima dell’esecuzione dell’esperimento;

2. l’esito di una determinata esecuzione dell’esperimentonon è prevedibile a

priori (casualità);

3. l’esperimento può essere ripetuto in analoghe condizioni;

4. ripetendo l’esperimento un gran numero di volte è possibile stabilire una

regolarità statistica.

Ogni singola esecuzione di un esperimento casuale viene detta prova. Esempi di

esperimenti casuali sono: il lancio di una moneta, l’estrazione di una carta da un

mazzo di carte francesi, la misura del tempo di funzionamento di un componente

elettronico, la determinazione della glicemia di pazientidiabetici, la misura del

tempo di attesa di un paziente in pronto soccorso prima che gli siano praticate

le prime cure, la misura della quantità di grano prodotta perettaro e per tipo di

3La procedura può aver luogo spontaneamente o essere realizzata intenzionalmente.

fertilizzante in una data area di produzione, la quotazionein borsa di un titolo

azionario, il prezzo del petrolio su mercato di Londra e cosìvia.

Si consideri un esperimento casuale; si definiscespazio campionario, o spazio

campioneo spazio delle proveo spazio dei campioni, l’insieme dei possibili esiti

delle prove. Lo spazio campionario è tradizionalmente indicato con la lettera greca

Ω. I possibili risultati dell’esperimento vengono dettipunti campionari, o punti

campione, o esiti elementari. Un punto campione è denotato dalla letteraω. Uno

spazio campionario può essere discreto, finito o numerabile, oppure continuo.

Definizione 1.1.1.Uno spazio campionarioΩ associato ad un esperimento casua-

le E , è un insieme di elementiω, i punti campionari, che verificano le seguenti

condizioni:

- ciascunω ∈ Ω denota un esito dell’esperimento;

- ciascuna esecuzione dell’esperimento produce un risultato al quale è asso-

ciato un singolo elementoω ∈ Ω.

Esempio 1.1.1. Lancio di una moneta

I possibili esiti sperimentali associati al lancio di una moneta sono solamente due:

testa e croce; pertanto si ha:Ω = T, C. Se la moneta viene lanciata due volte di

seguito, lo spazio campionario è dato da:

Ω = TT, CC, TC,CT.

Se si è interessati al numero di volte che esce testa lanciando consecutivamenten

volte una moneta, lo spazio campionario è costituito dai numeri naturali da0 adn:

Ω = 0, 1, 2, . . . , n− 1, n.

Esempio 1.1.2. Lancio di una moneta fino a quando non appare testa

L’esperimento consiste nel lanciare la moneta fintanto che non appaia testa. Lo

spazio campionario è l’insieme infinito e numerabile:

Ω = T, C, CT, CCT, CCCT,CCCCT,CCCCCT, . . ..

Infatti se si è fortunati testa può comparire al primo tentativo, essendo particolar-

mente sfortunati l’esito testa potrebbe realizzarsi dopo moltissimi lanci, o anche

mai (possibilità solo teorica !).

Esempio 1.1.3. Tempo di funzionamento di un componente elettronico

Supponiamo di selezionare a caso un componente elettronicoprodotto da una dit-

ta, di immetterlo in una apparecchiatura di prova e di verificare il tempot du-

rante il quale esso funziona correttamente. Lo spazio campionario4 è costituito

dall’insieme dei numeri reali compresi tra zero ed infinito:

Ω = t : t > 0 ≡ [0,+∞).

L’aver associato ad ogni esperimento casualeE uno spazio campionarioΩ, con-

sente di definire formalmente il concetto dievento.

Definizione 1.1.2.Un eventoE è un sottoinsieme diΩ.

Un sottoinsieme diΩ costituito da un solo punto campionarioω è spesso chia-

mato evento semplice5 o ancheevento elementare. Quando il risulatoω del-

l’esperimento casualeE appartiene adE, si dice che l’eventoE si verifica o

occorre.

4In questo casot svolge il ruolo diω.5Pertanto è preferibile evitare di chiamare eventi semplicii punti dello spazio campione; alcuni

di essi potrebbero non essere eventi come vedremo in seguito.

Osservazione1.1.1. Non tutti i sottoinsiemi diΩ sono eventi; affinchè un generico

sottoinsieme diΩ sia un evento esso deve essereosservabile, in altre parole deve

esistere la possibilità di decidere, inequivocabilmente,se quest’ultimo si sia veri-

ficato oppure no, ovvero se il generico risultatoω della prova appartenga(ω ∈ E)

o non appartenga adE (ω /∈ E).

Esempio 1.1.4. Lancio di un dado

Nel caso del lancio di un dado, lo spazio campionario è costituito da sei punti

campione, si ha:Ω = 1, 2, 3, 4, 5, 6. L’evento numero pari è il sottoinsieme

E = 2, 4, 6. Se il lancio dà come esitoω2 = 2 o ω4 = 4 oppureω6 = 6si dice cheE si è verificato.

In generale un evento è definibile anche da una proposizione.L’evento, infatti, oc-

corre se la proposizione circa l’esito della prova è vera. Viceversa una proposizio-

ne circa gli elementi dello spazio campionario definisce un insieme. Indichiamo

conπE(ω) una proposizione riguardo gli elementiω ∈ Ω e siaE il sottoinsieme di

Ω costituito dagli eventi elementari per i qualiπE(ω) è vera. Si usa la rappresenta-

zione simbolicaE = ω : πE(ω) per affermare cheE è l’insieme di tutti i punti

campione per i quali la proposizioneπE(ω) è vera.L’eventoE occorre se e solo

se il risultato dell’esperimentoω appartiene all’insiemeE. L’esempio seguente

chiarisce quanto appena esposto.

Esempio 1.1.5. Lancio ripetuto di una moneta

Se si lancia per tre volte una moneta, lo spazio campionario ècostituito da otto

punti campione, si ha:

Ω = CCC︸︷︷︸

, CCT︸︷︷︸

, CTC︸︷︷︸

, TCC︸︷︷︸

, CTT︸︷︷︸

, TCT︸︷︷︸

, TTC︸︷︷︸

, TTT︸︷︷︸

La proposizioneπE(ω), la sequenza di lanci rappresentata daω ha una testa al

secondo lancio, individua l’evento che al secondo lancio si osserva testa:

T2 = ω3, ω5, ω7, ω8.

Se l’esperimento casuale dà come esitoω3 oω5 o ω7 oppureω8, si dice cheT2 si è

verificato.

AnalogamneteT1 = ω4, ω6, ω7, ω8 corrisponde all’evento individuato dalla pro-

posizioneuna testa occorre al primo lancio.

Osservazione1.1.2. Quanto prima esposto costituisce un primo fondamentale pas-

so verso una formulazione matematica dei fenomeni probabilistici. Abbiamo, in-

fatti, posto in relazione tra loro aspetti del mondo reale e componenti del modello.

Le associazioni finora stabilite sono:

- possibili esiti di una provavsspazio campionarioΩ;

- eventovssottoinsiemeE di Ω;

- occorrenza di un eventovsω ∈ E.

Prima di proseguire nell’esposizione, è necessario approfondire la differenza tra

punto campionario (esito elementare)ω ed evento elementareω. Quando si ese-

gue una prova dell’esperimentoE , si osserva un singolo esito elementareω ma

possono essersi verificati eventi tra loro diversi. Se nel lanciare contemporaneamte

due dadi si osserva la coppia di numeri(2, 4), ω = 24, l’esito elementare ottenu-

to può suggerire il realizzarsi di numerosi eventi tra loro distinti. Elenchiamone

alcuni:

1. il punteggio ottenuto è sei;

2. il punteggio ottenuto è minore di sette;

3. la somma dei due numeri è pari;

4. nessun numero dispari è apparso;

5. entrambi i dadi mostrano numeri pari;

Pur essendo unico l’esito sperimentale osservato,ω = 24, si sono relizzati tutti

i predetti eventi. Infatti, tra gli altri, il primo evento coincide con il sottoinsieme

15, 51, 24, 42, 33, il secondo evento, a sua volta, è formato dai punti campionari

11, 12, 13, 14, 15, 21, 22, 23, 24, 31, 32, 33, 41, 42, 51.

È quindi importante considerare come separate la nozione diesito elementare, o

punto campionario,ω e quella di evento elementareω, così come nella teoria

degli insiemi, dato un insiemeΞ, si distingue tra un elementoξ ∈ Ξ ed un sot-

toinsiemeξ ⊂ Ξ. Si noti che Kolmogorov, nei suoi lavori fondamentali (vedi

[8]) nei quali formulò la teoria assiomatica della probabilità, con la dicitura evento

elementare indica un punto campionarioω e non riserva alcun termine particolare

per individuare l’eventoω. Siccome molti autori si rifanno alla terminologia

originaria di Kolmogorov, è bene che il lettore sia avvertito di ciò.

Gli eventi come abbiamo già detto sono insiemi contenuti inΩ. Dire che l’evento

E si verifica significa dire che il risultato della prova è un punto di E. Poichè

il risultato della prova appartiene certamente adΩ, ancheΩ è un evento; esso si

verifica certamente ed è, pertanto, denominatoevento certo.

SeE è un evento è certamente anche possibile stabilire se il generico risultato

ω dell’esperimento casuale appartiene, oppure no, al complemento6 E del sot-

toinsiemeE; pertanto ancheE è un evento7. E si leggeE negatoo nonE; più

raramente si usano i simboli¬E eEc. Il complemento dello spazio campioneΩ è

l’insieme vuoto∅; l’evento negato diΩ è il cosiddettoevento impossibile, indicato

anch’esso con la notazione∅.

6Come si ricorderà dalla teoria degli insiemi,E è l’insieme dei punti diΩ che non appartengono

adE.7Spesso chiamato eventocontrariodi E.

1.1.3 Unione ed intersezione di eventi

Fino ad ora ci siamo occupati di eventi singoli, descriveremo, ora, eventi che sono

combinazione di altri eventi e studieremo le relazioni che possono sussistere tra

essi. Avendo introdotto il concetto di evento come un insieme di punti, possiamo

utilizzare i concetti propri della teoria degli insiemi.

Definizione 1.1.3.L’unione E di due eventiA e B è l’evento che consiste nel

verificarsi di almeno uno degli eventiA eB.

In simboli l’evento unione si indica conE = A ∪ B e si legge comeA unitoB

oppureA oB. Ricordando l’analogo concetto della teoria degli insiemi, possiamo

affermare che esso si verifica se l’esitoω della prova appartiene adA o aB o ad

entrambi i sottoinsiemi. Più in generale l’unioneE1 ∪E2 ∪ · · · ∪En ≡ ⋃ni=1Ei è

l’evento che si verifica quando occorre almeno uno degli eventi Ei. Lo stesso vale

per l’unione infinita.

Esempio 1.1.6. Lancio ripetuto di una moneta, unione di eventi

Consideriamo gli eventitesta al primo lancio, T1 = ω4, ω6, ω7, ω8, e croce al

secondo, C2 = ω1, ω2, ω4, ω6 dell’esempio 1.1.5. L’evento unioneT1 ∪ C2 oc-

corre se e solo se l’esito della prova appartiene ad almeno uno dei due sottoinsiemi

T1 e C2: al primo lancio si ottienetestao al secondo comparecroceo al primo

lancio si hatestaedal secondocroce.

Definizione 1.1.4.Se⋃n

i=1Ei = Ω, gli eventiE1, . . . , En costituiscono un siste-

maesaustivo8 di eventi.

Definizione 1.1.5.L’intersezioneE di due eventiA e B è l’evento che consiste

nel verificarsi sia dell’eventoA che dell’eventoB.

8Talvolta gli eventi la cui unione coincide con lo spazio campionario sono dettinecessari.

In simboli l’evento intersezione9 si indica conE = A ∩B e si legge comeA eB.

Esso si verifica se l’esitoω della prova appartiene all’intersezione dei sottoinsiemi

A eB di Ω. L’intersezioneE1 ∩ · · · ∩En ≡ ⋂ni=1Ei di un numero finito di eventi

è l’evento consistente nel verificarsi di tutti gli eventiEi: ω ∈ ⋂ni=1Ei. Lo stesso

vale per un numero infinito di eventi.

La notazioneB ⊂ A, che nella teoria degli insiemi si legge10 B è contenuto inA,

indica che l’eventoB implicaA, ovveroA si verifica ogni qual voltaB occorre:

ω ∈ B =⇒ ω ∈ A. ScrivereA = B significa che ogniω che appartiene all’evento

A appartiene anche all’eventoB.

Nel seguito utilizzeremo il termineinsiemeed il termineeventoin maniera in-

tercambiabile11 ed i risultati della teoria degli insiemi saranno ritenuti validi an-

che per studiare le relazioni tra eventi. In particolare, ricordiamo che l’unione

e l’intersezione di eventi godono sia della proprietà commutativa12 che di quella

associativa13; ciascuna operazione, inoltre, gode rispetto all’altra della proprietà

distributiva14.

Definizione 1.1.6.SeA ∩ B = ∅, gli eventiA eB sono chiamatiincompatibilio

mutuamente esclusivio disgiunti. In altre paroleA ∩B = ∅ indica cheA eB non

possono entrambi verificarsi: seω ∈ A alloraω /∈ B e seω ∈ B alloraω /∈ A.

Nel dire che più eventiE1, E2, . . . , Ei, . . . sono incompatibili, si intende che essi

sono incompatibilia due a due: Er ∩ Es = ∅, per ogni coppia di indici,r eds,

distinti. Lo stesso vale per i sinonimi disgiunti e mutuamente esclusivi.

9Per semplicità si usano anche le notazioniA ·B eAB.10o ancheB è incluso inA11Ad esempio diremo chel’eventoB è inclusonell’eventoA.12A ∪B = B ∪ A, A ∩B = B ∩ A.13(A ∪B) ∪ C = A ∪ (B ∪ C), (A ∩B) ∩C = A ∩ (B ∩ C).14A ∩ (B ∪C) = (A ∩B) ∪ (A ∩ C), A ∪ (B ∩ C) = (A ∪B) ∩ (A ∪ C).

Definizione 1.1.7.Se gli eventiE1, . . . , En sono incompatibili ed esaustivi, essi

costituiscono unapartizionedi Ω.

Esempio 1.1.7. Un esempio di partizione

Supponiamo che un contenitore vi sianoN palline;k di queste sono bianche e le

rimanentiN − k nere. Perk = 0, 1, 2, . . . , N , le proposizionile palline bianche

sonok definiscono gli eventiEk a due a due incompatibili. Infatti, il numero di

palline bianche nel contenitore o è uguale adr oppure queste ultime sonos, sicché

risultaEr∩Es = ∅, ser 6= s. Inoltre nel contenitore o vi sono tutte palline bianche

(k = N), o vi è una pallina bianca (k = 1), o vi sono due palline bianche (k = 2),

. . ., o nessuna delle palline è bianca (k = 0):

Ek = Ω.

La figura 1.1 mostra un esempio di partizione di una spazio campionario utiliz-

zando un diagramma di Venn.

Possiamo estendere la nozione di partizione ad un generico eventoE.

Definizione 1.1.8.Se gli eventiE1, . . . , En sono mutuamente esclusivi e la loro

unione è l’eventoE, essi costituiscono unapartizioneo decomposizionedi E.

Il diagramma di Venn in figura 1.2 esemplifica la nozione di partizione di un

evento. Naturalmente seE ≡ Ω le due definizioni coincidono.

Proposizione 1.1.1.SiaΩ uno spazio campione eBi : 1 6 i 6 n una generica

classe15 di eventi incompatili. Se l’eventoA è tale cheA ⊂ ⋃ni=1Bi, allora la

classeA ∩ Bi : 1 6 i 6 n è una partizione diA:

A =n⋃

A ∩ Bi. (1.1)

15Per classe intendiamo semplicemente una collezione di oggetti. Nel nostro caso è una

collezione di sottoinsiemi diΩ: un insieme di eventi.

Figura 1.1: Rappresentazione di una partizione mediante undiagramma di Venn.

Il diagramma di Venn in figura 1.3 dimostra graficamente la proposizione 1.1.1

nel caso in cui gli eventiBi siano una partizione dello spazio campione.

Definizione 1.1.9.Si definisce evento differenzaA− B l’insieme dei punti cam-

pionari:

ω : ω ∈ A, ω /∈ B.

Esempio 1.1.8. Famiglie con quattro figli

Supponiamo di considerare tutte le famiglie di una data città con quattro figli, di

sceglierne una a caso e registrare il sesso dei bambini in base alla loro data di

nascita. Se indichiamo conm l’evento elementare maschio e conf l’evento

elementare femmina, lo spazio campionario è costituito dall’insieme:

Ω = mmmm,mmmf,mmfm,mfmm, fmmm,mmff,mffm, ffmm,

mfmf, fmmf, fmfm,mfff, fmff, ffmf, fffm, ffff.

Figura 1.2: Partizione di un eventoE.

Alcuni eventi di interesse potrebbero essere i seguenti:

1. A: in famiglia vi sono esattamente due maschi;

2. B: in famiglia vi è almeno un maschio;

3. C: in famiglia vi è al più un maschio;

4. D: nessun maschio in famiglia.

Si ha:

1. A = mmff,mffm, ffmm,mfmf, fmmf, fmfm;

2. B = mmmm,mmmf,mmfm,mfmm, fmmm,mmff,

mffm, ffmm,mfmf, fmmf, fmfm,mfff, fmff, ffmf, fffm;

A∩ B2

A∩ B3

A∩ B4

Figura 1.3: Partizione dell’eventoA prodotta dall’intersezione con una partizione

di Ω.

3. C = mfff, fmff, ffmf, fffm, ffff;

4. D = ffff.

Si noti come risultiB = Ω−D ≡ D eC sia dato dall’unione degli eventinessun

maschio in famigliaedesattamente un maschio in famiglia:

C = D ∪ mfff, fmff, ffmf, fffm.

Esempio 1.1.9. Tempo di funzionamento di un componente elettronico

Ritornando all’esempio 1.1.3, eventi di possibile interesse sono, tra gli altri, i

seguenti:

1. A: il tempo di buon funzionamento è maggiore di 50 ore;

2. B: il tempo di buon funzionamento non è superiore a 150 ore;

3. C: il tempo di buon funzionamento è maggiore di 30 ore e non superiore a

200 ore;

4. D: l’apparecchiatura funziona per oltre 50 ore e non più di 150 ore;

5. E: l’apparecchiatura funziona per non più di 250 ore.

In questo caso, avendo postoΩ = t : t > 0 ≡ [0,+∞), si ha:

1. A = t : t > 50 = (50,+∞);

2. B = t : 0 6 t 6 150 = [0, 150];

3. C = t : 30 < t 6 200 = (30, 200];

4. D = t : 50 < t 6 150 = (50, 150] ≡ (50,+∞) ∩ [25, 150];

5. E = t : 0 6 t 6 250 = [0, 250] ≡ [0, 150) ∪ [20, 250].

La trasposizione in termini insiemistici della logica degli eventi consente l’utilizzo

della legge di De Morgan, o formula di Boole16, ben nota nella teoria degli insiemi

A ∪ B = A ∩B (1.2)

che possiamo leggere come:dire che si verifica almeno uno degli eventiA e B

equivale ad affermare che non è vero che non si verifica néA néB. La (1.2) vale

anche scambiando il segno di unione con quello di intersezione:

A ∩ B = A ∪B (1.3)

La formula di Boole, come le proprietà distributive prima menzionate, sono un

esempio di relazione duale.

16George Boole, matematico inglese, è l’iniziatore degli studi che condussero ad introdurre le

strutture algebriche nella teoria della probabilità.

Definizione 1.1.10.Considerata una relazione fra eventi si chiamadualequella

che si ottiene scambiando∪ con ∩, Ω con ∅ e ⊂ con ⊃. Se una relazione è

verificata qualunque siano gli insiemi coinvolti, allora anche la relazione duale è

La formula di Boole è verificata anche per un insieme finito o numerabile di eventi:

Ek =⋂

Ek (1.4)

Ek =⋃

Ek (1.5)

e, in particolare, la (1.5) assume l’espressione equivalente

Ek =⋃

Ek (1.6)

molto utile negli sviluppi futuri.

1.1.4 Alcune relazioni fondamentali

Formuliamo, ora, alcune relazioni che risulteranno in seguito utili nel calcolo delle

probabilità. Si ha:

A = (A ∩ B) ∪ (A ∩ B). (1.7)

La (1.7) ricorre frequentemente sia nella teoria che nelle applicazioni; essa si de-

duce da un semplice diagramma di Venn (vedi figura 1.4). Il significato intuitivo

della (1.7) è il seguente: quando l’eventoA si verifica, esso occorre o insieme aB

o al complementare diB (senzaB). Si tenga inoltre presente che gli eventiA∩B

eA ∩ B sono disgiunti; infatti possiamo scrivere:

(A ∩B) ∩ (A ∩ B) = A ∩ B ∩ A ∩B = A ∩ A ∩B ∩B = A ∩ ∅ = ∅.

SiaBj ; j > 1 una successione numerabile di eventi necessari eA ⊂ Ω, vale la

relazione

A =⋃

(A ∩ Bj) (1.8)

che rappresenta la forma più generale della (1.1).

A ∩ BA ∩ ¬B ¬A ∩ B

Figura 1.4: Relazione Fondamentale.

Sono, altresì, verificate le relazioni duali sia della (1.7)che della (1.8). Una

ulteriore relazione, anch’essa intuitiva, è la seguente:

A ∪ B = A ∪ (A ∩ B). (1.9)

Anche nella (1.9) gli eventi a secondo membro sono incompatibili. La (1.9) af-

ferma che il verificarsi di almeno uno degli eventiA e B può realizzarsi in due

diverse modalità: o si verificaA oppure si verificaB senza che occorraA. Nel

caso di un insieme finito o numerabile di eventiEj , la (1.9) diventa

Ej = E1 ∪ (E1 ∩ E2) ∪ (E1 ∩ E2 ∩ E3) ∪ · · · . (1.10)

Osservazione1.1.3. Ritornando alle considerazioni contenute nell’osservazione

1.1.2, notiamo che oltre alle relazioni tra aspetti del mondo reale ed elementi del

modello matematico, sono fondamentali anche i cosiddetti modelli ausiliari (vedi

[11]), strumenti che facilitano la trattazione matematicadei fenomeni probabili-

stici. I diagrammi di Venn, come tutti i metodi grafici, sono un esempio di tali

modelli ausiliari. Nel seguito ne incontreremo altri come il modello delleurne,

già utilizzato in un precedente esempio. Quest’ultimo è di grande utilità nel caso

di spazi campionari discreti. Un contenitore, l’urna, contiene dei bussolotti nume-

rati ciascuno dei quali corrisponde ad un esito sperimentale. Il lancio di un dado

dà luogo a sei possibili esiti sperimentali, gli interi da uno a sei; se nell’urna si

inseriscono sei bussolotti numerati da uno a sei, l’esperimenento casuale lancio

del dado equivale ad estrarre un bussolotto dall’urna.

1.1.5 Successioni di eventi e loro limiti

Indichiamo conEnn∈N una successione di eventi; essa ha la particolarità che

ciascun elementoEn è un sottoinsieme di un dato insiemeambiente, lo spazio

campioneΩ. Ricordiamo che, così come avviene nella teoria degli insiemi, la

differenza tra la simbologiaB ⊆ A eB ⊂ A consiste nel fatto cheB ⊂ A afferma

l’esistenza diω ∈ A che non appartengono aB, in altre parole essa esclude a priori

la possibilità cheA possa coincidere conB.

Definizione 1.1.11.Una successione di eventiEnn∈N si dicenon decrescente

se,∀n, En ⊆ En+1 .

Definizione 1.1.12.Una successione di eventiEnn∈N si dicenon crescentese,

∀n, En ⊇ En+1 .

Definizione 1.1.13.Si dice che la successioneEnn∈N è monotònase è non

crescente oppure non decrescente.

Definizione 1.1.14.SiaEjj∈N una generica successione di eventi. Si definisce

limite inferiore di tale successione il sottoinsieme diΩ costituito dai punti cam-

pioneω che appartengono definitivamente alla successione. In simboli, il limite

inferiore è esprimibile come

lim infn→∞

En = ω ∈ Ω : ∃n0 ∈ N : ∀n > n0, ω ∈ En. (1.11)

Definizione 1.1.15.Sia Enn∈N una generica successione di eventi. Si defini-

sce limite superiore di tale successione il sottoinsieme diΩ costituito dai punti

campioneω che appartengono ad infiniti elementi della successione. Ilsimboli, il

limite superiore è esprimibile come

lim supn→∞

En = ω ∈ Ω : ∀n ∈ N, ∃k > n : ω ∈ Ek. (1.12)

Definizione 1.1.16.Si dice che una successione di eventiEnn∈N è convergente

lim infn→∞

En = lim supn→∞

In questo caso si dice cheEnn∈N ha per limite l’evento

E = lim infn→∞

En = lim supn→∞

e si scrive

limn→∞

En = E

oppure, in forma più compatta,

En → E.

Talvolta si usa anche la notazioneEn ↑ E o En ↓ E, nel caso di una successione

monotòna, non decrescente e non crescente, rispettivamente. Si noti che i sottoin-

siemi diΩ che costituiscono il limite inferiore, il limite superioreo il limite di una

successione di eventi è esso stesso un evento.

Proposizione 1.1.2.Per ogni successione di eventiEnn∈N si ha:

∞⋂

En ⊆ lim infn→∞

En ⊆ lim supn→∞

En ⊆∞⋃

En. (1.13)

La (1.13) è un’ovvia conseguenza della definizioni di limitesuperiore e limite

inferiore. A tale proposito commentiamo la relazione

lim infn→∞

En ⊆ lim supn→∞

En (1.14)

che compare nella (1.13). Un puntoω dello spazio campioneΩ che appartiene

all’eventolim infn→∞En, a partire da un certo indicen0 in poi, appartiene anche

ai sottoinsiemiEn che costituiscono la successioneEnn06n∈N; quindiω appar-

tiene ad infiniti componenti della successioneEnn∈N e, così, esso è anche un

elemento del sottoinsieme che individualim supn→∞En. La (1.14), in termini

di eventi, consente di affermare che se si verifica l’evento limite inferiore di una

successione si verifica anche l’evento limite superiore perla stessa successione.

Proposizione 1.1.3.Per ogni successione di eventiEnn∈N risulta17

lim infn→∞

En =∞⋃

(En ∩ En+1 ∩ En+2 ∩ · · · ) ≡∞⋃

∞⋂

Ek (1.15)

lim supn→∞

En =∞⋂

(En ∪ En+1 ∪ En+2 ∪ · · · ) ≡∞⋂

∞⋃

Ek. (1.16)

Per quanto concerne le successioni monotòne valgono le relazioni esplicitate nella

seguente proposizione.

17Per la dimostrazione si rinvia ai testi di analisi.

Proposizione 1.1.4.SeEnn∈N è una successione monotòna, essa è convergente;

inoltre si ha

limn→∞

En =∞⋃

En se la successione è non decrescente, (1.17)

limn→∞

∞⋂

En se la successione è non crescente. (1.18)

Dimostrazione.Supponiamo che la successione di eventi sia non decrescente. Si

ha allora,∀n ∈ N, En ∩ En+1 ∩ · · · = En e quindi, per la (1.15),

lim infn→∞

En =∞⋃

(En ∩ En+1 ∩ En+2 ∩ · · · ) =∞⋃

Di conseguenza, tenendo presente la (1.13), si ricavalimn→∞En =⋃∞

n=1En.

Analogamente, seEnn∈N è non crescente, per ogni interon si può scrivere la

relazioneEn ∪ En+1 · · · = En e quindi, ricordando la (1.15), si conclude che

limn→∞En =⋂∞

n=1En.

In virtù della (1.17) si deduce che il limite di una successione non decrescente di

eventi è l’evento che occorre quando si verifica almeno uno degli eventi che la

costituiscono. Analogamente, vedi (1.18), il limite di unasuccessione non cre-

scente di eventi è quell’evento che si verifica quando si verificano tutti gli eventi

che costituiscono detta successione.

Osservazione1.1.4. A partire dal termine generaleEn di una generica successione

di eventi si definisce una successione non decrescente ponendoAn =⋂∞

k=nEk,

∀n ∈ N. Infatti, essendoAn = En ∩ An+1, risultaAn ⊆ An+1. Ricordando

la (1.17) che si applica a successioni non decrescenti e la (1.15) che ha validità

generale, si ottengono le seguenti espressioni equivalenti per il limite inferiore di

Enn∈N:

limn→∞

An ≡ limn→∞

∞⋂

∞⋃

An ≡∞⋃

∞⋂

Ek ≡ lim infn→∞

En. (1.19)

1.2 Strutture algebriche di interesse probabilistico 23

Analoghi sviluppi sussistono per il limite superiore.

Osservazione1.1.5. A partire dal termine generaleEn di una generica successione

di eventi si definisce una successione non crescente ponendoBn =⋃∞

k=nEk,

∀n ∈ N. Infatti, essendoBn = En ∪ Bn+1, risultaBn ⊇ Bn+1. Ricordando

la (1.18) e la (1.16), si ottengono le seguenti espressioni equivalenti per il limite

superiore diEnn∈N:

limn→∞

Bn ≡ limn→∞

∞⋃

∞⋂

Bn ≡∞⋂

∞⋃

Ek ≡ lim supn→∞

En. (1.20)

Per i limiti di successioni di eventi sussistono alcune importanti proprietà che

elenchiamo, senza dimostrarle, nella successiva proposizione.

Proposizione 1.1.5.

En ↓ E ⇒ En ∩ E ↓ ∅ , (1.21)

An ⊆ Bn ⇒ lim inf An ⊆ lim inf Bn, (1.22)

An ⊆ Bn ⇒ lim supAn ⊆ lim supBn, (1.23)

limn→∞

En = E ⇒ limn→∞

En = E, (1.24)

An → A,Bn → B ⇒ (An ∪ Bn) → A ∪B, (1.25)

An → A,Bn → B ⇒ (An ∩ Bn) → A ∩B. (1.26)

1.2 Strutture algebriche di interesse probabilistico

1.2.1 La struttura degli eventi

Si è già sottolineato come l’evento complementare, l’unione e l’intersezione di

eventi siano essi stessi eventi. Una struttura algebrica che soddisfa tali requisiti è

nota dalla teoria degli insiemi.

Definizione 1.2.1.Una famigliaF di sottoinsiemi di un insiemeΩ tale che

(i) Ω ∈ F

(ii) E ∈ F ⇒ E ∈ F

(iii) A ∈ F, B ∈ F ⇒ A ∪ B ∈ F

costituisce un’algebra18.

Dalla definizione 1.2.1 scaturiscono alcune immediate conseguenze. In primo luo-

go dalla (i) e dalla (ii) si deduce che anche∅ ∈ F. Consideriamo tre sottoinsiemi

di Ω, E1, E2, E3 ∈ F, per la proprietà associativa dell’operazione di unione siha

E = E1 ∪ E2 ∪ E3 ≡ (E1 ∪ E2) ∪ E3

e, per la (iii), ancheE ∈ F. Tale proprietà è valida per l’unione di un qualunque

numero finito di elementi diF.

Notiamo che, per la formula di De Morgan (1.3), la (ii) e la (iii), anche l’interse-

zioneA∩B ≡ A ∪B ∈ F. Inoltre, per la proprietà associativa dell’operazione di

intersezione, possiamo scrivere

E = E1 ∩ E2 ∩ E3 ≡ (E1 ∩ E2) ∩ E3 = (E1 ∪ E2) ∩ E3

da cui si deduce che l’intersezione di un qualunque numero finito di elementi diF

è anch’essa un elemento diF. In conclusione possiamo affermare che un’algebra

F suΩ è chiusa rispetto all’operazione di complemento, unione diintersezione

di un numero finito di suoi elementi. Per far sì che la proprietà di chiusura sia

verificata anche nel caso di unioni numerabili19, si introduce una nuova struttura

algebrica.

18o uncampoo unaclasse additivasuΩ, oveΩ è per ipotesi non vuoto19Questa proprietà è essenziale per la definizione assiomatica di probabilità. Si noti che anche

l’unione numerabile di eventi è un evento.

Definizione 1.2.2.Una famigliaF di sottoinsiemi di un insiemeΩ tale che

(i) Ω ∈ F

(ii) E ∈ F ⇒ E ∈ F

(iii) ∀k ∈ N, Ek ∈ F ⇒ ⋃∞k=1Ek ∈ F

costituisce unaσ-algebra20.

Per la (1.6) o la (1.5), la (ii) e la (iii),F è chiusa rispetto all’intersezione nume-

rabile. Inoltre unaσ-algebra è anche un’algebra, Infatti se si consideranoN parti

Ai ∈ F e si poneBi = Ai, peri 6 N , eBi = AN , peri > N si ricava

Ai =∞⋃

Bi ∈ F .

Vale anche il viceversa solo seΩ è un insieme finito.

D’ora innanzi chiameremo eventi diΩ soltanto gli elementi di unaσ-algebra. Que-

sta scelta assicura che il complemento e l’unione, finita o numerabile, di eventi

appartiene ancora alla classe degli eventi.

Proposizione 1.2.1.L’intersezione diσ-algebre suΩ è unaσ-algebra suΩ.

Dimostrazione.Infatti, indichiamo conFi, con i ∈ I insieme numerabile e non

vuoto di indici, una successione diσ-algebre suΩ. In primo luogoΩ ∈ Fi,

∀i ∈ I, e quindiΩ ∈ F ≡ ⋂

i Fi. SeE ∈ F , E ∈ Fi, ∀i ∈ I e pertanto

E ∈ Fi, ∀i ∈ I, quindiE ∈ F . Infine supponiamo che, considerato un insieme

numerabile di indiciJ , Ej ∈ F , ∀j ∈ J . Allora Ej ∈ Fi, ∀j ∈ J e ∀i ∈ I,

sicché⋃

j Ej ∈ Fi per ogni indicei ∈ I. Pertanto⋃

j Ej ∈ F .

20o unσ-campoo unaclasse completamente additivasuΩ

Con il simboloPΩ denotiamo la famiglia dei sottoinsiemi diΩ, PΩ costitui-

sce la più ampiaσ-algebra suΩ.

Definizione 1.2.3.Unaσ-algebra suΩ si dice generata da una famiglia21 G di sot-

toinsiemi diΩ, e si denota con il simboloσ(G), se ogniσ-algebra suΩ contenente

G contiene ancheσ(G). Le precedenti condizioni si formalizzano come:

a. G ⊆ σ(G)

b. F σ-algebra suΩ,G ⊆ F ⇒ σ(G) ⊆ F .

Osservazione1.2.1. La σ-algebraσ(G) è la minimaσ-algebra suΩ contenenteG.

Gli elementi diG sono detti eventigeneratori.

Teorema 1.2.1.Data una qualsiasi famigliaG di sottoinsiemi diΩ, esiste ed è

unica laσ-algebra da essa generata.

Dimostrazione.Poichè la famiglia costituita da tutte le parti (sottoinsiemi) di Ω

è una classe completamente additiva, è chiaro che esiste almeno unaσ-algebra

che contieneG come sottoclasse, quindi la famiglia di tutte leσ-algebre suΩ non

è vuota. Laσ-algebraσ(G) coincide allora con laσ-algebra che si ricava dalla

intersezione di tutte leσ-algebre appartenenti a tale famiglia. Essa è unica; in-

fatti se esistessero dueσ-algebre,F1 e F2, generate daG, entrambe dovrebbero

essere contenute in tutte leσ-algebre contenetiG. Dovrebbero essere contem-

poraneamente verificate le relazioniF1 ⊇ F2 e F2 ⊇ F1 dalle quali scaturisce

F1 = F2.

Vale il seguente teorema la cui dimostrazione non è essenziale per gli scopi del

corso.

21o classe.

Teorema 1.2.2.SiaA = Ai : i ∈ I una partizione numerabile diΩ; σ(A) è la

classe di tutte le unioni di sottoinsiemi diA:

σ(A) =

Aj : J ⊆ I

Si noti che seAi 6= ∅, per i ∈ I, le unioni inσ(A) sono distinte. Ovvero se

J ,K ⊆ I eJ 6= K allora⋃

j∈J Aj 6=⋃

k∈K Ak. In particolare, sen insiemi non

vuoti appartengono adA, I è l’insieme din interi distinti e vi sono2n sottoinsiemi

di I. In conclusione2n sono anche le parti di diσ(A).

Definizione 1.2.4.Si dicespazio probabilizzabileogni coppia22 Ω,F, doveΩ è

uno spazio campione eF unaσ-algebra generata da una famigliaG di sottoinsiemi

di Ω.

Ricordiamo che gli elementi diF rappresentano nel modello matematico gli even-

ti del mondo reale; in particolareΩ è l’evento certo e∅ l’evento impossibile. Gli

sviluppi precedenti assicurano che gli eventi, considerati come insiemi diF , so-

no oggetti in qualche modomisurabili. Come vedremo in seguito questa loro

caratteristica conduce alla definizione assiomatica di probabilità.

Definizione 1.2.5.SiaΩ,F uno spazio probabilizzabile edE un evento diverso

da∅. E è detto evento elementare se la sua intersezione con un qualunque altro

evento o lo lascia inalterato oppure coincide con∅.

La definizione precedente asserisce che un evento elementare non può essere

decomposto nell’unione di altri eventi.

22La definizione di spazio probabilizzabile deriva da quello di spazio misurableo di misurache

si introduce indipendentemente in teoria della misura. In questo casoΩ è un generico insieme non

vuoto eF unaσ-algebra suΩ. Un insiemeA ∈ F è dettomisurabile.

1.2.2 Laσ-algebra di BorelBConsideriamo come spazio campionario la retta, ovvero l’insiemeR dei numeri

reali. Per definizione, laσ-algebra di Boreldi R, o campo di Boreldi R, è la più

piccolaσ-algebra che contiene le semirette(−∞, a], cona ∈ R. Essa è general-

mente denotata dal simboloB e i suoi elementi sono dettiboreliani. B svolge un

ruolo fondamentale nella teoria della probabilità, nel seguito introdurremo alcune

sue fondamentali proprietà.

Proposizione 1.2.2.Si consideri laσ-algebra di BorelB e sianoa, b ∈ R.

1. B contiene gli insiemi del tipo(a,+∞). Infatti si ha: (a,+∞) ≡ (−∞, a].

2. B contiene gli insiemi del tipo(a, b]. Vale, infatti, la relazione(a, b] ≡(−∞, b] ∩ (a,+∞).

3. B contiene i punti isolatia. I punti isolati, infatti, sono intersezione di

un’infinità numerabile di intervalli:a ≡ ⋂n(a− 1n, a].

4. B contiene gli insiemi del tipo(a, b) ≡ (a, b] ∩ b.

5. B contiene gli insiemi del tipo[a, b] ≡ (a, b] ∪ a.

Gli insiemi dei numeri interi, dei razionali e dei naturali appartengono aB in

quanto unioni numerabili di punti isolati; anche l’insiemedei numeri irrazionali,

insieme complementare dei razionali, appartiene aB.

1.3 La probabilità

1.3.1 Considerazioni preliminari

Prima di introdurre formalmente il concetto di probabilitàsi ritiene utile proporre

alcune considerazioni tratte da un classico testo di teoriadella probabilità scritto

1.3 La probabilità 29

da un autore di scuola russa, B. Gnedenko, e tradotto in italiano alla fine degli anni

settanta (vedi [6]).

Abbiamo in precedenza definito l’esperimento casualeE come una generica pro-

cedura, spontanea oppure eseguita intenzionalmente, che produce dati numerici.

Per uniformarsi alla terminologia di Gnedenko l’esecuzione di un singolo espe-

rimento (prova) equivale a realizzare un insieme complessodi condizioniC: due

sostanze chimiche vengono fatte reagire ad una fissata temperatura e ad una da-

ta pressione. Lo schema più elementare, ma anche più rigido,di regolarità è il

seguente:ogni qual volta che si realizza l’insieme di condizioniC si richede che

si presenti l’eventoA. Esemplificando: se si riscalda l’acqua alla temperatura di

100 gradi centigradi alla pressione atmosferica (l’insieme dicondizioniC), essa

si trasforma in vapore (eventoA). Secondo questo schema vengono formulate le

leggi della fisica, della chimica e di altre discipline.

Un evento certo è un evento che si presenta senza incertezza alcuna ogni qual vol-

ta si realizzaC. Data la relizzazione diC, un evento che non occorre mai è detto

impossibile. Un evento, che al realizzarsi delle condizioni C, può accadere oppure

no è un evento casuale. Gnedenko sottolinea come la certezza, l’impossibilità o la

casualità di un evento sono da porre sempre in relazione ad unben definito insieme

di condizioniC. L’asserzione della casualità di un evento ci dice semplicemente

cheC non contiene l’intera collezione di ragioni necesssarie e sufficienti perché

l’evento si verifichi. Comunque per un ampio spettro di fenomeni, per i quali è

possibile il realizzarsi ripetuto delle condizioniC, si osserva che la percentuale

di casi in cui l’eventoA si presenta tende in modo significativo ad assumere un

qualche valore medio (legge empirica del caso). Lanciamo una moneta ben bi-

lanciata pern volte e registriamo la percentuale di occorrenza dell’evento testa.

Eseguendo perN volte la serie din lanci23 la percentuale di presentazione ditesta

23SiaN chen sono interigrandi.

è all’incirca di cinquanta volte su cento. In situazioni come questa appena descrit-

ta, oltre ad affermare il carattere aleatorio dell’evento,è pensabile di determinare

una stima approssimativa che l’evento ha di verificarsi. Questa stima può essere

espressa in una proposizione del tipo:la probabilità che l’eventoA si verifichi, in

seguito alla realizzazione delle condizioniC, è uguale a p.

Regolarità di questo tipo sono le regolarità stocastiche o probabilistiche alle quali

facevamo riferimento all’inizio del capitolo. È utile, affinchè il lettore compren-

da quanto sia ampio lo spettro di situazioni alle quali il ragionamento precedente

possa utilmente applicarsi, riportare l’esempio del decadimento radioattivo propo-

sto da Gnedenko24. Non vi è alcun modo per stabilire con certezza se un atomo

di radio decadrà o rimarrà stabile in un fissato intervallo ditempo. Sulla base di

osservazioni sperimentali è possibile calcolarne la probabilità di decadimento. È

stato dimostrato, misurando il tempot in anni, che tale probabilità è data da

p = 1− e−γt

oveγ = 4.36 × 10−4. In questo caso l’insieme di condizioniC consiste nel fatto

che, per il numerot di anni, l’atomo di radio non sia stato esposto a particolari

condizioni che possano influire con il decadimento spontaneo come, ad esempio,

il bombardamento da parte di particelle ad alta energia cinetica25; l’evento aleato-

rio di interesse è che l’atomo decada in un fissato numero di anni t.

Le basi della teoria della probabilità furono formulate nelXVII secolo nei lavori

24La teoria della probabilità nasce nell’ambito dei giochi d’azzardo nel XVII secolo. Lo svilup-

po successivo della teoria è strettamente legato ai progressi delle scienze naturali, della fisica in

particolare.25Il lettore tenga presente che nel caso in esame le condizioniambientali quali temperatura e

pressione sono ininfluenti.

di Fermat, Pascal26, Huygens e Jacob Bernoulli27; da allora la teoria si è svilup-

pata come disciplina matematica ed ha allargato il suo orizzonte applicativo in

diversi settori scientifici. Il concetto di probabilità matematica, in verità, necessita

di un approfondimento filosofico connesso, in particolare, all’applicazione della

teoria alla realtà sperimentale. Parafrasando Gnedenkosi tratta di comprende-

re sotto quali condizioni vi sia un significato oggettivo nella stima quantitativa

della probabilità di un evento casualeA, con l’aiuto di una numeroP(A), detto

probabilità matematica dell’eventoA. Il punto di partenza èla convinzione che

asserzioni probabilistiche esprimono alcune proprietà oggettive del fenomeno in

considerazione; se l’eventoA ha probabilitàp, deve esistere una relazione, di na-

tura diversa dal rapporto causa-effetto ma non per questo meno oggettiva, tra le

condizioniC e l’evento stesso. La relazione deve esistere indipendentemente dal-

l’osservatore,il problema filosofico è comprenderne la natura, tenendo conto che

l’esperienza insegna che il problema di una stima quantitativa della probabilità ha

un senso ragionevolmente oggettivo solo se sono verificate alcune condizioni ben

definite. Per l’insieme di condizioniC un evento che non sia né certo (conseguenza

necessaria delle condizioni) né impossibile è casuale. Tale definizione del caratte-

re aleatorio di un evento non implica né che sia possibile calcolarne la probabilità

né che essaesista. In ciascun caso particolare, l’esistenza del numerop = P(A)

26Il 24 agosto 1654 Blaise Pascal, filosofo e matematico francese, scrisse al suo connazionale

Pierre de Fermat una celebre lettera che segnò la nascita della moderna teoria della probabilità.

Essa aveva per oggetto il gioco d’azzardo. Nel 1663 venne anche pubblicato, molto dopo la sua

morte, ilLiber de ludo aleaedi Girolamo Cardano; si tratta del primo studio matematico sul lancio

dei dadi nel quale si dimostra come, nel caso di lanci ripetuti, determinati risultati mostrino delle

regolarità di occorrenza. Cardano, comunque, non usò mai iltermine probabilità ma possibilità.

Egli, matematico illustre ed abile medico, era un giocatored’azzardo, i suoi sforzi teorici erano

rivolti alla formulazione di regole di previsione per accrescere la possibilità di vincere scommesse.27Noto anche come James Bernoulli; la sua opera fondamentaleArs Coniectandiapparve nel

1713 dopo la morte dell’autore.

deve scaturire da considerazionia priori o, qualora se ne ipotizzi l’esistenza, deve

essere possibile una verifica susseguente.

Gnedenko esamina il caso di un nuovo elemento radioattivo; èlecito ipotizzare

che un atomo di questa sostanza, lasciato a se stesso, abbia un probabilità di deca-

dimento nel tempot data dap = 1 − e−γt, oveγ è il coefficiente di decadimento

ignoto che caratterizza la velocità di decadimento. Una domanda fondamentale

per la determinazione diγ consiste nel chiedersi se condizioni esterne, come l’in-

tensità della radiazione cosmica, possano influenzare il valore di tale parametro

determinando, di conseguenza, in valore numerico dip. Quindi l’ipotesi da porre

è che, dato un insieme di condizioni esternesufficientemente definite, γ assume

valori in conseguenza di esse.

La situazione ha una valenza generale nei diversi settori applicativi: chiarire il

significato filosofico del concetto diprobabilità matematicapuò risultare impos-

sibile se si sia alla ricerca diuna definizione applicabile a qualunque eventoA e

per un qualunque insieme di condizioniC.

1.3.2 Gli assiomi di Kolmogorov

L’ultimo passo per la formulazione del modello matematico che stiamo sviluppan-

do è l’indicazione di come assegnare a ciascun evento una misura numerica delle

possibilità che esso ha di realizzarsi. Seguendo l’impostazione originale formulata

dal matematico russo Andrej Nikolaevic Kolmogorov negli anni trenta del nove-

cento, si introduce il concetto di probabilità come una opportuna misura definita

sullaσ-algebra degli eventi. Kolmogorov in questo modo connesse strettamente

la teoria della probabilità alla teoria della misura ed allateoria degli insiemi che in

quegli anni si svilupparono notevolmente. Egli costruì la teoria della probabilità

a partire da assiomi seguendo una procedura che aveva già mostrato i suoi frutti

in altri settori della matematica come, tra altri, la geometria, la meccanica analiti-

ca e la teoria dei gruppi. Ricordiamo che in generale perassiomasi intende una

proposizione fondamentale che è considerataveraa priori; tutte le altre afferma-

zioni contenute nella teoria vanno dimostrate, a partire dagli assiomi che si sono

accettati, con un procedimento puramente logico. La formulazione degli assiomi

non deve apparire come il primo passo, in ordine temporale, per la costruzione

di una teoria matematica; essi scaturiscono dall’analisi critica dei risultati ottenuti

nel corso dello sviluppo storico, analisi che mira ad isolare gli aspetti veramente

fondamentali alla definizione di una teoria logicamente coerente. Naturalmente

Kolmogorov, nel definire gli assiomi alla base della teoria della probabilità, tiene

in debito conto le proprietà e i limiti insiti sia nella definizioneclassica28, o di La-

place, che in quellastatistica29, di probabilità. Teorie che si erano sviluppate nel

corso di secoli e che, con il crescente interesse in fenomeninaturali sempre più

complicati registrato dalla seconda metà dell’ottocento in poi, hanno incontrato

forti ed insormontabili critiche. In altri termini lo sviluppo delle scienze naturali

all’inizio del novecento poneva stringenti quesiti alla teoria della probabilità; era

necessario, quindi, studiare sistematicamente i fondamenti della teoria e chiarire le

ipotesi in base alle quali i risultati della teoria stessa potevano essere utilmente im-

piegati nello studio dei fenomeni naturali. Possiamo concludere che gli assiomi di

Kolmogorov rappresentano la formalizzazione e la generalizzazione di molti seco-

li di esperienza umana, intesa sia come successo esplicativo che come limite nella

descrizione coerente di un fenomeno. Nel precedente paragrafo è stato ricordato

il contributo degli studiosi del ’600 alla definizione dei fondamenti della proba-

bilità, nel XVIII secolo si registrano i contributi fondamentali di altri componenti

28rapporto fra casi favorevoli e casi possibili, talvolta chiamata definizioneaprioristica29basata sulla frequenza relativa di occorrenza di un evento (definizionefrequentista) essa, anche

se non esplicitamente espressa, appare per la prima volta nel libro di Cardano sul gioco dei dadi. È

da sottolineare che nello stesso libro si trovano accenni anche al calcolo delle probabilità secondo

la definizione classica.

della famiglia Bernoulli che applicarono il calcolo delle probabilità a problemati-

che concrete quali l’idrodinamica, la balistica e l’elasticità. Di altri autori, quali

Laplace, Bayes, De Moivre, Gauss, Poisson e dei matematici russi della scuola di

San Pietroburgo si parlerà in seguito quando saranno trattati argomenti specifici.

Possiamo ora formulare gli assiomi che definiscono la probabilità.

Definizione 1.3.1.Sia assegnato uno spazio probabilizzabileΩ,F. Una fun-

zione di insiemeP : F → R che gode delle proprietà

Assioma 1 ∀A ∈ F ,P(A) > 0,

Assioma 2 P(Ω) = 1,

Assioma 3 per ogni successione di eventiAnn∈N incompatibili si ha

∞⋃

∞∑

P(An),

viene dettamisura di probabilità, o più semplicementeprobabilità, suΩ,F.

L’assioma3 esprime la proprietà diadditività numerabileo completadella pro-

babilità30. Esso si rende necessario a causa del fatto che si ha costantemente a

che fare con eventi che si decompongono in un numero infinito di casi particolari.

Su alcuni testi l’assioma è inizialmente enunciato per una somma finita,additività

finita o semplice, e poi esteso alle somme numerabili; nel seguito dimostreremo

che additività finita segue dall’additività completa. Richiamiamo l’attenzione del

lettore sul fatto che l’assioma3 costituisce la forma più generale della cosiddetta

legge delle probabilità totali. Essa si enuncia dicendo chela probabilità dell’unio-

ne di eventi incompatibili è uguale alla somma delle probabilità dei singoli eventi

(vedi anche [4]).30Per indicare l’unione di eventi disgiunti useremo il simbolo ⊔. L’additività completa sarà de-

notata comeP(⊔∞

n=1 An) =∑∞

n=1 P(An), omettendo di precisare che gli eventi sono mutuamente

esclusivi.

Osservazione1.3.1. Gli assiomi di Kolmogorov riconducono la teoria della proba-

bilità nell’ambito della teoria della misura definita su campi boreliani di insiemi: la

probabilità stessa è una funzione di insiemi, non negativa eadditiva. La probabili-

tà di un evento del mondo reale è stato posto in relazione, nelmodello matematico,

ad una funzione definita su sottoinsiemi dello spazio campione.

Osservazione1.3.2. Il sistema degli assiomi di Kolmogorov èincompleto: infatti

per lo stesso spazio probabilizzanteΩ,F si possono scegliere le probabilità nel-

l’insiemeF in modi diversi. Su questo aspetto ritorneremo in seguito con qualche

esempio; si noti che l’incompletezza non suggerisce una scelta inadeguata degli

assiomi, essa è insita nella natura stessa della materia: possono esistere situazioni

nelle quali insiemi identici di eventi casuali hanno probabilità diverse. Si pensi ai

casi di una moneta bilanciata,equa, e truccata.

Concludiamo il paragrafo con la seguente definizione che riassume quanto finora

esposto ed è il punto di partenza per gli sviluppi futuri della teoria assiomatica

della probabilità.

Definizione 1.3.2.SiaE un esperimento casuale eG la famiglia degli eventi gene-

ratori. Dicesispazio di probabilitàla terna ordinataΩ,F ,P oveΩ è lo spazio

campione associato aE , F è la σ-algebra generata daG e P è una misura di

probabilità suΩ,F.

Concludiamo il paragrafo riassumendo i tre passi fondamentali per l’elaborazione

di un modello probabilistico:

1. individuare tutti i possibili esiti sperimentali,

2. individuare tutti gli eventi di interesse,

3. calcolo della probabilità di ciascun evento.

La parte più complicata ed interessante di un modello è il calcolo delle probabilità;

nei capitoli successivi ci occuperemo di questa problematica.

1.3.3 Prime conseguenze degli assiomi

Ricordiamo che per semplicità di esposizione abbiamo introdotto in una preceden-

te nota il simbolo⊔ per indicare l’unione di eventi disgiunti. Innazitutto dimostria-

mo come l’additività semplice sia una conseguenza dell’additività numerabile. Per

tale scopo enunciamo il seguente lemma.

Lemma 1.3.1.Si haP (∅) = 0 .

Dimostrazione.L’evento impossibile∅ è esprimibile come l’unione numerabile di

eventi impossibili, inoltre essi sono a due a due disgiunti epertanto∅ ≡ ⊔∞n=1 ∅.

L’assioma3, applicato alla precedente unione numerabile di eventi impossibili

mutuamente esclusivi, fornisce la relazione

P(∅) =∞∑

P(∅). (1.27)

EssendoP(∅) un numero reale finito, la (1.27) comporta che necessariamente deve

essereP(∅) = 0 .

Teorema 1.3.1.La misura di probabilità è finitamente additiva.

Dimostrazione.Occorre dimostrare che, seA1, A2, . . . , An sonon eventi incom-

patibili, allora si ha:

P(Aj). (1.28)

Osserviamo che a partire dalla successione finitaA1, A2, . . . , An è possibile co-

struire una successione numerabileBjj∈N ponendoBj = Aj , per1 6 j 6 n, e

Bn+1 = Bn+2 = · · · = ∅. Essendo, per costruzione, a due a due disgiunti anche

gli eventi della successioneBjj∈N, dall’assioma3 e dal lemma 1.3.1 segue che

[(n⊔

Aj ⊔ ∅ ⊔ ∅ ⊔ · · ·)]

(∞⊔

∞∑

P(Bj) =

P(Aj) +

∞∑

P(∅) =n∑

ed il teorema è dimostrato.

Corollario 1.3.1. Per ogni eventoE ∈ F risulta:

P(E) = 1− P(E). (1.29)

Dimostrazione.Osserviamo cheΩ = E ⊔ E. Dall’assioma2 e dalla (1.28) si

deduce la relazione

1 = P(Ω) = P(E ⊔ E

)= P(E) + P(E)

e la (1.29) è stata dimostrata.

Corollario 1.3.2. La probabilitàP(E), ∀E ∈ F , è un numero reale che verifica

la disuguaglianza0 6 P(E) 6 1 .

Dimostrazione.Per l’assioma1 valgono le disuguaglianzeP(E) > 0 eP(E) > 0;

essendoP(E) = 1− P(E) segue cheP(E) ∈ [0, 1].

Corollario 1.3.3. Se gli eventiE1 edE2 sono tali cheE1 ⊆ E2 si ha31

P(E1) 6 P(E2). (1.30)

31Il corollario dimostra la cosiddetta proprietà di monotonia.

Dimostrazione.Per l’ipotesi posta suE1 e E2 si haE1 ∪ E2 = E2 e, come

conseguenza della (1.9), otteniamo32

E2 = E1 ⊔(E1 ∩ E2

e, per la proprietà di additività finita della funzioneP,

P(E2) = P(E1) + P(E1 ∩ E2

La tesi del corollario segue dalla relazioneP(E1 ∩ E2

)> 0 .

Teorema 1.3.2.SianoE1 eE2 eventi. Si ha:

P(E1 ∪ E2) = P(E1) + P(E2)− P(E1 ∩ E2). (1.31)

Dimostrazione.Dalla (1.9), dalla (1.7) e dal teorema 1.3.1 otteniamo le relazioni

E1 ∪ E2 = E1 ⊔(E1 ∩ E2

)(1.32)

E2 = (E1 ∩ E2) ⊔(E1 ∩ E2

)(1.33)

P(E1 ∪ E2) = P(E1) + P(E1 ∩ E2

)(1.34)

P(E2) = P(E1 ∩ E2) + P(E1 ∩ E2

). (1.35)

Dalla (1.35) si ricava

P(E1 ∩ E2

)= P(E2)− P(E1 ∩ E2) (1.36)

e, sostituendo la (1.36) nella (1.34), si dimostra la tesi.

32Il lettore si convinca della validità della prima relazionefacendo ricorso ad un semplice

diagramma di Venn.

Esempio 1.3.1. Probabilità di errata diagnosi

Da precedenti indagini statistiche si sa che una determinata sintomatologia è pre-

sente nel65% dei soggetti affetti dalla patologia A, e nel45% dei soggetti affetti

dalla patologia B e nel30% dei casi in cui sono presenti entrambe le patologie.

Qual è la probabilità che un soggetto che riferisce tale patologia soffra di una ma-

lattia diversa da A e da B?

Per rispondere al quesito occorre determinareP(A ∩ B). Ricordando leggi di De

Morgan, possiamo scrivere la relazioneA ∩ B = A ∪B da cui si ricava

P(A ∩B) = 1− P(A ∪ B) = 1− [P(A) + P(B)− P(A ∩B)]

= 1− [0.65 + 0.45− 0.3] = 1− 0.8 = 0.2 .

La probabilità di errata diagnosi è del20%.

Dal diagramma di Venn in figura 1.4, identificandoE1 conA eE2 conB, si evince

cheE1 ∩ E2 = E2 − E1, per cui dalla (1.36) discende la relazione probabilistica:

P(E2 − E1) = P(E2)− P(E1 ∩ E2). (1.37)

La formula di inclusione-esclusioneche dimostreremo nel successivo teorema è

una generalizzazione della (1.31).

Teorema 1.3.3.SiaE1, . . . , En una successione di eventi:Ei ∈ F , 1 6 i 6 n.

La probabilità dell’evento unione⋃n

i=1Ei è data dalla relazione

P(Ei)−∑

P(Ei ∩ Ej) +∑

P(Ei ∩ Ej ∩ Ek)+

+ · · ·+ (−1)n+1P(E1 ∩ E2 ∩ · · · ∩ En). (1.38)

Dimostrazione.Si procede per induzione. Osserviamo che la (1.38) è verificata

pern = 2 in virtù del teorema 1.3.2 e dimostriamo che se essa è supposta valida

per un interon = r allora è valida anche pern = r + 1. PoniamoBr =⋃r

i=1Ei.

Grazie alla (1.31) possiamo esprimere la probabilità diBr+1 come

P(Br+1) = P(Br ∪ Er+1) = P(Br) + P(Er+1)− P(Br ∩ Er+1).

Poiché la (1.38) è ipotizzata valida pern = r, la precedente relazione può essere

riscritta come

P(Br+1) ≡ P

(r+1⋃

+ P(Er+1)− P(Br ∩ Er+1)

=[ r∑

P(Ei)−∑

P(Ei ∩ Ej) +∑

P(Ei ∩ Ej ∩ Ek)

+ · · ·+ (−1)n+1P(E1 ∩ E2 ∩ Ek ∩ · · · ∩ Er)

+ P(Er+1)− P

(Ei ∩ Er+1)

. (1.39)

Calcoliamo, ora, la probabilitàP [⋃r

i=1(Ei ∩ Er+1)] applicando ancora una volta

la formula (1.38). Si ha

(Ei ∩ Er+1)

P(Ei ∩ Er+1)−r∑

P [(Ei ∩ Er+1) ∩ (Ej ∩ Er+1)]

P [(Ei ∩ Er+1) ∩ (Ej ∩ Er+1) ∩ (Ek ∩ Er+1]

+ · · ·+ (−1)r+1P [(E1 ∩ Er+1) ∩ (E2 ∩ Er+1) ∩ · · · ∩ (Er ∩ Er+1)] . (1.40)

Ricordiamo che l’intersezione gode della proprietà associativa e che l’intersezione

di un insieme con sé stesso dà l’insieme stesso. Ciò premessola (1.40) diventa

(Ei ∩ Er+1)

P(Ei ∩ Er+1)−r∑

P(Ei ∩ Ej ∩ Er+1)

+ · · ·+ (−1)r+1P (E1 ∩ E2 ∩ · · · ∩ Er+1) . (1.41)

Sostituendo la (1.41) nella (1.40), si ricava la (1.38) scritta pern = r + 1 ed il

teorema è stato dimostrato.

Esempio 1.3.2. Probabilità di contaminazione

Durante il processo di preparazione di una pietanza precotta tre possibili agenti

infettivi, indicati nel seguito con A, B e C rispettivamente, possono contaminare

accidentalmente il prodotto. Essi possono essere presentisia da soli che contem-

poraneamente. Calcoliamo la probabilità degli eventi definiti dalla proposizioni

non vi è stata contaminazionee un solo agente infettivo ha contaminato il pro-

dotto nell’ipotesi che le probabilità di contaminazione sianoP(A) = 5 · 10−3,

P(B) = 4 · 10−3, P(C) = 4 · 10−3, P(A ∩B) = 2 · 10−4, P(A ∩ C) = 1.5 · 10−3,

P(B ∩ C) = 1 · 10−3, P(A ∩ B ∩ C) = 3 · 10−3.

Indichiamo, rispettivamente, conE1 eE2 gli eventi di interesse. Affinché non vi

sia stata contaminazione, tutti gli agenti infettivi non devono essere presenti nella

pietanza e quindiE1 ≡ A ∩ B ∩ C. Ricordando le formule di De Morgan si ha

A ∩ B ∩ C = A ∪ B ∪ C e, quindi,P(E1) = 1 − P(A ∪ B ∪ C). Applicando la

regola di inclusione-esclusione al caso di tre eventi si ricava

P(A ∪B ∪ C) = P(A) + P(B) + P(C)

− P(A ∩ B)− P(A ∪ C)− P(B ∪ C) + P(A ∩B ∩ C) = 0.01285

da cui segueP(E1) = 1− 0.01285 = 0.98715 .

L’eventualità che un solo agente infettivo abbia contaminato il prodotto è il risul-

tato dei tre eventi incompatibiliè presente solo A, è presente solo B, è presente

solo C. Formalmente si ha

E2 = (A ∩B ∩ C) ∪ (A ∩B ∩ C) ∪ (A ∩B ∩ C).

Osserviamo, innazitutto, che

A ∩ B ∩ C = A ∩ (B ∩ C) = A ∩ (B ∪ C)

e, quindi,

P(A ∩ B ∩ C) = P(A ∩ (B ∪ C) = P((B ∪ C) ∩A).

Ricordando la (1.36), otteniamo infine

P(A ∩B ∩ C) = P(A)− P[(B ∪ C) ∩A]

= P(A)− P[A ∩ (B ∪ C)] = P(A)− P[(A ∩ B) ∪ (A ∩ C)]

= P(A)− [P(A ∩ B) + P(B ∩ C)− P(A ∩ B ∩ C)]

= 5 · 10−3 − 0.2 · 10−3 − 1 · 10−3 + 3 · 10−3 = 6.8 · 10−3.

Con analoga procedura si calcola

P(A ∩B ∩ C) = P(B)− [P(A ∩ B) + P(B ∩ C)− P(A ∩ B ∩ C)]

= 4 · 10−3 − 0.2 · 10−3 − 1 · 10−3 + 3 · 10−3 = 3.1 · 10−3

P(A ∩B ∩ C) = P(C)− [P(A ∩ C) + P(B ∩ C)− P(A ∩ B ∩ C)]

= 4 · 10−3 − 1.5 · 10−3 − 1 · 10−3 + 3 · 10−3 = 4.5 · 10−3

pertanto

P(E2) = 6.8 · 10−3 + 3.1 · 10−3 + 4.5 · 10−3 = 14.4 · 10−3.

SeE1 eE2 eventi disgiuntiP(E1 ∩ E2) = P(∅) = 0, cosicché la (1.31) esprime

semplicemente la finita additività diP. In particolare, in questo caso, si ha:

P(E1 ∪ E2) ≡ P(E1 ⊔ E2) = P(E1) + P(E2)

che costituisce l’espressione più semplice della legge delle probabilità totali.

In generale vale la disugualianza detta diBoole

P(E1 ∪ E2) 6 P(E1) + P(E2) (1.42)

essa fornisce un maggiorante per calcolare la probabilità dell’unione di due eventi

ed è particolarmente utile quando il calcolo della probabilità dell’intersezione non

sia agevole. La (1.42) ha un valenza generale, dimostriamo innazitutto che essa è

valida per un numero finito di eventi.

Teorema 1.3.4.SiaE1, . . . , En una qualsiasi sequenza finita di eventi, risulta:

P(Ei) (1.43)

oven è un generico numero intero finito.

Dimostrazione.Procediamo per induzione. Osserviamo che, in virtù della (1.42),

la tesi del teorema sussiste nel caso particolare din = 2. Supponimo che essa sia

vera pern = k e poniamon = k + 1. Si può scrivere

(k+1⋃

Ei ∪ Ek+1

per la (1.42)6 P

+ P(Ek+1) 6

P(Ei) + P(Ek+1)

che coincide con la (1.43) pern = k + 1 ed il ragionamento per induzione è

completato.

Teorema 1.3.5.SiaEii∈N una generica sequenza numerabile di eventi, risulta:

(∞⋃

∞∑

P(Ei). (1.44)

Dimostrazione.Nel caso particolare in cui la serie a secondo membro della (1.44)

sia divergente la tesi del teorema segue per banale conseguenza. Supponiamo,

invece, che essa converga ad un limite finito. La relazione (1.10) esprime l’insieme⋃Ei come unione di eventi mutuamente esclusivi33:

∞⋃

Ei = E1 ⊔ (E1 ∩E2) ⊔ (E1 ∩E2 ∩E3)⊔ · · · ⊔ (E1 ∩ · · · ∩Ei−1 ∩Ei) ⊔ · · · .

Osserviamo cheE1 ∩ E2 è la parte diE2 non comune adE1, E1 ∩ E2 ∩ E3 è la

parte diE3 non comune adE1 ed aE2, pertantoE1∩E2 ⊆ E2,E1∩E2∩E3 ⊆ E3

e così via. Per il corollario 1.30 e la proprietà di additività completa si ricava

(∞⋃

= P(E1) + P(E1 ∩ E2) + P(E1 ∩ E1 ∩ E2) + · · ·

6 P(E1) + P(E2) + P(E3) + · · ·+ P(Ei) + · · ·

e la tesi è stata dimostrata.

1.3.4 Il teorema di equivalenza

Dato uno spazio di probabilitàΩ,F ,P, come abbiamo dimostrato in precedenza

l’additività numerabile implica l’additività finita; in generale non vale il viceversa.

Definizione 1.3.3.Consideriamo una funzione di insiemeT : F −→ R. Se per

ogni successione di eventiAnn∈N dotata di limite, ossia tale che∃A ∈ F per il

qualeA = limn→∞An ≡ lim infn→∞An ≡ lim supn→∞An, risulta

limn→∞

T (An) = T

limn→∞

= T(A) (1.45)

allora si dice cheT verifica la proprietà di continuità.

Sussiste il seguente teorema che il lettore interessato trova dimostrato in [2].

33Un diagramma di Venn con tre eventi può aiutare il lettore a convincersi della correttezza di

questa riscrittura della (1.10).

Teorema 1.3.6(Teorema di equivalenza). SiaΩ,F uno spazio probabilizza-

bile. Una funzione di insiemeP : F −→ R, soddisfacente gli assiomi1 e 2

della definizione 1.3.1, è numerabilmente additiva se e solose essa verifica sia la

proprietà di additività finita che la proprietà di continuità.

1.3.5 Eventi quasi certi ed eventi quasi impossibili

Il secondo assioma della definizione 1.3.1 afferma che l’evento certoΩ ha proba-

bilità 1, ma non esclude che ad altri eventi, diversi daΩ, possa essere associato una

probabilità uguale a 1. Lo stesso ragionamento vale per l’evento impossibile che,

per il lemma 1.3.1, ha probabilità di occorrenza nulla; non èdetto che un evento a

probabilità zero coincida con∅. Considerato uno spazio di probabilitàΩ,F ,P,

diamo le definizioni seguenti.

Definizione 1.3.4.Un eventoC si dicequasi certose risultaP(C) = 1 .

Definizione 1.3.5.Un eventoI si dicequasi impossibilese risultaP(I) = 0 .

I due concetti sono tra loro strettamente legati. Infatti dalla (1.29) segue la re-

lazioneP(A) + P(A) = 1 ed allora seA è quasi certoA è quasi impossibile, e

viceversa.

Teorema 1.3.7.SiaA un generico evento. SeI è un evento quasi impossibile

valgono le relazioni

P(A ∩ I) = 0 (1.46a)

P(A ∪ I) = P(A) (1.46b)

e, seC è un evento quasi certo,

P(A ∩ C) = P(A) (1.47a)

P(A ∪ C) = 1 . (1.47b)

Dimostrazione.Per dimostrare la (1.46a) osserviamoA ∩ I ⊆ I. Per la proprietà

di monotonia34 di P si haP(A ∩ I) 6 P(I) = 0 e, grazie al corollario 1.3.2,

0 6 P(A ∩ B) 6 P(B) = 0. Analogamente, poichéA ∪ C ⊇ C e ricordando

ancora il corollario 1.3.2, si ha1 > P(A ∪ C) 6 P(C) = 1 e la (1.47b) risulta

verificata. Utilizziamo, ora, la relazioneA∪I = A⊔(A∩I). Per la finita additività

di P e per la (1.46a), si ha

P(A ∪ I) = P(A) + P(A ∩ I) = P(A)

ed anche la (1.46b) è stata dimostrata. Infine dalla (1.7) si ricava

A = (A ∩ C) ⊔ (A ∩ C)

da cui35

P(A) = P(A ∩ C) + P(A ∩ C) = P(A ∩ C).

34vedi corollario 1.3.335Si ricordi che se un evento è quasi certo la sua negazione è quasi impossibile.

CAPITOLO 2

Spazi campionari discreti

Nel capitolo precedente abbiamo definito la misura di probabilità a partire da un

generico spazio campionario. In questo capitolo restringeremo la nostra attenzione

al caso discreto.

2.1 Applicazione della definizione di Kolmogorov al

caso discreto

SiaΩ uno spazio campione discreto, finito o numerabile, eF la σ-algebra degli

eventi. Per calcolare la probabilità di un generico eventoE ∈ F è sufficiente

assegnare un valore di probabilità ai singoli eventi elementari ωi:

pi = P(ωi).

In virtù degli assiomi, i numeripi devono essere tali che

∀i, pi > 0 e∑

pi = 1 . (2.1)

48 Capitolo 2. Spazi campionari discreti

Infatti la prima relazione segue dall’assioma 1 e, per l’assioma 2, si ha:

1 = P(ω) = P

Poiché un generico eventoE è l’unione, finita o numerabile, di eventi elementari

incompatibili,E =⊔

iωi, per la proprietà di additività completa della misura di

probabilità si ha:

P(E) =∑

i:ωi∈E

pi. (2.2)

P definisce una misura di probabilità suΩ,F. L’insieme di valoripi è detto

distribuzione di probabilità: la probabilità totale, pari ad1, è distribuita su tutti gli

ωi ∈ Ω.

2.1.1 Esiti equiprobabili

Supponiamo che lo spazio delle prove sia finito1, Ω = ω1, ω2, . . . , ωn(Ω), le

relazioni (2.1) e (2.2) diventano2

pi > 0 (1 6 i 6 n)

pi = 1 P(E) =

pi. (2.3)

In particolare, assumiamo

p1 = p2 = · · · = pn =1

n(2.4)

in modo tale che

P(E) = nE/n(Ω). (2.5)

L’assegnazione delle probabilità 2.4 è dettauniformeo equiprobabile.

1Indichiamo conn(Ω) ≡ n il numero degli esiti elementari.2E è l’unione (si decompone) dinE eventi elementari:E =

i=1ωi.

2.1 Applicazione della definizione di Kolmogorov al caso discreto 49

Osservazione2.1.1. La (2.5) riduce il cacolo della probabilità dell’eventoE alla

determinazione del numero degli elementi che compongonoE: in numero degli

esiti favorevoli adE. Questa metodologia di calcolo, da noi dedotta applicando gli

assiomi di Kolmogorov al caso particolare degli spazi campionari discreti e finiti,

fu proposta inizialmente come definizione di probabilità, definizione classica, nel-

la quale l’equiprobabilità degli eventi elementari era assunta valida a priori. Essa

ha trovato applicazione soprattutto nella teoria dei giochi.

Esempio 2.1.1. Lancio di una moneta

Nel caso del lancio di una moneta, come abbiamo visto, lo spazio campione è

Ω = T, C en(Ω) = 2. Definiamo la misura di probabilità ponendo

P(T ) = p = 1− P(C) 0 6 p 6 1 . (2.6)

La (2.6) definisce la probabilità sullo spazio probabilizzabile Ω,F, ove laσ-

algebra degli eventi èF = ∅, T, C, T, C.Se la moneta è bilanciata (one-

sta), risultap = 1/2, infatti n(Ω) = 2 .

Se si lancia per tre volte lo moneta, lo spazio campionario è costituito da otto punti

campione

Ω = CCC︸︷︷︸

, CCT︸︷︷︸

, CTC︸︷︷︸

, TCC︸︷︷︸

, CTT︸︷︷︸

, TCT︸︷︷︸

, TTC︸︷︷︸

, TTT︸︷︷︸

p1 = p2 = · · · = p8 =1

Sia l’eventoA definito dalla proposizionelanciando tre volte una moneta si os-

serva due volte testaeB l’eventonon appare mai testa, si ha

P(A) = P(ω5, ω6, ω7) =3

P(B) = P(ω1) =1

Esempio 2.1.2.In un’urna sono contenute sei bussolotti numerati da uno a sei, i

primi quattro sono di colore rosso ed i rimanenti due neri. Supponiamo di estrarre

a caso un bussolotto; all’esperimento casuale è associato lo spazio campioneΩ =

1, 2, 3, 4, 5, 6; la probabilità che sia estratto un qualunque numero da uno asei

è p = 16. Calcoliamo la probabilità dell’eventoestrazione di un bussolotto rosso

dato dal sottoinsiemeA = 1, 2, 3, 4.Indicando connA il numero di casi favorevoli adA, si ha:

P(A) =nA

È importante notare che il precedente non è l’unico modello probabilistico possibi-

le. Si potrebbe considerare non adatta allo scopo l’ipotesidi equiprobabilità degli

esiti elementari. Le palline nell’urna potrebbero essere truccate ed alcune ave-

re una probabilità maggiore di essere estratte. Assegniamo, a priori, le seguenti

probabilità:

P[1] = P[2] = P[3] = P[4] =1

P[5] = P[6] =1

Tenuto conto cheA = 1 ⊔ 2 ⊔ 3 ⊔ 4, dalla (2.2) si ricava

P(A) = P[1] + P[2] + P[3] + P[4] = 1

Esempio 2.1.3. Lotteria di beneficenza

Per promuovere i festeggiamenti del santo patrono, il parroco mette in vendita

mille biglietti; ai primi dieci estratti sarà assegnato un premio. Nell’ipotesi che

tutti i biglietti siano stati collocati, calcoliamo la probabilità di vincere almeno un

premio acquistando tre tagliandi.

La probabilità che un singolo biglietto sia estratto è10−3, essendo dieci le estra-

zioni la probabilità di vincere un premio è10 · 10−3 = 10−2. Indichiamo conAk

2.2 Alcune situazioni specifiche e richiami di calcolo combinatorio 51

l’evento: il k-esimo biglietto vince un premio. Avendo acquistato tre tagliandi,

l’eventoA, vincere almeno un premio, èA = A1 ∪ A2 ∪ A3, oveA1, A2, A3 non

sono disgiunti. Dalla regola di inclusione-esclusione si ricava

P(A) = P(A1 ∪ A2 ∪A3) = P(A1) + P(A2) + P(A3)

− P(A1 ∩ A2)− P(A1 ∪ A3)− P(A2 ∪A3) + P(A1 ∩A2 ∩A3)

ma, non essendo note le probabilità degli eventi intersezione, possiamo calcolare

un maggiorante diP(A) grazie alla disuguaglianza di Boole:

P(A) 6 P(A1) + P(A2) + P(A3) = 3× 10−2.

2.2 Alcune situazioni specifiche e richiami di calcolo

combinatorio

Nel trattare con spazi campionari discreti e finiti, i cui esiti elementari siano equi-

probabili, il calcolo della probabilità di un evento si riduce al problema di contare

gli esiti sperimentali possibili e quelli favorevoli all’evento di interesse. Questa

operazione è facilitata dalla conoscenza di alcune regole eteoremi del calcolo

combinatorio richiamati nei paragrafi successivi.

2.2.1 Coppie edr-ple

Proposizione 2.2.1.Conm elementia1, a2, · · · , am edn elementib1, b2, · · · , bnsi possono formarem×n coppie(j, k) contenenti un elemento da ciascun gruppo.

Infatti daa1 si ricavano len coppie

(a1, bk) k = 1, 2, . . . n,

daa2 ulteriori n coppie

(a2, bk) k = 1, 2, . . . n,

ed infine daam ancora len coppie

(am, bk) k = 1, 2, . . . n.

Esempio 2.2.1. Lancio di due dadi

Ciascun dado a sei facce numerate da uno a sei; lo spazio campione è costituito

dalle coppie(i, j) con i = 1, 2, . . . , 6 e j = 1, 2, . . . , 6 e, quindi,nΩ = 36 . Se i

dadi non sono truccati, tutte le coppie sono equiprobabili esi ha:

P[(i, j)] =1

36∀(i, j).

Calcoliamo la probabilità che l’esito del lancio sia un punteggio non inferiore a

cinque.

P[(i, j) : i+ j > 5, i, j = 1, . . . , 6]

= 1− P[(i, j) : i+ j 6 4, i, j = 1, . . . , 6]

= 1− P[(1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (3, 1)]

= 1− 6

36= 1− 1

Allo stesso risultato si perviene contando il numeron di coppie favorevoli al

risultato atteso e calcolando il rapporton

nΩ. La procedura è più lunga.

Proposizione 2.2.2.Siano assegnatir insiemi finiti

ai (i = 1, 2, . . . , n1),

bj (j = 1, 2, . . . , n2),

xr (r = 1, 2, . . . , nr);

è possibile formaren1 × n2 × · · · × nr r-ple ordinate

(ak1 , bk2 , . . . , xkr)

contenenti un elemento estratto da ciascuno deglir gruppi.

Ser = 2 si ricade nel caso delle coppie; ser = 3, consideriamo len1 × n2 coppie

(ai, bj) come un singolo elemento, si formano cosìn1×n2×n3 triple (ai, bj , ck), da

queste ultime si ottengonon1×n2×n3×n4 quadruple(ai, bj , ck, dl) e procedendo

in questo modo si dimostra la proposizione.

Esempio 2.2.2. Condizioni sperimentali in agricoltura

Supponiamo di dover valutare l’efficacia di un nuovo antiparassitario per la pro-

duzione di grano. L’antiparassitario può essere somministrato in quattro differenti

concentrazioni(a1, a2, a3, a4); la sua efficacia potrebbe dipendere dalle condizio-

ni climatiche e dall’entità della concimazione. Nell’ipotesi che si adottino cinque

differenti concentrazioni di fertilizzante,(f1, f2, f3, f4, f5), e che si considerino le

condizioni di clima freddo,T1, clima temperato,T2, e clima caldo,T3, possiamo

formare4×5×3 = 60 triplette(ai, fj, Tk) che individuano le differenti condizioni

sperimentali.

Esempio 2.2.3. Codice alfanumerico

Un codice alfanumerico è formato da cinque caratteri(a1, a2, a3, i1, i2), i primi tre

sono lettere dall’alfabeto inglese (26), mentre gli ultimidue numeri sono interi

compresi tra zero e nove (10):

1. A1 = a, b, c, . . . , z,

2. A2 = a, b, c, . . . , z,

3. A3 = a, b, c, . . . , z,

4. I1 = 0, 1, 2 . . . , 9,

5. I2 = 0, 1, 2 . . . , 9.

I possibili codici differenti sono:263 × 102 = 1.757.600 .

2.2.2 Il campionamento

Con il terminepopolazione3 si intende un generico aggregato din elementi

a1, a2, . . . , an.

La selezionecasualedi r elementi dalla popolazione è dettacampionamento. Af-

finchè il campionamento sia casuale è necessario che ciascunmembro della popo-

lazione abbia la stessa possibilità di essere estratto e la selezione di un particolare

elemento non influenzi la scelta dei successivi. Nel seguitoconsidereremo unica-

mente il campionamento casuale. Se si associa a ciascun membro della popolazio-

ne una pallina numerata e queste vengono inserite in un’urna, il campionamento

casuale può essere idealizzato come l’estrazione di un bussolotto dall’urna. Il sin-

golo elemento della popolazione prescelto è quello a cui è stato associato l’intero

k ∈ [1, n] estratto.

Definizione 2.2.1. Campionamento con reimbussolamentoIl campionamento

è, ad ogni passo, effettuato sull’intera popolazione: un elemento una volta scel-

to è reinserito nell’urna e può essere selezionato più volte. Il campione è una

successione di elementi della popolazione con possibili ripetizioni4.

3Il termine popolazione è utilizzato in statistica, nel nostro caso (spazi campionari discreti

e finiti) la popolazione rappresenta l’insieme dei risultati possibili dell’esperimento casualeE , in

altre parole la popolazione coincide con lo spazio delle prove. Al campione casuale, che definiremo

subito dopo, si associa concettualmente l’insieme dei casifavorevoli.4Il campionamento con reimbussolamento è detto anche conrestituzione.

Definizione 2.2.2. Campionamento senza reimbussolamento

Una volta scelto un elemento, esso è escluso dalle successive selezioni: non sono

ammesse ripetizioni.

2.2.3 Campione ordinato

Un campione ordinato ditaglia r è un ordinamento del tipoaj1, aj2, . . . , ajr di

elementi non necessariamente distinti della popolazione(ai, . . . , an). Due qualun-

que di tali campioni ordinati sono diversi non solo quando c’è almeno un elemento

che è presente in uno di essi ma non nell’altro, ma anche se, essendo le duer-ple

costituite esattamente dagli stessi elementi, questi occupano posizioni differenti

nei due ordinamenti. Il campione ordinato di tagliar è spesso dettor-disposizione

o disposizione di classer.

Proposizione 2.2.3.Fissata una tagliar, da una popolazionea1, a2, . . . , an,

campionando con restituzione, si possono estrarrenr differenti campioni ordinati

aj1, aj2, . . . , ajr.

Per convincersi della validità della precedente asserzione, si ragioni come per

la proposizione 2.2.2. In questo caso vi sonor insiemi din elementi e ciascun

insieme coincide con la popolazione:

n× n× · · · × n︸︷︷︸

Esempio 2.2.4. Totocalcio

Una colonna della schedina del totocalcio prevede tredici pronostici, r = 13;

(1, X, 2) sono i simboli disponibili, gli elementi della popolazionesono, quindi,

tre. Il numero di colonne distinte ènr = 313.

Esempio 2.2.5. Alfabeto Morse

I simboli dell’alfabeto Morse sono solamente due, il punto ela linea,(•,−), che

disposti su un fissato numero di spazi5 formano, per convenzione, una lettera;

più spazi abbiamo a disposizione, maggiore è il numero di lettere che si possono

codificare. Calcoliamo il numero di lettere che si possono codificare con una

stringa ordinata di punti e linee di lunghezza quattro. Essendon = 2 edr = 4, si

ha:nr = 24 = 16.

• • •• − −−− • − −• • • −•• • •− − −−• − • •− • − ••• • −− −− •• − • −• − − •−• − −− − • •• • − •− − • −−

Proposizione 2.2.4.Fissata una tagliar, da una popolazionea1, a2, . . . , an ove

n > r, campionando senza reimbussolare, si possono estrarre

n(n− 1)(n− 2) · · · (n− r + 1) ≡ (n)r

differenti campioni ordinatiaj1, aj2, . . . , ajr.Infatti si può scegliere inn modi diversi solo il primo elementoaj1, quest’ulti-

mo, campionando senza restituzione, non è disponibile per la scelta successiva e,

quindi, vi sonon − 1 possibilità di scelta diaj2; procedendo in questo modo,ajr

è selezionabile dagli[n − (r − 1)] = (n − r + 1) elementi rimasti disponibili.

L’intero (n)r, il prodotto din per i primi r − 1 interi positivi minori din, è detto

numero di disposizioni semplici di n oggetti presi r alla volta, o r-disposizione

semplice, ed è denotato dal simbolo combinatorio:nDr. Nel caso in cuir = n, la

n-disposizione semplice si dicepermutazionedeglin elementi sun posti. Si ha

(n)n ≡ Pn = n · (n− 1) · (n− 2) · · ·2 · 1 ≡ n!

oven! si leggen fattoriale.

Osserviamo che, per ogni numero naturalen > 2, si ha

n! = n · (n− 1)! (2.7)

5Il numero degli spazi è la lunghezza della sequenza (stringa) di punti e linee.

ed, affinché la (2.7) abbia significato anche pern = 1, si pone0! = 1, per

convenzione. Risulta:

(n− r)!=

n · (n− 1) · · · (n− r + 1) · (n− r) · · ·2 · 1(n− r) · (n− r − 1) · · ·2 · 1

= n · (n− 1) · · · (n− r + 1) ≡ (n)r . (2.8)

Esempio 2.2.6.A tre dei cinque componenti di un consiglio direttivo deve essere

attribuito l’incarico di presidente, segretario e tesoriere rispettivamente, al fine di

formare il consiglio di presidenza. Non è ammesso il cumulo delle cariche. Qual

è il numero dei possibili consigli di presidenza se si assumedi distribuire a caso

gli incarichi?

Per le ipotesi poste sul cumulo delle cariche si rientra nell’ambito del campiona-

mento senza reimbussolamento; quindi il numero dei possibili differenti consigli

di amministrazione è:(n)r = (5)3 = 5 · 4 · 3 = 60.

Osservazione2.2.1. Campionando con e senza restituzione, da una popolazione di

n elementi si ricavanonr ed(n)r campioni ordinati di taglian, rispettivamente. La

probabilità di selezionare un determinato campioneaj1, aj2, . . . , ajr è, quindi,1

nrse si campiona con restituzione e

(n)r, altrimenti. Il rapporto

p =(n)rnr

esprime la probabilità che nel campionamento con reimbussolamento da una popo-

lazione din elementi si ottenga un campione ordinato di tagliar senza ripetizione

di elementi. Infatti a denominatore della (2.9) compare il numero dei possibili esiti

del campionamento e, a numeratore, il numero di campioni contutti gli elementi

distinti (casi favorevoli), che è quello calcolato nel casospecifico del campiona-

mento senza reimbussolamento.

Se si selezionano cinque interi dai primi dieci numeri naturali 0, 1, . . . , 9, la pro-

babilità che essi siano tutti differenti, nell’ipotesi cheil campionamento avvenga

con restituzione, è

p =(10)5105

=10 · 9 · 8 · 7 · 6

105≈ 0.3 .

2.2.4 Campione non ordinato

Affrontiamo ora lo studio di quelle situazioni nelle quali non è di interesse l’ordine

di estrazione dalla popolazione dei singoli oggettiajk . In questo caso il campione

di tagliar, aj1 , aj2, . . . , ajr, è detto campione casuale non ordinato. Due cam-

pioni differiscono tra loro se e solo se essi hanno almeno un elemento che non

sia comune ad entrambi. In seguito si tenderà ad omettere il termine non ordinato

e, nel caso in cui l’ordinamento è essenziale, il campioneaj1, aj2, . . . , ajr sarà

sempre denotato come un campione ordinato.

Supponiamo di campionare senza reimbussolamento, qual è ilnumero di campio-

ni di taglia r che si possono estrarre da una popolazione din elementi distinti?

O, in altre parole, in quanti modi da un totale din oggetti distinti se ne possono

estrarrer non essendo rilevante l’ordine di selezione? Come abbiamo dimostrato

in precedenza, campionando senza reimbussolare vi sono(n)r campioni ordinati

di tagliar nei quali, per effetto della tecnica di campionamento, tutti gli elementi

ajk sono tra loro distinti. Ciascuna deller! permutazioni diaj1 , aj2, . . . , ajr darà

luogo allo stesso campione non ordinato, sicché da una popolazione di ampiezza

n si possono estrarre(n)rr!

sottogruppi dir elementi distinti. In virtù della (2.8) si

ha(n)rr!

r! · (n− r)!≡(n

(2.10)

è denominatocoefficiente binomialee si leggen su r. Mutuando la

terminologia propria del calcolo combinatorio, il campione casuale non ordinato

di tagliar viene indicato come la combinazione dir oggetti distinti da un totale di

n. Al numero totale,

, di tali possibili combinazioni è riservata la notazione

Esempio 2.2.7. Possibili stringhe di tre lettere diverse

Quante stringhe composte da tre lettere distinte si possonoformare dalle prime

cinque lettere dell’alfabeto? Per rispondere al quesito è necessario calcolare il

numero di combinazioni di tre oggetti differenti da un totale di cinque:

3! · 2! =4 · 52

= 10 .

Infatti a partire dalla sequenza di letterea, b, c, d, e, le possibili stringhe alfabe-

tiche non ordinate, tra loro diverse e senza ripetizioni, sono le seguenti:

abc acd bcd cde abd

ace bce abe ade bde.

Esempio 2.2.8. Il gioco del lotto

Fissata una ruota, sono possibili(90

=89 · 90

2= 4005 ambi,

=88 · 89 · 90

6= 117.480 terni,

=87 · 88 · 89 · 90

24= 2.555.190 quaterne,

=86 · 87 · 88 · 89 · 90

120= 43.949.268 quintine.

Riportiamo alcune relazioni utili nei calcoli. Per convenzione si pone(n

= 1 (2.11)

= 0 (2.12)

ser < 0 oppurer > n.

Sen edr sono interi tali chen > r > 0, dalla (2.10) si ricava l’dentità:(n

n− r

. (2.13)

Le seguenti identità sono valide qualunque sia l’interor:(n+ 1

r − 1

, (2.14)

(n− 1

r − 1

. (2.15)

In generale, ses è un intero non negativo, si ha

(r)s ·(n

= (n)s ·(n− s

r − s

. (2.16)

Vale il seguente teorema6

Teorema 2.2.1(Teorema Binomiale). Sen e t verificano opportune condizioni

vale la relazione

(1 + t)n =

∞∑

tr. (2.17)

(i) Se n è un intero positivo, la serie si riduce ad una somma finitae pertanto

converge∀t ∈ R.

(ii) Se n è negativo o razionale, la serie converge se|t| < 1 e diverge se|t| > 1.

Set = +1, a serie a secondo membro della(2.17)converge sen > −1; se

t = −1 essa converge per valori positivi din.

6Per la dimostrazione si consulti un testo avanzato di analisi. Si noti che(nr

)prende il nome di

coefficiente binomiale in quanto compare come coefficiente nella (2.17).

Sian un intero positivo et = 1, dalla (2.17) si ottiene

∞∑

+· · ·+(n

0︷︸︸︷(

+ · · · =n∑

. (2.18)

Pern intero positivo, derivando la (2.17) rispetto at e ponendo successivamente

t = 1, si ricava

n2n−1 =n∑

. (2.19)

Teorema 2.2.2(Identità ipergeometrica). Sianoa eb numeri reali edn un intero

positivo, risulta, allora, verificata l’identità

∞∑

n− r

(a + b

. (2.20)

Dimostrazione.Come conseguenza del teorema binomiale 2.2.1, fissato un nume-

ro realet che sia soddisfatta la condizione|t| < 1, possiamo scrivere le relazioni

(1 + t)a =∑

(1 + t)b =∑

(1 + t)a+b =∑

(a + b

Possiamo, inoltre, scrivere

(1 + t)a+b = (1 + t)a · (1 + t)b =

·[∑

t2 · · ·]

· t2 + · · ·

n− r

da cui∑

tn =∑

n− r

· tn.

Uguagliando i coefficienti ditn nelle serie a primo e secondo membro, si dimostra

la tesi.

2.2.5 Coefficiente multinomiale

Sianon, k, r1, r2, . . . , rk numeri interi non negativi tali chek > 2 ek∑

rj = n. Il

coefficiente multinomiale

r1r2 . . . rk

è definito come:

r1r2 . . . rk

r1!× r2!× · · · × rk!. (2.21)

Esso rappresenta le possibili permutazioni din oggetti dik tipologie differenti,

essendor1 gli oggetti del primo tipo,r2 del secondo, ... , edrk del k-esimo. Uti-

lizzando una terminologia più vicina alla statistica, il coefficiente multinomiale

indica numero di modi in cui una popolazione di ampiezzan può essere suddivisa

in k sottogruppi, di cui il primo contiener1 elementi, il secondor2 elementi e

così via. Riferendoci a quest’ultima interpretazione, osserviamo che l’ordine dei

sottogruppi è fondamentale, infatti la partizione conr1 = 3 ed r2 = 5 è diver-

sa da quella che, viceversa, prevede cinque elementi nel primo sottogruppo e tre

elementi nel secondo. All’interno dei sottogruppi l’ordinamento è, invece, irrile-

vante.

Prima di rendere ragione della (2.21), cerchiamo di chiarire la nozione di coeffi-

ciente multinomiale con alcuni esempi.

Esempio 2.2.9. Permutazioni di lettere

Quante permutazioni distinte di lettere (stringhe o sequenze di simboli alfabetici)

possono formarsi con le lettere della parola MISSISSIPPI? Si dispone din = 11

simboli: una lettera M, quattro lettere I, quattro S e due P; il numero di permu-

tazioni possibili, del tipoIMISSISSIP, IPMISSISSI, . . . , IPISSISSIM, è dato da

coefficiente multinomiale(

1 4 4 2

1! · 4! · 4! · 2! = 34.650 .

Esempio 2.2.10. Gruppi sperimentali

Nello stabulario di una casa farmaceutica sono disponibilidieci ratti; dovendo

valutare la tossicità di tre sostanze sperimentali, occorre formare tre gruppi, il

primo composto da due ratti, il secondo da tre ed il terzo da cinque. In quanti

modi diversi si possono raggruppare i dieci ratti, supponendo di selezionarli a

caso? La partizione del gruppo totale di animali a disposizione può effettuarsi in

2! · 3! · 5! = 2.520 .

modi diversi.

Per dimostrare la (2.21) osserviamo che i primir1 elementi possono essere scelti

r1! · (n− r1)!diverse modalità; le possibilità di selezione quelli del

secondo sottogruppo e del terzo gruppo sono

(n− r1r2

=(n− r1)!

r2! · (n− r1 − r2)!

(n− r1 − r2

=(n− r1 − r2)!

r3 · (n− r1 − r2 − r3)!, rispettivamente. Analogamente si

procede per gli altri; una volta scelto il(k − 1)-esimo sottogruppo, per il quale

sussistono

(n− r1 − r2 − · · · − rk−2

rk−1

=(n− r1 − r2 − · · · − rk−2)!

rk−1! · (n− r1 − r2 − · · · − rk−2 − rk−1)!

=(n− r1 − r2 − · · · − rk−2)!

rk−1! · rk!

possibili modalità, i rimanentirk elementi vanno a formare l’ultimo sottogruppo.

Calcolando il prodotto dei precedenti coefficienti binomiali si ha

r1! · (n− r1)!× (n− r1)!

r2! · (n− r1 − r2)!× (n− r1 − r2)!

r3 · (n− r1 − r2 − r3)!

× (n− r1 − r2 − · · · − rk−2)!

rk−1! · rk!=

n!∏k

j=1 rj !

e la formula (2.21) è stata dimostrata. Il teorema che enunciamo di seguito ha un

ruolo rilevante nel calcolo combinatorio.

Teorema 2.2.3(Teorema multinomiale). Sen è un intero positivo et1, t2, . . . , tmsono numeri reali, allora

· · ·∑

k1 k2 . . . km

tk11 tk22 · · · tkmm (2.22)

ovek1, k2, . . . , km sono interi non negativi tali che∑m

i=1 ki = n.

2.3 Problemi di occupazione 65

2.3 Problemi di occupazione

Supponiamo di dover disporre a cason palline identiche inn celle7 senza imporre

vincoli sul numero di palline per ciascuna cella. Una cella quindi potrà contenere

0, 1, 2, . . . , n palline. Qual è la probabilità che tutte le celle risultino occupate?

L’allocazione dellen palline può essere effettuata estraendo da un’urnan busso-

lotti numerati da1 adn. Non avendo posto limiti al numero di palline per cella è

necessario campionare reimbussolando. Si ottiene così unasuccessione ordinata

di interi c1, c2, . . . , cn che individua la cella ove inserire la prima, la seconda, ...

l’n-sima pallina. Chiariamo la procedura con un semplice esempio.

Sian = 3, supponiamo di estrarre dall’urna la ternac1 = 1, c2 = 3, c3 = 1. In

questo caso la prima pallina occupa cella1, la seconda la cella3 e la terza ancora

la 1. Analogamente, se dall’urna si estrae la ternac1 = 1, c2 = 1, c3 = 1, tutte e

tre le palline vanno poste nella cella1.

Il numero totale di modi possibili di allocare len palline nelle n celle ènn; il

numero di permutazioni din oggetti sun posti rappresenta il numero di casi favo-

revoli, ovvero il numero di allocazioni nelle quali ogni cella risulta occupata8. Di

conseguenza, la probabilità che tutte le celle siano occupate è:

nn. (2.23)

Pern = 7, dalla (2.23) si ricavap = 0.00612: se in una città si verificano sette

incidenti per settimana, la distribuzione uniforme di un incidente al giorno è estre-

mamente rara,1 settimana ogni164, infatti:1

164= 6.1 × 10−3. Pern = 6, si ha

p = 0.01543: lanciando sei volte un dado è altamente improbabile che compaiano

tutte e sei le facce. Osserviamo che le celle, nel lancio di dadi, sono sei, quante

7contenitori8Pern = 3 i casi favorevoli sono le sei triplette:(1, 2, 3) − (3, 2, 1) − (1, 3, 2) − (3, 1, 2) −

(2, 3, 1)− (2, 1, 3).

sono le facce del dado.

Prendiamo ora in esame il caso in cui il numero di palliner non coincida con

il numero di cellen. Dall’urna contenente glin bussolotti corrispondenti alle

n celle, se ne estraggono, con restituzione,r. La successione ordinata di interi

c1, c2, . . . , cr enumera le celle nelle quali inserire le palline. Se la cellaj-esima

contienerj palline, conj = 1, 2, . . . , n, gli interi r1, r2, . . . , rn prendono il nome

di numeri di occupazionee soddisfano la relazione

rj = r. (2.24)

Prima di procedere è importante sottolineare che le pallinesono considerate non

distinguibili tra loro mentre lo sono le celle. I questo contesto non è rilevante

quale pallina sia inserita in una particolare cella ma, ad esempio, sono differenti

le situazioni nelle quali la prima cella contiene tre palline e la seconda cinque e

quella in cui si verifica la situazione opposta.

Il numero di possibili allocazioni casuali deller palline in n celle ènr; il nu-

mero di disposizioni, che realizzano una fissatan-pla di numeri di occupazione

r1, r2, . . . , rn, è, ricordando la (2.21),

r1r2 . . . rn

. Pertanto la probabilità che il

campionamento determini la distribuzione dellen palline in accordo ai numeri di

occupazioner1, r2, . . . , rn è

P(r1, r2, . . . , rn) =r!

r1!× r2!× · · · × rn!× n−r. (2.25)

La (2.25) è nota comestatistica di Maxwell-Boltzman9.

Nel caso in cuic1 = c2 = . . . = cr = 1, tutte le palline occupano la prima cella e

9Il termine statistica nasce nell’ambito della fisica e vienecomunemente mantenuto per

convenzione; si può comunque sostituire statistica con distribuzione o legge.

la (2.25) assume la forma

n−1︷︸︸︷

0, . . . , 0) =r!

r!× (0!)n−1× n−r = n−r. (2.26)

Se si lancianor dadi, la (2.26) è la probabilità che tutti glir dadi presentino come

esito la faccia con il numero1, essa è anche la probabilità che tutti i dadi si pre-

sentino genericamente con la stessa faccia.

Ser < n, la probabilità che ler palline occupino esattamente le primer celle è

P(1, . . . , 1︸︷︷︸

n−r︷︸︸︷

0, . . . , 0) =r!

(1!)r × (0!)n−r× n−r = r!× n−r. (2.27)

L’evenienza che risultino occupare le primer celle equivale a dire che sono stati

selezionati i primir membri della popolazione. Per convincersi di ciò il lettore

rammenti che nell’esperimento del lancio di dadi le celle sono sei quante le facce

del dado; se i dadi sono due la (2.27) consente di calcolareP(1, 1, 0, 0, 0, 0) che è

la probabilità che il primo dado si presenti con un1 ed il secondo con un2.

Ognin-pla di interi che verifichi il vincolo (2.24) descrive una possibile configura-

zione di numeri di occupazione. Poiché le palline sono supposte essere non distin-

guibili, due configurazioni di numeri di occupazione sono distinte odistinguibili

o riconoscibilisolo se le corrispondentin-pler1, . . . , rn non sono identiche. Se si

lanciano due dadi, i possibili esiti sono le trentasei coppie di interi

(1,1) (1,2) (1,3) (1,4) (1,5) (1,6)

(2,1) (2,2) (2,3) (2,4) (2,5) (2,6)

(3,1) (3,2) (3,3) (3,4) (3,5) (3,6)

(4,1) (4,2) (4,3) (4,4) (4,5) (4,6)

(5,1) (5,2) (5,3) (5,4) (5,5) (5,6)

(6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

da cui si ricava la tabella di numeri di occupazione

200000 110000 101000 100100 100010 100001

110000 020000 011000 010100 010010 010001

101000 011000 002000 001100 001010 001001

100100 010100 001100 000200 000110 000101

100010 010010 001010 000110 000020 000011

100001 010001 001001 000101 000011 000002

nella quale, in grassetto, sono state evidenziate le ventuno configurazioni distin-

guibili dei numeri di occupazione.

Proposizione 2.3.1.Il numero di distribuzioni riconoscibili dir palline inn cel-

le10 è dato dal coefficiente binomiale

Ar,n =

(n+ r − 1

n− 1

. (2.28)

Per dimostrare l’asserto della proposizione 2.3.1 ricorriamo ad un ragionamento

proposto da Feller (vedi [5]). Indichiamo ler palline con il simbolo⊙ e len celle

conn spazi tran+1 separatori, le doppie freccel. In questo modo la successione

di simboli

︷︸︸︷⊙⊙⊙ l

2︷︸︸︷⊙ l

︸︷︷︸

l︸︷︷︸

︷︸︸︷⊙⊙⊙⊙ l

descrive la distribuzione dir = 8 palline inn = 6 celle con numeri di occupazione

3, 1, 0, 0, 0, 4 . Una tale rappresentazione delle configurazioni possibili inizia e

finisce con una doppia freccia; i rimanentin − 1 separatori e glir ⊙ possono

apparire in un ordine arbitrario. Il numero di distribuzioni riconoscibili è, pertanto,

uguale al numero di possibili scelte dir posizioni da un totale din+ r − 1:(n + r − 1

10in altri termini, il numero di differenti soluzioni dell’equazione (2.24).

Lanciandor dadi identici, i risultati distinguibili sonoAr,6 =

(r + 5

; perr = 2,

si haA2,6 =

= 21 (vedi tabella precedente).

Proposizione 2.3.2.Il numero di distribuzioni distinguibili dir palline inn celle

tali che nessuna cella risulti vuota è espressa dal coefficiente binomiale

(r − 1

n− 1

. (2.29)

Il vincolo che nessuna cella sia vuota impone che due separatori non possono mai

essere adiacenti. Tra ler palline, rappresentate in simboli da⊙, sono interposti

r − 1 spazi di cuin − 1 devono essere occupati dai separatoril: sicché le scelte

possibili sono

(r − 1

n− 1

Ai fini del calcolo della probabilità di eventi, molte situazioni sperimentali tra

loro diverse possono essere idealizzate con lo schema dell’allocazione casuale di

r palline inn celle. Di seguito sono elencati alcuni esempi classici11.

• Compleanni. Le possibili configurazioni delle date di nascita dir persone

corrisponde alle possibili distribuzioni dir palline inn = 365 celle (i giorni

dell’anno).

• Incidenti Stradali. La classificazione degli incidenti in base al giorno della

settimana nel quale essi si verificano è equivalente a riporre a casor palline

(il numero di incidenti settimanali) inn = 7 celle (i giorni della settimana).

11Ciascuno dei differenti modelli per descrivere problemi dioccupazione trovano applicazione

nella fisica statistica. Storicamente la maggior parte dei modelli sono stati sviluppati per risolvere

problematiche di fisica atomica e nucleare. In questo ambitole palline rappresentano particelle

elementari quali elettroni, protoni, neutroni fotoni, etc., e le celle sonostati microscopici, come,

ad esempio, i livelli energetici che una particella può occupare.

• Radiazioni Ionizzanti. Nello studio degli effetti genetici dell’esposizione a

radiazione ionizzante, i cromosomi sono assimilabili allecelle e le particelle

α alle palline.

• Radiazione Cosmica. In questo caso i contatori Geiger sono le celle e le

particelle cosmiche che raggiungono i contatori le palline.

• Distribuzione di Geni. Ciascun discendente di un individuo (pianta, animale

o uomo) eredita geni dal progenitore. Se un particolare genepuò apparire in

n forme diverse, allora è possibile classificare i discendenti in base al tipo

di gene. Ai fini del calcolo si possono assimilare i discendenti alle palline

ed i genotipi alle celle.

Prima di proseguire nella trattazione diamo un semplice esempio di applicazione

della legge di Maxwell-Boltzman.

Esempio 2.3.1.Lanciando dodici dadi la probabilità che ogni faccia si presenti

due volte è

P(2, 2, 2, 2, 2, 2) =12!

2!× 2!× 2!× 2!× 2!× 2!× 6−12 ≈ 3.4× 10−3.

In alcuni problemi di occupazione, oltre alle palline, si considerano identiche an-

che le celle. In questi casi si deve calcolare la probabilitàche una successione di

numeri di occupazioner1, r2, . . . , rn si verifichi in un ordine qualsiasi. A tal fine,

il valore di probabilità calcolato in base alla distribuzione di Maxwell-Boltzman

deve essere moltiplicato per

k1k2 . . . kq

, oveq è il numero dei differenti valori

rj nella data successione di numeri di occupazione eki indica il numero di vol-

te che si presenta quel particolare numero di occupazione. L’esempio che segue

chiarisce la procedura di calcolo.

Esempio 2.3.2. Configurazioni dir = 8 palline uguali in n = 6 celle identiche

Cominciamo con il considerare le celle come distinguibili.Il numero di possibili

distribuzioni di8 palline identiche in6 celle ènr = 68 e la probabilità dei numeri

di occupazione2, 2, 2, 1, 1, 0 risulta, per la (2.25),

P(2, 2, 2, 1, 1, 0) =8!

2!× 2!× 2!× 6−8.

Se consideriamo anche le celle come identiche, il valore di probabilità preceden-

temente calcolato deve essere moltiplicato per il numero dimodi di ottenere la

data sequenza di numeri di occupazione in un qualunque ordine. Dei sei numeri

di occupazione tre sono distinti, 2 con molteplicità tre, 1 con molteplicità due e 0

con molteplicità uno. Il valore numerico del coefficiente multinomiale

coincide con il numero di modi di realizzare la successione di numeri di occupa-

zione di lunghezza sei nella quale, in un ordine qualsiasi, l’intero 2 sia presente

tre volte, e gli interi 1 e 0 figurino per due volte ed una volta,rispettivamente. In

conclusione si ha

· P(2, 2, 2, 1, 1, 0) = 6!

3!× 2!· 8!

2!× 2!× 2!· 6−8 ≈ 0.180041

ed un analogo calcolo si applica agli altri casi.

La sottostante tabella nella seconda colonna riporta, per ciascuna delle venti di-

stinte sequenze di numeri di occupazione, i valori di probabilità desunti dalla legge

di Maxwell-Boltzman ed, in colonna quattro, quelli calcolati considerando anche

le celle come identiche.

Numeri di occupazione r!r1!×r2!×···×rn!

× n−r

k1k2 . . . kq

800000 8!8!· 6−8 6!

1!·5!0.000004

710000 8!7!· 6−8 6!

1!·1!·4!0.000143

620000 8!6!·2!

· 6−8 6!1!·1!·4!

0.000500

611000 8!6!· 6−8 6!

1!·2!·3!0.002000

530000 8!5!·3!

· 6−8 6!1!·1!·4!

0.001000

521000 8!5!·2!

· 6−8 6!1!·1!·1!·3!

0.012003

511100 8!5!· 6−8 6!

1!·1!·3!·2!0.012003

440000 8!4!·4!

· 6−8 6!2!·4!

0.000625

431000 8!4!·3!

· 6−8 6!1!·1!·1!·3!

0.020005

422000 8!4!·2!·2!

· 6−8 6!1!·2!·3!

0.015003

421100 8!4!·2!

· 6−8 6!1!·1!·2!·3!

0.090021

411110 8!4!· 6−8 6!

1!·4!·1!0.030007

332000 8!3!·3!·2!

· 6−8 6!1!·2!·1!·3!

0.020005

331100 8!3!·3!

· 6−8 6!2!·2!·2!

0.060014

322100 8!3!·3!·2!·2!

· 6−8 6!1!·1!·2!·1!·2!

0.180041

321110 8!3!·3!·2!

· 6−8 6!1!·1!·3!·1!

0.240055

311111 8!3!· 6−8 6!

1!·5!0.024005

222200 8!2!·2!·2!·2!

· 6−8 6!4!·2!

0.022505

222110 8!2!·2!·2!

· 6−8 6!3!·2!·1!

0.180041

221111 8!2!·2!

· 6−8 6!2!·4!

0.090021

Esempio 2.3.3. Il compleanno dir persone

Per semplicità assumiamo che l’anno sia composto da365 giorni. Tutte le possibili

date di nascita, intese come giorno e mese di nascita, sono poste in corrispondenza

biunivoca con bussolotti numerati da1 a365 e riposti in un’urna. Le date di nascita

di r persone scelte a caso possono essere assimilate ar bussolotti estratti dall’urna,

con restituzione. I campioni ordinati possibili sono365r; la probabilità che il

campione ordinato non contenga ripetizioni (i compleanni siano tutti diversi), in

virtù della (2.9), è

qr =(365)r365r

(365− r)!× 365−r.

Qual è la probabilità che solamente due, tra ler persone, festeggino il complean-

no nello stesso giorno? Supponiamo che il giorno del compleanno coincida con il

primo di gennaio e che ciascuna delle alrer− 2 persone siano nate nei giorni suc-

cessivi: una il 2 di gennaio, un’altra il 3 e così via. In pratica occorre calcolare la

probabilità della successione di numeri di occupazione2,

r−2︷︸︸︷

1, . . . , 1,

365−(r−1)︷︸︸︷

0, . . . , 0 ; essa,

ricordando la legge di Maxwell-Boltzman, è data da

r−2︷︸︸︷

1, . . . , 1,

365−(r−1)︷︸︸︷

0, . . . , 0) =r!

2!× (1!)r−2 × (0!)365−(r−1)· 365−r =

2× 365−r.

Non essendo importante l’ordine nel quale si presentano i singoli numeri di oc-

cupazione, si deve applicare il modello probabilistico cheprevede che le celle

(i giorni dell’anno) non siano distinguibili. Occorre moltiplicare la precedente

probabilità per

1 (r − 2) [365− (r − 1)]

, in conclusione si ha:

pr =365!

(r − 2)!× [365− (r − 1)]!× r!

2× 365−r.

Con buona approssimazione risulta:

r 10 15 20 25 30 35 40

qr 0.883 0.747 0.589 0.431 0.294 0.186 0.109

pr 0.112 0.223 0.323 ’0.379 0.380 0.334 0.260

2.3.1 Statistiche di Bose-Einstein e Fermi-Dirac

La statistica di Maxwell-Boltzman trae la sua origine da studi di meccanica sta-

tistica tesi a descrivere il comportamento di particelle fisiche come, ad esempio,

le molecole che compongono un gas12. Con gli sviluppi della fisica atomica e

nucleare divenne ben presto evidente che non tutte le particelle si comportanoin

accordo alla legge di Maxwell-Boltzmann. Furono, allora, introdotti due modelli

ad hocper particolari categorie di particelle.

Proposizione 2.3.3.Il primo modello fu formulato dal fisico indiano Satyendra

Nath Bose e da Albert Einstein. Il modello assume come possibili ed equiproba-

bili solo le distribuzioni riconoscibili deller particelle identiche nellen celle. Il

numero di tali distribuzioni,Ar,n, è dato dalla(2.28), pertanto ciascuna di esse ha

probabilità

P(r1, . . . , rn) =1

Ar,n= 1/

(n + r − 1

(statistica di Bose-Einstein). (2.30)

La statistica di Bose-Einstein descrive il comportamento di fotoni, nuclei ed atomi

con un numero pari di particelle elementari.

Proposizione 2.3.4.Il secondo modello, dovuto ad Enrico Fermi ed a Paul Dirac,

considera le particelle come indistinguibili e pone due ipotesi:

1. non è possibile che due o più particelle occupino la stessacella (i numeri di

occupazione possibili sono solamente 0 oppure 1),

2. tulle le distribuzioni deller particelle nellen celle che verificano il prece-

dente vincolo sono equiprobabili.

La prima ipotesi richede, innanzitutto, che siar 6 n. Un’allocazione delle parti-

celle nelle celle è completamente descritta se si indica quale dellen celle contiene

12In questo paragrafo useremo il termine particella e non pallina.

2.4 Distribuzione ipergeometrica 75

una particella; poiché le particelle sonor, le corrispondenti celle possono essere

selezionate in

modi diversi. Essendo ciascuna distribuzioner1, . . . , rn delle

particelle nelle celle equiprobabile, si ha:

P(r1, . . . , rn) = 1/

(statistica di Fermi-Dirac). (2.31)

Tra le particelle che si comportano in accordo alla statistica di Fermi-Dirac, ricor-

diamo gli elettroni, i protoni ed i neutroni.

2.4 Distribuzione ipergeometrica

Supponiamo di estrarre a caso, senza restituzione, un campione di taglian da una

popolazione finita diN elementi. Supponiamo, inoltre, che la popolazione sia

composta da elementi di due tipi diversi; ad esempio maschi efemmine, occupati

e disoccupati, componenti elettronici funzionanti e difettosi. Qual è la probabili-

tà che il campione estratto sia composto dax elementi del primo tipo edn − x

del secondo? Per effettuare il calcolo immaginiamo che gliN elementi della po-

polazione sianoN palline contenute in un’urna,a di colore bianco eb nere, con

a+ b = N . Occorre, allora, calcolare la probabilità che estraendo acason palline,

senza reimbussolare,x siano bianche edn − x nere. Essendo interessati solo al

numero di palline bianche e nere selezionate e non all’ordine nel quale esse so-

no estratte, si rientra nel caso di campioni non ordinati e quindi vi sono

differenti campioni possibili equiprobabili. Le possibilità di selezionarex palline

bianche, fra lea presenti nell’urna, sono date dal valore del coefficiente binomiale(a

; analogamente

n− x

rappresenta il numero delle possibili scelte delle

n − x palline nere. Poiché ogni scelta di palline bianche si può combinare con

una qualunque scelta di palline nere, i casi favorevoli sono

n− x

probabilità cercata,∀x ∈ N0, è espressa dalla formula:

f(x) =

n− x

. (2.32)

Dall’identità ipergeometrica (2.20) si ricava

∞∑

f(x) =

[∞∑

n− x

·(a + b

(a + b

·(a+ b

= 1 . (2.33)

In virtù della precedente relazione, si deduce che la funzionef(x), come definita

nella (2.32),distribuiscela probabilità totale unitaria su tutti gli interi non nega-

tivi; essa è dettadistribuzione ipergeometrica. Si noti che, per le proprietà del

coefficiente binomiale,f(x) = 0 perx > a o x > n, pertanto solo a un numero

finito di valori di x è associato un valore di probabilità maggiore di zero13.

Al fine di agevolare il calcolo dif(x) per diversi valori consecutivi dix è utile far

ricorso alla seguente formula ricorsiva

f(x) = r(x)× f(x− 1). (2.34)

Il coefficienter(x) si ricava applicando la (2.32):

r(x) =f(x)

f(x− 1)=

(a− x+ 1) · (n− x+ 1)

x · (b− n + x). (2.35)

Esempio 2.4.1.In una mano di bridge fra quattro giocatori, qual è la probabilità

che ad uno di essi siano servitex carte di cuori?

I dati sui quali basare il calcolo sono riassunti nella seguente tabella.

13Attribuendo alla condizionef(x) = 0 il significato di impossibilità, ha senso affermare che la

leggef(x) è definita inN0.

2.4 Distribuzione ipergeometrica 77

N = 52 numero di carte n = 13 carte per giocatore

a = 13 carte di cuori b = N − a = 39 carte di un seme differente

Perx ∈ [0, 13], valgono le seguenti relazioni che si ricavano rispettivamente, dalla

(2.32) e dalla (2.35)

f(x) =

13− x

r(x) =(14− x)2

x · (26 + x).

Una volta calcolato

f(0) =

= 0.01279 ,

si procede alle applicazioni successive della formula ricorsiva:

r(1) = 132/27 ⇒ f(1) = r(1) · f(0) = 0.08006 ,

r(2) = 122/56 ⇒ f(2) = r(2) · f(1) = 0.20587 ,

r(3) = 112/87 ⇒ f(3) = r(3) · f(2) = 0.28633 .

Il calcolo procede in maniera analoga per gli altri valori dix.

Esempio 2.4.2.Una scolaresca, composta daN1 studentesse eN2 studenti si di-

spone in fila a caso per essere sottoposta ad un controllo medico. Qual è la proba-

lità che la fila inizi con tre studentesse?

Possiamo assimilare le studentesse adN1 ≡ a palline bianche e gli studenti ad

N2 ≡ b palline nere, la probalità che la fila inizi con tre studentesse coincide con

la probabilità che estraendo a cason = 3 palline esse siano tutte bianche:x = 3.

Ricordando la (2.32), risulta

f(3) =

(N1 +N2

Esempio 2.4.3.In uno stabilimento ad alta automazione si producono condensa-

tori elettrolitici in lotti di N pezzi, il dieci per cento dei quali è difettoso. La proce-

dura di controllo prevede di selezionare a caso il cinque percento dei condensatori

di un lotto e di verificarne il funzionamento. Se uno solo di questi dovesse non

funzionare, l’intero lotto viene eliminato. FissatoN = 100, calcoliamo la proba-

lità che un lotto di condensatori non venga immesso sul mercato.

La probabilità di selezionarex condensatori difettosi da un campione din = 5 è14

f(x) =

5− x

·(100

ovex = 0, 1, . . . , 5. La probalità dell’evento che vi sia almeno un condensatore

difettoso tra i cinque scelti si calcola semplicemente come

1− f(0) = 1−(10

·(100

≈ 0.42 .

14Nel caso in esame si haa = 10 e b = 90.

CAPITOLO 3

Condizionamento ed indipendenza

di eventi

3.1 Probabilità condizionata

SiaΩ,F ,P lo spazio di probabilità associato ad un generico esperimento casua-

le E edA un evento; prima di effettuare ciascuna prova,P(A) è una misura del-

l’incertezza circa la possibilità cheA occorra. Spesso nel corso dell’esperimento

si rendono disponibili alcune informazioni in qualche modocollegate all’evento

di cui si vuol calcolare la probabilità di occorrenza. Come èpossibile modificare

il modello probabilistico1 per utilizzare queste informazioni? Aiutiamoci con un

esempio. Indagini statistiche hanno evidenziato che circail sessanta per cento di

soggetti maschi di età superiore a cinquanta anni è affetto da ipercolesterolemia.

Nel corso della sperimentazione è stato anche osservato cheil venti per cento dei

soggetti soffre contemporaneamente di ipercolesterolemia e di problemi alle co-

ronarie. Selezionando a caso un ultracinquantenne, e verificato che egli abbia un

1in altre parole la misura di probabilità

80 Capitolo 3. Condizionamento ed indipendenza di eventi

tasso ematico di colesterolo elevato, ci si chiede se questainformazione sia utile

per calcolare la probabilità che il soggetto in questione sia anche coronaropatico?

La nozione diprobabilità condizionatacostituisce un modello matematico per la

definizione e la soluzione di problemi di tale natura. Fissata la ternaΩ,F ,P e

gli eventiA,H ∈ F , per probabilità condizionata,P(A|H), dell’eventoA, dato

l’eventoH, si intende, intuitivamente, la probabilità cheA occorra, nell’ipotesi

che si sia verificatoH. In altre parole,P(A|H) rappresenta il ricalcolo dellaP(A)

alla luce dell’informazione cheH si è verificato.

Definizione 3.1.1.Dato uno spazio di probabilitàΩ,F ,P, e siaH ∈ F , con

P(H) > 0. Per un arbitrarioA ∈ F , si definisceprobabilità condizionatadi A

rispetto adH il rapporto

P(A|H) =P(A ∩H)

P(H)≡ P(AH)

P(H). (3.1)

La (3.1) non è definita seP(H) = 0 .

La quantità a numeratore,P(A ∩ H) ≡ P(AH), prende il nome diprobabilità

congiunta2 di A eH.

Nell’esempio menzionato all’inizio del presente paragrafo, la probabilità che un

ultracinquantenne scelto a caso abbia anche problemi coronarici, essendo iperco-

lesterolemico, è:0.2/0.6 = 1/3.

Proposizione 3.1.1.La posizione(3.1), considerata per ogniA ∈ F , definisce

una misura di probabilità suΩ,F.

Per dimostrare la 3.1.1 bisogna far vedere cheP(A|H) verifica i tre assiomi di

Kolmogorov elencati nella definizione 1.3.1.

2Essa esprime la probabilità che si verifichinocontemporaneamenteA eH ; questa nozione è

già stata incontrata in precedenza nel parafrafo 1.3.3.

3.1 Probabilità condizionata 81

Il primo assioma è verificato in quanto la probabilità condizionata è stata definita

come il rapporto di un numero non negativo,P(AH), e di un numero positivo

P(H). Anche il secondo assioma è di facile verifica. SeA ≡ Ω, la (3.1) assume

la forma

P(Ω|H) =P(Ω ∩H)

P(H)= 1 . (3.2)

L’ultimo passo consiste nel dimostrare cheP(A|H) è numerabilmente additiva.

SiaA =⊔∞

i=1Ai. Si ha:

∞⊔

Ai|H) =P [(⊔∞

i=1Ai) ∩H ]

P [⊔∞

i=1 (Ai ∩H)]

∑∞i=1 P (Ai ∩H)

∞∑

P (Ai ∩H)

∞∑

P (Ai|H) .

La precedente relazione dimostra che anche il terzo assiomaè verificato eP(A|H),

come definita nella 3.1.1, è una misura di probabilità suΩ,F. In altre parole,

ponendo, per semplicità di notazione,PH(A) ≡ P(A|H), la precedente proposi-

zione equivale ad affermare che la ternaΩ,F ,PH è uno spazio di probabilità.

Osservazione3.1.1. Gli sviluppi precedenti sono soggetti alla seguente rielabora-

zione. Gli esiti elementariω ∈ Ω, tali cheω /∈ H, non hanno rilevanza per il

calcolo della probabilità condizionataPH(A). Possiamo, allora, assumere come

spazio delle prove l’insiemeH e definire laσ-algebraFH = F∩H come la classe

dei sottoinsiemi diH data dalle intersezioniA ∩ H, conA ∈ F . DefinendoPH

come il prodotto della probabilità di ciascun eventoA ∩ H ∈ FH per la quantità

P(H)−1, si ottiene un nuovo spazio di probabilitàH,FH ,PH.

Osservazione3.1.2. Nell’impostazione che si è scelta (confronta [12]) la (3.1)è

posta come definizione a sé stante. Essa, se si assume come valida la definizione

classica di probabilità, o anche quella frequentista, è invece conseguenza di queste

ultime. Se si parte dalla definizione classica di probabilità, per quanto prima detto

il numero dei casi possibili è rappresentato danH , il numero dei casi favorevoli

all’eventoH; se si indica connA∩H il numero dei casi favorevoli aA∩H, la pro-

babilità che occorraA, nell’ipotesi che si sia verificatoH ènA∩H/nH . Indicando

conn la cardinalità dello spazio campione, si ha:

P(A|H) =nA∩H

nA∩H

n= P(A ∩H)× P(H)−1.

Sviluppi analoghi sussistono per l’interpretazione frequentista; il lettore interessa-

to può ritrovarli in numerosi testi (vedi, ad esempio, [4] e [10]).

Esempio 3.1.1. Probabilità di corretta diagnosi

Indagini epidemiologiche hanno dimostrato che la probabilità di essere portatore

di una data malattia del sangue3 èp = 0.10 . Una ditta biomedica ha sviluppato un

test di laboratorio per lo screening della malattia. La sperimentazione condotta al

fine di saggiare l’efficacia del test ha messo in luce come, peruna persona malata,

la probabilità che il test sia positivo4 è p1 = 0.98 . La probabilità di un falso

positivo5 è, invece,p2 = 0.04 .

Calcoliamo la probabilità che il test dia luogo ad una diagnosi corretta, ovvero

che risulti positivo se la persona è affetta da quella particolare patologia ematica,

negativo altrimenti. Calcoliamo, inoltre, la probabilitàdi un falso negativo6.

Definiamo i seguenti eventi:

• H: il soggetto selezionato è affetto dalla patologia ematica in studio,

• T+: il test di laboratorio è positivo,

• T−: il test di laboratorio è negativo.

3Si pensi come esempio all’anemia mediterranea.4ovvero che il test dia luogo a valori al di fuori del range di normalità5ovvero che il test presenti un valore anomalo pur essendo la persona sana6ovvero che il risultato del test cada nei limiti della norma pur essendo la persona malata

Si ha:

P(H) = 0.1 ,

P(H) = 0.9 ,

P(T+|H) ≡ PH(T+) = p1 = 0.98 ,

P(T+|H) ≡ PH(T+) = p2 = 0.4 .

La probabilità di diagnosi corretta è:

P[(T+ ∩H) ⊔ (T− ∩H)

]= P(T+ ∩H) + P(T− ∩H).

CalcoliamoP(T+ ∩ H); ricordando la definizione di probabilità condizionata,

possiamo scrivere la relazione

P(T+|H) ≡ PH(T+) =

P(T+ ∩H)

dalla quale segue

P(T+ ∩H) = PH(T+) · P(H) = 0.98× 0.1 = 0.098 .

Osserviamo cheH = (T− ∩H) ⊔ (T+ ∩H), quindi

P(T− ∩H) = P(H)− PH(T+) = 0.9− 0.04 = 0.86

e la probabiltà di diagnosi corretta è:0.098 + 0.86 = 0.958 .

Per quanto concerne la probabilità di un falso negativo, essa è data dalla probabilità

condizionata

P(H|T−) =P(H ∩ T−)

P(T−)

P(H ∩ T−) = P(H)− P(H ∩ T+) = 0.1− 0.098 = 2× 10−3

e, per la quantità a denominatore, vale la relazione

P(T−) = P(T− ∩H) + P(T− ∩H) = 2 · 10−3 + 0.86 = 0.862 .

In conclusione si ottiene:

P(H|T−) =2 · 10−3

0.862= 2.32× 10−3.

Osservazione3.1.3. L’informazione che si è verificato l’eventoH non implica che

P(A|H) > P(A). Infatti, seA ∩ H = ∅, P(A|H) = 0 6 P(A). In questo caso

specifico la conoscenza del realizzarsi diH ci dice cheA non può verificarsi. Se

A ⊆ H, si haA ∩ H = A eP(A|H) = P(A)/P(H) > P(A). SeA ⊇ H, sia ha

P(A|H) = 1 .

3.1.1 La legge di Bayes

Una semplice conseguenza della definizione 3.1.1 sono le relazioni

P(A ∩B) = P(A) · P(B|A) seP(A) > 0 (3.3a)

P(A ∩B) = P(B) · P(A|B) seP(B) > 0 (3.3b)

che rappresentano un caso particolare della cosiddettaformula della moltiplica-

zionedelle probabilità.

Proposizione 3.1.2(Formula di moltiplicazione delle probabilità o Teorema

delle probabilità congiunte). SianoA1, A2, . . . , An eventi tali cheP(A1 ∩ A2 ∩· · · ∩ An−1) > 0 , allora vale la relazione

= P(A1)·P(A2|A1)·P(A3|A1∩A2) · · ·P(An|A1∩· · ·∩An−1). (3.4)

Per dimostrare la (3.4), notiamo che

A1 ⊇ (A1 ∩A2) ⊇ · · · ⊇ (A1 ∩ A2 ∩ · · · ∩ An−1)

e, pertanto, per l’ipotesi posta si ha

P(A1) > P(A1 ∩A2) > · · · > P

(n−1⋂

La precedente relazione assicura che tutte le probabilitàP(Ak|k−1⋂

Ai), che figu-

rano nella (3.4), sono ben definite perk ∈ [2, n]. Nel caso din = 2 si ricade nel

caso della (3.3a) oppure della equivalente (3.3b); pern = 3 possiamo scrivere

P(A1 ∩A2 ∩ A3) =P(A1)

P(A1)· P(A1 ∩A2)

P(A1 ∩A2)· P(A1 ∩ A2 ∩ A3)

= P(A1) ·P(A1 ∩A2)

P(A1)· P(A1 ∩ A2 ∩ A3)

P(A1 ∩A2)

= P(A1) · P(A2|A1) · P(A3|A1 ∩A2).

La dimostrazione si completa per induzione.

Osservazione3.1.4. Una formulazione equivalente della la (3.4) è:

= P(An)·P(An−1|An)·P(An−2|An−1An) · · ·P(A1|A2 · · ·An) (3.5)

ove abbiamo omesso il segno di intersezione nell’indicazione degli eventi con-

giunti.

Esempio 3.1.2.Un’urna contiene cinque palline, di cui due sono bianche e lealtre

tre nere; estraendo le palline senza reimbussolare, qual è la probabilità che esse si

presentino nel seguente ordine: bianca, nera, nera, bianca, nera? Per rispondere

al quesito è necessario calcolare la probabilitàP(B1N2N3B4N5) nella quale gli

eventiBi eNi sono definiti come

Bi la i-esima pallina estratta è bianca

Ni la i-esima pallina estratta è nera

eBi = Ni, coni ∈ [1, 5]. Dalla (3.4) si ricava

P(B1N2N3B4N5) = P(B1) · P(N2|B1) · P(N3|B1N2)

· P(B4|B1N2N3) · P(N5|B1N2N3B4)

ed, inoltre, si ha

P(B1) =2

P(N2|B1) =3

P(N3|B1N2) =2

P(B4|B1N2N3) =1

P(N5|B1N2N3B4) = 1 .

Dalla (3.4) ricaviamo la probabilità cercata:

P(B1N2N3B4N5) =2

2× 1 =

Si può pervenire al precedente risultato applicando la definizione classica di pro-

babilità; infatti vi è un unico caso favorevole all’evento(B1N2N3B4N5) mentre il

numero di modi possibili di estrarre due palle bianche e tre nere da un urna che le

contiene è

= 10 .

Esempio 3.1.3.In un’urna sono riposte quindici palline, dieci bianche e cinque

nere. Si estraggono quattro palline senza reimbussolare; calcoliamo la probabilità

che almeno una di esse sia nera. Per tale scopo definiamo gli eventi

Bi la i-esima pallina estratta è bianca(i = 1, 2, 3, 4)

A almeno una delle quattro palline estratte è nera

e notiamo cheP(A) = 1− P(A) = 1− P(B1B2B3B4). Si ha

P(A) = P(B1B2B3B4)

= P(B1) · P(B2|B1) · P(B3|B1B2) · P(B4|B1B2B3)

15× 9

14× 8

13× 7

13= 0.1538

da cui si ricavaP(A) = 1− P(A) = 1− 0.1538 = 0.8462 .

Esempio 3.1.4.In una prima urna ci sonon palline, k bianche e le rimanenti

n − k nere. Una seconda urna contiene anch’essan palline, ma le nere sono

k e le bianchen − k. Una pallina scelta a caso viene spostata dalla prima alla

seconda urna, successivamente si prende una pallina dalla seconda urna e la si

ripone nella prima. Dopo questa operazione nella prima urnapotranno essercik,

k − 1 o k + 1 palline bianche. Indicando conEk, Ek−1, Ek+1 i predetti eventi,

calcoliamone la probabilità (vedi [4]). Peri = 1, 2, definiamo gli eventiBi, nella

i-esima estrazione la pallina è bianca, eNi, nella i-esima estrazione la pallina è

nera. Si ha

P(Ek−1) = P(B1N2) = P(B1)P(N2|N1) =k

n · (n+ 1),

P(Ek) = P[(B1B2) ⊓ (N1N2)] = P(B1) · P(B2|B1) + P(N1) · P(N2|N1)

n× n− k + 1

n + 1+

n− k

n× k + 1

2nk − 2k2 + n

n(n + 1)

P(Ek+1) = P(N1B2) =n− k

n× n− k

n + 1=

(n− k)2

n(n + 1).

Osserviamo che

P(Ek−1) + P(Ek) + P(Ek+1) =k2

n(n+ 1)+

2nk − 2k2 + n

n(n + 1)+

(n− k)2

n(n+ 1)= 1 .

Definizione 3.1.2.Dato una spazio di probabilitàΩ,F ,P, sia Hjj∈J una

partizione finita o numerabile diΩ; se,∀j ∈ J ,P(Hj) > 0 allora si dice che essa

costituisce un insieme completo di alternative per lo spazio campionarioΩ.

Proposizione 3.1.3(Formula della probabilità totale o Teorema delle alterna-

tive). Dato una spazio di probabilitàΩ,F ,P, siaHjj∈J un insieme completo

di alternative perΩ, allora ∀A ∈ F si ha:

P(A) =∑

P(Hj)P(A|Hj). (3.6)

Dimostrazione.Sottolineamo, innanzitutto, che vale la relazione

A = A ∩ Ω = A ∩(⊔

(A ∩Hj) .

Per l’assioma dell’additività e poichè, per ipotesi,P(Hj) > 0, si ricava

P(A) =∑

P(A ∩Hj)

P(Hj)P(A|Hj)

e la (3.6) è verificata.

La formula (3.6) è molto utile nei casi in cui sia complicato calcolare direttamente

la P(A) e risulti più semplice il calcolo delle probabilità condizionate.

Esempio 3.1.5.Siano date tre urne contenenti la prima due palline bianche ed una

nera, la seconda tre palline bianche ed una nera e la terza duepalline bianche e

due nere. Si calcoli la probabilità che, fissata a caso una delle tre urne, si estragga

una pallina bianca.

Se definiamo gli eventi

Eb la pallina estratta è bianca

H1 si sceglie la prima urna

H2 si sceglie la seconda urna

H3 si sceglie la terza urna

possiamo scrivere le relazioni

P(Hj) =1

3(j = 1, 2, 3)

P(Eb|H1) =2

P(Eb|H2) =3

P(Eb|H3) =1

dalle quali, grazie alla (3.6), si ha:P(Eb) =13×[23+ 3

]≈ 0.64 .

Nella definizione 3.1.2 abbiamo considerato un insieme completo di alternative

perΩ; la nozione di alternative è applicabile al caso in cui essa sia una partizione

di un insiemeH contenuto inΩ:⊔

Hj = H ⊂ Ω. In questo caso la famiglia

di eventiHjj∈J forma un insieme di alternative perH. EssendoH l’unione di

eventi con probabilità maggiore di zero, risulta ancheP(H) > 0; seA ⊆ Ω, allora

è ben definita la probabilità condizionataP(A|H). Si ha7:

P(A|H) =P(A ∩H)

A ∩⊔j∈J Hj)]

j∈J (A ∩Hj)]

P(H)·∑

P(A ∩Hj) ·P(Hj)

P(A ∩Hj)

P(Hj)· P(Hj ∩Hj)

P(A|Hj) · P(Hj|H). (3.7)

Naturalmente la (3.6) e la (3.7) coincidono nel caso diH ≡ Ω.

Consideriamo una spazio di probabilitàΩ,F ,P e siaHjj∈J un insieme com-

pleto di alternative perΩ; J può essere sia finito che numerabile. È possibile

pensare agli eventiHj come a delleipotesio causeche influenzano l’esito di un

esperimento casauleE ; le P(Hj) sono dette probabilitàa priori. Supponiamo che

l’esito elementareω di E sia tale cheω ∈ A eP(A) > 0 . Qual è la probabilità che

A sia conseguenza della causaHj? La risposta al quesito posto è nella probabilità

condizionataP(Hj|A). Le P(Hj|A) sono note come probabilitàa posteriori: il

fatto cheA si sia verificato porta ad un ricalcolo della probabilità checompete

all’eventoHj!

Teorema 3.1.1.(Legge di Bayes) SiaHjj∈J un insieme completo di alternative

perΩ edA un evento conP(A) > 0 . Vale,∀j ∈ J , la relazione

P(Hj|A) =P(Hj) · P(A|Hj)

k∈J P(Hk) · P(A|Hk). (3.8)

7Valgono le relazioniHi ∩H = Hi e (A ∩Hi) ∩ (A ∩Hj) = ∅, sei 6= j

Dimostrazione.Ricordando sia la definizione di probabilità condizionata che la

formula della probilità totale, fissato un interoj ∈ J si ha

P(Hj|A) =P(AHj)

P(Hj) · P(A|Hj)

P(Hj) · P(A|Hj)∑

k∈J P(Hk) · P(A|Hk)

come volevasi dimostrare.

Esempio 3.1.6.La produzione di macchine agricole in un industria ad alta tec-

nologia è automatizzata; tre catene di montaggio producono, rispettivamente, il

venti, il trenta ed il cinquanta per cento dei macchinari. Ciascuna di esse ha una

probabilità di produzione difettosa, nell’ordine, del cinque, del tre e dell’uno per

cento. Calcoliamo la frazione di macchine difettose prodotte e la probabilità che

una macchina agricola, che non ha superato il controllo di qualità, sia stata realiz-

zata dalla terza catena di montaggio.

Avendo definito gli eventiA, la macchina agricola prodotta è difettosa, eHi∈[1,3],

la catena di montaggio i-esima ha prodotto la macchina, si ha

P(H1) = 0.2 P(H2) = 0.3 P(H1) = 0.5

P(A|H1) = 0.05 P(A|H2) = 0.03 P(A|H3) = 0.01

e, pertanto, essendoP(A) =∑3

i=1 P(Hi)P(A|Hi) = 0.024, concludiamo che la

percentuale di macchine diffettose è del 2.4 per cento. La risposta al secondo

quesito si desume dalla legge di Bayes:

P(H3|A) =P(A|H3) · P(H3)

0.01× 0.5

0.024= 0.0208 .

Esempio 3.1.7.Una compagnia di assicurazione suddivide i propri assicurati in

tre classi di età:A, B e C. Ad A appartengono gli utenti con meno di venticinque

anni di età, aB quelli di età compresa tra i venticinque e i quaranta anni ed infine

a C gli ultra quarantenni. La numerosità delle cassi è del22, del 43 e del35 per

cento rispettivamente. Rilievi statistici stimano le seguenti probabilità di incidente

per anno per ciascuna classe:P(I|A) = 0.11, P(I|B) = 0.03 e P(I|C) = 0.02.

Con I indichiamo l’eventoincidenteautomobilistico.

La probabilità che nell’anno avvenga un incidente è

P(I) = 0.22× 0.11 + 0.43× 0.03 + 0.35× 0.02 ≈ 0.044 .

La probabilità che a causare l’incidente si un assicurato della classeA è

≈ 0.55 .

3.2 Indipendenza stocastica

In generale sussiste la relazioneP(A|B) 6= P(A); in termini colloquiali si può af-

fermare che la conoscenza dell’essersi verificatoB influenza la valutazione della

probabilità diA. Nel caso in cuiP(A|B) = P(A), condizionare l’eventoA all’e-

ventoB non influisce sulla probabilità diA. In tal casoA è dettostocasticamente

indipendente, o semplicementeindipendente, daB. Quanto sopra esposto ha sen-

so solo seP(B) è maggiore di zero, in caso contrario, infatti, la probabilità con-

dizionataP(A|B) non è definita. Per definizione si haP(A|B) = P(AB)/P(B)

e, quindi, nel caso di eventi indipendenti, risultaP(AB) = P(A) · P(B). Que-

st’ultima relazione può essere scritta anche nel caso in cuila probabilità diB sia

nulla, in tal caso, infatti,P(AB) è uguale a zero. Per quanto appena detto, anche

se la definizione di indipendenza basata sulla probabilità condizionata è di facile

intuizione, conviene dare la seguente definizione di eventiindipendenti8 .

Definizione 3.2.1.Due eventi,A eB, si diconoindipendenti(stocasticamente, o

probabilisticamente) se

P(AB) = P(A) · P(B). (3.9)

8Naturalmente essa è equivalente alla definizione basata sulla probabilità condizionata.

3.2 Indipendenza stocastica 93

Osservazione3.2.1. Dalla simmetria della (3.9) segue che l’indipendenza degli

eventiA eB è reciproca: seA è indipendente daB ancheB è indipendente daA.

Convenzionalmente, come conseguenza della definizione, l’evento impossibile è

indipendente da ogni altro evento:P(A∅) = P(A)P(∅) = 0, ∀A.

Teorema 3.2.1.SeA eB sono indipendenti, lo sono ancheA eB, A eB, A eB.

Dimostrazione.Ricordando la relazioneP(A) = P(A ∩ B) + P(A ∩ B) e per

l’ipotesi sull’indipendenza diA eB, si ha

P(A ∩B) = P(A)− P(A ∩B)

= P(A)− P(A) · P(B) = P(A)[1− P(B)] = P(A) · P(B).

In maniera del tutto analoga, scambiando l’ordine degli eventi, si dimostra che

P(A ∩B) = P(A) · P(B).

Per quanto attiene all’ultima parte della tesi, osserviamocheP(A) = P(A∩B) +

P(A ∩B) e quindi

P(A ∩B) = P(A)− P(A ∩B)

= P(A)− P(A) · P(B) = P(A)[1− P(B)] = P(A) · P(B).

La definizione 3.2.1 di indipendenza è stata data mediante una relazione tra pro-

babilità. L’indipendenza, diversamente dall’incompatibilità che è una proprietà

intrinseca degli eventi, non dipende dalla struttura di questi ma solamente dalla

loro probabilità: se si cambia la leggeP l’indipendenza potrebbe venire a manca-

re. La nozione di indipendenza è generalizzabile al caso di una di una successione

di eventi finita o numerabile.

Definizione 3.2.2.SiaEj∈J una successione di eventi, oveJ può coincidere

con l’insieme finito di interi[1, n] oppure conN. Si dice che essa è costituita da

eventicollettivamente indipendenti9 se, comunque si fissa un interor e unar-pla

j1, . . . , jr, risulta

P (Ej1 ∩ · · · ∩ Ejr) = P(Ej1) · P(Ej2) · · ·P(Ejr). (3.10)

Per chiarire la precedente definizione, si consideri il casoparticolare di tre even-

ti A,B,C. La condizione di indipendenza è espressa dal complesso di tre con-

dizioni tra coppie di eventiP(AB) = P(A) · P(B), P(AC) = P(A) · P(C),

P(BC) = P(B) ·P(C) e dall’ulteriore condizioneP(ABC) = P(A) ·P(B) ·P(C).

È possibile, quindi, che eventi, a due a due indipendenti, non siano collettivamente

indipendenti, infatti, nel caso particolare esaminato potrebbe non essere verificata

la condizioneP(ABC) = P(A) · P(B) · P(C).

Consideriamon eventiE1, . . . , En, la probabilità diEn, condizionata al verificarsi

di E1, . . . , En−1, è

P (En|E1, . . . , En−1) =P (E1 · · ·En−1En)

P (E1 · · ·En−1)(3.11)

se il denominatore è maggiore di zero. Nel caso in cui gli eventi siano collettiva-

mente indipendenti, per la (3.10), la 3.11 dà luogo alla relazione:

P (Ej |Ei1 · · ·Eik) =P(Ej)P(Ei1) · · ·P(Eik)

P(Ei1) · · ·P(Eik)= P(Ej) (3.12)

∀j ∈ [1, n] diverso dai1, i2, . . . , ik.

SianoA e B due famiglie di eventi; in altre paroleA e B sono insiemi i cui

elementi sono eventi che appartengono allo stesso spazio campionarioΩ.

Definizione 3.2.3.Due famiglie di eventi,A eB, sono dette essere indipendenti

se sono indipendenti tra loro gli eventiA eB comunque scelti, il primo daA ed

9o semplicementeindipendenti

il secondo daB. Più in generale,n famiglie di eventi(A1, . . . ,An) sono chiamate

indipendenti se sono collettivamente indipendenti gli eventiA1, . . . , An comunque

scelti, il primo daA1, il secondo daA2 e così via fino adAn ∈ An.

Teorema 3.2.2.SianoE1, . . . , En eventi collettivamente indipendenti. Sostituen-

do ad uno di tali eventi il suo complemento si ottiene ancora unan-pla di eventi

collettivamente indipendenti.

Dimostrazione.Per semplicità sostituiamoE1 con la sua negazioneE1. Al fine

di dimostrare la tesi del teorema è necessario verificare la collettiva indipendenza

degli eventiE1, E2, . . . , En. In altre parole deve valere la (3.10) perk di essi

comunque scelti. È evidente che (3.10) è verificata se ik eventi selezionati non

contengonoE1. Per contemplare il caso in cui tra essi è presenteE1 consideriamo

i primi k eventiE1, E2, . . . , Ek. Si ha

P(E1 ∩ E2 ∩ · · · ∩ Ek) = P(E2 ∩ · · · ∩ Ek)− P(E1 ∩ E2 ∩ · · · ∩ Ek)

= P(E2)× · · · × P(Ek)− P(E1)× P(E2)× · · · × P(Ek)

= [1− P(E1)]× P(E2)× · · · × P(Ek) = P(E1) · P(E2) · · ·P(Ek)

e la tesi è stata dimostrata.

Osservazione3.2.2. L’applicazione ripetuta del teorema 3.2.2 suggerisce come

esso sia ancora valido se più eventi nellan-pla sono sostituiti dai rispettivi com-

plementi.

Osservazione3.2.3. Fissati gli eventi collettivamente indipendentiE1, . . . , En,

vale la seguente relazione

P(E1 ∩ E2 ∩ · · · ∩ En) = P(E1) · P(E2) · · ·P(En)

= [P(E1) · P(E2) · · ·P(Er)] · [P(Er+1) · P(Er+2) · · ·P(En)]

= P(E1 ∩ E2 ∩ · · · ∩ Er) · P(Er+1 ∩ Er+2 ∩ · · · ∩ En) (3.13)

per1 6 r 6 n− 1 .

Esempio 3.2.1.Dimostriamo che l’estrazione di una asso di un qualunque seme,

eventoA, e l’estrazione di una carta di cuori, eventoB, da un mazzo di carte fran-

cesi ben mescolato sono eventi indipendenti.

Il mazzo di carte francesi prevede quattro i semi e tredici carte per ciascun seme,

si ha allora:P(A) =1

13. Inoltre, poiché per ciascun seme vi sono tredici

carte, la probabilità cheB si verifichi èP(B) =13

4. Per calcolare la pro-

babilità dell’evento intersezione(A ∩ B) si tenga presente che l’asso di cuori è

unico, quindiP(A ∩B) =1

52. In conclusione abbiamo

P(A ∩ B) =1

52≡ P(A) · P(B)

e la condizione di indipendenza è verificata.

Esempio 3.2.2.Supponiamo di lanciare due dadi, si verifichi l’indipendenza dei

due eventiil primo dado mostra un numero parie il secondo dado mastra un sei,

che indichiamo conA eB, rispettivamente.

Si haP(A) = 3/6 = 1/2 eP(B) = 1/6. InoltreA∩B = (2, 6)∪ (4, 6)∪ (6, 6)e pertanto otteniamoP(A ∩B) = 3/36 = 1/12 da cui:

P(A ∩ B) = P(A) · P(B).

Esempio 3.2.3.Esaminando l’albero genealogico di una donna gravida si evince

che ella ha una probabilità del cinquanta per cento di essereportatrice del gene per

l’emofilia. Qualora sia portatrice, la probabilità di trasmettere alla prole di sesso

maschile la malattia è12

e la trasmissione ai diversi figli sono da considerare sono

da considerare eventi indipendenti. Naturalmente non vi è alcuna possibilità che

un figlio erediti l’emofilia da una madre non portatrice10.

10Il padre non ha alcun ruolo.

Sia C l’evento la donna è portatrice del geneed Ni l’evento l’i-esimo figlio

maschio è sano. Valgono le relazioni:

P(C) = P(C) =1

2e P(Ni|C) =

Per l’indipendenza della trasmissione della malattia genetica a più figli maschi, nel

caso di due fratelli si haP(N1N2|C) = P(N1|C) ·P(N2|C) = 1/4 e, se partorisce

tre maschi,P(N1N2N3|C) = P(N1|C) · P(N2|C) · P(N3|C) = 1/8. Allo stesso

modo si procede nel caso di prole più numerosa.

Nel caso in cui non sia nota la condizione genetica della madre, la probabilità che

il suo primo figlio maschio sia sano è

P(N1) = P(N1|C) · P(C) + P(N1|C) · P(C) =1

2+ 1× 1

4= 0.75 .

Se, oltre ad ignorare la condizione della mamma, si ignora anche lo stato di salu-

te del primogenito, la probabilitàP(N2) da assegnare all’evento che un secondo

figlio maschio sia sano è sempre0.75 . Tale probabilità cambia se il primogenito

è normale, essa è data dalla probabilità condizionataP(N1N2|N1) =P(N1N2)

P(N1).

Osserviamo che due figli maschi consecutivi possono nascerenon emofiliaci sia

da una madre portatrice sia da una madre non portatrice del gene. Pertanto si ha

P(N1N2) = P(N1N2|C)·P(C)+P(N1N2|C)·P(C) =1

2+1×1

8= 0.625

da cui segue:P(N2|N1) =P(N2N1)

P(N1)=

0.75= 0.833 .

Nel caso in cui il primo figlio maschio risultasse emofiliaco,allora è certo che la

madre è portatrice del gene dell’emofilia quindi la probabilitàP(N2) che il secon-

do figlio sia normale è uguale a12

come indicato in precedenza. Nel caso si ignori

la condizione della madre, la conoscenza della normalità del primogenito aumenta

la probabilità che ella sia non portatrice ed è maggiore(0.833) la probabilità che

anche il secondo maschio sia sano.

Calcoliamo, infine, la probabilità che la madre sia portatrice nell’ipotesi che i pri-

mi due figli maschi siano non emofiliaci. Grazie alla legge di Bayes (teorema

3.1.1) possiamo scrivere

P(C|N1N2) =P(C) · P(N1N2|C)

P(N1N2)=

0.5× 0.25

0.625= 0.2 .

La probabilità che ha la madre di essere portatrice del gene dell’emofilia cambia

da0.5 a0.2 se ella ha partorito due maschi normali.

3.2.1 La rovina del giocatore

In questo paragrafo trattiamo un esempio più complesso della teoria esposta pre-

cedentemente.La rovina di un giocatoreè un argomento classico nella teoria della

probabilità che viene sviluppato utilizzando tecniche differenti. La formulazione

che ora adottiamo è quella proposta da Gnedenko (confronta [6]).

Due giocatoriA eB continuano unapartita11 fino alla completa rovina di uno dei

due. Indichiamo cona il capitale iniziale12 del primo giocatore e conb quello del

secondo. La probabilità di vincere unamano13 è p perA e q perB; p e q non

cambiano durante il gioco. Se, ad esempio,A gioca alla roulette contro il banco

puntando sul nero, poiché vi sono diciotto rossi, diciotto neri ed un verde,p è

uguale a18/37 = 0.4865 . Ad ogni mano ognuno dei giocatori può vincere o per-

dere una delle monete a sua disposizione. Se si presume che gli esiti di ciascuna

11Ad esempio i due giocatori scommettono sull’uscita di testao croce nel lancio ripetuto di una

moneta oppure sul rosso e sul nero alla roulette. Esempi possono essere tratti anche in ambito

assicurativo o nel gioco in borsa. Pertanto al termine partita deve essere attribuito un significato

non letterale.12numero di monete in un qualunque valuta: euro, dollari, rubli, sterline.13Il termine mano non è utilizzato nel senso specifico del giocodelle carte ma indica una singola

esecuzione dell’esperimento casuale.

partita siano indipendenti, qual è la probabilità che uno dei due giocatori, diciamo

A, perderà l’intero capitale (si rovinerà)?

Prima di addentrarci nei calcoli definiamo la tipologia degli eventi semplici con-

nessi all’esperimento casuale in studio. In questo contesto per evento elementare

si intende una successione infinita di alternarsi dei risultati delle singole partite

giocate. Per esempio un evento elementare14 è ω1 ≡ A,A,A,A,A,A, . . .oveA vince due mani consecutive eB la successiva e così per tutta la partita; un

altro esempio di evento elementare è quello in cuiB vince tutte le mani di posto

dispariω2 ≡ A,A,A,A,A, . . .. Ogni evento elementareωk è una succes-

sione numerabile composta dai simboliA eA. L’evento, alla cui probabilità siamo

interessati, consiste di tutti gli esiti elementariωk per i quali il giocatoreA perde

la sua dotazione iniziale di monete a favore del giocatoreB. Quest’ultimo, alla

fine della partita, vedrà crescere il sua capitale ada+ b.

Seguendo l’impostazione di Gnedenko, indichiamo conpn(N) la probabilità che

A si rovini inN mani se disponeva din monete prima di iniziare il gioco. Un gene-

rico evento elementareωk è la successione diN simboli di cuim sarannoA, se

il primo giocatore vince perm volte, ed i rimanentiN −m posti saranno occupati

daA ad indicare le vincite del secondo giocatore. In virtù delleipotesi poste sullo

svolgimento della partita possiamo scrivere la relazionepn(N) = pmqN−m. Ana-

logamente si definisconoqn(N) e rn(N) che indicano, rispettivamente, la proba-

bilità che siaB a perdere inN mani e la probabilità che si sia in parità. Qualunque

siaN > 0 risulta

pn(N) + qn(N) + rn(N) = 1 . (3.14)

In quanto probabilità,pn(N), qn(N) e rn(N) sono quantità limitate, inoltre, è

intuitivo che al crescere diN , pn(N) e qn(N) sono non decrescenti ern(N) non

14Per ciascuna mano indichiamo conA la vincita del giocatoreA e conA quella diB.

crescente. Valgono allora i seguenti limiti:

pn = limN→∞

pn(N), qn = limN→∞

qn(N), rn = limN→∞

rn(N).

Chiameremo questi limiti, rispettivamente, probabilità di rovina del giocatoreA,

del giocatoreB e di pareggio, purché all’inizio del giocoA posseggan monete e

la diponibilità diB sia dia + b− n. Dalla (3.14) segue:

pn + qn + rn = 1 . (3.15)

Risulta inoltre che

1. se all’inizio del giocoA detiene l’intero capitalea+b eB non ha piú monete,

allora

pa+b = 0 qa+b = 1 ra+b = 0 ; (3.16)

2. seA inizia senza nessuna moneta eB possiede tutto, allora

p0 = 1 q0 = 0 r0 = 0 . (3.17)

Se il giocatoreA in una determinata fase del gioco possieden monete la sua ro-

vina può concretizzarsi in due differenti modalità. Egli vince la mano successiva,

aumenta il sua capitale adn + 1 monete e poi perde la partita oppure perde sia la

mano successiva che la partita. Dalla formula della probabilità totale segue che

pn = p · pn+1 + q · pn−1. (3.18)

La (3.18) è un’equazione alle differenze finite inpn che possiamo riscrivere co-

q · (pn − pn−1) = p · (pn+1 − pn). (3.19)

15Si moltiplichi il primo membro per(p+ q).

Se il gioco è equop = q = 1/2 e la (3.18) dà luogo alle relazioni

pn+1 − pn = pn − pn−1 ≡ c

pn − pn−1 = pn−1 − pn−2 ≡ c

pn−1 − pn−2 = pn−2 − pn−3 ≡ c...

p2 − p1 = p1 − p0 ≡ c

conc costante. Dal precedente risultato si trova che

pn = pn−1 + c = pn−2 + c+ c = pn−3 + c+ c + c

· · · = p1 + (n− 1)× c = p0 + n× c

e, tenuto conto che per la prima delle (3.17)p0 = 1, si hapn = 1 + n × c ed in

particolarepa+b = 1+(a+b)×c. Quest’ultima relazione consente di determinare

il valore della costantec in quanto per le (3.16)pa+b = 0, si hac = − 1

a + be

l’espressione analitica dipn diventa

pn = 1− n

a+ b. (3.20)

Quindi la probabilità cheA si rovini, tenendo conto che all’inizio del gioco egli

dispone dia monete, è uguale a

pa = 1− a

a + b=

a + b. (3.21)

Ripetendo il precedente ragionamento si determina la probabilità che siaB a

rovinarsi16:

qa = 1− b

a + b=

a + b. (3.22)

16Si ricordi chen indica la disponibilità del primo giocatore; per tale motivo il pedice diq è

semprea.

Osserviamo chepa + qa = 1 e pertantora è nulla nell’ipotesi che le probabilitàp

e q coincidano.

Nel caso generale dip 6= q, dalla (3.19) si ricavapn+1 − pn =q

p(pn − pn−1) e da

quest’ultima

p2 − p1 =q

p(p1 − p0) =

p(p1 − 1),

p3 − p2 =q

p(p2 − p1) =

(p1 − 1),

pn+1 − pn =q

p(pn − pn−1) =

(p1 − 1). (3.23)

La (3.23) consente di esprimere la differenzapa+b − pn come una sommatoria

finita di potenze del rapportoq/p. Si ha

pa+b − pn

= pn+1 − pn + pn+2 − pn+1 + pn+3 − pn+2 + · · ·+ pa+b − pa+b−1

=a+b−1∑

(pj+1 − pj) = (p1 − 1)a+b−1∑

Poichép 6= q,q

p6= 1; inoltre, perj ∈ [0, a + b − 1],

è una progressione

geometrica, pertanto

a+b−1∑

1−(q

1− q

pe, spezzando la sommatoria a primo membro, otteniamo

a+b−1∑

=n−1∑

+a+b−1∑

1−(q

1− q

da cui segue

a+b−1∑

1−(q

1− q

−n−1∑

1−(q

1− q

−1−

1− q

ed infine

pa+b − pn = (p1 − 1)×

1− q

. (3.24)

Osserviamo17 chepa+b = 0 ep0 = 1; dalla (3.24) seguono le relazioni

pn = (1− p1)×

1− q

(3.25)

1 = (1− p1)×

1− q

= (1− p1)×1−

1− q

. (3.26)

Dalla (3.26) ricaviamo il valore di1− p1

1− p1 =

1− q

1−(q

17confronta le (3.16) e (3.17)

e, sostituiendo quest’ultimo nella (3.25), troviamo

1− q

1−(q

)a+b×

1− q

(3.27)

Quindi la probabilità che il giocatoreA si rovini è

pa =qa+b − qapb

qa+b − pa+b=

1−(p

)a+b. (3.28)

Analogamente si dimostra che la probabilità della rovina del giocatoreB è

1−(q

)a+b. (3.29)

È possibile che la partita finisca in parità? Ricordiamo chepa, qa e ra devono

verificare il vincolopa + qa + ra = 1 . Sommando i valori dipa e qa si ha

1−(p

1−(q

qb − pb

qa+b − pa+b

pa − qa

pa+b − qa+b

=qb − pb

qb· qa+b

qa+b − pa+b+

pa − qa

pa· pa+b

pa+b − qa+b

=qa(qb − pb)

qa+b − pa+b− pb(pa − qa)

qa+b − pa+b=

qaqb − qapb − papb + pbqa

qa+b − pa+b

=qa+b − pa+b

qa+b − pa+b= 1 .

Si conclude che anche nel caso generale dip 6= q la probabilità di pareggio è

uguale zero e, quindi, la relazionepa + qa = 1 vale sempre.

Le formule precedenti suggeriscono alcune considerazionidi rilievo. Supponiamo

che il gioco sia equo, oppure che i due giocatori siano di uguale abilità. In altre

parole siap = q = 12

e supponiamo, inoltre, che la disponibilità iniziale diB sia

di gran lunga superiore a quella diA. In questo caso il valore dib può conside-

rarsi infinitamente grande. Allora per la (3.22) la rovina del secondo giocatore è

praticamente impossibile. La situazione cambia seA gioca meglio diB, in questo

caso risultap > q. Se assumiamob ∼ ∞, dalla (3.29) si ricavaqa ∼ 1 −(q

e pa = 1 − qa ∼(q

. In conclusione un giocatore,A, con un capitale minore

ma più abile, ha meno probabilità di rovinarsi di un avversario, B, con maggiore

disponibilità economica ma meno bravo nel gioco.

3.2.2 Il lemma di Borel e Cantelli

Il celebrelemma di Borel-Cantellicostituisce il presupposto per la dimostrazione

della cosiddettalegge 0-1che svolge un ruolo fondamentale nella determinazione

di alcune proprietà asintotiche della successione di eventi.

Lemma 3.2.1(di Borel-Cantelli). SiaAnn∈N una successione di eventi, la con-

vergenza della serie∞∑

P (An) implica che sia uguale a zero la probabilità del-

l’eventolim supn→∞

Dimostrazione.Per la (1.20),P

lim supn→∞

limn→∞

∞⋃

e da quest’ul-

tima, per la proprietà di continuità della probabilità e dalla disuguaglianza di Boole

(1.44), si ricava

lim supn→∞

limn→∞

∞⋃

= limn→∞

(∞⋃

6 limn→∞

∞∑

P (Ak) .

La quantità∑∞

k=n P (Ak) rappresenta il reston-esimo della serie∑∞

n=1 P (An)

che, essendo quest’ultima convergente per ipotesi, è infinitesimo pern che tende

all’infinito. In conclusione si ha

lim supn→∞

6 limn→∞

∞∑

P (Ak) = 0

e la tesi del lemma è stata dimostrata.

Il lemma di Borel e Cantelli afferma che, se∑∞

n=1 P (An) < ∞, è nulla la proba-

bilità che esista unk > n tale cheAk si verifichi qualunque sian. In altri termini,

dalla convergenza della serie∑∞

n=1 P(An) segue che il verificarsi di infiniti tra gli

eventi della successioneAnn∈N è un evento quasi impossibile. Siamo ora nella

condizione di poter dimostrare il seguente teorema che, come abbiamo sottolinea-

to in precedenza, ha una importante valenza teorica.

Teorema 3.2.3(Legge 0-1). Sia Ann∈N una successione di eventi collettiva-

mente indipendenti. Si ha:

a-∞∑

P (An) < ∞ sse P

lim supn→∞

b-∞∑

P (An) = ∞ sse P

lim supn→∞

Dimostrazione.La necessarietà dellaa coincide con la tesi del lemma di Borel e

Cantelli. Dimostriamo la necessarietà dellab; a tal fine ricordiamo la relazione

lim supn→∞

= limn→∞

(∞⋃

, utilizzata nella dimostrazione del lemma

3.2.1, ed applichiamo ad essa la legge di De Morgan (1.4). Si ottiene:

lim supn→∞

= limn→∞

(∞⋃

= limn→∞

(∞⋂

= 1− limn→∞

(∞⋂

. (3.30)

Valgono la relazioni

(∞⋂

limr→∞

= limr→∞

e, per l’ipotesi di indipendenza collettiva degli eventiAn, si ricava

limr→∞

= limr→∞

∞∏

). (3.31)

La (3.30) e la (3.31) conducono alla relazione

lim supn→∞

= 1− limn→∞

∞∏

)= 1− lim

n→∞

∞∏

[1− P(Ak)] .

Ricordando che,∀x ∈ R, vale la disuguaglianza1 − x 6 exp(−x), si ricava la

maggiorazione

lim supn→∞

> 1− limn→∞

∞∏

e−P(Ak) = 1− limn→∞

−∞∑

Poiché per ipotesi la serie∑∞

n=1 P (An) diverge, al tendere din all’infinito diver-

ge anche il reston-simo∑∞

k=n P(Ak) ed è nullo illimn→∞ exp −∑∞k=n P(Ak).

Dal fatto che la probabilità di un qualunque evento non può eccedere l’unità, si

ricavaP (lim supn→∞An) = 1 .

Il carattere di sufficienza dellaa e dellab si dimostra per assurdo.

Se perP (lim supn→∞An) = 0 risultasse∑∞

n=1 P (An) = ∞, come conseguenza

di b dovremmo avereP (lim supn→∞An) = 1 e quindi si cadrebbe in contraddi-

zione. Ad analoga contraddizione si perviene se la serie∑∞

n=1 P (An) fosse con-

vergente nel caso in cuiP (lim supn→∞An) = 1, infatti per laa dovrebbe essere

nulla la probabilità dell’eventolim supn→∞An.

Il teorema appena dimostrato afferma che, nel caso di una successione numerabile

di eventi collettivamente indipendenti, la probabilità che si verifichi un numero

infinito di tali eventi è nulla se la serie∑∞

n=1 P (An) converge mentre è uguale ad

1 se la predetta serie diverge.

3.2.3 Esperimenti indipendenti e spazio campionario prodotto

Definiamo, ora, formalmente il concetto di spazio campionario prodotto che è sta-

to in precedenza utilizzato su base intuitiva.

Consideriamo due esperimenti casualiE1 e E2 ai quali siano associati gli spazi

campionari discretiΩ1 edΩ2, rispettivamente; indichiamo conpi e qj le di-

stribuzioni di probabilità corrispondenti (vedi paragrafo 2.1). A partire daE1 e

E2 si può definire un singolo esperimento compositoE che consiste nell’esegui-

re sequenzialmente, o anche simultaneamente, i due esperimenti individuali. Ad

esempio, se il primo esperimento consiste nel lancio di una moneta ed il secon-

do nell’estrazione di un bussolotto colorato da un’urna, l’esperimento composito

consiste nel lanciare prima la moneta ed estrarre, poi, il bussolotto. Il nostro scopo

è quello di definire lo spazio campionarioΩ e la distribuzione di probabilitàP per

l’esperimento composito.

Assumiamo che gli esperimenti siano indipendenti; ovvero ipotizziamo che l’esito

di un esperimento non influenzi l’esito di quello successivo. Nell’esempio prece-

dente si assume che l’esito del lancio della moneta non abbiaeffetti sul colore del

bussolotto che sarà estratto dall’urna. Più in generale, sianoei edfj eventi elemen-

tari tali cheei ∈ Ω1 efj ∈ Ω2; siano inoltrepi eqj le rispettive probabilità. Se non

vi è alcun effetto di trasferimento tra il primo esperimentoed il secondo, la pro-

babilità che l’esito del primo esperimento siaei efj quello del secondo è data dal

prodottopi · qj . Esistono molte situazioni reali per le quali l’ipotesi dell’indipen-

denza degli esperimenti è ragionevolmente motivata da considerazioni teoriche a

priori. Osserviamo che l’esito dell’esperimento composito è rappresentato da una

coppia ordinata(ei, fj) ove ei ∈ Ω1 e fj ∈ Ω2; quindi Ω è l’insieme, finito o

numerabile di tutte le predette coppie; esso è denominatoprodotto cartesianodi

Ω1 eΩ2, in simboli:Ω = Ω1 × Ω2.

Definizione 3.2.4.Due esperimenti casuali,E1 e E2, sono detti indipendenti se

l’assegnazione della probabilità agli eventi elementari18 dello spazio campionario

Ω = Ω1 × Ω2 segue la regola del prodotto, ovvero se risulta

rij = pi · qj ∀ (ei, fj) ∈ Ω.

Il modello probabilistico così definito è chiamato modello prodotto per l’esperi-

mento compostoE .

Notiamo che per la definizione posta, per ogni coppia(ei, fj) ∈ Ω, rij è una

quantità maggiore o uguale a zero, inoltre si ha

i,j:(ei,fj)∈Ω

rij =∑

i:ei∈Ω1

pi ·∑

j:fj∈Ωe

qj = 1

e, pertanto,rij = pi · qj definisce una distribuzione di probabilità sullo spazio

campionario prodottoΩ = Ω1 × Ω2.

Esaminiamo il caso particolare in cui il secondo esperimento sia una ripetizione

18Indichiamo conrij la probabilità dell’evento elementare(ei, fj).

del primo, sicchéΩ1 = Ω2 ≡ Ω epi = qj. Considerate nel loro insieme le due

ripetizioni formano un esperimento composito il cui spaziocampionario è il pro-

dotto cartesiano diΩ con se stesso:Ω2 = Ω × Ω. Le ripetizioni dell’esperimento

sono indipendenti se e solo se

rij = pi · pj ∀ei, fj ∈ Ω.

Analogamente, pern ripetizioni dello stesso esperimento lo spazio campione è

dato dal prodotto cartesianoΩn = Ω× Ω× · · · × Ω︸︷︷︸

n volte

e len ripetizioni sono dette

indipendenti se e solo se

rij...k = pi · pj · · · pk 2 6 k 6 n.

Esempio 3.2.4.Supponiamo che l’esperimento composito sia costituito dallancio

di due dadi. Lo spazio campione per un singolo lancio èΩ = 1, 2, 3, 4, 5, 6, cia-

scun punto avendo probabilitàpi = 16. Per sua natura il lancio del secondo dado

non è influenzato dal risultato del lancio del primo dado, pertanto lanci successivi

del dado rappresentano esperimenti indipendenti il cui spazio campionario è l’in-

sieme delle 36 coppie(i, j) coni, j ∈ [1, 6]. A ciascuna di tali coppie è assegnata

la probabilitàpi · pj = 136

. La probabilità di un evento inΩ2 può essere calcolata

sommando le probabilità delle coppie elementari ad esso favorevoli. Ad esempio

siaA l’evento la somma del lancio dei due dadi è 6, esso è costituito dalle cinque

coppie(1, 5), (2, 4), (3, 3), (4, 2), (5, 1) e quindi:

P(A) =5

CAPITOLO 4

La distribuzione binomiale e la

distribuzione di Poisson

4.1 Le prove del Bernoulli

Ripetizioni indipendenti di un esperimento con solo due possibili esiti,S (succes-

so) edF (fallimento), con probabilità che rimane costante durante le ripetizioni

sono chiamateprove del Bernoulli. La probabilità dell’esito successo è usualmen-

te indicata conp, si indica conq la probabilità diF . Naturalmente p e q sono

non negativi e tali chep + q = 1 . Lo spazio campionario di ciascuna prova è

costituito dai due puntiS edF . Pern prove del Bernoulli lo spazio campionario

contiene2n punti, ciascun punto è la successione din simboli S edF e rappre-

senta un possibile esito dell’esperimento composto dallen ripetizioni. Essendo le

prove indipendenti le probabilità si moltiplicano; in altre parole la probabilità di

una specificata sequenzaSSFS...FFS è il prodotto ottenuto sostituendo i simboli

S edF conp e q rispettivamente:

P [(SSFS...FFS)] = ppqp · · · qqp.

112 Capitolo 4. La distribuzione binomiale e la distribuzione di Poisson

Nel caso di due prove del Bernoulli lo spazio campione contiene quattro punti

Ω = SS, SF, FS, FF

e le rispettive probabilità sono date da

P(SS) = p2,P(SF) = p · q,P(FS) = q · p,P(FF) = q2.

Se le prove del Bernoulli sono tre si ha

SSS︸︷︷︸

, SSF︸︷︷︸

, SFS︸︷︷︸

, FSS︸︷︷︸

, FFS︸︷︷︸

, FSF︸︷︷︸

, SFF︸︷︷︸

, FFF︸︷︷︸

P(ω1) = p3,P(ω2) = P(ω3) = P(ω4) = p2q,

P(ω5) = P(ω6) = P(ω7) = pq2,P(ω8) = q3.

L’esempio più familiare delle prove del Bernoulli è rappresentato dal lancio suc-

cessivo di una moneta, in questo casop = q = 1/2 e l’evento successo potrebbe

essere l’uscita di testa. Del tutto analogo è il caso in cui più monete sono lanciate

contemporaneamente. Anche il lancio di dadi può essere descritto utilizzando il

modello delle prove del Bernoulli. Lo stesso vale per l’estrazione con reimbusso-

lamento di palline di due differenti colori da un’urna. Lo schema non è applicabile

se il campionamento è senza restituzione in quanto, essendoin questo caso non

costante la composizione dell’urna, la probabilità di successo, ad esempio dell’e-

strazione di una pallina rossa, varia dipendendo dal coloredelle palline estratte

in precedenza. Le prove del Bernoulli trovano applicazionein alcune situazioni

sperimentali come il controllo di qualità, il calcolo del potere infettivo di un agen-

te patogeno, la valutazione dell’efficacia di un vaccino o diun siero e così via.

Nei casi reali, affinché il modello sia valido, occorre valutare con attenzione che

sia verificata la condizione che la probabilitàp rimanga costante nel corso delle

ripetizioni dell’esperimento.

4.2 La distribuzione binomiale 113

4.2 La distribuzione binomiale

Ritorniamo ora al caso generale din prove del Bernoulli. Siap la probabilità di

successo ed indichiamo conb(k;n, p) la probabilità di ottenerek successi nelle

n ripetizioni. La probabilità di realizzazione di una determinata sequenza di esiti

nella quale vi siano esattamentek successi,S, edn − k fallimenti,F , è data, per

quanto prima esposto, dal prodottopk·qn−k = pk·(1−p)n−k. Essendo interessati al

numero di successi nellen ripetizioni dell’esperimento e non all’ordine nel quale

essi si verificano, per calcolareb(k;n, p) il valorepk ·qn−k deve essere moltiplicato

per il numero di sequenze nelle qualik sono i successi edn− k i fallimenti in un

ordine qualsiasi di realizzazione:

b(k;n, p) =

pk(1− p)n−k. (4.1)

La (4.1) definisce una distribuzione discreta di probabilità: ladistribuzione bino-

miale. Infatti qualunque siak ∈ [0, n] risulta b(k;n, p) > 0 ed inoltre, per il

teorema binomiale 2.2.1, si ha

b(k;n, p) =n∑

pk(1− p)n−k

= (1− p)nn∑

1− p

= (1− p)n(

1− p

= (1− p)n(

1− p

= 1 . (4.2)

Dalla (4.1) si deduce che la probabilità che inn prove del Bernoulli non si verifichi

alcun successo è

b(0;n, p) = (1− p)n

e che la probabilità di ottenere almeno un successo è

1− b(0;n, p) = 1− (1− p)n.

Il valore b(k;n, p) si ricava, notob(k − 1;n, p), grazie alla seguente formula

ricorsiva:

b(k;n, p) = b(k − 1;n, p)

1 +(n+ 1)p− k

. (4.3)

Infatti possiamo scrivere la relazione

b(k;n, p)

b(k − 1;n, p)=

pkqn−k

k − 1

pk−1qn−k+1

k − 1

) · pq

k!(n− k)!

(k − 1)!(n− k + 1)!

· pq=

(k − 1)!

k!· (n− k + 1)!

(n− k)!· pq=

n− k + 1

k· pq

da cui segue la (4.3). La figura 4.1 mostra il grafico della distribuzione binomiale

pern = 50 e tre diversi valori della probabilità di successop.

Esempio 4.2.1. Probabilità di contagio

Il tasso di morbilità di una data malattia è del venticinque per cento. Qual è la

probabilità chek di n soggetti non risultino contagiati? Se si ritiene ragionevole

considerare costante nel tempo il tasso di morbilità è ragionevole far ricorso al

modello binomiale ponendop = 1− 0.25 = 0.75 e q = 0.25:

b(k;n, p) =

× 0.75k × 0.25n−k.

Esempio 4.2.2. Rischio di morte

Da studi epidemiologici condotti nel reparto di cardiochirurgia di un ospedale di

alta specialità si osserva una mortalità intraoperatoria del dieci per cento. Se nel

reparto di eseguono in un anno cinquanta interventi, per calcolare la probabilità

che k pazienti sopravvivano si utilizza la distribuzione del Bernoulli con p =

1− 0.1 = 0.9: b(k; 50, 0.9) =

× 0.90k × 0.1050−k.

0 10 20 30 40 500

0.2n=50; p=0.25

0 10 20 30 40 500

0.2n=50; p=0.50

0 10 20 30 40 500

0.2n=50; p=0.65

Figura 4.1: Distribuzione Binomiale.

Esempio 4.2.3. Mutazioni geniche

Supponiamo che per una fissata intensità di radiazione la probabilità di una mu-

tazione per gene sia approssimativamente pari ap = 2.7 × 10−7, calcoliamo la

probabilità che si verifichi almeno una mutazione in104 geni. La probabilità che

non si verifichi alcuna mutazione è

b(0; 10000, 2.7 · 10−7) =

(10000

(2.7 · 10−7)0(1− 2.7 · 10−7)10000

= (1− 2.7 · 10−7)10000 ≈ 0.9975

da cui si ricava:

b(1; 10000, 2.7 · 10−7) = 1− b(0; 10000, 2.7 · 10−7) ≈ 1− 0.9975 = 2.5× 10−3.

Osservazione4.2.1. Come conseguenza della (4.3) si ha

b(k;n, p)

b(k − 1;n, p)= 1 +

(n+ 1)p− k

Pertanto per valorik tali chek < (n + 1)p risultab(k;n, p) > b(k − 1;n, p), per

k > (n+ 1)p vale, invece, la disuguaglianzab(k;n, p) < b(k − 1;n, p). Esiste un

unico interom che verifica la relazione

(n+ 1)p− 1 < m 6 (n+ 1)p

sicché la distribuzione di Bernoulli assume il massimo quandok = m, inoltre, se

(n+ 1)p è un interob(m;n, p) = b(m− 1;n, p).

Esempio 4.2.4.Calcolare la probabilità che estratte a caso e contemporaneamente

tre carte da un mazzo di carte napoletane, fra di esse vi sianodue soli assi, di

qualunque seme. Ricordiamo che le carte napoletane sono quaranta di quattro semi

differenti. Pertanto il numero dei casi possibili è dato dalcoefficiente binomiale(40

. Per calcolare il numero dei casi favorevoli notiamo che i due assi possono

essere scelti in

modi possibili e che per la terza carta, che non si vuole sia un

asso, sussistano

possibilità. In conclusione la probabilità cercata è

≈ 2.2 · 10−2.

In molte applicazioni occorre calcolare la probabilità cheil numero di successi in

n prove del Bernoulli sia almeno pari ad un fissato interol, in termini diversi si

cerca la probabilià dell’eventoSn > l, ove conSn indichiamo un generico numero

di successi inn prove del Bernoulli. Si ha:

P (Sn > l) =n∑

P (Sn = j) =n∑

pjqn−j =∞∑

pjqn−j (4.4)

ove la sommatoria finita è stata estesa all’infinito in quantoil coefficiente bino-

miale si annulla perj > n. Analogamente la probabilità che il numero di successi

non sia superiore adl è data da:

P (Sn 6 l) =

P (Sn = j) =

pjqn−j. (4.5)

Infine la probabilità che il numero di successi sia compreso trak edl è:

P (k 6 Sn 6 l) = P (Sn 6 l)− P (Sn 6 k − 1) =l∑

pjqn−j. (4.6)

In letteratura sono consultabili tavole probabilistiche nelle quali sono tabulati i

valori delle probabilità cumulativeP (Sn 6 l), calcolati in accordo alla (4.5), per

alcuni valori dip edl.

Esempio 4.2.5. Giocando a testa e croce

Lanciando per dieci volte una moneta equa, qual è la probabilità di ottenere sei

volte testa e che risulti testa in almeno sette lanci? Per quanto concerne il primo

quesito si applica direttamente la 4.1:

P (S10 = 6) = b(6; 10, 0.5) =

0.560.54 =10!

1024≈ 0.205 .

Per calcolareP (S10 > 7) osserviamo che per la (4.4) si ha

P (S10 > 7) = b(7; 10, 0.5) + b(8; 10, 0.5) + b(9; 10, 0.5) + b(10; 10, 0.5).

Applicando la formula ricorsiva (4.3) si ricavano i seguenti valori:

b(7; 10, 0.5) = b(6; 10, 0.5) ·[

1 +11× 0.5− 7

7× 0.5

≈ 0.205× 0.571 ≈ 0.117 ,

b(8; 10, 0.5) = 0.117×[

1 +11× 0.5− 8

8× 0.5

≈ 0.117× 0.375 ≈ 0.044 ,

b(9; 10, 0.5) = 0.044×[

1 +11× 0.5− 9

9× 0.5

≈ 0.044× 0.222 ≈ 10−3.

Essendob(10; 10, 0.5) =1

1024≈ 10−3, si ottiene la risposta al secondo

quesito:P (S10 > 7) ≈ 0.163 .

Esempio 4.2.6. Risposte casuali ad un questionario

Un questionario è composto da otto domande e ciascuna di esseprevede tre rispo-

ste delle quali una sola è quella esatta. Assumendo di rispondere a caso, calcolare

la probabilità che il numero di risposte esatte sia

• uguale a otto,

• almeno otto,

• al massimo sette,

• maggiore di uno e minore di otto.

Per le ipotesi poste abbiamon = 10, p =1

3e q = 1− p =

3. Pertanto si ha:

P (S10 = 8) = b(8; 10,1

≈ 3× 10−3

P (S10 > 8) =

pjq10−j

≈ 3.4× 10−3

P (S10 6 7) = 1− P (S10 > 8) ≈ 0.9966 .

4.3 Distribuzione di Poisson 119

Per rispondere all’ultimo quesito occorre calcolare

P (1 < S10 < 8) = P (S10 6 7)− P (S10 6 1) ≈ 0.9966− P (S10 6 1) .

PoichéP (S10 6 1) =

≈ 0.104, si

ottiene

P (1 < S10 < 8) ≈ 0.8926 .

Esempio 4.2.7. Giocando a dadi

Calcolare la probabilità che lanciando quattro volte un dado, almeno una volta esca

il sei. Ricordiamo che in questo caso all’evento elementaresuccesso corrisponde

p = 16, mentre la probabilità che il dado mostri una qualsiasi altra faccia èq = 5

pertanto la probabilità di interesse è

P (S4 > 1) =4∑

)4−j

≈ 0.518 .

4.3 Distribuzione di Poisson

In molte situazioni reali si incontrano casi particolari diprove del Bernoulli dove

n è molto grande e la probabilità elementarep piccola, ad esempio inferiore a

10−1. In questi casi è conveniente far ricorso ad una funzione cheapprossima la

b(k;n, p), essa è dovuta a Poisson e sarà ricavata di seguito. Perk = 0, ponendo

λ = np, abbiamo

b(0;n, p) = (1− p)n =

1− λ

e, passando ai logaritmi naturali,

ln b(0;n, p) = n ln

1− λ

= −λ− λ2

2n− · · ·

ove l’ultimo passaggio si giustifica sviluppando in serie diMacLaurin1 la funzione

ln(1− λ

). Sicché, per grandi valori din,

b(0;n, p) ≈ e−λ. (4.7)

Dalla formula ricorsiva (4.3) ricaviamo l’espressione

b(k;n, p)

b(k − 1;n, p)=

np− (k − 1)p

kq− (k − 1)p

che, per le ipotesi poste sun ep, diventa2

b(k;n, p)

b(k − 1;n, p)≈ λ

k. (4.8)

Possiamo, quindi, scrivere

b(1;n, p) ≈ b(0;n, p) · λ1= λ · e−λ,

b(2;n, p) ≈ b(1;n, p) · λ2=

2· e−λ,

b(3;n, p) ≈ b(2;n, p) · λ3=

6· e−λ =

3!· e−λ

e in generale

b(k;n, p) ≈ λk

k!· e−λ. (4.9)

1A tal proposito si ricordi:

ln(1 + z) = z − z2

3− z4

4± · · ·

.2Infatti, essendo per ipotesip di poco maggiore di zero, è giustificato assumereq = 1− p ≈ 1

e (k−1)pkq ≈ 0 .

La (4.9) rappresenta la cosiddettaapprossimazione di Poissondella distribuzione

binomiale. Per ogni interok > 0 si hab(k;n, p) > 0 ed inoltre3

∞∑

k!· e−λ = e−λ

∞∑

k!︸︷︷︸

Quindi, per ogni fissato valore diλ, la (4.9) è una distribuzione di probabilità; essa

è denominatadistribuzione di Poissoned è indicata con la notazione:

p(k, λ) =λk

k!· e−λ. (4.10)

La figura 4.2 illustra il grafico della distribuzione Poissonper alcuni valori del

parametroλ.

La distribuzione di Poisson in questo contesto (vedi [5] e [7]) è interpretata come

una approssimazione dib(k;n, p), la probabilità di ottenere esattamentek succes-

si in n prove del Bernoulli quandon è sufficientemente grande ep piccola. Essa

si configura come un modello probabilistico adatto a descrivere quelle situazio-

ni sperimentali che rientrano nella categoria deglieventi rari, ovvero quando le

repliche sono in numero elevato e l’evento successo non è frequente. La distri-

buzione di Poisson è comunque deducibile indipendentemente dalla distribuzione

binomiale, ma l’argomento rientra nell’ambito della teoria dei processi stocastici.

Esempio 4.3.1. Confronto delle due distribuzioni

La distribuzione binomiale con parametrin = 100 ep = 0.02 è

b(k; 100, 0.02) =

× 0.02k × 0.98100−k k = 0, 1, 2, . . . .

3Lo sviluppo in serie di Taylor diexp(λ) è dato da∑

0 5 10 150

1λ=0.5

0 5 10 150

0.4λ=2

0 5 10 150

0.2λ=5

Figura 4.2: Distribuzione di Poisson.

Per la distribuzione di Poisson si haλ = np = 2 e

p(k, 2) = 2k · e−2

k!k = 0, 1, 2, . . . .

Per piccoli valori dik si ricavano i valori riportati nella sottostante tabella

k 0 1 2 3 4 5 6

b(k; 100, 0.02) .1326 .2707 .2734 .1823 .0902 .0353 .0114

p(k, 2) .1353 .2707 .2707 .1804 .0902 .0361 .0120

dalla quale si deduce che i valori delle due distribuzioni sono molto vicini per pic-

coli valori di k, perk > 4 le discrepanze cominciano ad aumentare. Come criterio

generale si tenga presente che una buona approssimazione della distribuzione bi-

nomiale con una distribuzione poissoniana si ottiene pern > 20 e p 6 0.05, tale

approssimazione è ottima pern > 100 eλ 6 10 .

Esempio 4.3.2. Malattia genetica rara

Una malattia genetica molta rara viene osservata in una datapopolazione con una

frequenza relativa pari a10−3; la diagnosi precoce viene effettuata esaminando

un campione di sangue. Essendo nell’ambito degli eventi rari la distribuzione

di Poisson consente il calcolo della probabilità di trovarek soggetti affetti dalla

malattia in un gruppo din persone. In particolare si hap(k, λ) = p(k, 10−3n) e

per calcolare probabilità che almeno due dei soggetti esaminati siano malati si può

applicare la relazione:

P (Sn > 2) ≈ 1− p(0, λ)− p(1, λ) = 1− e−λ − λe−λ = 1− (1 + λ)e−λ.

Quanti soggetti devono essere studiati affinchéP (Sn > 2) > 0.95 ? La precedente

condizione è verificata se

(1 + λ)e−λ < 0.05 . (4.11)

Nella figura 4.3 è mostrato l’andamento di(1 + λ)e−λ in funzione diλ; da essa si

evince che la 4.11 è verificata perλ > 4.75 e, quindi, deve essere

np > 4.75 =⇒ n >4.75

10−3= 4750

pertanto occorre sottoporre a screening almeno 4750 persone, affinché sia supe-

riore a0.95 la probabilità di individuare almeno due soggetti affetti dalla malattia

3 3.25 3.5 3.75 4 4.25 4.5 4.75 5 5.25 5.5 5.75 60

Figura 4.3: Grafico di(1 + λ)e−λ in funzione diλ.

4.4 Tempi di attesa in prove del Bernoulli

Supponiamo di non aver fissato in anticipo il numeron di prove del Bernoulli e

di continuare a ripetere l’esperimento fino a quando non sia stato osservato l’r-

esimo successo. Indichiamo conf(k; r, p) la probabilità che l’r-esimo successo

capiti esattamente dopor + k ripetizioni.

Cominciamo considerando il casor = 1; f(k; 1, p) è la probabilità che le prime

4.4 Tempi di attesa in prove del Bernoulli 125

k ripetizioni diano luogo all’evento elementareF e che lak + 1 prova sia un

successo, si ha4

FFF . . . F︸︷︷︸

= (1− p)(1− p) . . . (1− p)︸︷︷︸

da cui segue

f(k; 1, p) = p(1− p)k k = 0, 1, 2, . . . . (4.12)

La (4.12) è denominatadistribuzione geometricain quanto le probabilitàf(k; 1, p)

costituiscono i termini di una serie geometrica∑

i ari, ovea = p edr = 1 − p.

Inoltre, essendo0 < p < 1,

f(k; 1, p) > 0 ∀k

e5∞∑

p(1− p)k =p

1− (1− p)= 1

come richiesto dagli assiomi di Kolmogorov.

Nel caso generale, per determinare l’espressione analitica dif(k; r, p) è necessario

calcolare la probabilità dell’evento

SSFSFF . . . SF︸︷︷︸

r+k−1

ovvero la probabilità che nelle primer + k − 1 prove si ottengano, in un ordine

qualsiasi, esattamentek insuccessiF e r − 1 successiS ed infine alla ripetizione

r + k si osservi un successo. Si ha

f(k; r, p) = b(r − 1; r + k − 1, p) · p

[(r + k − 1

r − 1

pr−1qk]

· p =

(r + k − 1

r − 1

prqk. (4.13)

4Si tenga sempre presente che le prove del Bernoulli sono per definizione indipendenti.5Infatti la serie geometrica

∑∞i=0 ar

i, ser ∈ (−1, 1), converge al valorea/(1− r).

Ricordando la (2.13), possiamo porre(r + k − 1

r − 1

(r + k − 1

(r + k − 1)− (r − 1)

(r + k − 1

da cui:

f(k; r, p) =

(r + k − 1

prqk k = 0, 1, 2 . . . . (4.14)

Per un arbitrario interor > 0 e 0 < p < 1, la successionef(k; r, p), definita

dalla (4.14), è una distribuzione di probabilità che, spesso, è denominatadistribu-

zione di Pascal. A tale proposito si noti che le quantità (4.14) sono non negative;

per dimostrare che la probabilità totale∑

k f(k; r, p) ha valore 1 è utile richiamare

la seguente proprietà del coefficiente binomiale(−a

= (−1)k(a+ k − 1

∀a ∈ R+. (4.15)

Pertanto si ha:

f(k; r, p) =

(r + k − 1

prqk =

pr(−q)k k = 0, 1, 2 . . . . (4.16)

Per il teorema binomiale 2.2.1, riscrivendo la relazione(1 + t)a =∑∞

ponendot = −q ea = −r, si ha

∞∑

(−q)k = (1− q)−r = p−r

da cui

∞∑

f(k; r, p) =∞∑

pr(−q)k = pr∞∑

(−q)k = prp−r = 1 .

Per la particolare espressione (4.16) laf(k; r, p) è anche chiamatadistribuzione

binomiale negativa.

4.4 Tempi di attesa in prove del Bernoulli 127

Osservazione4.4.1. Si chiamadistribuzione geometrica modificatala distribuzio-

ne di probabilità

pk = p(1− p)k−1 k = 1, 2, . . . . (4.17)

La (4.17) coincide con la distribuzione geometrica (4.12) se in quest’ultima si po-

ne k = k − 1: pk = f(k − 1; 1, p). In altre parole la distribuzione geometrica

modificata calcola, al variare dik, la probabiltà congiunta che l’evento in conside-

razione non si verifichi perk − 1 prove consecutive e che si verifichi allk-esima

prova (vedi [1],[2]).

Osservazione4.4.2. Un’urna contienea palline bianche eb palline nere. Si estrag-

gono a caso le palline fino a quando non sia stata ottenuta lar-ma pallina bianca.

Se l’estrazione è con reimbussolamento, le estrazioni rientrano nella classe del-

le prove del Bernoulli e, postop = a/(a + b), la distribuzione di Pascal (4.14)

consente il calcolo della probabilità che siano state estratte k palline nere prima

dellar-sima bianca. La situazione cambia se le estrazioni sono senza restituzio-

ne, infatti, in questo caso, il modello del Bernoulli non è applicabile in quanto

la probabilitàp di successo, l’estrazione della pallina bianca, non è costante ma

varia da ripetizione a ripetizione. Affinché siano state estrattek palline nere prima

dellar-sima bianca, devono essere state ottenuter−1 palline bianche nelle prime

r + k − 1 estrazioni ed una pallina bianca nella successiva. La distribuzione iper-

geometrica (2.32) consente il calcolo della probabilità diottenerek palline nere

edr − 1 bianche nelle primer + k − 1 estrazione:(

r − 1

r + k − 1

A questo punto nell’urna sono contenutea + b − (r + k − 1) palline, di queste

a− (r − 1) sono bianche; pertanto la probabilità di successo nella(r + k)-esima

estrazione èa− r + 1

a+ b− r − k + 1

da cui segue

g(k, r) =a− r + 1

a+ b− r − k + 1

r − 1

r + k − 1

. (4.18)

Si osservi che la (4.18) è valida perk ∈ [0, b] e r 6 a.

Esempio 4.4.1. Pericolo di contagio

Una malattia esantematica si sviluppa in un caso su cinque bambini esposti; cal-

coliamo la probabilità che il terzo a contrarla sia stato preceduto da nove bambini

risultati immuni. Dalla distribuzione di Pascal si ricava il valore di probabilità

richiesto:

f(9; 3,1

= 55× 0.008× 0.1342 = 0.059 .

Esempio 4.4.2. Una coppia con molti figli

Ipotizziamo che una coppia possa avere, nel corso degli anni, un figlio maschio o

femmina con uguale probabilità. Consideriamo successo la nascita di maschio. La

distribuzione geometrica (4.12) permette di calcolare la probabilità che il quarto

nato sia il primo maschio:

f(3; 1, 0.5) = 0.5× (0.5)3 = 0.0625 .

La probabilità che il sesto nato sia il terzo maschio si deduce applicando la distri-

buzione di Pascal:

f(3; 3,1

= 10×(1

= 10× 1

64= 0.156 .

Esempio 4.4.3.Lanciando ripetutamente un dado calcoliamo la probabilitàche

un determinato numero, ad esempio il quattro, esca due volteconsecutivamente

dopo esattamentek > 2 lanci. Affinché si realizzi l’evento fissato, nei primik− 2

lanci non deve mai apparire il quattro; il(k − 1)-esimo lancio deve produrre il

4.5 La distribuzione multinomiale 129

primo successo, che ha probabilitàp = 1/6, ed al lancio successivo deve ancora

verificarsi l’uscita del quattro. La probabilità cercata è

k − 2, 1,1

)k−2

4.5 La distribuzione multinomiale

La distribuzione binomiale si generalizza facilmente al caso din prove ripetute

indipendenti di un esperimento casualeE , dove l’esito di ciascuna prova può es-

sere uno fram possibili risultatiE1, E2, . . . , Em. L’insieme dei possibili esiti di

ciascuna prova costituisce una partizione dello spazio campione: Ω =⊔m

i=1Ei.

Ripetendo l’esperimento pern volte si ottiene una successione di eventi del tipo:

E5, E1, E2, Em, E2, E1, . . .︸︷︷︸

Indichiamo conpi la probabilità dell’eventoEi e conki il numero di volte in cui

Ei occorre inn ripetizioni indipendenti diE . Valgono i seguenti vincoli:

1.∑m

i=1 pi = 1 ,

2.∑m

i=1 ki = n .

Qual è la probabilità che, inn ripetizioni indipendenti diE , E1 occorrak1 volte,

E2 occorrak2 volte e . . . Em si verifichi km volte? Nel caso dim = 2 si ricade

nell’ambito della distribuzione binomiale conp1 = p, p2 = 1 − p ≡ q, k1 ∈ [0, n]

e k2 = n − k1. Nel caso generale, come abbiamo già sottolineato in precedenza,

l’esito della ripetizione din prove è una successione deglin simboli Ei e, per

l’ipotesi di indipendenza, la probabilità cheE1 compaia perk1 volte e. . . Em per

km volte, in un fissato ordine, è

pk11 pk22 · · · pkmm . (4.19)

Ad esempio, conn = 7 si potrebbe ottenereE1, E2, E2, E4, E1, E2, E2; la pro-

babilità associata a questa specifica successione di eventiè p21p42p4. Non essendo

rilevante l’ordine di presentazione dei singoli esitiEi, ma solo il numero di vol-

te in cui ciascuno di essi occorre, per ottenere la probabilità di interesse si deve

moltiplicare la (4.19) per il coefficiente multinomiale(

k1 k2 . . . km

che rappresenta il numero di possibili successioni in cui sono presentik1 simboli

E1 e . . . km simboliEm. In conclusione si ha:

f(n; k1, . . . , km) =

k1 k2 . . . km

pk11 pk22 · · · pkmm . (4.20)

Le probabilità definite dalla (4.20) rappresentano la cosiddettadistribuzione mul-

tinomiale. La probabilità totale, ottenuta sommando i terminif(n; k1, . . . , km)

su tutti gli interi non negativik1, k2, . . . , km, è uguale a 1 come conseguenza del

teorema multinomiale 2.2.3. Infatti in questo caso il primomembro della (2.22)

coincide con

(p1 + p2 + · · ·+ pm)n = 1n = 1 .

Esempio 4.5.1. Giocando a testa e croce con più monete

Supponiamo di lanciare tre monete e di contare il numero di monete che mostrano

testa. Ripetiamo l’esperimento pern = 10 volte; se coni ∈ [0, 3] si indica il

numero di monete che mostrano testa in ciascuna prova, qual èla probabilità che

si osservi la situazione seguente

k0 = 1 , k1 = 3 , k2 = 4 , k3 = 2 ,

oveki è il numero di volte in cui lanciando le tre monete sono state osservatei

monete con l’esito testa. Si ha

k0 + k1 + k2 + k3 = 10

4.5 La distribuzione multinomiale 131

/23 i = 0, 1, 2, 3

pertanto

f(10; k0, . . . , k3) =

1 3 4 2

p10p31p

Calcoliamo i fattoripkii , valgono le relazioni

8, p1 =

8, p2 =

8, p4 =

da cui

f(10; k0, . . . , k3) =10!

1!× 3!× 4!× 2!

≈ 0.026 .

CAPITOLO 5

Variabili aleatorie

5.1 Il concetto di variabile casuale

5.1.1 Considerazioni preliminari

Il concetto divariabile casualeo aleatoria svolge un ruolo fondamentale nella

teoria della probabilità; prima di darne la definizione formale, illustriamo, con al-

cuni semplici esempi e considerazioni intuitive, la necessità di introdurre questa

nuova nozione ed il razionale sotteso dalla definizione stessa.

Nei capitoli precedenti abbiamo messo in luce come il calcolo della probabilità di

un evento casuale ha senso solamente in relazione ad uno spazio campione, as-

sociato all’esperimento, sul quale sia stata definita una misura di probabilità. È

facile convincersi che le operazioni con insiemi non sono sempre agevoli, inoltre

la misura di probabilità stessa è una funzione di insieme; ingenerale è preferibile

operare con numeri reali e funzioni definite suR. In molte situazioni applicati-

ve, inoltre, la terminologia propria della teoria degli insiemi non compare espli-

citamente, sebbene essa sia concettualmente sempre presente in forma implicita,

mentre sono coinvolte variabili reali e loro funzioni. Consideriamo, ad esempio, il

134 Capitolo 5. Variabili aleatorie

numero di particelle cosmiche che cadono in una determinataarea della superficie

terrestre in un intervallo temporale fissato, il numero di chiamate che pervengono

ad una centralina telefonica in un intervallo di tempo di durata fissata a priori, la

quotazione di un titolo azionario alla Borsa di Milano all’apertura del mercato, il

numero di nuovi casi di una malattia infettiva e così via. Nonostante la diversità

dei settori applicativi, questi esempi sono accomunati da una caratteristica fon-

damentale. In ciascun caso interviene una quantità, la variabile che esprime il

numero richiesto, che non assume un unico valore determinabile per via analitica

ma, per effetto di circostante casuali, una varietà di valori diversi. Non è possibile

stabilire a priori quale valore la quantità in studio assumerà, perché esso cambia

in maniera casuale da prova a prova. Si prefigura, in base alleprecedenti conside-

razioni, la necessità di passare dal modelloΩ,F ,P ad un nuovo modello in cui

siano coinvolte funzioni reali di variabili reali1.

Seguendo Feller [5] diamo una prima definizione di variabilealeatoria che sarà

ridefinita con maggior rigore nel paragrafo successivo.

Definizione 5.1.1.Una funzioneX definita su uno spazio campione è detta varia-

bile casuale.

Nel nuovo modello che stiamo cercando di costruire, ad ogni punto campione

ω ∈ Ω è associato un numero realeX(ω). Esaminiamo, in questo nuovo contesto,

il caso delle prove del Bernoulli, indicando conSn la variabile casuale che conta

il numero di successi osservati inn ripetizioni. Lo spazio campione è composto

da 2n punti2 ω, a ciascuno di essi corrisponde un numero realeSn(ω). Tipiche

variabili casuali sono il numero di assi in una mano di ramino, il numero di uscite

di testa inn lanci ripetuti di una moneta, il prezzo di un grammo di oro alla Borsa

1In altre parole nel nuovo modello la funzione di insiemeP(E) è sostituita da una funzione

puntuale che permette l’uso, tra altre, delle operazioni aritmetiche ed algebriche.2Le possibili successioni di simboliS eF di lunghezzan.

5.1 Il concetto di variabile casuale 135

di Londra etc.; appare evidente che il nuovo modello si presta meglio ad analizzare

situazioni nelle quali siano coinvolte quantità continue come energia, temperatura,

posizione di una particella elementare in un esperimento didiffusione, variazioni

di campo elettromagnetico etc..

Osservazione5.1.1. Nel seguito le variabili casuali saranno rappresentate da let-

tere latine o greche in maiuscolo3, in minuscolo il particolare valore assunto:

X ≡ X(·) X(ω1) = x1, Γ ≡ Γ(·) Γ(ω1) = γ1.

Inoltre il termine variabile casuale, e il suo sinonimo variabile aleatoria, saranno

abbreviati conv-c ev-a.

5.1.2 Definizione di variabile casuale

Prima di definire formalmente il concetto div-a, è utile richiamare il concetto di

misurabilità riferito ad un’applicazione.

Definizione 5.1.2.SiaH un insieme,H unaσ-algebra suH e g un’applicazione

di H in R. Si dice cheg è H misurabile se la controimmagine tramiteg di ogni

insieme di Borel diR è un elemento diH.

La definizione precedente afferma cheg èH misurabile se,∀B ∈ B, g−1(B) ∈ H.

Nel caso particolare in cuiH ≡ R e H ≡ B, la funzioneg è dettaBorel-

misurabile4.

Per non appesantire le successive formulazioni, nel seguito si farà sempre riferi-

mento ad uno spazio di probabilitàΩ,F ,P senza richiamarlo esplicitamente.

Definizione 5.1.3.Una funzioneX : Ω −→ R, F misurabile, è una variabile

casuale.3talvolta si usa una lettera greca minuscola ed in grassetto comeχ oκ

4B-misurabile

In virtù della 5.1.3 la controimmagine di un qualsiasi boreliano diR appartiene

allaσ-algebraF : è un evento.

Osservazione5.1.2. Si noti che nella definizione 5.1.3 non interviene in alcun

modo la misura di probabilitàP, è essenziale, invece, dichiarare esplicitamente la

σ-algebraF rispetto alla quale la funzioneX è misurabile.

Come sottolineato nel paragrafo 1.2.2, ricordiamo, innanzitutto, che tutti gli inter-

valli di R appartengono allaσ-algebraB. La controimmagine5 X−1(] − ∞, x]),

dell’intervallo (−∞, x], è l’eventoω ∈ Ω : X(ω) 6 x. Per indicare quest’ulti-

mo evento useremo la notazione6 X 6 x. Analogamente scriveremoX > xper rappresentare l’eventoω ∈ Ω : X(ω) > x ≡ X−1(]x,∞[). In generale,

∀B ∈ B, conX ∈ B si indicherà l’evento

ω ∈ Ω : X(ω) ∈ B ≡ X−1(B).

Inoltre, con la notazioneP(X ∈ B) si denota la probabilità del summenzionato

eventoX−1(B).

Teorema 5.1.1.SiaX una v-a. La posizione

PX(B) ≡ P(X ∈ B) ∀B ∈ B (5.1)

definisce una misura di probabilità suR,B.

Dimostrazione.Bisogna dimostrare chePX(B) verifica gli assiomi di Kolmogo-

1. Si ha,∀B ∈ B, PX(B) ≡ P(X ∈ B) > 0 .

5Per esigenze grafiche talvolta useremo il simbolo], invece di(, per indicare che l’intervallo è

aperto a sinistra, e[, invece di), per indicare che è aperto a destra. Tale simbologia, sebbene non

frequente, è di uso comune in matematica.6Richiamiamo l’attenzione del lettore su tale notazione chericorrerà continuamente nel testo.

5.1 Il concetto di variabile casuale 137

2. RisultaPX(R) ≡ P(X ∈ R) = P(Ω) = 1 .

3. SiaBnn∈N una successione di boreliani diR a due a due incompatibili. Si

(∞⊔

X ∈∞⊔

[∞⊔

(X ∈ Bn)

=∞∑

P (X ∈ Bn) =∞∑

PX (Bn) .

La misura di probabilitàPX è chiamata ladistribuzione (o legge) di probabilità

(ddp) della variabile aleatoriaX. La figura 5.1 illustra graficamente la relazione

che sussiste traP ePX nel caso in cui la variabile casualeX faccia corrispondere

all’eventoE un intervalloB ∈ B dell’asse reale.

Definizione 5.1.4.Due v-c X ed Y , definite sullo stesso spazio di probabilità

Ω,F ,P, sono

(a) indistinguibili, in tal caso scriveremoX = Y , quando

X(ω) = Y (ω) ∀ω ∈ Ω;

(b) uguali in probabilità quasi ovunque, in simboliXqo= Y , se

P(X 6= Y ) = P(ω ∈ Ω : X(ω) 6= Y (ω)) = 0 ;

(c) identicamente distribuite7 (id), in questo caso useremo la notazioneXd= Y ,

se le loroddpcoincidono:

PX(B) ≡ PY (B) ∀B ∈ B.7equidistribuite, somiglianti

ΩE = X

−1(B)

Rx = X(ω)

PX(B) = P (E)

Figura 5.1: Misura di probabilità indotta suR dallav-aX.

Si vede facilmente che variabili aleatorie indistinguibili sono anche uguali in pro-

babilità quasi ovunque e chev-c, uguali in probabilità quasi ovunque, sono identi-

camente distribuite; in generale l’inverso non è vero.

Osservazione5.1.3. La misura di probabilitàP, definita sulΩ,F, induce, per

effetto della (5.1), una nuova misura di probabilitàPX . In questo modo si definisce

un nuovo spazio di probabilitàR,B,PX. Dalla legge di probabilità dellav-a

X, PX , si è grado di calcolare la probabilità degli eventi del tipoX ∈ B ≡ω ∈ Ω : X(ω) ∈ B, conB ∈ B. Ma questa procedura non è soddisfacente,

infatti potrebbe essere necessario applicare la (5.1) per un ampio insieme di eventi

X(ω) ∈ B. Come vedremo nel prossimo paragrafo,PX può essere determinata

in modo diverso e si passa da funzioni di insieme a funzioni divariabile reale.

5.2 La funzione di distribuzione 139

5.2 La funzione di distribuzione

Definizione 5.2.1.SiaX una variabile casuale. La funzioneFX : R −→ [0, 1],

definita ponendo

FX(x) = PX(]−∞, x]) ≡ P(X 6 x) ∀x ∈ R, (5.2)

prende il nome8 di funzione di distribuzione(fdd) dellav-cX.

L’importanza fondamentale della funzione di distribuzioneFX è che essa specifica

la ddpPX e, viceversa, quest’ultima determina univocamente laFX . Infatti, se è

nota laddp per tutti gli intervalli del tipo(−∞, x], la (5.2) determina laFX(x),

per ogni numero realex. Viceversa, supponiamo nota laFX(x). Per ogni coppia

di numeri realix1 ex2, tali chex1 < x2, si ha

P(ω ∈ Ω : X(ω) 6 x2)= P(ω ∈ Ω : X(ω) 6 x1) + P(ω ∈ Ω : x1 < X(ω) 6 x2). (5.3)

Infatti

ω ∈ Ω : X(ω) 6 x2) = ω ∈ Ω : X(ω) 6 x1) ⊔ ω ∈ Ω : x1 < X(ω) 6 x2

ed, inoltre, la misura di probabilitàP additiva suΩ,F. Dalla relazione (5.3)

segue che

P(ω ∈ Ω : X(ω) ∈ (x1, x2]) = P(X 6 x2)− P(X 6 x1)

e pertanto

PX(X ∈ (x1, x2]) = FX(x2)− FX(x1). (5.4)

8o funzione di ripartizione

Nel caso particolare in cuix2 = +∞, otteniamo, ponendox = x1,

PX(X ∈ (x,+∞[) ≡ PX(X > x) = 1− FX(x). (5.5)

Cosicché la descrizione di un modello probabilistico è da considerasi completa

una volta che sia stata specificata lafddFX(x).

Osservazione5.2.1. In virtù della definizione 5.1.4, se due variabili casualiX eY

sono equidistribuite si ha∀x ∈ R, FX(x) = FY (y).

Nel seguito, qualora non si determini confusione, per non appesantire le formule

si ometterà il suffissoX nell’indicare la funzione di distribuzione.

Teorema 5.2.1.SiaF (x) una funzione di distribuzione. Essa gode delle seguenti

proprietà

(i) 0 6 F (x) 6 1 ∀x ∈ R;

(ii) F è non decrescente inR;

(iii) F è continua a destra inR;

(iv) limx→+∞ F (x) = 1 e limx→−∞ F (x) = 0 .

Dimostrazione.La proprietà(i) deriva dalla definizione di funzione di distribuzio-

ne. L’asserto(ii) segue da carattere monotòno diP. Infatti, sex1 < x2, l’evento

X 6 x1 è contenuto nell’eventoX 6 x2, di conseguenza:

P (X 6 x1) 6 P (X 6 x2) ⇐⇒ F (x1) 6 F (x2).

Per dimostrare la(iii) si deve verificare la relazione

limε→0+

F (x+ ε) = F (x) ∀x ∈ R. (5.6)

F è una funzione non decrescente e limitata, ciò garantisce l’esistenza del limite a

primo membro della (5.6). Si deve dimostrare che il valore ditale limite è quello

indicato a secondo membro della (5.6). Per tale scopo è sufficiente dimostrare che

limn→+∞

= F (x) ∀x ∈ R.

PoniamoAn =X ∈

(x, x+ 1

], oven è un generico intero; possiamo scrivere:

X 6 x+1

= P(X 6 x) + P

x < X 6 x+1

= F (x) + P (An) .

Da quest’ultima relazione, passando al limite pern → ∞, tenendo conto che, al

crescere din, An tende all’evento impossibile e della continuità diP, si ottiene:

limn→+∞

= F (x) + limn→+∞

P(An) = F (x) + P(∅) = F (x)

ed anche la(iii) è stata dimostrata.

PoichéF (x) è una funzione monotòna, per dimostrare la(iv) è sufficiente dimo-

strare che

limn→+∞

F (n) = 1 e limn→+∞

F (−n) = 0 .

Poniamo,∀n ∈ N, A+n = X 6 n, la successioneA+

n è una successione

crescente all’evento certo; dalla continuità diP segue

limn→+∞

F (n) = limn→+∞

P(X 6 n) = limn→+∞

)= 1 .

Analogamente, se poniamoA−n = X 6 −n, ∀n ∈ N, si ricava

limn→+∞

F (−n) = limn→+∞

P(X 6 −n) = limn→+∞

P(A−

in quanto la successioneA−n è una successione decrescente all’evento impossi-

È possibile dimostrare il seguente teorema che evidenzia ilruolo caratterizzante

delle proprietà(i)-(iv)9.

Teorema 5.2.2.SiaF (x) una funzione, definita suR ed a valori in[0, 1], tale che

1. F (x) è non decrescente;

2. F (x) è continua a destra in ognix ∈ R;

3. limx→∞ F (x) = 1 e limx→−∞ F (x) = 0 .

Esistono, allora uno spazio di probabilitàΩ,F ,P e una variabile aleatoriaX

definita suΩ per i quali si ha:

FX(x) = F (x) ∀x ∈ R.

Esprimiamo ora, in termini di funzione di distribuzione, laprobabilità di alcu-

ni eventi, riprendendo la linea di ragionamento che ha portato alle formulazio-

ne della (5.4) e della (5.5). Useremo la notazioneF (x−) per rappresentare il

limε→0+ F (x− ε).

Proposizione 5.2.1.

P(X = x) = F (x)− F (x−). (5.7)

Per giustificare la (5.7) osserviamo che,∀n ∈ N,

X 6 x =

X 6 x− 1

x− 1

n< X 6 x

e, quindi,

F (x) = F

x− 1

n< X 6 x

9Nella dimostrazione ricorre il concetto di misura di Lebesgue-Stieltjes; il lettore interessato

può far riferimento al testo [2].

Dalla precedente relazione discende:

F (x) = limn→∞

x− 1

+ limn→∞

x− 1

n< X 6 x

La successione

x− 1

n< X 6 x

decresce all’eventox, passando al li-

mite pern → ∞, sicché

F (x) = limn→∞

x− 1

+ P(X = x)

P(X = x) = F (x)− limn→∞

x− 1

EssendoP non decrescente, possiamo scrivere

F (x−) ≡ limε→0+

F (x− ε) = limn→∞

x− 1

e la proposizione è stata dimostrata.

Proposizione 5.2.2.

P(x1 6 X 6 x2) = F (x2)− F (x−1 ). (5.8)

La dimostrazione della (5.8) si basa sulla seguente decomposizione

x1 6 X 6 x2 = X = x1 ⊔ x1 < X 6 x2 .

Da essa si ricava

P (x1 6 X 6 x2) = P (X = x1) + F (x2)− F (x1)

= F (x1)− F (x−1 ) + F (x2)− F (x1) = F (x2)− F (x−

e la tesi della proposizione è stata dimostrata.

Proposizione 5.2.3.

P(x1 < X < x2) = F (x−2 )− F (x1). (5.9)

La dimostrazione della (5.9) ricalca quella della (5.8); infatti si ha

x1 < X 6 x2 = x1 < X < x2 ⊔ X = x2

e, passando alle probabilità,

P (x1 < X < x2) = P (x1 < X 6 x2)−P (x2) = F (x2)−F (x1)−F (x2)+F (x−2 ).

Proposizione 5.2.4.

P(x1 6 X < x2) = F (x−2 )− F (x−

1 ). (5.10)

x1 6 X < x2 = X = x1 ⊔ x1 < X < x2da cui

P (x1 6 X < x2) = P (x1) + P (x1 < X < x2)

= F (x1)− F (x−1 ) + F (x−

2 )− F (x1) = F (x−2 )− F (x−

Proposizione 5.2.5.

P(X < x) = F (x−). (5.11)

Osserviamo che

X 6 x = X < x ⊔ X = xe

P(X < x) = F (x)− P(X = x) = F (x)− F (x) + F (x−) = F (x−).

Proposizione 5.2.6.

P(X > x) = 1− F (x−). (5.12)

La (5.12) si dimostra considerando la relazioneX > x = X < x e la (5.11).

5.3 Variabili aleatorie discrete 145

5.3 Variabili aleatorie discrete

I concetti e le formule del precedente paragrafo hanno validità generale; trattere-

mo ora il caso particolare delle cosiddette variabili casuali discrete. A tale scopo

rammentiamo che un sottoinsieme diR, finito o al più numerabile, appartiene aB.

Definizione 5.3.1.Una variabile casualeX si dice discreta se esiste un sottoinsie-

meSX di R, finito o al più numerabile, che soddisfa le condizioni:

(i) l’eventoX ∈ SX è quasi certo;

(ii) ∀x ∈ SX , PX(x) ≡ P(X = x) > 0 .

L’insiemeSX è chiamatospettrodella variabile aleatoriaX.

In questo contesto si considera la restrizione,pX : R −→ [0, 1], della legge di

probabilitàPX ai singolettix ∈ R:

pX(x) ≡ PX(x) ≡ P(X = x) ∀x ∈ R. (5.13)

La funzionepX assume un valore positivo esclusivamente sex ∈ SX ed è nulla

per tutti gli altrix ∈ R; essa prende il nome10 di funzione di probabilitào distri-

buzione di probabilitào funzione massadellav-a. La funzione massa soddisfa la

relazione11:∞∑

pX(xi) = PX(SX) = 1 (5.14)

10Alcuni autori usano anche il terminedensità discreta(vedi [1]); la giustificazione di tale

terminologia sarà chiara dopo aver introdotto le variabilicasuali assolutamente continue.11Per giustificare i terminifunzione massae densità discreta, immaginiamo di avere a disposi-

zione una massa unitaria di una generica sostanza e di distribuirla sull’asse reale in modo tale che

essa sia concentrata solamente nei puntixj ∈ SX per una quantità pari apX(xj).

Teorema 5.3.1.Sia X unav-c discreta con spettroSX rappresentato da una suc-

cessione crescentexnn∈N. La legge di probabilitàPX è univocamente determi-

nata daSX ≡ xnn∈N e dalla successione di numeri realipX(xn).

Dimostrazione.Per dimostrare la tesi si osservi, innanzitutto, che,∀B ∈ B, è

possibile decomporre l’eventoX ∈ B come l’unione di eventi disgiunti

X ∈ B = X ∈ (B ∩ SX) ⊔X ∈

(B ∩ SX

ed allora possiamo scrivere

PX(B) ≡ P(X ∈ B) = PX (X ∈ (B ∩ SX)) + PX

(X ∈

(B ∩ SX

L’eventoX ∈

(B ∩ SX

)è contenuto nell’evento quasi impossibile

(B ∩ SX

ed ha probabilità nulla. Dalle precedenti considerazioni si evince che,∀B ∈ B,

PX(B) ≡ P(X ∈ B) = PX (X ∈ (B ∩ SX)) =∑

n:xn∈B

pX(xn). (5.15)

Il teorema 5.3.1 vale in generale qualunque sia lav-adiscreta. Nel caso di spettri a

cardinalità finitam, PX è individuata, in maniera univoca dalla successione ordi-

nata(x1, x2, . . . , xm) e dallam-uplapX(x1), pX(x2), . . . , pX(xm) delle rispettive

probabilità. Nel seguito, se non espressamente indicato, si farà riferimento a va-

riabili casuali discrete con spettro a cardinalità numerabile ed i risultati ottenuti

avranno validità anche nel caso di uno spettro finito12. Per non appesantire le for-

mule, al solito e se possibile, si ometterà di indicare il suffissoX.

12In questo case alla serie con un numero infinito di termini deve essere sostituita una somma

finita.

Se il borelianoB coincide con l’intervallo(−∞, x], dalla (5.15) si ricava la fun-

zione di distribuzioneF :

F (x) = P(X 6 x) =∑

n:xn6x

p(xn) ∀x ∈ R. (5.16)

Riprendiamo la (5.7); si ha∆F (x) = F (x) − F (x−) = P(X = x). Sex /∈ SX ,

∆F (x) = 0 ed F è continua inx. Se, invece, esiste un interok per il quale

x = xk ∈ SX allora

∆F (x) = p(xk)

e laF (x) ha una dicontinuità inxk, il salto coincide con la probabilità che lav-a

X assuma il valorexk.

Osservazione5.3.1. La funzionea gradino di Heaviside, o funzione gradino uni-

tario, è definita dalla relazione

H(x) =

0 sex < 0

1 sex > 0

per cuiH(x) assume il valore 1 quando il suo argomento è non negativo. Grazie

alla funzione di Heaviside, possiamo riscrivere la (5.16) come:

F (x) =∞∑

p(xn)H(x− xn). (5.17)

Infatti, per la (5.16), contribuiscono a determinare il valore diF (x) solamente i

terminip(xn) che verificano la condizionexn 6 x.

Teorema 5.3.2.Siaxnn∈N una successione crescente di numeri reali, sia, inol-

tre pnn∈N una successione di numeri reali che verifica le condizioni

1. pn > 0 ∀n ∈ N;

n pn = 1 (condizione di normalizzazione).

Esistono allora una spazio di probabilitàΩ,F ,P ed una variabile casualeX

discreta, definita suΩ e con spettroSX che coincide con la successionexnn∈N,

tali che,∀n ∈ N, pX(xn) = pn.

Dimostrazione.Definiamo la funzioneF : R −→ [0, 1] ponendo:

F (x) =∑

n:xn6x

pn ∀x ∈ R (5.18)

e dimostriamo che essa gode delle proprietà che caratterizzano una funzione di

distribuzione (vedi teoremi 5.2.1 e 5.2.2).

Sianox ey due numeri reali tali chex < y; risulta

F (y)− F (x) =∑

n:xn6y

pn −∑

n:xn6y

pn =∑

n:x<xn6y

pn > 0 .

La precedente relazione dimostra che laF (x), definita dalla posizione (5.18), è

non decrescente. Dimostriamo ora che essa è anche continua adestra.

Fissato un generico numero realex, indichiamo conk l’intero per il quale siano

verificate le condizionixk 6 x exk+1 > x; poniamo, inoltre,δ = xk+1 − xk. Cal-

coliamo il valore della funzione di distribuzione nel puntox+ε, per un qualunque

valore diε < δ; si ha

F (x+ ε) =∑

n:xn6x+ε

pn =k∑

pn ≡∑

n:xn6x

pn = F (x)

e da quest’ultima relazione si deduce chelimε→0+ F (x+ ε) = F (x).

Poiché per definizioneF (x) = 0 se∀x < x1, si halimx→−∞ F (x) = 0; inoltre

limx→+∞

F (x) =∑

n:xn<+∞

pn =∞∑

pn = 1

e la dimostrazione della tesi è stata completata13.

13Dire chex < x1 equivale a dire chex /∈ SX .

5.3.1 Alcune variabili casuali discrete

Nel dare qualche esempio div-a discrete si evidenzierà come l’introduzione del

concetto di variabile casuale permette di trattare tramitefunzioni a variabile reale

anche fenomeni di tipo qualitativo.

Consideriamo l’esperimento casuale che consiste nel lancio di una moneta. Lo

spazio di probablità associato all’esperimento èΩ,F ,P con14

1. Ω = T, C;

2. F = ∅, T, C,Ω;

3. P(∅) = 0 P(T) = p P(C) = q ≡ 1− p P(Ω) = 1 .

Introduciamo la funzioneX : Ω −→ R, ponendoX(T ) = 1 e X(C) = 0, e

verifichiamo che essa è una variabile casuale. Per tale scopooccorre dimostrare la

F misurabilità diX. Ciò segue immediatamente dalle relazioni:

ω ∈ Ω : X(ω) 6 x =

∅ ∈ F sex < 0 ,

C ∈ F se0 6 x < 1 ,

Ω ∈ F sex > 1 .

La fddF (x), per la (5.2), è data da:

F (x) ≡ P(X 6 x) =

P∅ = 0 sex < 0 ,

P(C) = q se0 6 x < 1 ,

P(Ω) = 1 sex > 1 .

Grazie alla funzione a gradino unitario laF assume la forma più compatta:

F (x) = qH(x) + pH(x− 1).

14Ricordiamo che nel caso di una moneta equap = q = 1/2.

La funzione probabilitàp(x) assume i valorip(0) = q ep(1) = p: la massa unita-

ria è concentrata nei due soli puti0 e1 .

Nel capitoli precedenti, nel trattare gli spazi campione discreti, abbiamo introdotto

alcune importanti distribuzioni di probabilità, esse sonovalide anche utilizzando

il formalismo connesso al concetto di variabile casuale15. Esaminiamo, ad esem-

pio, il caso della distribuzione binomialeb(k;n, p); fissaton ∈ N, la successione

b(k;n, p) verifica i vincoli richiesti dalla definizione di funzione massa fissati

nel paragrofo 5.3 ed inoltre la successione di interik ≡ k : 0 6 k 6 n è

finita e crescente. Il teorema 5.3.2 assicura che esiste una variabile casuale il cui

spettro coincide con la successione degli interi positivi compresi tra1 edn e che

ha come legge di probabilità la distribuzione di probabilità binomiale (4.1). Ta-

le variabile casuale è generalmente denotata conSn: in numero di successi inn

prove del Bernoulli16. La (4.5) consente il calcolo della funzione di distribuzione

Un discorso analogo può essere proposto per definire la variabile casuale di Pois-

son. Una variabile casualeX è detta di Poisson con parametroλ se ammette come

spettro l’insiemeN0, dei numeri interi positivi, zero incluso, e come funzione

massa la successione di termine generale dato dalla (4.10):

p(k, λ) =λk

k!· e−λ k ∈ N0.

L’esistenza dellav-c di Poisson è assicurata dal teorema 5.3.2 e dalle proprietà

della leggep(k, λ) richiamate nel paragrafo 4.3:

p(k, λ) > 0 ∀k ∈ N0 e∑

k∈N0

p(k, λ) = 1 .

15Alcuni autori, citati in bibliografia, introducono tali leggi partendo direttamente dal concetto

di v-a.16Il lettore interessato consulti [1] e [4] per le definizioni delle leggi di probabilità binomiale, di

Poisson etc. partendo direttamente dal formalismo delle variabili casuali.

5.4 Variabili aleatorie assolutamente continue 151

La funzione di distribuzione, indicando con[x] il massimo intero non maggiore di

x, è data da:

F (x) =∑

k∈N0:k6x

p(k, λ) = e−λ

[x]∑

k!. (5.19)

Le considerazioni precedenti si applicano anche alle altreleggi di probabilità e, di

conseguenza, si definiscono le variabili casuali geometrica, ipergeometrica e così

Osservazione5.3.2. La distribuzione geometrica gode dellaproprietà di man-

canza di memoria. Sia X una variabile casuale geometrica, vale la seguente

relazione:

P(X > k) =

∞∑

f(i; 1, p) =

∞∑

p(1− p)i

ponendoj = i− k

∞∑

p(1− p)j+k = (1− p)k

1︷︸︸︷∞∑

p(1− p)j = (1− p)k. (5.20)

Si ha:

P(X = k +m|X > k) =P(X = k +m,X > k)

P(X > k)=

P(X = k +m)

P(X > k)

=p(1− p)k+m

(1− p)k= p(1− p)m = f(m; 1, p) ≡ P(X = m).

5.4 Variabili aleatorie assolutamente continue

Come abbiamo dimostrato la relazione (5.7),P(X = x) = F (x) − F (x−), con-

sente il calcolo della probabilità di singoli valori della variabile casualeX. Nel

caso di variabili casuali discrete essa è diversa da zero e coincide con il valore che

la funzione massa assume nel puntox. Nel caso di variabili casuali confdpconti-

nua la probabilità cheX assuma un fissato valorex, essendoF (x) = F (x−), sarà

sempre nulla; ha senso, invece, la determinazione della probabilità che una va-

riabile casuale, caratterizzata da unF (x) continua, assuma valori in un prefissato

intervallo dell’asse reale. Per tale scopo si introduce unanuova funzione.

Definizione 5.4.1.Sia X una variabile casuale ed indichiamo conF (x) la sua

funzione di distribuzione. Si dice cheX è una variabile aleatoria assolutamente

continua se esiste una funzionef(x) non negativa tale che,∀x ∈ R, consenta di

esprimere la funzione di distribuzione nella forma

F (x) =

−∞

f(ξ)dξ. (5.21)

La funzionef(x) prende il nome didensità di probabilitàdellav-cX e laF (x) è

detta assolutamente continua.

Dalla proprietà(iv) del teorema 5.2.1,limx→+∞ F (x) = 1, deriva la condizione di

normalizzazione ∫ +∞

−∞

f(x)dx = 1 . (5.22)

In ogni puntox in cui f(x) è continua, come conseguenza del teorema fondamen-

tale del calcolo integrale17, si ha:

f(x) =d

dxF (x) =

−∞

f(ξ)dξ. (5.23)

Teorema 5.4.1.Data una funzionef(x) a valori reali non negativi che sia inte-

grabile inR e tale che∫ +∞

−∞

f(x)dx = 1, esiste allora una variabile casualeX

che ammettef(x) come funzione densità di probabilità.

17Il lettore interessato può approfondire lo studio riferendosi ai corsi di analisi matematica che

trattano l’integrazione di Lebesgue.

Dimostrazione.Per dimostrare la tesi occorre costruire, dataf(x), una funzio-

ne di distribuzioneF (X) in modo tale che si possa, poi, richiamare il teorema

5.2.2. PonendoF (x) =

−∞

f(ξ)dξ, si ottiene una funzioneF (x) che verifica le

proprietà(i)-(iv) dell’enunciato del teorema 5.2.1.

Osservazione5.4.1. Per una variabile casuale assolutamente continua la cono-

scenza della funzione di distribuzione è equivalente alla conoscenza della densità

di probabilità, infatti da entrambe si può calcolare la probabilità che la variabile

casuale assuma valori in un prefissato intervallo dell’assereale. Si ha:

f(x)dx =

−∞

f(x)dx−∫ a

−∞

f(x)dx = F (b)− F (a)

= P(X 6 b)− P(X 6 a) = P(a < X 6 b). (5.24)

PoichéP (X = x) = 0, qualunque sia il numero realex, valgono le relazioni

P(a < X < b) = P(a 6 X < b) = P(a < X 6 b) = P(a 6 X 6 b). (5.25)

La figura 5.2 è l’interpretazione grafica della (5.24).

Diversamente dalla funzione massa, la funzione densità di probabilità non rappre-

senta un valore di probabilità, è invece una probabilità l’integrale dif(x) calcolato

tra due limiti di integrazionea < b, comunque fissati. Per rendere ancora più im-

mediato il concetto, si consideri un piccolo intervallo∆x dell’asse reale. Come

risulta evidente dalla figura 5.3, in virtù della (5.24) è il prodottof(x)∆x che ap-

prossima la probabiltàP(X ∈ [x, x+∆x]) ≡ P(x 6 X 6 x+∆x). La notazione

f(x)dx ≈ P(x 6 X 6 x+ dx), esprime lo stesso concetto.

Osservazione5.4.2. In molte circostanze la funzione di distribuzioneFX(x), per

x ∈ R, si decompone nella somma di due termini,FX(x) = α1F1(x) + α2F2(x),

oveα1 eα2 sono costanti tali cheα1+α2 = 1,F1(x) è una funzione di distribuzio-

ne assolutamente continua edF2(x) è la funzione di distribuzione di una variabile

Figura 5.2:P(a 6 X 6 b) ≡∫ b

af(x)dx ≡ area sottesa daf(x) traa e b.

casuale discreta. In questo caso la variabile casualeX può considerarsi composta

dalla somma di due parti una assolutamente continua e l’altra discreta18.

Rimandiamo ai capitoli successivi l’introduzione di specifiche variabili casuali

assolutamente continue di uso più comune nel calcolo delle probabilità; in questo

paragrafo introduciamo, come esempio, lalegge esponenzialee lalegge uniforme.

Esempio 5.4.1. Legge esponenziale

Nel paragrafo 1.3.1 abbiamo sottolineato come evidenze sperimentali suggerisca-

no che la probabilità che un atomo di radio decada spontaneamente in un numero

18Seα1 = 0 e α2 = 1, la v-c X è discreta; seα1 = 1 e α2 = 0, la v-c X è assolutamente

continua.

f(x)∆x

Figura 5.3:f(x)∆x ≈ P(x 6 X 6 x+∆x).

td di anni è1− exp(−γtd), oveγ è una costante positiva. Se conT indichiamo la

variabile casualetempo di attesaper il decadimento, possiamo scrivere

P(T 6 t) ≡ FT (t) = 1− e−γt (5.26)

cont ∈ [0,+∞); naturalmente la possibilità chet sia uguale a zero è considerata

solo per ragioni di natura matematica. Dalla (5.26) si ricava:

fT (t) =d

dtFT (t) = γe−γt. (5.27)

In generate con la variabile casualeT si può rappresentare iltempo di attesadi

eventi di una qualunque natura: il tempo di buon funzionamento, o di rottura, di

un’apparecchiatura, l’intervallo di tempo che intercorretra due successive emis-

sioni di particelle elementari o tra due incidenti, e così via. In molte situazioni

pratiche il modello espresso dalla (5.26), o in modo equivalente dalla (5.27), è

realistico. La (5.27) rappresenta la cosiddetta densità diprobabilità olegge espo-

nenzialea parametroγ > 0, la (5.26) è denominatadistribuzione esponenziale19.

Consideriamo un tempot0 > 0, si ha

P(T > t0) = 1− FT (t0) = e−γt0 . (5.28)

Calcoliamo, ora,P(t0 6 T 6 t0 + τ), conτ > 0; vale la relazione

P(t0 6 T 6 t0 + τ) = FT (t0 + τ)− FT (t0) = 1− e−γ(t0+τ) − 1 + e−γt0

= e−γt0(1− e−γτ

). (5.29)

Inoltre si ha

P(T > t0 + τ |T > t0) =P(T > t0 + τ)

P(T > t0)=

e−γ(t0+τ)

e−γt0= e−γτ . (5.30)

SeT rappresenta il tempo di attesa di un generico evento per il quale è valido il

modello probabilistico di tipo esponenziale, la precedente relazione afferma che se

esso non si è verificato nel tempot0, la probabilità che non occorra in un intervallo

successivo di tempo di durataτ dipende solamente dal valore diτ . Analogamente,

con una interpretazione simile alla precedente, possiamo scrivere

P(T 6 t0+τ |T > t0) =P(T 6 t0 + τ)

P(T > t0)=

e−γt0 (1− e−γτ )

e−γt0= 1−e−γτ . (5.31)

Le figure 5.4 e 5.5 mostrano, rispettivamente, laddpe lafdd esponenziale per due

differenti valori del parametroγ.

19Sex < 0 si ponef(x) = 0 eF (x) = 0 .

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 20

Figura 5.4: Densità di probabilità esponenziale.

Esempio 5.4.2. Distribuzione uniforme

Una variabile casualeX ha una densità di probabilità uniforme nell’intervallo

dell’asse reale(0, a) sef(x) assume un valore costante nell’intervallo ed è nulla

al di fuori di esso. Indicando conk il valore della costante, per la condizione di

normalizzazione si ha

∫ +∞

−∞

f(x)dx =

kdx = ak

e quindi, deve esserek =1

a. In conclusione, perx ∈ (0, a), f(x) =

aef(x) = 0

sex /∈ (0, a). La funzione di distribuzione uniforme si ricava integrando laf(x):

F (x) =

−∞

f(x)dx.

Dall’andamento analitico dif(x) si ricava che la funzione di distribuzione unifor-

me è nulla per ogni realex < a, inoltre, se0 < x 6 a,

F (x) =1

−∞

dξ =1

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 20

Figura 5.5: Funzione di distribuzione esponenziale.

e, sex > a,

F (x) =

−∞

f(x)dx+

f(x)dx = F (a) ≡ 1

in quanto laf(x) è nulla perx > a.

Esempio 5.4.3.Consideriamo la funzione

f(x) =

2x−3 sex > 1

0 altrove

e verifichiamo che essa è una funzione densità di probabilità. La f(x), affinché

sia una densità di probabilità, deve soddisfare le condizioni f(x) > 0, ∀x ∈ R e∫ +∞

−∞f(x)dx = 1; la prima condizione è chiaramente soddisfatta, inoltre siha:

∫ +∞

−∞

f(x)dx = 2

∫ +∞

−∞

x−3dx = −2× 1

2×[x−2]+∞

1= −[0− 1] = +1 .

Esempio 5.4.4.Data la funzionef(x) = α exp(−x) determiniamo il valore della

costanteα affinché essa rappresenti una densità di probabilità, nell’ipotesi che

x ∈ [0, 1].

La costanteα deve essere tale chef(x) > 0 e∫ 1

0f(x)dx = 1. Si ha

e−xdx = − 1

∣∣∣∣

= −(1

e− 1

=e− 1

e quindiα deve verificare la condizione

α · e− 1

dalla quale segueα ≈ 1.6. Per il valore calcolato diα si ha anchef(x) > 0 se

x ∈ [0, 1].

Fissato il valore diα, la funzione di distribuzioneF (x) è data da

F (x) = α

e−ξdξ = −α(e−x − 1

(1− e−x

)sex ∈ [0, 1].

F (x) è nulla sex < 0 eF (x) = 1 sex > 1.

Esempio 5.4.5.Data la funzione

f(x) =

2exp(x) sex ∈ [0, β] eβ ∈ R

0 altrove

determiniamoβ affinché essa rappresenti una densità di probabilità.

Deve valere la condizione di normalizzazione, pertanto

∫ β

exdx =1

(eβ − 1

da cui segueexp(β) = 3 ed infine otteniamoβ = ln 3. La funzione di distribuzio-

neF (x) è nulla sex < 0 ed assume il valore 1 sex > ln 3; nell’intervallo [0, ln 3]

F (x) =1

eξdξ =1

2(ex − 1) .

Esempio 5.4.6.La funzione

f(x) =

a cosx se−π

2< x < +

20 altrove

è non negativa in(

, determiniamoa in modo talef(x) possa essere

considerata una funzione densità di probabilità. Si ha

∫ +∞

−∞

f(x)dx = a

∫ +π2

−π2

cosxdx

= a · sin x|+π/2−π/2 = a

− sin(

e quindi, pera = 1/2, la f(x) è una funzione densità di probabilità.

Calcoliamo la probabilità cheX assuma un valore nell’intervallo(

0 < X <π

∫ +π4

cosxdx

2· sin x|π/40 =

sin(π

− sin(0)]

√2 ≈ 0.354 .

Esempio 5.4.7.Data la funzione densità di probabilità

f(x) =

1− x

se0 < x < a

0 altrove

determiniamo la funzione di distribuzioneF (x). Per tale scopo si deve calcola-

re F (x) =

−∞

f(ξ)dξ. Tenuto conto dell’andamento analitico dif(x), risulta

F (x) = 0, ∀x 6 0. Sex ∈ (0, a), si ha

F (x) =2

1− ξ

dξ =2

dξ − 2

a· x− 2

a2· x

2− x

5.5 Variabili casualin-dimensionali 161

Perx > a possiamo scrivere

F (x) =

−∞

f(ξ)dξ =

f(ξ)dξ +

f(ξ)dξ = F (a) +

f(ξ)dξ.

Poiché perx > a la funzione densità di probabilità si annulla, si ha

F (x) = F (a) =a

2− a

= 1 sex > a.

Esempio 5.4.8.Determiniamo il valore della costantec per cui la funzionef(x) =

2cx + 3c2x2 possa rappresentare la funzione densità di probabilità di unav-c as-

solutamente continua. Si assumac > 0 ex ∈ [0, 1].

La costantec deve verificare la condizione∫ 1

(2cx+ 3c2x2

)dx = 1. Si ha

(2cx+ 3c2x2

(cx2 + c2x3

)∣∣1

Pertantoc è soluzione dell’equazionec2 + c− 1 = 0 da cui si ricava

c =−1±

e, per il vincolo posto suc, abbiamoc =(√

5− 1)/2 ≈ 0.62.

5.5 Variabili casuali n-dimensionali

SianoX1, X2, . . . , Xn, n variabili casuali definite in uno stesso spazio di proba-

bilità Ω,F ,P; denominiamo variabile casualen-dimensionaleo vettore casuale

X la n-pla

X ≡ (X1, X2, . . . , Xn) .

DeterminiamoFX. Fissata una generican-pla di realix = (x1, . . . , xn), si consi-

deri l’insiemeω ∈ Ω : X1 6 x1, . . . , Xn 6 xn ≡ X1 6 x1, . . . , Xn 6 xn, si

X1 6 x1, . . . , Xn 6 xn = X1 6 x1 ∩ · · · ∩ Xn 6 xn . (5.32)

Essendo intersezione di elementi diF , ancheX1 6 x1, . . . , Xn 6 xn ∈ F ,

ossia è un evento.

Definizione 5.5.1.Si definisce funzione di distribuzione della vettore casualeX, o

funzione di distribuzionecongiuntadella variabili casualiX1, . . . , Xn, la funzione

FX(x) ≡ FX1...Xn(x1, . . . , xn) : R

n −→ [0, 1]

data dalla relazione

FX(x) = P (X1 6 x1, . . . , Xn 6 xn) . (5.33)

Per introdurre le proprietà della funzione di distribuzione congiunta limitiamoci,

per semplicità, ad esaminare in dettaglio il caso din = 2, sottolineando che esse

sono valide per un genericon > 1. PoniamoX1 = X eX2 = Y ed indichiamo la

FXY (x, y) conF (x, y). La (5.33) diventa:

F (x, y) = P (X 6 x, Y 6 y) . (5.34)

Introduciamo la seguente notazione (vedi [9])

limx→−∞

F (x, y) = F (−∞, y), limx→+∞

F (x, y) = F (∞, y),

limy→−∞

F (x, y) = F (x,−∞), limy→+∞

F (x, y) = F (x,∞),

limx→+∞

limy→+∞

F (x, y) = F (∞,∞).

Proposizione 5.5.1.La funzione di distribuzione F(x,y) è tale che

F (−∞, y) = 0 , (5.35a)

F (x,−∞) = 0 , (5.35b)

F (∞,∞) = 1 . (5.35c)

Osserviamo che risultaX = −∞, Y 6 y ⊂ X = −∞ ed, analogamente,

X 6 x, Y = −∞ ⊂ Y = −∞. PoichéP(X = −∞) = P(Y = −∞) = 0,

si ricavano20 la (5.35a) e la (5.35b). La (5.35c) è una conseguenza delle relazioni

X 6 ∞, Y 6 ∞ ≡ Ω eP(Ω) = 1.

Seguendo la stessa linea di ragionamento utilizzata nel caso unidimensionale, si

dimostrano le proprietà enunciate nella seguente proposizione.

Proposizione 5.5.2.Sia F(x,y) la funzione di distribuzione congiunta della varia-

bile casuale bidimensionale (X,Y). Allora

1. per ogni coppia di reali(x, y) vale la disuguaglianza0 6 F (x, y) 6 1,

2. F (x, y) è non decrescente in ciascuno degli argomenti,

3. F (x, y) è continua a destra in ciascuno degli argomenti.

Rispetto al caso unidimensionale, per le funzioni di distribuzione dei vettori ca-

suali sussiste una ulteriore proprietà.

Proposizione 5.5.3.Sia F(x,y) la funzione di distribuzione congiunta della varia-

bile casuale bidimensionale(X, Y ). Allora, per ognix1 < x2 e y1 < y2, vale la

disuguaglianza

F (x2, y2)− F (x2, y1) + F (x1, y1)− F (x1, y2) > 0 . (5.36)

20Una dimostrazione alternativa è basata sulla relazione (5.32) che, pern = 2, si esprime come:

X 6 x, Y 6 y = X 6 x ∩ Y 6 y. Sex → −∞, X 6 x → ∅ di conseguenza

ancheX 6 x, Y 6 y → ∅ e la (5.35a) risulta verificata. Analoghe considerazioni giustificano

la (5.35b).

Figura 5.6:(x1 < X 6 x2, y1 < Y 6 y2) ≡ (X, Y ) ∈ (x1, x2]× (y1, y2].

Il primo membro della (5.36) altro non è che la probabilità che il vettore casuale

cada nel rettangolo della figura 5.6; infatti:

F (x2, y2)− F (x2, y1) + F (x1, y1)− F (x1, y2)

= P (X 6 x2, Y 6 y2)− P (X 6 x2, Y 6 y1)

+ P (X 6 x1, Y 6 y1)− P (X 6 x1, Y 6 y2)

= P (X 6 x2, y1 < Y 6 y2)− P (X 6 x1, y1 < Y 6 y2)

= P (x1 < X 6 x2, y1 < Y 6 y2)

≡ P((X, Y ) ∈ (x1, x2]× (y1, y2]) > 0

come asserito.

Osservazione5.5.1. Le condizioni indicate nelle proposizioni 5.5.1, 5.5.2, 5.5.3

sono sufficienti affinché una funzioneF (x, y) sia una funzione di distribuzio-

ne congiunta. Sussistono esempi di funzioni di due variabili reali che soddisfa-

no le proprietà elencate nelle prime due proposizioni ma nonverificano le disu-

guaglianza (5.36); esse non possono essere considerate funzioni di distribuzioni

congiunte.

Come nel caso unidimensionale, anche per i vettori casuali si definisce la funzione

densità di probabilità.

Definizione 5.5.2.Una variabile aleatorian-dimensionaleX, avente funzione di

distribuzioneFX, è assolutamente continua se esiste una funzione non negativa

fX : Rn −→ R

tale che per ognin-pla di reali(x1, . . . , xn) risulti

FX(x1, . . . , xn) =

∫ x1

−∞

dξ1 · · ·∫ xn

−∞

fX(ξ1, . . . , ξn)dξn. (5.37)

La funzionefX(x1, . . . , xn) è denominata funzione densità di probabilità congiun-

ta della variabile casualen-dimensionale(X1, . . . , Xn).

Per la definizione data, in ognin-pla di valori (x1, . . . , xn) in cui la funzione di

distribuzione congiunta ammette derivate di ordinen continue si ha:

fX(x1, . . . , xn) =∂n

∂x1 · · ·∂xnFX(x1, . . . , xn). (5.38)

Definizione 5.5.3.Una variabile aleatorian-dimensionaleX, con funzione di

distribuzioneFX, è discreta se esistonon successioni di reali

i∈N, ove

k = 1, 2, . . . , n, e una funzione non negativa

pX : Rn −→ [0, 1]

tali che si abbia

FX(x1, . . . , xn) =∑

j1:x(1)j1

· · ·∑

jn:x(n)jn

x(1)j1, . . . , x

. (5.39)

La funzione

pX (x1, . . . , xn) ≡ P (X1 = x1, . . . , Xn = xn)

rappresenta la cosiddetta distribuzione di probabilità congiunta.

Nel caso bidimensionale, per effetto della (5.37), lav-c è assolutamente continua

se esiste una funzionefXY (x, y) tale che

FXY (x, y) =

−∞

fXY (x, y)dv ∀(x, y) ∈ R2. (5.40)

Se la funzione di distribuzione congiunta ammette derivateseconde continue vale

la relazione

fXY (x, y) =∂2

∂x∂yFXY (x, y). (5.41)

Nel caso di variabili casuali discrete congiuntamente distribuite si ha

FXY (x, y) =∑

pXY (u, v) (5.42)

ovepXY (u, v) ≡ P(X = u, Y = v).

I teoremi 5.2.2, 5.3.1, 5.3.2 e 5.4.1 sono validi anche nel caso multidimensionale.

In paricolare, pern = 2, ogni funzionef(x, y) > 0, che verifichi la condizione di

normalizzazione∫ +∞

−∞

∫ +∞

−∞

f(x, y)dy = 1 è la funzione di densità di proba-

bilità di una particolare variabile casuale(X, Y ). Analogamente nel caso discreto,

data una funzione non negativap(x, y), tale che∑

y p(x, y) = 1 esiste, allora,

unav-c (X, Y ) che hap(x, Y ) come distribuzione di probabilità congiunta.

5.5.1 Distribuzioni marginali

SiaX ≡ (X1, . . . , Xn) un vettore casuale ed indichiamo conk un intero compreso

tra 1 en; vale la relazione

P (X1 6 x1, . . . , Xk−1 6 xk−1,Ω, Xk+1 6 xk+1, . . . , Xn 6 xn)

= limxk→+∞

FX(x1, . . . , xk−1, xk, xk+1, . . . , xn).

dalla quale si evince che la funzione di distribuzione congiunta della variabile ca-

suale(n− 1)-dimensionale(X1, . . . , Xk−1, Xk+1, . . . , Xn) si ottiene dallaFX(x)

calcolando il limite di quest’ultima perxk che tende all’infinito.

Definizione 5.5.4.SiaX una variabile casualen-dimensionale ek un intero mi-

nore din, la funzione di distribuzione

FXj1Xj2

···Xjk(xj1 , xj2, · · · , xjk)

= lim · · · limxj→+∞j 6=j1...jk

FX1X2···Xn(x1, x2, . . . , xn) (5.43)

è la funzione di distribuzionemarginalecongiunta del vettore casuale, conk com-

ponenti,(Xj1 , . . . , Xjk), ∀j1, . . . , jk ⊂ 1, 2, . . . , n.

SeX è assolutamente continua, la funzione

fXj1Xj2

···Xjk(xj1 , xj2, · · · , xjk)

∫ +∞

−∞

· · ·∫ +∞

−∞

fX1...Xn(x1, . . . , xn)

j=1j 6=j1...jk

dxj (5.44)

rappresenta la funzione densità di probabilitàmarginalecongiunta della variabile

aleatoria multidimensionale(Xj1 , . . . , Xjk).

Nel caso discreto

pXj1Xj2

···Xjk(xj1 , xj2, · · · , xjk) =

· · ·∑

xj :j∈[1,n]j 6=j1...jk

pX1X2···Xn(x1, x2, . . . , xn).

(5.45)

è la distribuzione di probabilitàmarginalecongiunta di(Xj1, . . . , Xjk).

Quandon = 2 si ha

FX(x) = limy→+∞

FXY (x, y)

FY (y) = limx→+∞

FXY (x, y).

Inoltre le distribuzioni marginali sono date da

fX(x) =

∫ +∞

−∞

fXY (x, y)dy fY (y) =

∫ +∞

−∞

fXY (x, y)dx

e, le distribuzioni di probabilità marginali, da

pX(x) =∑

pXY (x, y) pY (y) =∑

pXY (x, y).

5.5.2 Distribuzioni condizionate

Nel precedente paragrafo abbiamo visto come dalla conoscenza della funzione di

distribuzione congiuntaFX(x) si ricavano le distribuzioni marginali di una com-

ponete o di un sottoinsieme di componenti diX. Viceversa, note le distribuzioni

marginali, non si riesce a risalire alle distribuzioni congiunte. Per tale scopo è

necessaria la conoscenza della cosiddetta distribuzionecondizionata. Nel seguito

esamineremo in dettaglio il caso di variabili casuali bidimensionali(X, Y ), ini-

ziando a trattare lev-a discrete.

La probabilità cheY = yj condizionata daX = xi è data da

p(yj|xi) ≡ P (Y = yj|X = xi) =P (X = xi ∩ Y = yj)

P (X = xi)

=P (X = xi, Y = yj)

P (X = xi)≡ pXY (xi, yj)

pX(xi)(5.46)

per definizione di probabilità condizionata.

Osservazione5.5.2. Nel definire nel paragrafo 3.1 la probabilità condizionata,ab-

biamo messo in evidenza come la (3.1.1) ha senso solo se la probabilità a deno-

minatore è maggiore di zero. Nel caso di vettori casuali discreti, se ci limitiamo

ai singolettixi ∈ SX , essendoP(X = xi) > 0, la P (Y = yj|X = xi) è sempre

definita. Per il momento assumiamo di essere in questa condizione.

Considerando nella (5.46)xi fisso edyj variabile, si ha

p(yj|xi) > 0 (5.47)

p(yj|xi) =∑

pXY (xi, yj)

pX(xi)

pX(xi)·∑

pXY (xi, yj) =pX(xi)

pX(xi)= 1 (5.48)

per la definizione di distribuzione di probabilità marginale di X. Pertanto la

p(yj|xi), data dalla (5.46) perj ∈ N, è una distribuzione di probabilità.

Definizione 5.5.5.Sia(X, Y ) un vettore casuale; la relazione

p(yj|xi) =P (X = xi, Y = yj)

P (X = xi)≡ pXY (xi, yj)

pX(xi)

definisce21, perj ∈ N, la funzione di probabilitàdi Y condizionatadaX = xi,

seP (X = xi) ≡ pX(xi) > 0. Altrimenti perxi comunque fissato inR, se

pX(xi) = 0, per convenzione si ponep(yj|xi) = 0.

LaP (Y = yj|X = xi) gode di tutte le proprietà tipiche di una legge di probabilità,

sicché, indicando conE un generico evento, si ha:

P (Y ∈ E|X = xi) =∑

i:yi∈E

P (Y = yj|X = xi) . (5.49)

Nel caso in cuiE ≡ (−∞, y], la (5.49), considerandoxi fissato edy variabile,

definisce lafunzione di distribuzionedi Y condizionatadaX = xi:

F (y|xi) ≡ P (Y 6 y|X = xi) =∑

j:yj6y

P (Y = yj|X = xi) . (5.50)

Naturalmente tutte le precedenti formule possono essere riscritte scambiando il

ruolo diX con quello diY .

Supponiamo, ora, cheX ed Y siano dotate di una densità congiuntafXY (x, y).

Poiché, in questo caso,P(X = x) = 0, ∀x ∈ R, la precedente definizione della di-

stribuzione condizionata diY rispetto aX = x perde di significato. Comunque,

sulla falsariga della (5.46), possiamo scrivere22, ∀y ∈ R,

g(y|x) = fXY (x, y)

fX(x)(5.51)

se si suppone chefX(x) sia maggiore di zero. Lag(y|x) è una funzione densità di

probabilità, infatti

g(y|x) > 0 e∫ +∞

−∞

g(y|x)dy =1

∫ +∞

−∞

fXY (x, y)dy = 1 .

21Per lap(yj |xi) si utilizzano gli stessi sinonimi introdotti nel caso non condizionato.22Talvolta si usa la notazionefY |X(y|x).

Definizione 5.5.6.Sia(X, Y ) un variabile casuale bidimensionale assolutamente

continua con funzione densità di probabilità congiuntafXY (x, y) e densità mar-

ginali fX(x) e fY (y), si definisce,∀y ∈ R, funzione densità di probabilità diY

condizionata daX = x la funzione

g(y|x) = fXY (x, y)

sempre che risultifX(x) > 0 .

Diamo una giustificazione della precedente definizione. Siah un numero rea-

le positivo; consideriamo l’eventoEh ≡ x − h < X 6 x + h e supponia-

mo cheP(Eh) sia maggiore di zero. Ha senso, quindi, considerare la probabilià

condizionata dell’eventoY 6 y rispetto aEh:

P (Y 6 y|Eh) =P (Eh, Y 6 y)

P(Eh). (5.52)

Osserviamo cheP(Eh) = FX(x + h) − FX(x − h), poichéFX è una funzione

continua si ha:

limh→0

P(Eh) = 0 .

Inoltre, perh che tende a zero, l’eventoEh ≡ x − h < X 6 x + h tende

a X = x, di conseguenza possiamo scrivere, nel caso in cui il limitea primo

membro esiste,

limh→0

P(Y 6 y|Eh) = P(Y 6 y|X = x)

e la (5.52) diventa

P(Y 6 y|X = x) = limh→0

FXY (x+ h, y)− FXY (x− h, y)

FX(x+ h)− FX(x− h). (5.53)

Sia il numeratore che il denominatore della (5.53) tendono azero perh → 0 e si

ricade in un caso tipico al quale si applica la regola dell’Hôpital. Dividendo per

2h il numeratore ed il denominatore del secondo membro della (5.53) si ha

limh→0

2h[FXY (x+ h, y)− FXY (x− h, y)] =

−∞

fXY (x, v)dv

limh→0

2h[FX(x+ h)− FX(x− h)] = fX(x).

Per effetto delle due precedenti relazioni, sefX(x) > 0, possiamo scrivere la

(5.53) nella forma:

P(Y 6 y|X = x) =

−∞

fXY (x, v)

fX(x)dv. (5.54)

Il primo membro della (5.54) definisce, al variare diy, la funzione di distribuzione

di Y considerandox fissato. Tale funzione, indicata in simboli conFY |X(y|x), è

denominatafunzione di distribuzione condizionatadi Y rispetto aX = x. Nel-

l’ipotesi in cui fXY (x, v) sia continua in(x, y) ed fX(x) sia maggiore di zero e

continua inx, differenziando rispetto ay la (5.54) si ha

dyP(Y 6 y|X = x) ≡ d

dyFY |X(y|x) =

fXY (x, v)

fX(x)(5.55)

che corrisponde alla (5.51) (vedi anche la definizione 5.5.6). Poichég(y|x) è una

densità di probalità si ha:

P(Y ∈ A|X = x) =

g(y|x)dy. (5.56)

Dalla (5.51), o dalla equivalente (5.55), si ricava

fXY (x, y) = fX(x)g(y|x) (5.57)

dalla quale si deduce che, nel caso bidimensionale, per ricavare la densità con-

giuntafXY (x, y) è necessario conoscere la densità marginalefX(x) e la densità

condizionatag(y|x). Naturalmente si può scambiare il ruolo diX edY ed anche

estendere le precedenti considerazioni al cason-dimensionale.

5.6 Indipendenza di variabili casuali 173

5.6 Indipendenza di variabili casuali

Supponiamo cheX edY siano variabili casuali congiuntamente distribuite su uno

spazio di probabilitàΩ,F ,P e siaFXY (x, y) la loro funzione di distribuzio-

ne congiunta. Nel paragrafo 3.2 abbiamo introdotto il concetto di indipendenza

di eventi; in particolare, due eventiA e B sono indipendenti seP(A ∩ B) =

P(A) · P(B). Ciò premesso, è ragionevole riformulare la definizione, nel caso di

un vettore casuale bidimensionale, affermando cheX edY sonoindipendentise,

per ogni coppia di numeri realix e y, sono indipendenti gli eventiX 6 x e

Y 6 y, ossia se risultaP(X 6 x, Y 6 y) = P(X 6 x) · P(Y 6 y). Facendo

ricorso alle funzioni di distribuzione si dà la seguente definizione.

Definizione 5.6.1.Le variabili casualiX, Y si dicono indipendentise vale la

relazione

FXY (x, y) = FX(x) · FY (y) ∀x, y ∈ R (5.58)

ovverosia se la distribuzione di probabilità congiunta si fattorizza nel prodotto

delle due funzioni di distribuzione marginali.

La precedente definizione è generalizzabile al caso din variabile aleatorie.

Definizione 5.6.2.SianoX1, X2, . . . , Xn variabili casuali, definite sullo spazio

di probabilitàΩ,F ,P; conFX1,X2,...,Xn(x1, x2, . . . , xn) indichiamo la funzione

di distribuzione congiunta. Esse si diconoindipendentise,∀x1, x2, . . . , xn ∈ R,

risulta

FX1X2...Xn(x1, x2, . . . , xn)

= FX1(x1) · FX2(x2) · · ·FXn(xn) ≡

FXj(xj). (5.59)

Dalla (5.58), seX eY sono indipendenti e assolutamente continue, si ricava che

anche la funzione densità di probabilità congiunta si fattorizza nel prodotto delle

due densità marginali, infatti si ha

fXY (x, y) =∂2FXY (x, y)

∂x∂y=

dFX(x)

dx· dFY (y)

dy= fX(x) · fY (y). (5.60)

Nel caso din variabili casuali assolutamente continue indipendenti, la funzione

densità di probabilità congiunta verifica la relazione

fX1X2...Xn(x1, x2, . . . , xn) =

fXj(xj). (5.61)

La (5.61) è da molti autori posta come definizione di indipendenza din variabili

casuali assolutamente continue; per variabili casuali discrete la (5.61) diventa

pX1X2...Xn(x1, x2, . . . , xn) =

pXj(xj). (5.62)

Osservazione5.6.1. Si può facilmente verificare che seX1, X2, . . . , Xn sono in-

dipendenti tali sono anchek < n di esse comunque scelte. L’inverso non è

necessariamente vero.

Definizione 5.6.3.SianoX ≡ (X1, X2, . . . , Xn) e Y ≡ (Y1, Y2, . . . , Xm) va-

riabili casuali assolutamente continue, la priman-dimensionale e la secondam-

dimensionale. Esse sono indipendenti se e solo se vale la relazione

fXY(x1, . . . , xn, y1, . . . , yn) = fX(x1, . . . , xn) · fY(y1, . . . , yn). (5.63)

5.7 Funzioni di una variabile casuale

Sia Ω,F ,P uno spazio di probabilità eX : Ω −→ R una variabile casuale

con funzione di distribuzioneFX(x). Indichiamo cong : R −→ R una funzione

5.7 Funzioni di una variabile casuale 175

Borel-misurabile e definiamo la funzione diX, Y = g(X) : Ω −→ R, ponendo

Y (ω) = g(X(ω)). Essa è una variabile casuale. Questo asserto è di immediata

dimostrazione. Infattig−1(B) ∈ B, per l’ipotesi posta sug; inoltreX−1(B) ∈ Fper laF misurabilità diX. In conclusione,∀B ∈ B, si ha

Y −1(B) ≡ X−1[g−1(B)] ∈ F

eY è allora unav-ache si dice funzione diX. Quale legame esiste fra la funzione

di distribuzione diY e quella diX? Innanzitutto si noti che, qualunque sia il

borelianoB, P(Y ∈ B) ≡ P (Y −1(B)), oveY −1(B) è un evento diF . Sicché,

anche per lav-c Y , si deve fare riferimento allo spazio di probabilitàΩ,F ,P.

In particolare possiamo scrivere

P(Y ∈ B) = P (g(X) ∈ B) ≡ P(X ∈ g−1(B)

)(5.64)

FY (y) ≡ P(Y 6 y) = P(g(X) 6 y) = P(X ∈ g−1(]−∞, y])

). (5.65)

La (5.65) assicura che laFY (y) si può ricavare a partire dalla funzione di distribu-

zione della variabile casualeX. Naturalmente la natura delX e le caratteristiche

analitiche della funzioneg rendono il calcolo più o meno complicato.

Teorema 5.7.1.SiaX una variabile casuale discreta con funzione massapX(x)

e spettroSX ≡ xnn∈N; sia inoltreg : R −→ R una funzione Borel-misurabile.

La distribuzione di probabilità della variabile aleatoriaY = g(x) è data dalla

funzione

pY (y) =∑

i:xi∈g−1(y)

pX(xi). (5.66)

Per quanto concerne la funzione di distribuzione diY , vale la relazione

FY (y) =∑

pX(xi) (5.67)

ove la sommatoria è da intendersi estesa a tutti gli indicii ∈ N per i quali si

verifica: xi ∈ g−1(]−∞, y]).

Dimostrazione.Siay un qualunque numero reale, indichiamo conBy il boreliano

By = g−1(y). Tenendo conto della (5.64) possiamo scrivere la seguente relazione:

pY (y) ≡ P(Y = y) = P(X ∈ By) = P(X ∈ By ∩ xnn∈N).

L’ultimo passaggio si giustifica tenendo conto che, essendola v-c X discreta,

P (X = xi) è maggiore di zero solo sexi ∈ SX . Infine il valore della proba-

bilità P(X ∈ By ∩ xnn∈N) coincide con la sommatoria dei valori dipX(xi) ove

l’indice i è tale da verificare contemporaneamente le condizionipX(xi) > 0 e

xi ∈ By. La dimostrazione della (5.66) è stata così completata. Considerazioni

analoghe, partendo dalla (5.65), dimostrano la (5.67).

Osservazione5.7.1. Si noti che la (5.66) e la (5.67) possono essere anche scritte

pY (y) =∑

xi:g(xi)=y

pX(xi)

FY (y) =∑

xi:g(xi)6y

pX(xi).

Osservazione5.7.2. Se la funzioneg è strettamente monotòna, per ogniy numero

reale, l’intersezioneBy ∩ xnn∈N o coincide con∅ oppure conxi per un certo

indicei, pertanto, per la (5.66),pY (y) = pX(xi), se esiste unxi ∈ SX per il quale

risulti y = g(xi), altrimentipY (y) = 0.

La funzione di distribuzioneFY (y) assume una differente espressione analitica in

relazione all’andamento dig. Seg è strettamente crescente si ha

g−1 (]−∞, y]) ≡]−∞, g−1(y)

FY (y) ≡ P(g(x) 6 y) = FX

[g−1(y)

]. (5.68)

Nel caso in cuig sia strettamente decrescente si ha

g−1 (]−∞, y]) ≡[g−1(y),+∞

FY (y) ≡ P(g(x) > y) = 1− FX

[g−1(y)

]. (5.69)

Osservazione5.7.3. SeX è assolutamente continua, la funzione di distribuzione

dellav-cY , in virtù della (5.65), è data da:

FY (y) =

x:g(x)6y

f(x)dx. (5.70)

Nel caso in cuig sia una funzione continua, la funzione densità di probabilità

fY (y) si ottiene derivando laFY (y) rispetto ay.

La metodologia fino ad ora esposta per la determinazione della legge di probabilità

dellag(X) è denominatametodo delle funzioni di distribuzione(vedi [13]).

Esempio 5.7.1.Sia X una variabile casuale con distribuzione di probabilità di

Poisson

pX(x) ≡ p(x, λ) =

x!· e−λ sex ∈ N0

0 altrimenti

edY = g(X), cong(x) = 2x+ 3; determiniamopY (y).

P(Y = y) = P(2X + 3 = y) = P

X =y − 3

e pertanto la legge di probabilità cercata è data da

pY (y) = λ(y−3)/2 × 1

[(y − 3)/2]!× e−λ

sey è un intero dispari> 3; pY (y) = 0 altrove.

Esempio 5.7.2.SiaX unv-ccon densità di probabilitàfX(x) = α exp(−x) conα

uguale alla costante determinata nell’esempio 5.4.4 ex ∈ [0, 1]. Definita la nuova

variabile casualeY = 2X + 1, determiniamo la funzione di distribuzioneFY (y).

Notiamo innanzitutto chey ∈ [1, 3]. Si ha

FY (y) = P(Y 6 y) ≡ P(2X + 1 6 y) = P

X 6y − 1

≡ FX

(y − 1

1− exp

(y − 1

Esempio 5.7.3. Distribuzione di Rayleigh

Supponiamo cheX sia unav-ccon densità di probabilità esponenziale a parametro

γ > 0

fX(x) =

γe−γx sex > 0

0 sex 6 0

e siaY = X1/2; determiniamofY (y).

y=x1/2

(y2,0)

Figura 5.7:(X1/2 6 y

Con l’aiuto della figura 5.7, pery > 0 possiamo scrivere la relazione

FY (y) ≡ P(Y 6 y) = P(√X 6 y) = P(X 6 y2) ≡ FX(y

ed ancora,∀y 6 0, P(Y 6 y) = 0. La densità di probabilità dellav-cY si calcola

derivando rispetto ay la funzione di distribuzioneFY (y) e quindi

dyFY (y) =

dxFX(y

2) · dxdy

= fX(y2) · 2y.

In conclusione si ottiene

fY (y) =

2γy · e−γy2 sey > 0

0 sex 6 0(5.71)

che è la densità di probabilità di Rayleigh.

Esempio 5.7.4.SiaX una variabile casuale con funzione di distribuzione unifor-

me nell’intervallo(0, 1) e poniamoY = ln

= − lnX. Sey ∈ (0,+∞) si

haFY (y) = P(− lnX 6 y); altrimenti, sey 6 0, risultaFY (y) = 0.

Dalla figura 5.8 si deduce, pery > 0,

FY (y) ≡ P(Y 6 y) = P(X > e−y

fX(x)dx.

Essendo per ipotesifX(x) = 1 nell’intervallo (0, 1), si haFY (y) = 1 − e−y. Da

quest’ultima relazione, derivando rispetta ady, si ottiene

fY (y) =

e−y sey > 0

0 altrimenti

che coincide con lafdpesponenziale a parametro unitario.

yy = − ln(x)

(e−y,0)

Figura 5.8:(− ln(X) 6 y).

5.7.1 Il metodo delle trasformazioni

Prendiamo in esame il caso di una variabile casualeX assolutamente continua

e siag(x) una funzione monotòna; per le ipotesi poste ancheY è assolutamen-

te continua. In questo caso è possibile calcolare lafY (y) senza la necessità di

determinare la funzione di distribuzioneFY (y), si dimostra, infatti, il seguente

teorema.

Teorema 5.7.2.SiaX assolutamente continua di densità di probabilitàfX(x) e

g : R → R una funzione strettamente monotòna; la densità di probabilità della

v-cY = g(x) è data da

fY (y) = fX[g−1(y)

]·∣∣∣∣

∣∣∣∣

(5.72)

ovex = g−1(y).

Dimostrazione.Cominciamo con il considerare il caso in cuig sia una funzione

crescente (vedi figura 5.9) così che risultidg

dx> 0. Per ogni numero realey vale

la relazione

FY (y) ≡ P(Y 6 y) = P[X 6 g−1(y)

]≡ FX

[g−1(y)

da cui, derivando ambo i membri rispetto ay, si ottiene

dyFY (y) ≡ fY (y) =

[g−1(y)

]· dxdy

(5.73)

ovex = g−1(y).

g−1(y)

Figura 5.9:g(x) funzione crescente.

Il caso dig(x) funzione decrescente è illustrato in figura 5.10. Si ha

FY (y) ≡ P(Y 6 y) = P[X > g−1(y)

= 1− P[X 6 g−1(y)

]≡ 1− FX

[g−1(y)

La densità di probabilitàfY (y), derivando la funzione di distribuzioneFY (y)

rispetto ady, è

g−1(y)

Figura 5.10:g(x) funzione decrescente.

fY (y) =d

1− FX

[g−1(y)

]= −fX

[g−1(y)

]· dxdy

(5.74)

conx = g−1(y). Essendog(x) decrescente, la derivatadx/dy è negativa, pertanto

la 5.72 è valida sia perg crescente che perg decrescente.

Osservazione5.7.4. Il metodo prima descritto può essere esteso ai casi nei quali

l’insieme di definizione dellag(x) è ripartibile in intervalliAn sui qualig(x) è

strettamente monotona. Infatti se definiamo

gn(x) =

g(x) sex ∈ An

0 altrove

si hag(x) =∑∞

n=1 gn(x) con gn(x) che ammette un’unica funzione inversa in

An. Considerando separatamente ciascunagn e sommando su tutti glin si ricava

la fY (y):

fY (y) =

∞∑

fX[g−1n (y)

dyg−1n (y). (5.75)

Esempio 5.7.5.SiaX unav-c assolutamente continua con densità di probabilità

fX(x) =

exp(x) sex < 0

0 altrove

e poniamoY = X2. La funzioneg(x) = x2 è strettamente decrescente in(−∞, 0)

ex = g−1(y) = −√y. Si ha

dy= − 1

e, pery > 0,

fY (y) = fX[g−1(y)

]·∣∣∣∣

∣∣∣∣=

2√yexp (−√

Infine, pery 6 0, vale la relazionefY (y) = 0.

Esempio 5.7.6.Supponiamo che lav-cX abbia densità di probabilità uniforme

fX(x) =

b− asea < x < b ea, b ∈ R

0 altrove

e poniamoY = exp(X); determiniamofY (y).

La funzioneg(x) = ex è strettamente crescente in(a, b) e x = g−1(y) = ln y.

Dalla (5.73) si deduce

fY (y) = fX[g−1(y)

]· dxdy

= fX(ln y) ·dx

fX(ln y)

perea < y < eb; sicchéfY (y) =1

y(b− a)pery ∈

(ea, eb

)efY (y) = 0 altrove.

Riprendiamo, ora, l’esempio 5.7.4.

Esempio 5.7.7.SiaX una variabile casuale distribuita uniformemente nell’inter-

vallo (0, 1), determiniamo la funzione densità di probabilità diY = −1

klnX, con

k costante positiva.

La funzioneg(x) = −1

kln x è strettamente decrescente nell’intervallo(0, 1) e23

g−1(y) = exp(−ky), inoltre

∣∣∣∣

∣∣∣∣= k exp(−ky); pertanto si ha

fY (y) = fX(e−ky) · ke−ky (0 < y < +∞).

Tenendo presente che per ipotesifX(x) = 1, sex ∈ (0, 1), ed è nulla altrove, si

evince che, pery > 0, fY (y) = k exp(−ky); sey < 0 la fY (y) è nulla.

Concludiamo il capitolo calcolando la funzione densità di probabilità della fun-

zionemax(X, Y ) nel caso in cuiX e Y sianov-c indipendenti. Osserviamo

che si haZ ≡ max(X, Y ) 6 z se e solo se sono verificate simultaneamente le

disuguaglianzeX 6 z eY 6 z. Per l’ipotesi di indipendenza si ha

FZ(z) = P(Z 6 z) = P(X 6 z, Y 6 z) = FX(z) · FY (z). (5.76)

Derivando la (5.76) si ottiene la densità

fZ(z) =d

dzFZ(z) = fX(z) · FY (z) + fY (z) · FX(z). (5.77)

In molte applicazioni, soprattutto in quelle in cui si studia il tempo di buon fun-

zionamento di strumentazione o componentistica elettronica, si assume che le va-

riabili casuali sia distribuite secondo la legge esponenziale a parametroγ1 e γ2,

rispettivamente. In questo caso, perz > 0, la (5.77) diventa:

fZ(z) = γ1 exp (−γ1z) [1− exp (−γ2z)] + γ2 exp (−γ2z) [1− exp (−γ1z)] .

Un calcolo analogo si applica al caso della variabile casuale W = min(X, Y );

stavolta conviene calcolareP(W > w) = 1− FW (w). Si ha

1− FW (w) = P[min(X, Y ) > w] = P(X > w, Y > w)

= [1− FX(w)] · [1− FY (w)] . (5.78)

23y = − ln(x)

k⇒ −ky = ln(x)

5.8 Somme, prodotti e rapporti di variabili casuali 185

Nel caso si variabili casuali esponenziali, perw > 0, abbiamo

1− FW (w) = e−γ1we−γ2w

da cui

FW (w) = 1− e−(γ1+γ2)w

ed infine

fW (w) = (γ1 + γ2) e−(γ1+γ2)w.

5.8 Somme, prodotti e rapporti di variabili casuali

La teoria delle variabili casualin-dimensionali fornisce uno strumento utile per

calcolare la funzione di distribuzione di somme, prodotti erapporti div-c unidi-

mensionali. Ad esempio siaY =∑n

i=1Xi, per definizione si ha

FY (y) = P(Y 6 y) = P (X1 + · · ·+Xn 6 y) .

FY (y) è dunque la probabilità che lav-c∑n

i=1Xi assuma il valore∑n

i=1 xi e il

puntox = (x1, . . . , xn) appartenga al semispazio

D ≡ x ∈ Rn : x1 + · · ·+ xn 6 y .

Se le variabili casualiXi sono assolutamente continue e congiuntamente distribui-

te, indicando confX1X2...Xn(x1, x2, . . . , xn) la loro densità di probabilità congiun-

ta, si ha

FY (y) =

· · ·∫

fX1X2...Xn(x1, x2, . . . , xn)dx1dx2 · · · dxn. (5.79)

Nei successivi paragrafi prenderemo in esame, per semplificare gli sviluppi ma-

tematici, il caso din = 2; i risultati possono essere estesi al caso generale di un

interon qualsiasi.

5.8.1 Somma di due variabili casuali

PoniamoZ = X + Y ed indichiamo conf(x, y) la funzione di densità di proba-

bilità congiunta delle variabili casualiX eY .

Proposizione 5.8.1.Per ogni numero realez, la densità di probabilità della va-

riabile casuale sommaZ = X + Y è data dalla relazione

fZ(z) =

∫ +∞

−∞

f(x, z − x)dx =

∫ +∞

−∞

f(z − y, y)dy. (5.80)

x+y ≤ z

Figura 5.11: Dominio di integrazione della (5.79) per il calcolo diFX+Y (z).

Per dimostrare la tesi della proposizione notiamo che nella(5.79) il dominio di

integrazione coincide con il semispazio,D ≡ (x, y) : x + y 6 z, delimitato

superiormente dalla retta di equazionex + y = z (vedi la figura 5.11). Pertanto

possiamo riscrivere quest’ultima relazione come

FZ(z) =

∫∫

f(x, y)dxdy

da cui si ottiene

FZ(z) =

∫∫

f(x, y)dxdy =

∫ +∞

−∞

[∫ z−x

−∞

f(x, y)dy

Per quanto concerne l’integrale∫ z−x

−∞f(x, y)dy, introducendo la nuova variabile

u = x + y, si ha, essendox fissato,du = dy, ed inoltre, quandoy = −∞ risulta

u = −∞ e, quandoy = z − x, u = x + (z − x) = z. In conclusione si ha∫ z−x

−∞f(x, y)dy =

−∞f(x, u− x)du e

FZ(z) =

∫∫

f(x, y)dxdy =

∫ +∞

−∞

[∫ z

−∞

f(x, u− x)du

−∞

[∫ +∞

−∞

f(x, u− x)dx

ove l’ultimo passaggio si giustifica cambiando di posto agliintegrali. Infine, ri-

cordando il teorema fondamentale del calcolo integrale, siperviene,∀z ∈ R, alla

relazione

fZ(z) =d

dzFZ(z) =

∫ +∞

−∞

f(x, z − x)dx.

Scambiandox cony si dimostra la seconda formulazione della (5.80).

Osservazione5.8.1. Nel caso di variabili casuali discrete, fissato il valore diz,

∀(xi, yj) tale chexi + yj = z, vale la relazione

P(Z = z) =∞∑

P(X + Y = z,X = xi)

∞∑

P(X = xi, Y = yj − xi).

Altrimenti, per tutte la altre coppie di valori(xi, yj), si haP(Z = z) = 0.

5.8.2 Differenza di due variabili casuali

Determiniamo, ora, la funzione di densità di probabilità diZ = Y −X.

riabile casuale differenzaZ = Y −X è data dalla relazione

fZ(z) =

∫ +∞

−∞

f(x, z + x)dx =

∫ +∞

−∞

f(z + y, y)dy. (5.81)

y−x=z

y−x ≤ z

Figura 5.12: Dominio di integrazione della (5.79) per il calcolo diFY−X(z).

La dimostrazione della (5.81) si basa sullo stesso ragionamento utilizzato per per-

venire alla (5.80), tenendo presente che, per la differenzadi variabili casuali, nella

(5.79) il dominio di integrazione è il semispazio al disottodella retta di equazione

y − x = z (vedi la figura 5.12). Si ha

FZ(z) =

∫∫

y−x6z

f(x, y)dxdy =

∫ +∞

−∞

[∫ x+z

−∞

f(x, y)dy

Se si poneu = y − x, segue chedu = dy, ed inoltre, quandoy = −∞ otteniamo

u = −∞ e, quandoy = x+ z, u = (x+ z)− x = z. Per quanto sopra esposto si

perviene alla relazione

FZ(z) =

∫ +∞

−∞

[∫ z

−∞

f(x, u+ x)du

e, scambiano di posto gli integrali,

FZ(z) =

−∞

[∫ +∞

−∞

f(x, u+ x)dx

Differenziando rispetto az, ∀z ∈ R, si dimostra la prima parte della tesi della

5.8.2 e, scambiando di ruolo alle variabilix e y, anche la seconda parte della

(5.81) risulta verificata.

5.8.3 Prodotto di due variabili casuali

Esaminiamo ora il caso della variabile casualeZ prodotto delle variabili casuali

X eY .

riabile casuale prodottoZ = X · Y è data dalla relazione

fZ(z) =

∫ +∞

−∞

|x|f(x,z

x)dx =

∫ +∞

−∞

|y|f(z

y, y)dy. (5.82)

Per dimostrare quanto affermato nella 5.8.3, notiamo che dalla (5.79) si ottiene:

FZ(z) ≡ P(Z 6 z) = P(XY 6 z) =

∫∫

f(x, y)dxdy =

∫∫

f(x, y)dxdy.

Cominciamo con il considerare la condizionez > 0. L’equazionez = xy rap-

presenta l’iperbole equilateray = z/x i cui rami giacciono, rispettivamente, nel

(x,y): x<0, y ≥ z/x

(x,y): x>0, y ≤ z/x

Figura 5.13: Dominio di integrazione,D, della (5.79) per il calcolo diFXY (z) ove

z è un numero realepositivo.

primo e nel terzo quadrante come mostrato nella figura 5.13 e delimitano la regione

di integrazione,D, dell’integrale doppio∫∫

Df(x, y)dxdy, costituita dall’insieme

dei punti(x, y) tali chexy 6 z.

Si noti che

D ≡ (x, y) : xy 6 z =

(x, y) : x < 0, y >z

(x, y) : x > 0, y 6z

e, di conseguenza, decomponendo la regione di integrazionenei due domini par-

ziali corrispondenti ax > 0 ex < 0, abbiamo

FZ(z) =

−∞

[∫ ∞

f(x, y)dy

∫ ∞

[∫ z/x

−∞

f(x, y)dy

Eseguiamo il cambiamento di variabileu = xy. Si hadu = xdy; inoltre, quando

y = z/x si hau = z, sex < 0 e y = +∞ abbiamou = −∞ ed infineu = −∞sey = −∞ ex > 0. Pertanto possiamo scrivere la funzione di distribuzione di Z

FZ(z) =

−∞

[∫ −∞

x−1f(

∫ +∞

[∫ z

−∞

x−1f(

−∞

[∫ z

−∞

−x−1f(

∫ +∞

[∫ z

−∞

x−1f(

∫ +∞

−∞

[∫ z

−∞

−x−1f(

−∞

x−1f(

∫ +∞

−∞

[∫ z

−∞

[∫ +∞

−∞

du. (5.83)

Derivando rispetto az la funzione 5.83 così ottenuta, e scambiando successiva-

mente il ruolo dix e y, si perviene alla dimostrazione della 5.8.3.

(x,y): x<0, y ≥ z/x

(x,y):x>0, y ≤ z/x

Figura 5.14: Dominio di integrazione,D, della (5.79) per il calcolo diFXY (z) per

ogniz numero realenegativo.

Per quanto concerne il secondo caso,z < 0, i rami dell’iperbole equilateraz = xy

giacciono nel secondo e nel quarto quadrante (vedi figura 5.14). Il dominio di in-

tegrazione è l’unione delle due regioni delimitate superiormente ed inferiormente

dal ramo dell’iperbole per il secondo ed il quarto quadranterispettivamente. Riap-

plicano il ragionamento precedente si dimostra lo stesso risultato che ha, quindi,

validità generale.

5.8.4 Rapporto di due variabili casuali

riabile casualeZ rapporto delle variabili casualiY e X, Z =Y

X, è data dalla

relazione

fZ(z) =

∫ +∞

−∞

|x|f(x, zx)dx =

∫ +∞

−∞

dy. (5.84)

Per dimostrare la (5.84) determiniamo la funzione di distribuzione dellav-cZ che

in questo caso è data daFZ(z) ≡ P

∫∫

f(x, y)dxdy. A tal fine

si osservi che, sex < 0, allora la condizioney/x 6 z è verificata se e solo se

y > xz, ∀z ∈ R. La regione di integrazione da considerare è

(x, y) :y

= (x, y) : x < 0, y > zx ∪ (x, y) : x > 0, y 6 zx.

Essa è illustrata nelle figure 5.15 e 5.16, rispettivamente per z > 0 e z < 0.

Osserviamo che la curva di equazionez = y/x coincide con la rettay = xz che,

perz numero reale positivo, giace nel primo e nel terzo quadrantee nel secondo e

quarto quadrante, sez < 0.

y y=xz

(x,y): x<0, y ≥ xz(x,y):x>0, y ≤ xz

Figura 5.15: Dominio di integrazione,D, della (5.79) per il calcolo diFY/X(z)

perz numero realepositivo.

Si ha24

FZ(z) =

−∞

[∫ +∞

f(x, y)dy

∫ ∞

[∫ xz

−∞

f(x, y)dy

−∞

[∫ −∞

xf(x, ux)du

∫ ∞

[∫ z

−∞

xf(x, ux)du

−∞

[∫ z

−∞

−xf(x, ux)du

∫ ∞

[∫ z

−∞

xf(x, ux)du

∫ +∞

−∞

[∫ z

−∞

−xf(x, ux)du+

−∞

xf(x, ux)du

∫ +∞

−∞

[∫ z

−∞

|x|f(x, ux)du]

−∞

[∫ z

−∞

|x|f(x, ux)dx]

du. (5.85)

24Eseguiamo il cambiamento di variabileu = y/x e nell’ultimo passaggio scambiamo di posto

agli integrali.

(x,y): x<0, y ≥ xz

(x,y):x>0, y ≤ xz

Figura 5.16: Dominio di integrazione,D, della (5.79) per il calcolo diFY/X(z)

conz numero realenegativo.

Derivando laFZ(z) rispetto az, si ottiene la funzione di densità di probabilità

fZ(z) =

∫ +∞

−∞

|x|f(x, zx)dx. La seconda parte della tesi si ricava scambiando il

ruolo delle variabilix e y.

5.8.5 Variabili casuali indipendenti ed alcuni esempi

Il caso di maggior interesse nelle applicazioni si ha quandoX eY sono variabili

casuali indipendenti; l’ipotesi di indipendenza consentedi riscrivere le relazioni

dimostrate nei paragrafi precedenti esprimendo lafXY (x, y) come il prodotto delle

funzioni di densità di probabilità marginali diX eY .

Proposizione 5.8.5.SianoX eY variabili casuali indipendenti, con funzione di

densità di probabilitàfX(x) e fY (y), rispettivamente.

Per ogni numero realez si ha:

(Z = X + Y ) fZ(z) =

∫ +∞

−∞

fX(x)fY (z − x)dx

∫ +∞

−∞

fX(z − y)fY (y)dy, (5.86a)

(Z = X − Y ) fZ(z) =

∫ +∞

−∞

fX(x)fY (z + x)dx

∫ +∞

−∞

fX(z + y)fY (y)dy, (5.86b)

(Z = XY ) fZ(z) =

∫ +∞

−∞

|x|fX(x)fY(z

∫ +∞

−∞

|y|fX(z

fY (y) dy, (5.86c)

fZ(z) =

∫ +∞

−∞

|x|fX(x)fY (zx)dx

∫ +∞

−∞

fY (y) dy. (5.86d)

Definizione 5.8.1.Siano date le funzioni densità di probabilitàf(x) e g(y), si

definisce25 convoluzionedi f eg la funzioneh(z)

h(z) =

∫ +∞

−∞

f(x)g(z − x)dx =

∫ +∞

−∞

f(z − y)g(y)dy (5.87)

che è essa stessa una densità di probabilità.

La definizione precedente e la (5.86a) affermano che la densità di probabilità della

somma di due variabili casuali indipendenti è la convoluzione delle loro densi-

tà individuali. La convoluzione viene indicata simbolicamente con la notazione

h(z) = f(x)⊗ g(y) oppure comeh(z) = f(x) ∗ g(y).25Nella teoria di processi stocastici, in particolare nella branca che si occupa dell’analisi di

segnali casuali, l’integrale di convoluzione è definito utilizzando una formulazione più generale:

non è limitata alle densità di probabilità.

Osservazione5.8.2. Dal fatto che la densità di probabilità diX + Y coincide

con convoluzione ottenuta dalle densità marginali diX eY non segue che queste

ultime siano indipendenti.

Esempio 5.8.1.SianoX1 e X2 variabili casuali esponenziali indipendenti a pa-

rametroγ. Indichiamo conY la v-c somma. La funzione densità di probabilità

congiunta di(X1, X2) è data da

f (x1, x2) = γ−2 exp − (x1 + x2) /γ

sex1 > 0 ex2 > 0, f (x1, x2) = 0 altrimenti. Applicando la (5.86a) e ricordando

che che la densità esponenziale è nulla per valori dell’argomento minori o uguali

a zero, otteniamo la densità di probabilità diY = X1 +X2:

fY (y) =

∫ +∞

−∞

f (x1) f (y − x1) dx1 =

γe−x1/γ

γe−(y−x1)/γ

= γ−2 exp (−y/γ)

dx1 = γ−2y exp (−y/γ) pery > 0.

La fY (y) è nulla per valori diy minori o uguali a zero.

CalcoliamoP (X1 +X2 > a) pera > 0. Si ha26

P (X1 +X2 > a) =1

∫ +∞

ye(−y/γ)dy =

∫ +∞

(y/γ) e(−y/γ)d (y/γ)

∫ +∞

we−wdw = e−w(−w − 1)|+∞α/γ

= 0− e−a/γ

γ− 1

= e−a/γ

26Memento:∫

x exp(cx)dx =exp(cx)

c2· (cx − 1); nel nostro casoc = −1.

5.9 Funzioni di un vettore casuale 197

Consideriamo ora lav-c differenzaZ = X2 −X1 e determiniamo, a partire dalla

(5.86b), lafZ(z) =∫ +∞

−∞

f (x1) f (z + x1) dx1. Perz > 0 abbiamo

fZ(z) =

∫ +∞

(γ−1e−x1/γ

) [γ−1e−(z+x1)/γ

= γ−2e−z/γ

∫ +∞

e−2x1/γdx1 = γ−1e−z/γ

∫ +∞

e−2x1/γ1

= (2γ)−1 e−z/γ

∫ +∞

e−wdw = (2γ)−1 e−z/γ .

Sez è un numero reale negativo, tenuto conto che−z > 0, si ha

fZ(z) =

∫ +∞

(γ−1e−x1/γ

) [γ−1e−(z+x1)/γ

= γ−2e−z/γ

∫ +∞

e−2x1/γdx1 = γ−1e−z/γ

∫ +∞

e−2x1/γ1

= (2γ)−1 e−z/γ

∫ +∞

−2z/γ

e−wdw

= (2γ)−1 · e−z/γ ·(

−e−w∣∣+∞

−2z/γ

= (2γ)−1 ez/γ .

Dalle precedenti relazioni si ricava la cosiddetta densitàdi Laplace

fZ(z) = (2γ)−1 exp

−|z|γ

∀z ∈ R. (5.88)

5.9 Funzioni di un vettore casuale

Seguendo la stessa linea di ragionamento sviluppata all’inizio del paragrafo 5.7, si

dimostra che, seX ≡ (X1, X2, . . . , Xn) è un variabile casualen-dimensionale e

g : Rn → Rm una funzione Borel-misurabile, ancheU ≡ g(X) è una variabile ca-

sualem-dimensionale. SeX è un vettore casuale discreto il calcolo diP(U = u)

non pone problemi particolari come mostrano i successivi esempi che esaminano il

caso di variabili casuali bidimensionali,X ≡ (X1, X2), per semplicità di calcolo.

Esempio 5.9.1.SianoX1 eX2 variabili casuali indipendenti, distribuite con legge

binomiale con parametro0 < p < 1; determiniamo la distribuzione di probabilità

di Y = g [X ≡ (X1, X2)] = X1 + X2. Indicando conn il numero di ripetizioni,

si haSX1 = SX2 ≡ (0, 1, 2, . . . , n) eSY ≡ (0, 1, 2, . . . , 2n). Vale la relazione

P(Y = j) = P (X1 +X2 = j) =n∑

P (X1 = k,X2 = j − k)

e, per le ipotesi poste, possiamo scrivere

P(Y = j) =

P (X1 = k) · P (X2 = j − k)

b(k;n, p) · b(j − k;n, p)

pk(1− p)n−k ×(

j − k

pj−k(1− p)n−j+k

j − k

pj(1− p)2n−j =

pj(1− p)2n−j .

Per giustificare l’ultimo passaggio di faccia riferimento all’identità ipergeometrica

(2.20) ed in essa si ponga27 a = b = n, r = k en− r = j − k.

Esempio 5.9.2.Supponendo ancora valide le ipotesi sulle componenti diX, con-

sideriamo la variabile casuale differenzaW = g(X) = X1 −X2 e determiniamo

P(W = j) conj ∈ SW oveSW ≡ [−n,−(n − 1),−1, 0,+1, . . . , n]. Osserviamo

innanzitutto che

P(W = j) =

P (X1 = k + j,X2 = k)

)si annulla perk > n e la sommatoria è composta di un numero finito di termini.

e, pertanto,

P(W = j) =n∑

P (X1 = k + j) · P (X2 = k) =n∑

b(k + j;n, p) · b(k;n, p).

P(W = j) =n∑

pk+j(1− p)n−k−j ×(n

pk(1− p)n−k

p2k+j(1− p)2n−2k−j

1− p

)j n∑

p2k(1− p)2n−2k.

In particolare abbiamo

P(W = 0) =

p2k(1− p)2n−2k

P(W = −n) =

1− p

)−n n∑

k − n

p2k(1− p)2n−2k

(1− p

p2n(1− p)2n−2n [infatti(

nk−n

)= 0 sek < n]

(1− p

p2n = pn(1− p)n.

Esempio 5.9.3.SianoX1 e X2 due variabili casuali di Poisson indipendenti a

parametroλ1 eλ2 rispettivamente, determiniamo la legge di probabilità della va-

riabile casualeY = g [X ≡ (X1, X2)] = X1 +X2.

Tenendo presente cheSX1 = SX2 = SY ≡ N0, per ogniy ∈ N0 abbiamo

P(Y = y) = P(X1 +X2 = y) e per la formula della probabilità totale (3.6)

=∞∑

P(X1 = x)P(X1 +X2 = y|X1 = x) =∞∑

P(X1 = x,X1 +X2 = y)

P(X1 = x,X2 = y − x) e per l’ipotesi di indipendenza

P(X1 = x)P(X2 = y − x)

[exp(−λ1)λ

] [exp(−λ2)λ

y−x2

(y − x)!

= e−(λ1+λ2)

y!· λx

1λy−x2

x!(y − x)!

=e−(λ1+λ2))

λx1λ

y−x2 =

e−(λ1+λ2)

λx1λ

=e−(λ1+λ2)

y!λy2

e per il teorema binomiale

=e−(λ1+λ2)

y!λy2

1 +λ1

=(λ1 + λ2)

y!· e−(λ1+λ2)

pertanto lav-cY è una variabile casuale di Poisson a parametroλ1 + λ2.

Esempio 5.9.4.SiaX ≡ (X1, X2) un vettore casuale ove28 X1 ∼ b(k;n, p), per

k = 0, 1, . . . , n, e X2 ∼ b(j;n, p), j = 0, 1, . . . , n. Supponiamo cheX1 e X2

sianov-c indipendenti e consideriamo il vettore casualeU ≡ (U1, U2) funzione

di X: U = g(X). PostoU1 = X1/ (X2 + 1) e U2 = X2 + 1, determiniamo

pU1U2(u1, u2) = P (U1 = u1, U2 = u2). Le trasformazioni inverse sono espresse

dalle relazioniX1 = U1 · U2 eX2 = U2 − 1, da esse segue che

SU1U2 ≡ SX1 ≡ (0, 1, . . . , n)

28X ∼ f(x) vuol significare che la funzione massa, o la densità di probabilità, di X èf(x), nel

nostro caso la distribuzione binomiale.

SU2 ≡ SX2+1 ≡ (0, 1, . . . , n, n+ 1).

La distribuzione congiunta diU1 eU2 è data da

pU1U2(u1, u2) = P (U1 = u1, U2 = u2)

= P (X1 = u1u2, X2 = u2 − 1) = b (u1u2;n, p) · b (u2 − 1;n, p)

pu1u2(1− p)n−u1u2 ×(

u2 − 1

pu2−1(1− p)n−(u2−1)

u2 − 1

pu1u2+u2−1(1− p)2n+1−u2−u1u2

sicché

pU1U2(n, 1) = pn(1− p)n

e, perk, j = 0, 1, 2, . . . , n,

j + 1, j + 1

j + 1, U2 = j + 1

pk+j(1− p)2n−k−j.

Nel caso di una variabile casuale multidimensionale, le cuicomponenti siano as-

solutamente continue, il calcolo difg(X)[g(x)] non è altrettanto semplice; per ta-

le motivo esamineremo in dettaglio il caso bidimensionale.SiaX ≡ (X1, X2)

una variabile bidimensionale assolutamente continua con densità di probabili-

tà congiuntafX1,X2 (x1, x2) ed A un sottoinsieme del pianox1x2 definito da:

A = (x1, x2) : fX1,X2 (x1, x2) > 0. Consideriamo la funzioneU ≡ (U1, U2) =

g(X). Sia

u1 = g1(x1, x2)

u2 = g2(x1, x2)(5.89)

una trasformazione biunivoca che proiettaA su un certo sottoinsieme29 D del

pianou1u2. In altre parole supponiamo che esista la trasformazione inversa

x1 = g−11 (u1, u2)

x2 = g−12 (u1, u2)

(5.90)

per l’insieme di definizione della trasformazione. Ulteriori ipotesi sono la conti-

nuità delle funzionig1, g2, g−11 , g−1

2 , e che le derivate parziali

esistono e sono continue. Infine assumiamo che lo Jacobiano della trasformazione

inversa

J =∂(x1, x2)

∂(u1, u2)=

∣∣∣∣∣

∂x1/∂u1 ∂x1/∂u2

∂x2/∂u1 ∂x2/∂u2

∣∣∣∣∣

sia diverso da zero. La densità di probabilità congiuntafU1U2(u1, u2) è data da

fU1U2(u1, u2) = |J |fX1X2

[g−11 (u1, u2), g

−12 (u1, u2)

]. (5.91)

Per dimostrare la (5.91) richiamiamo alcune nozioni connesse al concetto di pro-

dotto vettoriale. Sianoa ≡ (ax, ay) e b ≡ (bx, by) due generici vettori ed indi-

chiamo cona ∧ b il loro prodotto vettoriale che, come è noto, è esso stesso un

vettore. Il modulo di tale vettore,|a ∧ b| = ab sin θ, è l’area del parallelogramma

individuato dai due vettori (vedi figura 5.17). Dal calcolo vettoriale si ricava

|a ∧ b| =∣∣∣∣∣

∣∣∣∣∣= axby − aybx. (5.92)

Nel sistema di assi cartesianix1x2 fissiamo un rettangolinoR ⊂ A di areadx1dx2

(vedi figura 5.18), il prodottofX1X2 (x1, x2) dx1dx2 è la probabilità che la varia-

bile casuale bidimensionale(X1, X2) assuma valori all’interno diR.

29D è un sottoinsieme del pianou1u2 costituito dai punti(u1, u2) per i quali esiste un elemento

(x1, x2) ∈ A tale che(u1, u2) = [g1(x1, x2), g2(x1, x2)].

Figura 5.17: Significato geometrico del modulo di un prodotto vettoriale.

Sex1 varia di una quantitàdx1, come conseguenza, nel pianou1u2, la variazione

di u1 saràdu1 = (∂u1/∂x1) dx1 e, quella diu2, du2 = (∂u2/∂x1) dx1. Analoga-

mente, ad una variazionedx2 di x2 corrispondono le variazioni(∂u1/∂x2) dx2 e

(∂u2/∂x2) dx2 di u1 eu2, rispettivamente. Pertanto le (5.89) trasformano il rettan-

goloR ⊂ A del pianox1x2 nel parallelogrammaS ⊂ D nel sistema di coordinate

u1u2, come mostrato nella figura 5.19. Le precedenti considerazioni consentono

di scrivere la relazione

P [(X1, X2) ∈ R] ≡ fX1X2 (x1, x2) dx1dx2︸︷︷︸

area diR

= fU1U2 (u1, u2)× area diS ≡ P [(U1, U2) ∈ S] . (5.93)

A questo punto si osservi che la lunghezza della base diS coincide con il modu-

lo del vettore

(∂u1

∂x1· dx1,

∂x1· dx1

, mentre la lunghezza del lato obliquo con

Figura 5.18:R ⊂ A.

il modulo del vettore

(∂u1

∂x2· dx2,

∂x2· dx2

. Pertanto, dalla (5.92) segue che

l’area del parallelogrammaS è∣∣∣∣∣∣∣∣∣∣

∂x1· dx1

∂x2· dx2

∣∣∣∣∣∣∣∣∣∣

dx1dx2. (5.94)

Poiché il valore del determinante di una matrice non cambia se in essa si scambia-

no le righe con le colonne, la (5.94) può essere riscritta come∣∣∣∣∣∣∣∣∣∣

∣∣∣∣∣∣∣∣∣∣

dx1dx2 =

∣∣∣∣∣∣∣∣∣∣

dx1dx2 = |J |dx1dx2. (5.95)

(∂ u1/∂ x

(∂ u2/∂ x

(∂ u1/∂ x

Figura 5.19:S ⊂ D

Nella (5.95) è stato introdotto il valore assoluto|J | del determinante Jacobiano30

∂(u1, u2)

∂(x1, x2)in quanto l’area di un poligono è un numero reale positivo. Ilvalore

assoluto diJ svolge il ruolo difattore di trasformazioneper la misura delle aree

quando si passa dal sistema di coordinatex1x2 al sistema di coordinateu1u2:

l’area del parallelogrammaS è |J | volte l’area del rettangoloR. Dalla (5.93) e

dalla (5.95) deduciamo che

fX1X2 (x1, x2) dx1dx2 = fU1U2 (u1, u2) |J |dx1dx2

da cui segue

fX1X2 (x1, x2) = |J |fU1U2 (u1, u2)

30Si sottolinea che in questo casoJ è il determinate Jacobiano della trasformazione diretta

ui = gi(x1, x2), i = 1, 2.

ed infine

fU1U2 (u1, u2) =

∣∣∣∣

∂(u1, u2)

∂(x1, x2)

∣∣∣∣

fX1X2 (x1, x2)

ovexi = g−1i (u1, u2), i = 1, 2. Fino ad ora abbiamo fatto ricorso al determinante

Jacobiano della trasformazione diretta laddove nella (5.91) compare quello della

trasformazione inversa. Ragionando all’inverso, ovvero passando dal sistema di

coordinateu1u2 al sistema di coordinatex1x2, il fattore di conversione di un’area

nel pianou1u2 nella sua immagine nel pianox1x2 è il valore assoluto del determi-

nate Jacobiano∂(x1, x2)/∂(u1, u2). Infine si perviene alla (5.91) esprimendox1 e

x2 in funzione diu1 eu2:

x1 = g−11 (u1, u2)

x2 = g−12 (u1, u2).

Esempio 5.9.5.Supponiamo che la variabile casuale(X1, X2) abbia la funzione

fX1X2 (x1, x2) =

exp (−x1 − x2) sex1 > 0, x2 > 0

0 altrove

come funzione densità di probabilità congiunta e di essere interessati alla densità

congiunta di(X1 +X2, X2/X1). Le trasformazioni coinvolte sono

u1 = x1 + x2

u2 =x2

e le inverse

x1 =u1

1 + u2

x2 =u1u2

1 + u2

che pongono in corrispondenza biunivoca i punti nel primo quadrante del piano

x1x2 e quelli nel primo quadrante del pianou1u2. Si ha

∂(x1, x2)

∂(u1, u2)=

∣∣∣∣∣

∂x1/∂u1 ∂x1/∂u2

∂x2/∂u1 ∂x2/∂u2

∣∣∣∣∣

∣∣∣∣∣∣∣∣∣

1 + u2

− u1

(1 + u2)2

1 + u2

− u1u2

(1 + u2)2

∣∣∣∣∣∣∣∣∣

(1 + u2)2> 0 .

In conclusione, seu1, u2 > 0, abbiamo

fU1U2 (u1, u2) =u1

(1 + u2)2× exp

− u1

1 + u2− u1u2

1 + u2

= u1 exp (−u1)×1

(1 + u2)2

e saràfU1U2 (u1, u2) = 0, altrove. Le variabili casualiU1 eU2 sono indipendenti.

Esempio 5.9.6.Si supponga cheX1 e X2 siano variabili casuali indipendenti,

ognuna uniformemente distribuita nell’intervallo(0, 1). Abbiamo

fX1X2 (x1, x2) = fX1 (x1) fX2 (x2)

A = (x1, x2) : 0 < x1 < 1 e0 < x2 < 1coincide con il quadrato di lato unitario con un vertice nell’origine degli assi (vedi

figura 5.20).

SiaU1 = X1 + X2 eU2 = X2 − X1, determiniamofU1U2 (u1, u2). La relazione

(5.89) diventa31

u1 = g1 (x1, x2) = x1 + x2

u2 = g2 (x1, x2) = x2 − x1

31Si osservi cheu1 ∈ (0, 2) eu2 ∈ (−1, 1).

Figura 5.20:A ≡ (x1, x2) : fX1X2(x1, x2) > 0.

mentre

x1 = g−11 (u1, u2) =

12(u1 − u2)

x2 = g−12 (u1, u2) =

12(u1 + u2)

rappresenta la trasformazione inversa. Si noti che la trasformazione

ui = gi (x1, x2) (i = 1, 2)

proiettaA nel sottoinsiemeD del pianou1u2 (vedi figura 5.21). Infatti la frontiera

x1 = 0 di A diventa la frontiera diD 1/2(u1 − u2) = 0, ovverou2 = u1; la

frontierax2 = 0 di A diventa1/2(u1+u2) = 0, ovverou2 = −u1. Analogamente

la frontierax1 = 1 diventau2 = u1 − 2 ex2 = 1 diventau2 = 2− u1.

Il determinante Jacobiano della trasformazione inversa è

∂(x1, x2)

∂(u1, u2)=

∣∣∣∣∣

∂x1/∂u1 ∂x1/∂u2

∂x2/∂u1 ∂x2/∂u2

∣∣∣∣∣=

∣∣∣∣∣

1/2 −1/2

1/2 1/2

∣∣∣∣∣= 1/2.

u2 = u

u2 = −u

u2 =2− u

u2 = u

Figura 5.21:D ≡ (u1, u2) : fU1U2(u1, u2) > 0.

fU1U2 (u1, u2) = |J |fX1X2

[g−11 (u1, u2) , g

−12 (u1, u2)

2× fX1

[g−11 (u1)

)]× fX2

[g−12 (u2)

2× fX1

(u1 − u2

× fX2

(u1 + u2

e quindifU1U2 (u1, u2) = 1/2 per(u1, u2) ∈ D, fU1U2 (u1, u2) = 0 altrimenti. In

termini più dettagliati, tenuto conto dell’espressione analitica della distribuzione

uniforme,fU1U2 (u1, u2) = 1/2 seu1 eu2 verificano le condizione

0 <u1 − u2

2< 1 e 0 <

u1 + u2

o l’equivalente

0 < u1 − u2 < 2 e 0 < u1 + u2 < 2 .

Calcoliamo le densità marginali32. Per quanto concerneU1 si ha

fU1(u1) =1

∫ u1

du2 = u1 seu1 ∈ (0, 1]

∫ 2−u1

u1−2

du2 = 2− u1 seu1 ∈ (1, 2)

edfU1(u1) = 0 altrimenti. Analogamente otteniamo

fU2(u2) =1

∫ u2+2

du1 = 1 + u2 seu2 ∈ (−1, 0]

∫ 2−u2

du1 = 1− u2 seu2 ∈ (0, 1)

edfU2(u2) = 0 altrimenti.

La (5.91) si generalizza al caso di variabili casualin-dimensionali, conn > 2;

illustreremo il procedimento con un esempio.

Esempio 5.9.7.SiaX = (X1, X2, X3) una variabile casuale tridimensionale, sup-

poniamo, inoltre, che le variabili casualiXi siano indipendenti ed identicamente

distribuite con una densità esponenzialefXi(xi) = exp (−xi), sexi ∈ (0,+∞), e

fXi(xi) = 0, sexi /∈ (0,+∞), con(i = 1, 2, 3). SiaU = (U1, U2, U3) ≡ g(X);

definiamo la trasformazione diretta come

u1 = g1 (x1, x2, x3) = x1 + x2 + x3

u2 = g2 (x1, x2, x3) =x1 + x2

x1 + x2 + x3

u3 = g3 (x1, x2, x3) =x1

x1 + x2

da cui si ottieneu2 = (x1 + x2)/u1, x1 + x2 = u1u2, u3 = x1/u1u2 ed infine:

x1 = u1u2u3.

32u1 ∈ (0, 2), u2 ∈ (−1, 1); per i limiti di integrazione fare riferimento alla figura.

Inoltre si ha

x2 = u1u2 − x1 = u1u2 − u1u2u3 = u1u2(1− u3)

x3 = u1 − (x1 + x2) = u1 − u1u2 = u1(1− u2).

In virtù delle precedenti relazioni, lo Jacobiano della trasformazione inversa è

∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣

∣∣∣∣∣∣∣

u2u3 u1u3 u1u2

u2(1− u3) u1(1− u3) −u1u2

1− u2 −u1 0

∣∣∣∣∣∣∣

= −u21u2.

Notiamo chefX1X2X3 = exp(−x1) exp(−x2) exp(−x3) = exp[−(x1 + x2 + x3)]

e cheu1 ∈ (0,+∞), u2, u3 ∈ (0, 1). La densità diU è

fU1U2U3(u1, u2, u3) =(u21u2

)× e−u1 =

−u1)u2.

CAPITOLO 6

Caratteristiche numeriche delle

variabili aleatorie

Abbiamo sottolineato in precedenza come la descrizione piùcompleta di una va-

riabile casuale sia rappresentata dalla sua funzione di distribuzione. Infatti essa

indica sia i valori che la variabile casuale può assumere siacon quale probabilità

questi valori occorrono. Dalla funzione di distribuzione,applicando determinate

regole, si calcolano alcuni parametri caratteristici delle variabili aleatorie. Fra que-

ste costanti la più comune è la cosiddettamediao speranza matematicao valore

attesoo valore di aspettazione.

Definizione 6.0.1.SianoX una variabile casuale eg : R → R una funzione

Borel-misurabile; consideriamo la variabile aleatoriag(X).

(i) Supponiamo cheX sia discreta, con spettro a cardinalità numerabile e fun-

zione massapX(xi)i∈N. Se∑∞

i=1 |g(xi)|pX(xi) < +∞, si definisce spe-

ranza matematica dig(X) la quantità

E[g(X)] =

∞∑

g(xi)pX(xi) (6.1)

214 Capitolo 6. Caratteristiche numeriche delle variabilialeatorie

(ii) SeX è assolutamente continua, con densità di probabilitàfX(x), definiamo

speranza matematica dig(X) la quantità

E[g(X)] =

∫ ∞

−∞

g(x)fX(x)dx (6.2)

a patto che∫∞

−∞|g(x)|fX(x)dx < +∞.

In accordo alla precedente definizione possiamo affermare cheE[g(X)] esiste se

risulta E[|g(X)|] < +∞. Nel seguito, specificando opportunamente la legge

g(X), esamineremo alcuni casi di interesse.

6.1 Valore medio

Se g(X) = X, le formule 6.1 e 6.2 consentono il calcolo del valore medio o

momento di ordine 1 della variabile casualeX. In particolare si ha

(iii) per X discreta, se la serie∑

i xipX(xi) è assolutamente convergente, allora

E[X ] ≡ µ =

∞∑

xipX(xi) (6.3)

(iv) perX assolutamente continua

E[X ] =

∫ ∞

−∞

xfX(x)dx (6.4)

a patto che la funzione|x|fX(x) sia integrabile.

Osservazione6.1.1. I termini, valore atteso o valore di aspettazione quali sinoni-

mi di valore medio potrebbero indurre in errore, infatti il valoreµ ≡ E[X ] non

6.1 Valore medio 215

necessariamente coincide con uno dei valori che lav-cX può assumere una vol-

ta eseguito l’esperimento casualeE . Si consideri, ad esempio, l’esperimento del

lancio di un dado; si ha

i · pi = (1 + 2 + 3 + 4 + 5 + 6)1

6= 3.5

che non è tra i risultati possibili.

Osservazione6.1.2. Se conFX denotiamo la funzione di distribuzione della va-

riabile casualeX, i termini media diX e media diFX sono da intendersi come

sinonimi.

Osservazione6.1.3. Il concetto di valore medio può essere messo in relazione al

concetto di baricentro proprio della meccanica. A tale scopo prendiamo in esame

il caso di una distribuzione di probabilità discreta e finitap(xi)i∈[1,n]; imma-

giniamo di disporre lungo una retta, nei punti di coordinatax1, x2, . . . , xn, delle

biglie di massap(x1), p(x2), . . . , p(xn) rispettivamente. La speranza matematica∑

i xi · p(xi) coincide, ricordando che∑

i p(xi) = 1, con il baricentro del sistema

di masse:

∑ni=1 xi ·mi∑n

i=1mi.

Da un punto di vista meccanico possiamo studiare il sistema immaginando che la

massa complessiva, unitaria nel nostro caso, in concentrata nel baricentro: il punto

di ascissaxB. Naturalmente l’analogo meccanico, seX è assolutamente continua,

è ancora valido. In questo caso dobbiamo immaginare di diluire la massa unitaria

sull’asse delle ascisse con una densitàρ(x) uguale alla densità di probabilitàf(x):

∫ +∞

−∞xρ(x)dx

∫ +∞

−∞ρ(x)dx

∫ +∞

−∞xf(x)dx

∫ +∞

−∞f(x)dx

∫ +∞

−∞

xf(x)dx ≡ µ.

Esempio 6.1.1. Variabile casuale del Bernoulli

EssendoP(X = 1) = p eP(X = 0) = 1− p, si ha

E[X ] = 1 · p+ 0 · (1− p) = p (6.5)

sicché il numero atteso di successi in una singola prova del Bernoulli coincide con

la probabilità che la prova dia luogo ad un successo.

Esempio 6.1.2. Variabile casuale binomiale

Ricordando la 4.1 possiamo scrivere

E[X ] =

i · b(i;n, p) =n∑

pi(1− p)n−i =

pi(1− p)n−i

i · n!i! · (n− i)!

pi(1− p)n−i =n∑

(i− 1)! · (n− i)!pi(1− p)n−i

(n− 1)!

(i− 1)! · (n− i)!pi−1(1− p)n−i.

Eseguiamo la trasformazione di variabilek = i − 1. Peri = 1 si hak = 0 e per

i = n risultak = n− 1. Pertanto

(n− 1)!

(i− 1)! · (n− i)!pi−1(1− p)n−i

n−1∑

(n− 1)!

(k + 1− 1)! · (n− k − 1)!pk(1− p)n−k−1

n−1∑

(n− 1

pk(1− p)(n−1)−k =

pk(1− p)m−k = 1

in virtù della condizione di normalizzazione (4.2). In conclusione

E[X ] =

i · b(i;n, p) = np. (6.6)

La media della distribuzione binomiale è uguale al prodottodel numero delle

prove per la probabilitàp di successo.

Esempio 6.1.3. Distribuzione di Poisson

SiaX una variabile casuale di Poisson, si ha

E[X ] =∞∑

i · p(i, λ) =∞∑

i · e−λ · λi

i!= e−λ

∞∑

(i− 1)!

= λ · e−λ∞∑

λi−1

(i− 1)!(ponendoj = i− 1)

= λ · e−λ∞∑

j!= λ · e−λ · eλ = λ (6.7)

ove si è fatto uso dell’identità∑∞

j!= eλ. La (6.7) afferma che il parametroλ

che compare nella (4.10) coincide con il valore medio dellav-cdi Poisson.

Esempio 6.1.4. Variabile casuale geometrica

Ricordando l’espressione analitica (4.12) della densità di probabilità della varia-

bile casuale geometrica e ponendoq = 1− p, possiamo scrivere1

E[X ] =

∞∑

k · f(k; 1, p) =∞∑

k · p · qk = p(q + 2q2 + 3q3 + · · ·

= p · q(1 + 2q + 3q2 + · · ·

)= p · q

∞∑

k · qk−1 = p · q∞∑

= p · q · d

[∞∑

= p · q · d

1− q

= p · q · 1

(1− q)2

=q · pp2

= q/p. (6.8)

1Si ha∑∞

k=0 qk = 1/(1 − q), da cui1 +

∑∞k=1 q

k = 1/(1 − q) ed ancora∑∞

k=1 qk =

1/(1− q)− 1 = q/(1− q).

Il valore diE[X ], espresso dalla (6.8), è il numero medio diinsuccessiche prece-

dono ilprimo successoin una successione di prove del Bernoulli.

Osservazione6.1.4. La speranza matematica della distribuzione geometrica mo-

dificata (4.17) è uguale ad1/p.

Esempio 6.1.5. Distribuzione binomiale negativa

Calcoliamo ora il valore medio di una variabile casualeXr con funzione massa

data dalla distribuzione binomiale negativa

f(k; r, p) =

pr(−q)k k ∈ N0.

Per la definizione data di valore medio, possiamo scrivere

E [Xr] =

∞∑

kf(k; r, p) =

∞∑

kf(k; r, p).

Sviluppiamo il prodottokf(k; r, p); si ha

kf(k; r, p) = k

pr(−q)k = k

p−1pr+1(−q)k−1(−q) (6.9)

ove, per la definizione di coefficiente binomiale,(−r

=(−r)kk!

=(−r)(−r − 1)(−r − 2) · · · (−r − k + 1)

e, quindi,

=(−r)(−r − 1)(−r − 2) · · · (−r − k + 1)

(k − 1)!.

Osserviamo che

(−r − 1)k−1 = (−r − 1) · [(−r − 1)− 1]︸︷︷︸

−r−2

· [(−r − 1)− 2]︸︷︷︸

−r−3

· · · [(−r − 1)− (−k − 1) + 1]︸︷︷︸

−r+k+1

ed allora si ricava

= (−r)(−r − 1)k−1

(k − 1)!= (−r)

(−r − 1

k − 1

= (−r)

(−(r + 1)

k − 1

I risultati precedenti consentono di riscrivere la (6.9) come

kf(k; r, p) = (−r)p−1(−q)

(−(r + 1)

k − 1

pr+1(−q)k−1 =rq

pf(k − 1; r + 1, p)

ed, in conclusione, si ottiene la relazione

E [Xr] =rq

∞∑

f(k − 1; r + 1, p)

︸︷︷︸

= r(q/p). (6.10)

Per convincersi della validità della precedente relazionesi ponga2 r + 1 = l e

j = k − 1, si ha∞∑

f(k − 1; r + 1, p) =

∞∑

f(j; l, p) ≡ 1.

Esempio 6.1.6. Distribuzione ipergeometrica

SiaX unav-ccon densità di probabilità ipergeometrica, calcoliamo

E[X ] =∞∑

n− k

(a + b

·∞∑

n− k

. (6.11)

La serie che compare nella definizione del valore medio (6.11) è solo apparen-

temente una serie infinita in quanto i coefficienti binomiali,

n− k

annullano perk > a e n − k > b, rispettivamente. nel seguito continueremo a

2Si rammenti cher è un intero positivo.

considerarla come tale per esigenze formali. Calcoliamo lasomma della serie a

secondo membro; per la (2.15) si ha

∞∑

n− k

∞∑

(a− 1

k − 1

n− k

∞∑

(a− 1

n− 1− l

(a+ b− 1

n− 1

ove si è fatto uso del cambiamento di variabilel = k − 1 e dell’identità ipergeo-

metrica (2.20). Infine, ritornando alla (6.11), possiamo porre

E[X ] =

(a + b

·∞∑

n− k

(a+ b− 1

n− 1

(a + b

= a · (a+ b− 1)!

(a+ b)!· n! · (a + b− n)!

(n− 1)! · (a+ b− n)!= an(a+ b)−1. (6.12)

Esempio 6.1.7. Densità di probabilità di Cauchy

La funzione

f(x) =[π(1 + x2

)]−1x ∈ R (6.13)

è denominata densità di probabilità diCauchy, Essa è non negativa∀x ∈ R ed

inoltre∫ +∞

−∞

f(x)dx =1

∫ +∞

−∞

1 + x2dx =

π· arctan |+∞

−∞ =1

π·(π

La densità di Cauchy non ammette valore medio, infatti

∫ +∞

−∞

|x|1 + x2

dx = 2

∫ +∞

1 + x2dx = 2 · 1

2· ln

(1 + x2

)∣∣+∞

0= +∞.

Esempio 6.1.8. Speranza matematica di una variabile casuale esponenziale

Ricordando la definizione di densità di probabilità esponenziale a parametroγ, il

valore atteso diX è

E[X ] =

∫ +∞

xγe−γxdx =1

γ. (6.14)

Infatti, integrando per parti3 si ha

∫ +∞

xγe−γxdx = −x e−γx∣∣+∞

∫ +∞

e−γxdx

= 0− 1

γ· e−γx

∣∣+∞

0= −1

γ· (0− 1) = 1/γ.

Il precedente risultato dimostra che la speranza matematica di un variabile casuale

esponenziale coincide con il reciproco del parametro che caratterizza la funzione

di distribuzione.

Nell’ipotesi che il tempo di attesa per effettuare un’operazione presso uno spor-

tello bancario sia una variabile casuale esponenzialeT con mediaµ = 6 minuti,

calcoliamo la probabilità che un cliente attenda più dieci minuti. Essendoγ = 1/6

e utilizzando la relazione (5.28), si ha

P(T > 10) = 1− P(T 6 10) = exp

6· 10)

≈ 0.19 .

Inoltre la probabilià che il cliente attenda dieci minuti per essere servito, sapendo

che ne ha già atteso quattro, è, per la (5.30),

P(T > 4 + 6|T > 4) = exp

6· 6)

= e−1 ≈ 0.37 .

Esempio 6.1.9. Speranza matematica di una variabile casuale uniforme

Sia X un v-a con densità di probabilità uniforme nell’intervallo dell’asse reale

3Si ha∫u(x)v′(x)dx = u(x)v(x) −

∫u′(x)v(x)dx oveu(x) = x e v(x) = − exp(−γx);

inoltre risultad

dx[− exp(−γx)] = +γ exp(−γx)

[a, b]; la funzionef(x) è così definita:f(x) = (b − a)−1, se0 6 a 6 x 6 b,

f(x) = 0 altrove. Si ha

E[X ] =

b− adx =

b− a

xdx =1

b− a· x

∣∣∣∣

b− a· 12·(b2 − a2

2. (6.15)

Osservazione6.1.5. Se si poneg(x) = |x|, E[|X|] prende il nome dimomento

assolutodella variabile casualeX. Possiamo, allora, affermare cheX, discreta o

assolutamente continua, ammette un valore medio se esiste il momento assoluto

E[|X|].Teorema 6.1.1.SeX ammette una mediaE[X ], allora, ∀a, b ∈ R,

E[aX + b] = aE[X ] + b. (6.16)

Dimostrazione.Dobbiamo innanzitutto dimostrare cheE[|aX + b|] < +∞. A

tale scopo, dalla disuguaglianza triangolare4 e dalla non negatività dif(x), segue

E[|aX + b|] ≡∫ +∞

−∞

|ax+ b|f(x)dx

∫ +∞

−∞

|ax|f(x)dx︸︷︷︸

E[|aX|]

∫ +∞

−∞

|b|f(x)dx︸︷︷︸

E[|b|]

= |a|E[|X|] + |b| < +∞.

La precedente relazione assicura cheg(X) = aX + b ammette una media finita,

in particolare

E[aX + b] =

∫ +∞

−∞

(ax+ b)f(x)dx

∫ +∞

−∞

xf(x)dx+ b

∫ +∞

−∞

f(x)dx = aE[X ] + b.

La dimostrazione è del tutto analoga nel caso discreto4|a+ b| 6 |a|+ |b|

6.2 Momenti di ordine superiore 223

Proposizione 6.1.1.SeX è una variabile casuale che assume solamente valo-

ri non negativi, per ogni numero realea sussiste la seguentedisuguaglianza di

Markov:

P(X > a) 6 µX/a. (6.17)

Per la verifica della (6.17) limitiamoci a considerare il caso di X assolutamente

continua con funzione densità di probabilitàfX(x).

∫ +∞

xfX(x)dx =

xfX(x)dx+

∫ +∞

xfX(x)dx

∫ +∞

xfX(x)dx >

∫ +∞

afX(x)dx = a

∫ +∞

fX(x)dx = aP(X > a)

e la validità della disuguaglianza di Markov è stata dimostrata.

6.2 Momenti di ordine superiore

Ponendo nella 6.1 e nella 6.2g(x) = xk, conk ∈ N0, si definiscono i cosiddetti

momenti di ordinek

µk ≡ E[Xk]=∑

xki pX(xi) (seX è discreta) (6.18a)

µk ≡ E[Xk]=

∫ ∞

−∞

xkfX(x)dx (seX è assolutamente continua) (6.18b)

sempre assumendo che risultino verificate le condizioni∑ |g(x)|pX(xi) < +∞

e∫ +∞

−∞|g(x)|fX(x)dx < +∞, rispettivamente. I momentiµk sono spesso deno-

minati momentiintorno all’origine. Sek = 0 si haµ0 = 1 che esprime sem-

plicemente la condizione di normalizzazione; nel caso in cui k = 1 si ricade nel

caso prima esaminato del momento di ordine 1 o del valore medio. Il momento di

ordine 2,µ2 = E [X2], prende il nome di media quadratica dellav-aX.

La definizione deimomenti assoluti di ordinek, E[|X|k

], è del tutto analoga a

quelle precedentemente date∑

|xi|kpX(xi)

∫ ∞

−∞

|x|kfX(x)dx

per distribuzioni di probabilità discrete e continue, rispettivamente.

Osservazione6.2.1. Poiché∣∣xk∣∣ = |x|k, l’esistenza del momento assoluto di

ordinek implica l’esistenza diµk.

Applicando le relazioni menzionate nella definizione 6.0.1cong(x − µ), si defi-

nisconomomenti centrali di ordinek:

k = E[(X − µ)k

]k ∈ N0. (6.19)

Corollario 6.2.1. SeX è dotata di media finita alloraµ′

1 ≡ E[(X − µ)] = 0.

Dimostrazione.La dimostrazione segue dal teorema 6.1.1 se si assumea = 1 e

b = −E[X ].

Teorema 6.2.1.Seµn < +∞, esistono allora finiti tutti i momentiµm, ∀m < n.

Dimostrazione.Per dimostrare la tesi è sufficiente dimostrare che seµr < +∞ancheµr−1 < +∞. Si rammenti cheµr−1 esiste finito se la funzionexr−1fX(x) è

assolutamente integrabile (o sommabile). Possiamo scrivere∫ ∞

−∞

|x|r−1fX(x)dx =

|x|r−1fX(x)dx+

|x|r−1fX(x)dx

∫ +∞

−∞

fX(x)dx+

|x|r−1fX(x)dx = 1 +

|x|r−1fX(x)dx.

La condizione|x| > 1 implica che|x|r−1 < |x|r, pertanto∫ ∞

−∞

|x|r−1fX(x)dx < 1 +

|x|rfX(x)dx < 1 +

∫ ∞

−∞

|x|rfX(x)dx < +∞

e la tesi è stata verificata perX assolutamente continua. La dimostrazione, nel

caso discreto, è analoga.

6.2.1 La varianza di una variabile casuale

Per introdurre il concetto di varianza è utile fare riferimento al modello meccanico

che ha consentito di mettere in relazione il valore di aspettazione con il baricentro

di un sistema lineare di masse. La conoscenza della posizione del centro di gravità

non dà alcuna informazione circa ladispersionedelle masse intorno ad esso. In

meccanica tale informazione è insita nelmomento di inerziaI. Indicando consjla distanza della massamj dal baricentro del sistema (lineare) di masse, si ha

I =∑

mj · s2j .

Nel caso che la distribuzione della massa unitaria sia continua, con densitàρ(s),

la precedente definizione assume la forma5

∫ +∞

−∞

s2ρ(s)ds.

Tornando alla nostra variabile casualeX, il valoreµ è una misura della tendenza

centrale della densità di probabilitàfX(x), seX è assolutamente continua, o, nel

caso discreto, della distribuzionepX(xi). Qual è il parametro che può svolgere

lo stesso ruolo del momento d’inerzia e, quindi, consentireuna valutazione quan-

titativa della dispersione intorno al valore medio dei valori assunti dalla variabile

casuale? Poichè la media delle deviazioniX − µ è nulla (vedi il corollario 6.2.1),

è chiaro che non possiamo usareE[X − µ] come una misura di dispersione. Una

possibiltà potrebbe essere rappresentata dalla speranza matematica di|X−µ|, ma

i calcoli matematici che coinvolgono i valori assoluti non sono sempre agevoli.

Una ulteriore alternativa consiste nel considerare lav-c (X − µ)2.

5In questo caso, invece delle masse discretemj , dobbiamo considerare le massa distribuita

nell’intervallinods: dm = ρ(s)ds.

Definizione 6.2.1.SiaX una variabile casuale tale cheE [X2] < +∞, la varianza

di X è definita come il momento centrale di ordine 2

σ2X ≡ E

[(X − µ)2

]. (6.20)

La radice quadrataσX è denominatadeviazione standarddi X. Unav-c dotata di

varianza finita ènon degenere.

In particolare, seX è di tipo discreto si haσ2X =

(xj − µ)2 pX(xi); seX è

assolutamente continua, la varianza è data daσ2X =

∫ +∞

−∞

(x− µ)2f(x)dx.

Vale la seguente importante relazione:

σ2X ≡ E

[(X − µ)2

[X2 − 2µX + µ2

= E[X2]− 2µE[X ] + µ2 = E

[X2]− µ2. (6.21)

Osservazione6.2.2. Se lav-cX assume valori prossimi alla speranza matematica

µ, il valore diσ2X = E [(X − µ)2] sarà piccolo, viceversa accade seX tende ad

assumere valori molto diversi dalla media. La varianza è il valore atteso della

variabile casuale scarto quadratico rispetto alla media.

Osservazione6.2.3. Siac un numero reale, si ha

E[(X − c)2

[(X − µ− c+ µ)2

= E[(X − µ)2

]− 2(c− µ)E[X − µ] + (c− µ)2 = σ2

X + (c− µ)2.

Dalla precedente relazione segue cheE [(X − c)2] assume il valore minimo se si

ponec = µ.

Proposizione 6.2.1.Moltiplicando la variabile casualeX per un costante realea

si produce il seguente effetto sulla varianza:

σ2aX = a2σ2

X . (6.22)

Infatti si ha

σ2aX = E

[(aX)2

]− E[aX ]2 = a2E

[X2]− (aE[X ])2

= a2E[X2]− a2(E[X ])2 = a2

E[X2]− (E[X ])2

= a2σ2

Proposizione 6.2.2.La varianza non cambia se si somma una costante alla va-

riabile casuale:

σ2X+a = σ2

X . (6.23)

Infatti

σ2X+a = E

[(X + a)2

]− E[X + a]2

= E[X2]+ 2aE[X ] + a2 − E[X ] + a2

= E[X2]+ 2aE[X ] + a2 − (E[X ])2 − 2aE[X ]− a2

= E[X2]− (E[X ])2 ≡ σ2

e la (6.23) è stata verificata.

Teorema 6.2.2.Una variabile casuale X a valore medioµ < +∞ e varianza

nulla assume il valoreµ con probabilità 1:

P(|X − µ| > ε) = 0 ∀ε > 0 .

Dimostrazione.Supponiamo per assurdo che la tesi non sia vera, ossia esisteun

valore di ε positivo per il quale si haP(|X − µ| > ε) > 0. Dovrebbe allora

risultare, in contraddizione con l’ipotesi posta,σ2 > 0, infatti

∫ +∞

−∞

(x− µ)2f(x)dx

|x−µ|>ε

(x− µ)2f(x)dx+

|x−µ|6ε

(x− µ)2f(x)dx

|x−µ|>ε

(x− µ)2f(x)dx > ε2P(|X − µ| > ε) > 0 .

Quindi,∀ε > 0, deve essere verificata la relazioneP(|X − µ| > ε) = 0 che, per

l’arbitrarietà diε, implica cheX assume il valoreµ con probailità 1.

Definizione 6.2.2.SeX è una variabile aleatoria di valore medioµ finito e va-

rianzaσ2 finita e non nulla, lav-a

Y =X − µ

è lanormalizzatao standardizzatadi X.

La definizione si giustifica osservando cheµY = 0 eσY = 1.

Esempio 6.2.1. Distribuzione binomiale

Prima di procedere al calcolo della varianza della distribuzione binomiale, ricor-

diamo che, dato un numero naturale arbitrion, una utile applicazione del coeffi-

ciente binomiale è il calcolo della potenza(x+ y)n. Infatti in algebra si dimostra

la formula

(x+ y)n =n∑

xkyn−k. (6.24)

Derivando ambo i membri della 6.24 rispetto adx, otteniamo

n(x+ y)n−1 =n∑

xk−1yn−k (6.25a)

n(n− 1)(x+ y)n−2 =n∑

k(k − 1)

xk−2yn−k (6.25b)

n(n− 1)(n− 2)(x+ y)n−3 =

k(k − 1)(k − 2)

xk−3yn−k (6.25c)

e così via. Se sostituiamox conp edy conq = 1− p, abbiamo

n =n∑

pk−1qn−k (6.26a)

n(n− 1) =n∑

k(k − 1)

pk−2qn−k (6.26b)

n(n− 1)(n− 2) =n∑

k(k − 1)(k − 2)

pk−3qn−k (6.26c)

Dalla (6.26a) segue il risultato già dimostrato che la mediadi una variabile casuale

binomiale è data dal prodottonp. Le altre due formule sono utili per il calcolo

della varianza; infatti quest’ultima si può scrivere come

σ2 = E[X2]− (E[X ])2 = E[X(X − 1)] + E[X ]− (E[X ])2. (6.27)

CalcoliamoE[X(X − 1)], si ha6

E[X(X − 1)] =

k(k − 1)b(k;n, p) =

k(k − 1)

pkqn−k

= p2n∑

k(k − 1)

pk−2qn−k = n(n− 1)p2. (6.28)

In conclusione vale la formula:

σ2 = n(n− 1)p2 + np− (np)2 = np(1− p). (6.29)

Indicando conX/n la percentuali di successi inn prove del Bernoulli, dalle

precedenti relazioni si ricavano le seguenti formule

µXn= p (6.30a)

=p(1− p)

n(6.30b)

che consentono il calcolo della media e della varianza diX/n.

6La variabile casualeX assume valori sull’insieme dei numeri naturali:k = 0, 1, 2, . . . .

Esempio 6.2.2. Distribuzione di Poisson

Per calcolare la varianza della distribuzione di Poisson partiamo dalla relazione

(6.27) che è valida per ogni variabile casuale; nel caso diX v-c di Poisson si ha

σ2 = E[X(X − 1)] + λ− λ2. Per calcolareE[X(X − 1)] osserviamo che risulta

eλ =∞∑

e, calcolando la derivata prima e seconda rispetto aλ, ricaviamo

∞∑

kλk−1

k!e eλ =

∞∑

k(k − 1)λk−2

PoichéE[X(X − 1)] =

∞∑

k(k − 1)λk

k!e−λ = e−λλ2

∞∑

k(k − 1)λk−2

k!= λ2,

otteniamo

σ2 = λ2 + λ− λ2 = λ. (6.31)

Nel caso della distribuzione di Poisson valore atteso e varianza coincidono!

Esempio 6.2.3. Distribuzione ipergeometrica

Nel calcolare la speranza matematica della distribuzione ipergeometrica abbiamo

fatto uso della identità

n− k

(a+ b− 1

n− 1

. (6.32)

In maniera analoga si perviene alla identità

k(k − 1)

n− k

= a(a− 1)

(a+ b− 2

n− 2

. (6.33)

Infatti spossiamo scrivere

k(k − 1)

n− k

a(a− 1)

(a− 2

k − 2

n− k

= a(a− 1)

(a− 2

n− 2− l

= a(a− 1)

(a+ b− 2

n− 2

ove l’ultimo passaggio si giustifica ricordando l’identitàipergeometrica (2.20). La

media della distribuzione ipergeometrica è uguale aan(a + b)−1, pertanto

σ2 = E[X(X − 1)] +a · na + b

−(a · na+ b

Inoltre si ha

E[X(X − 1)] =n∑

k(k − 1)

[(a + b

)−1(a

n− k

(a + b

)−1 n∑

k(k − 1)

n− k

a(a− 1)

(a+ b− 2

n− 2

) =[a(a− 1)][n(n− 1)]

(a+ b)(a + b− 1)

ed in conclusione, ponendoN = a + b per semplificare la notazione, si perviene

alla formula

σ2 =[a(a− 1)][n(n− 1)]

N(N − 1)+

a · nN

−(a · n

=a · nN

[(a− 1)(n− 1)

N − 1+ 1− a · n

=a · nN

[(a− 1)(n− 1)

N − 1+

N − an

= n · a

N· N − a

N· N − n

N − 1= n

)(a + b− n

a+ b− 1

. (6.34)

Esempio 6.2.4. Distribuzione geometrica

Per il calcolo della varianza della distribuzione geometrica è ricordare alcuni ri-

sultati riguardanti la serie geometrica∑∞

k=0 rk. Per0 < |r| < 1 si ha

∞∑

rk = (1− r)−1. (6.35)

Derivando la (6.35) rispetto adr, otteniamo

[∞∑

≡∞∑

krk−1 = (1− r)−2 (6.36)

e, derivando ancora una volta,

[∞∑

≡∞∑

k(k − 1)rk−2 = 2(1− r)−3. (6.37)

In effetti la (6.36) è già stata utilizzata nel calcolo dellasperanza matematica della

distribuzione geometrica. CalcoliamoE[X(X − 1)],

E[X(X − 1)] =∞∑

k(k − 1)pqk = pq2∞∑

k(k − 1)rk−2

= pq22

(1− q)3= pq2

(p)3= 2q2p−2.

In conclusione si ottiene

σ2 =2q2

p− q2

2q2 + qp− q2

q2 + qp

p2= qp−2. (6.38)

Osservazione6.2.4. La varianza della distribuzione geometrica modificata coinci-

de con la varianza della distribuzione geometrica.

Esempio 6.2.5. Distribuzione binomiale negativa

Come primo passo determiniamoE[X(X − 1)]. Si noti che

k(k − 1)f(k : r, p) = k(k − 1)

p−2pr+2(−q)−2(−q)k−2

p2k(k − 1)

pr+2(−q)k−2

k(k − 1)

= (−r)(−r − 1)

(−(r + 2)

k − 2

= r(r + 1)

(−(r + 2)

k − 2

E[X(X − 1)] =∞∑

k(k − 1)

p2r(r + 1)

∞∑

(−(r + 2)

k − 2

pr+2(−q)k−2 =q2

p2r(r + 1).

Infatti risulta∞∑

(−(r + 2)

k − 2

pr+2(−q)k−2 =∞∑

pl(−q)j = 1 .

In conclusione otteniamo

σ2 =q2

p2r(r + 1) +

p− q2r2

=q2r2 + q2r + qrp− q2r2

p2(q + p) = r(q/p−2). (6.39)

Esempio 6.2.6. Distribuzione uniforme in[a, b]

Ricordiamo cheE[X ] = 1/(b− a), inoltre vale la relazione7

E[X2]]=

(b− a)

x2dx =1

(b− a)

∣∣∣∣

=b3 − a3

3(b− a)=

b2 + ab+ a2

7Si tenga presente la formula:an − bn = (a− b)(an−1 + an−2b+ · · ·+ abn−2 + bn−1

I precedenti risultati danno luogo alla formula:

σ2 = E[X2]− (E[X ])2 =b2 + ab+ a2

3−(a + b

=(b− a)2

12. (6.40)

Esempio 6.2.7. Distribuzione esponenziale

Come abbiamo dimostrato in precedenza la media della variabile casuale espo-

nenziale èµX = 1/γ; per applicare la formulaσ2 = E [X2]] − µ2 è necessario il

calcolo del momento di ordine 2, µ2. Posto, perx > 0, fX(x) = γe−γx, si ha

∫ +∞

x2γ exp(−γx)dx

= −γx2 1

γexp(−γx)

∣∣∣∣

−∫ +∞

γexp(−γx)

= −x2 exp(−γx)∣∣+∞

∫ +∞

xγ exp(−γx)dx

︸︷︷︸

e da quest’ultima segue:

σ2X =

γ2− 1

γ2= 1/γ2. (6.41)

Esempio 6.2.8. Legge di Pareto

La funzione densità di probabilità diParetotrova applicazione soprattutto in cam-

po economico in quanto essa viene utilizzata nelle problematiche connesse alla

ottimizzazione delle risorse. È caratterizzata da due parametri, entrambi positivi,

uno di forma, che denotiamo conα, ed uno di posizione,β. Quest’ultimo determi-

na il valore minimo che la variabile casuale di Pareto può assumere (vedi il grafico

in figura 6.1). La legge di Pareto ha l’espressione analitica

fX(x) =αβα

xα+1sex > β (6.42)

Figura 6.1: Funzione di densità di Pareto.

e si assumefX(x) = 0, se x < β. La funzione di distribuzione si ottiene

integrando la funzione densità traβ ex ∈ (β,+∞):

FX(x) = αβα

ξ−(α+1)dξ = αβα · − 1

αξ−α

∣∣∣∣

= −βα · 1

∣∣∣∣

= −βα

xα− 1

= 1− (β/x)α. (6.43)

La funzione (6.42) verifica la condizione di normalizzazione:

∫ +∞

αβα

xα+1dx = αβα

∫ +∞

x−(α+1)dx

= αβα · − 1

αx−α

∣∣∣∣

= −βα · 1

∣∣∣∣

= −βα

0− 1

Calcoliamo ora la media e la varianza dellav-cdi Pareto. Abbiamo

∫ +∞

xαβα

xα+1dx = αβα

∫ +∞

x−αdx = αβα · x1−α

1− a

∣∣∣∣

=αβα

1− a· 1

xα−1

∣∣∣∣

=αβα

1− a

0− 1

βα−1

α− 1(6.44)

e, pertanto, il parametro di forma deve soddisfare il vincolo α > 1 affinché la

speranza matematica sia definita positiva. Il momento di ordine 2 è dato da

µ2 = αβα

∫ +∞

xα+1dx = αβα

∫ +∞

x1−αdx = αβα · 1

2− αx2−α

∣∣∣∣

= αβα · 1

2− α

xα−2

∣∣∣∣

= αβα · 1

2− α

0− 1

βα−2

− αβα

2− α· 1

βα−2=

α− 2. (6.45)

Dalle precedenti relazioni si ricava

σ2 = µ2 − µ21 =

α− 2−(

α− 1

=αβ2

α− 2− α2β2

(α− 1)2

=αβ2(α− 1)2 − α2β2(α− 2)

(α− 2)(α− 1)2

=α3β2 + αβ2 − 2α2β2 − α3β2 + 2α2β2

(α− 2)(α− 1)2=

(α− 2)(α− 1)2(6.46)

e quindi deve essereα > 2 affinché il valore della varianza sia positivo.

6.2.2 La disuguaglianza di Tchebycheff e il teorema di Ber-

noulli

Come abbiamo sottolineato nell’osservazione 6.2.2, la varianza è una misura del-

la dispersione dellav-a X intorno al suo valore medioµ. La disuguaglianza di

Tchebycheff dà un significato quantitativo alla precedenteconsiderazione.

Teorema 6.2.3(Disuguaglianza di Tchebycheff). Per ogni variabile aleatoria

X con varianza finitaσ2 vale la seguente disuguaglianza

P(|X − µ| > ε) 6σ2

ε2∀ε > 0 . (6.47)

Dimostrazione.Si ha

∫ +∞

−∞

(x− µ)2 fX(x)dx

|x−µ|<ε

(x− µ)2 fX(x)dx+

|x−µ|>ε

(x− µ)2 fX(x)dx

|x−µ|>ε

(x− µ)2 fX(x)dx >

|x−µ|>ε

ε2fX(x)dx

= ε2 · P(|X − µ| > ε)

ed, essendoε > 0, si deduce la (6.47). Nel caso discreto la dimostrazione è

simile.

Osservazione6.2.5. La seguente è una formulazione equivalente della (6.47):

P(|X − µ| < ε) > 1− σ2

ε2∀ε > 0 . (6.48)

Corollario 6.2.2. Le seguenti disuguaglianze equivalenti

P(|X − µ| > kσ) 61

k2(6.49a)

P(|X − µ| < kσ) > 1− 1

k2(6.49b)

sono verificate comunque si scelga un interok > 1.

Dimostrazione.La dimostrazione si ricava ponendo nella (6.47)ε = kσ.

Esempio 6.2.9.Fissatiσ eµ, si ha

P(|X − µ| > 5σ) 61

25= 0.04

P(|X − µ| > 10σ) 61

100= 0.01 .

Osservazione6.2.6. La disuguaglianza di Tchebycheff, nonostante l’eleganza for-

male e la generale validità, non deve essere considerata come un affidabile me-

todo di stima; infatti, in molti casi particolari, il secondo membro dalla (6.49a)

sovrastimaP(|X − µ| > kσ).

La disuguaglianza di Tchebycheff consente di dimostrare molto semplicemente

il cosiddettoteorema di Bernoullio legge dei grandi numeri. Si noti che James

Bernoulli pubblicò il risultato nel suo celebre testoArs Conjecturandiedito nel

1713 e Tchebycheff, uno dei fondatori della scuola matematica russa, visse in

pieno XIX secolo.

Teorema 6.2.4(Teorema di Bernoulli). SiaA un evento ep la sua probablità

di occorrenza; indichiamo conYn la frequenza con cui esso si verifica inn prove

ripetute indipendenti. Si ha

limn→∞

P (|Yn − p| < ε) = 1 ∀ε > 0 . (6.50)

Dimostrazione.SiaSn la v-c che conta il numero di successi, il verificarsi diA,

nellen prove indipendenti.Sn è una variabile casuale binomiale con medianp e

varianzanp(1 − p). TraSn edYn sussiste la relazioneYn = Sn/n. PertantoYn

è essa stessa una variabile casuale binomiale, infattiP

= P (Sn = k).

Si ha, quindi,µYn=

n·µSn

= p eσ2Yn

n2·σ2

p(1− p)

n. La disuguaglianza

(6.47) fornisce la relazione

P (|Yn − p| < ε) > 1− σ2Yn

ε2= 1− p(1− p)

6.3 Ulteriori misure di tendenza centrale e dispersione 239

e, passando al limite pern → ∞, si giustifica la tesi.

6.3 Ulteriori misure di tendenza centrale e disper-

Nel definire i momenti abbiamo sottolineato che in alcuni casi essi possono non

esistere, una tale evenienza è particolarmente rilevante se riguarda la media e la va-

rianza. In questo paragrafo saranno definiti alcuni parametri di tendenza centrale

e di dispersione che esistono sempre.

Definizione 6.3.1.SiaX unav-c assolutamente continua con funzione di distri-

buzioneFX(x), sia, inoltre,α un numero reale in(0, 1). Il quantile di ordineα di

FX(x) è il particolare valoreξα di X tale che

P (X 6 ξα) ≡ FX (ξα) = α. (6.51)

L’area sottesa dalla densità di probabilitàfX(x) a sinistra diξα èα, quella a destra

è1− α. Il quantile di ordineα è anche denominato100× α-esimo percentile; ad

esempio, assumendoα = 0.3, ξ0.3 è il quantile di ordine 0.3 o 30-esimo percentile.

Di particolare interesse è il 50-esimo percentileξ0.5, chiamato anchemedianadi

X. Si ha

P (X < ξ0.5) = P (X > ξ0.5) = 1/2.

Per questo motivo la mediana è utilizzata in luogo della media µX per indicare

la posizione delcentrodi una distribuzione continua. Se la funzione densità di

probabilitàfX(x) ha un centro di simmetria, la mediana e la media, se quest’ultima

esiste, coincidono. InoltrefX(x) è simmetrica rispetto all’asse verticale di ascissa

µ ≡ ξ0.5.

Osservazione6.3.1. SeX è di tipo discreto, essendoFX(x) una funzione a gra-

dino, i quantili potrebbero essere non ben definiti, nel senso che potrebbe non

esistere un valoreξα di X che verifichi la (6.51); in tal caso si calcola un valore

approssimato diξα.

Una ulteriore misura di tendenza centrale è ilvalore modaleo moda. La mo-

da di una variabile casuale, o di una funzione di distribuzione, è il valore diX

più probabile, ovvero è il valoreξM tale chemaxx∈R fX(x) = fX(ξM), seX

è assolutamente continua; nel caso discreto la moda è il valore ξM per il quale

maxx∈SXP(X = x) = P(X = ξM).

La differenzaξ0.75 − ξ0.25 è spesso usata come una misura di dispersione;ξ0.25 è il

cosiddettoprimo quartilee ξ0.75 è il terzo quartile.

Esempio 6.3.1.Determiniamo la mediana della distribuzione di Pareto. Ricor-

dando la (6.43), possiamo scrivere1− (β/ξ0.5)α = 0.5 e

ed infineξ0.5 = 21/αβ.

6.3.1 Valori caratteristici di forma

Come si deduce dagli esempi finora trattati, sia le funzioni densità di probabilità

che le distribuzioni di probabilità possono avere forme assai diverse. È eviden-

temente impossibile caratterizzare la forma di una curva con un solo indice, nel

seguito daremo la definizione di due di questi, i più importanti. Si noti che essi

sono numeri adimensionali.

Definizione 6.3.2.Sia X una variabile casuale dotata di mediaµ e deviazione

standardσ, si definiscecoefficiente di asimmetria, o skewness, il momento di

6.3 Ulteriori misure di tendenza centrale e dispersione 241

ordine 3 della variabile casuale normalizzata:

γ1 = E

[(X − µ

=E [(X − µ)3]

σ3≡(

)−3/2

· µ′

3. (6.52)

A sua volta la relazione

γ2 = E

[(X − µ

− 3 =E [(X − µ)4]

σ4− 3 ≡ µ

)2 − 3 (6.53)

definisce ilcoefficiente di piccatezzao di eccessoo di kurtosis.

Nel caso in cui la densità di probabilità sia simmetrica, risultaγ1 = 0; un valore di

γ1 negativo si riscontra nel caso in cuifX(x) abbia una coda a sinistra, al contrario

si haγ1 > 0 se la funzionefX(x) presenta una coda a destra.

Il significato del coefficiente di piccatezza sarà discusso nel seguito dopo aver

introdotto la legge di Gauss.

CAPITOLO 7

Momenti di variabili casuali

multidimensionali

7.1 Momenti congiunti

Il concetto di speranza matematica, introdotto nel capitolo 6, si generalizza consi-

derandon variabili casualiX1, . . . , Xn definite su uno stesso spazio di probabilità

Ω,F ,P e con densità di probabilità congiuntaf (x1, . . . , xn). Per i nostri scopi

ci limiteremo a trattarein extensoil caso due variabili aleatorie.

Definizione 7.1.1.SianoX edY due variabili aleatorie e sia, inoltreh : R2 −→ R

una funzione Borel-misurabile; consideriamo la variabilecasualeh(X, Y ).

(a) X,Y assolutamente continue

Se assolutamente convergente, si definisce valore atteso dih(X, Y ) l’inte-

E[h(X, Y )] =

∫ +∞

−∞

∫ +∞

−∞

h(x, y)f(x, y)dxdy (7.1)

ovef(x, y) è la densità di probabilità congiunta diX eY .

244 Capitolo 7. Momenti di variabili casuali multidimensionali

(b) X,Y di tipo discreto

Se è verificata la condizione∑

yj|h (xi, yj)| p (xi, yj) < +∞, si defi-

nisce valore atteso dih(X, Y ) la serie

E[h(X, Y )] =∑

h (xi, yj) p (xi, yj) (7.2)

ovep (xi, yj) è la distribuzione di probabilità congiunta diX eY .

Proposizione 7.1.1.L’operatoreE è lineare.

Abbiamo già visto che, seX è dotata di valore medio risultaE[cX ] = cE[X ] per

ogni numero realec. Per completare la dimostrazione della linearità diE, resta da

verificare cheE[X + Y ] = E[X ] +E[Y ] se entrambe le variabili hanno speranza

matematica finita. Nel caso discreto si ha

E[X + Y ] =∑

(xi + yj) p (xi, yj)

p (xi, yj) +∑

p (xi, yj)

xip (xi) +∑

yjp (yi) = E[X ] + E[Y ].

Se le variabili casuali sono assolutamente continue otteniamo

E[X + Y ] =

∫ +∞

−∞

∫ +∞

−∞

(x+ y)f(x, y)dxdy

∫ +∞

−∞

[∫ +∞

−∞

f(x, y)dy

∫ +∞

−∞

[∫ +∞

−∞

f(x, y)dx

∫ +∞

−∞

xf(x)dx+

∫ +∞

−∞

yf(y)dy = E[X ] + E[Y ].

7.1 Momenti congiunti 245

I calcoli precedenti si estendono al caso della somma din variabili casuali con

media finita; in generale vale la relazione

E [Xk] . (7.3)

Esempio 7.1.1.In precedenza abbiamo calcolato il valore atteso,µSn= np, della

variabile casualeSn, numero di successi inn prove del Bernoulli con probabilità

di successop. Osservando cheSn è la somma,Sn = X1 + X2 + · · · + Xn di n

variabile casuali del Bernoulli, ciascuna con mediap, dalla (7.3) si ricava, senza

effettuare laboriosi calcoli,µSn= np.

Definizione 7.1.2.Sianor eds interi fissati.

(i) X,Y assolutamente continue

Se assolutamente convergente, l’integrale

µrs ≡ E [XrY s] =

∫ +∞

−∞

∫ +∞

−∞

xrysf(x, y)dxdy (7.4)

definisce ilmomento prodottodi ordiner, s delle variabili casualiX eY .

(ii) X,Y di tipo discreto

Se è verificata la condizione∑

yj|xryy| p (xi, yj) < +∞, la serie

µrs ≡ E [XrY s] =∑

sjp (xi, yj) (7.5)

definisce momento prodotto di ordiner, s delle variabili casualiX eY

Il caso r = s = 1 è particolarmente interessante; se le variabili casuali sono

continue si ha

E[XY ] =

∫ +∞

−∞

∫ +∞

−∞

xyf(x, y)dxdy

E[XY ] =∑

xiyjp (xi, yj)

nel caso di variabili casuali discrete. SeX ed Y sono indipendenti, essendo

f(x, y) = fX(x) · fY (y) o, p (xi, yj) = pX (xi) · pY (yj), risulta

E[XY ] = E[X ] · E[Y ]. (7.6)

Osservazione7.1.1. Il verificarsi della (7.6)non implical’indipendenza delle va-

riabili aleatorie.

Osservazione7.1.2. La (7.6) è valida anche nel caso din variabili aleatorie indi-

pendenti, si ha

E [Xk] . (7.7)

SeX e Y sono dotate di valori medi finiti, la definizione 7.1.2, applicata alla

funzioneh(X − Y ) = (X − µX)r (Y − µY )

s, dà luogo al cosiddettomomento

centrale prodottodi ordiner, s

rs ≡ E [(X − µX)r (Y − µY )

s] . (7.8)

7.1.1 Covarianza e correlazione

Ponendo nella (7.8)r = s = 1, si definisce lacovarianza, µ′

11, delle variabili

aleatorieX eY :

11 ≡ CXY = E [(X − µX) (Y − µY )] . (7.9)

Per la definizione data risultaCXY = CY X . Sviluppando il prodotto nella 7.9 e

ricordando che l’operatoreE è lineare, otteniamo

CXY = E [(X − µX) (Y − µY )] = E [XY −XµY − µXY + µXµY ]

= E[XY ]− µXµY − µXµY + µXµY = E[XY ]− µXµY . (7.10)

7.1 Momenti congiunti 247

SeX e Y sonov-a indipendenti, la (7.10) e la (7.6) implicano che esse hanno

covarianza nulla; inoltre, seX = Y , dalla (7.10) si deduce che

CXX = E[X2]− µ2X ≡ σ2

X . (7.11)

Proposizione 7.1.2.SianoX e Y variabili casuali congiuntamente distribuite,

comunque si fissano i numeri realia, b, c ed, si ha

CaX+b,cY+d = acCXY . (7.12)

Infatti, per definizione di covarianza si ha

CaX+b,cY+d = E[(aX + b− µaX+b) · (cY + d− µcY+d)]

= E[(aX + b− aµX − b) · (cY + d− cµY − c)]

= E[a (X − µX) · c (Y − µY )] = acCXY

e l’asserto della proposizione è stato dimostrato. Osserviamo che la (7.12) è una

ulteriore dimostrazione della relazioneσ2aX+b = a2σ2

SeX eY hanno varianza non nulla, il rapporto

ρXY =CXY

σXσY(7.13)

è denominato coefficiente di correlazione diX eY .

Osservazione7.1.3. Diversamente dalla covarianza, il coefficiente di correlazione

è un numero adimensionale. Tale coefficiente coincide con lacovarianza delle

variabili normalizzate.

Definizione 7.1.3.Due variabili casuali sononon correlatese la loro covarianza

è nulla:CXY = 0.

Definizione 7.1.4.Due variabili casuali sono chiamateortogonaliseE[XY ] = 0.

Per indicare l’ortogonalità diX eY si usa la simbologia:X ⊥ Y .

Osservazione7.1.4. SeX eY sono non correlate alloraX − µX ⊥ Y − µY . Se

X eY sono non correlate ed hanno media nulla alloraX ⊥ Y .

Calcoliamo, ora, la varianza diX + Y . Si ha1

σ2X+Y = E

[(X + Y )2

]− (E[X + Y ])2 = E

[(X + Y )2

]− (µX + µY )

= E[X2 + Y 2 + 2XY

]− µ2

X − µ2Y − 2µXµY

= E[X2]− µ2

X + E[Y 2]− µ2

Y + E[2XY ]− 2µXµY

= σ2X + σ2

Y + 2CXY = σ2X + σ2

Y + 2ρσXσY . (7.14)

Se le variabili casuali sono non correlate otteniamo

σ2X+Y = σ2

X + σ2Y . (7.15)

I precedenti risultati si applicano anche al caso più generale di n variabili casuali

con varianza finita (vedi [5]); postoSn = X1 + · · ·+Xn, vale la relazione

σ2k + 2

CXjXk(7.16)

nella quale la seconda sommatoria è estesa a ciascuna delle

coppie(Xj , Xk)

con j < k. Se le variabili aleatorie sono non correlate, possiamo riscrivere la

precedente relazione come

σ2k. (7.17)

Esempio 7.1.2.Ragionando come nell’esempio 7.1.1, dalla (7.17) si evinceche

= npq.

1σ2X−Y = σ2

X + σ2Y − 2CXY

7.2 Alcune disuguaglianze notevoli 249

Esempio 7.1.3. Prove del Bernoulli con probabilità di successo variabile

SianoX1, . . . , Xn variabili casuali indipendenti tali che ciascuna di esse assuma i

valori 1 e0 con probabilitàpk e qk = 1 − pk rispettivamente. AlloraE [Xx] = pk

eσ2Xk

= pkqk e, ponendo al solitoSn =∑n

k=1Xk, abbiamo

pk e σ2Sn

la variabileSn è il numero totale di successi inn prove indipendenti ciascuna

delle quali ha come esito un successo o un insuccesso, pertanto p = (∑n

k=1 pk) /n

rappresenta laprobabilità media di successo. Osserviamo cheµSn= np e

pk (1− pk) = np−n∑

Fissato un valorep esistono più combinazionipk tali che∑

k pk = np; la com-

binazione che rende minima la∑

k p2k è quella in cui tutte lepk sono uguali tra

loro e, quindi, ap. In conclusioneσ2Sn

è massima se la probabilità di successo è

costante o, con altre parole, la variabilità dellepk riduce la varianza diSn.

7.2 Alcune disuguaglianze notevoli

In questo paragrafo saranno dimostrate alcune disuguaglianze che ricorrono spes-

so sia nelle applicazioni sia nelle elaborazioni teoriche.

Dalla relazione|X + Y | 6 |X| + |Y | e dalla proprietà di linearità dell’operatore

E segue la cosiddettadisuguaglianza triangolare:

E[|X + Y |] 6 E[|X|] + E[|Y |]. (7.18)

Consideriamo, ora, la disuguaglianza

|X + Y |2 = |X2 + Y 2 + 2XY | 6 |X2|+ |Y 2|+ 2|XY |= X2 + Y 2 + 2|XY | − 2X2 − 2Y 2 + 2X2 + 2Y 2

= 2X2 + 2Y 2 −(X2 + Y 2 − 2|XY |

)= 2X2 + 2Y 2 − (|X| − |Y |)2

6 2|X|2 + 2|Y |2.

passando ai valori di aspettazione si ottiene

E[|X + Y |2

[|Y |2

]. (7.19)

Si può dimostrare (vedi [2]) che, seX edY sono dotati di momenti assoluti di

ordiner, sussiste la disuguaglianza

E [|X + Y |r] 6 2r−1E [|X|r] + 2r−1E [|Y |r] . (7.20)

Pertanto la (7.18) e la (7.19) sono da considerarsi casi particolari della più generale

disuguaglianza (7.20).

7.2.1 La disuguaglianza di Cauchy e Schwarz

Proposizione 7.2.1.SianoX eY variabili casuali congiuntamente distribuite; se

E [X2] eE [Y 2] esistono finiti, risulta2

E2[XY ] 6 E[X2]E[Y 2]. (7.21)

Per dimostrare la (7.21) osserviamo che per ogni coppia di numeri realia, b si ha

|ab| 6 (a2 + b2) /2 e, quindi, l’esistenza del momento di ordine 2 delle variabili

2La (7.21) è nota come la disuguaglianza di Cauchy e Schwarz.

7.2 Alcune disuguaglianze notevoli 251

aleatorieX eY implica l’esistenza diE[|XY |] e di conseguenza esiste finito anche

E[XY ]. Poiché la speranza matematica di unav.apositiva è> 0, si ha

E[(aX − Y )2

]> 0 ∀a ∈ R.

Come conseguenza diretta della precedente disuguaglianzae della linearità dell’o-

peratoreE possiamo scrivere

0 6 a2E[X)2

]− 2aE[XY ] + E

[Y )2]

= E[X2]

a2 − 2aE[XY ]

E [X2]+

E [Y 2]

E [X2]

= E[X2]

a2 − 2aE[XY ]

E [X2]+

E2[XY ]

E2 [X2]− E2[XY ]

E2 [X2]+

E [Y 2]

E [X2]

= E[X2]

a− E2[XY ]

E2 [X2]

− E2[XY ]

E2 [X2]+

E [Y 2]

E [X2]

= E[X2]

a− E2[XY ]

E2 [X2]

(E2[XY ]− E

[X2]E[Y 2])

︸︷︷︸

Affinché la precedente disequazione sussista per ogni realea la quantità∆ deve

essere non positiva:

∆ = E2[XY ]− E[X2]E[Y 2]6 0

di qui segue la (7.21).

Proposizione 7.2.2.Il coefficiente di correlazioneρXY soddisfa la condizione3

−1 6 ρXY 6 +1 . (7.22)

3o la equivalente|ρXY | 6 1.

La (7.22) segue dalla disuguaglianza di Schwarz

E2 [(X − µX) (Y − µY )] 6 E[(X − µX)

2]E[(Y − µY )

da cui si ricavaC2XY 6 σ2

Xσ2Y ed infineρ2XY 6 1.

Proposizione 7.2.3.SiaX una variabile aleatoria non degenere eY = aX + b,

ovea, b sono reali qualunque cona 6= 0. Si haρXY = +1, sea > 0, oppure, se

a < 0, ρXY = −1 .

Per dimostrare l’asserto, osserviamo cheµY = aµX + b, σ2Y = a2σ2

CXY = E [(X − µX) (aX + b− aµX − b)] = E[a (X − µX)

2] = aσ2X .

Si ha allora

ρXY =CXY

σXσY=

σX · |a|σX=

|a|e la tesi della proposizione è stata verificata.

Si può, infine, dimostrare (vedi [2]) che, se|ρXY | = 1, con probabilità 1Y dipende

linearmente daX.

7.3 Momenti condizionati

SianoX e Y due variabili casuali definite in uno stesso spazio di probabilità

Ω,F ,P.

Definizione 7.3.1.Si dice valore medio, o valore di attesa,

1. X,Y discrete

di Y condizionato daX(ω) = xj, la serieE [Y |xj ] =∑

yip (yi|xj), se

essa è assolutamente convergente; analogamenteE [X|yj] =∑

xip (xi|yj)

è la media condizionata diX datoY (ω) = yj;

7.3 Momenti condizionati 253

2. X,Y assolutamente continue

di Y condizionato daX(ω) = x, l’integraleE[Y |x] =∫ +∞

−∞

yg(y|x)dy,

se esso è assolutamente convergente; allo stesso modo si definisceE[X|y] =∫ +∞

−∞

xg(x|y)dx.

Fissata una qualsiasi funzioneh, sussistono analoghe definizioni perE[h(X)|y] e

E[h(Y )|x].

Osservazione7.3.1. Sia p (yi|xj) che g(y|x) dipendono dal valorex, di conse-

guenzaZ = γ(X), conγ(x) = E[Y |x] ex variabile inSX o in R, è una variabile

casuale. In questo caso si usa la notazioneE[Y |X ] (o E[X|Y ]).

Osservazione7.3.2. SeX eY sono indipendenti e dotate di speranza matematica

si haE[X|Y ] = E[X ] eE[Y |X ] = E[Y ].

Teorema 7.3.1.SeµX < +∞, allora la media condizionataE[X|y] assume va-

lori finiti per ogni y per il quale è definita la distribuzione condizionata diX dato

Y = y; inoltre

µX = E[E[X|Y ]]. (7.23)

Dimostrazione.Dimostreremo la tesi del teorema solamente nel caso discreto; per

le variabili aleatorie assolutamente continue sussiste una dimostrazione similare,

operando le opportune sostituzioni.

Supponiamo chepY (yj) sia maggiore di zero, allora lap (xi|yj) è definita e

p (xi|yj) =pXY (xi, yj)

pY (yj)6

pX (xi)

pY (yj).

Dalla precedente relazione si ricava

|xi|p (xi|yj) 6∑

|xi|pX (xi)

pY (yj)=

pY (yj)·∑

|xi|pX (xi) < +∞

e la prima porte del teorema è dimostrata. Possiamo, infine, scrivere

µX =∑

xipX (xi) =∑

xipXY (xi, yj) =∑

pY (yj) p (xi|yj)

pY (yj)∑

xip (xi|yj) =∑

pY (yj)E [X|yj] = E[E[X|Y ]].

Esempio 7.3.1.SianoX e Y variabili casuali indipendenti e distribuite secondo

la legge di Poisson con mediaλ1 e λ2, rispettivamente. PoniamoZ = X + Y e

calcoliamoE[X|Z = n]. Osserviamo che

P(X = k, Z = n) = P(X = k, Y = n− k) = P(X = k) · P(Y = n− k)

da cui:

pXZ(k, n) =(λ1)

k!exp(−λ1) ·

(λ2)n−k

(n− k)!exp(−λ2).

Ricordiamo che nell’esempio 5.9.3 abbiamo fatto vedere come la somma di due

variabili aleatorie indipendenti di Poisson, a parametroλ1 eλ2 rispettivamente, sia

ancora una variabile casuale di Poisson a parametroλ1 + λ2; pertanto si ha

pZ(n) =(λ1 + λ2)

n!exp [−(λ1 + λ2)] .

Dalle precedenti relazioni si ricava

pX|Z(k, n) =e−λ1(λ1)

k!· e

−λ2(λ2)n−k

(n− k)!· n!

e−(λ1+λ2)(λ1 + λ2)n

k!(n− k)!· e

−(λ1+λ2)

e−(λ1+λ2)· (λ1)

k(λ2)n−k

(λ1 + λ2)n

λ1 + λ2

)k (λ2

λ1 + λ2

)n−k

k;n,λ1

λ1 + λ2

In conclusione otteniamo:

E[X|Z = n] = n · [λ1/ (λ1 + λ2)] .

7.3 Momenti condizionati 255

7.3.1 Somma di un numero casuale di variabili aleatorie indi-

pendenti

SianoX1, X2, . . . , Xk, . . . variabili casuali indipendenti ed identicamente distri-

buite; indichiamo, inoltre, conN una variabile aleatoria a valori interi positivi

che sia indipendente da ciascuna delleXk. Per l’ipotesi posta sulla legge di di-

stribuzione delleXk, si haE [X1] = · · · = E [Xk] = · · · ≡ µ, imponiamo che

µ < +∞; come ipotesi ulteriore assumiamo che anche il valore mediodi N , µN ,

esista finito. SiaSN =∑N

k=1Xk, calcoliamoE[SN ]. Per tale scopo, essendo

N una variabile casuale, non possiamo fare ricorso alla (7.3). PoichéSN = Sn

quandoN = n, si ha

E [SN ] = E [E [SN |N ]] =∞∑

E [SN |N = n] pN (n)

=∞∑

E [Sn] pN(n) infatti N eSn sono indipendenti∀n

∞∑

(nµ)pN(n) come conseguenza della (7.23)

∞∑

npN(n) = µ · µN . (7.24)

CAPITOLO 8

La legge di Gauss ed alcune

distribuzioni collegate

La legge di Gauss o densità di probabilitànormaleè la funzione densità di proba-

bilità di uso più comune nella teoria della probabilità ed instatistica matematica.

Il teorema centrale del limite, che sarà introdotto in seguito, è probabilmente la

ragione principale che ha determinato tale situazione. Anche nelle applicazioni

pratiche la legge di Gauss svolge un ruolo fondamentale.

Definizione 8.0.2.Una variabile casualeX è dotata di una funzione di distribu-

zione normaleo di Gausscon parametriµ e σ2, se la sua funzione densità di

probabilità,∀x ∈ R, ∀µ ∈ R e∀σ > 0, è data da

f(x) =1

σ√2π

−(x− µ)2

e, quindi,

F (x) =

−∞

σ√2π

−(ξ − µ)2

dξ. (8.2)

In tal casoX è denominatav-c normaleo gaussiana.

258 Capitolo 8. La legge di Gauss ed alcune distribuzioni collegate

Per come è stata definitaf(x) è sempre positiva, rimane da verificare la condizione∫ +∞

−∞f(x)dx = 1. Ricordiamo, per tale scopo, che vale l’uguaglianza1:

b√2π =

∫ +∞

−∞

−(x− a)2

dx. (8.3)

Si ha, pertanto,∫ +∞

−∞

f(x)dx =1

σ√2π

∫ +∞

−∞

−(x− µ)2

dx =σ√2π

σ√2π

8.1 Proprietà della densità normale

Cominciamo con il calcolare la media di una variabile casuale normale. Si ha

E[X ] =

∫ +∞

−∞

xf(x)dx =

∫ +∞

−∞

σ√2π

−(x− µ)2

∫ +∞

−∞

(σy + µ)1√2π

ovey =x− µ

=σ√2π

∫ +∞

−∞

︸︷︷︸

+µ1√2π

∫ +∞

−∞

︸︷︷︸

= µ. (8.4)

L’ultimo passaggio si giustifica osservando che la funzioneintegranda, nel primo

integrale, è una funzione dispari e tenendo presente il risultato (8.3) riscritto po-

nendoa = 0 e b = 1. Dimostriamo, ora, che il parametroσ2 coincide con la

varianza diX; per tale scopo si rammenti la seguente relazione∫ +∞

√x exp(−ax)dx =

a(8.5)

che, pera = 1/2, diventa:∫ +∞

√x exp

dx =√2π.

1Per la dimostrazione di questo risultato, il lettore interessato può consultare [2] oppure [13].

8.1 Proprietà della densità normale 259

σ2X =

∫ +∞

−∞

(x− µ)21

σ√2π

−(x− µ)2

√2π

∫ +∞

−∞

y2 exp

dy ponendoy =x− µ

√2π

∫ +∞

y2 exp

√2π

∫ +∞

z exp(

ovez = y2

√2π

∫ +∞

√z exp

dz = σ2. (8.6)

Osservazione8.1.1. Si noti che la funzione densità di probabilità normale è sim-

metrica rispetto alla media, ovverof(x + µ) = f(x − µ). Essa assume il valore

massimo inx = µ: f(µ) = 1/(σ√2π); inoltre f(x) è unimodale in quanto me-

dia, mediana e moda coincidono inx = µ. Come|x| → ∞, f(x) → 0: l’asse

delle ascisse è asintoto orizzontale dif(x). Quest’ultima, nei puntix1 = µ − σ e

x2 = µ+ σ mostra due punti di flesso, quindi la curva cambia concavità.Il valore

medio della variabile casuale normale fissa la posizione della funzione di densità

nel grafico, la varianza ne determina la forma. La figura 8.1 mostra l’andamento

della funzione densità di variabili aleatorie normali con la stessa tendenza centrale

ma con varianza diversa; nella figura 8.2 sono rappresentatefunzioni densità di

probabilità con uguale varianza e diversa tendenza centrale.

Osservazione8.1.2. Nel caso della legge di Gauss il coefficiente di eccessoγ2,

definito dalla formula (6.53), risulta nullo. In generale chiameremomesocurtica

una distribuzione per la quale si haγ2 = 0. Quelle conγ2 > 0, sono denomi-

nateleptocurtiche, platicurtichenel caso contrario:γ2 < 0. Molto spesso curve

simmetriche con un picco più pronunciato della legge di Gauss sono leptocurti-

Figura 8.1: Funzione di densità div-c normali con la stessa media e differente

varianza.

che, quelle più appiattite mesocurtiche. Tale corrispondenza non ha una validità

generale.

La standardizzata della variabile casuale normale,(X − µ)/σ, è spesso indicata

conZ. La funzione densità di probabilitàfZ(z) ≡ n(z) è data da

n(z) =1√2π

∀z ∈ R. (8.7)

Il relativo grafico è illustrato nella figura 8.3. La funzionedi distribuzione (vedi

figura 8.4) si calcola integrando la (8.7):

N(z) =1√2π

−∞

−ζ2

dζ. (8.8)

La v-c normale standardizzata conserva tutte le proprietà della variabile casuale

normale. Si ricordi che questo non è vero per tutte le variabili aleatorie.

Figura 8.2: Funzione di densità div-c normali con la media diversa e identica

varianza.

Osservazione8.1.3. Valgono le seguenti relazioni

(i)∫ +0.67

−0.67n(z)dz = 0.5

(ii)∫ +1

−1n(z)dz = 0.683

(iii)∫ +2

−2n(z)dz = 0.9545

(iv)∫ +3

−3n(z)dz = 0.9973

che quantificano l’area della curva sottesa dan(z) tra gli estremi di integrazione.

In particolare dalla (iii) si evince cheP(−2 6 Z 6 +2) = 0.956 e, considerando

la genericav-c normaleX con mediaµ e varianzaσ2, dalla (iv) si ricava che

P(X ∈ [µ± 3σ]) ≈ 1 .

Data la rilevanza teorica ed applicativa della legge di Gauss, la distribuzioneN(z)

è stata tabulata e la relativa tavola è facilmente reperibile. Essa fornisce la proba-

−4 −3 −2 −1 0 1 2 3 40

Figura 8.3: Funzione di densitàn(x) dellav-cnormale standardizzata.

bilità P(0 < Z < z) ≡∫ z

0n(z)dz, l’area sottesa dal grafico della funzione densità

di probabilità compresa tra i punti di ascissa0 ez. Le probabilità corrispondenti a

valori negativi diz si ricavano per simmetria. Sicché perz > 0 possiamo scrivere

P(−∞ < Z < z) = 0.5 + P(0 < Z < z)

P(0 < Z < z) = P(−z < Z < 0)

P(|Z| < z) = P(−z < Z < z) = 2P(−z < Z < 0)

P(|Z| > z) = 2P(Z > z) = 2[0.5− P(0 < Z < z)]

P (z1 < Z < z2) = P (Z < z2)− P (Z 6 z1)

dalle quali si risale ai valori di probabilità di interesse.

−4 −3 −2 −1 0 1 2 3 40

(−0.67,0.25)

(0.67,0.75)

Figura 8.4: Funzione di distribuzioneN(x) dellav-c normale standardizzata.

Esempio 8.1.1.AbbiamoP(Z 6 1.75) = 0.5 + P(0 < Z 6 1.75) = 0.9599.

Inoltre si ha

P(Z 6 −0.75) = P(Z > 0.75) = 1− P(Z 6 0.75)

= 1− [0.5− P(0 < Z > 0.75)] = 1− (0.5− 0.2734) = 0.2266

P(−0.38 < Z 6 1.42) = P(0 6 Z 6 1.42) + P(0 6 Z 6 0.38)

= 0.4222 + 0.1480 = 0.5702 .

Osservazione8.1.4. Con la notazionezα, per0 < α < 1, si indica il quantile di

ordine1 − α della distribuzione normale standardizzata, in altri termini il valore

di Z per cui

P (Z > zα) = α

P(|Z| > zα/2

)= α.

I valori riportati nella sottostante tabella

α zα/2 zα

0.01 2.575 2.33

0.02 2.33 2.05

0.05 1.96 1.645

0.10 1.645 1.28

sono di uso comune in statistica.

Nel caso in cuiµ 6= 0 e σ 6= 1 è necessario considerare la standardizzata diX,

infatti

P(X 6 c) = P

(X − µ

c− µ

Z 6c− µ

Esempio 8.1.2.Data la variabile casuale normaleX con µ = 3 e σ2 = 4,

calcoliamoP(1 6 X 6 4). Si ha

P(1 6 X 6 4) = P

(1− 3

26 X 6

4− 3

= P(−1 6 Z 6 0.5)

∫ 0.5

n(z)dz =

n(z)dz +

∫ 0.5

n(z)dz =

∫ 0.5

n(z)dz +

n(z)dz

= 0.1915 + 0.3413 = 0.2328 .

Esempio 8.1.3.SianoZ1 e Z2 due variabili casuali normali standardizzate indi-

pendenti:

fZ1Z2 (z1, z2) = n (z1)× n (z2) =1

2πexp

(z21 + z22

SiaY1 = Z1 + Z2 eY2 = Z1/Z2, determiniamofY1Y2 (y1, y2). Si hay1 = z1 + z2

e y1 = z1/z2. Per quanto concerne le trasformazioni inverse abbiamoz1 = y1z2

e z2 = z1/y2, da cuiy1 = z1 (1 + y2) /y2 e z1 = y1y2/ (1 + y2) ≡ g−11 (y1, y2).

Essendo inoltrey1 = y2z2 + z2, si haz2 = y1/ (1 + y2) ≡ g−12 (y1, y2).

Lo Jacobiano2 della trasformazione inversa è

J =∂(z1, z2)

∂(y1, y2)=

∣∣∣∣∣

∂z1/∂y1 ∂z1/∂y2

∂z2/∂y1 ∂z2/∂y2

∣∣∣∣∣

∣∣∣∣∣∣∣∣∣

y21 + y2

y1(1 + y2)2

1 + y2− y1(1 + y2)2

∣∣∣∣∣∣∣∣∣

= −y1(1 + y2)

(1 + y2)3= −y1/(1 + y2)

Ricordando la (5.91), la densità congiunta diY1 eY2 è

fY 1Y2 (y1, y2) = |J |fZ1Z2

[g−11 (y1, y2) , g

−12 (y1, y2)

(1 + y2)2× 1

2πexp

[(y1y2)

(1 + y2)2+

y21(1 + y2)2

|y1|(1 + y2)2

y21(1 + y22)

(1 + y2)2

È interessante calcolare la distribuzione marginale diY2 integrandofY 1Y2 (y1, y2)

rispetto ay1. Si ha

fY2 (y2) =1

(1 + y2)2

∫ +∞

−∞

|y1| exp[

y21(1 + y22)

(1 + y2)2

(1 + y2)2× 2

∫ +∞

y1 exp

y21(1 + y22)

(1 + y2)2

2∂z1/∂y2 = ∂ [y1y2/ (1 + y2)] /∂y2 = y1[(1 + y2)

−1 − y2(1 + y2)−2]= y1/(1 + y2)

∂z2/∂y2 = ∂[y1(1 + y2)

−1]/∂y2 = −y1(1 + y2)

Con l’ausilio della trasformazione di variabile

(1 + y22)

(1 + y2)2y21

otteniamo

du =(1 + y22)

(1 + y2)2y1 · dy1

e così la distribuzione

fY2 (y2) =1

(1 + y2)2× 2

(1 + y22)

(1 + y2)2

∫ +∞

e−udu =1

1 + y22coincide con la distribuzione di Cauchy (6.13). In conclusione il rapporto di due

variabili casuali indipendenti normali standardizzate è unav-c di Cauchy.

8.1.1 Momenti della distribuzione normale

I momenti intorno all’origine della v-c normale standardizzata sono dati da

∫ +∞

−∞

zrn(z)dz =1√2π

∫ +∞

−∞

zr exp

dz. (8.9)

Ricordiamo cheµ0 = 1 eµ1 = 0 Perr > 2, esprimiamoµr come:

µr =1√2π

∫ +∞

−∞

zr−1

Per calcolareµr adottiamo il metodo dell’integrazione per parti osservando che:

− exp

= −(−2z

= z exp

Abbiamo

µr =1√2π

∫ +∞

−∞

zr−1

= − 1√2π

· zr−1 exp

2z2)∣∣∣∣

−∞︸︷︷︸

+(r − 1)1√2π

∫ +∞

−∞

zr−2 exp

= (r − 1)µr−2. (8.10)

Dalla (8.10) segue

µ2 = (2− 1)µ0 = 1

µ3 = (3− 1)µ1 = 0

µ4 = (4− 1)µ2 = 3 · 1 = 3

µ5 = (5− 1)µ3 = 4 · 0 = 0

µ6 = (6− 1)µ4 = 5 · 3 = 15

ed, infine, si ottiene:

µ2r+1 = 0 e µ2r = (2r − 1)(2r − 3) · · ·3 · 1 . (8.11)

8.1.2 La variabile casuale lognormale

Sia, al solito,Z la v-c normale standard e poniamoY = g(Z) = eZ . Sey > 0 si

fY (y) = n[g−1(y)

]· dzdy

= n [ln(y)] · 1y=

y√2π

− [ln(y)]2

. (8.12)

Il comportamento difY (y) è diverso da quello din(z), infatti essa è nulla per

y < 0 e non possiede la proprietà di simmetria intorno al suo massimo. La (8.12)

è nota quale densità di probabilitàlognormale. Al fine di determinare la media

della distribuzione lognormale è necessario calcolare

E[Y ] =

∫ +∞

−∞

ezn(z)dz =1√2π

∫ +∞

−∞

eze−z2/2dz.

Dal calcolo integrale si ricava la seguente relazione

∫ +∞

−∞

exp(−p2x2 ± qx

)dx = exp

) √π

p(p > 0) (8.13)

che, ponendop = 1/√2 e q = 1, dà luogo a

∫ +∞

−∞

exp(−z2/2 + z

)dz = exp

·√2π

da cui segue

E[Y ] = e1/2. (8.14)

Abbiamo, inoltre,

σ2Y = E

[Y 2]− µ2

Y = E [exp(2Z)]−(e1/2)2

= E [exp(2Z)]− e.

CalcoliamoE[exp(2Z)]; si ha3

∫ +∞

−∞

e2zn(z)dz =1√2π

∫ +∞

−∞

exp(−z2/2 + 2z

1√2π

e2√2π = e2

da cui

σ2Y = e2 − e = e(e− 1). (8.15)

Nel caso in cui siaY = eX , oveX è lav-c normale con mediaµ e varianzaσ2, la

densità lognormale assume l’espressione analitica

fY (y) =1

yσ√2π

− [ln(y)− µ]2

. (8.16)

8.2 Distribuzione Gamma

Dai corsi di analisi è noto che l’integrale4

Γ(α) =

∫ +∞

xα−1e−xdx. (8.17)

3Si applichi la (8.13) ponendoq = 2.4Tranne che in alcuni casi particolari l’integrale non si puòcalcolare analiticamente e si deve

far ricorso a metodi numerici o tavole specifiche.

8.2 Distribuzione Gamma 269

converge5 ∀α ∈ R+. Quindi, perα ∈ (0,+∞), l’integrale (8.17) definisce una

funzione, a valori inR+, che è denotata con il terminefunzione gamma.

Osserviamo innanzitutto che perα = 1 vale la relazione

Γ(1) =

∫ +∞

e−xdx = 1 (8.18)

ed inoltre, seα > 0,

Γ(α + 1) =

∫ +∞

xαe−xdx = −[∫ +∞

xα(−e−x

xα · e−x∣∣+∞

0︸︷︷︸

∫ +∞

xα−1e−xdx

∫ +∞

xα−1e−xdx

= αΓ(α). (8.19)

Dalle (8.18) e (8.19), pern intero positivo, si ottiene

Γ(n) = (n− 1)!. (8.20)

Osservazione8.2.1. Di seguito elenchiamo alcune proprietà della funzione gamma

rimandando, per la dimostrazione, ai testi di analisi:

∫ +∞

exp(−t2)dt =

√π, (8.21a)

=(2n)!

n!22n(n = 0, 1, 2, . . .), (8.21b)

−n +1

=(−1)nn!22n

2n!(n = 0, 1, 2, . . .), (8.21c)

Γ(x)Γ(1− x) =π

sin πx(x 6= 0,±1,±2, . . .). (8.21d)

5Il lettore interessato trova la dimostrazione anche in [13].

Perβ > 0, poniamo nell’integrale (8.17),x = y/β Si ha

Γ(α) =

∫ +∞

yα−1

βα−1e−y/βd(y/β) =

∫ +∞

yα−1

βαe−y/βdy. (8.22)

e, come conseguenza della precedente relazione, otteniamo∫ +∞

Γ(α)βαyα−1e−y/βdy = 1 . (8.23)

Poiché la funzione integranda nella (8.23) è positiva pery > 0, la funzione

f(y) =

Γ(α)βαyα−1e−y/β se0 < y < +∞

0 sey 6 0(8.24)

definisce una funzione densità di probabilità perα > 0 eβ > 0.

Definizione 8.2.1.Una variabile casualeX, con funzione densità di probabilità

definita dalla (8.24), ha una distribuzione gamma con parametri α eβ; in simboli

X ≡ Γ(α, β) o ancheX ∼ Γ(α, β).

La funzione di distribuzione di unav-cΓ(α, β) è data da

F (x) =

0 sex 6 01

Γ(α)βα

0yα−1e−y/β se0 < x

(8.25)

ove, ricordiamo, i parametriα eβ sono numeri reali positivi.

Osservazione8.2.2. La (8.24), nel caso particolare in cui siaα = 1, coincide con

la densità di probabilità esponenziale conγ = β−1.

8.2.1 La variabile casuale chi-quadrato

SiaZ la variabile casuale normale standardizzata, poniamoχ2 = Z2. Poichéχ2

non può assumere valori negativi, la probabilitàP(χ2 6 χ) è definita solamente

8.2 Distribuzione Gamma 271

seχ ∈ [0,+∞), si ha

P(χ26 χ) = P

6 χ)= P

(|Z| 6 χ1/2

(0 < Z 6 χ1/2

= 2[P(Z 6 χ1/2

)− 0.5

(Z 6 χ1/2

)− 1 .

Derivando rispetto aχ, abbiamo la funzione densità di probabilità

f(χ) = 2n(χ1/2

)· 12· χ−1/2 =

1√2π

χ−1/2 exp

(seχ > 0)

che è la cosiddetta funzione densità di unavariabile casuale chi-quadrato con un

grado di libertà. Quest’ultima si indica con il simboloχ21. Possiamo riformulare

la precedente relazione come

fχ21(χ) =

Γ(1/2)21/2exp (−χ/2)χ−1/2 se0 < x < +∞

0 sex 6 0(8.26)

ove si è fatto uso del risultatoΓ(1/2) =√π.

Osservazione8.2.3. La (8.26) è una caso particolare della (8.24) se in quest’ultima

si poneα = 1/2 eβ = 2.

Proposizione 8.2.1.SianoZ1, . . . , Zn variabili casuali normali standardizzate

indipendenti, la variabile casuale

χ2n = Z2

1 + · · ·+ Z2n

è denominata variabile casuale chi-quadrato conn gradi di libertà, χ2n, ed è

definita nell’intervallo[0,+∞). La funzione densità di probabilitàfχ2n(χ) è data

fχ2n(χ) =

Γ(n/2)2n/2exp (−χ/2)χn/2−1 seχ > 0

0 sex 6 0(8.27)

ed è chiamata distribuzione chi-quadrato conn gradi di libertà.

Per dimostrare la precedente proposizione è necessario premettere un interessante

risultato che riguarda la somma di variabili casuali distribuite secondo la legge

gamma. A tale scopo consideriamo la variabile casualeZ, somma di duev-c

indipendenti,X1 ∼ Γ (α1, β) eX2 ∼ Γ (α2, β); determiniamofZ(z). Ricordando

la (5.86a) possiamo scrivere

fZ(z) =

∫ +∞

−∞

f1 (x1) f1 (z − x1) dx1 =

f1 (x1) f2 (z − x1) dx1.

L’ultimo passaggio si giustifica tenendo conto che le densità gamma è nulla per

valori negativi dell’argomento. Si ha

f1 (x1) f2 (z − x1) =1

Γ(α1)βα1xα1−11 exp (−x1/β)

Γ(α2)βα2(z − x1)

α2−1 exp (− (z − x1) /β)

Γ(α1)Γ(α2)

β(α1+α2)xα1−11 (z − x1)

α2−1 e−z/β

sicché

fZ(z) =1

Γ(α1)Γ(α2)β(α1+α2)e−z/β

xα1−11 (z − x1)

α2−1 dx1.

Con il cambio di variabiley = x1/z, l’integrale a secondo membro nell’ultima

espressione difZ(z) diventa

xα1−11 (z − x1)

α2−1 dx1 =

(zy)α1−1(z − zy)α2−1zdy

= zzα1−1zα2−1

yα1−1(1− y)α2−1dy = zα1+α2−1

yα1−1(1− y)α2−1dy

e pertanto

fZ(z) =1

Γ(α1)Γ(α2)β(α1+α2)

(∫ 1

yα1−1(1− y)α2−1dy

zα1+α2−1e−z/β

8.3 Distribuzione Beta 273

ove l’integrale in parentesi assume un valore costante. In particolare si ha6

yα1−1(1− y)α2−1dy =Γ (α1) Γ (α2)

Γ (α1) + Γ (α2)(8.28)

e da quest’ultima si ricava

fZ(z) =1

Γ(α1 + α2)β(α1+α2)zα1+α2−1e−z/β.

Da tale relazione si evince cheX1+X2 ∼ Γ (α1 + α2, β). Applicando lo stesso ra-

gionamento alla variabile casualeZ+X3 ≡ (X1 +X2)+X3, conX3 ∼ Γ (α3, β),

si dimostra cheX1+X2+X3 ∼ Γ (α1 + α2 + α3, β). Estendendo il procedimento

alla somma dik v-c indipendenti,X1, . . . , Xk, di leggeΓ (α1, β) , . . . ,Γ (αk, β),

si dimostra che essa ha una densitàΓ (α1 + · · ·+ αk, β). La variabile casuale

χ2n = Z2

1 + · · ·+ Z2n è la somma din variabili casuali indipendenti, ciascuna con

leggeΓ(1/2, 2), tenedo conto del precedente risultato si dimostra la (8.27).

L’andamento analitico difχ2n(χ) dipende dal valore din; si rammenti che, per

grandi valori din, la fχ2n(χ) ≈ n(z). Sono facilmente reperibili tavole della

distribuzioneχ2n che è coinvolta in molte applicazioni e problematiche teoriche.

8.3 Distribuzione Beta

La funzionebetaè definita dalla relazione

B(α, β) =

xα−1(1− x)β−1dx (8.29)

conα eβ reali positivi. Dalla precedente definizione segue che la funzione

f(x) =

xα−1(1− x)β−1

B(α, β)se0 < x < 1

0 alrimenti(8.30)

6Il risultato (8.28) sarà discusso in seguito trattando la distribuzione beta.

è una densità di probabilità7.

Definizione 8.3.1.Unav-cX si dice avere unadistribuzione betacon parametriα

eβ se la sua densità di probabilità è definita dalla (8.30) conα eβ entrambi reali

maggiori di zero. In simboli si scriveX ≡ B(α, β) oppureX ∼ B(α, β).

La funzione di distribuzione di unav-aB(α, β) è

F (x) =

0 sex 6 0

B(α, β)−1 ×∫ x

0yα−1(1− y)β−1dy se0 < x < 1

1 sex > 1

(8.31)

e si ottiene integrando la (8.30).

La seguente proposizione rende esplicito lo stretto legameesistente tra la funzioni

gamma e beta.

Proposizione 8.3.1.Si ha8

B(α, β) ≡∫ 1

xα−1(1− x)β−1dx =Γ(α)Γ(β)

Γ(α) + Γ(β). (8.32)

La dimostrazione dell’asserto richiede conoscenze avanzate del calcolo integrale,

il lettore interessato trova due differenti dimostrazioniin [3] e in [2]. Dalla (8.32)

segue cheB(α, β) = B(β, α).

Osservazione8.3.1. Nel caso particolare in cuiα = β = 1 la distribuzione beta

coincide con la distribuzione uniforme in(0, 1).

7Si osservi che la funzione integranda in (8.29) è non negativa nell’intervallo di integrazione8Si colleghi l’asserto alla (8.28).

CAPITOLO 9

Funzioni generatrici

Il calcolo dei momenti di una variabile casuale implica spesso procedimenti mate-

matici complessi, l’introduzione di opportune funzioni ausiliarie conduce a note-

voli semplificazioni. Esse sono anche utili per determinarel’andamento analitico

di funzioni di distribuzione.

9.1 Funzione generatrice dei momenti

Definizione 9.1.1.SiaX una variabile casuale con funzione di distribuzioneF , si

definiscefunzione generatrice dei momentidi X (o diF ) la funzione

M(θ) = E[exp(θX)] (9.1)

doveθ è una variabile reale di comodo, che assume valori in un intervallo chiu-

so contenente lo zero, scelta in modo da rendere finita, se possibile, la speranza

matematica diexp(θX).

276 Capitolo 9. Funzioni generatrici

SeX è discreta, abbiamo

M(θ) =∞∑

eθxjp (xj) .

Nel caso di una variabile casuale assolutamente continua con densità di probabilità

f(x), la (9.1) diventa:

M(θ) =

∫ +∞

−∞

eθxf(x)dx.

Il nome funzione generatrice dei momenti scaturisce dal fatto che, come faremo

vedere nel seguito, i momentiµk di X possono essere calcolati derivandoM(θ)

in θ = 0.

Osservazione9.1.1. Ponendoθ = 0, si ricavaM(0) ≡ 1.

Esempio 9.1.1.SiaX una variabile casuale con funzione densità di probabilità

f(x) = (1/2) exp(−x/2), sex > 0; poniamo, inoltre,f(x) = 0, sex 6 0.

Ricordiamo1 che∫ +∞

0exp(−ax)dx = 1/a. Si ha

M(θ) =

∫ +∞

eθxf(x)dx =1

∫ +∞

eθxe−x/2dx =1

∫ +∞

e(θ−12)xdx

e, seθ < 1/2,

θ − 12

= 1/(1− 2θ).

Proposizione 9.1.1.Sia X una variabile casuale con funzione generatrice dei

momentiMX(θ). Definiamo la nuova variabile aleatoriaY = aX + b, cona, b

numeri reali eda tale che esisteMX(aθ), vale la relazione

MY (θ) = ebθMX(aθ). (9.2)

1da cui segue:1/2∫+∞

0exp(−x/2) = 1

9.1 Funzione generatrice dei momenti 277

La (9.2) è facilmente dimostrabile, infatti

MY (θ) = E[eθY]= E

[eθ(aX+b)

]= ebθE

[eaθX

]= ebθMX(aθ).

Naturalmente seMX(θ) è definita nell’intervallo[−θ0,+θ0], alloraMY (θ) è defi-

nita in

−θ0a,+

Teorema 9.1.1.Siaθ0 un numero reale positivo, seX ha una funzione generatrice

dei momenti finita per|θ| 6 θ0, alloraX ammette momentiµk di qualsiasi ordine.

Dimostrazione.Ricordiamo che per ogni numero realet vale la relazione

e|t| 6 e|t| + e−|t| = et + e−t.

Allora, supponendo cheX sia assolutamente continua,∀θ ∈ [−θ0,+θ0], si ha

E[exp(|θX|)] =∫ +∞

−∞

e|θX|f(x)dx

∫ +∞

−∞

eθXf(x)dx+

∫ +∞

−∞

e−θXf(x)dx = M(θ) +M(−θ) < +∞. (9.3)

Poiché, per ogni numero realet edn numero intero maggiore di zero, è valida la

disuguaglianza|t|nn!

∞∑

|t|jj!

≡ e|t|, ponendot = θx, dove conx denotiamo un

generico valore diX, otteniamo

|θx|nn!

=|θ|nn!

|x|n 6 e|θx|

ed infine|θ|nn!

∫ +∞

−∞

|x|nf(x)dx 6

∫ +∞

−∞

e|θX|f(x)dx < +∞.

Pertanto tutti i momenti assoluti diX, e quindi tutti i momenti intorno all’origine,

esistono finiti.

Proposizione 9.1.2.SeX ha una funzione generatrice dei momentiM(θ), per

|θ| 6 θ0, si ha

µk =dkM(θ)

∣∣∣∣θ=0

. (9.4)

La dimostrazione rigorosa dell’asserto presuppone la conoscenza di alcuni teore-

mi di analisi matematica generalmente poco noti al di fuori dei corsi di laurea in

matematica e fisica, il lettore interessato può consultare [2], [4] e [11]. Intuitiva-

mente possiamo affermare2 che, essendo la speranza matematica e la derivazione

entrambi operatori lineari, essi possono essere scambiatidi posto; in altre parole è

possibile scrivere le seguenti relazioni

dM(θ)

dθE [exp(θX)] = E

[deθX

= E[XeθX ]

d2M(θ)

dθ2E [exp(θX)] = E

[d2eθX

= E[X2eθX ]

d3M(θ)

dθ3E [exp(θX)] = E

[d3eθX

= E[X3eθX ]

...dkM(θ)

dθkE [exp(θX)] = E

[dkeθX

= E[XkeθX ] (9.5)

e, postoθ = 0, otteniamo la (9.4) perk = 1, 2, . . . .

Si perviene alla stessa conclusione considerando lo sviluppo in serie di potenze

eθx =∑∞

(θx)k

k!. Se esiste la funzione generatrice dei momenti, si ha

M(θ) = E[eθX]= E

[∞∑

2Seguiamo l’impostazione data da Parzen (vedi [10]).

e, applicando la proprietà di linearità3 dell’operatoreE, abbiamo

M(θ) =∞∑

E[Xk] θk

∞∑

µkθk

k!(9.6)

e, pertanto,µk è, per ogni interok, il coefficiente diθk/k! nello sviluppo in serie

di potenze diM(θ). Poiché una serie di potenze può essere derivata termine a

termine, si ottiene

M′(θ) =d

1 + µ1 · θ + µ2 ·θ2

2!+ µ3 ·

3!+ · · ·

= µ1 + µ2 ·2θ

2!+ µ3 ·

3!+ · · · (9.7)

da cui segueM′(0) = µ1. Derivando la (9.7) si ricava

M′′(θ) =d

µ1 + µ2 ·2θ

2!+ µ3 ·

3!+ · · ·

= µ2 + µ3 ·6θ

3!+ · · · (9.8)

e da quest’ultima segue cheM′′(0) = µ2. Continuando a derivare si perviene alla

formula generale (9.4)

Definiamo la funzioneφ(θ) ponendoφ(θ) = ln[M(θ)]. Si ha

φ′(θ) =M′(θ)

ed inoltre

φ′′(θ) =M′′(θ)M(θ)− [M′(θ)]2

[M(θ)]2.

Perθ = 0 otteniamo

φ′(0) =M′(0)

M(0)= µ1 (9.9)

φ′′(0) =M′′(0)M(0)− [M′(0)]2

[M(0)]2= µ2 − µ2

1 = σ2X . (9.10)

3Vedi [2] e [11] per la dimostrazione in base alteorema della convergenza dominata.

Il seguente teorema, del quale si omette la dimostrazione, illustra la proprietà fon-

damentale della funzione generatrice dei momenti che è quella di determinare

univocamente la funzione di distribuzione.

Teorema 9.1.2.SianoX e Y due v-c con funzione di distribuzioneFX(x) ed

FY (y), rispettivamente; denotiamo conMX(θ) eMY (θ) le funzioni generatrici

dei momenti.X eY hanno la stessa funzione di distribuzione,FX ≡ FY , se e solo

seMX(θ) = MY (θ), ∀θ.

Osservazione9.1.2. Supponiamo che esistano finiti i momentiµk, ∀k, di una

v-c X. Tale condizione non è sufficiente affinché esista la funzione generatri-

ce dei momenti diX. Possiamo renderci conto della validità della preceden-

te affermazione con un esempio. SiaX una variabile casuale con densità di

probabilità

f(x) = c exp (−|x|α)ove0 < α < 1, x ∈ (−∞,+∞) e la costantec è tale da verificare la condizione

di normalizzazionec∫ +∞

−∞exp (−|x|α) dx = 1. Siaθ > 0, si ha

∫ +∞

exp(θx) exp (−xα) dx =

∫ +∞

exp[x(θ − xα−1

Poichéα− 1 < 0, l’integrale∫ +∞

0exp(θx) exp (−xα) dx non assume valori finiti

∀θ > 0 e, quindi,X non ha una funzione generatrice dei momenti. Essa, invece,

ha momenti finiti di ogni ordine. Infatti si ha

E[|X|k] = c

∫ +∞

−∞

|xk| exp (−|x|α) dx = 2c

∫ +∞

xk exp (−xα) dx

e, con il cambio di variabiley = xα, otteniamo4

E[|X|k] = 2c

∫ +∞

yk/αe−y ·[1

αy−(1+

dy < +∞ ∀k.

4I limiti di integrazione non cambiano; inoltrey1/α = x edx = (1/α) · y1/α−1dy.

La convergenza dell’integrale a secondo membro segue dall’esserey−(1+1α) fun-

zione decrescete diy e dal fatto chee−y tende a zero più rapidamente di quanto

yk/α cresca a+∞ al crescere diy.

Teorema 9.1.3.Siaµk la sequenza dei momenti di unav-cX. Se la serie

∞∑

converge assolutamente per un valoreθ > 0, allora µk determina univocamente

FX(x).

Il precedente teorema, dovuto ad Hamburger (1920), è di difficile dimostrazio-

ne; il lettore interessato trova in [13] i riferimenti bibliografici originali in lingua

tedesca.

Osservazione9.1.3. In particolare, se esiste una costantec che verifica la disugua-

glianza|µk| 6 ck, conk = 1, 2, . . ., allora, perθ > 0, si ha

∞∑

k!θk 6

∞∑

(cθ)k

k!< ecθ

eµk determina in maniera univoca la distribuzione diX.

Esempio 9.1.2.Consideriamo la densità di probabilità esponenziale con parame-

tro γ > 0, abbiamo

M(θ) = E[eθX]=

∫ ∞

eθxγe−γxdx = γ

∫ ∞

e(θ−γ)xdx.

Seθ < γ l’integrale all’ultimo membro esiste finito:∫ ∞

e(θ−γ)xdx =

∫ ∞

e−(γ−θ)xdx = 1/(γ − θ).

In conclusione l’espressione analitica della funzione generatrice dei momenti è

M(θ) =γ

γ − θ∀θ ∈ [−θ0,+θ0] (9.11)

ove0 < θ0 < γ.

Calcoliamo la media e la varianza della distribuzione; si haM′(θ) =γ

(γ − θ)2

e µ1 ≡ M′(0) = 1/γ. Derivando ancora una volta la funzione generatrice dei

momenti abbiamoM′′(θ) =2γ

(γ − θ)3eµ2 ≡ M′′(0) = 2/γ2; infine si ritrova la

formula (6.41):

σ2 = µ2 − µ21 =

γ2− 1

γ2= 1/γ2.

La derivata terza della funzione generatrice dei momenti èM′′′(θ) =6γ

(γ − θ)4

e ponendo, al solitoθ = 0, otteniamoµ3 = 6/γ3; continuando nel processo di

derivazione si perviene alla formula generale

µn = n!/γn. (9.12)

Esempio 9.1.3.Sia X una variabile casuale di Poisson con parametroλ. La

funzione generatrice dei momenti è data da

M(θ) =

∞∑

eθk · p(k, λ) =∞∑

eθk · λk

k!· e−λ

= e−λ∞∑

(eθλ)k

k!= e−λ · eeθλ = ee

θλ−λ = eλ(eθ−1). (9.13)

Inoltre, si haφ(θ) = ln[

eλ(eθ−1)

= λ(eθ − 1

). Da quest’ultima si ricavano le

relazioniφ′(θ) = λ exp(θ) eφ′′(θ) = λ exp(θ) da cui:

µ1 = λ e σ2 = λ.

Esempio 9.1.4.Nel caso della distribuzione binomiale abbiamo

M(θ) =

∞∑

eθk · b(k;n, p) =n∑

eθk(n

pk(1− p)n−k

)(peθ)k

(1− p)n−k =(1− p+ peθ

)n(9.14)

ove l’ultimo passaggio si giustifica ricordando la formula del binomio (6.24).

Calcolando la derivata prima e seconda della funzione generatrice dei momenti,

otteniamo

M′(θ) = n(1− p+ peθ

)n−1 · p · eθ

M′′(θ) = n(n− 1)(1− p+ peθ

)n−2 · p2 · e2θ + n(1− p+ peθ

)n−1 · p · eθ.

Ponendoθ = 0, otteniamo

µ1 = M′(0) = np

µ2 = M′′(0) = n(n− 1)p2 + np.

Da queste ultime relazioni si calcola il valore della varianza della distribuzione

binomiale espresso in precedenza dalla formula (6.29).

Esempio 9.1.5.Determiniamo la funzione generatrice dei momenti della variabile

casuale normale standardizzata.

M(θ) =1√2π

∫ +∞

−∞

exp(θz) exp

=1√2π

∫ +∞

−∞

(z2 − 2θz

=1√2π

∫ +∞

−∞

[(z − θ)2 − θ2

)∫ +∞

−∞

1√2π

−(z − θ)2

︸︷︷︸

. (9.15)

Si noti, infatti, che la funzione integranda che compare nelpenultimo passaggio

è la densità di probabilità di una variabile casuale normalea mediaθ e varianza

unitaria. Abbiamoφ(θ) = ln[M(θ)] = θ2/2, da cui si trae

φ′(θ) = θ e φ′′(θ) = 1

ed infine, ponendoθ = 0, ritroviamo media e varianza dellav-c normale standar-

dizzata. Dalle relazioni (9.15) e (9.2) si ricava la funzione generatrice dei momenti

di X = σZ + µ; si ha

MX(θ) = eµθ ·MZ(σθ) = exp (µθ)·exp[(σθ)2

µθ +(σθ)2

. (9.16)

Teorema 9.1.4.SianoX1, X2, . . . , Xn variabili casuali indipendenti, dotate di

funzione generatrice dei momentiMi(θ), coni = 1, 2, . . . , n. SiaY la variabile

casuale somma delleXi: Y = X1 + · · ·+Xn, si ha

MY (θ) =n∏

Mi(θ). (9.17)

Dimostrazione.Consideriamo per semplicità formale il caso in cui sian = 2. Nel

caso discreto, in virtù dell’indipendenza delle variabilicasuali, possiamo scrivere

MY (θ) = E[eθY]= E

[eθ(X1+X2)

exp[θ(x1i + x2j

)]pX1X2

(x1i, x2j

exp (θx1i) exp(θx2j

)pX1 (x1i) pX2

exp (θx1i) pX1 (x1i)∑

exp(θx2j

[eθX1

]· E[eθX2

da cui segue immediatamente l’asserto. La dimostrazione nel caso div-c assolu-

tamente continue è analoga:

MY (θ) = E[eθY]=

∫ +∞

−∞

∫ +∞

−∞

eθ(x1+x2)fX1X2 (x1, x2) dx1dx2

∫ +∞

−∞

∫ +∞

−∞

eθx1eθx2fX1 (x1) fX2 (x2) dx1dx2

∫ +∞

−∞

eθx1fX1 (x1) dx1

∫ +∞

−∞

eθx2fX2 (x2) dx2 = E[eθX1

]· E[eθX2

Nel caso in cui le variabili casuali, oltre ad essere indipendenti, hanno anche la

stessa funzione di distribuzioneFX(x), la (9.17) diventa:

MY (θ) = [MX(θ)]n . (9.18)

Esempio 9.1.6.SianoZ1 e Z2 due variabili casuali normali standardizzate indi-

pendenti, poniamoZ = Z1 + Z2 e calcoliamoMZ(θ). Si ha

MZ(θ) = MZ1(θ) · MZ2(θ) = exp

· exp(θ2

= eθ2

Z è essa stessa unav-c gaussiana, non è però standardizzata; infatti, essendo

φ(θ) = θ2, abbiamoφ′(θ) = 2θ eφ′′(θ) = 2; pertantoZ ha media nulla e varianza

σ2Z = 2.

Esempio 9.1.7.Consideriamo due variabili casuali normali indipendenti,X1 eX2

con media e varianzaµ1, σ21 e µ2, σ2

2, rispettivamente; determiniamo la distribu-

zione diX = X1 +X2. Si ha

MX(θ) = MX1(θ) ·MX2(θ)

µ1θ +(σ1θ)

· exp[

µ2θ +(σ2θ)

(µ1 + µ2) θ +(σ2

1 + σ22) θ

Dalla precedente relazione deduciamo cheX è unav-cgaussiana con valore atteso

µ1 + µ2 e varianzaσ21 + σ2

Esempio 9.1.8.Supponiamo che la funzione generatrice dei momenti di una va-

riabile casualeX sia data daM(θ) = exp[3(eθ − 1)

], calcoliamoPX = 0.

Ricordando la (9.13), deduciamo cheM(θ) è la funzione generatrice dei momenti

di unav-a di Poisson con media 3. In virtù del teorema 9.1.2 possiamo affermare

cheX ammette come distribuzione di probabilità la legge di Poisson conλ = 3 e

pertanto:

PX = 0 = e−3.

Esempio 9.1.9.Determiniamo la funzione generatrice dei momenti della variabile

casualeX ∼ Γ(α, β). Si ha

M(θ) =1

Γ(α)βα

∫ +∞

exp(θx) exp(−x/β)xα−1dx

Γ(α)βα

∫ +∞

exp[x(θ − 1/β)]xα−1dx

Γ(α)βα

∫ +∞

exp[−x(1/β − θ)]xα−1dx

Γ(α)βα

∫ +∞

exp[−x

β(1− βθ)]xα−1dx.

Con il cambio di variabile

β− θ

(1− βθ

β(1− βθ)

risultadx = β/(1− βθ)dy ex = β/(1− βθ)y, pertanto

M(θ) =1

Γ(α)βα× β

1− βθ× βα−1

(1− βθ)α−1×∫ +∞

e−yyα−1dy

(1− βθ)α× 1

Γ(α)

∫ +∞

e−yyα−1dy

︸︷︷︸

conθ < 1/β. In conclusione la funzione generatrice diX ∼ Γ(α, β) è data

M(θ) = (1− βθ)−α (9.19)

conθ < 1/β. Dalla (9.19) ricaviamo

dM(θ)

dθ= −α(1− βθ)−α−1 · −β = αβ(1− βθ)−(α+1)

d2M(θ)

dθ2= −αβ(α + 1)(1− βθ)−(α+2) · −β = αβ2(α + 1)(1− βθ)−(α+2).

Dalle precedenti relazioni ricaviamo la media e la varianzadi X. Si ha infatti

µX =dM(θ)

∣∣∣∣θ=0

= αβ. (9.20)

Il momento di ordine due è

E[X2] =d2M(θ)

∣∣∣∣θ=0

= α(α + 1)β2 (9.21)

sicché

σ2X = E[X2]− (µX)

2 = αβ2. (9.22)

Concludiamo calcolando direttamente i momenti di ordine a partire dalla densità

di probabilià. Abbiamo

µk ≡ E[Xn] =1

Γ(α)βα

∫ +∞

xn exp(−x/β)xα−1dx

Γ(α)βα× βn

βn×∫ +∞

exp(−x/β)xα+n−1dx

Γ(α)

∫ +∞

βα+nexp(−x/β)xα+n−1dx

Γ(α)× Γ(α + n)

= βn(α + n− 1)(α+ n− 2) · · ·α. (9.23)

Per giustificare l’espressione finale diE [Xn] si deve far riferimento alla (8.19):

Γ(α) = (α− 1)Γ(α− 1).

Esempio 9.1.10.SiaX ∼ B(α, β), calcoliamoM(θ). Si ha

M(θ) =1

B(α, β)

exp(θx)xα−1(1− x)β−1dx

B(α, β)

(+∞∑

xα−1(1− x)β−1dx

B(α, β)

+∞∑

xα+k−1(1− x)β−1dx

︸︷︷︸

B(α+k,β)

+∞∑

[B(α + k, β)

B(α, β)

× θk

k!(9.24)

ed è possibile dimostrare la convergenza della serie per ogni interok.

Osservazione9.1.4. Si noti che la funzione generatrice dei momenti esiste qualun-

que siaθ; infatti, essendo la funzione integrandaexp(θx)xα−1(1−x)β−1 continua

in x nell’intervallo[0, 1], l’integrale∫ 1

0exp(θx)xα−1(1−x)β−1dx esiste ed assume

un valore finito.

Dalla (9.24), ricordando la (9.6), segue

µk ≡ E[Xk]=

B(α + k, β)

B(α, β)=

Γ(α+ k)Γ(β)

Γ(α + β + k)

Γ(α)Γ(β)

Γ(α + β)

=Γ(α + k)

Γ(α+ β + k)× Γ(α + β)

Γ(α)(k = 1, 2, . . .). (9.25)

In particolare, da quest’ultima relazione si ricava

E [X ] =Γ(α + 1)

Γ(α+ β + 1)× Γ(α + β)

Γ(α)

=αΓ(α)

(α+ β)Γ(α + β)× Γ(α + β)

Γ(α)

= α/(α + β) (9.26)

E[X2]=

Γ(α + 2)

Γ(α + β + 2)× Γ(α+ β)

Γ(α)

=(α + 1)Γ(α + 1)

(α+ β + 1)Γ(α + β + 1)× Γ(α + β)

Γ(α)

=(α+ 1)αΓ(α)

(α+ β + 1)(α + β)Γ(α+ β)× Γ(α + β)

Γ(α)

= α(α + 1)/[(α+ β)(α+ β + 1)]. (9.27)

Infine si ottiene l’espressione della varianza:

σ2X = E

[X2]− (E [X ])2 = αβ/[(α+ β)2(α + β + 1)]. (9.28)

È possibile ottenere la (9.25) attraverso il calcolo diretto a partire dalla densità di

probabilità; si ha

xk ×[

B(α, β)xα−1(1− x)β−1

B(α, β)

xα+k−1(1− x)β−1dx

=B(α + k, β)

B(α, β)= [Γ(α + k)Γ(α + β)] / [Γ(α)Γ(α + β + k)] . (9.29)

La (9.29) afferma cheX ∼ B(α, β) è dotata di momentiµk finiti ∀k. In particola-

re vale la disuguaglianzaE [X ]k < 1, per ogni interok. Infatti B(α, β), fissato il

valore diβ, è funzione decrescente diα: B(α+ k, β) < B(α, β). Per convincersi

della validità della precedente affermazione si osservi che nella (8.29) la funzione

potenzaxα−1, essendo0 < x < 1, è funzione decrescente dell’esponente, mentre

(1 − x)β, perβ fissato, è una costante moltiplicativa. Da quanto sopra premes-

so si deduce che, essendo verificate le condizioni richiamate nel teorema 9.1.3 e

nell’osservazione 9.1.3, la distribuzione beta è dotata difunzione generatrice dei

momentiM(θ) ≡∑k µk(θk/k!), oveµk si ricava dalla (9.29).

Esempio 9.1.11.Calcoliamo la moda della distribuzione beta nel caso in cui i

parametriα e β siano entrambi maggiori di 1. Ricordiamo che la moda coincide

con il valorex di X in cui f(x) assume il valore massimo, in altre parole è il

valorex per cuif ′(x) = 0. Si ha

B(α, β)

[xα−1(1− x)β−1

B(α, β)

[(α− 1)xα−2(1− x)β−1 + xα−1(β − 1)(1− x)β−2(−1)

B(α, β)

[(α− 1)xα−2(1− x)β−1 − xα−1(β − 1)(1− x)β−2

B(α, β)xα−2(1− x)β−2 [(α− 1)(1− x)− x(β − 1)] .

Da quest’ultima relazione, tenuto conto chex ∈ (0, 1), segue che il valorex deve

essere tale da verificare l’uguaglianza

(α− 1)(1− x)− x(β − 1) = 0

e, pertanto,

x = (α− 1)/(α+ β − 2).

CAPITOLO 10

La convergenza stocastica e teoremi

limite

10.1 La convergenza delle variabili aleatorie

SiaXn, n = 0, 1, 2, . . ., una successione infinita di variabili casuali definite in

un medesimo spazio di probabilitàΩ,F ,P. Per un fissatoω ∈ Ω, Xn(ω) ≡ xn

costituisce, al variare din, una successione di numeri reali che converge ad un

limite finito oppure risulta divergente. In generale la nozione di convergenza di

una successione casuale si presta a differenti interpretazioni. Una approfondita

trattazione dell’argomento è consultabile in [12], nel seguito daremo le definizioni

fondamentali utili allo studente per gli studi futuri; analogamente enunceremo,

omettendo la dimostrazione, proprietà e teoremi essenziali. Inizieremo col definire

la modalità di convergenza più debole.

294 Capitolo 10. La convergenza stocastica e teoremi limite

10.1.1 Convergenza in distribuzione

Definizione 10.1.1.Sia Fn una successione di funzioni di distribuzione; se

esiste una funzione di distribuzioneF tale che

limn→∞

Fn(x) = F (x)

in ogni puntox in cui F è continua, allora si dice cheFn convergein leggeo

in distribuzioneo debolmentea F e si usa la simbologia1 Fnw−→ F . SeXn

è una successione di variabili casuali edFn è la corrispondente successione

di distribuzioni di probabilità,Xn converge in distribuzione, o in legge, aX, se

esiste una variabile casualeX la cui funzione di distribuzione è tale cheFnw−→ F .

Per indicare cheXn converge in distribuzione aX si scrive

XnD−→ X.

Si noti che una data successione di funzioni di distribuzione potrebbe convergere

ad una funzione che non ha i requisiti per essere considerataessa stessa una legge

di distribuzione. Inoltre la convergenza in distribuzionenon implica né la con-

vergenza dei momenti né la convergenza delle corrispondenti funzioni di densità

di probabilità. Il seguente teorema, dimostrato da Scheffé2, mette in relazione la

convergenza in distribuzione con la convergenza della funzioni densità.

Teorema 10.1.1.SianoXnn∈N e X variabili casuali continue ed indichiamo

confn(x) edf(x) le rispettive funzioni di densità di probabilità. Se,∀x,

limn→∞

fn(x) = f(x)

allora

XnD−→ X.

1w sta perweakly(debolmente).2Per la dimostrazione si rimanda a: H. Scheffé:A useful convergence theorem for probability

distribution.Ann. Math. Stat. (1947), 434-438.

10.1 La convergenza delle variabili aleatorie 295

Per variabili casuali discrete e a valori interi, sussiste il teorema che enunciamo di

seguito.

Teorema 10.1.2.SianoXn eX variabili casuali discrete e a valori nell’insieme

dei numeri interi, allora

limn→∞

pn(x) = p(x) se e solo se XnD−→ X.

La convergenza in distribuzione gode delle seguenti proprietà. SeXnD−→ X e c è

una generica costante, ancheXn+ c converge in distribuzione aX + c; inoltre per

c 6= 0 si ha:cXnD−→ cX.

Osservazione10.1.1. SeXnD−→ X eg è una funzione reale continua ancheg (Xn)

converge in legge ag(X). La dimostrazione di questo risultato è riportata in: C.R.

Rao, “Linear statistical inference and its applications”,Wiley, 1965.

10.1.2 Convergenza in probabilità

La convergenza in probabilitàdefinisce un concetto di convergenza immediata-

mente più forte della convergenza in legge.

Definizione 10.1.2.SiaXn una successione di variabili casuali. La successione

Xn converge in probabilità alla variabile casualeX, definita nello stesso spazio

di probabilitàΩ,F ,P, se

limn→∞

P (|Xn −X| > ε) = 0 ∀ε > 0 . (10.1)

La convergenza in probabilità, in simboli, è espressa come:XnP−→ X.

Osservazione10.1.2. La definizione appena formulata non deve essere intesa nel-

l’ambito della convergenza nota dall’analisi matematica.In altri termini la con-

vergenza in probabilità diXn aX non implica che, datoε > 0, esista unn0 tale

che risulti|Xn − X| < ε pern > n0. Essa assicura solamente la convergenza a

zero della successione di probabilitàP (|Xn −X| > ε).

Osservazione10.1.3. Il limite X è unico nel senso che se si verificano contem-

poraneamente le condizioniXnP−→ X e Xn

P−→ Z allora, quasi certamente,

Z ≡ X:

PX − Z = 0 = 1 .

Osservazione10.1.4. La condizione (10.1) è equivalente alla seguente

limn→∞

P (|Xn −X| < ε) = 1 ∀ε > 0 . (10.2)

La convergenza in probabilità gode delle proprietà che elenchiamo nel seguito.

1. Vale la condizione necessaria e sufficiente:

XnP−→ X se e solo se Xn −X

P−→ 0 . (10.3)

2. XnP−→ X implica che Xn −Xm

P−→ 0 per n,m → ∞.

3. SeXnP−→ X eYn

P−→ Y alloraXn ± YnP−→ X ± Y .

4. Siac una costante, seXn converge in probabilità alla variabile casualeX,

cXn converge in probabilità acX.

5. Dalla condizioneXnP−→ c segue cheX2

nP−→ c2.

6. Sianoa e b due costanti, la convergenza in probabilità diXn ada e diYn a

b assicura che

XnYnP−→ ab. (10.4)

7. SianoX eY due variabili casuali, dalla convergenza in probabilità diXn a

X segue che

XnYP−→ XY. (10.5)

8. SeXn converge in probabilità aX eYn aY , la successione prodottoXnYn

converge in probabilità aXY

XnYnP−→ XY. (10.6)

Un caso particolare della (10.6) è

P−→ X2 se XnP−→ X. (10.7)

9. La seguente3 è ulteriore condizione necessaria e sufficiente:Xn converge in

probabilità se e solo se,∀ε, η > 0, esiste unn0 tale che

P |Xn −Xm| > ε < η ∀n,m > n0. (10.8)

Teorema 10.1.3.Sia g una funzione continua definita nell’insieme dei numeri

reali R, seXnP−→ X ancheg (Xn)

P−→ g(X).

Corollario 10.1.1. Sec è una costante, la condizioneXnP−→ c implica g (Xn)

P−→g(c), essendog una funzione continua.

I teoremi seguenti illustrano la relazione tra convergenzadebole e convergenza in

probabilità.

Teorema 10.1.4.Se la successioneXn converge in probabilità aX, vale anche la

proprietà:XnD−→ X.

Teorema 10.1.5.Sia c una costante; la convergenza in legge diXn a c implica

cheXnP−→ c.

Corollario 10.1.2. Fissata una costantec, XnD−→ c se e solo seXn

P−→ c.

3Vedi: M. S. Bartlett, “An introduction to stochastic processes”, Cambrige University Press,

È importante sottolineare che il corollario (10.1.2) non è valido se si sostituisce a

c una variabile casuale: in generale la convergenza in leggenon implicala con-

vergenza in probabilità. Grazie ad opportuni esempi si deduce che la convergenza

in probabilità non garantisce la convergenza, pern → ∞, di E[Xk

qualunque sia l’interok.

Enunciamo, infine, un teorema dovuto a Cramér4 utile in molte situazioni. Per

semplicità espressiva useremo il simbolo matematico⇒ per implica.

Teorema 10.1.6.Sia c una costante eXn, Yn una successione di coppie di

variabili casuali, si ha:

XnD−→ X, Yn

P−→ c ⇒ Xn ± YnD−→ X ± c , (10.9)

XnD−→ X, Yn

P−→ c ⇒

XnYnD−→ cX se c 6= 0 ,

XnYnP−→ 0 se c = 0 ,

(10.10)

XnD−→ X, Yn

P−→ c ⇒ Xn

D−→ X

cse c 6= 0 . (10.11)

10.1.3 Convergenza in mediar-ma

Definizione 10.1.3.SiaXn una successione di variabili casuali tale che, per un

dato interor ≥ 1, E (|Xn|r) < ∞. Essa convergein media di ordine rad una

variabile casualeX se

E [|X|r] < ∞ e limn→∞

E [|Xn −X|r] = 0 .

La convergenza in mediar-ma si indica conXnr−→ X.

Perr = 1 si ha la cosiddetta convergenza in media, ser = 2 in media quadratica.

In generale, se non altrimenti specificato, si considera il caso della convergenza in

4H. Cramér, “Mathematical methods of statistics”, Princeton University Press, 1946.

media quadratica che viene anche espressa dalla formula

l.i.m.n→∞

Xn = X.

Il teorema successivo afferma che la convergenza in mediar-ma è più forte della

convergenza in probabilità.

Teorema 10.1.7.SiaXn una successione di variabili casuali tale cheXnr−→ X

allora XnP−→ X.

Teorema 10.1.8.SeXn2−→ X allora, pern → ∞,

E [Xn] → E[X ] e E[X2

]→ E

Corollario 10.1.3. La convergenza in media quadratica diXn aX implica che

−−−→n→∞

Dimostrazione.Si haσ2Xn

= E [X2n]−E

2 [Xn]; passando al limite e tenendo conto

dei risultati del teorema (10.1.8) si dimostra la tesi.

Il limite nel senso della media quadratica è un operatore lineare. Vale, infatti, il

teorema:

Teorema 10.1.9.Se si verificano contemporaneamente le condizioni

l.i.m.n→∞

Xn = X e l.i.m.n→∞

Yn = Y

risulta anche

l.i.m.n→∞

(aXn + bYn) = aX + bX.

Concludiamo la trattazione della convergenza in media di ordine r ricordando

alcuni importanti risultati.

(i) Xm2−→ X, Yn

2−→ Y ⇒ E [Xm, Yn] → E[XY ];

(ii) Xm2−→ X, Yn

2−→ Y ⇒ ρXmYn→ ρXY ;

(iii) Xnr−→ X ⇒ E [|Xn|r] → E [|X|r];

(iv) Xnr−→ X ⇒ Xn

s−→ X, perr > s;

(v) Xnr−→ X ⇒ E [|Xn|s] → E [|X|s] pers ≤ r.

10.1.4 Convergenza quasi certa

Definizione 10.1.4.La successione di variabili casualiXn convergequasi cer-

tamenteo con probabilità1 ad una variabile casualeX se e solo se

P (ω : Xn(ω) → X(ω) pern → ∞) = 1 .

La notazioneXnq.c.−→ X indica la convergenza quasi certa.

La convergenza quasi certa è una modalità di convergenza piùforte delle prece-

denti, per questo motivo è talvolta chiamata anche convergenzaforte. Per rendere

più chiaro il concetto sotteso dalla convergenza forte consideriamo la realizzazio-

nex1, . . . , xn, . . . della sequenzaXn; xn può o convergere o non convergere in

senso ordinario ad un limitex. Se la probabilità che essa sia convergente è 1, allo-

ra diciamo cheXnq.c.−→ X. Una definizione equivalente, nella quale non compare

esplicitamente la variabile casuale limiteX, afferma che se∀(ε, η), esiste unn0

tale che,∀n > n0,

P (|Xn −Xm| > ε per almeno unm ≥ n) < η

10.2 Teorema limite locale 301

alloraXn converge quasi certamente.

Alcune delle più rilevanti proprietà della convergenza quasi certa sono elencate di

seguito5.

(a) Xnq.c.−→ X ⇔ limn→∞ P

supm≥n |Xm −X| > ε

= 0, ∀ε > 0 ;

(b) Xnq.c.−→ X ⇒ Xn

P−→ X;

(c) siaXn una successione strettamente decrescente di variabili casuali posi-

tive,XnP−→ 0 ⇒ Xn

q.c.−→ 0;

(d) sussiste il seguente criterio sufficiente per la convergenza forte:

E |Xn −X|p < ∞ per un certop > 0 ⇒ Xnq.c.−→ X ; (10.12)

(e) una condizione sufficiente alternativa è:

[ |Xn+1 −Xn|εn

< ∞, ove∑

εn < ∞. (10.13)

Non esiste nessuna condizione necessaria e sufficiente tra convergenza forte e

convergenza in media quadratica.

10.2 Teorema limite locale

Il calcolo della probabilitàb(k;n, p) dalla formula (4.1) comporta, per grandi va-

lori di n edk, notevoli difficoltà se non si utilizza un calcolatore elettronico. Non

5Il simbolo matematico⇔ sta perse e solo se. Inoltre la condizioni sufficienti sono riportate

nel libro di Bartlett citato in precedenza.

stupisce, pertanto, che in passato si sia presentata la necessità di sviluppare for-

mule asintotiche per il calcolo di questa probabilità con ungrado di accuratez-

za sufficientemente elevato. Nel caso particolare delle prove del Bernoulli con

p = q = 1/2, una formula che soddisfa sia i requisiti di semplicità che di ele-

vata approssimazione fu dimostrata nel 1730 dal matematicofrancese de Moivre;

successivamente Laplace generalizzò il risultato al caso generale di0 < p < 1.

Teorema 10.2.1(Teorema limite locale di de Moivre-Laplace). Se in uno sche-

ma del Bernoulli la probabilità di successo6 p ∈ (0, 1) e se il numero di prove

n → ∞, la probabilitàb(k;n, p) tende al valore

1√2πnpq

−(k − np)2

(10.14)

oveq = 1− p.

Il teorema limite locale7 afferma che la distribuzione di probabilità della variabile

casuale numero di successi inn prove del Bernoulli conp ∈ (0, 1), sen è molto

grande, è approssimata dalla legge di Gauss con medianp e varianzanpq. La

rappresentazione asintotica della distribuzione binomiale con la legge di Gauss

peggiora sempre di più via via che la probabilità elementarep si discosta da1/2. In

questi casi, affinché l’applicazione del teorema precedente dia errori trascurabili,

n deve essere veramente molto grande. In numerose applicazioni p ha un valore

dell’ordine di 1/10 o anche inferiore e quindi il problema è rilevante. In questi

casi una formula asintotica più affidabile, come abbiamo visto, fu determinata da

Poisson nel 1837 (vedi paragrafo 4.3). L’approssimazione di Poisson della legge

binomiale è un altro dei teoremi limite locale di grande valore pratico e storico.

Le tavole della densità di probabilitàn(z) della variabile normale standardizzataZ

6Ricordiamo che essa è per ipotesi costante.7Il lettore interessato trova in [6] una possibile dimostrazione basata sulla formula di Stirling.

10.3 Teorema limite integrale 303

rendono abbastanza agevole l’utilizzo del teorema limite locale. Ponendo, infatti,

z = (k − np)/√npq, la (10.14) diventa

b(k;n, p) ≈ 1√npq

1√2π

=1√npq

· n(z). (10.15)

Esempio 10.2.1.Sian = 104, k = 40 ep = 5 · 10−3, dal calcolo diretto si ottiene

b (40; 104, 5 · 10−3) ≈ 0.0197. Dal teorema appena dimostrato segue

b(k;n, p) ≈ 1√npq

· 1√2π

(k − np√

e, sostituendo i parametri assegnati, si ricava

√npq =

√104 · 5 · 10−3 · 0.995 =

√49.75 ≈ 7.05

ed inoltrek − np√

npq≈ −1.42 .

Di conseguenza abbiamo

b(k;n, p) ≈ 1

7.05·[

1√2π

2· 1.422

7.05· n(1.42).

Dalle tavole dellan(z) si han(1.42) = 0.1456 ed infine

b(k;n, p) ≈ 0.1456

7.05≈ 0.0206 .

10.3 Teorema limite integrale

Indichiamo come al solito conSn la variabile casuale numero di successi inn

prove del Bernoulli a parametrop; ricordiamo che essa ha medianp e varianza

npq. Introduciamo la variabile casuale standardizzata

S∗n =

Sn − np√npq

Vale il seguente teorema8.

Teorema 10.3.1(Teorema limite integrale di de Moivre-Laplace). Fissati due

numeri realiz1 ez2, ovez1 < z2, comen tende all’infinito la successione di varia-

bili casualiS∗n converge in distribuzione alla variabile normale standardizzata:

P (z1 6 S∗n 6 z2) →

1√2π

∫ z2

dz = N(z2)−N(z1). (10.16)

In particolare il precedente teorema afferma che per grandivalori di n la probabi-

lità a primo membro della (10.3.1) non dipende dap.

Percome è stata definitaS∗n, è possibile riscrivere la (10.16) come

P (np + z1√npq 6 Sn 6 np+ z2

√npq) → N(z2)−N(z1). (10.17)

Osservazione10.3.1. Il teorema 10.3.1 consente di dimostrare facilmente il teore-

ma di Bernoulli che abbiamo ricavato in precedenza grazie alla disuguaglianza di

Tchebycheff.

Valutiamo la probabilità connessa alla disuguaglianza|Sn/n− p| < ε, conε > 0

costante. Abbiamo

(∣∣∣∣

n− p

∣∣∣∣< ε

= P (|Sn − np| < nε) = P(−nε < Sn − np < +nε)

− nε√npq

<Sn − np√

npq< +

nε√npq

pq< S∗

n < +ε

Come conseguenza della precedente relazione si ha

limn→∞

(∣∣∣∣

n− p

∣∣∣∣< ε

=1√2π

∫ +∞

−∞

exp(−z2/2

)dz = 1 .

Quindi, comunque si fissi il valoreε > 0, la probabilità connessa alla disugua-

glianza|Sn/n− p| < ε tende ad1 pern che tende all’infinito.

8Per la dimostrazione il lettore faccia riferimento a [6] e [5].

10.3 Teorema limite integrale 305

Esempio 10.3.1.Calcoliamo la probabilità che il numero di volte che esce testa,

lanciando duecento volte una moneta, si discosti dal valoreatteso al più per cinque

uscite. Essendon = 200 e p = 1/2, si haE (S200) = 100; dobbiamo quindi

calcolare

P (95 6 S200 6 105) .

Determiniamoz1 e z2. Si ha

np+ z1√npq = 95

np+ z2√npq = 105

e, sostituendo gli opportuni valori numerici, otteniamo

100 + z1√50 = 95

100 + z2√50 = 105

ed infinez1 = −5/√50 e z2 = +5/

√50.

Per migliorare l’approssimazione, quando gli estreminp+z1√npq enp+z2

√npq

della disuguaglianza che compare a primo membro della (10.17) sono interi, si

sottrae1/2 a z1 e si somma la stessa quantità az2. Nel nostro caso si perviene

ai nuovi valori z1 = −5.5/√50 ≈ −0.7778 e z2 = +5.5/

√50 ≈ +0.7778.

Ricordando la simmetria dellan(z), abbiamoN(−0.7778) = 1 − N(0.7778) ed

infine

P (95 6 S200 6 105) ≈ 2 ·N(0.7778)− 1 ≈ 0.56331.

L’approssimazione è alla quarta cifra decimale, infatti dal calcolo diretto, appli-

cando la definizione di distribuzione binomiale, si ricava un valore all’incirca pari

a0.56325.

Esempio 10.3.2.Assumendon = 500 ep = 10−1, calcoliamo

P (50 6 S500 6 55) .

AbbiamoE (S500) = 50 e σS500 =√5 · 102 · 10−1 · 9 · 10−1 =

√45. Dalle

precedenti relazioni otteniamo

50 + z1√45 = 50

50 + z2√45 = 55

ed infine, tenendo conto della correzione prima menzionata,si ricavano i valori

z1 = −0.5/√45 ≈ −0.074 e z2 = 5.5/

√45 ≈ +0.82. Pertanto

P (50 6 S500 6 55) ≈ N(0.82)−N(−0.074)

= N(0.82) +N(0.074)− 1 ≈ 0.3235.

Il valore esatto dedotto applicando la distribuzione binomiale è all’incirca0.3176.

Anche se il numero di prove del Bernoulli è molto più alto di quello dell’esempio

precedente, l’approssimazione è stavolta sulla seconda cifra decimale e l’errore

è circa il due per cento. Questo effetto, come abbiamo già sottolineato, è dovu-

to al valore dip = 0.1 che si discosta di molto dal valorep = 0.5. In questo

caso l’approssimazione di Poisson fornisce valori maggiormente vicini al valore

teorico.

Esempio 10.3.3.Grazie alle relazioni (iii) e (iv) in 8.1.3 possiamo calcolare le

probabilitàP (Sn ∈ [E (Sn)± 2σSn]) e P (Sn ∈ [E (Sn)± 3σSn

]) assumendo che

n siaragionevolmente grande(≫ 100). Abbiamo

P (np− 2√npq 6 Sn 6 np+ 2

√npq)

≈∫ +2

n(z)dz = N(2)−N(−2) ≈ 0.9545

P (np− 3√npq 6 Sn 6 np+ 3

√npq)

≈∫ +3

n(z)dz = N(3)−N(−3) ≈ 0.9973.

10.4 Legge dei grandi numeri 307

10.4 Legge dei grandi numeri

È noto dall’esperienza che un evento con probabilità prossima a uno si verifica

quasi certamente, esso è comunemente ritenutopraticamente certo. Al contrario

eventi la cui probabilità sia prossima a zero avvengono assai raramente, un evento

assai poco probabile viene consideratopraticamente impossibile. Quanto deve

valere la probabilità di un evento affinché lo si possa ritenere praticamente certo

(praticamente impossibile)9? Una risposta univoca al precedente interrogativo non

esiste, essendo essa legata alla natura dell’evento in questione. Supponiamo, ad

esempio, di dover misurare la distanza tra due punti e che essa sia dell’ordine dei

chilometri. Se l’errore commesso nell’effettuare tale misura ha probabilità pari

a 0.02 di essere maggiore o uguale ad un metro, allora possiamo trascurare la

possibilità di un tale errore e considerare il valore ottenuto come sostanzialmente

corretto. Un valore di probabilità pari a0.02 in altre situazioni sperimentali non

può essere trascurato. Se, fissate le caratteristiche dei materiali utilizzati, sussiste

una probabilità del due per cento che, in determinate situazioni, il peso che la

struttura deve sopportare raggiunga un valore superiore alcarico di rottura della

stessa con conseguente crollo, è evidente che tale evento non possa essere ignorato

ed è necessario impiegare materiali con caratteristiche adeguate. È di volta in volta

quindi, in relazione al problema pratico che si sta esaminando, che va scelto il

criterio in base al quale considerare certi eventi come praticamente impossibili ed

altri come praticamente certi10. Per chiarire la differenza tra l’impossibilità teorica

e l’impossibilità pratica ricorriamo ad un esempio. Un mazzo di carte francesi

contiene trentasei carte di quattro semi differenti. Supposto che le carte siano ben

9Il contenuto del presente paragrafo è tratto in gran parte dal capitolo sesto del testo di

Gnedenko citato in bibliografia10A questo proposito il lettore ricordi le definizioni formalidi evento quasi certo e quasi

impossibile formulate nel paragrafo 1.3.5.

mescolate, la probabilità che, in una partita a quattro giocatori, nella prima mano

a ciascun giocatore siano servite carte tutte dello stesso seme è straordinariamente

bassa:(9!)4 · 4!

36!< 1.1 · 10−18.

Pur tuttavia una simile disposizione delle carte è stata registrata almeno una volta.

Da quanto detto appare chiaro come gli eventi di probabilitàprossima ad uno o

a zero siano di grande importanza sia dal punto di vista pratico che teorico. In

particolare sono state studiate a fondo leggi riguardanti probabilità prossima ad

uno soprattutto in quelle situazioni in cui il fenomeno osservato è il risultato della

sovrapposizione di un gran numero di effetti aleatori indipendenti o debolmente

dipendenti. Lalegge dei grandi numerisi inserisce in questo ambito teorico. Per

legge dei grandi numeri si intende l’insieme di tutte quelleproposizioni che af-

fermano che un dato evento, dipendente da un numero via via crescente di eventi

aleatori, ciascuno dei quali ha solo un debole effetto sull’evento in questione, si

verificherà con probabilità arbitrariamente prossima ad uno.

Di seguito riportiamo la formulazione generale dei teoremilegati alla legge dei

grandi numeri data da Gnedenko [6]. Sia data una successionedi variabili aleatorie

X1, X2, . . . , Xn, · · · (10.18)

e consideriamo le variabili aleatorie

Zn = fn (X1, X2, . . . , Xn) (10.19)

definite come funzioni simmetriche delle primen variabili casuali della succes-

sione (10.18). Se esiste una successione di costantia1, a2, . . . , an . . . tali che per

ogniε > 0

limn→∞

P (|Zn − an| < ε) = 1 (10.20)

allora la successione (10.18) verifica la legge dei grandi numeri relativamente alle

date funzionifn.

Abitualmente tuttavia si dà un significato più limitato allalegge dei grandi numeri,

ossia ci si limita ad analizzare quei casi in cui le funzionifn rappresentano la

media aritmetica delle variabiliX1, . . . , Xn.

Osservazione10.4.1. La (10.20) ci dice che la successioneZn − an converge in

probabilità a zero. Se tutte le grandezzean che compaiono nella (10.20) sono

uguali ad uno stesso valorea, diremo che le variabili aleatorieXn convergono in

probabilità ada (vedi paragrafo 10.1.2).

Osservazione10.4.2. Quando si studia un fenomeno fisico, questo viene osserva-

to assieme a tutti i fattori individuali che non sono intimamente collegati con la

natura del processo e compaiono solo sporadicamente producendo effetticasuali

sulla singola osservazione (misura). Si è osservato sperimentalmente che questi,

allorché viene considerata la media su un gran numero di osservazioni, tendono ad

annullarsi l’un l’altro rendendostatisticamente stabilela media calcolata. La leg-

ge dei grandi numeri è collegata a questo effettolivellatore caratteristico di quei

fenomeni fisici, che sono il risultato dellasommadi un gran numero dicontribu-

ti elementari. Chiariamo il concetto con un esempio. Un gas è costituito daun

enorme numero di particelle in costante moto caotico e, per ciascuna particella, è

impossibile predire con esattezza la posizione e la velocità in un determinato istan-

te. La pressione del gas è data dalla forza complessiva esercitata da tutte quelle

particelle che, nel loro insieme, colpiscono un’area unitaria nell’unità di tempo.

Il numero di urti e la velocità con la quale le varie particelle collidono varia ca-

sualmente, ma, in virtù della legge dei grandi numeri nella forma di Tchebycheff

che studieremo nel successivo paragrafo, la pressione11 può essere considerata co-

stante, fissate alcune condizioni come ad esempio la costanza della temperatura,

e questo fenomeno si osserva sperimentalmente con sorprendente regolarità. Il

valore del contributo teorico di Tchebycheff e degli altri studiosi a cui si devono i

11somma di un numero straordinariamente grande di contributielementari indipendenti

teoremi che saranno introdotti nel seguito consiste nel fatto che essi hanno deter-

minato le condizioni generali il cui verificarsi dà luogo alla stabilità statistica delle

quantità medie calcolate o osservate sperimentalmente.

10.4.1 Legge dei grandi numeri nella forma di Tchebycheff

Dimostriamo, ora, alcuni teoremi dovuti a Tchebycheff, Markov ed altri, seguendo

il metodo introdotto nel 1866 dallo stesso Tchebycheff (vedi [6]).

Teorema 10.4.1(Teorema di Tchebycheff). SiaXk una successione numera-

bile di variabili casuali non correlate12, aventi varianze finite13 e limitate da una

medesima costanteC, allora vale la relazione

limn→∞

(∣∣∣∣∣

Xk −1

E (Xk)

∣∣∣∣∣< ε

= 1 ∀ε > 0 . (10.21)

Dimostrazione.Indichiamo conµk il valore atteso e conσ2k la varianza diXk.

Osserviamo che vale la relazione

Dalle ipotesi fatte segue inoltre che

σ21/n

∑nk=1 Xk

12Nell’edizione inglese del libro di Gnedenko, l’autore ipotizza l’indipendenza a due a due delle

variabili casuali, in realtà questa ipotesi è troppo forte in quanto per la dimostrazione occorre che

siano verificate le condizioni per applicare la (7.17). Nell’edizione italiana [6] il terminepairwise

independentè stato tradotto erroneamente come indipendenza.13e l’ipotesi implica che leXk abbiano anche valore di aspettazione finito

e, essendo, per ogni interok, σ2k 6 C, si ha

σ21/n

∑nk=1 Xk

6 C/n.

In virtù della disuguaglianza di Tchebycheff (6.48) abbiamo

(∣∣∣∣∣

Xk −1

∣∣∣∣∣< ε

> 1−σ21/n

∑nk=1 Xk

ε2> 1− C

e, passando al limite pern → ∞, otteniamo

limn→∞

(∣∣∣∣∣

Xk −1

∣∣∣∣∣< ε

da cui segue la tesi del teorema non potendo, per definizione,la probabilità essere

maggiore di uno.

Nel paragrafo 6.2.2 abbiamo dimostrato il teorema del Bernoulli 6.2.4. Con ovvio

significato della terminologia, la relazione (6.50) afferma che lav-c frequenza

relativaYn ≡ Sn/n converge in probabilitàal valorep, la probabilità che l’evento

in studio ha di verificarsi. Ricordando cheSn =∑n

i=1Xi, oveµXi= p e σ2

pq 6 1/4, è facile convincersi che il teorema di Bernoulli è un caso particolare del

teorema di Tchebycheff14.

Osservazione10.4.3 (Alcune considerazioni sul teorema di Bernoulli). Poiché

è spesso necessario valutare, basandosi sull’esperienza sperimentale, probabilità a

priori incognite, è stata verificata in passato la validità del teorema di Bernoulli.

Lo schema seguito era il seguente. Sono stati considerati eventi di probabilità nota

per i quali era facile realizzare un gran numero di prove, potendo ritenere tali prove

indipendenti e costante la probabilità in ciascuna ripetizione. Illustriamo alcuni di

questi esperimenti paradigmatici, facilmente riproducibili.

14In questo caso, essendo le ripetizioni indipendenti, lev-cXk sono non correlate.

Nel XVIII secolo il naturalista francese Buffon ha lanciatouna moneta4040 volte

ottenendo testa2048 volte. Nell’esperimento di Buffon la frequenza di successo,

ove per successo si intende l’apparizione di testa, è approssimativamente uguale

a 0.507. Lo statistico inglese Karl Pearson ripetè l’esperimento lanciando12000

volte la moneta ottenendo testa6019 volte; in questo caso la frequenza di successo

è pari a0.5016. In una ulteriore ripetizione di24000 lanci testa apparve12012

volte, con una frequenza di successo pari a0.5005. Osserviamo che in tutti i casi

il risultato differiva di poco dal valore teorico della probabilità uguale a1/2.

Un altro esperimento facilmente riproducibile consiste nel dividere per cento volte

in due parti uguali un mazzo di trentasei carte francesi. La probabilità che le

diciotto carte che costituiscono una metà del mazzo siano esattamente nove rosse

e nove nere è

)·(189

) ≈ 0.26 .

L’esecuzione delle tagliate15 ha dato luogo a risultati che, all’inizio, si discostano

abbastanza dal valore teorico, successivamente la frequenza di successi oscilla

tra 0.23 e 0.25. È interessante calcolare la probabilità che il valore stimato dip,

attraverso la frequenza relativa osservata, differisca dal valore teoricop = 0.26 per

uno scostamento maggiore o uguale al due per cento. In virtù del teorema limite

integrale si ha

(∣∣∣∣

n− p

∣∣∣∣> 0.02

(∣∣∣∣

Sn − np√npq

∣∣∣∣> 0.02 ·

≈ 1− 2 ·N(

0.02 ·√

= 1− 2 ·N(

0.02 ·√

0.26 · 0.74

= 1− 2 ·N(0.455) ≈ 0.65 .

15I risultati ottenuti sono riportati, sia in grafico che in tabella, in [6].

Possiamo concludere che, ripetendo molte volte l’esperimento costituito dalle cen-

to tagliate, in circa i due terzi dei casi l’errore nella valutazione dip attraverso la

frequenza osservata dei successi non sarà inferiore al due per cento.

È importante notare che nell’enunciato del teorema di Bernoulli compare la fre-

quenza relativa con la quale l’evento si realizza e non il numero assoluto di rea-

lizzazioni dell’evento che può comunque fluttuare arbitrariamente. La probabilità

che sulla ruota di Napoli venga estratto il numero48 è

90= 1/18.

Il numero medio di estrazioni del48 è, quindi, una volta ogni diciotto, ma questo

non garantisce l’incauto scommettitore a puntare una fortuna se il numero non

è stato estratto nelle cinquanta estrazioni precedenti. Così quando una moneta

onesta lanciata sei volte mostra testa tutte le volte, la probabilità di osservare croce

nella successiva prova è sempre1/2; la legge dei grandi numerinon condiziona i

risultati dei lanci successivi per bilanciare il risultatodelle prime sei prove nelle

quali si è osservato sempre testa. È senz’altro vero che la probabilità di ottenere

per sette volte testa consecutivamente è piccola,0.57 ≈ 8 · 10−3, pur tuttavia

la probabilità di osservare croce al settimo lancio è ancora1/2. Se un delicato

intervento chirurgico ha una probabilità di successo di1/10, il decimo paziente

non trova conforto da fatto che le prime nove sono fallite.

Un altro teorema, che è un caso particolare della legge dei grandi numeri secondo

Tchebychef, è il seguente teorema di Poisson, ove conSn si indica il numero di

volte in cui si è verificato l’eventoA nelle primen prove.

Teorema 10.4.2(Teorema di Poisson). Se in una successione di prove indipen-

denti la probabilità che l’eventoA si verifichi nellak-esima prova èpk, allora

limn→∞

(∣∣∣∣∣

n− 1

∣∣∣∣∣< ε

= 1 ∀ε > 0 . (10.22)

Dimostrazione.Per lev-a Xk, che indicano il numero di volte che l’eventoA

si è verificato nellak-esima prova, valgono le relazioniµk = pk e σk 6 1/4.

Ricordando cheSn =∑n

k=1Xk, segue l’asserto.

Il teorema di Poisson ha un’importanza fondamentale nelle applicazioni pratiche

della teoria della probabilità. Infatti i metodi probabilistici si utilizzano molto

spesso per lo studio di fenomeni che non hanno possibilità diripetersi nelle me-

desime condizioni. Il mutare delle condizioni induce in ciascuna prova variazioni

del valore della probabilità associata all’evento di interesse. Ciò nonostante la fre-

quenza relativa dei successi tende in probabilità alla probabilità media dell’evento.

Una forma particolare del teorema di Tchebycheff, di dimostrazione immediata, è

la seguente.

Teorema 10.4.3.SiaXk una successione numerabile di variabili casuali non

correlate tali che

E (X1) = E (X2) = . . . = E (Xk) = . . . = µ

e, per ogni interok,

σ2k 6 C

allora per ogniε costante maggiore di zero

limn→∞

(∣∣∣∣∣

Xk − µ

∣∣∣∣∣< ε

= 1 . (10.23)

La (10.23) asserisce che, supponendo verificate le ipotesi poste, per un nume-

ro sufficientemente grande di prove indipendenti la media aritmetica dei valori

osservati di una variabile aleatoria converge in probabilità alla sua speranza mate-

matica. In altre parole pern sufficientemente grande la media aritmetica si com-

portaquasi come una grandezza non aleatoria16. Approfondiamo ulteriormente

16Il lettore ricordi quanto appreso nel corso di statistica circa la dipendenza da1/n della varianza

dellav-cmedia aritmetica.

questo concetto. Supponiamo di dover misurate una certa quantità fisicaµ, ad

esempio il carico di rottura di un cavo di acciaio, e che ripetendon volte tale mi-

surazione, sempre nelle medesime condizioni sperimentali, si ottengano i valori

x1, x2, . . . , xn lievemente differenti l’uno dall’altro. La regola comunemente usa-

ta consiste nell’assumere come valore approssimato diµ la media aritmetica dei

valori osservatixi:

Se le misure effettuate non presentano errori sistematici,ossia se è lecito assumere

cheE (X1) = E (X2) = . . . = E (Xn) = µ, allora, pern sufficientemente grande,

il teorema 10.4.3 assicura che in tal modo si può ottenere un valore arbitrariamente

vicino alla quantitàµ, con probabilità uno.

Il successivo teorema di Khinchin (1928) permette di ottenere un analogo risultato

presupponendo l’uguale distribuzione dellev-c Xi, ma senza porre vincoli sulle

varianze.

Teorema 10.4.4(Teorema di Khinchin). Se le variabili aleatorieX1, X2, . . .

sono indipendenti ed ugualmente distribuite con valore medio µ, allora

limn→∞

(∣∣∣∣∣

Xk − µ

∣∣∣∣∣< ε

= 1 ∀ε > 0 . (10.24)

Una semplice dimostrazione di questo teorema basata sulla funzione caratteristica

è riportata in [2]. Gnedenko [6] utilizza per la dimostrazione una tecnica dovuta a

Markov (1907) nota comemetodo del troncamento. Si rimanda ai testi citati per

gli approfondimenti.

Osservazione10.4.4. I teoremi precedentemente introdotti si prestano a numerose

applicazioni pratiche. Per un loro corretto uso occorre poter legittimamente porre

l’ipotesi che i fenomeni in studio siano il frutto di cause indipendenti. I mutamenti

delle condizioni esterne nelle quali il fenomeno si svolge inducono modificazio-

ni fenomenologiche alle quali il modello matematico deve adeguarsi. In prima

approssimazione si può in generale assumere che le cause cheagiscono sul fe-

nomeno sono indipendenti e trarre le dovute conseguenze dalmodello. In base

all’accordo tra risultati sperimentali e le previsioni dello schema teorico adottato

si valuta la bontà del modello stesso. Nel caso si osservino differenze sensibili tra

dati osservati e dati previsti si dovranno modificare le ipotesi di base, per esem-

pio rimuovere l’ipotesi di totale indipendenza a favore di una debole dipendenza.

L’esperienza sinora fatta sull’uso dei teoremi relativi alla legge dei grandi nume-

ri permette di affermare che l’ipotesi di indipendenza è soddisfatta nella maggior

parte dei più importanti problemi delle scienze naturali e tecnologiche.

Concludiamo il paragrafo enunciano un risultato dovuto a Markov. Se una succes-

sione di variabili casualiX1, X2, . . . è tale che

limn→∞

n2σ2∑n

k=1 Xk= 0

allora vale il teorema di Tchebyceff, come espresso dalla (10.21), per ogniε > 0.

10.4.2 Legge forte dei grandi numeri

Accade spesso di trarre conclusioni del tutto ingiustificate dalla legge debole dei

grandi numeri. Per esempio letture errate del teorema del Bernoulli portano a dire

che la frequenza di un eventoA tende alla probabilità diA quando il numero delle

prove cresceindefinitamente. Il teorema del Bernoulli stabilisce che per un nume-

ro n sufficientemente grande di prove la probabilità di unasingola disuguaglianza

|Sn/n − p| < ε diviene maggiore di1 − η per un arbitrarioη > 0. Per valori

n′ > n alcune frequenze relative potrebbero differire dal valoreteoricop per una

quantità maggiore di±ε. La legge dei grandi numeri nella forma di Tchebycheff17

17che denoteremo comelegge debole dei grandi numeri

si basa sul concetto di convergenza in probabilità; nel1909 il matematico francese

Emil Borel ha enunciato una proposizione assai più profonda, divenuta nota come

la legge forte dei grandi numeri18, nella quale compare la convergenza quasi certa.

Teorema 10.4.5(Teorema di Borel). Sia Sn il numero di volte che un evento

A accade inn prove indipendenti, in ciascuna delle qualiA ha probabilitàp di

verificarsi. Allora si ha

q.c.−→ p pern → ∞.

Cerchiamo di chiarire la differenza tra il teorema di Borel equello di Bernoulli.

Se la sequenzaSn/n obbedisce alla legge forte dei grandi numeri, ossia se vale il

teorema 10.4.5, comunque si sceglie un interok, la probabilità che la frequenza

relativaSn/n fuoriesca dall’intervallop ± ε è minore di un prefissatoη piccolo a

piacereper tutti i k lanci successivi all’n-esimo:

([∣∣∣∣

n− p

∣∣∣∣< ε

∩[∣∣∣∣

n + 1− p

∣∣∣∣< ε

∩ · · · ∩[∣∣∣∣

n+ k− p

∣∣∣∣< ε

· · ·)

< 1− η.

A partire dal teorema di Borel una serie di studi ha dimostrato la validità dei teo-

remi introdotti nel paragrafo precedente sostituendo in essi la convergenza quasi

certa alla convergenza in probabilità. In particolare ricordiamo un teorema dovu-

to a Kolmogorov nel quale si dimostra che il teorema di Tchebicheff vale nella

forma della legge forte dei grandi numeri, se la successionedi variabili casuali

mutuamente indipendentiXk soddisfa la condizione

∞∑

n2< +∞. (10.25)

18Per la dimostrazione vedi [6].

Osservazione10.4.5. Si noti che la (10.25) è senz’altro verificata se esiste una

costanteC tale cheσ2Xk

6 C, ∀k. Pertanto la legge forte dei grandi numeri vale

anche nel caso dello schema di Poisson (vedi il teorema 10.4.2).

Un ultimo teorema dovuto ancora a Kolmogorov afferma che l’esistenza del valore

medioµ è condizione necessaria e sufficiente affinché la legge fortedei grandi nu-

meri si possa applicare alla sequenza di variabili aleatorieX1, X2, . . . mutuamente

indipendenti ed identicamente distribuite (vedi il teorema di Khinchin 10.4.4).

10.4.3 Il teorema centrale del limite

Il teorema limite integrale 10.3.1 afferma che

P (z1 6 S∗n 6 z2) ≡ P

z1 6Sn − np√

npq6 z2

z1 6Sn − E (Sn)

→ 1√2π

∫ z2

dz = N(z2)−N(z1).

Se al solito conXi indico la v-c che nellai-esima prova del Bernoulli assume il

valore1 in caso di successo e0 nel caso di un insuccesso, la relazione precedente

diventa

∑ni=1 [Xi − E (Xi)]√∑n

i=1 σ2Xi

→ 1√2π

∫ z2

Ci si pone a questo punto una domanda molto naturale: quanto èforte il legame

tra il teorema limite integrale e le ipotesi sugli addendiXi? Se si impongono con-

dizioni più deboli alla legge di distribuzione dellev-aXi il teorema di de Moivre-

Laplace è ancora valido? La formulazione rigorosa e la risoluzione del problema

sono dovute essenzialmente a Tchebycheff, ai suoi allievi Markov e Ljapunov,

a Lévy ed a Lindeberg che dimostrarono, in varie forme, il cosiddetto Teorema

Centrale di Convergenza o Teorema Centrale del Limite (Central Limit Theorem).

Osservazione10.4.6. Il quesito posto è rivolto a stabilire la regolarità di cui go-

de la somma di un gran numero di variabili aleatorie indipendenti, ciascuna delle

quali ha un effetto trascurabile sulla somma. L’interesse applicativo del problema

matematico sopra menzionato è considerevole. Infatti molti fenomeni naturali e

sociali su larga scala sono il risultato dell’influenza di ungran numero di fattori

aleatori tra loro indipendenti, ciascuno dei quali, preso singolarmente, ha un effet-

to trascurabile sullo svolgimento del fenomeno macroscopico. L’osservatore non

è interessato all’effetto separato dei singoli fattori ma all’azione sovrapposta di

questi.

Sussiste il seguente teorema.

Teorema 10.4.6(Teorema centrale del limite di Lévy). Sia Xi una succes-

sione di variabili casuali indipendenti e identicamente distribuite con mediaµ

e varianzaσ2, ove0 < σ2 < ∞. PoniamoSn =∑n

i=1Xi, n = 1, 2, . . . e

Zn = (σ√n)−1 (Sn − nµ). Allora per ogni numero realez si ha

limn→∞

P (Zn 6 z) =(

1/√2π)∫ z

−∞

exp(−t2/2

)dt = N(z). (10.26)

La dimostrazione rigorosa del teorema di Lévy presuppone laconoscenza della

funzione caratteristica di unav-c, il lettore interessato consulti [2]. Se ci si limita al

caso in cui leXi siano dotate di una funzione generatrice dei momentiM(θ) finita

in |θ| < θ0 per un fissatoθ0 > 0, è possibile far ricorso nella dimostrazione alla

M(θ) in luogo della funzione caratteristica (vedi [13]). Si notiche l’esistenza di

M(θ) implica cheE(

|Xi|k)

< +∞ per tutti gli interik. Quest’ultima condizione

è molto più forte di quanto ipotizzato nella tesi del teorema. Ricordiamo, inoltre,

che sussiste una ulteriore formulazione del teorema centrale del limite dovuta a

Lyapunov che si basa sullacondizione di Lindeberge non presuppone che lev-a

siano identicamente distribuite. Il teorema di Ljapunov, che riguarda corsi avanzati

di teoria della probabilità, è descritto in [6].

Osservazione10.4.7. Il teorema di Lévy rappresenta un risultato notevole. Es-

so afferma che la distribuzione limite delle somme parzialistandardizzate è una

normale standard indipendentemente dalla legge di distribuzione delle variabili

casuali che compongono la somma a patto che esse rispettino le ipotesi poste.

Osservazione10.4.8. PoniamoX = Sn/n, la (10.26) dà luogo alla relazione

P (Zn 6 x) = P

(Sn − nµ

σ√n

dividendo pern il numeratore ed il denominatore della frazione

(X − µ

σ/√n

1/√2π) ∫ x

−∞

exp(−t2/2

)dt = N(x).

Dalla (10.26) ricaviamo che per grandi valori din si ha

P (a 6 Sn 6 b) = P

(a− nµ

σ√n

6 Zn 6b− nµ

σ√n

(b− nµ

σ√n

(a− nµ

σ√n

1/σ√2πn

)∫ b

exp[−(t− nµ)2/

(2nσ2

AsintoticamenteX ha una distribuzione normale con mediaµ e varianzaσ2/n ed

Sn tende ad una normale con medianµ e varianzanσ2.

Osservazione10.4.9. In virtù della (6.49b), perk > 1 si ha

(∣∣X − µ

∣∣

σ/√n

> 1− 1/k2. (10.27)

Dal teorema centrale del limite ricaviamo, pern grande,

(∣∣X − µ

∣∣

σ/√n

≈ 1√2π

e−x2/2dx. (10.28)

Rispetto alla (10.27), la (10.28) fornisce una stima più precisa della probabilità a

primo membro.

Bibliografia

[1] P. Baldi: Calcolo delle probabilità, McGraw-Hill, Milano, 2011.

[2] A. Buonocore, A. Di Crescenzo, L.M. Ricciardi:Appunti di probabilità,

Liguori editore, Napoli, 2011.

[3] H. Cramér:Mathematical methods of statistics, Princeton University Press,

Princeton, 1966.

[4] G. Dall’Aglio: Calcolo delle probabilità, Zanichelli editore, Bologna, 2003.

[5] W. Feller: An introduction to probability theory and its application, Vol. 1,

John Wiley and sons inc., New York, 1968.

[6] B. Gnedenko:Teoria della probabilità, Editori Riuniti, Roma, 1979.

[7] J.G. Kalbfleisch:Probability and statistical inference Vol. I, II, Springer-

Verlag, New York, 1979.

[8] A.N. Kolmogorov: Fundations of the theory of probability, Chelsea

Publishing Company, New York, 1956. [traduzione della monografia

Grundbegriffe der Wahrscheinlichkeitsrechnung, 1933.]

322 Bibliografia

[9] A. Papoulis: Probability, random variables and stochastic processes,

McGraw-Hill Series in Electrical Enginering, New York, 1991.

[10] E. Parzen:Modern probability theory and its application, John Wiley and

sons, New York, 1992.

[11] P.E. Pfeiffer:Concepts of probability theory, McGraw-Hill Book Company,

New York, 1965.

[12] V.K. Rohatgi: An introduction to probability theory and mathematical

statistics, John Wiley and sons, New York, 1976.

[13] V.K. Rohatgi:Statistical inference, John Wiley and sons, New York, 1984.

Lezioni CalcProb A

Documents