Post on 15-Jul-2016
description
transcript
Lezioni di Calcolo delle Probabilità
Giuseppe Nolfe
a.a. 2014-2015
Università degli Studi del Sannio
Facoltà di Scienze Economiche ed Aziendali
Corso di Laurea in Scienze Statistiche e Attuariali
Indice
Elenco delle figure xii
1 Definizione assiomatica di probabilità 1
1.1 Concetti introduttivi . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 Oggetto della teoria della probabilità . . . . . . . . . . . .1
1.1.2 Gli eventi . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.3 Unione ed intersezione di eventi . . . . . . . . . . . . . . 10
1.1.4 Alcune relazioni fondamentali . . . . . . . . . . . . . . . 17
1.1.5 Successioni di eventi e loro limiti . . . . . . . . . . . . . . 19
1.2 Strutture algebriche di interesse probabilistico . . . .. . . . . . . 23
1.2.1 La struttura degli eventi . . . . . . . . . . . . . . . . . . . 23
1.2.2 Laσ-algebra di BorelB . . . . . . . . . . . . . . . . . . . 28
1.3 La probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.3.1 Considerazioni preliminari . . . . . . . . . . . . . . . . . 28
1.3.2 Gli assiomi di Kolmogorov . . . . . . . . . . . . . . . . . 32
1.3.3 Prime conseguenze degli assiomi . . . . . . . . . . . . . . 36
1.3.4 Il teorema di equivalenza . . . . . . . . . . . . . . . . . . 44
1.3.5 Eventi quasi certi ed eventi quasi impossibili . . . . . .. . 45
2 Spazi campionari discreti 47
2.1 Applicazione della definizione di Kolmogorov al caso discreto . . 47
2.1.1 Esiti equiprobabili . . . . . . . . . . . . . . . . . . . . . 48
2.2 Alcune situazioni specifiche e richiami di calcolo combinatorio . . 51
2.2.1 Coppie edr-ple . . . . . . . . . . . . . . . . . . . . . . . 51
2.2.2 Il campionamento . . . . . . . . . . . . . . . . . . . . . . 54
2.2.3 Campione ordinato . . . . . . . . . . . . . . . . . . . . . 55
2.2.4 Campione non ordinato . . . . . . . . . . . . . . . . . . . 58
2.2.5 Coefficiente multinomiale . . . . . . . . . . . . . . . . . 62
2.3 Problemi di occupazione . . . . . . . . . . . . . . . . . . . . . . 65
2.3.1 Statistiche di Bose-Einstein e Fermi-Dirac . . . . . . . .. 74
2.4 Distribuzione ipergeometrica . . . . . . . . . . . . . . . . . . . . 75
3 Condizionamento ed indipendenza di eventi 79
3.1 Probabilità condizionata . . . . . . . . . . . . . . . . . . . . . . . 79
3.1.1 La legge di Bayes . . . . . . . . . . . . . . . . . . . . . . 84
3.2 Indipendenza stocastica . . . . . . . . . . . . . . . . . . . . . . . 92
3.2.1 La rovina del giocatore . . . . . . . . . . . . . . . . . . . 98
3.2.2 Il lemma di Borel e Cantelli . . . . . . . . . . . . . . . . 105
3.2.3 Esperimenti indipendenti e spazio campionario prodotto . 108
4 La distribuzione binomiale e la distribuzione di Poisson 111
4.1 Le prove del Bernoulli . . . . . . . . . . . . . . . . . . . . . . . 111
4.2 La distribuzione binomiale . . . . . . . . . . . . . . . . . . . . . 113
4.3 Distribuzione di Poisson . . . . . . . . . . . . . . . . . . . . . . 119
4.4 Tempi di attesa in prove del Bernoulli . . . . . . . . . . . . . . . 124
4.5 La distribuzione multinomiale . . . . . . . . . . . . . . . . . . . 129
5 Variabili aleatorie 133
5.1 Il concetto di variabile casuale . . . . . . . . . . . . . . . . . . . 133
5.1.1 Considerazioni preliminari . . . . . . . . . . . . . . . . . 133
5.1.2 Definizione di variabile casuale . . . . . . . . . . . . . . . 135
5.2 La funzione di distribuzione . . . . . . . . . . . . . . . . . . . . 139
5.3 Variabili aleatorie discrete . . . . . . . . . . . . . . . . . . . . . .145
5.3.1 Alcune variabili casuali discrete . . . . . . . . . . . . . . 149
5.4 Variabili aleatorie assolutamente continue . . . . . . . . .. . . . 151
5.5 Variabili casualin-dimensionali . . . . . . . . . . . . . . . . . . 161
5.5.1 Distribuzioni marginali . . . . . . . . . . . . . . . . . . . 167
5.5.2 Distribuzioni condizionate . . . . . . . . . . . . . . . . . 168
5.6 Indipendenza di variabili casuali . . . . . . . . . . . . . . . . . .173
5.7 Funzioni di una variabile casuale . . . . . . . . . . . . . . . . . . 174
5.7.1 Il metodo delle trasformazioni . . . . . . . . . . . . . . . 180
5.8 Somme, prodotti e rapporti di variabili casuali . . . . . . .. . . . 185
5.8.1 Somma di due variabili casuali . . . . . . . . . . . . . . . 186
5.8.2 Differenza di due variabili casuali . . . . . . . . . . . . . 188
5.8.3 Prodotto di due variabili casuali . . . . . . . . . . . . . . 189
5.8.4 Rapporto di due variabili casuali . . . . . . . . . . . . . . 192
5.8.5 Variabili casuali indipendenti ed alcuni esempi . . . .. . 194
5.9 Funzioni di un vettore casuale . . . . . . . . . . . . . . . . . . . 197
6 Caratteristiche numeriche delle variabili aleatorie 213
6.1 Valore medio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
6.2 Momenti di ordine superiore . . . . . . . . . . . . . . . . . . . . 223
6.2.1 La varianza di una variabile casuale . . . . . . . . . . . . 225
6.2.2 La disuguaglianza di Tchebycheff e il teorema di Bernoulli 236
6.3 Ulteriori misure di tendenza centrale e dispersione . . .. . . . . . 239
6.3.1 Valori caratteristici di forma . . . . . . . . . . . . . . . . 240
7 Momenti di variabili casuali multidimensionali 243
7.1 Momenti congiunti . . . . . . . . . . . . . . . . . . . . . . . . . 243
7.1.1 Covarianza e correlazione . . . . . . . . . . . . . . . . . 246
7.2 Alcune disuguaglianze notevoli . . . . . . . . . . . . . . . . . . . 249
7.2.1 La disuguaglianza di Cauchy e Schwarz . . . . . . . . . . 250
7.3 Momenti condizionati . . . . . . . . . . . . . . . . . . . . . . . . 252
7.3.1 Somma di un numero casuale di variabili aleatorie indi-
pendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
8 La legge di Gauss ed alcune distribuzioni collegate 257
8.1 Proprietà della densità normale . . . . . . . . . . . . . . . . . . . 258
8.1.1 Momenti della distribuzione normale . . . . . . . . . . . . 266
8.1.2 La variabile casuale lognormale . . . . . . . . . . . . . . 267
8.2 Distribuzione Gamma . . . . . . . . . . . . . . . . . . . . . . . . 268
8.2.1 La variabile casuale chi-quadrato . . . . . . . . . . . . . . 270
8.3 Distribuzione Beta . . . . . . . . . . . . . . . . . . . . . . . . . . 273
9 Funzioni generatrici 275
9.1 Funzione generatrice dei momenti . . . . . . . . . . . . . . . . . 275
10 La convergenza stocastica e teoremi limite 293
10.1 La convergenza delle variabili aleatorie . . . . . . . . . . .. . . . 293
10.1.1 Convergenza in distribuzione . . . . . . . . . . . . . . . . 294
10.1.2 Convergenza in probabilità . . . . . . . . . . . . . . . . . 295
10.1.3 Convergenza in mediar-ma . . . . . . . . . . . . . . . . . 298
10.1.4 Convergenza quasi certa . . . . . . . . . . . . . . . . . . 300
10.2 Teorema limite locale . . . . . . . . . . . . . . . . . . . . . . . . 301
10.3 Teorema limite integrale . . . . . . . . . . . . . . . . . . . . . . 303
10.4 Legge dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . 307
10.4.1 Legge dei grandi numeri nella forma di Tchebycheff . .. 310
10.4.2 Legge forte dei grandi numeri . . . . . . . . . . . . . . . 316
10.4.3 Il teorema centrale del limite . . . . . . . . . . . . . . . . 318
Elenco delle figure
1.1 Rappresentazione di una partizione mediante un diagramma di Venn. 13
1.2 Partizione di un eventoE. . . . . . . . . . . . . . . . . . . . . . . 14
1.3 Partizione dell’eventoA prodotta dall’intersezione con una parti-
zione diΩ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4 Relazione Fondamentale. . . . . . . . . . . . . . . . . . . . . . . 18
4.1 Distribuzione Binomiale. . . . . . . . . . . . . . . . . . . . . . . 115
4.2 Distribuzione di Poisson. . . . . . . . . . . . . . . . . . . . . . . 122
4.3 Grafico di(1 + λ)e−λ in funzione diλ. . . . . . . . . . . . . . . . 124
5.1 Misura di probabilità indotta suR dallav-aX. . . . . . . . . . . . 138
5.2 P(a 6 X 6 b) ≡∫ b
af(x)dx ≡ area sottesa daf(x) traa e b. . . . 154
5.3 f(x)∆x ≈ P(x 6 X 6 x+∆x). . . . . . . . . . . . . . . . . . . 155
5.4 Densità di probabilità esponenziale. . . . . . . . . . . . . . . .. 157
5.5 Funzione di distribuzione esponenziale. . . . . . . . . . . . .. . 158
5.6 (x1 < X 6 x2, y1 < Y 6 y2) ≡ (X, Y ) ∈ (x1, x2]× (y1, y2]. . . . 164
5.7(X1/2 6 y
). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
5.8 (− ln(X) 6 y). . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
5.9 g(x) funzione crescente. . . . . . . . . . . . . . . . . . . . . . . 181
5.10 g(x) funzione decrescente. . . . . . . . . . . . . . . . . . . . . . 182
5.11 Dominio di integrazione della (5.79) per il calcolo diFX+Y (z). . . 186
5.12 Dominio di integrazione della (5.79) per il calcolo diFY−X(z). . . 188
5.13 Dominio di integrazione,D, della (5.79) per il calcolo diFXY (z)
ovez è un numero realepositivo. . . . . . . . . . . . . . . . . . . 190
5.14 Dominio di integrazione,D, della (5.79) per il calcolo diFXY (z)
per ogniz numero realenegativo. . . . . . . . . . . . . . . . . . . 191
5.15 Dominio di integrazione,D, della (5.79) per il calcolo diFY/X(z)
perz numero realepositivo. . . . . . . . . . . . . . . . . . . . . . 193
5.16 Dominio di integrazione,D, della (5.79) per il calcolo diFY/X(z)
conz numero realenegativo. . . . . . . . . . . . . . . . . . . . . 194
5.17 Significato geometrico del modulo di un prodotto vettoriale. . . . 203
5.18 R ⊂ A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
5.19 S ⊂ D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
5.20 A ≡ (x1, x2) : fX1X2(x1, x2) > 0. . . . . . . . . . . . . . . . . 208
5.21 D ≡ (u1, u2) : fU1U2(u1, u2) > 0. . . . . . . . . . . . . . . . . 209
6.1 Funzione di densità di Pareto. . . . . . . . . . . . . . . . . . . . . 235
8.1 Funzione di densità div-cnormali con la stessa media e differente
varianza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
8.2 Funzione di densità div-c normali con la media diversa e identica
varianza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
8.3 Funzione di densitàn(x) dellav-c normale standardizzata. . . . . 262
8.4 Funzione di distribuzioneN(x) dellav-c normale standardizzata. . 263
CAPITOLO 1
Definizione assiomatica di
probabilità
1.1 Concetti introduttivi
1.1.1 Oggetto della teoria della probabilità
Spesso lo scopo della ricerca scientifica è la formulazione di una adeguata descri-
zione matematica di un fenomeno naturale o di un processo artificiale. L’idea-
lizzazione matematica di un fenomeno osservabile viene genericamente chiamata
Modello. I fenomeni che possono essere osservati, siano essi naturali o artificiali,
si suddividono in due categorie fondamentali: fenomenideterministicie fenome-
ni casuali o aleatori1. Un fenomeno è detto deterministico se, note le condizioni
iniziali del sistema al quale esso si riferisce, è possibileprevederne esattamen-
te l’evoluzione. In questo caso il modello che descrive il fenomeno in studio è
1Aleain latino indica il dado, l’aggettivoaleatoriusè traducibile comeriguardante il gioco dei
dadio d’azzardo
2 Capitolo 1. Definizione assiomatica di probabilità
una legge matematica. Consideriamo il sistema solare, il moto dei pianeti intorno
al sole è descritto dalle leggi di Keplero che rappresentanola idealizzazione ma-
tematica di questo particolare fenomeno naturale. Esse, fissata una determinata
configurazione iniziale, consentono non solo di prevedere con precisione le posi-
zioni relative dei pianeti nel futuro ma anche di calcolare le traiettorie seguite nel
passato. La legge di Ohm è un ulteriore esempio di modello deterministico: in un
circuito elettrico composto da un resistoreR alimentato da una tensione continua
V , la correnteI che fluisce nel circuito è legata alla tensione applicata ed alla re-
sistenza del carico dalla relazione:V = R · I. Una massa soggetta ad una forza
e libera di muoversi nello spazio segue una traiettoria che può essere calcolata a
partire dalla seconda legge della dinamica,−→f = m · −→a , se è nota sia la posizio-
ne che la velocità iniziale della massam. Diversamente da quanto avviene per i
fenomeni deterministici, per i fenomeni casuali non è possibile stabilire una legge
matematica che ne descriva l’evoluzione futura anche essendo nota la storia pas-
sata del sistema. Per tali fenomeni si adottano i cosiddettimodelli probabilistici2
o stocastici. Supponiamo di lanciare più volte una moneta; non vi è possibilità di
prevedere con esattezza l’esito del lancio anche se è noto l’esito di tutti i lanci pre-
cedenti. Un esempio analogo è costituito dalla previsione del sesso di un neonato,
noto il sesso dei bambini precedentemente nati nello stessopresidio ospedaliero.
In entrambi gli esempi precedenti, lanciando ripetutamente la moneta o registran-
do il sesso dei neonati per un lungo periodo di tempo, si osserva che la frazione di
esiti testa, o di neonati di sesso maschile, è circa12. Questo comportamento a lun-
go termine è chiamatoregolarità statistica. I fenomeni casuali che esibiscono una
regolarità statistica possono essere descritti con modelli di tipo probabilistico nei
quali l’evoluzione del sistema in studio non è descritto da una legge matematica
ma si determinano relazioni probabilistiche fra le possibili osservazioni.
2Probabilità, dal latinoprobabilitas[probabilis + -tas]; l’aggettivo probabilis può essere inteso
comericco di prove, facile da dimostrare, verificabile.
1.1 Concetti introduttivi 3
Il modello deterministico costituisce, molto spesso, un modello di prima appros-
simazione di un fenomeno nel quale a rigore dovrebbero essere contemplate le
variazioni casuali di alcuni parametri. Si consideri il tiro di una batteria di arti-
glieria contro un bersaglio fisso. Stimata la posizione del bersaglio, il direttore
del tiro determina l’angolo di inclinazione del cannone basandosi sulle leggi della
meccanica newtoniana, che si applicano al moto di un proiettile nel vuoto sogget-
to ad un impulso iniziale ed alla forza di gravità. In realtà sul proiettile agiranno
fattori casuali come l’attrito dell’aria e l’azione del vento, che dipendono dalle mu-
tevoli condizioni atmosferiche variabili in maniera imprevedibile sia nello spazio
che nel tempo; considerato, inoltre, che la posizione del bersaglio, l’inclinazio-
ne del cannone e la velocità iniziale del proiettile sono noti con un determinato
margine di errore, non stupisce che molti colpi non vadano a segno, nonostante il
carattere deterministico delle leggi della meccanica classica. Pertanto la descrizio-
ne più aderente alla realtà del processo di tiro può avveniresecondo un modello
probabilistico ovvero nei termini del calcolo della probabilità di centrare uno o
più volte il bersaglio o di non colpirlo affatto. Un altro esempio è costituito dalla
determinazione del peso di una data quantità di un composto chimico mediante
una bilancia automatica di alta precisione. Se si ripete la procedura di pesata più
volte si ottengono valori che non sono rigorosamente costanti ma che differisco-
no tra loro di piccole quantità variabili. Tali fluttuazionisono dovute all’azione
combinata di numerosi fattori, quali ad esempio, la posizione del corpo da pesare
sul piatto della bilancia, fenomeni vibratori accidentalie, cosa fondamentale, gli
errori della stima delle indicazioni della bilancia.
Si potrebbe d’altro canto sostenere che molti fenomeni fisici non sono veramente
casuali; infatti una più approfondita conoscenza dei meccanismi di base potrebbe
condurre alla elaborazione di un modello matematico preciso. La classificazione
dei fenomeni fisici come fenomeni casuali o deterministici èquindi spesso oggetto
di discussione. In termini pratici la decisione di elaborare un modello deterministi-
4 Capitolo 1. Definizione assiomatica di probabilità
co o probabilistico per il fenomeno in studio è basata sulla possibilità di riprodurre
i dati attraverso esperimenti controllati. Se un esperimento, ripetuto molte volte,
produce gli stessi risultati, nei limiti dell’errore di misura, allora è ipotizzabile l’e-
laborazione di un modello deterministico. Quando ciò non avviene il fenomeno è
considerato, per sua natura, casuale.
1.1.2 Gli eventi
Per esperimento si intende una generica procedura3 che genera dati numerici. Si
definisceesperimento casuale, E , un esperimento che soddisfa le seguenti condi-
zioni:
1. tutti i possibili esiti sperimentali sono noti a priori, nel senso che sono ben
definiti o precisabili prima dell’esecuzione dell’esperimento;
2. l’esito di una determinata esecuzione dell’esperimentonon è prevedibile a
priori (casualità);
3. l’esperimento può essere ripetuto in analoghe condizioni;
4. ripetendo l’esperimento un gran numero di volte è possibile stabilire una
regolarità statistica.
Ogni singola esecuzione di un esperimento casuale viene detta prova. Esempi di
esperimenti casuali sono: il lancio di una moneta, l’estrazione di una carta da un
mazzo di carte francesi, la misura del tempo di funzionamento di un componente
elettronico, la determinazione della glicemia di pazientidiabetici, la misura del
tempo di attesa di un paziente in pronto soccorso prima che gli siano praticate
le prime cure, la misura della quantità di grano prodotta perettaro e per tipo di
3La procedura può aver luogo spontaneamente o essere realizzata intenzionalmente.
1.1 Concetti introduttivi 5
fertilizzante in una data area di produzione, la quotazionein borsa di un titolo
azionario, il prezzo del petrolio su mercato di Londra e cosìvia.
Si consideri un esperimento casuale; si definiscespazio campionario, o spazio
campioneo spazio delle proveo spazio dei campioni, l’insieme dei possibili esiti
delle prove. Lo spazio campionario è tradizionalmente indicato con la lettera greca
Ω. I possibili risultati dell’esperimento vengono dettipunti campionari, o punti
campione, o esiti elementari. Un punto campione è denotato dalla letteraω. Uno
spazio campionario può essere discreto, finito o numerabile, oppure continuo.
Definizione 1.1.1.Uno spazio campionarioΩ associato ad un esperimento casua-
le E , è un insieme di elementiω, i punti campionari, che verificano le seguenti
condizioni:
- ciascunω ∈ Ω denota un esito dell’esperimento;
- ciascuna esecuzione dell’esperimento produce un risultato al quale è asso-
ciato un singolo elementoω ∈ Ω.
Esempio 1.1.1. Lancio di una moneta
I possibili esiti sperimentali associati al lancio di una moneta sono solamente due:
testa e croce; pertanto si ha:Ω = T, C. Se la moneta viene lanciata due volte di
seguito, lo spazio campionario è dato da:
Ω = TT, CC, TC,CT.
Se si è interessati al numero di volte che esce testa lanciando consecutivamenten
volte una moneta, lo spazio campionario è costituito dai numeri naturali da0 adn:
Ω = 0, 1, 2, . . . , n− 1, n.
6 Capitolo 1. Definizione assiomatica di probabilità
Esempio 1.1.2. Lancio di una moneta fino a quando non appare testa
L’esperimento consiste nel lanciare la moneta fintanto che non appaia testa. Lo
spazio campionario è l’insieme infinito e numerabile:
Ω = T, C, CT, CCT, CCCT,CCCCT,CCCCCT, . . ..
Infatti se si è fortunati testa può comparire al primo tentativo, essendo particolar-
mente sfortunati l’esito testa potrebbe realizzarsi dopo moltissimi lanci, o anche
mai (possibilità solo teorica !).
Esempio 1.1.3. Tempo di funzionamento di un componente elettronico
Supponiamo di selezionare a caso un componente elettronicoprodotto da una dit-
ta, di immetterlo in una apparecchiatura di prova e di verificare il tempot du-
rante il quale esso funziona correttamente. Lo spazio campionario4 è costituito
dall’insieme dei numeri reali compresi tra zero ed infinito:
Ω = t : t > 0 ≡ [0,+∞).
L’aver associato ad ogni esperimento casualeE uno spazio campionarioΩ, con-
sente di definire formalmente il concetto dievento.
Definizione 1.1.2.Un eventoE è un sottoinsieme diΩ.
Un sottoinsieme diΩ costituito da un solo punto campionarioω è spesso chia-
mato evento semplice5 o ancheevento elementare. Quando il risulatoω del-
l’esperimento casualeE appartiene adE, si dice che l’eventoE si verifica o
occorre.
4In questo casot svolge il ruolo diω.5Pertanto è preferibile evitare di chiamare eventi semplicii punti dello spazio campione; alcuni
di essi potrebbero non essere eventi come vedremo in seguito.
1.1 Concetti introduttivi 7
Osservazione1.1.1. Non tutti i sottoinsiemi diΩ sono eventi; affinchè un generico
sottoinsieme diΩ sia un evento esso deve essereosservabile, in altre parole deve
esistere la possibilità di decidere, inequivocabilmente,se quest’ultimo si sia veri-
ficato oppure no, ovvero se il generico risultatoω della prova appartenga(ω ∈ E)
o non appartenga adE (ω /∈ E).
Esempio 1.1.4. Lancio di un dado
Nel caso del lancio di un dado, lo spazio campionario è costituito da sei punti
campione, si ha:Ω = 1, 2, 3, 4, 5, 6. L’evento numero pari è il sottoinsieme
E = 2, 4, 6. Se il lancio dà come esitoω2 = 2 o ω4 = 4 oppureω6 = 6si dice cheE si è verificato.
In generale un evento è definibile anche da una proposizione.L’evento, infatti, oc-
corre se la proposizione circa l’esito della prova è vera. Viceversa una proposizio-
ne circa gli elementi dello spazio campionario definisce un insieme. Indichiamo
conπE(ω) una proposizione riguardo gli elementiω ∈ Ω e siaE il sottoinsieme di
Ω costituito dagli eventi elementari per i qualiπE(ω) è vera. Si usa la rappresenta-
zione simbolicaE = ω : πE(ω) per affermare cheE è l’insieme di tutti i punti
campione per i quali la proposizioneπE(ω) è vera.L’eventoE occorre se e solo
se il risultato dell’esperimentoω appartiene all’insiemeE. L’esempio seguente
chiarisce quanto appena esposto.
Esempio 1.1.5. Lancio ripetuto di una moneta
Se si lancia per tre volte una moneta, lo spazio campionario ècostituito da otto
punti campione, si ha:
Ω = CCC︸ ︷︷ ︸
ω1
, CCT︸ ︷︷ ︸
ω2
, CTC︸ ︷︷ ︸
ω3
, TCC︸ ︷︷ ︸
ω4
, CTT︸ ︷︷ ︸
ω5
, TCT︸ ︷︷ ︸
ω6
, TTC︸ ︷︷ ︸
ω7
, TTT︸ ︷︷ ︸
ω8
.
La proposizioneπE(ω), la sequenza di lanci rappresentata daω ha una testa al
secondo lancio, individua l’evento che al secondo lancio si osserva testa:
T2 = ω3, ω5, ω7, ω8.
8 Capitolo 1. Definizione assiomatica di probabilità
Se l’esperimento casuale dà come esitoω3 oω5 o ω7 oppureω8, si dice cheT2 si è
verificato.
AnalogamneteT1 = ω4, ω6, ω7, ω8 corrisponde all’evento individuato dalla pro-
posizioneuna testa occorre al primo lancio.
Osservazione1.1.2. Quanto prima esposto costituisce un primo fondamentale pas-
so verso una formulazione matematica dei fenomeni probabilistici. Abbiamo, in-
fatti, posto in relazione tra loro aspetti del mondo reale e componenti del modello.
Le associazioni finora stabilite sono:
- possibili esiti di una provavsspazio campionarioΩ;
- eventovssottoinsiemeE di Ω;
- occorrenza di un eventovsω ∈ E.
Prima di proseguire nell’esposizione, è necessario approfondire la differenza tra
punto campionario (esito elementare)ω ed evento elementareω. Quando si ese-
gue una prova dell’esperimentoE , si osserva un singolo esito elementareω ma
possono essersi verificati eventi tra loro diversi. Se nel lanciare contemporaneamte
due dadi si osserva la coppia di numeri(2, 4), ω = 24, l’esito elementare ottenu-
to può suggerire il realizzarsi di numerosi eventi tra loro distinti. Elenchiamone
alcuni:
1. il punteggio ottenuto è sei;
2. il punteggio ottenuto è minore di sette;
3. la somma dei due numeri è pari;
4. nessun numero dispari è apparso;
5. entrambi i dadi mostrano numeri pari;
1.1 Concetti introduttivi 9
Pur essendo unico l’esito sperimentale osservato,ω = 24, si sono relizzati tutti
i predetti eventi. Infatti, tra gli altri, il primo evento coincide con il sottoinsieme
15, 51, 24, 42, 33, il secondo evento, a sua volta, è formato dai punti campionari
11, 12, 13, 14, 15, 21, 22, 23, 24, 31, 32, 33, 41, 42, 51.
È quindi importante considerare come separate la nozione diesito elementare, o
punto campionario,ω e quella di evento elementareω, così come nella teoria
degli insiemi, dato un insiemeΞ, si distingue tra un elementoξ ∈ Ξ ed un sot-
toinsiemeξ ⊂ Ξ. Si noti che Kolmogorov, nei suoi lavori fondamentali (vedi
[8]) nei quali formulò la teoria assiomatica della probabilità, con la dicitura evento
elementare indica un punto campionarioω e non riserva alcun termine particolare
per individuare l’eventoω. Siccome molti autori si rifanno alla terminologia
originaria di Kolmogorov, è bene che il lettore sia avvertito di ciò.
Gli eventi come abbiamo già detto sono insiemi contenuti inΩ. Dire che l’evento
E si verifica significa dire che il risultato della prova è un punto di E. Poichè
il risultato della prova appartiene certamente adΩ, ancheΩ è un evento; esso si
verifica certamente ed è, pertanto, denominatoevento certo.
SeE è un evento è certamente anche possibile stabilire se il generico risultato
ω dell’esperimento casuale appartiene, oppure no, al complemento6 E del sot-
toinsiemeE; pertanto ancheE è un evento7. E si leggeE negatoo nonE; più
raramente si usano i simboli¬E eEc. Il complemento dello spazio campioneΩ è
l’insieme vuoto∅; l’evento negato diΩ è il cosiddettoevento impossibile, indicato
anch’esso con la notazione∅.
6Come si ricorderà dalla teoria degli insiemi,E è l’insieme dei punti diΩ che non appartengono
adE.7Spesso chiamato eventocontrariodi E.
10 Capitolo 1. Definizione assiomatica di probabilità
1.1.3 Unione ed intersezione di eventi
Fino ad ora ci siamo occupati di eventi singoli, descriveremo, ora, eventi che sono
combinazione di altri eventi e studieremo le relazioni che possono sussistere tra
essi. Avendo introdotto il concetto di evento come un insieme di punti, possiamo
utilizzare i concetti propri della teoria degli insiemi.
Definizione 1.1.3.L’unione E di due eventiA e B è l’evento che consiste nel
verificarsi di almeno uno degli eventiA eB.
In simboli l’evento unione si indica conE = A ∪ B e si legge comeA unitoB
oppureA oB. Ricordando l’analogo concetto della teoria degli insiemi, possiamo
affermare che esso si verifica se l’esitoω della prova appartiene adA o aB o ad
entrambi i sottoinsiemi. Più in generale l’unioneE1 ∪E2 ∪ · · · ∪En ≡ ⋃ni=1Ei è
l’evento che si verifica quando occorre almeno uno degli eventi Ei. Lo stesso vale
per l’unione infinita.
Esempio 1.1.6. Lancio ripetuto di una moneta, unione di eventi
Consideriamo gli eventitesta al primo lancio, T1 = ω4, ω6, ω7, ω8, e croce al
secondo, C2 = ω1, ω2, ω4, ω6 dell’esempio 1.1.5. L’evento unioneT1 ∪ C2 oc-
corre se e solo se l’esito della prova appartiene ad almeno uno dei due sottoinsiemi
T1 e C2: al primo lancio si ottienetestao al secondo comparecroceo al primo
lancio si hatestaedal secondocroce.
Definizione 1.1.4.Se⋃n
i=1Ei = Ω, gli eventiE1, . . . , En costituiscono un siste-
maesaustivo8 di eventi.
Definizione 1.1.5.L’intersezioneE di due eventiA e B è l’evento che consiste
nel verificarsi sia dell’eventoA che dell’eventoB.
8Talvolta gli eventi la cui unione coincide con lo spazio campionario sono dettinecessari.
1.1 Concetti introduttivi 11
In simboli l’evento intersezione9 si indica conE = A ∩B e si legge comeA eB.
Esso si verifica se l’esitoω della prova appartiene all’intersezione dei sottoinsiemi
A eB di Ω. L’intersezioneE1 ∩ · · · ∩En ≡ ⋂ni=1Ei di un numero finito di eventi
è l’evento consistente nel verificarsi di tutti gli eventiEi: ω ∈ ⋂ni=1Ei. Lo stesso
vale per un numero infinito di eventi.
La notazioneB ⊂ A, che nella teoria degli insiemi si legge10 B è contenuto inA,
indica che l’eventoB implicaA, ovveroA si verifica ogni qual voltaB occorre:
ω ∈ B =⇒ ω ∈ A. ScrivereA = B significa che ogniω che appartiene all’evento
A appartiene anche all’eventoB.
Nel seguito utilizzeremo il termineinsiemeed il termineeventoin maniera in-
tercambiabile11 ed i risultati della teoria degli insiemi saranno ritenuti validi an-
che per studiare le relazioni tra eventi. In particolare, ricordiamo che l’unione
e l’intersezione di eventi godono sia della proprietà commutativa12 che di quella
associativa13; ciascuna operazione, inoltre, gode rispetto all’altra della proprietà
distributiva14.
Definizione 1.1.6.SeA ∩ B = ∅, gli eventiA eB sono chiamatiincompatibilio
mutuamente esclusivio disgiunti. In altre paroleA ∩B = ∅ indica cheA eB non
possono entrambi verificarsi: seω ∈ A alloraω /∈ B e seω ∈ B alloraω /∈ A.
Nel dire che più eventiE1, E2, . . . , Ei, . . . sono incompatibili, si intende che essi
sono incompatibilia due a due: Er ∩ Es = ∅, per ogni coppia di indici,r eds,
distinti. Lo stesso vale per i sinonimi disgiunti e mutuamente esclusivi.
9Per semplicità si usano anche le notazioniA ·B eAB.10o ancheB è incluso inA11Ad esempio diremo chel’eventoB è inclusonell’eventoA.12A ∪B = B ∪ A, A ∩B = B ∩ A.13(A ∪B) ∪ C = A ∪ (B ∪ C), (A ∩B) ∩C = A ∩ (B ∩ C).14A ∩ (B ∪C) = (A ∩B) ∪ (A ∩ C), A ∪ (B ∩ C) = (A ∪B) ∩ (A ∪ C).
12 Capitolo 1. Definizione assiomatica di probabilità
Definizione 1.1.7.Se gli eventiE1, . . . , En sono incompatibili ed esaustivi, essi
costituiscono unapartizionedi Ω.
Esempio 1.1.7. Un esempio di partizione
Supponiamo che un contenitore vi sianoN palline;k di queste sono bianche e le
rimanentiN − k nere. Perk = 0, 1, 2, . . . , N , le proposizionile palline bianche
sonok definiscono gli eventiEk a due a due incompatibili. Infatti, il numero di
palline bianche nel contenitore o è uguale adr oppure queste ultime sonos, sicché
risultaEr∩Es = ∅, ser 6= s. Inoltre nel contenitore o vi sono tutte palline bianche
(k = N), o vi è una pallina bianca (k = 1), o vi sono due palline bianche (k = 2),
. . ., o nessuna delle palline è bianca (k = 0):
N⋃
k=0
Ek = Ω.
La figura 1.1 mostra un esempio di partizione di una spazio campionario utiliz-
zando un diagramma di Venn.
Possiamo estendere la nozione di partizione ad un generico eventoE.
Definizione 1.1.8.Se gli eventiE1, . . . , En sono mutuamente esclusivi e la loro
unione è l’eventoE, essi costituiscono unapartizioneo decomposizionedi E.
Il diagramma di Venn in figura 1.2 esemplifica la nozione di partizione di un
evento. Naturalmente seE ≡ Ω le due definizioni coincidono.
Proposizione 1.1.1.SiaΩ uno spazio campione eBi : 1 6 i 6 n una generica
classe15 di eventi incompatili. Se l’eventoA è tale cheA ⊂ ⋃ni=1Bi, allora la
classeA ∩ Bi : 1 6 i 6 n è una partizione diA:
A =n⋃
i=1
A ∩ Bi. (1.1)
15Per classe intendiamo semplicemente una collezione di oggetti. Nel nostro caso è una
collezione di sottoinsiemi diΩ: un insieme di eventi.
1.1 Concetti introduttivi 13
Ω
E1
E2
E3
E4
Figura 1.1: Rappresentazione di una partizione mediante undiagramma di Venn.
Il diagramma di Venn in figura 1.3 dimostra graficamente la proposizione 1.1.1
nel caso in cui gli eventiBi siano una partizione dello spazio campione.
Definizione 1.1.9.Si definisce evento differenzaA− B l’insieme dei punti cam-
pionari:
ω : ω ∈ A, ω /∈ B.
Esempio 1.1.8. Famiglie con quattro figli
Supponiamo di considerare tutte le famiglie di una data città con quattro figli, di
sceglierne una a caso e registrare il sesso dei bambini in base alla loro data di
nascita. Se indichiamo conm l’evento elementare maschio e conf l’evento
elementare femmina, lo spazio campionario è costituito dall’insieme:
Ω = mmmm,mmmf,mmfm,mfmm, fmmm,mmff,mffm, ffmm,
mfmf, fmmf, fmfm,mfff, fmff, ffmf, fffm, ffff.
14 Capitolo 1. Definizione assiomatica di probabilità
Ω
E1
E2
E3
E
Figura 1.2: Partizione di un eventoE.
Alcuni eventi di interesse potrebbero essere i seguenti:
1. A: in famiglia vi sono esattamente due maschi;
2. B: in famiglia vi è almeno un maschio;
3. C: in famiglia vi è al più un maschio;
4. D: nessun maschio in famiglia.
Si ha:
1. A = mmff,mffm, ffmm,mfmf, fmmf, fmfm;
2. B = mmmm,mmmf,mmfm,mfmm, fmmm,mmff,
mffm, ffmm,mfmf, fmmf, fmfm,mfff, fmff, ffmf, fffm;
1.1 Concetti introduttivi 15
B1
B2
B3
B4
A∩ B2
A∩ B3
A∩ B4
A
Figura 1.3: Partizione dell’eventoA prodotta dall’intersezione con una partizione
di Ω.
3. C = mfff, fmff, ffmf, fffm, ffff;
4. D = ffff.
Si noti come risultiB = Ω−D ≡ D eC sia dato dall’unione degli eventinessun
maschio in famigliaedesattamente un maschio in famiglia:
C = D ∪ mfff, fmff, ffmf, fffm.
Esempio 1.1.9. Tempo di funzionamento di un componente elettronico
Ritornando all’esempio 1.1.3, eventi di possibile interesse sono, tra gli altri, i
seguenti:
1. A: il tempo di buon funzionamento è maggiore di 50 ore;
2. B: il tempo di buon funzionamento non è superiore a 150 ore;
16 Capitolo 1. Definizione assiomatica di probabilità
3. C: il tempo di buon funzionamento è maggiore di 30 ore e non superiore a
200 ore;
4. D: l’apparecchiatura funziona per oltre 50 ore e non più di 150 ore;
5. E: l’apparecchiatura funziona per non più di 250 ore.
In questo caso, avendo postoΩ = t : t > 0 ≡ [0,+∞), si ha:
1. A = t : t > 50 = (50,+∞);
2. B = t : 0 6 t 6 150 = [0, 150];
3. C = t : 30 < t 6 200 = (30, 200];
4. D = t : 50 < t 6 150 = (50, 150] ≡ (50,+∞) ∩ [25, 150];
5. E = t : 0 6 t 6 250 = [0, 250] ≡ [0, 150) ∪ [20, 250].
La trasposizione in termini insiemistici della logica degli eventi consente l’utilizzo
della legge di De Morgan, o formula di Boole16, ben nota nella teoria degli insiemi
A ∪ B = A ∩B (1.2)
che possiamo leggere come:dire che si verifica almeno uno degli eventiA e B
equivale ad affermare che non è vero che non si verifica néA néB. La (1.2) vale
anche scambiando il segno di unione con quello di intersezione:
A ∩ B = A ∪B (1.3)
La formula di Boole, come le proprietà distributive prima menzionate, sono un
esempio di relazione duale.
16George Boole, matematico inglese, è l’iniziatore degli studi che condussero ad introdurre le
strutture algebriche nella teoria della probabilità.
1.1 Concetti introduttivi 17
Definizione 1.1.10.Considerata una relazione fra eventi si chiamadualequella
che si ottiene scambiando∪ con ∩, Ω con ∅ e ⊂ con ⊃. Se una relazione è
verificata qualunque siano gli insiemi coinvolti, allora anche la relazione duale è
vera.
La formula di Boole è verificata anche per un insieme finito o numerabile di eventi:
⋃
k
Ek =⋂
k
Ek (1.4)
⋂
k
Ek =⋃
k
Ek (1.5)
e, in particolare, la (1.5) assume l’espressione equivalente
⋂
k
Ek =⋃
k
Ek (1.6)
molto utile negli sviluppi futuri.
1.1.4 Alcune relazioni fondamentali
Formuliamo, ora, alcune relazioni che risulteranno in seguito utili nel calcolo delle
probabilità. Si ha:
A = (A ∩ B) ∪ (A ∩ B). (1.7)
La (1.7) ricorre frequentemente sia nella teoria che nelle applicazioni; essa si de-
duce da un semplice diagramma di Venn (vedi figura 1.4). Il significato intuitivo
della (1.7) è il seguente: quando l’eventoA si verifica, esso occorre o insieme aB
o al complementare diB (senzaB). Si tenga inoltre presente che gli eventiA∩B
eA ∩ B sono disgiunti; infatti possiamo scrivere:
(A ∩B) ∩ (A ∩ B) = A ∩ B ∩ A ∩B = A ∩ A ∩B ∩B = A ∩ ∅ = ∅.
18 Capitolo 1. Definizione assiomatica di probabilità
SiaBj ; j > 1 una successione numerabile di eventi necessari eA ⊂ Ω, vale la
relazione
A =⋃
j
(A ∩ Bj) (1.8)
che rappresenta la forma più generale della (1.1).
A B
A ∩ BA ∩ ¬B ¬A ∩ B
Figura 1.4: Relazione Fondamentale.
Sono, altresì, verificate le relazioni duali sia della (1.7)che della (1.8). Una
ulteriore relazione, anch’essa intuitiva, è la seguente:
A ∪ B = A ∪ (A ∩ B). (1.9)
Anche nella (1.9) gli eventi a secondo membro sono incompatibili. La (1.9) af-
ferma che il verificarsi di almeno uno degli eventiA e B può realizzarsi in due
diverse modalità: o si verificaA oppure si verificaB senza che occorraA. Nel
caso di un insieme finito o numerabile di eventiEj , la (1.9) diventa
⋃
Ej = E1 ∪ (E1 ∩ E2) ∪ (E1 ∩ E2 ∩ E3) ∪ · · · . (1.10)
Osservazione1.1.3. Ritornando alle considerazioni contenute nell’osservazione
1.1.2, notiamo che oltre alle relazioni tra aspetti del mondo reale ed elementi del
1.1 Concetti introduttivi 19
modello matematico, sono fondamentali anche i cosiddetti modelli ausiliari (vedi
[11]), strumenti che facilitano la trattazione matematicadei fenomeni probabili-
stici. I diagrammi di Venn, come tutti i metodi grafici, sono un esempio di tali
modelli ausiliari. Nel seguito ne incontreremo altri come il modello delleurne,
già utilizzato in un precedente esempio. Quest’ultimo è di grande utilità nel caso
di spazi campionari discreti. Un contenitore, l’urna, contiene dei bussolotti nume-
rati ciascuno dei quali corrisponde ad un esito sperimentale. Il lancio di un dado
dà luogo a sei possibili esiti sperimentali, gli interi da uno a sei; se nell’urna si
inseriscono sei bussolotti numerati da uno a sei, l’esperimenento casuale lancio
del dado equivale ad estrarre un bussolotto dall’urna.
1.1.5 Successioni di eventi e loro limiti
Indichiamo conEnn∈N una successione di eventi; essa ha la particolarità che
ciascun elementoEn è un sottoinsieme di un dato insiemeambiente, lo spazio
campioneΩ. Ricordiamo che, così come avviene nella teoria degli insiemi, la
differenza tra la simbologiaB ⊆ A eB ⊂ A consiste nel fatto cheB ⊂ A afferma
l’esistenza diω ∈ A che non appartengono aB, in altre parole essa esclude a priori
la possibilità cheA possa coincidere conB.
Definizione 1.1.11.Una successione di eventiEnn∈N si dicenon decrescente
se,∀n, En ⊆ En+1 .
Definizione 1.1.12.Una successione di eventiEnn∈N si dicenon crescentese,
∀n, En ⊇ En+1 .
Definizione 1.1.13.Si dice che la successioneEnn∈N è monotònase è non
crescente oppure non decrescente.
20 Capitolo 1. Definizione assiomatica di probabilità
Definizione 1.1.14.SiaEjj∈N una generica successione di eventi. Si definisce
limite inferiore di tale successione il sottoinsieme diΩ costituito dai punti cam-
pioneω che appartengono definitivamente alla successione. In simboli, il limite
inferiore è esprimibile come
lim infn→∞
En = ω ∈ Ω : ∃n0 ∈ N : ∀n > n0, ω ∈ En. (1.11)
Definizione 1.1.15.Sia Enn∈N una generica successione di eventi. Si defini-
sce limite superiore di tale successione il sottoinsieme diΩ costituito dai punti
campioneω che appartengono ad infiniti elementi della successione. Ilsimboli, il
limite superiore è esprimibile come
lim supn→∞
En = ω ∈ Ω : ∀n ∈ N, ∃k > n : ω ∈ Ek. (1.12)
Definizione 1.1.16.Si dice che una successione di eventiEnn∈N è convergente
se
lim infn→∞
En = lim supn→∞
En.
In questo caso si dice cheEnn∈N ha per limite l’evento
E = lim infn→∞
En = lim supn→∞
En
e si scrive
limn→∞
En = E
oppure, in forma più compatta,
En → E.
Talvolta si usa anche la notazioneEn ↑ E o En ↓ E, nel caso di una successione
monotòna, non decrescente e non crescente, rispettivamente. Si noti che i sottoin-
siemi diΩ che costituiscono il limite inferiore, il limite superioreo il limite di una
successione di eventi è esso stesso un evento.
1.1 Concetti introduttivi 21
Proposizione 1.1.2.Per ogni successione di eventiEnn∈N si ha:
∞⋂
n=1
En ⊆ lim infn→∞
En ⊆ lim supn→∞
En ⊆∞⋃
n=1
En. (1.13)
La (1.13) è un’ovvia conseguenza della definizioni di limitesuperiore e limite
inferiore. A tale proposito commentiamo la relazione
lim infn→∞
En ⊆ lim supn→∞
En (1.14)
che compare nella (1.13). Un puntoω dello spazio campioneΩ che appartiene
all’eventolim infn→∞En, a partire da un certo indicen0 in poi, appartiene anche
ai sottoinsiemiEn che costituiscono la successioneEnn06n∈N; quindiω appar-
tiene ad infiniti componenti della successioneEnn∈N e, così, esso è anche un
elemento del sottoinsieme che individualim supn→∞En. La (1.14), in termini
di eventi, consente di affermare che se si verifica l’evento limite inferiore di una
successione si verifica anche l’evento limite superiore perla stessa successione.
Proposizione 1.1.3.Per ogni successione di eventiEnn∈N risulta17
lim infn→∞
En =∞⋃
n=1
(En ∩ En+1 ∩ En+2 ∩ · · · ) ≡∞⋃
n=1
∞⋂
k=n
Ek (1.15)
e
lim supn→∞
En =∞⋂
n=1
(En ∪ En+1 ∪ En+2 ∪ · · · ) ≡∞⋂
n=1
∞⋃
k=n
Ek. (1.16)
Per quanto concerne le successioni monotòne valgono le relazioni esplicitate nella
seguente proposizione.
17Per la dimostrazione si rinvia ai testi di analisi.
22 Capitolo 1. Definizione assiomatica di probabilità
Proposizione 1.1.4.SeEnn∈N è una successione monotòna, essa è convergente;
inoltre si ha
limn→∞
En =∞⋃
n=1
En se la successione è non decrescente, (1.17)
limn→∞
En =
∞⋂
n=1
En se la successione è non crescente. (1.18)
Dimostrazione.Supponiamo che la successione di eventi sia non decrescente. Si
ha allora,∀n ∈ N, En ∩ En+1 ∩ · · · = En e quindi, per la (1.15),
lim infn→∞
En =∞⋃
n=1
(En ∩ En+1 ∩ En+2 ∩ · · · ) =∞⋃
n=1
En.
Di conseguenza, tenendo presente la (1.13), si ricavalimn→∞En =⋃∞
n=1En.
Analogamente, seEnn∈N è non crescente, per ogni interon si può scrivere la
relazioneEn ∪ En+1 · · · = En e quindi, ricordando la (1.15), si conclude che
limn→∞En =⋂∞
n=1En.
In virtù della (1.17) si deduce che il limite di una successione non decrescente di
eventi è l’evento che occorre quando si verifica almeno uno degli eventi che la
costituiscono. Analogamente, vedi (1.18), il limite di unasuccessione non cre-
scente di eventi è quell’evento che si verifica quando si verificano tutti gli eventi
che costituiscono detta successione.
Osservazione1.1.4. A partire dal termine generaleEn di una generica successione
di eventi si definisce una successione non decrescente ponendoAn =⋂∞
k=nEk,
∀n ∈ N. Infatti, essendoAn = En ∩ An+1, risultaAn ⊆ An+1. Ricordando
la (1.17) che si applica a successioni non decrescenti e la (1.15) che ha validità
generale, si ottengono le seguenti espressioni equivalenti per il limite inferiore di
Enn∈N:
limn→∞
An ≡ limn→∞
∞⋂
k=n
Ek =
∞⋃
n=1
An ≡∞⋃
n=1
∞⋂
k=n
Ek ≡ lim infn→∞
En. (1.19)
1.2 Strutture algebriche di interesse probabilistico 23
Analoghi sviluppi sussistono per il limite superiore.
Osservazione1.1.5. A partire dal termine generaleEn di una generica successione
di eventi si definisce una successione non crescente ponendoBn =⋃∞
k=nEk,
∀n ∈ N. Infatti, essendoBn = En ∪ Bn+1, risultaBn ⊇ Bn+1. Ricordando
la (1.18) e la (1.16), si ottengono le seguenti espressioni equivalenti per il limite
superiore diEnn∈N:
limn→∞
Bn ≡ limn→∞
∞⋃
k=n
Ek =
∞⋂
n=1
Bn ≡∞⋂
n=1
∞⋃
k=n
Ek ≡ lim supn→∞
En. (1.20)
Per i limiti di successioni di eventi sussistono alcune importanti proprietà che
elenchiamo, senza dimostrarle, nella successiva proposizione.
Proposizione 1.1.5.
En ↓ E ⇒ En ∩ E ↓ ∅ , (1.21)
An ⊆ Bn ⇒ lim inf An ⊆ lim inf Bn, (1.22)
An ⊆ Bn ⇒ lim supAn ⊆ lim supBn, (1.23)
limn→∞
En = E ⇒ limn→∞
En = E, (1.24)
An → A,Bn → B ⇒ (An ∪ Bn) → A ∪B, (1.25)
An → A,Bn → B ⇒ (An ∩ Bn) → A ∩B. (1.26)
1.2 Strutture algebriche di interesse probabilistico
1.2.1 La struttura degli eventi
Si è già sottolineato come l’evento complementare, l’unione e l’intersezione di
eventi siano essi stessi eventi. Una struttura algebrica che soddisfa tali requisiti è
nota dalla teoria degli insiemi.
24 Capitolo 1. Definizione assiomatica di probabilità
Definizione 1.2.1.Una famigliaF di sottoinsiemi di un insiemeΩ tale che
(i) Ω ∈ F
(ii) E ∈ F ⇒ E ∈ F
(iii) A ∈ F, B ∈ F ⇒ A ∪ B ∈ F
costituisce un’algebra18.
Dalla definizione 1.2.1 scaturiscono alcune immediate conseguenze. In primo luo-
go dalla (i) e dalla (ii) si deduce che anche∅ ∈ F. Consideriamo tre sottoinsiemi
di Ω, E1, E2, E3 ∈ F, per la proprietà associativa dell’operazione di unione siha
E = E1 ∪ E2 ∪ E3 ≡ (E1 ∪ E2) ∪ E3
e, per la (iii), ancheE ∈ F. Tale proprietà è valida per l’unione di un qualunque
numero finito di elementi diF.
Notiamo che, per la formula di De Morgan (1.3), la (ii) e la (iii), anche l’interse-
zioneA∩B ≡ A ∪B ∈ F. Inoltre, per la proprietà associativa dell’operazione di
intersezione, possiamo scrivere
E = E1 ∩ E2 ∩ E3 ≡ (E1 ∩ E2) ∩ E3 = (E1 ∪ E2) ∩ E3
da cui si deduce che l’intersezione di un qualunque numero finito di elementi diF
è anch’essa un elemento diF. In conclusione possiamo affermare che un’algebra
F suΩ è chiusa rispetto all’operazione di complemento, unione diintersezione
di un numero finito di suoi elementi. Per far sì che la proprietà di chiusura sia
verificata anche nel caso di unioni numerabili19, si introduce una nuova struttura
algebrica.
18o uncampoo unaclasse additivasuΩ, oveΩ è per ipotesi non vuoto19Questa proprietà è essenziale per la definizione assiomatica di probabilità. Si noti che anche
l’unione numerabile di eventi è un evento.
1.2 Strutture algebriche di interesse probabilistico 25
Definizione 1.2.2.Una famigliaF di sottoinsiemi di un insiemeΩ tale che
(i) Ω ∈ F
(ii) E ∈ F ⇒ E ∈ F
(iii) ∀k ∈ N, Ek ∈ F ⇒ ⋃∞k=1Ek ∈ F
costituisce unaσ-algebra20.
Per la (1.6) o la (1.5), la (ii) e la (iii),F è chiusa rispetto all’intersezione nume-
rabile. Inoltre unaσ-algebra è anche un’algebra, Infatti se si consideranoN parti
Ai ∈ F e si poneBi = Ai, peri 6 N , eBi = AN , peri > N si ricava
N⋃
i=1
Ai =∞⋃
i=1
Bi ∈ F .
Vale anche il viceversa solo seΩ è un insieme finito.
D’ora innanzi chiameremo eventi diΩ soltanto gli elementi di unaσ-algebra. Que-
sta scelta assicura che il complemento e l’unione, finita o numerabile, di eventi
appartiene ancora alla classe degli eventi.
Proposizione 1.2.1.L’intersezione diσ-algebre suΩ è unaσ-algebra suΩ.
Dimostrazione.Infatti, indichiamo conFi, con i ∈ I insieme numerabile e non
vuoto di indici, una successione diσ-algebre suΩ. In primo luogoΩ ∈ Fi,
∀i ∈ I, e quindiΩ ∈ F ≡ ⋂
i Fi. SeE ∈ F , E ∈ Fi, ∀i ∈ I e pertanto
E ∈ Fi, ∀i ∈ I, quindiE ∈ F . Infine supponiamo che, considerato un insieme
numerabile di indiciJ , Ej ∈ F , ∀j ∈ J . Allora Ej ∈ Fi, ∀j ∈ J e ∀i ∈ I,
sicché⋃
j Ej ∈ Fi per ogni indicei ∈ I. Pertanto⋃
j Ej ∈ F .
20o unσ-campoo unaclasse completamente additivasuΩ
26 Capitolo 1. Definizione assiomatica di probabilità
Con il simboloPΩ denotiamo la famiglia dei sottoinsiemi diΩ, PΩ costitui-
sce la più ampiaσ-algebra suΩ.
Definizione 1.2.3.Unaσ-algebra suΩ si dice generata da una famiglia21 G di sot-
toinsiemi diΩ, e si denota con il simboloσ(G), se ogniσ-algebra suΩ contenente
G contiene ancheσ(G). Le precedenti condizioni si formalizzano come:
a. G ⊆ σ(G)
b. F σ-algebra suΩ,G ⊆ F ⇒ σ(G) ⊆ F .
Osservazione1.2.1. La σ-algebraσ(G) è la minimaσ-algebra suΩ contenenteG.
Gli elementi diG sono detti eventigeneratori.
Teorema 1.2.1.Data una qualsiasi famigliaG di sottoinsiemi diΩ, esiste ed è
unica laσ-algebra da essa generata.
Dimostrazione.Poichè la famiglia costituita da tutte le parti (sottoinsiemi) di Ω
è una classe completamente additiva, è chiaro che esiste almeno unaσ-algebra
che contieneG come sottoclasse, quindi la famiglia di tutte leσ-algebre suΩ non
è vuota. Laσ-algebraσ(G) coincide allora con laσ-algebra che si ricava dalla
intersezione di tutte leσ-algebre appartenenti a tale famiglia. Essa è unica; in-
fatti se esistessero dueσ-algebre,F1 e F2, generate daG, entrambe dovrebbero
essere contenute in tutte leσ-algebre contenetiG. Dovrebbero essere contem-
poraneamente verificate le relazioniF1 ⊇ F2 e F2 ⊇ F1 dalle quali scaturisce
F1 = F2.
Vale il seguente teorema la cui dimostrazione non è essenziale per gli scopi del
corso.
21o classe.
1.2 Strutture algebriche di interesse probabilistico 27
Teorema 1.2.2.SiaA = Ai : i ∈ I una partizione numerabile diΩ; σ(A) è la
classe di tutte le unioni di sottoinsiemi diA:
σ(A) =
⋃
j∈J
Aj : J ⊆ I
Si noti che seAi 6= ∅, per i ∈ I, le unioni inσ(A) sono distinte. Ovvero se
J ,K ⊆ I eJ 6= K allora⋃
j∈J Aj 6=⋃
k∈K Ak. In particolare, sen insiemi non
vuoti appartengono adA, I è l’insieme din interi distinti e vi sono2n sottoinsiemi
di I. In conclusione2n sono anche le parti di diσ(A).
Definizione 1.2.4.Si dicespazio probabilizzabileogni coppia22 Ω,F, doveΩ è
uno spazio campione eF unaσ-algebra generata da una famigliaG di sottoinsiemi
di Ω.
Ricordiamo che gli elementi diF rappresentano nel modello matematico gli even-
ti del mondo reale; in particolareΩ è l’evento certo e∅ l’evento impossibile. Gli
sviluppi precedenti assicurano che gli eventi, considerati come insiemi diF , so-
no oggetti in qualche modomisurabili. Come vedremo in seguito questa loro
caratteristica conduce alla definizione assiomatica di probabilità.
Definizione 1.2.5.SiaΩ,F uno spazio probabilizzabile edE un evento diverso
da∅. E è detto evento elementare se la sua intersezione con un qualunque altro
evento o lo lascia inalterato oppure coincide con∅.
La definizione precedente asserisce che un evento elementare non può essere
decomposto nell’unione di altri eventi.
22La definizione di spazio probabilizzabile deriva da quello di spazio misurableo di misurache
si introduce indipendentemente in teoria della misura. In questo casoΩ è un generico insieme non
vuoto eF unaσ-algebra suΩ. Un insiemeA ∈ F è dettomisurabile.
28 Capitolo 1. Definizione assiomatica di probabilità
1.2.2 Laσ-algebra di BorelBConsideriamo come spazio campionario la retta, ovvero l’insiemeR dei numeri
reali. Per definizione, laσ-algebra di Boreldi R, o campo di Boreldi R, è la più
piccolaσ-algebra che contiene le semirette(−∞, a], cona ∈ R. Essa è general-
mente denotata dal simboloB e i suoi elementi sono dettiboreliani. B svolge un
ruolo fondamentale nella teoria della probabilità, nel seguito introdurremo alcune
sue fondamentali proprietà.
Proposizione 1.2.2.Si consideri laσ-algebra di BorelB e sianoa, b ∈ R.
1. B contiene gli insiemi del tipo(a,+∞). Infatti si ha: (a,+∞) ≡ (−∞, a].
2. B contiene gli insiemi del tipo(a, b]. Vale, infatti, la relazione(a, b] ≡(−∞, b] ∩ (a,+∞).
3. B contiene i punti isolatia. I punti isolati, infatti, sono intersezione di
un’infinità numerabile di intervalli:a ≡ ⋂n(a− 1n, a].
4. B contiene gli insiemi del tipo(a, b) ≡ (a, b] ∩ b.
5. B contiene gli insiemi del tipo[a, b] ≡ (a, b] ∪ a.
Gli insiemi dei numeri interi, dei razionali e dei naturali appartengono aB in
quanto unioni numerabili di punti isolati; anche l’insiemedei numeri irrazionali,
insieme complementare dei razionali, appartiene aB.
1.3 La probabilità
1.3.1 Considerazioni preliminari
Prima di introdurre formalmente il concetto di probabilitàsi ritiene utile proporre
alcune considerazioni tratte da un classico testo di teoriadella probabilità scritto
1.3 La probabilità 29
da un autore di scuola russa, B. Gnedenko, e tradotto in italiano alla fine degli anni
settanta (vedi [6]).
Abbiamo in precedenza definito l’esperimento casualeE come una generica pro-
cedura, spontanea oppure eseguita intenzionalmente, che produce dati numerici.
Per uniformarsi alla terminologia di Gnedenko l’esecuzione di un singolo espe-
rimento (prova) equivale a realizzare un insieme complessodi condizioniC: due
sostanze chimiche vengono fatte reagire ad una fissata temperatura e ad una da-
ta pressione. Lo schema più elementare, ma anche più rigido,di regolarità è il
seguente:ogni qual volta che si realizza l’insieme di condizioniC si richede che
si presenti l’eventoA. Esemplificando: se si riscalda l’acqua alla temperatura di
100 gradi centigradi alla pressione atmosferica (l’insieme dicondizioniC), essa
si trasforma in vapore (eventoA). Secondo questo schema vengono formulate le
leggi della fisica, della chimica e di altre discipline.
Un evento certo è un evento che si presenta senza incertezza alcuna ogni qual vol-
ta si realizzaC. Data la relizzazione diC, un evento che non occorre mai è detto
impossibile. Un evento, che al realizzarsi delle condizioni C, può accadere oppure
no è un evento casuale. Gnedenko sottolinea come la certezza, l’impossibilità o la
casualità di un evento sono da porre sempre in relazione ad unben definito insieme
di condizioniC. L’asserzione della casualità di un evento ci dice semplicemente
cheC non contiene l’intera collezione di ragioni necesssarie e sufficienti perché
l’evento si verifichi. Comunque per un ampio spettro di fenomeni, per i quali è
possibile il realizzarsi ripetuto delle condizioniC, si osserva che la percentuale
di casi in cui l’eventoA si presenta tende in modo significativo ad assumere un
qualche valore medio (legge empirica del caso). Lanciamo una moneta ben bi-
lanciata pern volte e registriamo la percentuale di occorrenza dell’evento testa.
Eseguendo perN volte la serie din lanci23 la percentuale di presentazione ditesta
23SiaN chen sono interigrandi.
30 Capitolo 1. Definizione assiomatica di probabilità
è all’incirca di cinquanta volte su cento. In situazioni come questa appena descrit-
ta, oltre ad affermare il carattere aleatorio dell’evento,è pensabile di determinare
una stima approssimativa che l’evento ha di verificarsi. Questa stima può essere
espressa in una proposizione del tipo:la probabilità che l’eventoA si verifichi, in
seguito alla realizzazione delle condizioniC, è uguale a p.
Regolarità di questo tipo sono le regolarità stocastiche o probabilistiche alle quali
facevamo riferimento all’inizio del capitolo. È utile, affinchè il lettore compren-
da quanto sia ampio lo spettro di situazioni alle quali il ragionamento precedente
possa utilmente applicarsi, riportare l’esempio del decadimento radioattivo propo-
sto da Gnedenko24. Non vi è alcun modo per stabilire con certezza se un atomo
di radio decadrà o rimarrà stabile in un fissato intervallo ditempo. Sulla base di
osservazioni sperimentali è possibile calcolarne la probabilità di decadimento. È
stato dimostrato, misurando il tempot in anni, che tale probabilità è data da
p = 1− e−γt
oveγ = 4.36 × 10−4. In questo caso l’insieme di condizioniC consiste nel fatto
che, per il numerot di anni, l’atomo di radio non sia stato esposto a particolari
condizioni che possano influire con il decadimento spontaneo come, ad esempio,
il bombardamento da parte di particelle ad alta energia cinetica25; l’evento aleato-
rio di interesse è che l’atomo decada in un fissato numero di anni t.
Le basi della teoria della probabilità furono formulate nelXVII secolo nei lavori
24La teoria della probabilità nasce nell’ambito dei giochi d’azzardo nel XVII secolo. Lo svilup-
po successivo della teoria è strettamente legato ai progressi delle scienze naturali, della fisica in
particolare.25Il lettore tenga presente che nel caso in esame le condizioniambientali quali temperatura e
pressione sono ininfluenti.
1.3 La probabilità 31
di Fermat, Pascal26, Huygens e Jacob Bernoulli27; da allora la teoria si è svilup-
pata come disciplina matematica ed ha allargato il suo orizzonte applicativo in
diversi settori scientifici. Il concetto di probabilità matematica, in verità, necessita
di un approfondimento filosofico connesso, in particolare, all’applicazione della
teoria alla realtà sperimentale. Parafrasando Gnedenkosi tratta di comprende-
re sotto quali condizioni vi sia un significato oggettivo nella stima quantitativa
della probabilità di un evento casualeA, con l’aiuto di una numeroP(A), detto
probabilità matematica dell’eventoA. Il punto di partenza èla convinzione che
asserzioni probabilistiche esprimono alcune proprietà oggettive del fenomeno in
considerazione; se l’eventoA ha probabilitàp, deve esistere una relazione, di na-
tura diversa dal rapporto causa-effetto ma non per questo meno oggettiva, tra le
condizioniC e l’evento stesso. La relazione deve esistere indipendentemente dal-
l’osservatore,il problema filosofico è comprenderne la natura, tenendo conto che
l’esperienza insegna che il problema di una stima quantitativa della probabilità ha
un senso ragionevolmente oggettivo solo se sono verificate alcune condizioni ben
definite. Per l’insieme di condizioniC un evento che non sia né certo (conseguenza
necessaria delle condizioni) né impossibile è casuale. Tale definizione del caratte-
re aleatorio di un evento non implica né che sia possibile calcolarne la probabilità
né che essaesista. In ciascun caso particolare, l’esistenza del numerop = P(A)
26Il 24 agosto 1654 Blaise Pascal, filosofo e matematico francese, scrisse al suo connazionale
Pierre de Fermat una celebre lettera che segnò la nascita della moderna teoria della probabilità.
Essa aveva per oggetto il gioco d’azzardo. Nel 1663 venne anche pubblicato, molto dopo la sua
morte, ilLiber de ludo aleaedi Girolamo Cardano; si tratta del primo studio matematico sul lancio
dei dadi nel quale si dimostra come, nel caso di lanci ripetuti, determinati risultati mostrino delle
regolarità di occorrenza. Cardano, comunque, non usò mai iltermine probabilità ma possibilità.
Egli, matematico illustre ed abile medico, era un giocatored’azzardo, i suoi sforzi teorici erano
rivolti alla formulazione di regole di previsione per accrescere la possibilità di vincere scommesse.27Noto anche come James Bernoulli; la sua opera fondamentaleArs Coniectandiapparve nel
1713 dopo la morte dell’autore.
32 Capitolo 1. Definizione assiomatica di probabilità
deve scaturire da considerazionia priori o, qualora se ne ipotizzi l’esistenza, deve
essere possibile una verifica susseguente.
Gnedenko esamina il caso di un nuovo elemento radioattivo; èlecito ipotizzare
che un atomo di questa sostanza, lasciato a se stesso, abbia un probabilità di deca-
dimento nel tempot data dap = 1 − e−γt, oveγ è il coefficiente di decadimento
ignoto che caratterizza la velocità di decadimento. Una domanda fondamentale
per la determinazione diγ consiste nel chiedersi se condizioni esterne, come l’in-
tensità della radiazione cosmica, possano influenzare il valore di tale parametro
determinando, di conseguenza, in valore numerico dip. Quindi l’ipotesi da porre
è che, dato un insieme di condizioni esternesufficientemente definite, γ assume
valori in conseguenza di esse.
La situazione ha una valenza generale nei diversi settori applicativi: chiarire il
significato filosofico del concetto diprobabilità matematicapuò risultare impos-
sibile se si sia alla ricerca diuna definizione applicabile a qualunque eventoA e
per un qualunque insieme di condizioniC.
1.3.2 Gli assiomi di Kolmogorov
L’ultimo passo per la formulazione del modello matematico che stiamo sviluppan-
do è l’indicazione di come assegnare a ciascun evento una misura numerica delle
possibilità che esso ha di realizzarsi. Seguendo l’impostazione originale formulata
dal matematico russo Andrej Nikolaevic Kolmogorov negli anni trenta del nove-
cento, si introduce il concetto di probabilità come una opportuna misura definita
sullaσ-algebra degli eventi. Kolmogorov in questo modo connesse strettamente
la teoria della probabilità alla teoria della misura ed allateoria degli insiemi che in
quegli anni si svilupparono notevolmente. Egli costruì la teoria della probabilità
a partire da assiomi seguendo una procedura che aveva già mostrato i suoi frutti
in altri settori della matematica come, tra altri, la geometria, la meccanica analiti-
1.3 La probabilità 33
ca e la teoria dei gruppi. Ricordiamo che in generale perassiomasi intende una
proposizione fondamentale che è considerataveraa priori; tutte le altre afferma-
zioni contenute nella teoria vanno dimostrate, a partire dagli assiomi che si sono
accettati, con un procedimento puramente logico. La formulazione degli assiomi
non deve apparire come il primo passo, in ordine temporale, per la costruzione
di una teoria matematica; essi scaturiscono dall’analisi critica dei risultati ottenuti
nel corso dello sviluppo storico, analisi che mira ad isolare gli aspetti veramente
fondamentali alla definizione di una teoria logicamente coerente. Naturalmente
Kolmogorov, nel definire gli assiomi alla base della teoria della probabilità, tiene
in debito conto le proprietà e i limiti insiti sia nella definizioneclassica28, o di La-
place, che in quellastatistica29, di probabilità. Teorie che si erano sviluppate nel
corso di secoli e che, con il crescente interesse in fenomeninaturali sempre più
complicati registrato dalla seconda metà dell’ottocento in poi, hanno incontrato
forti ed insormontabili critiche. In altri termini lo sviluppo delle scienze naturali
all’inizio del novecento poneva stringenti quesiti alla teoria della probabilità; era
necessario, quindi, studiare sistematicamente i fondamenti della teoria e chiarire le
ipotesi in base alle quali i risultati della teoria stessa potevano essere utilmente im-
piegati nello studio dei fenomeni naturali. Possiamo concludere che gli assiomi di
Kolmogorov rappresentano la formalizzazione e la generalizzazione di molti seco-
li di esperienza umana, intesa sia come successo esplicativo che come limite nella
descrizione coerente di un fenomeno. Nel precedente paragrafo è stato ricordato
il contributo degli studiosi del ’600 alla definizione dei fondamenti della proba-
bilità, nel XVIII secolo si registrano i contributi fondamentali di altri componenti
28rapporto fra casi favorevoli e casi possibili, talvolta chiamata definizioneaprioristica29basata sulla frequenza relativa di occorrenza di un evento (definizionefrequentista) essa, anche
se non esplicitamente espressa, appare per la prima volta nel libro di Cardano sul gioco dei dadi. È
da sottolineare che nello stesso libro si trovano accenni anche al calcolo delle probabilità secondo
la definizione classica.
34 Capitolo 1. Definizione assiomatica di probabilità
della famiglia Bernoulli che applicarono il calcolo delle probabilità a problemati-
che concrete quali l’idrodinamica, la balistica e l’elasticità. Di altri autori, quali
Laplace, Bayes, De Moivre, Gauss, Poisson e dei matematici russi della scuola di
San Pietroburgo si parlerà in seguito quando saranno trattati argomenti specifici.
Possiamo ora formulare gli assiomi che definiscono la probabilità.
Definizione 1.3.1.Sia assegnato uno spazio probabilizzabileΩ,F. Una fun-
zione di insiemeP : F → R che gode delle proprietà
Assioma 1 ∀A ∈ F ,P(A) > 0,
Assioma 2 P(Ω) = 1,
Assioma 3 per ogni successione di eventiAnn∈N incompatibili si ha
P(
∞⋃
n=1
An) =
∞∑
n=1
P(An),
viene dettamisura di probabilità, o più semplicementeprobabilità, suΩ,F.
L’assioma3 esprime la proprietà diadditività numerabileo completadella pro-
babilità30. Esso si rende necessario a causa del fatto che si ha costantemente a
che fare con eventi che si decompongono in un numero infinito di casi particolari.
Su alcuni testi l’assioma è inizialmente enunciato per una somma finita,additività
finita o semplice, e poi esteso alle somme numerabili; nel seguito dimostreremo
che additività finita segue dall’additività completa. Richiamiamo l’attenzione del
lettore sul fatto che l’assioma3 costituisce la forma più generale della cosiddetta
legge delle probabilità totali. Essa si enuncia dicendo chela probabilità dell’unio-
ne di eventi incompatibili è uguale alla somma delle probabilità dei singoli eventi
(vedi anche [4]).30Per indicare l’unione di eventi disgiunti useremo il simbolo ⊔. L’additività completa sarà de-
notata comeP(⊔∞
n=1 An) =∑∞
n=1 P(An), omettendo di precisare che gli eventi sono mutuamente
esclusivi.
1.3 La probabilità 35
Osservazione1.3.1. Gli assiomi di Kolmogorov riconducono la teoria della proba-
bilità nell’ambito della teoria della misura definita su campi boreliani di insiemi: la
probabilità stessa è una funzione di insiemi, non negativa eadditiva. La probabili-
tà di un evento del mondo reale è stato posto in relazione, nelmodello matematico,
ad una funzione definita su sottoinsiemi dello spazio campione.
Osservazione1.3.2. Il sistema degli assiomi di Kolmogorov èincompleto: infatti
per lo stesso spazio probabilizzanteΩ,F si possono scegliere le probabilità nel-
l’insiemeF in modi diversi. Su questo aspetto ritorneremo in seguito con qualche
esempio; si noti che l’incompletezza non suggerisce una scelta inadeguata degli
assiomi, essa è insita nella natura stessa della materia: possono esistere situazioni
nelle quali insiemi identici di eventi casuali hanno probabilità diverse. Si pensi ai
casi di una moneta bilanciata,equa, e truccata.
Concludiamo il paragrafo con la seguente definizione che riassume quanto finora
esposto ed è il punto di partenza per gli sviluppi futuri della teoria assiomatica
della probabilità.
Definizione 1.3.2.SiaE un esperimento casuale eG la famiglia degli eventi gene-
ratori. Dicesispazio di probabilitàla terna ordinataΩ,F ,P oveΩ è lo spazio
campione associato aE , F è la σ-algebra generata daG e P è una misura di
probabilità suΩ,F.
Concludiamo il paragrafo riassumendo i tre passi fondamentali per l’elaborazione
di un modello probabilistico:
1. individuare tutti i possibili esiti sperimentali,
2. individuare tutti gli eventi di interesse,
3. calcolo della probabilità di ciascun evento.
La parte più complicata ed interessante di un modello è il calcolo delle probabilità;
nei capitoli successivi ci occuperemo di questa problematica.
36 Capitolo 1. Definizione assiomatica di probabilità
1.3.3 Prime conseguenze degli assiomi
Ricordiamo che per semplicità di esposizione abbiamo introdotto in una preceden-
te nota il simbolo⊔ per indicare l’unione di eventi disgiunti. Innazitutto dimostria-
mo come l’additività semplice sia una conseguenza dell’additività numerabile. Per
tale scopo enunciamo il seguente lemma.
Lemma 1.3.1.Si haP (∅) = 0 .
Dimostrazione.L’evento impossibile∅ è esprimibile come l’unione numerabile di
eventi impossibili, inoltre essi sono a due a due disgiunti epertanto∅ ≡ ⊔∞n=1 ∅.
L’assioma3, applicato alla precedente unione numerabile di eventi impossibili
mutuamente esclusivi, fornisce la relazione
P(∅) =∞∑
i=1
P(∅). (1.27)
EssendoP(∅) un numero reale finito, la (1.27) comporta che necessariamente deve
essereP(∅) = 0 .
Teorema 1.3.1.La misura di probabilità è finitamente additiva.
Dimostrazione.Occorre dimostrare che, seA1, A2, . . . , An sonon eventi incom-
patibili, allora si ha:
P
(n⊔
j=1
Aj
)
=
n∑
j=1
P(Aj). (1.28)
Osserviamo che a partire dalla successione finitaA1, A2, . . . , An è possibile co-
struire una successione numerabileBjj∈N ponendoBj = Aj , per1 6 j 6 n, e
Bn+1 = Bn+2 = · · · = ∅. Essendo, per costruzione, a due a due disgiunti anche
1.3 La probabilità 37
gli eventi della successioneBjj∈N, dall’assioma3 e dal lemma 1.3.1 segue che
P
(n⊔
j=1
Aj
)
= P
[(n⊔
j=1
Aj ⊔ ∅ ⊔ ∅ ⊔ · · ·)]
= P
(∞⊔
j=1
Bj
)
=
∞∑
j=1
P(Bj) =
n∑
j=1
P(Aj) +
∞∑
j=n+1
P(∅) =n∑
j=1
P(Aj)
ed il teorema è dimostrato.
Corollario 1.3.1. Per ogni eventoE ∈ F risulta:
P(E) = 1− P(E). (1.29)
Dimostrazione.Osserviamo cheΩ = E ⊔ E. Dall’assioma2 e dalla (1.28) si
deduce la relazione
1 = P(Ω) = P(E ⊔ E
)= P(E) + P(E)
e la (1.29) è stata dimostrata.
Corollario 1.3.2. La probabilitàP(E), ∀E ∈ F , è un numero reale che verifica
la disuguaglianza0 6 P(E) 6 1 .
Dimostrazione.Per l’assioma1 valgono le disuguaglianzeP(E) > 0 eP(E) > 0;
essendoP(E) = 1− P(E) segue cheP(E) ∈ [0, 1].
Corollario 1.3.3. Se gli eventiE1 edE2 sono tali cheE1 ⊆ E2 si ha31
P(E1) 6 P(E2). (1.30)
31Il corollario dimostra la cosiddetta proprietà di monotonia.
38 Capitolo 1. Definizione assiomatica di probabilità
Dimostrazione.Per l’ipotesi posta suE1 e E2 si haE1 ∪ E2 = E2 e, come
conseguenza della (1.9), otteniamo32
E2 = E1 ⊔(E1 ∩ E2
)
e, per la proprietà di additività finita della funzioneP,
P(E2) = P(E1) + P(E1 ∩ E2
).
La tesi del corollario segue dalla relazioneP(E1 ∩ E2
)> 0 .
Teorema 1.3.2.SianoE1 eE2 eventi. Si ha:
P(E1 ∪ E2) = P(E1) + P(E2)− P(E1 ∩ E2). (1.31)
Dimostrazione.Dalla (1.9), dalla (1.7) e dal teorema 1.3.1 otteniamo le relazioni
E1 ∪ E2 = E1 ⊔(E1 ∩ E2
)(1.32)
E2 = (E1 ∩ E2) ⊔(E1 ∩ E2
)(1.33)
e
P(E1 ∪ E2) = P(E1) + P(E1 ∩ E2
)(1.34)
P(E2) = P(E1 ∩ E2) + P(E1 ∩ E2
). (1.35)
Dalla (1.35) si ricava
P(E1 ∩ E2
)= P(E2)− P(E1 ∩ E2) (1.36)
e, sostituendo la (1.36) nella (1.34), si dimostra la tesi.
32Il lettore si convinca della validità della prima relazionefacendo ricorso ad un semplice
diagramma di Venn.
1.3 La probabilità 39
Esempio 1.3.1. Probabilità di errata diagnosi
Da precedenti indagini statistiche si sa che una determinata sintomatologia è pre-
sente nel65% dei soggetti affetti dalla patologia A, e nel45% dei soggetti affetti
dalla patologia B e nel30% dei casi in cui sono presenti entrambe le patologie.
Qual è la probabilità che un soggetto che riferisce tale patologia soffra di una ma-
lattia diversa da A e da B?
Per rispondere al quesito occorre determinareP(A ∩ B). Ricordando leggi di De
Morgan, possiamo scrivere la relazioneA ∩ B = A ∪B da cui si ricava
P(A ∩B) = 1− P(A ∪ B) = 1− [P(A) + P(B)− P(A ∩B)]
= 1− [0.65 + 0.45− 0.3] = 1− 0.8 = 0.2 .
La probabilità di errata diagnosi è del20%.
Dal diagramma di Venn in figura 1.4, identificandoE1 conA eE2 conB, si evince
cheE1 ∩ E2 = E2 − E1, per cui dalla (1.36) discende la relazione probabilistica:
P(E2 − E1) = P(E2)− P(E1 ∩ E2). (1.37)
La formula di inclusione-esclusioneche dimostreremo nel successivo teorema è
una generalizzazione della (1.31).
Teorema 1.3.3.SiaE1, . . . , En una successione di eventi:Ei ∈ F , 1 6 i 6 n.
La probabilità dell’evento unione⋃n
i=1Ei è data dalla relazione
P
(n⋃
i=1
Ei
)
=
n∑
i=1
P(Ei)−∑
i<j
P(Ei ∩ Ej) +∑
i<j<k
P(Ei ∩ Ej ∩ Ek)+
+ · · ·+ (−1)n+1P(E1 ∩ E2 ∩ · · · ∩ En). (1.38)
Dimostrazione.Si procede per induzione. Osserviamo che la (1.38) è verificata
pern = 2 in virtù del teorema 1.3.2 e dimostriamo che se essa è supposta valida
40 Capitolo 1. Definizione assiomatica di probabilità
per un interon = r allora è valida anche pern = r + 1. PoniamoBr =⋃r
i=1Ei.
Grazie alla (1.31) possiamo esprimere la probabilità diBr+1 come
P(Br+1) = P(Br ∪ Er+1) = P(Br) + P(Er+1)− P(Br ∩ Er+1).
Poiché la (1.38) è ipotizzata valida pern = r, la precedente relazione può essere
riscritta come
P(Br+1) ≡ P
(r+1⋃
i=1
Ei
)
= P
(r⋃
i=1
Ei
)
+ P(Er+1)− P(Br ∩ Er+1)
=[ r∑
i=1
P(Ei)−∑
i<j
P(Ei ∩ Ej) +∑
i<j<k
P(Ei ∩ Ej ∩ Ek)
+ · · ·+ (−1)n+1P(E1 ∩ E2 ∩ Ek ∩ · · · ∩ Er)
]
+ P(Er+1)− P
[r⋃
i=1
(Ei ∩ Er+1)
]
. (1.39)
Calcoliamo, ora, la probabilitàP [⋃r
i=1(Ei ∩ Er+1)] applicando ancora una volta
la formula (1.38). Si ha
P
[r⋃
i=1
(Ei ∩ Er+1)
]
=
r∑
i=1
P(Ei ∩ Er+1)−r∑
i<j
P [(Ei ∩ Er+1) ∩ (Ej ∩ Er+1)]
+r∑
i<j<k
P [(Ei ∩ Er+1) ∩ (Ej ∩ Er+1) ∩ (Ek ∩ Er+1]
+ · · ·+ (−1)r+1P [(E1 ∩ Er+1) ∩ (E2 ∩ Er+1) ∩ · · · ∩ (Er ∩ Er+1)] . (1.40)
Ricordiamo che l’intersezione gode della proprietà associativa e che l’intersezione
di un insieme con sé stesso dà l’insieme stesso. Ciò premessola (1.40) diventa
P
[r⋃
i=1
(Ei ∩ Er+1)
]
=
r∑
i=1
P(Ei ∩ Er+1)−r∑
i<j
P(Ei ∩ Ej ∩ Er+1)
+ · · ·+ (−1)r+1P (E1 ∩ E2 ∩ · · · ∩ Er+1) . (1.41)
1.3 La probabilità 41
Sostituendo la (1.41) nella (1.40), si ricava la (1.38) scritta pern = r + 1 ed il
teorema è stato dimostrato.
Esempio 1.3.2. Probabilità di contaminazione
Durante il processo di preparazione di una pietanza precotta tre possibili agenti
infettivi, indicati nel seguito con A, B e C rispettivamente, possono contaminare
accidentalmente il prodotto. Essi possono essere presentisia da soli che contem-
poraneamente. Calcoliamo la probabilità degli eventi definiti dalla proposizioni
non vi è stata contaminazionee un solo agente infettivo ha contaminato il pro-
dotto nell’ipotesi che le probabilità di contaminazione sianoP(A) = 5 · 10−3,
P(B) = 4 · 10−3, P(C) = 4 · 10−3, P(A ∩B) = 2 · 10−4, P(A ∩ C) = 1.5 · 10−3,
P(B ∩ C) = 1 · 10−3, P(A ∩ B ∩ C) = 3 · 10−3.
Indichiamo, rispettivamente, conE1 eE2 gli eventi di interesse. Affinché non vi
sia stata contaminazione, tutti gli agenti infettivi non devono essere presenti nella
pietanza e quindiE1 ≡ A ∩ B ∩ C. Ricordando le formule di De Morgan si ha
A ∩ B ∩ C = A ∪ B ∪ C e, quindi,P(E1) = 1 − P(A ∪ B ∪ C). Applicando la
regola di inclusione-esclusione al caso di tre eventi si ricava
P(A ∪B ∪ C) = P(A) + P(B) + P(C)
− P(A ∩ B)− P(A ∪ C)− P(B ∪ C) + P(A ∩B ∩ C) = 0.01285
da cui segueP(E1) = 1− 0.01285 = 0.98715 .
L’eventualità che un solo agente infettivo abbia contaminato il prodotto è il risul-
tato dei tre eventi incompatibiliè presente solo A, è presente solo B, è presente
solo C. Formalmente si ha
E2 = (A ∩B ∩ C) ∪ (A ∩B ∩ C) ∪ (A ∩B ∩ C).
Osserviamo, innazitutto, che
A ∩ B ∩ C = A ∩ (B ∩ C) = A ∩ (B ∪ C)
42 Capitolo 1. Definizione assiomatica di probabilità
e, quindi,
P(A ∩ B ∩ C) = P(A ∩ (B ∪ C) = P((B ∪ C) ∩A).
Ricordando la (1.36), otteniamo infine
P(A ∩B ∩ C) = P(A)− P[(B ∪ C) ∩A]
= P(A)− P[A ∩ (B ∪ C)] = P(A)− P[(A ∩ B) ∪ (A ∩ C)]
= P(A)− [P(A ∩ B) + P(B ∩ C)− P(A ∩ B ∩ C)]
= 5 · 10−3 − 0.2 · 10−3 − 1 · 10−3 + 3 · 10−3 = 6.8 · 10−3.
Con analoga procedura si calcola
P(A ∩B ∩ C) = P(B)− [P(A ∩ B) + P(B ∩ C)− P(A ∩ B ∩ C)]
= 4 · 10−3 − 0.2 · 10−3 − 1 · 10−3 + 3 · 10−3 = 3.1 · 10−3
e
P(A ∩B ∩ C) = P(C)− [P(A ∩ C) + P(B ∩ C)− P(A ∩ B ∩ C)]
= 4 · 10−3 − 1.5 · 10−3 − 1 · 10−3 + 3 · 10−3 = 4.5 · 10−3
pertanto
P(E2) = 6.8 · 10−3 + 3.1 · 10−3 + 4.5 · 10−3 = 14.4 · 10−3.
SeE1 eE2 eventi disgiuntiP(E1 ∩ E2) = P(∅) = 0, cosicché la (1.31) esprime
semplicemente la finita additività diP. In particolare, in questo caso, si ha:
P(E1 ∪ E2) ≡ P(E1 ⊔ E2) = P(E1) + P(E2)
che costituisce l’espressione più semplice della legge delle probabilità totali.
In generale vale la disugualianza detta diBoole
P(E1 ∪ E2) 6 P(E1) + P(E2) (1.42)
1.3 La probabilità 43
essa fornisce un maggiorante per calcolare la probabilità dell’unione di due eventi
ed è particolarmente utile quando il calcolo della probabilità dell’intersezione non
sia agevole. La (1.42) ha un valenza generale, dimostriamo innazitutto che essa è
valida per un numero finito di eventi.
Teorema 1.3.4.SiaE1, . . . , En una qualsiasi sequenza finita di eventi, risulta:
P
(n⋃
i=1
Ei
)
6
n∑
i=1
P(Ei) (1.43)
oven è un generico numero intero finito.
Dimostrazione.Procediamo per induzione. Osserviamo che, in virtù della (1.42),
la tesi del teorema sussiste nel caso particolare din = 2. Supponimo che essa sia
vera pern = k e poniamon = k + 1. Si può scrivere
P
(k+1⋃
i=1
Ei
)
≡ P
(k⋃
i=1
Ei ∪ Ek+1
)
per la (1.42)6 P
(k⋃
i=1
Ei
)
+ P(Ek+1) 6
k∑
i=1
P(Ei) + P(Ek+1)
che coincide con la (1.43) pern = k + 1 ed il ragionamento per induzione è
completato.
Teorema 1.3.5.SiaEii∈N una generica sequenza numerabile di eventi, risulta:
P
(∞⋃
i=1
Ei
)
6
∞∑
i=1
P(Ei). (1.44)
Dimostrazione.Nel caso particolare in cui la serie a secondo membro della (1.44)
sia divergente la tesi del teorema segue per banale conseguenza. Supponiamo,
44 Capitolo 1. Definizione assiomatica di probabilità
invece, che essa converga ad un limite finito. La relazione (1.10) esprime l’insieme⋃Ei come unione di eventi mutuamente esclusivi33:
∞⋃
i=1
Ei = E1 ⊔ (E1 ∩E2) ⊔ (E1 ∩E2 ∩E3)⊔ · · · ⊔ (E1 ∩ · · · ∩Ei−1 ∩Ei) ⊔ · · · .
Osserviamo cheE1 ∩ E2 è la parte diE2 non comune adE1, E1 ∩ E2 ∩ E3 è la
parte diE3 non comune adE1 ed aE2, pertantoE1∩E2 ⊆ E2,E1∩E2∩E3 ⊆ E3
e così via. Per il corollario 1.30 e la proprietà di additività completa si ricava
P
(∞⋃
i=1
Ei
)
= P(E1) + P(E1 ∩ E2) + P(E1 ∩ E1 ∩ E2) + · · ·
6 P(E1) + P(E2) + P(E3) + · · ·+ P(Ei) + · · ·
e la tesi è stata dimostrata.
1.3.4 Il teorema di equivalenza
Dato uno spazio di probabilitàΩ,F ,P, come abbiamo dimostrato in precedenza
l’additività numerabile implica l’additività finita; in generale non vale il viceversa.
Definizione 1.3.3.Consideriamo una funzione di insiemeT : F −→ R. Se per
ogni successione di eventiAnn∈N dotata di limite, ossia tale che∃A ∈ F per il
qualeA = limn→∞An ≡ lim infn→∞An ≡ lim supn→∞An, risulta
limn→∞
T (An) = T
(
limn→∞
An
)
= T(A) (1.45)
allora si dice cheT verifica la proprietà di continuità.
Sussiste il seguente teorema che il lettore interessato trova dimostrato in [2].
33Un diagramma di Venn con tre eventi può aiutare il lettore a convincersi della correttezza di
questa riscrittura della (1.10).
1.3 La probabilità 45
Teorema 1.3.6(Teorema di equivalenza). SiaΩ,F uno spazio probabilizza-
bile. Una funzione di insiemeP : F −→ R, soddisfacente gli assiomi1 e 2
della definizione 1.3.1, è numerabilmente additiva se e solose essa verifica sia la
proprietà di additività finita che la proprietà di continuità.
1.3.5 Eventi quasi certi ed eventi quasi impossibili
Il secondo assioma della definizione 1.3.1 afferma che l’evento certoΩ ha proba-
bilità 1, ma non esclude che ad altri eventi, diversi daΩ, possa essere associato una
probabilità uguale a 1. Lo stesso ragionamento vale per l’evento impossibile che,
per il lemma 1.3.1, ha probabilità di occorrenza nulla; non èdetto che un evento a
probabilità zero coincida con∅. Considerato uno spazio di probabilitàΩ,F ,P,
diamo le definizioni seguenti.
Definizione 1.3.4.Un eventoC si dicequasi certose risultaP(C) = 1 .
Definizione 1.3.5.Un eventoI si dicequasi impossibilese risultaP(I) = 0 .
I due concetti sono tra loro strettamente legati. Infatti dalla (1.29) segue la re-
lazioneP(A) + P(A) = 1 ed allora seA è quasi certoA è quasi impossibile, e
viceversa.
Teorema 1.3.7.SiaA un generico evento. SeI è un evento quasi impossibile
valgono le relazioni
P(A ∩ I) = 0 (1.46a)
P(A ∪ I) = P(A) (1.46b)
e, seC è un evento quasi certo,
P(A ∩ C) = P(A) (1.47a)
P(A ∪ C) = 1 . (1.47b)
46 Capitolo 1. Definizione assiomatica di probabilità
Dimostrazione.Per dimostrare la (1.46a) osserviamoA ∩ I ⊆ I. Per la proprietà
di monotonia34 di P si haP(A ∩ I) 6 P(I) = 0 e, grazie al corollario 1.3.2,
0 6 P(A ∩ B) 6 P(B) = 0. Analogamente, poichéA ∪ C ⊇ C e ricordando
ancora il corollario 1.3.2, si ha1 > P(A ∪ C) 6 P(C) = 1 e la (1.47b) risulta
verificata. Utilizziamo, ora, la relazioneA∪I = A⊔(A∩I). Per la finita additività
di P e per la (1.46a), si ha
P(A ∪ I) = P(A) + P(A ∩ I) = P(A)
ed anche la (1.46b) è stata dimostrata. Infine dalla (1.7) si ricava
A = (A ∩ C) ⊔ (A ∩ C)
da cui35
P(A) = P(A ∩ C) + P(A ∩ C) = P(A ∩ C).
34vedi corollario 1.3.335Si ricordi che se un evento è quasi certo la sua negazione è quasi impossibile.
CAPITOLO 2
Spazi campionari discreti
Nel capitolo precedente abbiamo definito la misura di probabilità a partire da un
generico spazio campionario. In questo capitolo restringeremo la nostra attenzione
al caso discreto.
2.1 Applicazione della definizione di Kolmogorov al
caso discreto
SiaΩ uno spazio campione discreto, finito o numerabile, eF la σ-algebra degli
eventi. Per calcolare la probabilità di un generico eventoE ∈ F è sufficiente
assegnare un valore di probabilità ai singoli eventi elementari ωi:
pi = P(ωi).
In virtù degli assiomi, i numeripi devono essere tali che
∀i, pi > 0 e∑
i
pi = 1 . (2.1)
48 Capitolo 2. Spazi campionari discreti
Infatti la prima relazione segue dall’assioma 1 e, per l’assioma 2, si ha:
1 = P(ω) = P
(⊔
i
ωi)
=∑
i
pi.
Poiché un generico eventoE è l’unione, finita o numerabile, di eventi elementari
incompatibili,E =⊔
iωi, per la proprietà di additività completa della misura di
probabilità si ha:
P(E) =∑
i:ωi∈E
pi. (2.2)
P definisce una misura di probabilità suΩ,F. L’insieme di valoripi è detto
distribuzione di probabilità: la probabilità totale, pari ad1, è distribuita su tutti gli
ωi ∈ Ω.
2.1.1 Esiti equiprobabili
Supponiamo che lo spazio delle prove sia finito1, Ω = ω1, ω2, . . . , ωn(Ω), le
relazioni (2.1) e (2.2) diventano2
pi > 0 (1 6 i 6 n)
n∑
i=1
pi = 1 P(E) =
nE∑
i=1
pi. (2.3)
In particolare, assumiamo
p1 = p2 = · · · = pn =1
n(2.4)
in modo tale che
P(E) = nE/n(Ω). (2.5)
L’assegnazione delle probabilità 2.4 è dettauniformeo equiprobabile.
1Indichiamo conn(Ω) ≡ n il numero degli esiti elementari.2E è l’unione (si decompone) dinE eventi elementari:E =
⋃nE
i=1ωi.
2.1 Applicazione della definizione di Kolmogorov al caso discreto 49
Osservazione2.1.1. La (2.5) riduce il cacolo della probabilità dell’eventoE alla
determinazione del numero degli elementi che compongonoE: in numero degli
esiti favorevoli adE. Questa metodologia di calcolo, da noi dedotta applicando gli
assiomi di Kolmogorov al caso particolare degli spazi campionari discreti e finiti,
fu proposta inizialmente come definizione di probabilità, definizione classica, nel-
la quale l’equiprobabilità degli eventi elementari era assunta valida a priori. Essa
ha trovato applicazione soprattutto nella teoria dei giochi.
Esempio 2.1.1. Lancio di una moneta
Nel caso del lancio di una moneta, come abbiamo visto, lo spazio campione è
Ω = T, C en(Ω) = 2. Definiamo la misura di probabilità ponendo
P(T ) = p = 1− P(C) 0 6 p 6 1 . (2.6)
La (2.6) definisce la probabilità sullo spazio probabilizzabile Ω,F, ove laσ-
algebra degli eventi èF = ∅, T, C, T, C.Se la moneta è bilanciata (one-
sta), risultap = 1/2, infatti n(Ω) = 2 .
Se si lancia per tre volte lo moneta, lo spazio campionario è costituito da otto punti
campione
Ω = CCC︸ ︷︷ ︸
ω1
, CCT︸ ︷︷ ︸
ω2
, CTC︸ ︷︷ ︸
ω3
, TCC︸ ︷︷ ︸
ω4
, CTT︸ ︷︷ ︸
ω5
, TCT︸ ︷︷ ︸
ω6
, TTC︸ ︷︷ ︸
ω7
, TTT︸ ︷︷ ︸
ω8
e
p1 = p2 = · · · = p8 =1
8.
Sia l’eventoA definito dalla proposizionelanciando tre volte una moneta si os-
serva due volte testaeB l’eventonon appare mai testa, si ha
P(A) = P(ω5, ω6, ω7) =3
8
e
P(B) = P(ω1) =1
8.
50 Capitolo 2. Spazi campionari discreti
Esempio 2.1.2.In un’urna sono contenute sei bussolotti numerati da uno a sei, i
primi quattro sono di colore rosso ed i rimanenti due neri. Supponiamo di estrarre
a caso un bussolotto; all’esperimento casuale è associato lo spazio campioneΩ =
1, 2, 3, 4, 5, 6; la probabilità che sia estratto un qualunque numero da uno asei
è p = 16. Calcoliamo la probabilità dell’eventoestrazione di un bussolotto rosso
dato dal sottoinsiemeA = 1, 2, 3, 4.Indicando connA il numero di casi favorevoli adA, si ha:
P(A) =nA
nΩ=
4
6=
2
3.
È importante notare che il precedente non è l’unico modello probabilistico possibi-
le. Si potrebbe considerare non adatta allo scopo l’ipotesidi equiprobabilità degli
esiti elementari. Le palline nell’urna potrebbero essere truccate ed alcune ave-
re una probabilità maggiore di essere estratte. Assegniamo, a priori, le seguenti
probabilità:
P[1] = P[2] = P[3] = P[4] =1
8,
P[5] = P[6] =1
4.
Tenuto conto cheA = 1 ⊔ 2 ⊔ 3 ⊔ 4, dalla (2.2) si ricava
P(A) = P[1] + P[2] + P[3] + P[4] = 1
2.
Esempio 2.1.3. Lotteria di beneficenza
Per promuovere i festeggiamenti del santo patrono, il parroco mette in vendita
mille biglietti; ai primi dieci estratti sarà assegnato un premio. Nell’ipotesi che
tutti i biglietti siano stati collocati, calcoliamo la probabilità di vincere almeno un
premio acquistando tre tagliandi.
La probabilità che un singolo biglietto sia estratto è10−3, essendo dieci le estra-
zioni la probabilità di vincere un premio è10 · 10−3 = 10−2. Indichiamo conAk
2.2 Alcune situazioni specifiche e richiami di calcolo combinatorio 51
l’evento: il k-esimo biglietto vince un premio. Avendo acquistato tre tagliandi,
l’eventoA, vincere almeno un premio, èA = A1 ∪ A2 ∪ A3, oveA1, A2, A3 non
sono disgiunti. Dalla regola di inclusione-esclusione si ricava
P(A) = P(A1 ∪ A2 ∪A3) = P(A1) + P(A2) + P(A3)
− P(A1 ∩ A2)− P(A1 ∪ A3)− P(A2 ∪A3) + P(A1 ∩A2 ∩A3)
ma, non essendo note le probabilità degli eventi intersezione, possiamo calcolare
un maggiorante diP(A) grazie alla disuguaglianza di Boole:
P(A) 6 P(A1) + P(A2) + P(A3) = 3× 10−2.
2.2 Alcune situazioni specifiche e richiami di calcolo
combinatorio
Nel trattare con spazi campionari discreti e finiti, i cui esiti elementari siano equi-
probabili, il calcolo della probabilità di un evento si riduce al problema di contare
gli esiti sperimentali possibili e quelli favorevoli all’evento di interesse. Questa
operazione è facilitata dalla conoscenza di alcune regole eteoremi del calcolo
combinatorio richiamati nei paragrafi successivi.
2.2.1 Coppie edr-ple
Proposizione 2.2.1.Conm elementia1, a2, · · · , am edn elementib1, b2, · · · , bnsi possono formarem×n coppie(j, k) contenenti un elemento da ciascun gruppo.
Infatti daa1 si ricavano len coppie
(a1, bk) k = 1, 2, . . . n,
52 Capitolo 2. Spazi campionari discreti
daa2 ulteriori n coppie
(a2, bk) k = 1, 2, . . . n,
...
ed infine daam ancora len coppie
(am, bk) k = 1, 2, . . . n.
Esempio 2.2.1. Lancio di due dadi
Ciascun dado a sei facce numerate da uno a sei; lo spazio campione è costituito
dalle coppie(i, j) con i = 1, 2, . . . , 6 e j = 1, 2, . . . , 6 e, quindi,nΩ = 36 . Se i
dadi non sono truccati, tutte le coppie sono equiprobabili esi ha:
P[(i, j)] =1
36∀(i, j).
Calcoliamo la probabilità che l’esito del lancio sia un punteggio non inferiore a
cinque.
P[(i, j) : i+ j > 5, i, j = 1, . . . , 6]
= 1− P[(i, j) : i+ j 6 4, i, j = 1, . . . , 6]
= 1− P[(1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (3, 1)]
= 1− 6
36= 1− 1
6=
5
6.
Allo stesso risultato si perviene contando il numeron di coppie favorevoli al
risultato atteso e calcolando il rapporton
nΩ. La procedura è più lunga.
Proposizione 2.2.2.Siano assegnatir insiemi finiti
ai (i = 1, 2, . . . , n1),
bj (j = 1, 2, . . . , n2),
...
xr (r = 1, 2, . . . , nr);
2.2 Alcune situazioni specifiche e richiami di calcolo combinatorio 53
è possibile formaren1 × n2 × · · · × nr r-ple ordinate
(ak1 , bk2 , . . . , xkr)
contenenti un elemento estratto da ciascuno deglir gruppi.
Ser = 2 si ricade nel caso delle coppie; ser = 3, consideriamo len1 × n2 coppie
(ai, bj) come un singolo elemento, si formano cosìn1×n2×n3 triple (ai, bj , ck), da
queste ultime si ottengonon1×n2×n3×n4 quadruple(ai, bj , ck, dl) e procedendo
in questo modo si dimostra la proposizione.
Esempio 2.2.2. Condizioni sperimentali in agricoltura
Supponiamo di dover valutare l’efficacia di un nuovo antiparassitario per la pro-
duzione di grano. L’antiparassitario può essere somministrato in quattro differenti
concentrazioni(a1, a2, a3, a4); la sua efficacia potrebbe dipendere dalle condizio-
ni climatiche e dall’entità della concimazione. Nell’ipotesi che si adottino cinque
differenti concentrazioni di fertilizzante,(f1, f2, f3, f4, f5), e che si considerino le
condizioni di clima freddo,T1, clima temperato,T2, e clima caldo,T3, possiamo
formare4×5×3 = 60 triplette(ai, fj, Tk) che individuano le differenti condizioni
sperimentali.
Esempio 2.2.3. Codice alfanumerico
Un codice alfanumerico è formato da cinque caratteri(a1, a2, a3, i1, i2), i primi tre
sono lettere dall’alfabeto inglese (26), mentre gli ultimidue numeri sono interi
compresi tra zero e nove (10):
1. A1 = a, b, c, . . . , z,
2. A2 = a, b, c, . . . , z,
3. A3 = a, b, c, . . . , z,
54 Capitolo 2. Spazi campionari discreti
4. I1 = 0, 1, 2 . . . , 9,
5. I2 = 0, 1, 2 . . . , 9.
I possibili codici differenti sono:263 × 102 = 1.757.600 .
2.2.2 Il campionamento
Con il terminepopolazione3 si intende un generico aggregato din elementi
a1, a2, . . . , an.
La selezionecasualedi r elementi dalla popolazione è dettacampionamento. Af-
finchè il campionamento sia casuale è necessario che ciascunmembro della popo-
lazione abbia la stessa possibilità di essere estratto e la selezione di un particolare
elemento non influenzi la scelta dei successivi. Nel seguitoconsidereremo unica-
mente il campionamento casuale. Se si associa a ciascun membro della popolazio-
ne una pallina numerata e queste vengono inserite in un’urna, il campionamento
casuale può essere idealizzato come l’estrazione di un bussolotto dall’urna. Il sin-
golo elemento della popolazione prescelto è quello a cui è stato associato l’intero
k ∈ [1, n] estratto.
Definizione 2.2.1. Campionamento con reimbussolamentoIl campionamento
è, ad ogni passo, effettuato sull’intera popolazione: un elemento una volta scel-
to è reinserito nell’urna e può essere selezionato più volte. Il campione è una
successione di elementi della popolazione con possibili ripetizioni4.
3Il termine popolazione è utilizzato in statistica, nel nostro caso (spazi campionari discreti
e finiti) la popolazione rappresenta l’insieme dei risultati possibili dell’esperimento casualeE , in
altre parole la popolazione coincide con lo spazio delle prove. Al campione casuale, che definiremo
subito dopo, si associa concettualmente l’insieme dei casifavorevoli.4Il campionamento con reimbussolamento è detto anche conrestituzione.
2.2 Alcune situazioni specifiche e richiami di calcolo combinatorio 55
Definizione 2.2.2. Campionamento senza reimbussolamento
Una volta scelto un elemento, esso è escluso dalle successive selezioni: non sono
ammesse ripetizioni.
2.2.3 Campione ordinato
Un campione ordinato ditaglia r è un ordinamento del tipoaj1, aj2, . . . , ajr di
elementi non necessariamente distinti della popolazione(ai, . . . , an). Due qualun-
que di tali campioni ordinati sono diversi non solo quando c’è almeno un elemento
che è presente in uno di essi ma non nell’altro, ma anche se, essendo le duer-ple
costituite esattamente dagli stessi elementi, questi occupano posizioni differenti
nei due ordinamenti. Il campione ordinato di tagliar è spesso dettor-disposizione
o disposizione di classer.
Proposizione 2.2.3.Fissata una tagliar, da una popolazionea1, a2, . . . , an,
campionando con restituzione, si possono estrarrenr differenti campioni ordinati
aj1, aj2, . . . , ajr.
Per convincersi della validità della precedente asserzione, si ragioni come per
la proposizione 2.2.2. In questo caso vi sonor insiemi din elementi e ciascun
insieme coincide con la popolazione:
n× n× · · · × n︸ ︷︷ ︸
r
.
Esempio 2.2.4. Totocalcio
Una colonna della schedina del totocalcio prevede tredici pronostici, r = 13;
(1, X, 2) sono i simboli disponibili, gli elementi della popolazionesono, quindi,
tre. Il numero di colonne distinte ènr = 313.
Esempio 2.2.5. Alfabeto Morse
I simboli dell’alfabeto Morse sono solamente due, il punto ela linea,(•,−), che
56 Capitolo 2. Spazi campionari discreti
disposti su un fissato numero di spazi5 formano, per convenzione, una lettera;
più spazi abbiamo a disposizione, maggiore è il numero di lettere che si possono
codificare. Calcoliamo il numero di lettere che si possono codificare con una
stringa ordinata di punti e linee di lunghezza quattro. Essendon = 2 edr = 4, si
ha:nr = 24 = 16.
• • •• − −−− • − −• • • −•• • •− − −−• − • •− • − ••• • −− −− •• − • −• − − •−• − −− − • •• • − •− − • −−
Proposizione 2.2.4.Fissata una tagliar, da una popolazionea1, a2, . . . , an ove
n > r, campionando senza reimbussolare, si possono estrarre
n(n− 1)(n− 2) · · · (n− r + 1) ≡ (n)r
differenti campioni ordinatiaj1, aj2, . . . , ajr.Infatti si può scegliere inn modi diversi solo il primo elementoaj1, quest’ulti-
mo, campionando senza restituzione, non è disponibile per la scelta successiva e,
quindi, vi sonon − 1 possibilità di scelta diaj2; procedendo in questo modo,ajr
è selezionabile dagli[n − (r − 1)] = (n − r + 1) elementi rimasti disponibili.
L’intero (n)r, il prodotto din per i primi r − 1 interi positivi minori din, è detto
numero di disposizioni semplici di n oggetti presi r alla volta, o r-disposizione
semplice, ed è denotato dal simbolo combinatorio:nDr. Nel caso in cuir = n, la
n-disposizione semplice si dicepermutazionedeglin elementi sun posti. Si ha
(n)n ≡ Pn = n · (n− 1) · (n− 2) · · ·2 · 1 ≡ n!
oven! si leggen fattoriale.
Osserviamo che, per ogni numero naturalen > 2, si ha
n! = n · (n− 1)! (2.7)
5Il numero degli spazi è la lunghezza della sequenza (stringa) di punti e linee.
2.2 Alcune situazioni specifiche e richiami di calcolo combinatorio 57
ed, affinché la (2.7) abbia significato anche pern = 1, si pone0! = 1, per
convenzione. Risulta:
n!
(n− r)!=
n · (n− 1) · · · (n− r + 1) · (n− r) · · ·2 · 1(n− r) · (n− r − 1) · · ·2 · 1
= n · (n− 1) · · · (n− r + 1) ≡ (n)r . (2.8)
Esempio 2.2.6.A tre dei cinque componenti di un consiglio direttivo deve essere
attribuito l’incarico di presidente, segretario e tesoriere rispettivamente, al fine di
formare il consiglio di presidenza. Non è ammesso il cumulo delle cariche. Qual
è il numero dei possibili consigli di presidenza se si assumedi distribuire a caso
gli incarichi?
Per le ipotesi poste sul cumulo delle cariche si rientra nell’ambito del campiona-
mento senza reimbussolamento; quindi il numero dei possibili differenti consigli
di amministrazione è:(n)r = (5)3 = 5 · 4 · 3 = 60.
Osservazione2.2.1. Campionando con e senza restituzione, da una popolazione di
n elementi si ricavanonr ed(n)r campioni ordinati di taglian, rispettivamente. La
probabilità di selezionare un determinato campioneaj1, aj2, . . . , ajr è, quindi,1
nrse si campiona con restituzione e
1
(n)r, altrimenti. Il rapporto
p =(n)rnr
(2.9)
esprime la probabilità che nel campionamento con reimbussolamento da una popo-
lazione din elementi si ottenga un campione ordinato di tagliar senza ripetizione
di elementi. Infatti a denominatore della (2.9) compare il numero dei possibili esiti
del campionamento e, a numeratore, il numero di campioni contutti gli elementi
distinti (casi favorevoli), che è quello calcolato nel casospecifico del campiona-
mento senza reimbussolamento.
58 Capitolo 2. Spazi campionari discreti
Se si selezionano cinque interi dai primi dieci numeri naturali 0, 1, . . . , 9, la pro-
babilità che essi siano tutti differenti, nell’ipotesi cheil campionamento avvenga
con restituzione, è
p =(10)5105
=10 · 9 · 8 · 7 · 6
105≈ 0.3 .
2.2.4 Campione non ordinato
Affrontiamo ora lo studio di quelle situazioni nelle quali non è di interesse l’ordine
di estrazione dalla popolazione dei singoli oggettiajk . In questo caso il campione
di tagliar, aj1 , aj2, . . . , ajr, è detto campione casuale non ordinato. Due cam-
pioni differiscono tra loro se e solo se essi hanno almeno un elemento che non
sia comune ad entrambi. In seguito si tenderà ad omettere il termine non ordinato
e, nel caso in cui l’ordinamento è essenziale, il campioneaj1, aj2, . . . , ajr sarà
sempre denotato come un campione ordinato.
Supponiamo di campionare senza reimbussolamento, qual è ilnumero di campio-
ni di taglia r che si possono estrarre da una popolazione din elementi distinti?
O, in altre parole, in quanti modi da un totale din oggetti distinti se ne possono
estrarrer non essendo rilevante l’ordine di selezione? Come abbiamo dimostrato
in precedenza, campionando senza reimbussolare vi sono(n)r campioni ordinati
di tagliar nei quali, per effetto della tecnica di campionamento, tutti gli elementi
ajk sono tra loro distinti. Ciascuna deller! permutazioni diaj1 , aj2, . . . , ajr darà
luogo allo stesso campione non ordinato, sicché da una popolazione di ampiezza
n si possono estrarre(n)rr!
sottogruppi dir elementi distinti. In virtù della (2.8) si
ha(n)rr!
=n!
r! · (n− r)!≡(n
r
)
(2.10)
ove
(n
r
)
è denominatocoefficiente binomialee si leggen su r. Mutuando la
terminologia propria del calcolo combinatorio, il campione casuale non ordinato
2.2 Alcune situazioni specifiche e richiami di calcolo combinatorio 59
di tagliar viene indicato come la combinazione dir oggetti distinti da un totale di
n. Al numero totale,
(n
r
)
, di tali possibili combinazioni è riservata la notazione
nCr.
Esempio 2.2.7. Possibili stringhe di tre lettere diverse
Quante stringhe composte da tre lettere distinte si possonoformare dalle prime
cinque lettere dell’alfabeto? Per rispondere al quesito è necessario calcolare il
numero di combinazioni di tre oggetti differenti da un totale di cinque:
5C3 =
(5
3
)
=5!
3! · 2! =4 · 52
= 10 .
Infatti a partire dalla sequenza di letterea, b, c, d, e, le possibili stringhe alfabe-
tiche non ordinate, tra loro diverse e senza ripetizioni, sono le seguenti:
abc acd bcd cde abd
ace bce abe ade bde.
Esempio 2.2.8. Il gioco del lotto
Fissata una ruota, sono possibili(90
2
)
=89 · 90
2= 4005 ambi,
(90
3
)
=88 · 89 · 90
6= 117.480 terni,
(90
4
)
=87 · 88 · 89 · 90
24= 2.555.190 quaterne,
(90
5
)
=86 · 87 · 88 · 89 · 90
120= 43.949.268 quintine.
Riportiamo alcune relazioni utili nei calcoli. Per convenzione si pone(n
0
)
= 1 (2.11)
60 Capitolo 2. Spazi campionari discreti
e (n
r
)
= 0 (2.12)
ser < 0 oppurer > n.
Sen edr sono interi tali chen > r > 0, dalla (2.10) si ricava l’dentità:(n
r
)
=
(n
n− r
)
. (2.13)
Le seguenti identità sono valide qualunque sia l’interor:(n+ 1
r
)
=
(n
r − 1
)
+
(n
r
)
, (2.14)
r
(n
r
)
= n
(n− 1
r − 1
)
. (2.15)
In generale, ses è un intero non negativo, si ha
(r)s ·(n
r
)
= (n)s ·(n− s
r − s
)
. (2.16)
Vale il seguente teorema6
Teorema 2.2.1(Teorema Binomiale). Sen e t verificano opportune condizioni
vale la relazione
(1 + t)n =
∞∑
r=0
(n
r
)
tr. (2.17)
(i) Se n è un intero positivo, la serie si riduce ad una somma finitae pertanto
converge∀t ∈ R.
(ii) Se n è negativo o razionale, la serie converge se|t| < 1 e diverge se|t| > 1.
Set = +1, a serie a secondo membro della(2.17)converge sen > −1; se
t = −1 essa converge per valori positivi din.
6Per la dimostrazione si consulti un testo avanzato di analisi. Si noti che(nr
)prende il nome di
coefficiente binomiale in quanto compare come coefficiente nella (2.17).
2.2 Alcune situazioni specifiche e richiami di calcolo combinatorio 61
Sian un intero positivo et = 1, dalla (2.17) si ottiene
2n =
∞∑
r=0
(n
r
)
=
(n
0
)
+
(n
1
)
+· · ·+(n
n
)
+
0︷ ︸︸ ︷(
n
n+ 1
)
+ · · · =n∑
r=0
(n
r
)
. (2.18)
Pern intero positivo, derivando la (2.17) rispetto at e ponendo successivamente
t = 1, si ricava
n2n−1 =n∑
r=1
r
(n
r
)
. (2.19)
Teorema 2.2.2(Identità ipergeometrica). Sianoa eb numeri reali edn un intero
positivo, risulta, allora, verificata l’identità
∞∑
r=0
(a
r
)(b
n− r
)
=
(a + b
n
)
. (2.20)
Dimostrazione.Come conseguenza del teorema binomiale 2.2.1, fissato un nume-
ro realet che sia soddisfatta la condizione|t| < 1, possiamo scrivere le relazioni
(1 + t)a =∑
r
(a
r
)
tr,
(1 + t)b =∑
s
(b
s
)
ts,
(1 + t)a+b =∑
n
(a + b
n
)
tn.
62 Capitolo 2. Spazi campionari discreti
Possiamo, inoltre, scrivere
(1 + t)a+b = (1 + t)a · (1 + t)b =
[∑
r
(a
r
)
tr
]
·[∑
s
(b
s
)
ts
]
=
[(a
0
)
+
(a
1
)
t+
(a
2
)
t2 · · ·]
·[(
b
0
)
+
(b
1
)
t+
(b
2
)
t2 · · ·]
=
(a
0
)(b
0
)
+
[(a
0
)(b
1
)
+
(a
1
)(b
0
)]
· t
+
[(a
0
)(b
2
)
+
(a
1
)(b
1
)
+
(a
2
)(b
0
)]
· t2 + · · ·
=∑
n
[∑
r
(a
r
)(b
n− r
)]
· tn
da cui∑
n
(a+ b
n
)
tn =∑
n
[∑
r
(a
r
)(b
n− r
)]
· tn.
Uguagliando i coefficienti ditn nelle serie a primo e secondo membro, si dimostra
la tesi.
2.2.5 Coefficiente multinomiale
Sianon, k, r1, r2, . . . , rk numeri interi non negativi tali chek > 2 ek∑
j=1
rj = n. Il
coefficiente multinomiale
(n
r1r2 . . . rk
)
è definito come:
(n
r1r2 . . . rk
)
=n!
r1!× r2!× · · · × rk!. (2.21)
Esso rappresenta le possibili permutazioni din oggetti dik tipologie differenti,
essendor1 gli oggetti del primo tipo,r2 del secondo, ... , edrk del k-esimo. Uti-
lizzando una terminologia più vicina alla statistica, il coefficiente multinomiale
2.2 Alcune situazioni specifiche e richiami di calcolo combinatorio 63
indica numero di modi in cui una popolazione di ampiezzan può essere suddivisa
in k sottogruppi, di cui il primo contiener1 elementi, il secondor2 elementi e
così via. Riferendoci a quest’ultima interpretazione, osserviamo che l’ordine dei
sottogruppi è fondamentale, infatti la partizione conr1 = 3 ed r2 = 5 è diver-
sa da quella che, viceversa, prevede cinque elementi nel primo sottogruppo e tre
elementi nel secondo. All’interno dei sottogruppi l’ordinamento è, invece, irrile-
vante.
Prima di rendere ragione della (2.21), cerchiamo di chiarire la nozione di coeffi-
ciente multinomiale con alcuni esempi.
Esempio 2.2.9. Permutazioni di lettere
Quante permutazioni distinte di lettere (stringhe o sequenze di simboli alfabetici)
possono formarsi con le lettere della parola MISSISSIPPI? Si dispone din = 11
simboli: una lettera M, quattro lettere I, quattro S e due P; il numero di permu-
tazioni possibili, del tipoIMISSISSIP, IPMISSISSI, . . . , IPISSISSIM, è dato da
coefficiente multinomiale(
11
1 4 4 2
)
=11!
1! · 4! · 4! · 2! = 34.650 .
Esempio 2.2.10. Gruppi sperimentali
Nello stabulario di una casa farmaceutica sono disponibilidieci ratti; dovendo
valutare la tossicità di tre sostanze sperimentali, occorre formare tre gruppi, il
primo composto da due ratti, il secondo da tre ed il terzo da cinque. In quanti
modi diversi si possono raggruppare i dieci ratti, supponendo di selezionarli a
caso? La partizione del gruppo totale di animali a disposizione può effettuarsi in
(10
2 3 5
)
=10!
2! · 3! · 5! = 2.520 .
modi diversi.
64 Capitolo 2. Spazi campionari discreti
Per dimostrare la (2.21) osserviamo che i primir1 elementi possono essere scelti
in
(n
r1
)
=n!
r1! · (n− r1)!diverse modalità; le possibilità di selezione quelli del
secondo sottogruppo e del terzo gruppo sono
(n− r1r2
)
=(n− r1)!
r2! · (n− r1 − r2)!
e
(n− r1 − r2
r3
)
=(n− r1 − r2)!
r3 · (n− r1 − r2 − r3)!, rispettivamente. Analogamente si
procede per gli altri; una volta scelto il(k − 1)-esimo sottogruppo, per il quale
sussistono
(n− r1 − r2 − · · · − rk−2
rk−1
)
=(n− r1 − r2 − · · · − rk−2)!
rk−1! · (n− r1 − r2 − · · · − rk−2 − rk−1)!
=(n− r1 − r2 − · · · − rk−2)!
rk−1! · rk!
possibili modalità, i rimanentirk elementi vanno a formare l’ultimo sottogruppo.
Calcolando il prodotto dei precedenti coefficienti binomiali si ha
n!
r1! · (n− r1)!× (n− r1)!
r2! · (n− r1 − r2)!× (n− r1 − r2)!
r3 · (n− r1 − r2 − r3)!
× (n− r1 − r2 − · · · − rk−2)!
rk−1! · rk!=
n!∏k
j=1 rj !
e la formula (2.21) è stata dimostrata. Il teorema che enunciamo di seguito ha un
ruolo rilevante nel calcolo combinatorio.
Teorema 2.2.3(Teorema multinomiale). Sen è un intero positivo et1, t2, . . . , tmsono numeri reali, allora
(m∑
i=1
ti
)n
=∑
km
· · ·∑
k2
∑
k1
(n
k1 k2 . . . km
)
tk11 tk22 · · · tkmm (2.22)
ovek1, k2, . . . , km sono interi non negativi tali che∑m
i=1 ki = n.
2.3 Problemi di occupazione 65
2.3 Problemi di occupazione
Supponiamo di dover disporre a cason palline identiche inn celle7 senza imporre
vincoli sul numero di palline per ciascuna cella. Una cella quindi potrà contenere
0, 1, 2, . . . , n palline. Qual è la probabilità che tutte le celle risultino occupate?
L’allocazione dellen palline può essere effettuata estraendo da un’urnan busso-
lotti numerati da1 adn. Non avendo posto limiti al numero di palline per cella è
necessario campionare reimbussolando. Si ottiene così unasuccessione ordinata
di interi c1, c2, . . . , cn che individua la cella ove inserire la prima, la seconda, ...
l’n-sima pallina. Chiariamo la procedura con un semplice esempio.
Sian = 3, supponiamo di estrarre dall’urna la ternac1 = 1, c2 = 3, c3 = 1. In
questo caso la prima pallina occupa cella1, la seconda la cella3 e la terza ancora
la 1. Analogamente, se dall’urna si estrae la ternac1 = 1, c2 = 1, c3 = 1, tutte e
tre le palline vanno poste nella cella1.
Il numero totale di modi possibili di allocare len palline nelle n celle ènn; il
numero di permutazioni din oggetti sun posti rappresenta il numero di casi favo-
revoli, ovvero il numero di allocazioni nelle quali ogni cella risulta occupata8. Di
conseguenza, la probabilità che tutte le celle siano occupate è:
p =n!
nn. (2.23)
Pern = 7, dalla (2.23) si ricavap = 0.00612: se in una città si verificano sette
incidenti per settimana, la distribuzione uniforme di un incidente al giorno è estre-
mamente rara,1 settimana ogni164, infatti:1
164= 6.1 × 10−3. Pern = 6, si ha
p = 0.01543: lanciando sei volte un dado è altamente improbabile che compaiano
tutte e sei le facce. Osserviamo che le celle, nel lancio di dadi, sono sei, quante
7contenitori8Pern = 3 i casi favorevoli sono le sei triplette:(1, 2, 3) − (3, 2, 1) − (1, 3, 2) − (3, 1, 2) −
(2, 3, 1)− (2, 1, 3).
66 Capitolo 2. Spazi campionari discreti
sono le facce del dado.
Prendiamo ora in esame il caso in cui il numero di palliner non coincida con
il numero di cellen. Dall’urna contenente glin bussolotti corrispondenti alle
n celle, se ne estraggono, con restituzione,r. La successione ordinata di interi
c1, c2, . . . , cr enumera le celle nelle quali inserire le palline. Se la cellaj-esima
contienerj palline, conj = 1, 2, . . . , n, gli interi r1, r2, . . . , rn prendono il nome
di numeri di occupazionee soddisfano la relazione
n∑
j=1
rj = r. (2.24)
Prima di procedere è importante sottolineare che le pallinesono considerate non
distinguibili tra loro mentre lo sono le celle. I questo contesto non è rilevante
quale pallina sia inserita in una particolare cella ma, ad esempio, sono differenti
le situazioni nelle quali la prima cella contiene tre palline e la seconda cinque e
quella in cui si verifica la situazione opposta.
Il numero di possibili allocazioni casuali deller palline in n celle ènr; il nu-
mero di disposizioni, che realizzano una fissatan-pla di numeri di occupazione
r1, r2, . . . , rn, è, ricordando la (2.21),
(r
r1r2 . . . rn
)
. Pertanto la probabilità che il
campionamento determini la distribuzione dellen palline in accordo ai numeri di
occupazioner1, r2, . . . , rn è
P(r1, r2, . . . , rn) =r!
r1!× r2!× · · · × rn!× n−r. (2.25)
La (2.25) è nota comestatistica di Maxwell-Boltzman9.
Nel caso in cuic1 = c2 = . . . = cr = 1, tutte le palline occupano la prima cella e
9Il termine statistica nasce nell’ambito della fisica e vienecomunemente mantenuto per
convenzione; si può comunque sostituire statistica con distribuzione o legge.
2.3 Problemi di occupazione 67
la (2.25) assume la forma
P(r,
n−1︷ ︸︸ ︷
0, . . . , 0) =r!
r!× (0!)n−1× n−r = n−r. (2.26)
Se si lancianor dadi, la (2.26) è la probabilità che tutti glir dadi presentino come
esito la faccia con il numero1, essa è anche la probabilità che tutti i dadi si pre-
sentino genericamente con la stessa faccia.
Ser < n, la probabilità che ler palline occupino esattamente le primer celle è
P(1, . . . , 1︸ ︷︷ ︸
r
,
n−r︷ ︸︸ ︷
0, . . . , 0) =r!
(1!)r × (0!)n−r× n−r = r!× n−r. (2.27)
L’evenienza che risultino occupare le primer celle equivale a dire che sono stati
selezionati i primir membri della popolazione. Per convincersi di ciò il lettore
rammenti che nell’esperimento del lancio di dadi le celle sono sei quante le facce
del dado; se i dadi sono due la (2.27) consente di calcolareP(1, 1, 0, 0, 0, 0) che è
la probabilità che il primo dado si presenti con un1 ed il secondo con un2.
Ognin-pla di interi che verifichi il vincolo (2.24) descrive una possibile configura-
zione di numeri di occupazione. Poiché le palline sono supposte essere non distin-
guibili, due configurazioni di numeri di occupazione sono distinte odistinguibili
o riconoscibilisolo se le corrispondentin-pler1, . . . , rn non sono identiche. Se si
lanciano due dadi, i possibili esiti sono le trentasei coppie di interi
(1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
(2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
(3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
(4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
(5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
(6,1) (6,2) (6,3) (6,4) (6,5) (6,6)
68 Capitolo 2. Spazi campionari discreti
da cui si ricava la tabella di numeri di occupazione
200000 110000 101000 100100 100010 100001
110000 020000 011000 010100 010010 010001
101000 011000 002000 001100 001010 001001
100100 010100 001100 000200 000110 000101
100010 010010 001010 000110 000020 000011
100001 010001 001001 000101 000011 000002
nella quale, in grassetto, sono state evidenziate le ventuno configurazioni distin-
guibili dei numeri di occupazione.
Proposizione 2.3.1.Il numero di distribuzioni riconoscibili dir palline inn cel-
le10 è dato dal coefficiente binomiale
Ar,n =
(n+ r − 1
r
)
=
(n+ r − 1
n− 1
)
. (2.28)
Per dimostrare l’asserto della proposizione 2.3.1 ricorriamo ad un ragionamento
proposto da Feller (vedi [5]). Indichiamo ler palline con il simbolo⊙ e len celle
conn spazi tran+1 separatori, le doppie freccel. In questo modo la successione
di simboli
l1
︷ ︸︸ ︷⊙⊙⊙ l
2︷︸︸︷⊙ l
︸︷︷︸
3
l︸︷︷︸
4
l︸︷︷︸
5
l6
︷ ︸︸ ︷⊙⊙⊙⊙ l
descrive la distribuzione dir = 8 palline inn = 6 celle con numeri di occupazione
3, 1, 0, 0, 0, 4 . Una tale rappresentazione delle configurazioni possibili inizia e
finisce con una doppia freccia; i rimanentin − 1 separatori e glir ⊙ possono
apparire in un ordine arbitrario. Il numero di distribuzioni riconoscibili è, pertanto,
uguale al numero di possibili scelte dir posizioni da un totale din+ r − 1:(n + r − 1
r
)
.
10in altri termini, il numero di differenti soluzioni dell’equazione (2.24).
2.3 Problemi di occupazione 69
Lanciandor dadi identici, i risultati distinguibili sonoAr,6 =
(r + 5
5
)
; perr = 2,
si haA2,6 =
(7
5
)
= 21 (vedi tabella precedente).
Proposizione 2.3.2.Il numero di distribuzioni distinguibili dir palline inn celle
tali che nessuna cella risulti vuota è espressa dal coefficiente binomiale
(r − 1
n− 1
)
. (2.29)
Il vincolo che nessuna cella sia vuota impone che due separatori non possono mai
essere adiacenti. Tra ler palline, rappresentate in simboli da⊙, sono interposti
r − 1 spazi di cuin − 1 devono essere occupati dai separatoril: sicché le scelte
possibili sono
(r − 1
n− 1
)
.
Ai fini del calcolo della probabilità di eventi, molte situazioni sperimentali tra
loro diverse possono essere idealizzate con lo schema dell’allocazione casuale di
r palline inn celle. Di seguito sono elencati alcuni esempi classici11.
• Compleanni. Le possibili configurazioni delle date di nascita dir persone
corrisponde alle possibili distribuzioni dir palline inn = 365 celle (i giorni
dell’anno).
• Incidenti Stradali. La classificazione degli incidenti in base al giorno della
settimana nel quale essi si verificano è equivalente a riporre a casor palline
(il numero di incidenti settimanali) inn = 7 celle (i giorni della settimana).
11Ciascuno dei differenti modelli per descrivere problemi dioccupazione trovano applicazione
nella fisica statistica. Storicamente la maggior parte dei modelli sono stati sviluppati per risolvere
problematiche di fisica atomica e nucleare. In questo ambitole palline rappresentano particelle
elementari quali elettroni, protoni, neutroni fotoni, etc., e le celle sonostati microscopici, come,
ad esempio, i livelli energetici che una particella può occupare.
70 Capitolo 2. Spazi campionari discreti
• Radiazioni Ionizzanti. Nello studio degli effetti genetici dell’esposizione a
radiazione ionizzante, i cromosomi sono assimilabili allecelle e le particelle
α alle palline.
• Radiazione Cosmica. In questo caso i contatori Geiger sono le celle e le
particelle cosmiche che raggiungono i contatori le palline.
• Distribuzione di Geni. Ciascun discendente di un individuo (pianta, animale
o uomo) eredita geni dal progenitore. Se un particolare genepuò apparire in
n forme diverse, allora è possibile classificare i discendenti in base al tipo
di gene. Ai fini del calcolo si possono assimilare i discendenti alle palline
ed i genotipi alle celle.
Prima di proseguire nella trattazione diamo un semplice esempio di applicazione
della legge di Maxwell-Boltzman.
Esempio 2.3.1.Lanciando dodici dadi la probabilità che ogni faccia si presenti
due volte è
P(2, 2, 2, 2, 2, 2) =12!
2!× 2!× 2!× 2!× 2!× 2!× 6−12 ≈ 3.4× 10−3.
In alcuni problemi di occupazione, oltre alle palline, si considerano identiche an-
che le celle. In questi casi si deve calcolare la probabilitàche una successione di
numeri di occupazioner1, r2, . . . , rn si verifichi in un ordine qualsiasi. A tal fine,
il valore di probabilità calcolato in base alla distribuzione di Maxwell-Boltzman
deve essere moltiplicato per
(n
k1k2 . . . kq
)
, oveq è il numero dei differenti valori
rj nella data successione di numeri di occupazione eki indica il numero di vol-
te che si presenta quel particolare numero di occupazione. L’esempio che segue
chiarisce la procedura di calcolo.
2.3 Problemi di occupazione 71
Esempio 2.3.2. Configurazioni dir = 8 palline uguali in n = 6 celle identiche
Cominciamo con il considerare le celle come distinguibili.Il numero di possibili
distribuzioni di8 palline identiche in6 celle ènr = 68 e la probabilità dei numeri
di occupazione2, 2, 2, 1, 1, 0 risulta, per la (2.25),
P(2, 2, 2, 1, 1, 0) =8!
2!× 2!× 2!× 6−8.
Se consideriamo anche le celle come identiche, il valore di probabilità preceden-
temente calcolato deve essere moltiplicato per il numero dimodi di ottenere la
data sequenza di numeri di occupazione in un qualunque ordine. Dei sei numeri
di occupazione tre sono distinti, 2 con molteplicità tre, 1 con molteplicità due e 0
con molteplicità uno. Il valore numerico del coefficiente multinomiale
(6
3 2 1
)
coincide con il numero di modi di realizzare la successione di numeri di occupa-
zione di lunghezza sei nella quale, in un ordine qualsiasi, l’intero 2 sia presente
tre volte, e gli interi 1 e 0 figurino per due volte ed una volta,rispettivamente. In
conclusione si ha
(6
3 2 1
)
· P(2, 2, 2, 1, 1, 0) = 6!
3!× 2!· 8!
2!× 2!× 2!· 6−8 ≈ 0.180041
ed un analogo calcolo si applica agli altri casi.
La sottostante tabella nella seconda colonna riporta, per ciascuna delle venti di-
stinte sequenze di numeri di occupazione, i valori di probabilità desunti dalla legge
di Maxwell-Boltzman ed, in colonna quattro, quelli calcolati considerando anche
le celle come identiche.
72 Capitolo 2. Spazi campionari discreti
Numeri di occupazione r!r1!×r2!×···×rn!
× n−r
(n
k1k2 . . . kq
)
800000 8!8!· 6−8 6!
1!·5!0.000004
710000 8!7!· 6−8 6!
1!·1!·4!0.000143
620000 8!6!·2!
· 6−8 6!1!·1!·4!
0.000500
611000 8!6!· 6−8 6!
1!·2!·3!0.002000
530000 8!5!·3!
· 6−8 6!1!·1!·4!
0.001000
521000 8!5!·2!
· 6−8 6!1!·1!·1!·3!
0.012003
511100 8!5!· 6−8 6!
1!·1!·3!·2!0.012003
440000 8!4!·4!
· 6−8 6!2!·4!
0.000625
431000 8!4!·3!
· 6−8 6!1!·1!·1!·3!
0.020005
422000 8!4!·2!·2!
· 6−8 6!1!·2!·3!
0.015003
421100 8!4!·2!
· 6−8 6!1!·1!·2!·3!
0.090021
411110 8!4!· 6−8 6!
1!·4!·1!0.030007
332000 8!3!·3!·2!
· 6−8 6!1!·2!·1!·3!
0.020005
331100 8!3!·3!
· 6−8 6!2!·2!·2!
0.060014
322100 8!3!·3!·2!·2!
· 6−8 6!1!·1!·2!·1!·2!
0.180041
321110 8!3!·3!·2!
· 6−8 6!1!·1!·3!·1!
0.240055
311111 8!3!· 6−8 6!
1!·5!0.024005
222200 8!2!·2!·2!·2!
· 6−8 6!4!·2!
0.022505
222110 8!2!·2!·2!
· 6−8 6!3!·2!·1!
0.180041
221111 8!2!·2!
· 6−8 6!2!·4!
0.090021
≈ 1
Esempio 2.3.3. Il compleanno dir persone
Per semplicità assumiamo che l’anno sia composto da365 giorni. Tutte le possibili
date di nascita, intese come giorno e mese di nascita, sono poste in corrispondenza
biunivoca con bussolotti numerati da1 a365 e riposti in un’urna. Le date di nascita
2.3 Problemi di occupazione 73
di r persone scelte a caso possono essere assimilate ar bussolotti estratti dall’urna,
con restituzione. I campioni ordinati possibili sono365r; la probabilità che il
campione ordinato non contenga ripetizioni (i compleanni siano tutti diversi), in
virtù della (2.9), è
qr =(365)r365r
=365!
(365− r)!× 365−r.
Qual è la probabilità che solamente due, tra ler persone, festeggino il complean-
no nello stesso giorno? Supponiamo che il giorno del compleanno coincida con il
primo di gennaio e che ciascuna delle alrer− 2 persone siano nate nei giorni suc-
cessivi: una il 2 di gennaio, un’altra il 3 e così via. In pratica occorre calcolare la
probabilità della successione di numeri di occupazione2,
r−2︷ ︸︸ ︷
1, . . . , 1,
365−(r−1)︷ ︸︸ ︷
0, . . . , 0 ; essa,
ricordando la legge di Maxwell-Boltzman, è data da
P(2,
r−2︷ ︸︸ ︷
1, . . . , 1,
365−(r−1)︷ ︸︸ ︷
0, . . . , 0) =r!
2!× (1!)r−2 × (0!)365−(r−1)· 365−r =
r!
2× 365−r.
Non essendo importante l’ordine nel quale si presentano i singoli numeri di oc-
cupazione, si deve applicare il modello probabilistico cheprevede che le celle
(i giorni dell’anno) non siano distinguibili. Occorre moltiplicare la precedente
probabilità per
(365
1 (r − 2) [365− (r − 1)]
)
, in conclusione si ha:
pr =365!
(r − 2)!× [365− (r − 1)]!× r!
2× 365−r.
Con buona approssimazione risulta:
r 10 15 20 25 30 35 40
qr 0.883 0.747 0.589 0.431 0.294 0.186 0.109
pr 0.112 0.223 0.323 ’0.379 0.380 0.334 0.260
74 Capitolo 2. Spazi campionari discreti
2.3.1 Statistiche di Bose-Einstein e Fermi-Dirac
La statistica di Maxwell-Boltzman trae la sua origine da studi di meccanica sta-
tistica tesi a descrivere il comportamento di particelle fisiche come, ad esempio,
le molecole che compongono un gas12. Con gli sviluppi della fisica atomica e
nucleare divenne ben presto evidente che non tutte le particelle si comportanoin
accordo alla legge di Maxwell-Boltzmann. Furono, allora, introdotti due modelli
ad hocper particolari categorie di particelle.
Proposizione 2.3.3.Il primo modello fu formulato dal fisico indiano Satyendra
Nath Bose e da Albert Einstein. Il modello assume come possibili ed equiproba-
bili solo le distribuzioni riconoscibili deller particelle identiche nellen celle. Il
numero di tali distribuzioni,Ar,n, è dato dalla(2.28), pertanto ciascuna di esse ha
probabilità
P(r1, . . . , rn) =1
Ar,n= 1/
(n + r − 1
r
)
(statistica di Bose-Einstein). (2.30)
La statistica di Bose-Einstein descrive il comportamento di fotoni, nuclei ed atomi
con un numero pari di particelle elementari.
Proposizione 2.3.4.Il secondo modello, dovuto ad Enrico Fermi ed a Paul Dirac,
considera le particelle come indistinguibili e pone due ipotesi:
1. non è possibile che due o più particelle occupino la stessacella (i numeri di
occupazione possibili sono solamente 0 oppure 1),
2. tulle le distribuzioni deller particelle nellen celle che verificano il prece-
dente vincolo sono equiprobabili.
La prima ipotesi richede, innanzitutto, che siar 6 n. Un’allocazione delle parti-
celle nelle celle è completamente descritta se si indica quale dellen celle contiene
12In questo paragrafo useremo il termine particella e non pallina.
2.4 Distribuzione ipergeometrica 75
una particella; poiché le particelle sonor, le corrispondenti celle possono essere
selezionate in
(n
r
)
modi diversi. Essendo ciascuna distribuzioner1, . . . , rn delle
particelle nelle celle equiprobabile, si ha:
P(r1, . . . , rn) = 1/
(n
r
)
(statistica di Fermi-Dirac). (2.31)
Tra le particelle che si comportano in accordo alla statistica di Fermi-Dirac, ricor-
diamo gli elettroni, i protoni ed i neutroni.
2.4 Distribuzione ipergeometrica
Supponiamo di estrarre a caso, senza restituzione, un campione di taglian da una
popolazione finita diN elementi. Supponiamo, inoltre, che la popolazione sia
composta da elementi di due tipi diversi; ad esempio maschi efemmine, occupati
e disoccupati, componenti elettronici funzionanti e difettosi. Qual è la probabili-
tà che il campione estratto sia composto dax elementi del primo tipo edn − x
del secondo? Per effettuare il calcolo immaginiamo che gliN elementi della po-
polazione sianoN palline contenute in un’urna,a di colore bianco eb nere, con
a+ b = N . Occorre, allora, calcolare la probabilità che estraendo acason palline,
senza reimbussolare,x siano bianche edn − x nere. Essendo interessati solo al
numero di palline bianche e nere selezionate e non all’ordine nel quale esse so-
no estratte, si rientra nel caso di campioni non ordinati e quindi vi sono
(a+ b
n
)
differenti campioni possibili equiprobabili. Le possibilità di selezionarex palline
bianche, fra lea presenti nell’urna, sono date dal valore del coefficiente binomiale(a
x
)
; analogamente
(b
n− x
)
rappresenta il numero delle possibili scelte delle
n − x palline nere. Poiché ogni scelta di palline bianche si può combinare con
una qualunque scelta di palline nere, i casi favorevoli sono
(a
x
)
·(
b
n− x
)
e la
76 Capitolo 2. Spazi campionari discreti
probabilità cercata,∀x ∈ N0, è espressa dalla formula:
f(x) =
(a
x
)
·(
b
n− x
)
/
(a+ b
n
)
. (2.32)
Dall’identità ipergeometrica (2.20) si ricava
∞∑
x=0
f(x) =
[∞∑
x=0
(a
x
)
·(
b
n− x
)]
·(a + b
n
)−1
=
(a + b
n
)
·(a+ b
n
)−1
= 1 . (2.33)
In virtù della precedente relazione, si deduce che la funzionef(x), come definita
nella (2.32),distribuiscela probabilità totale unitaria su tutti gli interi non nega-
tivi; essa è dettadistribuzione ipergeometrica. Si noti che, per le proprietà del
coefficiente binomiale,f(x) = 0 perx > a o x > n, pertanto solo a un numero
finito di valori di x è associato un valore di probabilità maggiore di zero13.
Al fine di agevolare il calcolo dif(x) per diversi valori consecutivi dix è utile far
ricorso alla seguente formula ricorsiva
f(x) = r(x)× f(x− 1). (2.34)
Il coefficienter(x) si ricava applicando la (2.32):
r(x) =f(x)
f(x− 1)=
(a− x+ 1) · (n− x+ 1)
x · (b− n + x). (2.35)
Esempio 2.4.1.In una mano di bridge fra quattro giocatori, qual è la probabilità
che ad uno di essi siano servitex carte di cuori?
I dati sui quali basare il calcolo sono riassunti nella seguente tabella.
13Attribuendo alla condizionef(x) = 0 il significato di impossibilità, ha senso affermare che la
leggef(x) è definita inN0.
2.4 Distribuzione ipergeometrica 77
N = 52 numero di carte n = 13 carte per giocatore
a = 13 carte di cuori b = N − a = 39 carte di un seme differente
Perx ∈ [0, 13], valgono le seguenti relazioni che si ricavano rispettivamente, dalla
(2.32) e dalla (2.35)
f(x) =
(13
x
)
·(
39
13− x
)
·(52
13
)−1
e
r(x) =(14− x)2
x · (26 + x).
Una volta calcolato
f(0) =
(13
0
)
·(39
13
)
·(52
13
)−1
=
(39
13
)
·(52
13
)−1
= 0.01279 ,
si procede alle applicazioni successive della formula ricorsiva:
r(1) = 132/27 ⇒ f(1) = r(1) · f(0) = 0.08006 ,
r(2) = 122/56 ⇒ f(2) = r(2) · f(1) = 0.20587 ,
r(3) = 112/87 ⇒ f(3) = r(3) · f(2) = 0.28633 .
Il calcolo procede in maniera analoga per gli altri valori dix.
Esempio 2.4.2.Una scolaresca, composta daN1 studentesse eN2 studenti si di-
spone in fila a caso per essere sottoposta ad un controllo medico. Qual è la proba-
lità che la fila inizi con tre studentesse?
Possiamo assimilare le studentesse adN1 ≡ a palline bianche e gli studenti ad
N2 ≡ b palline nere, la probalità che la fila inizi con tre studentesse coincide con
la probabilità che estraendo a cason = 3 palline esse siano tutte bianche:x = 3.
Ricordando la (2.32), risulta
f(3) =
(N1
3
)
·(N2
0
)
/
(N1 +N2
3
)
.
78 Capitolo 2. Spazi campionari discreti
Esempio 2.4.3.In uno stabilimento ad alta automazione si producono condensa-
tori elettrolitici in lotti di N pezzi, il dieci per cento dei quali è difettoso. La proce-
dura di controllo prevede di selezionare a caso il cinque percento dei condensatori
di un lotto e di verificarne il funzionamento. Se uno solo di questi dovesse non
funzionare, l’intero lotto viene eliminato. FissatoN = 100, calcoliamo la proba-
lità che un lotto di condensatori non venga immesso sul mercato.
La probabilità di selezionarex condensatori difettosi da un campione din = 5 è14
f(x) =
(10
x
)
·(
90
5− x
)
·(100
5
)−1
ovex = 0, 1, . . . , 5. La probalità dell’evento che vi sia almeno un condensatore
difettoso tra i cinque scelti si calcola semplicemente come
1− f(0) = 1−(10
0
)
·(90
5
)
·(100
5
)−1
≈ 0.42 .
14Nel caso in esame si haa = 10 e b = 90.
CAPITOLO 3
Condizionamento ed indipendenza
di eventi
3.1 Probabilità condizionata
SiaΩ,F ,P lo spazio di probabilità associato ad un generico esperimento casua-
le E edA un evento; prima di effettuare ciascuna prova,P(A) è una misura del-
l’incertezza circa la possibilità cheA occorra. Spesso nel corso dell’esperimento
si rendono disponibili alcune informazioni in qualche modocollegate all’evento
di cui si vuol calcolare la probabilità di occorrenza. Come èpossibile modificare
il modello probabilistico1 per utilizzare queste informazioni? Aiutiamoci con un
esempio. Indagini statistiche hanno evidenziato che circail sessanta per cento di
soggetti maschi di età superiore a cinquanta anni è affetto da ipercolesterolemia.
Nel corso della sperimentazione è stato anche osservato cheil venti per cento dei
soggetti soffre contemporaneamente di ipercolesterolemia e di problemi alle co-
ronarie. Selezionando a caso un ultracinquantenne, e verificato che egli abbia un
1in altre parole la misura di probabilità
80 Capitolo 3. Condizionamento ed indipendenza di eventi
tasso ematico di colesterolo elevato, ci si chiede se questainformazione sia utile
per calcolare la probabilità che il soggetto in questione sia anche coronaropatico?
La nozione diprobabilità condizionatacostituisce un modello matematico per la
definizione e la soluzione di problemi di tale natura. Fissata la ternaΩ,F ,P e
gli eventiA,H ∈ F , per probabilità condizionata,P(A|H), dell’eventoA, dato
l’eventoH, si intende, intuitivamente, la probabilità cheA occorra, nell’ipotesi
che si sia verificatoH. In altre parole,P(A|H) rappresenta il ricalcolo dellaP(A)
alla luce dell’informazione cheH si è verificato.
Definizione 3.1.1.Dato uno spazio di probabilitàΩ,F ,P, e siaH ∈ F , con
P(H) > 0. Per un arbitrarioA ∈ F , si definisceprobabilità condizionatadi A
rispetto adH il rapporto
P(A|H) =P(A ∩H)
P(H)≡ P(AH)
P(H). (3.1)
La (3.1) non è definita seP(H) = 0 .
La quantità a numeratore,P(A ∩ H) ≡ P(AH), prende il nome diprobabilità
congiunta2 di A eH.
Nell’esempio menzionato all’inizio del presente paragrafo, la probabilità che un
ultracinquantenne scelto a caso abbia anche problemi coronarici, essendo iperco-
lesterolemico, è:0.2/0.6 = 1/3.
Proposizione 3.1.1.La posizione(3.1), considerata per ogniA ∈ F , definisce
una misura di probabilità suΩ,F.
Per dimostrare la 3.1.1 bisogna far vedere cheP(A|H) verifica i tre assiomi di
Kolmogorov elencati nella definizione 1.3.1.
2Essa esprime la probabilità che si verifichinocontemporaneamenteA eH ; questa nozione è
già stata incontrata in precedenza nel parafrafo 1.3.3.
3.1 Probabilità condizionata 81
Il primo assioma è verificato in quanto la probabilità condizionata è stata definita
come il rapporto di un numero non negativo,P(AH), e di un numero positivo
P(H). Anche il secondo assioma è di facile verifica. SeA ≡ Ω, la (3.1) assume
la forma
P(Ω|H) =P(Ω ∩H)
P(H)=
P(H)
P(H)= 1 . (3.2)
L’ultimo passo consiste nel dimostrare cheP(A|H) è numerabilmente additiva.
SiaA =⊔∞
i=1Ai. Si ha:
P(
∞⊔
i=1
Ai|H) =P [(⊔∞
i=1Ai) ∩H ]
P(H)=
P [⊔∞
i=1 (Ai ∩H)]
P(H)
=
∑∞i=1 P (Ai ∩H)
P(H)=
∞∑
i=1
P (Ai ∩H)
P(H)=
∞∑
i=1
P (Ai|H) .
La precedente relazione dimostra che anche il terzo assiomaè verificato eP(A|H),
come definita nella 3.1.1, è una misura di probabilità suΩ,F. In altre parole,
ponendo, per semplicità di notazione,PH(A) ≡ P(A|H), la precedente proposi-
zione equivale ad affermare che la ternaΩ,F ,PH è uno spazio di probabilità.
Osservazione3.1.1. Gli sviluppi precedenti sono soggetti alla seguente rielabora-
zione. Gli esiti elementariω ∈ Ω, tali cheω /∈ H, non hanno rilevanza per il
calcolo della probabilità condizionataPH(A). Possiamo, allora, assumere come
spazio delle prove l’insiemeH e definire laσ-algebraFH = F∩H come la classe
dei sottoinsiemi diH data dalle intersezioniA ∩ H, conA ∈ F . DefinendoPH
come il prodotto della probabilità di ciascun eventoA ∩ H ∈ FH per la quantità
P(H)−1, si ottiene un nuovo spazio di probabilitàH,FH ,PH.
Osservazione3.1.2. Nell’impostazione che si è scelta (confronta [12]) la (3.1)è
posta come definizione a sé stante. Essa, se si assume come valida la definizione
classica di probabilità, o anche quella frequentista, è invece conseguenza di queste
ultime. Se si parte dalla definizione classica di probabilità, per quanto prima detto
82 Capitolo 3. Condizionamento ed indipendenza di eventi
il numero dei casi possibili è rappresentato danH , il numero dei casi favorevoli
all’eventoH; se si indica connA∩H il numero dei casi favorevoli aA∩H, la pro-
babilità che occorraA, nell’ipotesi che si sia verificatoH ènA∩H/nH . Indicando
conn la cardinalità dello spazio campione, si ha:
P(A|H) =nA∩H
nH=
nA∩H
n/nH
n= P(A ∩H)× P(H)−1.
Sviluppi analoghi sussistono per l’interpretazione frequentista; il lettore interessa-
to può ritrovarli in numerosi testi (vedi, ad esempio, [4] e [10]).
Esempio 3.1.1. Probabilità di corretta diagnosi
Indagini epidemiologiche hanno dimostrato che la probabilità di essere portatore
di una data malattia del sangue3 èp = 0.10 . Una ditta biomedica ha sviluppato un
test di laboratorio per lo screening della malattia. La sperimentazione condotta al
fine di saggiare l’efficacia del test ha messo in luce come, peruna persona malata,
la probabilità che il test sia positivo4 è p1 = 0.98 . La probabilità di un falso
positivo5 è, invece,p2 = 0.04 .
Calcoliamo la probabilità che il test dia luogo ad una diagnosi corretta, ovvero
che risulti positivo se la persona è affetta da quella particolare patologia ematica,
negativo altrimenti. Calcoliamo, inoltre, la probabilitàdi un falso negativo6.
Definiamo i seguenti eventi:
• H: il soggetto selezionato è affetto dalla patologia ematica in studio,
• T+: il test di laboratorio è positivo,
• T−: il test di laboratorio è negativo.
3Si pensi come esempio all’anemia mediterranea.4ovvero che il test dia luogo a valori al di fuori del range di normalità5ovvero che il test presenti un valore anomalo pur essendo la persona sana6ovvero che il risultato del test cada nei limiti della norma pur essendo la persona malata
3.1 Probabilità condizionata 83
Si ha:
P(H) = 0.1 ,
P(H) = 0.9 ,
P(T+|H) ≡ PH(T+) = p1 = 0.98 ,
P(T+|H) ≡ PH(T+) = p2 = 0.4 .
La probabilità di diagnosi corretta è:
P[(T+ ∩H) ⊔ (T− ∩H)
]= P(T+ ∩H) + P(T− ∩H).
CalcoliamoP(T+ ∩ H); ricordando la definizione di probabilità condizionata,
possiamo scrivere la relazione
P(T+|H) ≡ PH(T+) =
P(T+ ∩H)
P(H)
dalla quale segue
P(T+ ∩H) = PH(T+) · P(H) = 0.98× 0.1 = 0.098 .
Osserviamo cheH = (T− ∩H) ⊔ (T+ ∩H), quindi
P(T− ∩H) = P(H)− PH(T+) = 0.9− 0.04 = 0.86
e la probabiltà di diagnosi corretta è:0.098 + 0.86 = 0.958 .
Per quanto concerne la probabilità di un falso negativo, essa è data dalla probabilità
condizionata
P(H|T−) =P(H ∩ T−)
P(T−)
ove
P(H ∩ T−) = P(H)− P(H ∩ T+) = 0.1− 0.098 = 2× 10−3
84 Capitolo 3. Condizionamento ed indipendenza di eventi
e, per la quantità a denominatore, vale la relazione
P(T−) = P(T− ∩H) + P(T− ∩H) = 2 · 10−3 + 0.86 = 0.862 .
In conclusione si ottiene:
P(H|T−) =2 · 10−3
0.862= 2.32× 10−3.
Osservazione3.1.3. L’informazione che si è verificato l’eventoH non implica che
P(A|H) > P(A). Infatti, seA ∩ H = ∅, P(A|H) = 0 6 P(A). In questo caso
specifico la conoscenza del realizzarsi diH ci dice cheA non può verificarsi. Se
A ⊆ H, si haA ∩ H = A eP(A|H) = P(A)/P(H) > P(A). SeA ⊇ H, sia ha
P(A|H) = 1 .
3.1.1 La legge di Bayes
Una semplice conseguenza della definizione 3.1.1 sono le relazioni
P(A ∩B) = P(A) · P(B|A) seP(A) > 0 (3.3a)
P(A ∩B) = P(B) · P(A|B) seP(B) > 0 (3.3b)
che rappresentano un caso particolare della cosiddettaformula della moltiplica-
zionedelle probabilità.
Proposizione 3.1.2(Formula di moltiplicazione delle probabilità o Teorema
delle probabilità congiunte). SianoA1, A2, . . . , An eventi tali cheP(A1 ∩ A2 ∩· · · ∩ An−1) > 0 , allora vale la relazione
P
(n⋂
j=1
Aj
)
= P(A1)·P(A2|A1)·P(A3|A1∩A2) · · ·P(An|A1∩· · ·∩An−1). (3.4)
3.1 Probabilità condizionata 85
Per dimostrare la (3.4), notiamo che
A1 ⊇ (A1 ∩A2) ⊇ · · · ⊇ (A1 ∩ A2 ∩ · · · ∩ An−1)
e, pertanto, per l’ipotesi posta si ha
P(A1) > P(A1 ∩A2) > · · · > P
(n−1⋂
j=1
Aj
)
> 0 .
La precedente relazione assicura che tutte le probabilitàP(Ak|k−1⋂
i=1
Ai), che figu-
rano nella (3.4), sono ben definite perk ∈ [2, n]. Nel caso din = 2 si ricade nel
caso della (3.3a) oppure della equivalente (3.3b); pern = 3 possiamo scrivere
P(A1 ∩A2 ∩ A3) =P(A1)
P(A1)· P(A1 ∩A2)
P(A1 ∩A2)· P(A1 ∩ A2 ∩ A3)
= P(A1) ·P(A1 ∩A2)
P(A1)· P(A1 ∩ A2 ∩ A3)
P(A1 ∩A2)
= P(A1) · P(A2|A1) · P(A3|A1 ∩A2).
La dimostrazione si completa per induzione.
Osservazione3.1.4. Una formulazione equivalente della la (3.4) è:
P
(n⋂
j=1
Aj
)
= P(An)·P(An−1|An)·P(An−2|An−1An) · · ·P(A1|A2 · · ·An) (3.5)
ove abbiamo omesso il segno di intersezione nell’indicazione degli eventi con-
giunti.
Esempio 3.1.2.Un’urna contiene cinque palline, di cui due sono bianche e lealtre
tre nere; estraendo le palline senza reimbussolare, qual è la probabilità che esse si
presentino nel seguente ordine: bianca, nera, nera, bianca, nera? Per rispondere
86 Capitolo 3. Condizionamento ed indipendenza di eventi
al quesito è necessario calcolare la probabilitàP(B1N2N3B4N5) nella quale gli
eventiBi eNi sono definiti come
Bi la i-esima pallina estratta è bianca
Ni la i-esima pallina estratta è nera
eBi = Ni, coni ∈ [1, 5]. Dalla (3.4) si ricava
P(B1N2N3B4N5) = P(B1) · P(N2|B1) · P(N3|B1N2)
· P(B4|B1N2N3) · P(N5|B1N2N3B4)
ed, inoltre, si ha
P(B1) =2
5,
P(N2|B1) =3
4,
P(N3|B1N2) =2
3,
P(B4|B1N2N3) =1
2,
P(N5|B1N2N3B4) = 1 .
Dalla (3.4) ricaviamo la probabilità cercata:
P(B1N2N3B4N5) =2
5× 3
4× 2
3× 1
2× 1 =
1
10.
Si può pervenire al precedente risultato applicando la definizione classica di pro-
babilità; infatti vi è un unico caso favorevole all’evento(B1N2N3B4N5) mentre il
numero di modi possibili di estrarre due palle bianche e tre nere da un urna che le
contiene è
(5
2 3
)
= 10 .
3.1 Probabilità condizionata 87
Esempio 3.1.3.In un’urna sono riposte quindici palline, dieci bianche e cinque
nere. Si estraggono quattro palline senza reimbussolare; calcoliamo la probabilità
che almeno una di esse sia nera. Per tale scopo definiamo gli eventi
Bi la i-esima pallina estratta è bianca(i = 1, 2, 3, 4)
A almeno una delle quattro palline estratte è nera
e notiamo cheP(A) = 1− P(A) = 1− P(B1B2B3B4). Si ha
P(A) = P(B1B2B3B4)
= P(B1) · P(B2|B1) · P(B3|B1B2) · P(B4|B1B2B3)
=10
15× 9
14× 8
13× 7
12=
2
13= 0.1538
da cui si ricavaP(A) = 1− P(A) = 1− 0.1538 = 0.8462 .
Esempio 3.1.4.In una prima urna ci sonon palline, k bianche e le rimanenti
n − k nere. Una seconda urna contiene anch’essan palline, ma le nere sono
k e le bianchen − k. Una pallina scelta a caso viene spostata dalla prima alla
seconda urna, successivamente si prende una pallina dalla seconda urna e la si
ripone nella prima. Dopo questa operazione nella prima urnapotranno essercik,
k − 1 o k + 1 palline bianche. Indicando conEk, Ek−1, Ek+1 i predetti eventi,
calcoliamone la probabilità (vedi [4]). Peri = 1, 2, definiamo gli eventiBi, nella
i-esima estrazione la pallina è bianca, eNi, nella i-esima estrazione la pallina è
nera. Si ha
P(Ek−1) = P(B1N2) = P(B1)P(N2|N1) =k
n× k
n+ 1=
k2
n · (n+ 1),
P(Ek) = P[(B1B2) ⊓ (N1N2)] = P(B1) · P(B2|B1) + P(N1) · P(N2|N1)
=k
n× n− k + 1
n + 1+
n− k
n× k + 1
n+ 1=
2nk − 2k2 + n
n(n + 1)
88 Capitolo 3. Condizionamento ed indipendenza di eventi
e
P(Ek+1) = P(N1B2) =n− k
n× n− k
n + 1=
(n− k)2
n(n + 1).
Osserviamo che
P(Ek−1) + P(Ek) + P(Ek+1) =k2
n(n+ 1)+
2nk − 2k2 + n
n(n + 1)+
(n− k)2
n(n+ 1)= 1 .
Definizione 3.1.2.Dato una spazio di probabilitàΩ,F ,P, sia Hjj∈J una
partizione finita o numerabile diΩ; se,∀j ∈ J ,P(Hj) > 0 allora si dice che essa
costituisce un insieme completo di alternative per lo spazio campionarioΩ.
Proposizione 3.1.3(Formula della probabilità totale o Teorema delle alterna-
tive). Dato una spazio di probabilitàΩ,F ,P, siaHjj∈J un insieme completo
di alternative perΩ, allora ∀A ∈ F si ha:
P(A) =∑
j∈J
P(Hj)P(A|Hj). (3.6)
Dimostrazione.Sottolineamo, innanzitutto, che vale la relazione
A = A ∩ Ω = A ∩(⊔
j∈J
Hj
)
=⊔
j∈J
(A ∩Hj) .
Per l’assioma dell’additività e poichè, per ipotesi,P(Hj) > 0, si ricava
P(A) =∑
j∈J
P(A ∩Hj)
=∑
j∈J
P(Hj)P(A|Hj)
e la (3.6) è verificata.
La formula (3.6) è molto utile nei casi in cui sia complicato calcolare direttamente
la P(A) e risulti più semplice il calcolo delle probabilità condizionate.
3.1 Probabilità condizionata 89
Esempio 3.1.5.Siano date tre urne contenenti la prima due palline bianche ed una
nera, la seconda tre palline bianche ed una nera e la terza duepalline bianche e
due nere. Si calcoli la probabilità che, fissata a caso una delle tre urne, si estragga
una pallina bianca.
Se definiamo gli eventi
Eb la pallina estratta è bianca
H1 si sceglie la prima urna
H2 si sceglie la seconda urna
H3 si sceglie la terza urna
possiamo scrivere le relazioni
P(Hj) =1
3(j = 1, 2, 3)
P(Eb|H1) =2
3
P(Eb|H2) =3
4
P(Eb|H3) =1
2
dalle quali, grazie alla (3.6), si ha:P(Eb) =13×[23+ 3
4+ 1
2
]≈ 0.64 .
Nella definizione 3.1.2 abbiamo considerato un insieme completo di alternative
perΩ; la nozione di alternative è applicabile al caso in cui essa sia una partizione
di un insiemeH contenuto inΩ:⊔
j∈J
Hj = H ⊂ Ω. In questo caso la famiglia
di eventiHjj∈J forma un insieme di alternative perH. EssendoH l’unione di
eventi con probabilità maggiore di zero, risulta ancheP(H) > 0; seA ⊆ Ω, allora
90 Capitolo 3. Condizionamento ed indipendenza di eventi
è ben definita la probabilità condizionataP(A|H). Si ha7:
P(A|H) =P(A ∩H)
P(H)=
P
[
A ∩⊔j∈J Hj)]
P(H)=
P
[⊔
j∈J (A ∩Hj)]
P(H)
=1
P(H)·∑
j∈J
P(A ∩Hj) ·P(Hj)
P(Hj)
=∑
j∈J
P(A ∩Hj)
P(Hj)· P(Hj ∩Hj)
P(H)
=∑
j∈J
P(A|Hj) · P(Hj|H). (3.7)
Naturalmente la (3.6) e la (3.7) coincidono nel caso diH ≡ Ω.
Consideriamo una spazio di probabilitàΩ,F ,P e siaHjj∈J un insieme com-
pleto di alternative perΩ; J può essere sia finito che numerabile. È possibile
pensare agli eventiHj come a delleipotesio causeche influenzano l’esito di un
esperimento casauleE ; le P(Hj) sono dette probabilitàa priori. Supponiamo che
l’esito elementareω di E sia tale cheω ∈ A eP(A) > 0 . Qual è la probabilità che
A sia conseguenza della causaHj? La risposta al quesito posto è nella probabilità
condizionataP(Hj|A). Le P(Hj|A) sono note come probabilitàa posteriori: il
fatto cheA si sia verificato porta ad un ricalcolo della probabilità checompete
all’eventoHj!
Teorema 3.1.1.(Legge di Bayes) SiaHjj∈J un insieme completo di alternative
perΩ edA un evento conP(A) > 0 . Vale,∀j ∈ J , la relazione
P(Hj|A) =P(Hj) · P(A|Hj)
∑
k∈J P(Hk) · P(A|Hk). (3.8)
7Valgono le relazioniHi ∩H = Hi e (A ∩Hi) ∩ (A ∩Hj) = ∅, sei 6= j
3.1 Probabilità condizionata 91
Dimostrazione.Ricordando sia la definizione di probabilità condizionata che la
formula della probilità totale, fissato un interoj ∈ J si ha
P(Hj|A) =P(AHj)
P(A)=
P(Hj) · P(A|Hj)
P(A)=
P(Hj) · P(A|Hj)∑
k∈J P(Hk) · P(A|Hk)
come volevasi dimostrare.
Esempio 3.1.6.La produzione di macchine agricole in un industria ad alta tec-
nologia è automatizzata; tre catene di montaggio producono, rispettivamente, il
venti, il trenta ed il cinquanta per cento dei macchinari. Ciascuna di esse ha una
probabilità di produzione difettosa, nell’ordine, del cinque, del tre e dell’uno per
cento. Calcoliamo la frazione di macchine difettose prodotte e la probabilità che
una macchina agricola, che non ha superato il controllo di qualità, sia stata realiz-
zata dalla terza catena di montaggio.
Avendo definito gli eventiA, la macchina agricola prodotta è difettosa, eHi∈[1,3],
la catena di montaggio i-esima ha prodotto la macchina, si ha
P(H1) = 0.2 P(H2) = 0.3 P(H1) = 0.5
P(A|H1) = 0.05 P(A|H2) = 0.03 P(A|H3) = 0.01
e, pertanto, essendoP(A) =∑3
i=1 P(Hi)P(A|Hi) = 0.024, concludiamo che la
percentuale di macchine diffettose è del 2.4 per cento. La risposta al secondo
quesito si desume dalla legge di Bayes:
P(H3|A) =P(A|H3) · P(H3)
P(A)=
0.01× 0.5
0.024= 0.0208 .
Esempio 3.1.7.Una compagnia di assicurazione suddivide i propri assicurati in
tre classi di età:A, B e C. Ad A appartengono gli utenti con meno di venticinque
anni di età, aB quelli di età compresa tra i venticinque e i quaranta anni ed infine
a C gli ultra quarantenni. La numerosità delle cassi è del22, del 43 e del35 per
92 Capitolo 3. Condizionamento ed indipendenza di eventi
cento rispettivamente. Rilievi statistici stimano le seguenti probabilità di incidente
per anno per ciascuna classe:P(I|A) = 0.11, P(I|B) = 0.03 e P(I|C) = 0.02.
Con I indichiamo l’eventoincidenteautomobilistico.
La probabilità che nell’anno avvenga un incidente è
P(I) = 0.22× 0.11 + 0.43× 0.03 + 0.35× 0.02 ≈ 0.044 .
La probabilità che a causare l’incidente si un assicurato della classeA è
P(A|I) = P(A) · P(I|A)P(A) · P(I|A) + P(B) · P(I|B) + P(C) · P(I|C)
≈ 0.55 .
3.2 Indipendenza stocastica
In generale sussiste la relazioneP(A|B) 6= P(A); in termini colloquiali si può af-
fermare che la conoscenza dell’essersi verificatoB influenza la valutazione della
probabilità diA. Nel caso in cuiP(A|B) = P(A), condizionare l’eventoA all’e-
ventoB non influisce sulla probabilità diA. In tal casoA è dettostocasticamente
indipendente, o semplicementeindipendente, daB. Quanto sopra esposto ha sen-
so solo seP(B) è maggiore di zero, in caso contrario, infatti, la probabilità con-
dizionataP(A|B) non è definita. Per definizione si haP(A|B) = P(AB)/P(B)
e, quindi, nel caso di eventi indipendenti, risultaP(AB) = P(A) · P(B). Que-
st’ultima relazione può essere scritta anche nel caso in cuila probabilità diB sia
nulla, in tal caso, infatti,P(AB) è uguale a zero. Per quanto appena detto, anche
se la definizione di indipendenza basata sulla probabilità condizionata è di facile
intuizione, conviene dare la seguente definizione di eventiindipendenti8 .
Definizione 3.2.1.Due eventi,A eB, si diconoindipendenti(stocasticamente, o
probabilisticamente) se
P(AB) = P(A) · P(B). (3.9)
8Naturalmente essa è equivalente alla definizione basata sulla probabilità condizionata.
3.2 Indipendenza stocastica 93
Osservazione3.2.1. Dalla simmetria della (3.9) segue che l’indipendenza degli
eventiA eB è reciproca: seA è indipendente daB ancheB è indipendente daA.
Convenzionalmente, come conseguenza della definizione, l’evento impossibile è
indipendente da ogni altro evento:P(A∅) = P(A)P(∅) = 0, ∀A.
Teorema 3.2.1.SeA eB sono indipendenti, lo sono ancheA eB, A eB, A eB.
Dimostrazione.Ricordando la relazioneP(A) = P(A ∩ B) + P(A ∩ B) e per
l’ipotesi sull’indipendenza diA eB, si ha
P(A ∩B) = P(A)− P(A ∩B)
= P(A)− P(A) · P(B) = P(A)[1− P(B)] = P(A) · P(B).
In maniera del tutto analoga, scambiando l’ordine degli eventi, si dimostra che
P(A ∩B) = P(A) · P(B).
Per quanto attiene all’ultima parte della tesi, osserviamocheP(A) = P(A∩B) +
P(A ∩B) e quindi
P(A ∩B) = P(A)− P(A ∩B)
= P(A)− P(A) · P(B) = P(A)[1− P(B)] = P(A) · P(B).
La definizione 3.2.1 di indipendenza è stata data mediante una relazione tra pro-
babilità. L’indipendenza, diversamente dall’incompatibilità che è una proprietà
intrinseca degli eventi, non dipende dalla struttura di questi ma solamente dalla
loro probabilità: se si cambia la leggeP l’indipendenza potrebbe venire a manca-
re. La nozione di indipendenza è generalizzabile al caso di una di una successione
di eventi finita o numerabile.
94 Capitolo 3. Condizionamento ed indipendenza di eventi
Definizione 3.2.2.SiaEj∈J una successione di eventi, oveJ può coincidere
con l’insieme finito di interi[1, n] oppure conN. Si dice che essa è costituita da
eventicollettivamente indipendenti9 se, comunque si fissa un interor e unar-pla
j1, . . . , jr, risulta
P (Ej1 ∩ · · · ∩ Ejr) = P(Ej1) · P(Ej2) · · ·P(Ejr). (3.10)
Per chiarire la precedente definizione, si consideri il casoparticolare di tre even-
ti A,B,C. La condizione di indipendenza è espressa dal complesso di tre con-
dizioni tra coppie di eventiP(AB) = P(A) · P(B), P(AC) = P(A) · P(C),
P(BC) = P(B) ·P(C) e dall’ulteriore condizioneP(ABC) = P(A) ·P(B) ·P(C).
È possibile, quindi, che eventi, a due a due indipendenti, non siano collettivamente
indipendenti, infatti, nel caso particolare esaminato potrebbe non essere verificata
la condizioneP(ABC) = P(A) · P(B) · P(C).
Consideriamon eventiE1, . . . , En, la probabilità diEn, condizionata al verificarsi
di E1, . . . , En−1, è
P (En|E1, . . . , En−1) =P (E1 · · ·En−1En)
P (E1 · · ·En−1)(3.11)
se il denominatore è maggiore di zero. Nel caso in cui gli eventi siano collettiva-
mente indipendenti, per la (3.10), la 3.11 dà luogo alla relazione:
P (Ej |Ei1 · · ·Eik) =P(Ej)P(Ei1) · · ·P(Eik)
P(Ei1) · · ·P(Eik)= P(Ej) (3.12)
∀j ∈ [1, n] diverso dai1, i2, . . . , ik.
SianoA e B due famiglie di eventi; in altre paroleA e B sono insiemi i cui
elementi sono eventi che appartengono allo stesso spazio campionarioΩ.
Definizione 3.2.3.Due famiglie di eventi,A eB, sono dette essere indipendenti
se sono indipendenti tra loro gli eventiA eB comunque scelti, il primo daA ed
9o semplicementeindipendenti
3.2 Indipendenza stocastica 95
il secondo daB. Più in generale,n famiglie di eventi(A1, . . . ,An) sono chiamate
indipendenti se sono collettivamente indipendenti gli eventiA1, . . . , An comunque
scelti, il primo daA1, il secondo daA2 e così via fino adAn ∈ An.
Teorema 3.2.2.SianoE1, . . . , En eventi collettivamente indipendenti. Sostituen-
do ad uno di tali eventi il suo complemento si ottiene ancora unan-pla di eventi
collettivamente indipendenti.
Dimostrazione.Per semplicità sostituiamoE1 con la sua negazioneE1. Al fine
di dimostrare la tesi del teorema è necessario verificare la collettiva indipendenza
degli eventiE1, E2, . . . , En. In altre parole deve valere la (3.10) perk di essi
comunque scelti. È evidente che (3.10) è verificata se ik eventi selezionati non
contengonoE1. Per contemplare il caso in cui tra essi è presenteE1 consideriamo
i primi k eventiE1, E2, . . . , Ek. Si ha
P(E1 ∩ E2 ∩ · · · ∩ Ek) = P(E2 ∩ · · · ∩ Ek)− P(E1 ∩ E2 ∩ · · · ∩ Ek)
= P(E2)× · · · × P(Ek)− P(E1)× P(E2)× · · · × P(Ek)
= [1− P(E1)]× P(E2)× · · · × P(Ek) = P(E1) · P(E2) · · ·P(Ek)
e la tesi è stata dimostrata.
Osservazione3.2.2. L’applicazione ripetuta del teorema 3.2.2 suggerisce come
esso sia ancora valido se più eventi nellan-pla sono sostituiti dai rispettivi com-
plementi.
Osservazione3.2.3. Fissati gli eventi collettivamente indipendentiE1, . . . , En,
vale la seguente relazione
P(E1 ∩ E2 ∩ · · · ∩ En) = P(E1) · P(E2) · · ·P(En)
= [P(E1) · P(E2) · · ·P(Er)] · [P(Er+1) · P(Er+2) · · ·P(En)]
= P(E1 ∩ E2 ∩ · · · ∩ Er) · P(Er+1 ∩ Er+2 ∩ · · · ∩ En) (3.13)
96 Capitolo 3. Condizionamento ed indipendenza di eventi
per1 6 r 6 n− 1 .
Esempio 3.2.1.Dimostriamo che l’estrazione di una asso di un qualunque seme,
eventoA, e l’estrazione di una carta di cuori, eventoB, da un mazzo di carte fran-
cesi ben mescolato sono eventi indipendenti.
Il mazzo di carte francesi prevede quattro i semi e tredici carte per ciascun seme,
si ha allora:P(A) =1
52=
1
13. Inoltre, poiché per ciascun seme vi sono tredici
carte, la probabilità cheB si verifichi èP(B) =13
52=
1
4. Per calcolare la pro-
babilità dell’evento intersezione(A ∩ B) si tenga presente che l’asso di cuori è
unico, quindiP(A ∩B) =1
52. In conclusione abbiamo
P(A ∩ B) =1
52≡ P(A) · P(B)
e la condizione di indipendenza è verificata.
Esempio 3.2.2.Supponiamo di lanciare due dadi, si verifichi l’indipendenza dei
due eventiil primo dado mostra un numero parie il secondo dado mastra un sei,
che indichiamo conA eB, rispettivamente.
Si haP(A) = 3/6 = 1/2 eP(B) = 1/6. InoltreA∩B = (2, 6)∪ (4, 6)∪ (6, 6)e pertanto otteniamoP(A ∩B) = 3/36 = 1/12 da cui:
P(A ∩ B) = P(A) · P(B).
Esempio 3.2.3.Esaminando l’albero genealogico di una donna gravida si evince
che ella ha una probabilità del cinquanta per cento di essereportatrice del gene per
l’emofilia. Qualora sia portatrice, la probabilità di trasmettere alla prole di sesso
maschile la malattia è12
e la trasmissione ai diversi figli sono da considerare sono
da considerare eventi indipendenti. Naturalmente non vi è alcuna possibilità che
un figlio erediti l’emofilia da una madre non portatrice10.
10Il padre non ha alcun ruolo.
3.2 Indipendenza stocastica 97
Sia C l’evento la donna è portatrice del geneed Ni l’evento l’i-esimo figlio
maschio è sano. Valgono le relazioni:
P(C) = P(C) =1
2e P(Ni|C) =
1
2.
Per l’indipendenza della trasmissione della malattia genetica a più figli maschi, nel
caso di due fratelli si haP(N1N2|C) = P(N1|C) ·P(N2|C) = 1/4 e, se partorisce
tre maschi,P(N1N2N3|C) = P(N1|C) · P(N2|C) · P(N3|C) = 1/8. Allo stesso
modo si procede nel caso di prole più numerosa.
Nel caso in cui non sia nota la condizione genetica della madre, la probabilità che
il suo primo figlio maschio sia sano è
P(N1) = P(N1|C) · P(C) + P(N1|C) · P(C) =1
2× 1
2+ 1× 1
2=
3
4= 0.75 .
Se, oltre ad ignorare la condizione della mamma, si ignora anche lo stato di salu-
te del primogenito, la probabilitàP(N2) da assegnare all’evento che un secondo
figlio maschio sia sano è sempre0.75 . Tale probabilità cambia se il primogenito
è normale, essa è data dalla probabilità condizionataP(N1N2|N1) =P(N1N2)
P(N1).
Osserviamo che due figli maschi consecutivi possono nascerenon emofiliaci sia
da una madre portatrice sia da una madre non portatrice del gene. Pertanto si ha
P(N1N2) = P(N1N2|C)·P(C)+P(N1N2|C)·P(C) =1
4×1
2+1×1
2=
5
8= 0.625
da cui segue:P(N2|N1) =P(N2N1)
P(N1)=
0.625
0.75= 0.833 .
Nel caso in cui il primo figlio maschio risultasse emofiliaco,allora è certo che la
madre è portatrice del gene dell’emofilia quindi la probabilitàP(N2) che il secon-
do figlio sia normale è uguale a12
come indicato in precedenza. Nel caso si ignori
la condizione della madre, la conoscenza della normalità del primogenito aumenta
la probabilità che ella sia non portatrice ed è maggiore(0.833) la probabilità che
98 Capitolo 3. Condizionamento ed indipendenza di eventi
anche il secondo maschio sia sano.
Calcoliamo, infine, la probabilità che la madre sia portatrice nell’ipotesi che i pri-
mi due figli maschi siano non emofiliaci. Grazie alla legge di Bayes (teorema
3.1.1) possiamo scrivere
P(C|N1N2) =P(C) · P(N1N2|C)
P(N1N2)=
0.5× 0.25
0.625= 0.2 .
La probabilità che ha la madre di essere portatrice del gene dell’emofilia cambia
da0.5 a0.2 se ella ha partorito due maschi normali.
3.2.1 La rovina del giocatore
In questo paragrafo trattiamo un esempio più complesso della teoria esposta pre-
cedentemente.La rovina di un giocatoreè un argomento classico nella teoria della
probabilità che viene sviluppato utilizzando tecniche differenti. La formulazione
che ora adottiamo è quella proposta da Gnedenko (confronta [6]).
Due giocatoriA eB continuano unapartita11 fino alla completa rovina di uno dei
due. Indichiamo cona il capitale iniziale12 del primo giocatore e conb quello del
secondo. La probabilità di vincere unamano13 è p perA e q perB; p e q non
cambiano durante il gioco. Se, ad esempio,A gioca alla roulette contro il banco
puntando sul nero, poiché vi sono diciotto rossi, diciotto neri ed un verde,p è
uguale a18/37 = 0.4865 . Ad ogni mano ognuno dei giocatori può vincere o per-
dere una delle monete a sua disposizione. Se si presume che gli esiti di ciascuna
11Ad esempio i due giocatori scommettono sull’uscita di testao croce nel lancio ripetuto di una
moneta oppure sul rosso e sul nero alla roulette. Esempi possono essere tratti anche in ambito
assicurativo o nel gioco in borsa. Pertanto al termine partita deve essere attribuito un significato
non letterale.12numero di monete in un qualunque valuta: euro, dollari, rubli, sterline.13Il termine mano non è utilizzato nel senso specifico del giocodelle carte ma indica una singola
esecuzione dell’esperimento casuale.
3.2 Indipendenza stocastica 99
partita siano indipendenti, qual è la probabilità che uno dei due giocatori, diciamo
A, perderà l’intero capitale (si rovinerà)?
Prima di addentrarci nei calcoli definiamo la tipologia degli eventi semplici con-
nessi all’esperimento casuale in studio. In questo contesto per evento elementare
si intende una successione infinita di alternarsi dei risultati delle singole partite
giocate. Per esempio un evento elementare14 è ω1 ≡ A,A,A,A,A,A, . . .oveA vince due mani consecutive eB la successiva e così per tutta la partita; un
altro esempio di evento elementare è quello in cuiB vince tutte le mani di posto
dispariω2 ≡ A,A,A,A,A, . . .. Ogni evento elementareωk è una succes-
sione numerabile composta dai simboliA eA. L’evento, alla cui probabilità siamo
interessati, consiste di tutti gli esiti elementariωk per i quali il giocatoreA perde
la sua dotazione iniziale di monete a favore del giocatoreB. Quest’ultimo, alla
fine della partita, vedrà crescere il sua capitale ada+ b.
Seguendo l’impostazione di Gnedenko, indichiamo conpn(N) la probabilità che
A si rovini inN mani se disponeva din monete prima di iniziare il gioco. Un gene-
rico evento elementareωk è la successione diN simboli di cuim sarannoA, se
il primo giocatore vince perm volte, ed i rimanentiN −m posti saranno occupati
daA ad indicare le vincite del secondo giocatore. In virtù delleipotesi poste sullo
svolgimento della partita possiamo scrivere la relazionepn(N) = pmqN−m. Ana-
logamente si definisconoqn(N) e rn(N) che indicano, rispettivamente, la proba-
bilità che siaB a perdere inN mani e la probabilità che si sia in parità. Qualunque
siaN > 0 risulta
pn(N) + qn(N) + rn(N) = 1 . (3.14)
In quanto probabilità,pn(N), qn(N) e rn(N) sono quantità limitate, inoltre, è
intuitivo che al crescere diN , pn(N) e qn(N) sono non decrescenti ern(N) non
14Per ciascuna mano indichiamo conA la vincita del giocatoreA e conA quella diB.
100 Capitolo 3. Condizionamento ed indipendenza di eventi
crescente. Valgono allora i seguenti limiti:
pn = limN→∞
pn(N), qn = limN→∞
qn(N), rn = limN→∞
rn(N).
Chiameremo questi limiti, rispettivamente, probabilità di rovina del giocatoreA,
del giocatoreB e di pareggio, purché all’inizio del giocoA posseggan monete e
la diponibilità diB sia dia + b− n. Dalla (3.14) segue:
pn + qn + rn = 1 . (3.15)
Risulta inoltre che
1. se all’inizio del giocoA detiene l’intero capitalea+b eB non ha piú monete,
allora
pa+b = 0 qa+b = 1 ra+b = 0 ; (3.16)
2. seA inizia senza nessuna moneta eB possiede tutto, allora
p0 = 1 q0 = 0 r0 = 0 . (3.17)
Se il giocatoreA in una determinata fase del gioco possieden monete la sua ro-
vina può concretizzarsi in due differenti modalità. Egli vince la mano successiva,
aumenta il sua capitale adn + 1 monete e poi perde la partita oppure perde sia la
mano successiva che la partita. Dalla formula della probabilità totale segue che
pn = p · pn+1 + q · pn−1. (3.18)
La (3.18) è un’equazione alle differenze finite inpn che possiamo riscrivere co-
me15
q · (pn − pn−1) = p · (pn+1 − pn). (3.19)
15Si moltiplichi il primo membro per(p+ q).
3.2 Indipendenza stocastica 101
Se il gioco è equop = q = 1/2 e la (3.18) dà luogo alle relazioni
pn+1 − pn = pn − pn−1 ≡ c
pn − pn−1 = pn−1 − pn−2 ≡ c
pn−1 − pn−2 = pn−2 − pn−3 ≡ c...
p2 − p1 = p1 − p0 ≡ c
conc costante. Dal precedente risultato si trova che
pn = pn−1 + c = pn−2 + c+ c = pn−3 + c+ c + c
· · · = p1 + (n− 1)× c = p0 + n× c
e, tenuto conto che per la prima delle (3.17)p0 = 1, si hapn = 1 + n × c ed in
particolarepa+b = 1+(a+b)×c. Quest’ultima relazione consente di determinare
il valore della costantec in quanto per le (3.16)pa+b = 0, si hac = − 1
a + be
l’espressione analitica dipn diventa
pn = 1− n
a+ b. (3.20)
Quindi la probabilità cheA si rovini, tenendo conto che all’inizio del gioco egli
dispone dia monete, è uguale a
pa = 1− a
a + b=
b
a + b. (3.21)
Ripetendo il precedente ragionamento si determina la probabilità che siaB a
rovinarsi16:
qa = 1− b
a + b=
a
a + b. (3.22)
16Si ricordi chen indica la disponibilità del primo giocatore; per tale motivo il pedice diq è
semprea.
102 Capitolo 3. Condizionamento ed indipendenza di eventi
Osserviamo chepa + qa = 1 e pertantora è nulla nell’ipotesi che le probabilitàp
e q coincidano.
Nel caso generale dip 6= q, dalla (3.19) si ricavapn+1 − pn =q
p(pn − pn−1) e da
quest’ultima
p2 − p1 =q
p(p1 − p0) =
q
p(p1 − 1),
p3 − p2 =q
p(p2 − p1) =
(q
p
)2
(p1 − 1),
...
pn+1 − pn =q
p(pn − pn−1) =
(q
p
)n
(p1 − 1). (3.23)
La (3.23) consente di esprimere la differenzapa+b − pn come una sommatoria
finita di potenze del rapportoq/p. Si ha
pa+b − pn
= pn+1 − pn + pn+2 − pn+1 + pn+3 − pn+2 + · · ·+ pa+b − pa+b−1
=a+b−1∑
j=n
(pj+1 − pj) = (p1 − 1)a+b−1∑
j=n
(q
p
)j
.
Poichép 6= q,q
p6= 1; inoltre, perj ∈ [0, a + b − 1],
(q
p
)j
è una progressione
geometrica, pertanto
a+b−1∑
j=0
(q
p
)j
=
1−(q
p
)a+b
1− q
pe, spezzando la sommatoria a primo membro, otteniamo
a+b−1∑
j=0
(q
p
)j
=n−1∑
j=0
(q
p
)j
+a+b−1∑
j=n
(q
p
)j
=
1−(q
p
)a+b
1− q
p
3.2 Indipendenza stocastica 103
da cui segue
a+b−1∑
j=n
(q
p
)j
=
1−(q
p
)a+b
1− q
p
−n−1∑
j=0
(q
p
)j
=
1−(q
p
)a+b
1− q
p
−1−
(q
p
)n
1− q
p
=
(q
p
)n
−(q
p
)a+b
1− q
p
ed infine
pa+b − pn = (p1 − 1)×
(q
p
)n
−(q
p
)a+b
1− q
p
. (3.24)
Osserviamo17 chepa+b = 0 ep0 = 1; dalla (3.24) seguono le relazioni
pn = (1− p1)×
(q
p
)n
−(q
p
)a+b
1− q
p
(3.25)
e
1 = (1− p1)×
(q
p
)0
−(q
p
)a+b
1− q
p
= (1− p1)×1−
(q
p
)a+b
1− q
p
. (3.26)
Dalla (3.26) ricaviamo il valore di1− p1
1− p1 =
(
1− q
p
)1
1−(q
p
)a+b
17confronta le (3.16) e (3.17)
104 Capitolo 3. Condizionamento ed indipendenza di eventi
e, sostituiendo quest’ultimo nella (3.25), troviamo
pn =
(
1− q
p
)1
1−(q
p
)a+b×
(q
p
)n
−(q
p
)a+b
1− q
p
=
(q
p
)a+b
−(q
p
)n
(q
p
)a+b
− 1
.
(3.27)
Quindi la probabilità che il giocatoreA si rovini è
pa =qa+b − qapb
qa+b − pa+b=
1−(p
q
)b
1−(p
q
)a+b. (3.28)
Analogamente si dimostra che la probabilità della rovina del giocatoreB è
qa =
1−(q
p
)a
1−(q
p
)a+b. (3.29)
È possibile che la partita finisca in parità? Ricordiamo chepa, qa e ra devono
verificare il vincolopa + qa + ra = 1 . Sommando i valori dipa e qa si ha
1−(p
q
)b
1−(p
q
)a+b+
1−(q
p
)a
1−(q
p
)a+b=
qb − pb
qb
qa+b − pa+b
qa+b
+
pa − qa
pa
pa+b − qa+b
pa+b
=qb − pb
qb· qa+b
qa+b − pa+b+
pa − qa
pa· pa+b
pa+b − qa+b
=qa(qb − pb)
qa+b − pa+b− pb(pa − qa)
qa+b − pa+b=
qaqb − qapb − papb + pbqa
qa+b − pa+b
=qa+b − pa+b
qa+b − pa+b= 1 .
3.2 Indipendenza stocastica 105
Si conclude che anche nel caso generale dip 6= q la probabilità di pareggio è
uguale zero e, quindi, la relazionepa + qa = 1 vale sempre.
Le formule precedenti suggeriscono alcune considerazionidi rilievo. Supponiamo
che il gioco sia equo, oppure che i due giocatori siano di uguale abilità. In altre
parole siap = q = 12
e supponiamo, inoltre, che la disponibilità iniziale diB sia
di gran lunga superiore a quella diA. In questo caso il valore dib può conside-
rarsi infinitamente grande. Allora per la (3.22) la rovina del secondo giocatore è
praticamente impossibile. La situazione cambia seA gioca meglio diB, in questo
caso risultap > q. Se assumiamob ∼ ∞, dalla (3.29) si ricavaqa ∼ 1 −(q
p
)a
e pa = 1 − qa ∼(q
p
)a
. In conclusione un giocatore,A, con un capitale minore
ma più abile, ha meno probabilità di rovinarsi di un avversario, B, con maggiore
disponibilità economica ma meno bravo nel gioco.
3.2.2 Il lemma di Borel e Cantelli
Il celebrelemma di Borel-Cantellicostituisce il presupposto per la dimostrazione
della cosiddettalegge 0-1che svolge un ruolo fondamentale nella determinazione
di alcune proprietà asintotiche della successione di eventi.
Lemma 3.2.1(di Borel-Cantelli). SiaAnn∈N una successione di eventi, la con-
vergenza della serie∞∑
n=1
P (An) implica che sia uguale a zero la probabilità del-
l’eventolim supn→∞
An.
Dimostrazione.Per la (1.20),P
(
lim supn→∞
An
)
= P
(
limn→∞
∞⋃
k=n
Ak
)
e da quest’ul-
tima, per la proprietà di continuità della probabilità e dalla disuguaglianza di Boole
106 Capitolo 3. Condizionamento ed indipendenza di eventi
(1.44), si ricava
P
(
lim supn→∞
An
)
= P
(
limn→∞
∞⋃
k=n
Ak
)
= limn→∞
P
(∞⋃
k=n
Ak
)
6 limn→∞
∞∑
k=n
P (Ak) .
La quantità∑∞
k=n P (Ak) rappresenta il reston-esimo della serie∑∞
n=1 P (An)
che, essendo quest’ultima convergente per ipotesi, è infinitesimo pern che tende
all’infinito. In conclusione si ha
P
(
lim supn→∞
An
)
6 limn→∞
∞∑
k=n
P (Ak) = 0
e la tesi del lemma è stata dimostrata.
Il lemma di Borel e Cantelli afferma che, se∑∞
n=1 P (An) < ∞, è nulla la proba-
bilità che esista unk > n tale cheAk si verifichi qualunque sian. In altri termini,
dalla convergenza della serie∑∞
n=1 P(An) segue che il verificarsi di infiniti tra gli
eventi della successioneAnn∈N è un evento quasi impossibile. Siamo ora nella
condizione di poter dimostrare il seguente teorema che, come abbiamo sottolinea-
to in precedenza, ha una importante valenza teorica.
Teorema 3.2.3(Legge 0-1). Sia Ann∈N una successione di eventi collettiva-
mente indipendenti. Si ha:
a-∞∑
n=1
P (An) < ∞ sse P
(
lim supn→∞
An
)
= 0 ,
b-∞∑
n=1
P (An) = ∞ sse P
(
lim supn→∞
An
)
= 1 .
Dimostrazione.La necessarietà dellaa coincide con la tesi del lemma di Borel e
Cantelli. Dimostriamo la necessarietà dellab; a tal fine ricordiamo la relazione
3.2 Indipendenza stocastica 107
P
(
lim supn→∞
An
)
= limn→∞
P
(∞⋃
k=n
Ak
)
, utilizzata nella dimostrazione del lemma
3.2.1, ed applichiamo ad essa la legge di De Morgan (1.4). Si ottiene:
P
(
lim supn→∞
An
)
= limn→∞
P
(∞⋃
k=n
Ak
)
= limn→∞
P
(∞⋂
k=n
Ak
)
= 1− limn→∞
P
(∞⋂
k=n
Ak
)
. (3.30)
Valgono la relazioni
P
(∞⋂
k=n
Ak
)
= P
(
limr→∞
r⋂
k=n
Ak
)
= limr→∞
P
(r⋂
k=n
Ak
)
e, per l’ipotesi di indipendenza collettiva degli eventiAn, si ricava
limr→∞
P
(r⋂
k=n
Ak
)
= limr→∞
r∏
k=n
P(Ak
)=
∞∏
k=n
P(Ak
). (3.31)
La (3.30) e la (3.31) conducono alla relazione
P
(
lim supn→∞
An
)
= 1− limn→∞
∞∏
k=n
P(Ak
)= 1− lim
n→∞
∞∏
k=n
[1− P(Ak)] .
Ricordando che,∀x ∈ R, vale la disuguaglianza1 − x 6 exp(−x), si ricava la
maggiorazione
P
(
lim supn→∞
An
)
> 1− limn→∞
∞∏
k=n
e−P(Ak) = 1− limn→∞
exp
−∞∑
k=n
P(Ak)
.
Poiché per ipotesi la serie∑∞
n=1 P (An) diverge, al tendere din all’infinito diver-
ge anche il reston-simo∑∞
k=n P(Ak) ed è nullo illimn→∞ exp −∑∞k=n P(Ak).
Dal fatto che la probabilità di un qualunque evento non può eccedere l’unità, si
108 Capitolo 3. Condizionamento ed indipendenza di eventi
ricavaP (lim supn→∞An) = 1 .
Il carattere di sufficienza dellaa e dellab si dimostra per assurdo.
Se perP (lim supn→∞An) = 0 risultasse∑∞
n=1 P (An) = ∞, come conseguenza
di b dovremmo avereP (lim supn→∞An) = 1 e quindi si cadrebbe in contraddi-
zione. Ad analoga contraddizione si perviene se la serie∑∞
n=1 P (An) fosse con-
vergente nel caso in cuiP (lim supn→∞An) = 1, infatti per laa dovrebbe essere
nulla la probabilità dell’eventolim supn→∞An.
Il teorema appena dimostrato afferma che, nel caso di una successione numerabile
di eventi collettivamente indipendenti, la probabilità che si verifichi un numero
infinito di tali eventi è nulla se la serie∑∞
n=1 P (An) converge mentre è uguale ad
1 se la predetta serie diverge.
3.2.3 Esperimenti indipendenti e spazio campionario prodotto
Definiamo, ora, formalmente il concetto di spazio campionario prodotto che è sta-
to in precedenza utilizzato su base intuitiva.
Consideriamo due esperimenti casualiE1 e E2 ai quali siano associati gli spazi
campionari discretiΩ1 edΩ2, rispettivamente; indichiamo conpi e qj le di-
stribuzioni di probabilità corrispondenti (vedi paragrafo 2.1). A partire daE1 e
E2 si può definire un singolo esperimento compositoE che consiste nell’esegui-
re sequenzialmente, o anche simultaneamente, i due esperimenti individuali. Ad
esempio, se il primo esperimento consiste nel lancio di una moneta ed il secon-
do nell’estrazione di un bussolotto colorato da un’urna, l’esperimento composito
consiste nel lanciare prima la moneta ed estrarre, poi, il bussolotto. Il nostro scopo
è quello di definire lo spazio campionarioΩ e la distribuzione di probabilitàP per
l’esperimento composito.
Assumiamo che gli esperimenti siano indipendenti; ovvero ipotizziamo che l’esito
di un esperimento non influenzi l’esito di quello successivo. Nell’esempio prece-
3.2 Indipendenza stocastica 109
dente si assume che l’esito del lancio della moneta non abbiaeffetti sul colore del
bussolotto che sarà estratto dall’urna. Più in generale, sianoei edfj eventi elemen-
tari tali cheei ∈ Ω1 efj ∈ Ω2; siano inoltrepi eqj le rispettive probabilità. Se non
vi è alcun effetto di trasferimento tra il primo esperimentoed il secondo, la pro-
babilità che l’esito del primo esperimento siaei efj quello del secondo è data dal
prodottopi · qj . Esistono molte situazioni reali per le quali l’ipotesi dell’indipen-
denza degli esperimenti è ragionevolmente motivata da considerazioni teoriche a
priori. Osserviamo che l’esito dell’esperimento composito è rappresentato da una
coppia ordinata(ei, fj) ove ei ∈ Ω1 e fj ∈ Ω2; quindi Ω è l’insieme, finito o
numerabile di tutte le predette coppie; esso è denominatoprodotto cartesianodi
Ω1 eΩ2, in simboli:Ω = Ω1 × Ω2.
Definizione 3.2.4.Due esperimenti casuali,E1 e E2, sono detti indipendenti se
l’assegnazione della probabilità agli eventi elementari18 dello spazio campionario
Ω = Ω1 × Ω2 segue la regola del prodotto, ovvero se risulta
rij = pi · qj ∀ (ei, fj) ∈ Ω.
Il modello probabilistico così definito è chiamato modello prodotto per l’esperi-
mento compostoE .
Notiamo che per la definizione posta, per ogni coppia(ei, fj) ∈ Ω, rij è una
quantità maggiore o uguale a zero, inoltre si ha
∑
i,j:(ei,fj)∈Ω
rij =∑
i:ei∈Ω1
pi ·∑
j:fj∈Ωe
qj = 1
e, pertanto,rij = pi · qj definisce una distribuzione di probabilità sullo spazio
campionario prodottoΩ = Ω1 × Ω2.
Esaminiamo il caso particolare in cui il secondo esperimento sia una ripetizione
18Indichiamo conrij la probabilità dell’evento elementare(ei, fj).
110 Capitolo 3. Condizionamento ed indipendenza di eventi
del primo, sicchéΩ1 = Ω2 ≡ Ω epi = qj. Considerate nel loro insieme le due
ripetizioni formano un esperimento composito il cui spaziocampionario è il pro-
dotto cartesiano diΩ con se stesso:Ω2 = Ω × Ω. Le ripetizioni dell’esperimento
sono indipendenti se e solo se
rij = pi · pj ∀ei, fj ∈ Ω.
Analogamente, pern ripetizioni dello stesso esperimento lo spazio campione è
dato dal prodotto cartesianoΩn = Ω× Ω× · · · × Ω︸ ︷︷ ︸
n volte
e len ripetizioni sono dette
indipendenti se e solo se
rij...k = pi · pj · · · pk 2 6 k 6 n.
Esempio 3.2.4.Supponiamo che l’esperimento composito sia costituito dallancio
di due dadi. Lo spazio campione per un singolo lancio èΩ = 1, 2, 3, 4, 5, 6, cia-
scun punto avendo probabilitàpi = 16. Per sua natura il lancio del secondo dado
non è influenzato dal risultato del lancio del primo dado, pertanto lanci successivi
del dado rappresentano esperimenti indipendenti il cui spazio campionario è l’in-
sieme delle 36 coppie(i, j) coni, j ∈ [1, 6]. A ciascuna di tali coppie è assegnata
la probabilitàpi · pj = 136
. La probabilità di un evento inΩ2 può essere calcolata
sommando le probabilità delle coppie elementari ad esso favorevoli. Ad esempio
siaA l’evento la somma del lancio dei due dadi è 6, esso è costituito dalle cinque
coppie(1, 5), (2, 4), (3, 3), (4, 2), (5, 1) e quindi:
P(A) =5
36.
CAPITOLO 4
La distribuzione binomiale e la
distribuzione di Poisson
4.1 Le prove del Bernoulli
Ripetizioni indipendenti di un esperimento con solo due possibili esiti,S (succes-
so) edF (fallimento), con probabilità che rimane costante durante le ripetizioni
sono chiamateprove del Bernoulli. La probabilità dell’esito successo è usualmen-
te indicata conp, si indica conq la probabilità diF . Naturalmente p e q sono
non negativi e tali chep + q = 1 . Lo spazio campionario di ciascuna prova è
costituito dai due puntiS edF . Pern prove del Bernoulli lo spazio campionario
contiene2n punti, ciascun punto è la successione din simboli S edF e rappre-
senta un possibile esito dell’esperimento composto dallen ripetizioni. Essendo le
prove indipendenti le probabilità si moltiplicano; in altre parole la probabilità di
una specificata sequenzaSSFS...FFS è il prodotto ottenuto sostituendo i simboli
S edF conp e q rispettivamente:
P [(SSFS...FFS)] = ppqp · · · qqp.
112 Capitolo 4. La distribuzione binomiale e la distribuzione di Poisson
Nel caso di due prove del Bernoulli lo spazio campione contiene quattro punti
Ω = SS, SF, FS, FF
e le rispettive probabilità sono date da
P(SS) = p2,P(SF) = p · q,P(FS) = q · p,P(FF) = q2.
Se le prove del Bernoulli sono tre si ha
Ω =
SSS︸︷︷︸
ω1
, SSF︸ ︷︷ ︸
ω2
, SFS︸ ︷︷ ︸
ω3
, FSS︸ ︷︷ ︸
ω4
, FFS︸ ︷︷ ︸
ω5
, FSF︸ ︷︷ ︸
ω6
, SFF︸ ︷︷ ︸
ω7
, FFF︸ ︷︷ ︸
ω8
e
P(ω1) = p3,P(ω2) = P(ω3) = P(ω4) = p2q,
P(ω5) = P(ω6) = P(ω7) = pq2,P(ω8) = q3.
L’esempio più familiare delle prove del Bernoulli è rappresentato dal lancio suc-
cessivo di una moneta, in questo casop = q = 1/2 e l’evento successo potrebbe
essere l’uscita di testa. Del tutto analogo è il caso in cui più monete sono lanciate
contemporaneamente. Anche il lancio di dadi può essere descritto utilizzando il
modello delle prove del Bernoulli. Lo stesso vale per l’estrazione con reimbusso-
lamento di palline di due differenti colori da un’urna. Lo schema non è applicabile
se il campionamento è senza restituzione in quanto, essendoin questo caso non
costante la composizione dell’urna, la probabilità di successo, ad esempio dell’e-
strazione di una pallina rossa, varia dipendendo dal coloredelle palline estratte
in precedenza. Le prove del Bernoulli trovano applicazionein alcune situazioni
sperimentali come il controllo di qualità, il calcolo del potere infettivo di un agen-
te patogeno, la valutazione dell’efficacia di un vaccino o diun siero e così via.
Nei casi reali, affinché il modello sia valido, occorre valutare con attenzione che
sia verificata la condizione che la probabilitàp rimanga costante nel corso delle
ripetizioni dell’esperimento.
4.2 La distribuzione binomiale 113
4.2 La distribuzione binomiale
Ritorniamo ora al caso generale din prove del Bernoulli. Siap la probabilità di
successo ed indichiamo conb(k;n, p) la probabilità di ottenerek successi nelle
n ripetizioni. La probabilità di realizzazione di una determinata sequenza di esiti
nella quale vi siano esattamentek successi,S, edn − k fallimenti,F , è data, per
quanto prima esposto, dal prodottopk·qn−k = pk·(1−p)n−k. Essendo interessati al
numero di successi nellen ripetizioni dell’esperimento e non all’ordine nel quale
essi si verificano, per calcolareb(k;n, p) il valorepk ·qn−k deve essere moltiplicato
per il numero di sequenze nelle qualik sono i successi edn− k i fallimenti in un
ordine qualsiasi di realizzazione:
b(k;n, p) =
(n
k
)
pk(1− p)n−k. (4.1)
La (4.1) definisce una distribuzione discreta di probabilità: ladistribuzione bino-
miale. Infatti qualunque siak ∈ [0, n] risulta b(k;n, p) > 0 ed inoltre, per il
teorema binomiale 2.2.1, si ha
n∑
k=0
b(k;n, p) =n∑
k=0
(n
k
)
pk(1− p)n−k
= (1− p)nn∑
k=0
(n
k
)(p
1− p
)k
= (1− p)n(
1 +p
1− p
)n
= (1− p)n(
1
1− p
)n
= 1 . (4.2)
Dalla (4.1) si deduce che la probabilità che inn prove del Bernoulli non si verifichi
alcun successo è
b(0;n, p) = (1− p)n
e che la probabilità di ottenere almeno un successo è
1− b(0;n, p) = 1− (1− p)n.
114 Capitolo 4. La distribuzione binomiale e la distribuzione di Poisson
Il valore b(k;n, p) si ricava, notob(k − 1;n, p), grazie alla seguente formula
ricorsiva:
b(k;n, p) = b(k − 1;n, p)
[
1 +(n+ 1)p− k
kq
]
. (4.3)
Infatti possiamo scrivere la relazione
b(k;n, p)
b(k − 1;n, p)=
(n
k
)
pkqn−k
(n
k − 1
)
pk−1qn−k+1
=
(n
k
)
(n
k − 1
) · pq
=
n!
k!(n− k)!
(n)!
(k − 1)!(n− k + 1)!
· pq=
(k − 1)!
k!· (n− k + 1)!
(n− k)!· pq=
n− k + 1
k· pq
da cui segue la (4.3). La figura 4.1 mostra il grafico della distribuzione binomiale
pern = 50 e tre diversi valori della probabilità di successop.
Esempio 4.2.1. Probabilità di contagio
Il tasso di morbilità di una data malattia è del venticinque per cento. Qual è la
probabilità chek di n soggetti non risultino contagiati? Se si ritiene ragionevole
considerare costante nel tempo il tasso di morbilità è ragionevole far ricorso al
modello binomiale ponendop = 1− 0.25 = 0.75 e q = 0.25:
b(k;n, p) =
(n
k
)
× 0.75k × 0.25n−k.
Esempio 4.2.2. Rischio di morte
Da studi epidemiologici condotti nel reparto di cardiochirurgia di un ospedale di
alta specialità si osserva una mortalità intraoperatoria del dieci per cento. Se nel
reparto di eseguono in un anno cinquanta interventi, per calcolare la probabilità
che k pazienti sopravvivano si utilizza la distribuzione del Bernoulli con p =
1− 0.1 = 0.9: b(k; 50, 0.9) =
(50
k
)
× 0.90k × 0.1050−k.
4.2 La distribuzione binomiale 115
0 10 20 30 40 500
0.1
0.2n=50; p=0.25
0 10 20 30 40 500
0.1
0.2n=50; p=0.50
0 10 20 30 40 500
0.1
0.2n=50; p=0.65
Figura 4.1: Distribuzione Binomiale.
Esempio 4.2.3. Mutazioni geniche
Supponiamo che per una fissata intensità di radiazione la probabilità di una mu-
tazione per gene sia approssimativamente pari ap = 2.7 × 10−7, calcoliamo la
probabilità che si verifichi almeno una mutazione in104 geni. La probabilità che
116 Capitolo 4. La distribuzione binomiale e la distribuzione di Poisson
non si verifichi alcuna mutazione è
b(0; 10000, 2.7 · 10−7) =
(10000
0
)
(2.7 · 10−7)0(1− 2.7 · 10−7)10000
= (1− 2.7 · 10−7)10000 ≈ 0.9975
da cui si ricava:
b(1; 10000, 2.7 · 10−7) = 1− b(0; 10000, 2.7 · 10−7) ≈ 1− 0.9975 = 2.5× 10−3.
Osservazione4.2.1. Come conseguenza della (4.3) si ha
b(k;n, p)
b(k − 1;n, p)= 1 +
(n+ 1)p− k
kq
Pertanto per valorik tali chek < (n + 1)p risultab(k;n, p) > b(k − 1;n, p), per
k > (n+ 1)p vale, invece, la disuguaglianzab(k;n, p) < b(k − 1;n, p). Esiste un
unico interom che verifica la relazione
(n+ 1)p− 1 < m 6 (n+ 1)p
sicché la distribuzione di Bernoulli assume il massimo quandok = m, inoltre, se
(n+ 1)p è un interob(m;n, p) = b(m− 1;n, p).
Esempio 4.2.4.Calcolare la probabilità che estratte a caso e contemporaneamente
tre carte da un mazzo di carte napoletane, fra di esse vi sianodue soli assi, di
qualunque seme. Ricordiamo che le carte napoletane sono quaranta di quattro semi
differenti. Pertanto il numero dei casi possibili è dato dalcoefficiente binomiale(40
3
)
. Per calcolare il numero dei casi favorevoli notiamo che i due assi possono
essere scelti in
(4
2
)
modi possibili e che per la terza carta, che non si vuole sia un
asso, sussistano
(36
1
)
possibilità. In conclusione la probabilità cercata è
p =
(4
2
)
·(36
1
)
/
(40
3
)
≈ 2.2 · 10−2.
4.2 La distribuzione binomiale 117
In molte applicazioni occorre calcolare la probabilità cheil numero di successi in
n prove del Bernoulli sia almeno pari ad un fissato interol, in termini diversi si
cerca la probabilià dell’eventoSn > l, ove conSn indichiamo un generico numero
di successi inn prove del Bernoulli. Si ha:
P (Sn > l) =n∑
j=l
P (Sn = j) =n∑
j=l
(n
j
)
pjqn−j =∞∑
j=l
(n
j
)
pjqn−j (4.4)
ove la sommatoria finita è stata estesa all’infinito in quantoil coefficiente bino-
miale si annulla perj > n. Analogamente la probabilità che il numero di successi
non sia superiore adl è data da:
P (Sn 6 l) =
l∑
j=0
P (Sn = j) =
l∑
j=0
(n
j
)
pjqn−j. (4.5)
Infine la probabilità che il numero di successi sia compreso trak edl è:
P (k 6 Sn 6 l) = P (Sn 6 l)− P (Sn 6 k − 1) =l∑
j=k
(n
j
)
pjqn−j. (4.6)
In letteratura sono consultabili tavole probabilistiche nelle quali sono tabulati i
valori delle probabilità cumulativeP (Sn 6 l), calcolati in accordo alla (4.5), per
alcuni valori dip edl.
Esempio 4.2.5. Giocando a testa e croce
Lanciando per dieci volte una moneta equa, qual è la probabilità di ottenere sei
volte testa e che risulti testa in almeno sette lanci? Per quanto concerne il primo
quesito si applica direttamente la 4.1:
P (S10 = 6) = b(6; 10, 0.5) =
(10
6
)
0.560.54 =10!
6!4!
1
2
10
=210
1024≈ 0.205 .
Per calcolareP (S10 > 7) osserviamo che per la (4.4) si ha
P (S10 > 7) = b(7; 10, 0.5) + b(8; 10, 0.5) + b(9; 10, 0.5) + b(10; 10, 0.5).
118 Capitolo 4. La distribuzione binomiale e la distribuzione di Poisson
Applicando la formula ricorsiva (4.3) si ricavano i seguenti valori:
b(7; 10, 0.5) = b(6; 10, 0.5) ·[
1 +11× 0.5− 7
7× 0.5
]
≈ 0.205× 0.571 ≈ 0.117 ,
b(8; 10, 0.5) = 0.117×[
1 +11× 0.5− 8
8× 0.5
]
≈ 0.117× 0.375 ≈ 0.044 ,
b(9; 10, 0.5) = 0.044×[
1 +11× 0.5− 9
9× 0.5
]
≈ 0.044× 0.222 ≈ 10−3.
Essendob(10; 10, 0.5) =1
210=
1
1024≈ 10−3, si ottiene la risposta al secondo
quesito:P (S10 > 7) ≈ 0.163 .
Esempio 4.2.6. Risposte casuali ad un questionario
Un questionario è composto da otto domande e ciascuna di esseprevede tre rispo-
ste delle quali una sola è quella esatta. Assumendo di rispondere a caso, calcolare
la probabilità che il numero di risposte esatte sia
• uguale a otto,
• almeno otto,
• al massimo sette,
• maggiore di uno e minore di otto.
Per le ipotesi poste abbiamon = 10, p =1
3e q = 1− p =
2
3. Pertanto si ha:
P (S10 = 8) = b(8; 10,1
3) =
(10
8
)(1
3
)8(2
3
)2
≈ 3× 10−3
P (S10 > 8) =
10∑
j=8
(n
j
)
pjq10−j
=
(10
8
)(1
3
)8(2
3
)2
+
(10
9
)(1
3
)9(2
3
)
+
(1
3
)10
≈ 3.4× 10−3
P (S10 6 7) = 1− P (S10 > 8) ≈ 0.9966 .
4.3 Distribuzione di Poisson 119
Per rispondere all’ultimo quesito occorre calcolare
P (1 < S10 < 8) = P (S10 6 7)− P (S10 6 1) ≈ 0.9966− P (S10 6 1) .
PoichéP (S10 6 1) =
(10
0
)(1
3
)0(2
3
)10
+
(10
1
)(1
3
)(2
3
)9
≈ 0.104, si
ottiene
P (1 < S10 < 8) ≈ 0.8926 .
Esempio 4.2.7. Giocando a dadi
Calcolare la probabilità che lanciando quattro volte un dado, almeno una volta esca
il sei. Ricordiamo che in questo caso all’evento elementaresuccesso corrisponde
p = 16, mentre la probabilità che il dado mostri una qualsiasi altra faccia èq = 5
6,
pertanto la probabilità di interesse è
P (S4 > 1) =4∑
j=1
(4
j
)(1
6
)j (5
6
)4−j
≈ 0.518 .
4.3 Distribuzione di Poisson
In molte situazioni reali si incontrano casi particolari diprove del Bernoulli dove
n è molto grande e la probabilità elementarep piccola, ad esempio inferiore a
10−1. In questi casi è conveniente far ricorso ad una funzione cheapprossima la
b(k;n, p), essa è dovuta a Poisson e sarà ricavata di seguito. Perk = 0, ponendo
λ = np, abbiamo
b(0;n, p) = (1− p)n =
(
1− λ
n
)n
e, passando ai logaritmi naturali,
ln b(0;n, p) = n ln
(
1− λ
n
)
= −λ− λ2
2n− · · ·
120 Capitolo 4. La distribuzione binomiale e la distribuzione di Poisson
ove l’ultimo passaggio si giustifica sviluppando in serie diMacLaurin1 la funzione
ln(1− λ
n
). Sicché, per grandi valori din,
b(0;n, p) ≈ e−λ. (4.7)
Dalla formula ricorsiva (4.3) ricaviamo l’espressione
b(k;n, p)
b(k − 1;n, p)=
np− (k − 1)p
kq=
np
kq− (k − 1)p
kq=
λ
kq− (k − 1)p
kq
che, per le ipotesi poste sun ep, diventa2
b(k;n, p)
b(k − 1;n, p)≈ λ
k. (4.8)
Possiamo, quindi, scrivere
b(1;n, p) ≈ b(0;n, p) · λ1= λ · e−λ,
b(2;n, p) ≈ b(1;n, p) · λ2=
λ2
2· e−λ,
b(3;n, p) ≈ b(2;n, p) · λ3=
λ3
6· e−λ =
λ3
3!· e−λ
e in generale
b(k;n, p) ≈ λk
k!· e−λ. (4.9)
1A tal proposito si ricordi:
ln(1 + z) = z − z2
2+
z3
3− z4
4± · · ·
.2Infatti, essendo per ipotesip di poco maggiore di zero, è giustificato assumereq = 1− p ≈ 1
e (k−1)pkq ≈ 0 .
4.3 Distribuzione di Poisson 121
La (4.9) rappresenta la cosiddettaapprossimazione di Poissondella distribuzione
binomiale. Per ogni interok > 0 si hab(k;n, p) > 0 ed inoltre3
∞∑
k=0
λk
k!· e−λ = e−λ
∞∑
k=0
λk
k!︸ ︷︷ ︸
eλ
= 1 .
Quindi, per ogni fissato valore diλ, la (4.9) è una distribuzione di probabilità; essa
è denominatadistribuzione di Poissoned è indicata con la notazione:
p(k, λ) =λk
k!· e−λ. (4.10)
La figura 4.2 illustra il grafico della distribuzione Poissonper alcuni valori del
parametroλ.
La distribuzione di Poisson in questo contesto (vedi [5] e [7]) è interpretata come
una approssimazione dib(k;n, p), la probabilità di ottenere esattamentek succes-
si in n prove del Bernoulli quandon è sufficientemente grande ep piccola. Essa
si configura come un modello probabilistico adatto a descrivere quelle situazio-
ni sperimentali che rientrano nella categoria deglieventi rari, ovvero quando le
repliche sono in numero elevato e l’evento successo non è frequente. La distri-
buzione di Poisson è comunque deducibile indipendentemente dalla distribuzione
binomiale, ma l’argomento rientra nell’ambito della teoria dei processi stocastici.
Esempio 4.3.1. Confronto delle due distribuzioni
La distribuzione binomiale con parametrin = 100 ep = 0.02 è
b(k; 100, 0.02) =
(100
k
)
× 0.02k × 0.98100−k k = 0, 1, 2, . . . .
3Lo sviluppo in serie di Taylor diexp(λ) è dato da∑
kλk
k! .
122 Capitolo 4. La distribuzione binomiale e la distribuzione di Poisson
0 5 10 150
0.5
1λ=0.5
0 5 10 150
0.2
0.4λ=2
0 5 10 150
0.1
0.2λ=5
Figura 4.2: Distribuzione di Poisson.
Per la distribuzione di Poisson si haλ = np = 2 e
p(k, 2) = 2k · e−2
k!k = 0, 1, 2, . . . .
Per piccoli valori dik si ricavano i valori riportati nella sottostante tabella
k 0 1 2 3 4 5 6
b(k; 100, 0.02) .1326 .2707 .2734 .1823 .0902 .0353 .0114
p(k, 2) .1353 .2707 .2707 .1804 .0902 .0361 .0120
4.3 Distribuzione di Poisson 123
dalla quale si deduce che i valori delle due distribuzioni sono molto vicini per pic-
coli valori di k, perk > 4 le discrepanze cominciano ad aumentare. Come criterio
generale si tenga presente che una buona approssimazione della distribuzione bi-
nomiale con una distribuzione poissoniana si ottiene pern > 20 e p 6 0.05, tale
approssimazione è ottima pern > 100 eλ 6 10 .
Esempio 4.3.2. Malattia genetica rara
Una malattia genetica molta rara viene osservata in una datapopolazione con una
frequenza relativa pari a10−3; la diagnosi precoce viene effettuata esaminando
un campione di sangue. Essendo nell’ambito degli eventi rari la distribuzione
di Poisson consente il calcolo della probabilità di trovarek soggetti affetti dalla
malattia in un gruppo din persone. In particolare si hap(k, λ) = p(k, 10−3n) e
per calcolare probabilità che almeno due dei soggetti esaminati siano malati si può
applicare la relazione:
P (Sn > 2) ≈ 1− p(0, λ)− p(1, λ) = 1− e−λ − λe−λ = 1− (1 + λ)e−λ.
Quanti soggetti devono essere studiati affinchéP (Sn > 2) > 0.95 ? La precedente
condizione è verificata se
(1 + λ)e−λ < 0.05 . (4.11)
Nella figura 4.3 è mostrato l’andamento di(1 + λ)e−λ in funzione diλ; da essa si
evince che la 4.11 è verificata perλ > 4.75 e, quindi, deve essere
np > 4.75 =⇒ n >4.75
10−3= 4750
pertanto occorre sottoporre a screening almeno 4750 persone, affinché sia supe-
riore a0.95 la probabilità di individuare almeno due soggetti affetti dalla malattia
rara.
124 Capitolo 4. La distribuzione binomiale e la distribuzione di Poisson
3 3.25 3.5 3.75 4 4.25 4.5 4.75 5 5.25 5.5 5.75 60
0.025
0.05
0.075
0.1
0.125
0.15
0.175
0.2
λ
(1+λ
)e−
λ
Figura 4.3: Grafico di(1 + λ)e−λ in funzione diλ.
4.4 Tempi di attesa in prove del Bernoulli
Supponiamo di non aver fissato in anticipo il numeron di prove del Bernoulli e
di continuare a ripetere l’esperimento fino a quando non sia stato osservato l’r-
esimo successo. Indichiamo conf(k; r, p) la probabilità che l’r-esimo successo
capiti esattamente dopor + k ripetizioni.
Cominciamo considerando il casor = 1; f(k; 1, p) è la probabilità che le prime
4.4 Tempi di attesa in prove del Bernoulli 125
k ripetizioni diano luogo all’evento elementareF e che lak + 1 prova sia un
successo, si ha4
P
(
FFF . . . F︸ ︷︷ ︸
k
S
)
= (1− p)(1− p) . . . (1− p)︸ ︷︷ ︸
k
p
da cui segue
f(k; 1, p) = p(1− p)k k = 0, 1, 2, . . . . (4.12)
La (4.12) è denominatadistribuzione geometricain quanto le probabilitàf(k; 1, p)
costituiscono i termini di una serie geometrica∑
i ari, ovea = p edr = 1 − p.
Inoltre, essendo0 < p < 1,
f(k; 1, p) > 0 ∀k
e5∞∑
k=0
p(1− p)k =p
1− (1− p)= 1
come richiesto dagli assiomi di Kolmogorov.
Nel caso generale, per determinare l’espressione analitica dif(k; r, p) è necessario
calcolare la probabilità dell’evento
SSFSFF . . . SF︸ ︷︷ ︸
r+k−1
∩ S
ovvero la probabilità che nelle primer + k − 1 prove si ottengano, in un ordine
qualsiasi, esattamentek insuccessiF e r − 1 successiS ed infine alla ripetizione
r + k si osservi un successo. Si ha
f(k; r, p) = b(r − 1; r + k − 1, p) · p
=
[(r + k − 1
r − 1
)
pr−1qk]
· p =
(r + k − 1
r − 1
)
prqk. (4.13)
4Si tenga sempre presente che le prove del Bernoulli sono per definizione indipendenti.5Infatti la serie geometrica
∑∞i=0 ar
i, ser ∈ (−1, 1), converge al valorea/(1− r).
126 Capitolo 4. La distribuzione binomiale e la distribuzione di Poisson
Ricordando la (2.13), possiamo porre(r + k − 1
r − 1
)
=
(r + k − 1
(r + k − 1)− (r − 1)
)
=
(r + k − 1
k
)
da cui:
f(k; r, p) =
(r + k − 1
k
)
prqk k = 0, 1, 2 . . . . (4.14)
Per un arbitrario interor > 0 e 0 < p < 1, la successionef(k; r, p), definita
dalla (4.14), è una distribuzione di probabilità che, spesso, è denominatadistribu-
zione di Pascal. A tale proposito si noti che le quantità (4.14) sono non negative;
per dimostrare che la probabilità totale∑
k f(k; r, p) ha valore 1 è utile richiamare
la seguente proprietà del coefficiente binomiale(−a
k
)
= (−1)k(a+ k − 1
k
)
∀a ∈ R+. (4.15)
Pertanto si ha:
f(k; r, p) =
(r + k − 1
k
)
prqk =
(−r
k
)
pr(−q)k k = 0, 1, 2 . . . . (4.16)
Per il teorema binomiale 2.2.1, riscrivendo la relazione(1 + t)a =∑∞
k=0
(ak
)tk
ponendot = −q ea = −r, si ha
∞∑
k=0
(−r
k
)
(−q)k = (1− q)−r = p−r
da cui
∞∑
k=0
f(k; r, p) =∞∑
k=0
(−r
k
)
pr(−q)k = pr∞∑
k=0
(−r
k
)
(−q)k = prp−r = 1 .
Per la particolare espressione (4.16) laf(k; r, p) è anche chiamatadistribuzione
binomiale negativa.
4.4 Tempi di attesa in prove del Bernoulli 127
Osservazione4.4.1. Si chiamadistribuzione geometrica modificatala distribuzio-
ne di probabilità
pk = p(1− p)k−1 k = 1, 2, . . . . (4.17)
La (4.17) coincide con la distribuzione geometrica (4.12) se in quest’ultima si po-
ne k = k − 1: pk = f(k − 1; 1, p). In altre parole la distribuzione geometrica
modificata calcola, al variare dik, la probabiltà congiunta che l’evento in conside-
razione non si verifichi perk − 1 prove consecutive e che si verifichi allk-esima
prova (vedi [1],[2]).
Osservazione4.4.2. Un’urna contienea palline bianche eb palline nere. Si estrag-
gono a caso le palline fino a quando non sia stata ottenuta lar-ma pallina bianca.
Se l’estrazione è con reimbussolamento, le estrazioni rientrano nella classe del-
le prove del Bernoulli e, postop = a/(a + b), la distribuzione di Pascal (4.14)
consente il calcolo della probabilità che siano state estratte k palline nere prima
dellar-sima bianca. La situazione cambia se le estrazioni sono senza restituzio-
ne, infatti, in questo caso, il modello del Bernoulli non è applicabile in quanto
la probabilitàp di successo, l’estrazione della pallina bianca, non è costante ma
varia da ripetizione a ripetizione. Affinché siano state estrattek palline nere prima
dellar-sima bianca, devono essere state ottenuter−1 palline bianche nelle prime
r + k − 1 estrazioni ed una pallina bianca nella successiva. La distribuzione iper-
geometrica (2.32) consente il calcolo della probabilità diottenerek palline nere
edr − 1 bianche nelle primer + k − 1 estrazione:(
a
r − 1
)(b
k
)
/
(a+ b
r + k − 1
)
.
A questo punto nell’urna sono contenutea + b − (r + k − 1) palline, di queste
a− (r − 1) sono bianche; pertanto la probabilità di successo nella(r + k)-esima
estrazione èa− r + 1
a+ b− r − k + 1
128 Capitolo 4. La distribuzione binomiale e la distribuzione di Poisson
da cui segue
g(k, r) =a− r + 1
a+ b− r − k + 1
(a
r − 1
)(b
k
)
/
(a+ b
r + k − 1
)
. (4.18)
Si osservi che la (4.18) è valida perk ∈ [0, b] e r 6 a.
Esempio 4.4.1. Pericolo di contagio
Una malattia esantematica si sviluppa in un caso su cinque bambini esposti; cal-
coliamo la probabilità che il terzo a contrarla sia stato preceduto da nove bambini
risultati immuni. Dalla distribuzione di Pascal si ricava il valore di probabilità
richiesto:
f(9; 3,1
5) =
(11
9
)(1
5
)3(4
5
)9
= 55× 0.008× 0.1342 = 0.059 .
Esempio 4.4.2. Una coppia con molti figli
Ipotizziamo che una coppia possa avere, nel corso degli anni, un figlio maschio o
femmina con uguale probabilità. Consideriamo successo la nascita di maschio. La
distribuzione geometrica (4.12) permette di calcolare la probabilità che il quarto
nato sia il primo maschio:
f(3; 1, 0.5) = 0.5× (0.5)3 = 0.0625 .
La probabilità che il sesto nato sia il terzo maschio si deduce applicando la distri-
buzione di Pascal:
f(3; 3,1
2) =
(5
3
)(1
2
)3(1
2
)3
= 10×(1
2
)6
= 10× 1
64= 0.156 .
Esempio 4.4.3.Lanciando ripetutamente un dado calcoliamo la probabilitàche
un determinato numero, ad esempio il quattro, esca due volteconsecutivamente
dopo esattamentek > 2 lanci. Affinché si realizzi l’evento fissato, nei primik− 2
lanci non deve mai apparire il quattro; il(k − 1)-esimo lancio deve produrre il
4.5 La distribuzione multinomiale 129
primo successo, che ha probabilitàp = 1/6, ed al lancio successivo deve ancora
verificarsi l’uscita del quattro. La probabilità cercata è
f
(
k − 2, 1,1
6
)
× 1
6=
1
6×(5
6
)k−2
× 1
6.
4.5 La distribuzione multinomiale
La distribuzione binomiale si generalizza facilmente al caso din prove ripetute
indipendenti di un esperimento casualeE , dove l’esito di ciascuna prova può es-
sere uno fram possibili risultatiE1, E2, . . . , Em. L’insieme dei possibili esiti di
ciascuna prova costituisce una partizione dello spazio campione: Ω =⊔m
i=1Ei.
Ripetendo l’esperimento pern volte si ottiene una successione di eventi del tipo:
E5, E1, E2, Em, E2, E1, . . .︸ ︷︷ ︸
n
.
Indichiamo conpi la probabilità dell’eventoEi e conki il numero di volte in cui
Ei occorre inn ripetizioni indipendenti diE . Valgono i seguenti vincoli:
1.∑m
i=1 pi = 1 ,
2.∑m
i=1 ki = n .
Qual è la probabilità che, inn ripetizioni indipendenti diE , E1 occorrak1 volte,
E2 occorrak2 volte e . . . Em si verifichi km volte? Nel caso dim = 2 si ricade
nell’ambito della distribuzione binomiale conp1 = p, p2 = 1 − p ≡ q, k1 ∈ [0, n]
e k2 = n − k1. Nel caso generale, come abbiamo già sottolineato in precedenza,
l’esito della ripetizione din prove è una successione deglin simboli Ei e, per
l’ipotesi di indipendenza, la probabilità cheE1 compaia perk1 volte e. . . Em per
km volte, in un fissato ordine, è
pk11 pk22 · · · pkmm . (4.19)
130 Capitolo 4. La distribuzione binomiale e la distribuzione di Poisson
Ad esempio, conn = 7 si potrebbe ottenereE1, E2, E2, E4, E1, E2, E2; la pro-
babilità associata a questa specifica successione di eventiè p21p42p4. Non essendo
rilevante l’ordine di presentazione dei singoli esitiEi, ma solo il numero di vol-
te in cui ciascuno di essi occorre, per ottenere la probabilità di interesse si deve
moltiplicare la (4.19) per il coefficiente multinomiale(
n
k1 k2 . . . km
)
che rappresenta il numero di possibili successioni in cui sono presentik1 simboli
E1 e . . . km simboliEm. In conclusione si ha:
f(n; k1, . . . , km) =
(n
k1 k2 . . . km
)
pk11 pk22 · · · pkmm . (4.20)
Le probabilità definite dalla (4.20) rappresentano la cosiddettadistribuzione mul-
tinomiale. La probabilità totale, ottenuta sommando i terminif(n; k1, . . . , km)
su tutti gli interi non negativik1, k2, . . . , km, è uguale a 1 come conseguenza del
teorema multinomiale 2.2.3. Infatti in questo caso il primomembro della (2.22)
coincide con
(p1 + p2 + · · ·+ pm)n = 1n = 1 .
Esempio 4.5.1. Giocando a testa e croce con più monete
Supponiamo di lanciare tre monete e di contare il numero di monete che mostrano
testa. Ripetiamo l’esperimento pern = 10 volte; se coni ∈ [0, 3] si indica il
numero di monete che mostrano testa in ciascuna prova, qual èla probabilità che
si osservi la situazione seguente
k0 = 1 , k1 = 3 , k2 = 4 , k3 = 2 ,
oveki è il numero di volte in cui lanciando le tre monete sono state osservatei
monete con l’esito testa. Si ha
k0 + k1 + k2 + k3 = 10
4.5 La distribuzione multinomiale 131
e
pi =
(3
i
)
/23 i = 0, 1, 2, 3
pertanto
f(10; k0, . . . , k3) =
(10
1 3 4 2
)
p10p31p
42p
23.
Calcoliamo i fattoripkii , valgono le relazioni
p0 =
(3
0
)
8=
1
8, p1 =
(3
1
)
8=
3
8, p2 =
(3
2
)
8=
3
8, p4 =
(3
3
)
8=
1
8,
da cui
f(10; k0, . . . , k3) =10!
1!× 3!× 4!× 2!
(1
8
)1(3
8
)3(3
8
)4(1
8
)2
≈ 0.026 .
CAPITOLO 5
Variabili aleatorie
5.1 Il concetto di variabile casuale
5.1.1 Considerazioni preliminari
Il concetto divariabile casualeo aleatoria svolge un ruolo fondamentale nella
teoria della probabilità; prima di darne la definizione formale, illustriamo, con al-
cuni semplici esempi e considerazioni intuitive, la necessità di introdurre questa
nuova nozione ed il razionale sotteso dalla definizione stessa.
Nei capitoli precedenti abbiamo messo in luce come il calcolo della probabilità di
un evento casuale ha senso solamente in relazione ad uno spazio campione, as-
sociato all’esperimento, sul quale sia stata definita una misura di probabilità. È
facile convincersi che le operazioni con insiemi non sono sempre agevoli, inoltre
la misura di probabilità stessa è una funzione di insieme; ingenerale è preferibile
operare con numeri reali e funzioni definite suR. In molte situazioni applicati-
ve, inoltre, la terminologia propria della teoria degli insiemi non compare espli-
citamente, sebbene essa sia concettualmente sempre presente in forma implicita,
mentre sono coinvolte variabili reali e loro funzioni. Consideriamo, ad esempio, il
134 Capitolo 5. Variabili aleatorie
numero di particelle cosmiche che cadono in una determinataarea della superficie
terrestre in un intervallo temporale fissato, il numero di chiamate che pervengono
ad una centralina telefonica in un intervallo di tempo di durata fissata a priori, la
quotazione di un titolo azionario alla Borsa di Milano all’apertura del mercato, il
numero di nuovi casi di una malattia infettiva e così via. Nonostante la diversità
dei settori applicativi, questi esempi sono accomunati da una caratteristica fon-
damentale. In ciascun caso interviene una quantità, la variabile che esprime il
numero richiesto, che non assume un unico valore determinabile per via analitica
ma, per effetto di circostante casuali, una varietà di valori diversi. Non è possibile
stabilire a priori quale valore la quantità in studio assumerà, perché esso cambia
in maniera casuale da prova a prova. Si prefigura, in base alleprecedenti conside-
razioni, la necessità di passare dal modelloΩ,F ,P ad un nuovo modello in cui
siano coinvolte funzioni reali di variabili reali1.
Seguendo Feller [5] diamo una prima definizione di variabilealeatoria che sarà
ridefinita con maggior rigore nel paragrafo successivo.
Definizione 5.1.1.Una funzioneX definita su uno spazio campione è detta varia-
bile casuale.
Nel nuovo modello che stiamo cercando di costruire, ad ogni punto campione
ω ∈ Ω è associato un numero realeX(ω). Esaminiamo, in questo nuovo contesto,
il caso delle prove del Bernoulli, indicando conSn la variabile casuale che conta
il numero di successi osservati inn ripetizioni. Lo spazio campione è composto
da 2n punti2 ω, a ciascuno di essi corrisponde un numero realeSn(ω). Tipiche
variabili casuali sono il numero di assi in una mano di ramino, il numero di uscite
di testa inn lanci ripetuti di una moneta, il prezzo di un grammo di oro alla Borsa
1In altre parole nel nuovo modello la funzione di insiemeP(E) è sostituita da una funzione
puntuale che permette l’uso, tra altre, delle operazioni aritmetiche ed algebriche.2Le possibili successioni di simboliS eF di lunghezzan.
5.1 Il concetto di variabile casuale 135
di Londra etc.; appare evidente che il nuovo modello si presta meglio ad analizzare
situazioni nelle quali siano coinvolte quantità continue come energia, temperatura,
posizione di una particella elementare in un esperimento didiffusione, variazioni
di campo elettromagnetico etc..
Osservazione5.1.1. Nel seguito le variabili casuali saranno rappresentate da let-
tere latine o greche in maiuscolo3, in minuscolo il particolare valore assunto:
X ≡ X(·) X(ω1) = x1, Γ ≡ Γ(·) Γ(ω1) = γ1.
Inoltre il termine variabile casuale, e il suo sinonimo variabile aleatoria, saranno
abbreviati conv-c ev-a.
5.1.2 Definizione di variabile casuale
Prima di definire formalmente il concetto div-a, è utile richiamare il concetto di
misurabilità riferito ad un’applicazione.
Definizione 5.1.2.SiaH un insieme,H unaσ-algebra suH e g un’applicazione
di H in R. Si dice cheg è H misurabile se la controimmagine tramiteg di ogni
insieme di Borel diR è un elemento diH.
La definizione precedente afferma cheg èH misurabile se,∀B ∈ B, g−1(B) ∈ H.
Nel caso particolare in cuiH ≡ R e H ≡ B, la funzioneg è dettaBorel-
misurabile4.
Per non appesantire le successive formulazioni, nel seguito si farà sempre riferi-
mento ad uno spazio di probabilitàΩ,F ,P senza richiamarlo esplicitamente.
Definizione 5.1.3.Una funzioneX : Ω −→ R, F misurabile, è una variabile
casuale.3talvolta si usa una lettera greca minuscola ed in grassetto comeχ oκ
4B-misurabile
136 Capitolo 5. Variabili aleatorie
In virtù della 5.1.3 la controimmagine di un qualsiasi boreliano diR appartiene
allaσ-algebraF : è un evento.
Osservazione5.1.2. Si noti che nella definizione 5.1.3 non interviene in alcun
modo la misura di probabilitàP, è essenziale, invece, dichiarare esplicitamente la
σ-algebraF rispetto alla quale la funzioneX è misurabile.
Come sottolineato nel paragrafo 1.2.2, ricordiamo, innanzitutto, che tutti gli inter-
valli di R appartengono allaσ-algebraB. La controimmagine5 X−1(] − ∞, x]),
dell’intervallo (−∞, x], è l’eventoω ∈ Ω : X(ω) 6 x. Per indicare quest’ulti-
mo evento useremo la notazione6 X 6 x. Analogamente scriveremoX > xper rappresentare l’eventoω ∈ Ω : X(ω) > x ≡ X−1(]x,∞[). In generale,
∀B ∈ B, conX ∈ B si indicherà l’evento
ω ∈ Ω : X(ω) ∈ B ≡ X−1(B).
Inoltre, con la notazioneP(X ∈ B) si denota la probabilità del summenzionato
eventoX−1(B).
Teorema 5.1.1.SiaX una v-a. La posizione
PX(B) ≡ P(X ∈ B) ∀B ∈ B (5.1)
definisce una misura di probabilità suR,B.
Dimostrazione.Bisogna dimostrare chePX(B) verifica gli assiomi di Kolmogo-
rov.
1. Si ha,∀B ∈ B, PX(B) ≡ P(X ∈ B) > 0 .
5Per esigenze grafiche talvolta useremo il simbolo], invece di(, per indicare che l’intervallo è
aperto a sinistra, e[, invece di), per indicare che è aperto a destra. Tale simbologia, sebbene non
frequente, è di uso comune in matematica.6Richiamiamo l’attenzione del lettore su tale notazione chericorrerà continuamente nel testo.
5.1 Il concetto di variabile casuale 137
2. RisultaPX(R) ≡ P(X ∈ R) = P(Ω) = 1 .
3. SiaBnn∈N una successione di boreliani diR a due a due incompatibili. Si
ha
PX
(∞⊔
n=1
Bn
)
= P
(
X ∈∞⊔
n=1
Bn
)
= P
[∞⊔
n=1
(X ∈ Bn)
]
=∞∑
n=1
P (X ∈ Bn) =∞∑
n=1
PX (Bn) .
La misura di probabilitàPX è chiamata ladistribuzione (o legge) di probabilità
(ddp) della variabile aleatoriaX. La figura 5.1 illustra graficamente la relazione
che sussiste traP ePX nel caso in cui la variabile casualeX faccia corrispondere
all’eventoE un intervalloB ∈ B dell’asse reale.
Definizione 5.1.4.Due v-c X ed Y , definite sullo stesso spazio di probabilità
Ω,F ,P, sono
(a) indistinguibili, in tal caso scriveremoX = Y , quando
X(ω) = Y (ω) ∀ω ∈ Ω;
(b) uguali in probabilità quasi ovunque, in simboliXqo= Y , se
P(X 6= Y ) = P(ω ∈ Ω : X(ω) 6= Y (ω)) = 0 ;
(c) identicamente distribuite7 (id), in questo caso useremo la notazioneXd= Y ,
se le loroddpcoincidono:
PX(B) ≡ PY (B) ∀B ∈ B.7equidistribuite, somiglianti
138 Capitolo 5. Variabili aleatorie
ΩE = X
−1(B)
B
ω
Rx = X(ω)
PX(B) = P (E)
Figura 5.1: Misura di probabilità indotta suR dallav-aX.
Si vede facilmente che variabili aleatorie indistinguibili sono anche uguali in pro-
babilità quasi ovunque e chev-c, uguali in probabilità quasi ovunque, sono identi-
camente distribuite; in generale l’inverso non è vero.
Osservazione5.1.3. La misura di probabilitàP, definita sulΩ,F, induce, per
effetto della (5.1), una nuova misura di probabilitàPX . In questo modo si definisce
un nuovo spazio di probabilitàR,B,PX. Dalla legge di probabilità dellav-a
X, PX , si è grado di calcolare la probabilità degli eventi del tipoX ∈ B ≡ω ∈ Ω : X(ω) ∈ B, conB ∈ B. Ma questa procedura non è soddisfacente,
infatti potrebbe essere necessario applicare la (5.1) per un ampio insieme di eventi
X(ω) ∈ B. Come vedremo nel prossimo paragrafo,PX può essere determinata
in modo diverso e si passa da funzioni di insieme a funzioni divariabile reale.
5.2 La funzione di distribuzione 139
5.2 La funzione di distribuzione
Definizione 5.2.1.SiaX una variabile casuale. La funzioneFX : R −→ [0, 1],
definita ponendo
FX(x) = PX(]−∞, x]) ≡ P(X 6 x) ∀x ∈ R, (5.2)
prende il nome8 di funzione di distribuzione(fdd) dellav-cX.
L’importanza fondamentale della funzione di distribuzioneFX è che essa specifica
la ddpPX e, viceversa, quest’ultima determina univocamente laFX . Infatti, se è
nota laddp per tutti gli intervalli del tipo(−∞, x], la (5.2) determina laFX(x),
per ogni numero realex. Viceversa, supponiamo nota laFX(x). Per ogni coppia
di numeri realix1 ex2, tali chex1 < x2, si ha
P(ω ∈ Ω : X(ω) 6 x2)= P(ω ∈ Ω : X(ω) 6 x1) + P(ω ∈ Ω : x1 < X(ω) 6 x2). (5.3)
Infatti
ω ∈ Ω : X(ω) 6 x2) = ω ∈ Ω : X(ω) 6 x1) ⊔ ω ∈ Ω : x1 < X(ω) 6 x2
ed, inoltre, la misura di probabilitàP additiva suΩ,F. Dalla relazione (5.3)
segue che
P(ω ∈ Ω : X(ω) ∈ (x1, x2]) = P(X 6 x2)− P(X 6 x1)
e pertanto
PX(X ∈ (x1, x2]) = FX(x2)− FX(x1). (5.4)
8o funzione di ripartizione
140 Capitolo 5. Variabili aleatorie
Nel caso particolare in cuix2 = +∞, otteniamo, ponendox = x1,
PX(X ∈ (x,+∞[) ≡ PX(X > x) = 1− FX(x). (5.5)
Cosicché la descrizione di un modello probabilistico è da considerasi completa
una volta che sia stata specificata lafddFX(x).
Osservazione5.2.1. In virtù della definizione 5.1.4, se due variabili casualiX eY
sono equidistribuite si ha∀x ∈ R, FX(x) = FY (y).
Nel seguito, qualora non si determini confusione, per non appesantire le formule
si ometterà il suffissoX nell’indicare la funzione di distribuzione.
Teorema 5.2.1.SiaF (x) una funzione di distribuzione. Essa gode delle seguenti
proprietà
(i) 0 6 F (x) 6 1 ∀x ∈ R;
(ii) F è non decrescente inR;
(iii) F è continua a destra inR;
(iv) limx→+∞ F (x) = 1 e limx→−∞ F (x) = 0 .
Dimostrazione.La proprietà(i) deriva dalla definizione di funzione di distribuzio-
ne. L’asserto(ii) segue da carattere monotòno diP. Infatti, sex1 < x2, l’evento
X 6 x1 è contenuto nell’eventoX 6 x2, di conseguenza:
P (X 6 x1) 6 P (X 6 x2) ⇐⇒ F (x1) 6 F (x2).
Per dimostrare la(iii) si deve verificare la relazione
limε→0+
F (x+ ε) = F (x) ∀x ∈ R. (5.6)
5.2 La funzione di distribuzione 141
F è una funzione non decrescente e limitata, ciò garantisce l’esistenza del limite a
primo membro della (5.6). Si deve dimostrare che il valore ditale limite è quello
indicato a secondo membro della (5.6). Per tale scopo è sufficiente dimostrare che
limn→+∞
F
(
x+1
n
)
= F (x) ∀x ∈ R.
PoniamoAn =X ∈
(x, x+ 1
n
], oven è un generico intero; possiamo scrivere:
F
(
x+1
n
)
= P
(
X 6 x+1
n
)
= P(X 6 x) + P
(
x < X 6 x+1
n
)
= F (x) + P (An) .
Da quest’ultima relazione, passando al limite pern → ∞, tenendo conto che, al
crescere din, An tende all’evento impossibile e della continuità diP, si ottiene:
limn→+∞
F
(
x+1
n
)
= F (x) + limn→+∞
P(An) = F (x) + P(∅) = F (x)
ed anche la(iii) è stata dimostrata.
PoichéF (x) è una funzione monotòna, per dimostrare la(iv) è sufficiente dimo-
strare che
limn→+∞
F (n) = 1 e limn→+∞
F (−n) = 0 .
Poniamo,∀n ∈ N, A+n = X 6 n, la successioneA+
n è una successione
crescente all’evento certo; dalla continuità diP segue
limn→+∞
F (n) = limn→+∞
P(X 6 n) = limn→+∞
P(A+
n
)= 1 .
Analogamente, se poniamoA−n = X 6 −n, ∀n ∈ N, si ricava
limn→+∞
F (−n) = limn→+∞
P(X 6 −n) = limn→+∞
P(A−
n
)= 0
in quanto la successioneA−n è una successione decrescente all’evento impossi-
bile.
142 Capitolo 5. Variabili aleatorie
È possibile dimostrare il seguente teorema che evidenzia ilruolo caratterizzante
delle proprietà(i)-(iv)9.
Teorema 5.2.2.SiaF (x) una funzione, definita suR ed a valori in[0, 1], tale che
1. F (x) è non decrescente;
2. F (x) è continua a destra in ognix ∈ R;
3. limx→∞ F (x) = 1 e limx→−∞ F (x) = 0 .
Esistono, allora uno spazio di probabilitàΩ,F ,P e una variabile aleatoriaX
definita suΩ per i quali si ha:
FX(x) = F (x) ∀x ∈ R.
Esprimiamo ora, in termini di funzione di distribuzione, laprobabilità di alcu-
ni eventi, riprendendo la linea di ragionamento che ha portato alle formulazio-
ne della (5.4) e della (5.5). Useremo la notazioneF (x−) per rappresentare il
limε→0+ F (x− ε).
Proposizione 5.2.1.
P(X = x) = F (x)− F (x−). (5.7)
Per giustificare la (5.7) osserviamo che,∀n ∈ N,
X 6 x =
X 6 x− 1
n
⊔
x− 1
n< X 6 x
e, quindi,
F (x) = F
(
x− 1
n
)
+ P
(
x− 1
n< X 6 x
)
.
9Nella dimostrazione ricorre il concetto di misura di Lebesgue-Stieltjes; il lettore interessato
può far riferimento al testo [2].
5.2 La funzione di distribuzione 143
Dalla precedente relazione discende:
F (x) = limn→∞
F
(
x− 1
n
)
+ limn→∞
P
(
x− 1
n< X 6 x
)
.
La successione
x− 1
n< X 6 x
n∈N
decresce all’eventox, passando al li-
mite pern → ∞, sicché
F (x) = limn→∞
F
(
x− 1
n
)
+ P(X = x)
e
P(X = x) = F (x)− limn→∞
F
(
x− 1
n
)
.
EssendoP non decrescente, possiamo scrivere
F (x−) ≡ limε→0+
F (x− ε) = limn→∞
F
(
x− 1
n
)
e la proposizione è stata dimostrata.
Proposizione 5.2.2.
P(x1 6 X 6 x2) = F (x2)− F (x−1 ). (5.8)
La dimostrazione della (5.8) si basa sulla seguente decomposizione
x1 6 X 6 x2 = X = x1 ⊔ x1 < X 6 x2 .
Da essa si ricava
P (x1 6 X 6 x2) = P (X = x1) + F (x2)− F (x1)
= F (x1)− F (x−1 ) + F (x2)− F (x1) = F (x2)− F (x−
1 )
e la tesi della proposizione è stata dimostrata.
144 Capitolo 5. Variabili aleatorie
Proposizione 5.2.3.
P(x1 < X < x2) = F (x−2 )− F (x1). (5.9)
La dimostrazione della (5.9) ricalca quella della (5.8); infatti si ha
x1 < X 6 x2 = x1 < X < x2 ⊔ X = x2
e, passando alle probabilità,
P (x1 < X < x2) = P (x1 < X 6 x2)−P (x2) = F (x2)−F (x1)−F (x2)+F (x−2 ).
Proposizione 5.2.4.
P(x1 6 X < x2) = F (x−2 )− F (x−
1 ). (5.10)
Si ha
x1 6 X < x2 = X = x1 ⊔ x1 < X < x2da cui
P (x1 6 X < x2) = P (x1) + P (x1 < X < x2)
= F (x1)− F (x−1 ) + F (x−
2 )− F (x1) = F (x−2 )− F (x−
1 ).
Proposizione 5.2.5.
P(X < x) = F (x−). (5.11)
Osserviamo che
X 6 x = X < x ⊔ X = xe
P(X < x) = F (x)− P(X = x) = F (x)− F (x) + F (x−) = F (x−).
Proposizione 5.2.6.
P(X > x) = 1− F (x−). (5.12)
La (5.12) si dimostra considerando la relazioneX > x = X < x e la (5.11).
5.3 Variabili aleatorie discrete 145
5.3 Variabili aleatorie discrete
I concetti e le formule del precedente paragrafo hanno validità generale; trattere-
mo ora il caso particolare delle cosiddette variabili casuali discrete. A tale scopo
rammentiamo che un sottoinsieme diR, finito o al più numerabile, appartiene aB.
Definizione 5.3.1.Una variabile casualeX si dice discreta se esiste un sottoinsie-
meSX di R, finito o al più numerabile, che soddisfa le condizioni:
(i) l’eventoX ∈ SX è quasi certo;
(ii) ∀x ∈ SX , PX(x) ≡ P(X = x) > 0 .
L’insiemeSX è chiamatospettrodella variabile aleatoriaX.
In questo contesto si considera la restrizione,pX : R −→ [0, 1], della legge di
probabilitàPX ai singolettix ∈ R:
pX(x) ≡ PX(x) ≡ P(X = x) ∀x ∈ R. (5.13)
La funzionepX assume un valore positivo esclusivamente sex ∈ SX ed è nulla
per tutti gli altrix ∈ R; essa prende il nome10 di funzione di probabilitào distri-
buzione di probabilitào funzione massadellav-a. La funzione massa soddisfa la
relazione11:∞∑
i=1
pX(xi) = PX(SX) = 1 (5.14)
10Alcuni autori usano anche il terminedensità discreta(vedi [1]); la giustificazione di tale
terminologia sarà chiara dopo aver introdotto le variabilicasuali assolutamente continue.11Per giustificare i terminifunzione massae densità discreta, immaginiamo di avere a disposi-
zione una massa unitaria di una generica sostanza e di distribuirla sull’asse reale in modo tale che
essa sia concentrata solamente nei puntixj ∈ SX per una quantità pari apX(xj).
146 Capitolo 5. Variabili aleatorie
Teorema 5.3.1.Sia X unav-c discreta con spettroSX rappresentato da una suc-
cessione crescentexnn∈N. La legge di probabilitàPX è univocamente determi-
nata daSX ≡ xnn∈N e dalla successione di numeri realipX(xn).
Dimostrazione.Per dimostrare la tesi si osservi, innanzitutto, che,∀B ∈ B, è
possibile decomporre l’eventoX ∈ B come l’unione di eventi disgiunti
X ∈ B = X ∈ (B ∩ SX) ⊔X ∈
(B ∩ SX
).
ed allora possiamo scrivere
PX(B) ≡ P(X ∈ B) = PX (X ∈ (B ∩ SX)) + PX
(X ∈
(B ∩ SX
)).
L’eventoX ∈
(B ∩ SX
)è contenuto nell’evento quasi impossibile
(B ∩ SX
)
ed ha probabilità nulla. Dalle precedenti considerazioni si evince che,∀B ∈ B,
PX(B) ≡ P(X ∈ B) = PX (X ∈ (B ∩ SX)) =∑
n:xn∈B
pX(xn). (5.15)
Il teorema 5.3.1 vale in generale qualunque sia lav-adiscreta. Nel caso di spettri a
cardinalità finitam, PX è individuata, in maniera univoca dalla successione ordi-
nata(x1, x2, . . . , xm) e dallam-uplapX(x1), pX(x2), . . . , pX(xm) delle rispettive
probabilità. Nel seguito, se non espressamente indicato, si farà riferimento a va-
riabili casuali discrete con spettro a cardinalità numerabile ed i risultati ottenuti
avranno validità anche nel caso di uno spettro finito12. Per non appesantire le for-
mule, al solito e se possibile, si ometterà di indicare il suffissoX.
12In questo case alla serie con un numero infinito di termini deve essere sostituita una somma
finita.
5.3 Variabili aleatorie discrete 147
Se il borelianoB coincide con l’intervallo(−∞, x], dalla (5.15) si ricava la fun-
zione di distribuzioneF :
F (x) = P(X 6 x) =∑
n:xn6x
p(xn) ∀x ∈ R. (5.16)
Riprendiamo la (5.7); si ha∆F (x) = F (x) − F (x−) = P(X = x). Sex /∈ SX ,
∆F (x) = 0 ed F è continua inx. Se, invece, esiste un interok per il quale
x = xk ∈ SX allora
∆F (x) = p(xk)
e laF (x) ha una dicontinuità inxk, il salto coincide con la probabilità che lav-a
X assuma il valorexk.
Osservazione5.3.1. La funzionea gradino di Heaviside, o funzione gradino uni-
tario, è definita dalla relazione
H(x) =
0 sex < 0
1 sex > 0
per cuiH(x) assume il valore 1 quando il suo argomento è non negativo. Grazie
alla funzione di Heaviside, possiamo riscrivere la (5.16) come:
F (x) =∞∑
n=1
p(xn)H(x− xn). (5.17)
Infatti, per la (5.16), contribuiscono a determinare il valore diF (x) solamente i
terminip(xn) che verificano la condizionexn 6 x.
Teorema 5.3.2.Siaxnn∈N una successione crescente di numeri reali, sia, inol-
tre pnn∈N una successione di numeri reali che verifica le condizioni
1. pn > 0 ∀n ∈ N;
2.∑
n pn = 1 (condizione di normalizzazione).
148 Capitolo 5. Variabili aleatorie
Esistono allora una spazio di probabilitàΩ,F ,P ed una variabile casualeX
discreta, definita suΩ e con spettroSX che coincide con la successionexnn∈N,
tali che,∀n ∈ N, pX(xn) = pn.
Dimostrazione.Definiamo la funzioneF : R −→ [0, 1] ponendo:
F (x) =∑
n:xn6x
pn ∀x ∈ R (5.18)
e dimostriamo che essa gode delle proprietà che caratterizzano una funzione di
distribuzione (vedi teoremi 5.2.1 e 5.2.2).
Sianox ey due numeri reali tali chex < y; risulta
F (y)− F (x) =∑
n:xn6y
pn −∑
n:xn6y
pn =∑
n:x<xn6y
pn > 0 .
La precedente relazione dimostra che laF (x), definita dalla posizione (5.18), è
non decrescente. Dimostriamo ora che essa è anche continua adestra.
Fissato un generico numero realex, indichiamo conk l’intero per il quale siano
verificate le condizionixk 6 x exk+1 > x; poniamo, inoltre,δ = xk+1 − xk. Cal-
coliamo il valore della funzione di distribuzione nel puntox+ε, per un qualunque
valore diε < δ; si ha
F (x+ ε) =∑
n:xn6x+ε
pn =k∑
n=1
pn ≡∑
n:xn6x
pn = F (x)
e da quest’ultima relazione si deduce chelimε→0+ F (x+ ε) = F (x).
Poiché per definizioneF (x) = 0 se∀x < x1, si halimx→−∞ F (x) = 0; inoltre
limx→+∞
F (x) =∑
n:xn<+∞
pn =∞∑
n=1
pn = 1
e la dimostrazione della tesi è stata completata13.
13Dire chex < x1 equivale a dire chex /∈ SX .
5.3 Variabili aleatorie discrete 149
5.3.1 Alcune variabili casuali discrete
Nel dare qualche esempio div-a discrete si evidenzierà come l’introduzione del
concetto di variabile casuale permette di trattare tramitefunzioni a variabile reale
anche fenomeni di tipo qualitativo.
Consideriamo l’esperimento casuale che consiste nel lancio di una moneta. Lo
spazio di probablità associato all’esperimento èΩ,F ,P con14
1. Ω = T, C;
2. F = ∅, T, C,Ω;
3. P(∅) = 0 P(T) = p P(C) = q ≡ 1− p P(Ω) = 1 .
Introduciamo la funzioneX : Ω −→ R, ponendoX(T ) = 1 e X(C) = 0, e
verifichiamo che essa è una variabile casuale. Per tale scopooccorre dimostrare la
F misurabilità diX. Ciò segue immediatamente dalle relazioni:
ω ∈ Ω : X(ω) 6 x =
∅ ∈ F sex < 0 ,
C ∈ F se0 6 x < 1 ,
Ω ∈ F sex > 1 .
La fddF (x), per la (5.2), è data da:
F (x) ≡ P(X 6 x) =
P∅ = 0 sex < 0 ,
P(C) = q se0 6 x < 1 ,
P(Ω) = 1 sex > 1 .
Grazie alla funzione a gradino unitario laF assume la forma più compatta:
F (x) = qH(x) + pH(x− 1).
14Ricordiamo che nel caso di una moneta equap = q = 1/2.
150 Capitolo 5. Variabili aleatorie
La funzione probabilitàp(x) assume i valorip(0) = q ep(1) = p: la massa unita-
ria è concentrata nei due soli puti0 e1 .
Nel capitoli precedenti, nel trattare gli spazi campione discreti, abbiamo introdotto
alcune importanti distribuzioni di probabilità, esse sonovalide anche utilizzando
il formalismo connesso al concetto di variabile casuale15. Esaminiamo, ad esem-
pio, il caso della distribuzione binomialeb(k;n, p); fissaton ∈ N, la successione
b(k;n, p) verifica i vincoli richiesti dalla definizione di funzione massa fissati
nel paragrofo 5.3 ed inoltre la successione di interik ≡ k : 0 6 k 6 n è
finita e crescente. Il teorema 5.3.2 assicura che esiste una variabile casuale il cui
spettro coincide con la successione degli interi positivi compresi tra1 edn e che
ha come legge di probabilità la distribuzione di probabilità binomiale (4.1). Ta-
le variabile casuale è generalmente denotata conSn: in numero di successi inn
prove del Bernoulli16. La (4.5) consente il calcolo della funzione di distribuzione
FSn.
Un discorso analogo può essere proposto per definire la variabile casuale di Pois-
son. Una variabile casualeX è detta di Poisson con parametroλ se ammette come
spettro l’insiemeN0, dei numeri interi positivi, zero incluso, e come funzione
massa la successione di termine generale dato dalla (4.10):
p(k, λ) =λk
k!· e−λ k ∈ N0.
L’esistenza dellav-c di Poisson è assicurata dal teorema 5.3.2 e dalle proprietà
della leggep(k, λ) richiamate nel paragrafo 4.3:
p(k, λ) > 0 ∀k ∈ N0 e∑
k∈N0
p(k, λ) = 1 .
15Alcuni autori, citati in bibliografia, introducono tali leggi partendo direttamente dal concetto
di v-a.16Il lettore interessato consulti [1] e [4] per le definizioni delle leggi di probabilità binomiale, di
Poisson etc. partendo direttamente dal formalismo delle variabili casuali.
5.4 Variabili aleatorie assolutamente continue 151
La funzione di distribuzione, indicando con[x] il massimo intero non maggiore di
x, è data da:
F (x) =∑
k∈N0:k6x
p(k, λ) = e−λ
[x]∑
k=0
λk
k!. (5.19)
Le considerazioni precedenti si applicano anche alle altreleggi di probabilità e, di
conseguenza, si definiscono le variabili casuali geometrica, ipergeometrica e così
via.
Osservazione5.3.2. La distribuzione geometrica gode dellaproprietà di man-
canza di memoria. Sia X una variabile casuale geometrica, vale la seguente
relazione:
P(X > k) =
∞∑
i=k
f(i; 1, p) =
∞∑
i=k
p(1− p)i
ponendoj = i− k
=
∞∑
j=0
p(1− p)j+k = (1− p)k
1︷ ︸︸ ︷∞∑
j=0
p(1− p)j = (1− p)k. (5.20)
Si ha:
P(X = k +m|X > k) =P(X = k +m,X > k)
P(X > k)=
P(X = k +m)
P(X > k)
=p(1− p)k+m
(1− p)k= p(1− p)m = f(m; 1, p) ≡ P(X = m).
5.4 Variabili aleatorie assolutamente continue
Come abbiamo dimostrato la relazione (5.7),P(X = x) = F (x) − F (x−), con-
sente il calcolo della probabilità di singoli valori della variabile casualeX. Nel
152 Capitolo 5. Variabili aleatorie
caso di variabili casuali discrete essa è diversa da zero e coincide con il valore che
la funzione massa assume nel puntox. Nel caso di variabili casuali confdpconti-
nua la probabilità cheX assuma un fissato valorex, essendoF (x) = F (x−), sarà
sempre nulla; ha senso, invece, la determinazione della probabilità che una va-
riabile casuale, caratterizzata da unF (x) continua, assuma valori in un prefissato
intervallo dell’asse reale. Per tale scopo si introduce unanuova funzione.
Definizione 5.4.1.Sia X una variabile casuale ed indichiamo conF (x) la sua
funzione di distribuzione. Si dice cheX è una variabile aleatoria assolutamente
continua se esiste una funzionef(x) non negativa tale che,∀x ∈ R, consenta di
esprimere la funzione di distribuzione nella forma
F (x) =
∫ x
−∞
f(ξ)dξ. (5.21)
La funzionef(x) prende il nome didensità di probabilitàdellav-cX e laF (x) è
detta assolutamente continua.
Dalla proprietà(iv) del teorema 5.2.1,limx→+∞ F (x) = 1, deriva la condizione di
normalizzazione ∫ +∞
−∞
f(x)dx = 1 . (5.22)
In ogni puntox in cui f(x) è continua, come conseguenza del teorema fondamen-
tale del calcolo integrale17, si ha:
f(x) =d
dxF (x) =
d
dx
∫ x
−∞
f(ξ)dξ. (5.23)
Teorema 5.4.1.Data una funzionef(x) a valori reali non negativi che sia inte-
grabile inR e tale che∫ +∞
−∞
f(x)dx = 1, esiste allora una variabile casualeX
che ammettef(x) come funzione densità di probabilità.
17Il lettore interessato può approfondire lo studio riferendosi ai corsi di analisi matematica che
trattano l’integrazione di Lebesgue.
5.4 Variabili aleatorie assolutamente continue 153
Dimostrazione.Per dimostrare la tesi occorre costruire, dataf(x), una funzio-
ne di distribuzioneF (X) in modo tale che si possa, poi, richiamare il teorema
5.2.2. PonendoF (x) =
∫ x
−∞
f(ξ)dξ, si ottiene una funzioneF (x) che verifica le
proprietà(i)-(iv) dell’enunciato del teorema 5.2.1.
Osservazione5.4.1. Per una variabile casuale assolutamente continua la cono-
scenza della funzione di distribuzione è equivalente alla conoscenza della densità
di probabilità, infatti da entrambe si può calcolare la probabilità che la variabile
casuale assuma valori in un prefissato intervallo dell’assereale. Si ha:
∫ b
a
f(x)dx =
∫ b
−∞
f(x)dx−∫ a
−∞
f(x)dx = F (b)− F (a)
= P(X 6 b)− P(X 6 a) = P(a < X 6 b). (5.24)
PoichéP (X = x) = 0, qualunque sia il numero realex, valgono le relazioni
P(a < X < b) = P(a 6 X < b) = P(a < X 6 b) = P(a 6 X 6 b). (5.25)
La figura 5.2 è l’interpretazione grafica della (5.24).
Diversamente dalla funzione massa, la funzione densità di probabilità non rappre-
senta un valore di probabilità, è invece una probabilità l’integrale dif(x) calcolato
tra due limiti di integrazionea < b, comunque fissati. Per rendere ancora più im-
mediato il concetto, si consideri un piccolo intervallo∆x dell’asse reale. Come
risulta evidente dalla figura 5.3, in virtù della (5.24) è il prodottof(x)∆x che ap-
prossima la probabiltàP(X ∈ [x, x+∆x]) ≡ P(x 6 X 6 x+∆x). La notazione
f(x)dx ≈ P(x 6 X 6 x+ dx), esprime lo stesso concetto.
Osservazione5.4.2. In molte circostanze la funzione di distribuzioneFX(x), per
x ∈ R, si decompone nella somma di due termini,FX(x) = α1F1(x) + α2F2(x),
oveα1 eα2 sono costanti tali cheα1+α2 = 1,F1(x) è una funzione di distribuzio-
ne assolutamente continua edF2(x) è la funzione di distribuzione di una variabile
154 Capitolo 5. Variabili aleatorie
a bx
f(x)
Figura 5.2:P(a 6 X 6 b) ≡∫ b
af(x)dx ≡ area sottesa daf(x) traa e b.
casuale discreta. In questo caso la variabile casualeX può considerarsi composta
dalla somma di due parti una assolutamente continua e l’altra discreta18.
Rimandiamo ai capitoli successivi l’introduzione di specifiche variabili casuali
assolutamente continue di uso più comune nel calcolo delle probabilità; in questo
paragrafo introduciamo, come esempio, lalegge esponenzialee lalegge uniforme.
Esempio 5.4.1. Legge esponenziale
Nel paragrafo 1.3.1 abbiamo sottolineato come evidenze sperimentali suggerisca-
no che la probabilità che un atomo di radio decada spontaneamente in un numero
18Seα1 = 0 e α2 = 1, la v-c X è discreta; seα1 = 1 e α2 = 0, la v-c X è assolutamente
continua.
5.4 Variabili aleatorie assolutamente continue 155
x
f(x)
∆x
f(x)∆x
Figura 5.3:f(x)∆x ≈ P(x 6 X 6 x+∆x).
td di anni è1− exp(−γtd), oveγ è una costante positiva. Se conT indichiamo la
variabile casualetempo di attesaper il decadimento, possiamo scrivere
P(T 6 t) ≡ FT (t) = 1− e−γt (5.26)
cont ∈ [0,+∞); naturalmente la possibilità chet sia uguale a zero è considerata
solo per ragioni di natura matematica. Dalla (5.26) si ricava:
fT (t) =d
dtFT (t) = γe−γt. (5.27)
In generate con la variabile casualeT si può rappresentare iltempo di attesadi
eventi di una qualunque natura: il tempo di buon funzionamento, o di rottura, di
156 Capitolo 5. Variabili aleatorie
un’apparecchiatura, l’intervallo di tempo che intercorretra due successive emis-
sioni di particelle elementari o tra due incidenti, e così via. In molte situazioni
pratiche il modello espresso dalla (5.26), o in modo equivalente dalla (5.27), è
realistico. La (5.27) rappresenta la cosiddetta densità diprobabilità olegge espo-
nenzialea parametroγ > 0, la (5.26) è denominatadistribuzione esponenziale19.
Consideriamo un tempot0 > 0, si ha
P(T > t0) = 1− FT (t0) = e−γt0 . (5.28)
Calcoliamo, ora,P(t0 6 T 6 t0 + τ), conτ > 0; vale la relazione
P(t0 6 T 6 t0 + τ) = FT (t0 + τ)− FT (t0) = 1− e−γ(t0+τ) − 1 + e−γt0
= e−γt0(1− e−γτ
). (5.29)
Inoltre si ha
P(T > t0 + τ |T > t0) =P(T > t0 + τ)
P(T > t0)=
e−γ(t0+τ)
e−γt0= e−γτ . (5.30)
SeT rappresenta il tempo di attesa di un generico evento per il quale è valido il
modello probabilistico di tipo esponenziale, la precedente relazione afferma che se
esso non si è verificato nel tempot0, la probabilità che non occorra in un intervallo
successivo di tempo di durataτ dipende solamente dal valore diτ . Analogamente,
con una interpretazione simile alla precedente, possiamo scrivere
P(T 6 t0+τ |T > t0) =P(T 6 t0 + τ)
P(T > t0)=
e−γt0 (1− e−γτ )
e−γt0= 1−e−γτ . (5.31)
Le figure 5.4 e 5.5 mostrano, rispettivamente, laddpe lafdd esponenziale per due
differenti valori del parametroγ.
19Sex < 0 si ponef(x) = 0 eF (x) = 0 .
5.4 Variabili aleatorie assolutamente continue 157
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 20
0.5
1
1.5
2
2.5
3
3.5
4
x
f(x)
γ=2
γ=4
Figura 5.4: Densità di probabilità esponenziale.
Esempio 5.4.2. Distribuzione uniforme
Una variabile casualeX ha una densità di probabilità uniforme nell’intervallo
dell’asse reale(0, a) sef(x) assume un valore costante nell’intervallo ed è nulla
al di fuori di esso. Indicando conk il valore della costante, per la condizione di
normalizzazione si ha
1 =
∫ +∞
−∞
f(x)dx =
∫ a
0
kdx = ak
e quindi, deve esserek =1
a. In conclusione, perx ∈ (0, a), f(x) =
1
aef(x) = 0
sex /∈ (0, a). La funzione di distribuzione uniforme si ricava integrando laf(x):
F (x) =
∫ x
−∞
f(x)dx.
Dall’andamento analitico dif(x) si ricava che la funzione di distribuzione unifor-
me è nulla per ogni realex < a, inoltre, se0 < x 6 a,
F (x) =1
a
∫ x
−∞
dξ =1
a· x
158 Capitolo 5. Variabili aleatorie
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 20
0.5
1
x
F(x)
γ=2
γ=4
Figura 5.5: Funzione di distribuzione esponenziale.
e, sex > a,
F (x) =
∫ a
−∞
f(x)dx+
∫ x
a
f(x)dx = F (a) ≡ 1
in quanto laf(x) è nulla perx > a.
Esempio 5.4.3.Consideriamo la funzione
f(x) =
2x−3 sex > 1
0 altrove
e verifichiamo che essa è una funzione densità di probabilità. La f(x), affinché
sia una densità di probabilità, deve soddisfare le condizioni f(x) > 0, ∀x ∈ R e∫ +∞
−∞f(x)dx = 1; la prima condizione è chiaramente soddisfatta, inoltre siha:
∫ +∞
−∞
f(x)dx = 2
∫ +∞
−∞
x−3dx = −2× 1
2×[x−2]+∞
1= −[0− 1] = +1 .
5.4 Variabili aleatorie assolutamente continue 159
Esempio 5.4.4.Data la funzionef(x) = α exp(−x) determiniamo il valore della
costanteα affinché essa rappresenti una densità di probabilità, nell’ipotesi che
x ∈ [0, 1].
La costanteα deve essere tale chef(x) > 0 e∫ 1
0f(x)dx = 1. Si ha
∫ 1
0
e−xdx = − 1
ex
∣∣∣∣
1
0
= −(1
e− 1
)
=e− 1
e
e quindiα deve verificare la condizione
α · e− 1
e= 1
dalla quale segueα ≈ 1.6. Per il valore calcolato diα si ha anchef(x) > 0 se
x ∈ [0, 1].
Fissato il valore diα, la funzione di distribuzioneF (x) è data da
F (x) = α
∫ x
0
e−ξdξ = −α(e−x − 1
)= α
(1− e−x
)sex ∈ [0, 1].
F (x) è nulla sex < 0 eF (x) = 1 sex > 1.
Esempio 5.4.5.Data la funzione
f(x) =
1
2exp(x) sex ∈ [0, β] eβ ∈ R
+
0 altrove
determiniamoβ affinché essa rappresenti una densità di probabilità.
Deve valere la condizione di normalizzazione, pertanto
1 =1
2
∫ β
0
exdx =1
2
(eβ − 1
)
da cui segueexp(β) = 3 ed infine otteniamoβ = ln 3. La funzione di distribuzio-
neF (x) è nulla sex < 0 ed assume il valore 1 sex > ln 3; nell’intervallo [0, ln 3]
si ha
F (x) =1
2
∫ x
0
eξdξ =1
2(ex − 1) .
160 Capitolo 5. Variabili aleatorie
Esempio 5.4.6.La funzione
f(x) =
a cosx se−π
2< x < +
π
20 altrove
è non negativa in(
−π
2,+
π
2
)
, determiniamoa in modo talef(x) possa essere
considerata una funzione densità di probabilità. Si ha
1 =
∫ +∞
−∞
f(x)dx = a
∫ +π2
−π2
cosxdx
= a · sin x|+π/2−π/2 = a
[
sin(
+π
2
)
− sin(
−π
2
)]
= 2a
e quindi, pera = 1/2, la f(x) è una funzione densità di probabilità.
Calcoliamo la probabilità cheX assuma un valore nell’intervallo(
0,π
4
)
:
P
(
0 < X <π
4
)
=1
2
∫ +π4
0
cosxdx
=1
2· sin x|π/40 =
1
2
[
sin(π
4
)
− sin(0)]
=1
4
√2 ≈ 0.354 .
Esempio 5.4.7.Data la funzione densità di probabilità
f(x) =
2
a
(
1− x
a
)
se0 < x < a
0 altrove
determiniamo la funzione di distribuzioneF (x). Per tale scopo si deve calcola-
re F (x) =
∫ x
−∞
f(ξ)dξ. Tenuto conto dell’andamento analitico dif(x), risulta
F (x) = 0, ∀x 6 0. Sex ∈ (0, a), si ha
F (x) =2
a
∫ x
0
(
1− ξ
a
)
dξ =2
a
∫ x
0
dξ − 2
a2
∫ x
0
ξdξ
=2
a· x− 2
a2· x
2
2=
x
a
[
2− x
a
]
.
5.5 Variabili casualin-dimensionali 161
Perx > a possiamo scrivere
F (x) =
∫ x
−∞
f(ξ)dξ =
∫ a
0
f(ξ)dξ +
∫ x
a
f(ξ)dξ = F (a) +
∫ x
a
f(ξ)dξ.
Poiché perx > a la funzione densità di probabilità si annulla, si ha
F (x) = F (a) =a
a
[
2− a
a
]
= 1 sex > a.
Esempio 5.4.8.Determiniamo il valore della costantec per cui la funzionef(x) =
2cx + 3c2x2 possa rappresentare la funzione densità di probabilità di unav-c as-
solutamente continua. Si assumac > 0 ex ∈ [0, 1].
La costantec deve verificare la condizione∫ 1
0
(2cx+ 3c2x2
)dx = 1. Si ha
∫ 1
0
(2cx+ 3c2x2
)dx =
(cx2 + c2x3
)∣∣1
0.
Pertantoc è soluzione dell’equazionec2 + c− 1 = 0 da cui si ricava
c =−1±
√5
2
e, per il vincolo posto suc, abbiamoc =(√
5− 1)/2 ≈ 0.62.
5.5 Variabili casuali n-dimensionali
SianoX1, X2, . . . , Xn, n variabili casuali definite in uno stesso spazio di proba-
bilità Ω,F ,P; denominiamo variabile casualen-dimensionaleo vettore casuale
X la n-pla
X ≡ (X1, X2, . . . , Xn) .
DeterminiamoFX. Fissata una generican-pla di realix = (x1, . . . , xn), si consi-
deri l’insiemeω ∈ Ω : X1 6 x1, . . . , Xn 6 xn ≡ X1 6 x1, . . . , Xn 6 xn, si
162 Capitolo 5. Variabili aleatorie
ha:
X1 6 x1, . . . , Xn 6 xn = X1 6 x1 ∩ · · · ∩ Xn 6 xn . (5.32)
Essendo intersezione di elementi diF , ancheX1 6 x1, . . . , Xn 6 xn ∈ F ,
ossia è un evento.
Definizione 5.5.1.Si definisce funzione di distribuzione della vettore casualeX, o
funzione di distribuzionecongiuntadella variabili casualiX1, . . . , Xn, la funzione
FX(x) ≡ FX1...Xn(x1, . . . , xn) : R
n −→ [0, 1]
data dalla relazione
FX(x) = P (X1 6 x1, . . . , Xn 6 xn) . (5.33)
Per introdurre le proprietà della funzione di distribuzione congiunta limitiamoci,
per semplicità, ad esaminare in dettaglio il caso din = 2, sottolineando che esse
sono valide per un genericon > 1. PoniamoX1 = X eX2 = Y ed indichiamo la
FXY (x, y) conF (x, y). La (5.33) diventa:
F (x, y) = P (X 6 x, Y 6 y) . (5.34)
Introduciamo la seguente notazione (vedi [9])
limx→−∞
F (x, y) = F (−∞, y), limx→+∞
F (x, y) = F (∞, y),
limy→−∞
F (x, y) = F (x,−∞), limy→+∞
F (x, y) = F (x,∞),
limx→+∞
limy→+∞
F (x, y) = F (∞,∞).
Proposizione 5.5.1.La funzione di distribuzione F(x,y) è tale che
F (−∞, y) = 0 , (5.35a)
F (x,−∞) = 0 , (5.35b)
F (∞,∞) = 1 . (5.35c)
5.5 Variabili casualin-dimensionali 163
Osserviamo che risultaX = −∞, Y 6 y ⊂ X = −∞ ed, analogamente,
X 6 x, Y = −∞ ⊂ Y = −∞. PoichéP(X = −∞) = P(Y = −∞) = 0,
si ricavano20 la (5.35a) e la (5.35b). La (5.35c) è una conseguenza delle relazioni
X 6 ∞, Y 6 ∞ ≡ Ω eP(Ω) = 1.
Seguendo la stessa linea di ragionamento utilizzata nel caso unidimensionale, si
dimostrano le proprietà enunciate nella seguente proposizione.
Proposizione 5.5.2.Sia F(x,y) la funzione di distribuzione congiunta della varia-
bile casuale bidimensionale (X,Y). Allora
1. per ogni coppia di reali(x, y) vale la disuguaglianza0 6 F (x, y) 6 1,
2. F (x, y) è non decrescente in ciascuno degli argomenti,
3. F (x, y) è continua a destra in ciascuno degli argomenti.
Rispetto al caso unidimensionale, per le funzioni di distribuzione dei vettori ca-
suali sussiste una ulteriore proprietà.
Proposizione 5.5.3.Sia F(x,y) la funzione di distribuzione congiunta della varia-
bile casuale bidimensionale(X, Y ). Allora, per ognix1 < x2 e y1 < y2, vale la
disuguaglianza
F (x2, y2)− F (x2, y1) + F (x1, y1)− F (x1, y2) > 0 . (5.36)
20Una dimostrazione alternativa è basata sulla relazione (5.32) che, pern = 2, si esprime come:
X 6 x, Y 6 y = X 6 x ∩ Y 6 y. Sex → −∞, X 6 x → ∅ di conseguenza
ancheX 6 x, Y 6 y → ∅ e la (5.35a) risulta verificata. Analoghe considerazioni giustificano
la (5.35b).
164 Capitolo 5. Variabili aleatorie
x
y
x1
x2
y1
y2
Figura 5.6:(x1 < X 6 x2, y1 < Y 6 y2) ≡ (X, Y ) ∈ (x1, x2]× (y1, y2].
Il primo membro della (5.36) altro non è che la probabilità che il vettore casuale
cada nel rettangolo della figura 5.6; infatti:
F (x2, y2)− F (x2, y1) + F (x1, y1)− F (x1, y2)
= P (X 6 x2, Y 6 y2)− P (X 6 x2, Y 6 y1)
+ P (X 6 x1, Y 6 y1)− P (X 6 x1, Y 6 y2)
= P (X 6 x2, y1 < Y 6 y2)− P (X 6 x1, y1 < Y 6 y2)
= P (x1 < X 6 x2, y1 < Y 6 y2)
≡ P((X, Y ) ∈ (x1, x2]× (y1, y2]) > 0
come asserito.
Osservazione5.5.1. Le condizioni indicate nelle proposizioni 5.5.1, 5.5.2, 5.5.3
sono sufficienti affinché una funzioneF (x, y) sia una funzione di distribuzio-
ne congiunta. Sussistono esempi di funzioni di due variabili reali che soddisfa-
no le proprietà elencate nelle prime due proposizioni ma nonverificano le disu-
5.5 Variabili casualin-dimensionali 165
guaglianza (5.36); esse non possono essere considerate funzioni di distribuzioni
congiunte.
Come nel caso unidimensionale, anche per i vettori casuali si definisce la funzione
densità di probabilità.
Definizione 5.5.2.Una variabile aleatorian-dimensionaleX, avente funzione di
distribuzioneFX, è assolutamente continua se esiste una funzione non negativa
fX : Rn −→ R
tale che per ognin-pla di reali(x1, . . . , xn) risulti
FX(x1, . . . , xn) =
∫ x1
−∞
dξ1 · · ·∫ xn
−∞
fX(ξ1, . . . , ξn)dξn. (5.37)
La funzionefX(x1, . . . , xn) è denominata funzione densità di probabilità congiun-
ta della variabile casualen-dimensionale(X1, . . . , Xn).
Per la definizione data, in ognin-pla di valori (x1, . . . , xn) in cui la funzione di
distribuzione congiunta ammette derivate di ordinen continue si ha:
fX(x1, . . . , xn) =∂n
∂x1 · · ·∂xnFX(x1, . . . , xn). (5.38)
Definizione 5.5.3.Una variabile aleatorian-dimensionaleX, con funzione di
distribuzioneFX, è discreta se esistonon successioni di reali
x(k)i
i∈N, ove
k = 1, 2, . . . , n, e una funzione non negativa
pX : Rn −→ [0, 1]
tali che si abbia
FX(x1, . . . , xn) =∑
j1:x(1)j1
6x1
· · ·∑
jn:x(n)jn
6xn
pX
(
x(1)j1, . . . , x
(n)jn
)
. (5.39)
166 Capitolo 5. Variabili aleatorie
La funzione
pX (x1, . . . , xn) ≡ P (X1 = x1, . . . , Xn = xn)
rappresenta la cosiddetta distribuzione di probabilità congiunta.
Nel caso bidimensionale, per effetto della (5.37), lav-c è assolutamente continua
se esiste una funzionefXY (x, y) tale che
FXY (x, y) =
∫ x
−∞
du
∫ y
−∞
fXY (x, y)dv ∀(x, y) ∈ R2. (5.40)
Se la funzione di distribuzione congiunta ammette derivateseconde continue vale
la relazione
fXY (x, y) =∂2
∂x∂yFXY (x, y). (5.41)
Nel caso di variabili casuali discrete congiuntamente distribuite si ha
FXY (x, y) =∑
u6x
∑
v6y
pXY (u, v) (5.42)
ovepXY (u, v) ≡ P(X = u, Y = v).
I teoremi 5.2.2, 5.3.1, 5.3.2 e 5.4.1 sono validi anche nel caso multidimensionale.
In paricolare, pern = 2, ogni funzionef(x, y) > 0, che verifichi la condizione di
normalizzazione∫ +∞
−∞
dx
∫ +∞
−∞
f(x, y)dy = 1 è la funzione di densità di proba-
bilità di una particolare variabile casuale(X, Y ). Analogamente nel caso discreto,
data una funzione non negativap(x, y), tale che∑
x
∑
y p(x, y) = 1 esiste, allora,
unav-c (X, Y ) che hap(x, Y ) come distribuzione di probabilità congiunta.
5.5 Variabili casualin-dimensionali 167
5.5.1 Distribuzioni marginali
SiaX ≡ (X1, . . . , Xn) un vettore casuale ed indichiamo conk un intero compreso
tra 1 en; vale la relazione
P (X1 6 x1, . . . , Xk−1 6 xk−1,Ω, Xk+1 6 xk+1, . . . , Xn 6 xn)
= limxk→+∞
FX(x1, . . . , xk−1, xk, xk+1, . . . , xn).
dalla quale si evince che la funzione di distribuzione congiunta della variabile ca-
suale(n− 1)-dimensionale(X1, . . . , Xk−1, Xk+1, . . . , Xn) si ottiene dallaFX(x)
calcolando il limite di quest’ultima perxk che tende all’infinito.
Definizione 5.5.4.SiaX una variabile casualen-dimensionale ek un intero mi-
nore din, la funzione di distribuzione
FXj1Xj2
···Xjk(xj1 , xj2, · · · , xjk)
= lim · · · limxj→+∞j 6=j1...jk
FX1X2···Xn(x1, x2, . . . , xn) (5.43)
è la funzione di distribuzionemarginalecongiunta del vettore casuale, conk com-
ponenti,(Xj1 , . . . , Xjk), ∀j1, . . . , jk ⊂ 1, 2, . . . , n.
SeX è assolutamente continua, la funzione
fXj1Xj2
···Xjk(xj1 , xj2, · · · , xjk)
=
∫ +∞
−∞
· · ·∫ +∞
−∞
fX1...Xn(x1, . . . , xn)
n∏
j=1j 6=j1...jk
dxj (5.44)
rappresenta la funzione densità di probabilitàmarginalecongiunta della variabile
aleatoria multidimensionale(Xj1 , . . . , Xjk).
168 Capitolo 5. Variabili aleatorie
Nel caso discreto
pXj1Xj2
···Xjk(xj1 , xj2, · · · , xjk) =
∑
· · ·∑
xj :j∈[1,n]j 6=j1...jk
pX1X2···Xn(x1, x2, . . . , xn).
(5.45)
è la distribuzione di probabilitàmarginalecongiunta di(Xj1, . . . , Xjk).
Quandon = 2 si ha
FX(x) = limy→+∞
FXY (x, y)
e
FY (y) = limx→+∞
FXY (x, y).
Inoltre le distribuzioni marginali sono date da
fX(x) =
∫ +∞
−∞
fXY (x, y)dy fY (y) =
∫ +∞
−∞
fXY (x, y)dx
e, le distribuzioni di probabilità marginali, da
pX(x) =∑
y
pXY (x, y) pY (y) =∑
x
pXY (x, y).
5.5.2 Distribuzioni condizionate
Nel precedente paragrafo abbiamo visto come dalla conoscenza della funzione di
distribuzione congiuntaFX(x) si ricavano le distribuzioni marginali di una com-
ponete o di un sottoinsieme di componenti diX. Viceversa, note le distribuzioni
marginali, non si riesce a risalire alle distribuzioni congiunte. Per tale scopo è
necessaria la conoscenza della cosiddetta distribuzionecondizionata. Nel seguito
esamineremo in dettaglio il caso di variabili casuali bidimensionali(X, Y ), ini-
ziando a trattare lev-a discrete.
5.5 Variabili casualin-dimensionali 169
La probabilità cheY = yj condizionata daX = xi è data da
p(yj|xi) ≡ P (Y = yj|X = xi) =P (X = xi ∩ Y = yj)
P (X = xi)
=P (X = xi, Y = yj)
P (X = xi)≡ pXY (xi, yj)
pX(xi)(5.46)
per definizione di probabilità condizionata.
Osservazione5.5.2. Nel definire nel paragrafo 3.1 la probabilità condizionata,ab-
biamo messo in evidenza come la (3.1.1) ha senso solo se la probabilità a deno-
minatore è maggiore di zero. Nel caso di vettori casuali discreti, se ci limitiamo
ai singolettixi ∈ SX , essendoP(X = xi) > 0, la P (Y = yj|X = xi) è sempre
definita. Per il momento assumiamo di essere in questa condizione.
Considerando nella (5.46)xi fisso edyj variabile, si ha
p(yj|xi) > 0 (5.47)
e
∑
j
p(yj|xi) =∑
j
pXY (xi, yj)
pX(xi)
=1
pX(xi)·∑
j
pXY (xi, yj) =pX(xi)
pX(xi)= 1 (5.48)
per la definizione di distribuzione di probabilità marginale di X. Pertanto la
p(yj|xi), data dalla (5.46) perj ∈ N, è una distribuzione di probabilità.
Definizione 5.5.5.Sia(X, Y ) un vettore casuale; la relazione
p(yj|xi) =P (X = xi, Y = yj)
P (X = xi)≡ pXY (xi, yj)
pX(xi)
170 Capitolo 5. Variabili aleatorie
definisce21, perj ∈ N, la funzione di probabilitàdi Y condizionatadaX = xi,
seP (X = xi) ≡ pX(xi) > 0. Altrimenti perxi comunque fissato inR, se
pX(xi) = 0, per convenzione si ponep(yj|xi) = 0.
LaP (Y = yj|X = xi) gode di tutte le proprietà tipiche di una legge di probabilità,
sicché, indicando conE un generico evento, si ha:
P (Y ∈ E|X = xi) =∑
i:yi∈E
P (Y = yj|X = xi) . (5.49)
Nel caso in cuiE ≡ (−∞, y], la (5.49), considerandoxi fissato edy variabile,
definisce lafunzione di distribuzionedi Y condizionatadaX = xi:
F (y|xi) ≡ P (Y 6 y|X = xi) =∑
j:yj6y
P (Y = yj|X = xi) . (5.50)
Naturalmente tutte le precedenti formule possono essere riscritte scambiando il
ruolo diX con quello diY .
Supponiamo, ora, cheX ed Y siano dotate di una densità congiuntafXY (x, y).
Poiché, in questo caso,P(X = x) = 0, ∀x ∈ R, la precedente definizione della di-
stribuzione condizionata diY rispetto aX = x perde di significato. Comunque,
sulla falsariga della (5.46), possiamo scrivere22, ∀y ∈ R,
g(y|x) = fXY (x, y)
fX(x)(5.51)
se si suppone chefX(x) sia maggiore di zero. Lag(y|x) è una funzione densità di
probabilità, infatti
g(y|x) > 0 e∫ +∞
−∞
g(y|x)dy =1
fX(x)
∫ +∞
−∞
fXY (x, y)dy = 1 .
21Per lap(yj |xi) si utilizzano gli stessi sinonimi introdotti nel caso non condizionato.22Talvolta si usa la notazionefY |X(y|x).
5.5 Variabili casualin-dimensionali 171
Definizione 5.5.6.Sia(X, Y ) un variabile casuale bidimensionale assolutamente
continua con funzione densità di probabilità congiuntafXY (x, y) e densità mar-
ginali fX(x) e fY (y), si definisce,∀y ∈ R, funzione densità di probabilità diY
condizionata daX = x la funzione
g(y|x) = fXY (x, y)
fX(x)
sempre che risultifX(x) > 0 .
Diamo una giustificazione della precedente definizione. Siah un numero rea-
le positivo; consideriamo l’eventoEh ≡ x − h < X 6 x + h e supponia-
mo cheP(Eh) sia maggiore di zero. Ha senso, quindi, considerare la probabilià
condizionata dell’eventoY 6 y rispetto aEh:
P (Y 6 y|Eh) =P (Eh, Y 6 y)
P(Eh). (5.52)
Osserviamo cheP(Eh) = FX(x + h) − FX(x − h), poichéFX è una funzione
continua si ha:
limh→0
P(Eh) = 0 .
Inoltre, perh che tende a zero, l’eventoEh ≡ x − h < X 6 x + h tende
a X = x, di conseguenza possiamo scrivere, nel caso in cui il limitea primo
membro esiste,
limh→0
P(Y 6 y|Eh) = P(Y 6 y|X = x)
e la (5.52) diventa
P(Y 6 y|X = x) = limh→0
FXY (x+ h, y)− FXY (x− h, y)
FX(x+ h)− FX(x− h). (5.53)
Sia il numeratore che il denominatore della (5.53) tendono azero perh → 0 e si
ricade in un caso tipico al quale si applica la regola dell’Hôpital. Dividendo per
172 Capitolo 5. Variabili aleatorie
2h il numeratore ed il denominatore del secondo membro della (5.53) si ha
limh→0
1
2h[FXY (x+ h, y)− FXY (x− h, y)] =
∫ y
−∞
fXY (x, v)dv
e
limh→0
1
2h[FX(x+ h)− FX(x− h)] = fX(x).
Per effetto delle due precedenti relazioni, sefX(x) > 0, possiamo scrivere la
(5.53) nella forma:
P(Y 6 y|X = x) =
∫ y
−∞
fXY (x, v)
fX(x)dv. (5.54)
Il primo membro della (5.54) definisce, al variare diy, la funzione di distribuzione
di Y considerandox fissato. Tale funzione, indicata in simboli conFY |X(y|x), è
denominatafunzione di distribuzione condizionatadi Y rispetto aX = x. Nel-
l’ipotesi in cui fXY (x, v) sia continua in(x, y) ed fX(x) sia maggiore di zero e
continua inx, differenziando rispetto ay la (5.54) si ha
d
dyP(Y 6 y|X = x) ≡ d
dyFY |X(y|x) =
fXY (x, v)
fX(x)(5.55)
che corrisponde alla (5.51) (vedi anche la definizione 5.5.6). Poichég(y|x) è una
densità di probalità si ha:
P(Y ∈ A|X = x) =
∫
A
g(y|x)dy. (5.56)
Dalla (5.51), o dalla equivalente (5.55), si ricava
fXY (x, y) = fX(x)g(y|x) (5.57)
dalla quale si deduce che, nel caso bidimensionale, per ricavare la densità con-
giuntafXY (x, y) è necessario conoscere la densità marginalefX(x) e la densità
condizionatag(y|x). Naturalmente si può scambiare il ruolo diX edY ed anche
estendere le precedenti considerazioni al cason-dimensionale.
5.6 Indipendenza di variabili casuali 173
5.6 Indipendenza di variabili casuali
Supponiamo cheX edY siano variabili casuali congiuntamente distribuite su uno
spazio di probabilitàΩ,F ,P e siaFXY (x, y) la loro funzione di distribuzio-
ne congiunta. Nel paragrafo 3.2 abbiamo introdotto il concetto di indipendenza
di eventi; in particolare, due eventiA e B sono indipendenti seP(A ∩ B) =
P(A) · P(B). Ciò premesso, è ragionevole riformulare la definizione, nel caso di
un vettore casuale bidimensionale, affermando cheX edY sonoindipendentise,
per ogni coppia di numeri realix e y, sono indipendenti gli eventiX 6 x e
Y 6 y, ossia se risultaP(X 6 x, Y 6 y) = P(X 6 x) · P(Y 6 y). Facendo
ricorso alle funzioni di distribuzione si dà la seguente definizione.
Definizione 5.6.1.Le variabili casualiX, Y si dicono indipendentise vale la
relazione
FXY (x, y) = FX(x) · FY (y) ∀x, y ∈ R (5.58)
ovverosia se la distribuzione di probabilità congiunta si fattorizza nel prodotto
delle due funzioni di distribuzione marginali.
La precedente definizione è generalizzabile al caso din variabile aleatorie.
Definizione 5.6.2.SianoX1, X2, . . . , Xn variabili casuali, definite sullo spazio
di probabilitàΩ,F ,P; conFX1,X2,...,Xn(x1, x2, . . . , xn) indichiamo la funzione
di distribuzione congiunta. Esse si diconoindipendentise,∀x1, x2, . . . , xn ∈ R,
risulta
FX1X2...Xn(x1, x2, . . . , xn)
= FX1(x1) · FX2(x2) · · ·FXn(xn) ≡
n∏
j=1
FXj(xj). (5.59)
174 Capitolo 5. Variabili aleatorie
Dalla (5.58), seX eY sono indipendenti e assolutamente continue, si ricava che
anche la funzione densità di probabilità congiunta si fattorizza nel prodotto delle
due densità marginali, infatti si ha
fXY (x, y) =∂2FXY (x, y)
∂x∂y=
dFX(x)
dx· dFY (y)
dy= fX(x) · fY (y). (5.60)
Nel caso din variabili casuali assolutamente continue indipendenti, la funzione
densità di probabilità congiunta verifica la relazione
fX1X2...Xn(x1, x2, . . . , xn) =
n∏
j=1
fXj(xj). (5.61)
La (5.61) è da molti autori posta come definizione di indipendenza din variabili
casuali assolutamente continue; per variabili casuali discrete la (5.61) diventa
pX1X2...Xn(x1, x2, . . . , xn) =
n∏
j=1
pXj(xj). (5.62)
Osservazione5.6.1. Si può facilmente verificare che seX1, X2, . . . , Xn sono in-
dipendenti tali sono anchek < n di esse comunque scelte. L’inverso non è
necessariamente vero.
Definizione 5.6.3.SianoX ≡ (X1, X2, . . . , Xn) e Y ≡ (Y1, Y2, . . . , Xm) va-
riabili casuali assolutamente continue, la priman-dimensionale e la secondam-
dimensionale. Esse sono indipendenti se e solo se vale la relazione
fXY(x1, . . . , xn, y1, . . . , yn) = fX(x1, . . . , xn) · fY(y1, . . . , yn). (5.63)
5.7 Funzioni di una variabile casuale
Sia Ω,F ,P uno spazio di probabilità eX : Ω −→ R una variabile casuale
con funzione di distribuzioneFX(x). Indichiamo cong : R −→ R una funzione
5.7 Funzioni di una variabile casuale 175
Borel-misurabile e definiamo la funzione diX, Y = g(X) : Ω −→ R, ponendo
Y (ω) = g(X(ω)). Essa è una variabile casuale. Questo asserto è di immediata
dimostrazione. Infattig−1(B) ∈ B, per l’ipotesi posta sug; inoltreX−1(B) ∈ Fper laF misurabilità diX. In conclusione,∀B ∈ B, si ha
Y −1(B) ≡ X−1[g−1(B)] ∈ F
eY è allora unav-ache si dice funzione diX. Quale legame esiste fra la funzione
di distribuzione diY e quella diX? Innanzitutto si noti che, qualunque sia il
borelianoB, P(Y ∈ B) ≡ P (Y −1(B)), oveY −1(B) è un evento diF . Sicché,
anche per lav-c Y , si deve fare riferimento allo spazio di probabilitàΩ,F ,P.
In particolare possiamo scrivere
P(Y ∈ B) = P (g(X) ∈ B) ≡ P(X ∈ g−1(B)
)(5.64)
e
FY (y) ≡ P(Y 6 y) = P(g(X) 6 y) = P(X ∈ g−1(]−∞, y])
). (5.65)
La (5.65) assicura che laFY (y) si può ricavare a partire dalla funzione di distribu-
zione della variabile casualeX. Naturalmente la natura delX e le caratteristiche
analitiche della funzioneg rendono il calcolo più o meno complicato.
Teorema 5.7.1.SiaX una variabile casuale discreta con funzione massapX(x)
e spettroSX ≡ xnn∈N; sia inoltreg : R −→ R una funzione Borel-misurabile.
La distribuzione di probabilità della variabile aleatoriaY = g(x) è data dalla
funzione
pY (y) =∑
i:xi∈g−1(y)
pX(xi). (5.66)
Per quanto concerne la funzione di distribuzione diY , vale la relazione
FY (y) =∑
i
pX(xi) (5.67)
176 Capitolo 5. Variabili aleatorie
ove la sommatoria è da intendersi estesa a tutti gli indicii ∈ N per i quali si
verifica: xi ∈ g−1(]−∞, y]).
Dimostrazione.Siay un qualunque numero reale, indichiamo conBy il boreliano
By = g−1(y). Tenendo conto della (5.64) possiamo scrivere la seguente relazione:
pY (y) ≡ P(Y = y) = P(X ∈ By) = P(X ∈ By ∩ xnn∈N).
L’ultimo passaggio si giustifica tenendo conto che, essendola v-c X discreta,
P (X = xi) è maggiore di zero solo sexi ∈ SX . Infine il valore della proba-
bilità P(X ∈ By ∩ xnn∈N) coincide con la sommatoria dei valori dipX(xi) ove
l’indice i è tale da verificare contemporaneamente le condizionipX(xi) > 0 e
xi ∈ By. La dimostrazione della (5.66) è stata così completata. Considerazioni
analoghe, partendo dalla (5.65), dimostrano la (5.67).
Osservazione5.7.1. Si noti che la (5.66) e la (5.67) possono essere anche scritte
come
pY (y) =∑
xi:g(xi)=y
pX(xi)
e
FY (y) =∑
xi:g(xi)6y
pX(xi).
Osservazione5.7.2. Se la funzioneg è strettamente monotòna, per ogniy numero
reale, l’intersezioneBy ∩ xnn∈N o coincide con∅ oppure conxi per un certo
indicei, pertanto, per la (5.66),pY (y) = pX(xi), se esiste unxi ∈ SX per il quale
risulti y = g(xi), altrimentipY (y) = 0.
La funzione di distribuzioneFY (y) assume una differente espressione analitica in
relazione all’andamento dig. Seg è strettamente crescente si ha
g−1 (]−∞, y]) ≡]−∞, g−1(y)
]
5.7 Funzioni di una variabile casuale 177
e
FY (y) ≡ P(g(x) 6 y) = FX
[g−1(y)
]. (5.68)
Nel caso in cuig sia strettamente decrescente si ha
g−1 (]−∞, y]) ≡[g−1(y),+∞
[
e
FY (y) ≡ P(g(x) > y) = 1− FX
[g−1(y)
]. (5.69)
Osservazione5.7.3. SeX è assolutamente continua, la funzione di distribuzione
dellav-cY , in virtù della (5.65), è data da:
FY (y) =
∫
x:g(x)6y
f(x)dx. (5.70)
Nel caso in cuig sia una funzione continua, la funzione densità di probabilità
fY (y) si ottiene derivando laFY (y) rispetto ay.
La metodologia fino ad ora esposta per la determinazione della legge di probabilità
dellag(X) è denominatametodo delle funzioni di distribuzione(vedi [13]).
Esempio 5.7.1.Sia X una variabile casuale con distribuzione di probabilità di
Poisson
pX(x) ≡ p(x, λ) =
λx
x!· e−λ sex ∈ N0
0 altrimenti
edY = g(X), cong(x) = 2x+ 3; determiniamopY (y).
Si ha
P(Y = y) = P(2X + 3 = y) = P
(
X =y − 3
2
)
e pertanto la legge di probabilità cercata è data da
pY (y) = λ(y−3)/2 × 1
[(y − 3)/2]!× e−λ
sey è un intero dispari> 3; pY (y) = 0 altrove.
178 Capitolo 5. Variabili aleatorie
Esempio 5.7.2.SiaX unv-ccon densità di probabilitàfX(x) = α exp(−x) conα
uguale alla costante determinata nell’esempio 5.4.4 ex ∈ [0, 1]. Definita la nuova
variabile casualeY = 2X + 1, determiniamo la funzione di distribuzioneFY (y).
Notiamo innanzitutto chey ∈ [1, 3]. Si ha
FY (y) = P(Y 6 y) ≡ P(2X + 1 6 y) = P
(
X 6y − 1
2
)
≡ FX
(y − 1
2
)
= α
[
1− exp
(y − 1
2
)]
.
Esempio 5.7.3. Distribuzione di Rayleigh
Supponiamo cheX sia unav-ccon densità di probabilità esponenziale a parametro
γ > 0
fX(x) =
γe−γx sex > 0
0 sex 6 0
e siaY = X1/2; determiniamofY (y).
x
y
y=x1/2
(y2,0)
(0,y)
Figura 5.7:(X1/2 6 y
).
5.7 Funzioni di una variabile casuale 179
Con l’aiuto della figura 5.7, pery > 0 possiamo scrivere la relazione
FY (y) ≡ P(Y 6 y) = P(√X 6 y) = P(X 6 y2) ≡ FX(y
2)
ed ancora,∀y 6 0, P(Y 6 y) = 0. La densità di probabilità dellav-cY si calcola
derivando rispetto ay la funzione di distribuzioneFY (y) e quindi
d
dyFY (y) =
d
dxFX(y
2) · dxdy
= fX(y2) · 2y.
In conclusione si ottiene
fY (y) =
2γy · e−γy2 sey > 0
0 sex 6 0(5.71)
che è la densità di probabilità di Rayleigh.
Esempio 5.7.4.SiaX una variabile casuale con funzione di distribuzione unifor-
me nell’intervallo(0, 1) e poniamoY = ln
(1
X
)
= − lnX. Sey ∈ (0,+∞) si
haFY (y) = P(− lnX 6 y); altrimenti, sey 6 0, risultaFY (y) = 0.
Dalla figura 5.8 si deduce, pery > 0,
FY (y) ≡ P(Y 6 y) = P(X > e−y
)=
∫ 1
e−y
fX(x)dx.
Essendo per ipotesifX(x) = 1 nell’intervallo (0, 1), si haFY (y) = 1 − e−y. Da
quest’ultima relazione, derivando rispetta ady, si ottiene
fY (y) =
e−y sey > 0
0 altrimenti
che coincide con lafdpesponenziale a parametro unitario.
180 Capitolo 5. Variabili aleatorie
0 10
x
yy = − ln(x)
(0,y)
(e−y,0)
Figura 5.8:(− ln(X) 6 y).
5.7.1 Il metodo delle trasformazioni
Prendiamo in esame il caso di una variabile casualeX assolutamente continua
e siag(x) una funzione monotòna; per le ipotesi poste ancheY è assolutamen-
te continua. In questo caso è possibile calcolare lafY (y) senza la necessità di
determinare la funzione di distribuzioneFY (y), si dimostra, infatti, il seguente
teorema.
Teorema 5.7.2.SiaX assolutamente continua di densità di probabilitàfX(x) e
g : R → R una funzione strettamente monotòna; la densità di probabilità della
v-cY = g(x) è data da
fY (y) = fX[g−1(y)
]·∣∣∣∣
dx
dy
∣∣∣∣
(5.72)
ovex = g−1(y).
Dimostrazione.Cominciamo con il considerare il caso in cuig sia una funzione
crescente (vedi figura 5.9) così che risultidg
dx> 0. Per ogni numero realey vale
5.7 Funzioni di una variabile casuale 181
la relazione
FY (y) ≡ P(Y 6 y) = P[X 6 g−1(y)
]≡ FX
[g−1(y)
]
da cui, derivando ambo i membri rispetto ay, si ottiene
d
dyFY (y) ≡ fY (y) =
d
dyFX
[g−1(y)
]= fX
[g−1(y)
]· dxdy
(5.73)
ovex = g−1(y).
0 x
y
y
g−1(y)
Figura 5.9:g(x) funzione crescente.
Il caso dig(x) funzione decrescente è illustrato in figura 5.10. Si ha
FY (y) ≡ P(Y 6 y) = P[X > g−1(y)
]
= 1− P[X 6 g−1(y)
]≡ 1− FX
[g−1(y)
].
La densità di probabilitàfY (y), derivando la funzione di distribuzioneFY (y)
rispetto ady, è
182 Capitolo 5. Variabili aleatorie
0 x
y
y
g−1(y)
Figura 5.10:g(x) funzione decrescente.
fY (y) =d
dy
1− FX
[g−1(y)
]= −fX
[g−1(y)
]· dxdy
(5.74)
conx = g−1(y). Essendog(x) decrescente, la derivatadx/dy è negativa, pertanto
la 5.72 è valida sia perg crescente che perg decrescente.
Osservazione5.7.4. Il metodo prima descritto può essere esteso ai casi nei quali
l’insieme di definizione dellag(x) è ripartibile in intervalliAn sui qualig(x) è
strettamente monotona. Infatti se definiamo
gn(x) =
g(x) sex ∈ An
0 altrove
si hag(x) =∑∞
n=1 gn(x) con gn(x) che ammette un’unica funzione inversa in
An. Considerando separatamente ciascunagn e sommando su tutti glin si ricava
la fY (y):
fY (y) =
∞∑
n=1
fX[g−1n (y)
]· d
dyg−1n (y). (5.75)
5.7 Funzioni di una variabile casuale 183
Esempio 5.7.5.SiaX unav-c assolutamente continua con densità di probabilità
fX(x) =
exp(x) sex < 0
0 altrove
e poniamoY = X2. La funzioneg(x) = x2 è strettamente decrescente in(−∞, 0)
ex = g−1(y) = −√y. Si ha
dx
dy= − 1
2√y
e, pery > 0,
fY (y) = fX[g−1(y)
]·∣∣∣∣
dx
dy
∣∣∣∣=
1
2√yexp (−√
y) .
Infine, pery 6 0, vale la relazionefY (y) = 0.
Esempio 5.7.6.Supponiamo che lav-cX abbia densità di probabilità uniforme
fX(x) =
1
b− asea < x < b ea, b ∈ R
+
0 altrove
e poniamoY = exp(X); determiniamofY (y).
La funzioneg(x) = ex è strettamente crescente in(a, b) e x = g−1(y) = ln y.
Dalla (5.73) si deduce
fY (y) = fX[g−1(y)
]· dxdy
= fX(ln y) ·dx
dy=
fX(ln y)
y
perea < y < eb; sicchéfY (y) =1
y(b− a)pery ∈
(ea, eb
)efY (y) = 0 altrove.
Riprendiamo, ora, l’esempio 5.7.4.
Esempio 5.7.7.SiaX una variabile casuale distribuita uniformemente nell’inter-
vallo (0, 1), determiniamo la funzione densità di probabilità diY = −1
klnX, con
184 Capitolo 5. Variabili aleatorie
k costante positiva.
La funzioneg(x) = −1
kln x è strettamente decrescente nell’intervallo(0, 1) e23
g−1(y) = exp(−ky), inoltre
∣∣∣∣
dx
dy
∣∣∣∣= k exp(−ky); pertanto si ha
fY (y) = fX(e−ky) · ke−ky (0 < y < +∞).
Tenendo presente che per ipotesifX(x) = 1, sex ∈ (0, 1), ed è nulla altrove, si
evince che, pery > 0, fY (y) = k exp(−ky); sey < 0 la fY (y) è nulla.
Concludiamo il capitolo calcolando la funzione densità di probabilità della fun-
zionemax(X, Y ) nel caso in cuiX e Y sianov-c indipendenti. Osserviamo
che si haZ ≡ max(X, Y ) 6 z se e solo se sono verificate simultaneamente le
disuguaglianzeX 6 z eY 6 z. Per l’ipotesi di indipendenza si ha
FZ(z) = P(Z 6 z) = P(X 6 z, Y 6 z) = FX(z) · FY (z). (5.76)
Derivando la (5.76) si ottiene la densità
fZ(z) =d
dzFZ(z) = fX(z) · FY (z) + fY (z) · FX(z). (5.77)
In molte applicazioni, soprattutto in quelle in cui si studia il tempo di buon fun-
zionamento di strumentazione o componentistica elettronica, si assume che le va-
riabili casuali sia distribuite secondo la legge esponenziale a parametroγ1 e γ2,
rispettivamente. In questo caso, perz > 0, la (5.77) diventa:
fZ(z) = γ1 exp (−γ1z) [1− exp (−γ2z)] + γ2 exp (−γ2z) [1− exp (−γ1z)] .
Un calcolo analogo si applica al caso della variabile casuale W = min(X, Y );
stavolta conviene calcolareP(W > w) = 1− FW (w). Si ha
1− FW (w) = P[min(X, Y ) > w] = P(X > w, Y > w)
= [1− FX(w)] · [1− FY (w)] . (5.78)
23y = − ln(x)
k⇒ −ky = ln(x)
5.8 Somme, prodotti e rapporti di variabili casuali 185
Nel caso si variabili casuali esponenziali, perw > 0, abbiamo
1− FW (w) = e−γ1we−γ2w
da cui
FW (w) = 1− e−(γ1+γ2)w
ed infine
fW (w) = (γ1 + γ2) e−(γ1+γ2)w.
5.8 Somme, prodotti e rapporti di variabili casuali
La teoria delle variabili casualin-dimensionali fornisce uno strumento utile per
calcolare la funzione di distribuzione di somme, prodotti erapporti div-c unidi-
mensionali. Ad esempio siaY =∑n
i=1Xi, per definizione si ha
FY (y) = P(Y 6 y) = P (X1 + · · ·+Xn 6 y) .
FY (y) è dunque la probabilità che lav-c∑n
i=1Xi assuma il valore∑n
i=1 xi e il
puntox = (x1, . . . , xn) appartenga al semispazio
D ≡ x ∈ Rn : x1 + · · ·+ xn 6 y .
Se le variabili casualiXi sono assolutamente continue e congiuntamente distribui-
te, indicando confX1X2...Xn(x1, x2, . . . , xn) la loro densità di probabilità congiun-
ta, si ha
FY (y) =
∫
· · ·∫
D
fX1X2...Xn(x1, x2, . . . , xn)dx1dx2 · · · dxn. (5.79)
Nei successivi paragrafi prenderemo in esame, per semplificare gli sviluppi ma-
tematici, il caso din = 2; i risultati possono essere estesi al caso generale di un
interon qualsiasi.
186 Capitolo 5. Variabili aleatorie
5.8.1 Somma di due variabili casuali
PoniamoZ = X + Y ed indichiamo conf(x, y) la funzione di densità di proba-
bilità congiunta delle variabili casualiX eY .
Proposizione 5.8.1.Per ogni numero realez, la densità di probabilità della va-
riabile casuale sommaZ = X + Y è data dalla relazione
fZ(z) =
∫ +∞
−∞
f(x, z − x)dx =
∫ +∞
−∞
f(z − y, y)dy. (5.80)
x
y
x+y=z
(0,z)
(z,0)
0
x+y ≤ z
Figura 5.11: Dominio di integrazione della (5.79) per il calcolo diFX+Y (z).
Per dimostrare la tesi della proposizione notiamo che nella(5.79) il dominio di
integrazione coincide con il semispazio,D ≡ (x, y) : x + y 6 z, delimitato
superiormente dalla retta di equazionex + y = z (vedi la figura 5.11). Pertanto
possiamo riscrivere quest’ultima relazione come
FZ(z) =
∫∫
x+y6z
f(x, y)dxdy
5.8 Somme, prodotti e rapporti di variabili casuali 187
da cui si ottiene
FZ(z) =
∫∫
x+y6z
f(x, y)dxdy =
∫ +∞
−∞
[∫ z−x
−∞
f(x, y)dy
]
dx.
Per quanto concerne l’integrale∫ z−x
−∞f(x, y)dy, introducendo la nuova variabile
u = x + y, si ha, essendox fissato,du = dy, ed inoltre, quandoy = −∞ risulta
u = −∞ e, quandoy = z − x, u = x + (z − x) = z. In conclusione si ha∫ z−x
−∞f(x, y)dy =
∫ z
−∞f(x, u− x)du e
FZ(z) =
∫∫
x+y6z
f(x, y)dxdy =
∫ +∞
−∞
[∫ z
−∞
f(x, u− x)du
]
dx
=
∫ z
−∞
[∫ +∞
−∞
f(x, u− x)dx
]
du
ove l’ultimo passaggio si giustifica cambiando di posto agliintegrali. Infine, ri-
cordando il teorema fondamentale del calcolo integrale, siperviene,∀z ∈ R, alla
relazione
fZ(z) =d
dzFZ(z) =
∫ +∞
−∞
f(x, z − x)dx.
Scambiandox cony si dimostra la seconda formulazione della (5.80).
Osservazione5.8.1. Nel caso di variabili casuali discrete, fissato il valore diz,
∀(xi, yj) tale chexi + yj = z, vale la relazione
P(Z = z) =∞∑
i=1
P(X + Y = z,X = xi)
=
∞∑
i=1
P(X = xi, Y = yj − xi).
Altrimenti, per tutte la altre coppie di valori(xi, yj), si haP(Z = z) = 0.
188 Capitolo 5. Variabili aleatorie
5.8.2 Differenza di due variabili casuali
Determiniamo, ora, la funzione di densità di probabilità diZ = Y −X.
Proposizione 5.8.2.Per ogni numero realez, la densità di probabilità della va-
riabile casuale differenzaZ = Y −X è data dalla relazione
fZ(z) =
∫ +∞
−∞
f(x, z + x)dx =
∫ +∞
−∞
f(z + y, y)dy. (5.81)
x
y
y−x=z
0
y−x ≤ z
Figura 5.12: Dominio di integrazione della (5.79) per il calcolo diFY−X(z).
La dimostrazione della (5.81) si basa sullo stesso ragionamento utilizzato per per-
venire alla (5.80), tenendo presente che, per la differenzadi variabili casuali, nella
(5.79) il dominio di integrazione è il semispazio al disottodella retta di equazione
y − x = z (vedi la figura 5.12). Si ha
FZ(z) =
∫∫
y−x6z
f(x, y)dxdy =
∫ +∞
−∞
[∫ x+z
−∞
f(x, y)dy
]
dx.
5.8 Somme, prodotti e rapporti di variabili casuali 189
Se si poneu = y − x, segue chedu = dy, ed inoltre, quandoy = −∞ otteniamo
u = −∞ e, quandoy = x+ z, u = (x+ z)− x = z. Per quanto sopra esposto si
perviene alla relazione
FZ(z) =
∫ +∞
−∞
[∫ z
−∞
f(x, u+ x)du
]
dx
e, scambiano di posto gli integrali,
FZ(z) =
∫ z
−∞
[∫ +∞
−∞
f(x, u+ x)dx
]
du.
Differenziando rispetto az, ∀z ∈ R, si dimostra la prima parte della tesi della
5.8.2 e, scambiando di ruolo alle variabilix e y, anche la seconda parte della
(5.81) risulta verificata.
5.8.3 Prodotto di due variabili casuali
Esaminiamo ora il caso della variabile casualeZ prodotto delle variabili casuali
X eY .
Proposizione 5.8.3.Per ogni numero realez, la densità di probabilità della va-
riabile casuale prodottoZ = X · Y è data dalla relazione
fZ(z) =
∫ +∞
−∞
1
|x|f(x,z
x)dx =
∫ +∞
−∞
1
|y|f(z
y, y)dy. (5.82)
Per dimostrare quanto affermato nella 5.8.3, notiamo che dalla (5.79) si ottiene:
FZ(z) ≡ P(Z 6 z) = P(XY 6 z) =
∫∫
D
f(x, y)dxdy =
∫∫
xy6z
f(x, y)dxdy.
Cominciamo con il considerare la condizionez > 0. L’equazionez = xy rap-
presenta l’iperbole equilateray = z/x i cui rami giacciono, rispettivamente, nel
190 Capitolo 5. Variabili aleatorie
x
y
xy=z
xy=z
0
(x,y): x<0, y ≥ z/x
(x,y): x>0, y ≤ z/x
Figura 5.13: Dominio di integrazione,D, della (5.79) per il calcolo diFXY (z) ove
z è un numero realepositivo.
primo e nel terzo quadrante come mostrato nella figura 5.13 e delimitano la regione
di integrazione,D, dell’integrale doppio∫∫
Df(x, y)dxdy, costituita dall’insieme
dei punti(x, y) tali chexy 6 z.
Si noti che
D ≡ (x, y) : xy 6 z =
(x, y) : x < 0, y >z
x
∪
(x, y) : x > 0, y 6z
x
e, di conseguenza, decomponendo la regione di integrazionenei due domini par-
ziali corrispondenti ax > 0 ex < 0, abbiamo
FZ(z) =
∫ 0
−∞
[∫ ∞
z/x
f(x, y)dy
]
dx+
∫ ∞
0
[∫ z/x
−∞
f(x, y)dy
]
dx.
Eseguiamo il cambiamento di variabileu = xy. Si hadu = xdy; inoltre, quando
y = z/x si hau = z, sex < 0 e y = +∞ abbiamou = −∞ ed infineu = −∞sey = −∞ ex > 0. Pertanto possiamo scrivere la funzione di distribuzione di Z
5.8 Somme, prodotti e rapporti di variabili casuali 191
come
FZ(z) =
∫ 0
−∞
[∫ −∞
z
x−1f(
x,u
x
)
du
]
dx+
∫ +∞
0
[∫ z
−∞
x−1f(
x,u
x
)
du
]
dx
=
∫ 0
−∞
[∫ z
−∞
−x−1f(
x,u
x
)
du
]
dx+
∫ +∞
0
[∫ z
−∞
x−1f(
x,u
x
)
du
]
dx
=
∫ +∞
−∞
[∫ z
−∞
−x−1f(
x,u
x
)
du+
∫ z
−∞
x−1f(
x,u
x
)
du
]
dx
=
∫ +∞
−∞
[∫ z
−∞
1
|x|f(
x,u
x
)
du
]
dx =
∫ z
−∞
[∫ +∞
−∞
1
|x|f(
x,u
x
)
dx
]
du. (5.83)
Derivando rispetto az la funzione 5.83 così ottenuta, e scambiando successiva-
mente il ruolo dix e y, si perviene alla dimostrazione della 5.8.3.
x
y
xy=z
xy=z0
(x,y): x<0, y ≥ z/x
(x,y):x>0, y ≤ z/x
Figura 5.14: Dominio di integrazione,D, della (5.79) per il calcolo diFXY (z) per
ogniz numero realenegativo.
Per quanto concerne il secondo caso,z < 0, i rami dell’iperbole equilateraz = xy
giacciono nel secondo e nel quarto quadrante (vedi figura 5.14). Il dominio di in-
tegrazione è l’unione delle due regioni delimitate superiormente ed inferiormente
192 Capitolo 5. Variabili aleatorie
dal ramo dell’iperbole per il secondo ed il quarto quadranterispettivamente. Riap-
plicano il ragionamento precedente si dimostra lo stesso risultato che ha, quindi,
validità generale.
5.8.4 Rapporto di due variabili casuali
Proposizione 5.8.4.Per ogni numero realez, la densità di probabilità della va-
riabile casualeZ rapporto delle variabili casualiY e X, Z =Y
X, è data dalla
relazione
fZ(z) =
∫ +∞
−∞
|x|f(x, zx)dx =
∫ +∞
−∞
|y|z2
f(y
z, y)
dy. (5.84)
Per dimostrare la (5.84) determiniamo la funzione di distribuzione dellav-cZ che
in questo caso è data daFZ(z) ≡ P
(Y
X6 z
)
=
∫∫
y/x6z
f(x, y)dxdy. A tal fine
si osservi che, sex < 0, allora la condizioney/x 6 z è verificata se e solo se
y > xz, ∀z ∈ R. La regione di integrazione da considerare è
D ≡
(x, y) :y
x6 z
= (x, y) : x < 0, y > zx ∪ (x, y) : x > 0, y 6 zx.
Essa è illustrata nelle figure 5.15 e 5.16, rispettivamente per z > 0 e z < 0.
Osserviamo che la curva di equazionez = y/x coincide con la rettay = xz che,
perz numero reale positivo, giace nel primo e nel terzo quadrantee nel secondo e
quarto quadrante, sez < 0.
5.8 Somme, prodotti e rapporti di variabili casuali 193
x
y y=xz
0
(x,y): x<0, y ≥ xz(x,y):x>0, y ≤ xz
Figura 5.15: Dominio di integrazione,D, della (5.79) per il calcolo diFY/X(z)
perz numero realepositivo.
Si ha24
FZ(z) =
∫ 0
−∞
[∫ +∞
xz
f(x, y)dy
]
dx+
∫ ∞
0
[∫ xz
−∞
f(x, y)dy
]
dx
=
∫ 0
−∞
[∫ −∞
z
xf(x, ux)du
]
dx+
∫ ∞
0
[∫ z
−∞
xf(x, ux)du
]
dx
=
∫ 0
−∞
[∫ z
−∞
−xf(x, ux)du
]
dx+
∫ ∞
0
[∫ z
−∞
xf(x, ux)du
]
dx
=
∫ +∞
−∞
[∫ z
−∞
−xf(x, ux)du+
∫ z
−∞
xf(x, ux)du
]
dx
=
∫ +∞
−∞
[∫ z
−∞
|x|f(x, ux)du]
dx =
∫ z
−∞
[∫ z
−∞
|x|f(x, ux)dx]
du. (5.85)
24Eseguiamo il cambiamento di variabileu = y/x e nell’ultimo passaggio scambiamo di posto
agli integrali.
194 Capitolo 5. Variabili aleatorie
x
y
y=xz
0
(x,y): x<0, y ≥ xz
(x,y):x>0, y ≤ xz
Figura 5.16: Dominio di integrazione,D, della (5.79) per il calcolo diFY/X(z)
conz numero realenegativo.
Derivando laFZ(z) rispetto az, si ottiene la funzione di densità di probabilità
fZ(z) =
∫ +∞
−∞
|x|f(x, zx)dx. La seconda parte della tesi si ricava scambiando il
ruolo delle variabilix e y.
5.8.5 Variabili casuali indipendenti ed alcuni esempi
Il caso di maggior interesse nelle applicazioni si ha quandoX eY sono variabili
casuali indipendenti; l’ipotesi di indipendenza consentedi riscrivere le relazioni
dimostrate nei paragrafi precedenti esprimendo lafXY (x, y) come il prodotto delle
funzioni di densità di probabilità marginali diX eY .
Proposizione 5.8.5.SianoX eY variabili casuali indipendenti, con funzione di
densità di probabilitàfX(x) e fY (y), rispettivamente.
5.8 Somme, prodotti e rapporti di variabili casuali 195
Per ogni numero realez si ha:
(Z = X + Y ) fZ(z) =
∫ +∞
−∞
fX(x)fY (z − x)dx
=
∫ +∞
−∞
fX(z − y)fY (y)dy, (5.86a)
(Z = X − Y ) fZ(z) =
∫ +∞
−∞
fX(x)fY (z + x)dx
=
∫ +∞
−∞
fX(z + y)fY (y)dy, (5.86b)
(Z = XY ) fZ(z) =
∫ +∞
−∞
1
|x|fX(x)fY(z
x
)
dx
=
∫ +∞
−∞
1
|y|fX(z
y
)
fY (y) dy, (5.86c)
(
Z =Y
X
)
fZ(z) =
∫ +∞
−∞
|x|fX(x)fY (zx)dx
=
∫ +∞
−∞
|y|z2
fX
(y
z
)
fY (y) dy. (5.86d)
Definizione 5.8.1.Siano date le funzioni densità di probabilitàf(x) e g(y), si
definisce25 convoluzionedi f eg la funzioneh(z)
h(z) =
∫ +∞
−∞
f(x)g(z − x)dx =
∫ +∞
−∞
f(z − y)g(y)dy (5.87)
che è essa stessa una densità di probabilità.
La definizione precedente e la (5.86a) affermano che la densità di probabilità della
somma di due variabili casuali indipendenti è la convoluzione delle loro densi-
tà individuali. La convoluzione viene indicata simbolicamente con la notazione
h(z) = f(x)⊗ g(y) oppure comeh(z) = f(x) ∗ g(y).25Nella teoria di processi stocastici, in particolare nella branca che si occupa dell’analisi di
segnali casuali, l’integrale di convoluzione è definito utilizzando una formulazione più generale:
non è limitata alle densità di probabilità.
196 Capitolo 5. Variabili aleatorie
Osservazione5.8.2. Dal fatto che la densità di probabilità diX + Y coincide
con convoluzione ottenuta dalle densità marginali diX eY non segue che queste
ultime siano indipendenti.
Esempio 5.8.1.SianoX1 e X2 variabili casuali esponenziali indipendenti a pa-
rametroγ. Indichiamo conY la v-c somma. La funzione densità di probabilità
congiunta di(X1, X2) è data da
f (x1, x2) = γ−2 exp − (x1 + x2) /γ
sex1 > 0 ex2 > 0, f (x1, x2) = 0 altrimenti. Applicando la (5.86a) e ricordando
che che la densità esponenziale è nulla per valori dell’argomento minori o uguali
a zero, otteniamo la densità di probabilità diY = X1 +X2:
fY (y) =
∫ +∞
−∞
f (x1) f (y − x1) dx1 =
∫ y
0
(1
γe−x1/γ
)[1
γe−(y−x1)/γ
]
dx1
= γ−2 exp (−y/γ)
∫ y
0
dx1 = γ−2y exp (−y/γ) pery > 0.
La fY (y) è nulla per valori diy minori o uguali a zero.
CalcoliamoP (X1 +X2 > a) pera > 0. Si ha26
P (X1 +X2 > a) =1
γ2
∫ +∞
a
ye(−y/γ)dy =
∫ +∞
a
(y/γ) e(−y/γ)d (y/γ)
=
∫ +∞
a/γ
we−wdw = e−w(−w − 1)|+∞α/γ
= 0− e−a/γ
(
−a
γ− 1
)
= e−a/γ
(
1 +a
γ
)
.
26Memento:∫
x exp(cx)dx =exp(cx)
c2· (cx − 1); nel nostro casoc = −1.
5.9 Funzioni di un vettore casuale 197
Consideriamo ora lav-c differenzaZ = X2 −X1 e determiniamo, a partire dalla
(5.86b), lafZ(z) =∫ +∞
−∞
f (x1) f (z + x1) dx1. Perz > 0 abbiamo
fZ(z) =
∫ +∞
0
(γ−1e−x1/γ
) [γ−1e−(z+x1)/γ
]dx1
= γ−2e−z/γ
∫ +∞
0
e−2x1/γdx1 = γ−1e−z/γ
∫ +∞
0
e−2x1/γ1
2d
(2x1
γ
)
= (2γ)−1 e−z/γ
∫ +∞
0
e−wdw = (2γ)−1 e−z/γ .
Sez è un numero reale negativo, tenuto conto che−z > 0, si ha
fZ(z) =
∫ +∞
−z
(γ−1e−x1/γ
) [γ−1e−(z+x1)/γ
]dx1
= γ−2e−z/γ
∫ +∞
−z
e−2x1/γdx1 = γ−1e−z/γ
∫ +∞
0
e−2x1/γ1
2d
(2x1
γ
)
= (2γ)−1 e−z/γ
∫ +∞
−2z/γ
e−wdw
= (2γ)−1 · e−z/γ ·(
−e−w∣∣+∞
−2z/γ
)
= (2γ)−1 ez/γ .
Dalle precedenti relazioni si ricava la cosiddetta densitàdi Laplace
fZ(z) = (2γ)−1 exp
[
−|z|γ
]
∀z ∈ R. (5.88)
5.9 Funzioni di un vettore casuale
Seguendo la stessa linea di ragionamento sviluppata all’inizio del paragrafo 5.7, si
dimostra che, seX ≡ (X1, X2, . . . , Xn) è un variabile casualen-dimensionale e
g : Rn → Rm una funzione Borel-misurabile, ancheU ≡ g(X) è una variabile ca-
sualem-dimensionale. SeX è un vettore casuale discreto il calcolo diP(U = u)
198 Capitolo 5. Variabili aleatorie
non pone problemi particolari come mostrano i successivi esempi che esaminano il
caso di variabili casuali bidimensionali,X ≡ (X1, X2), per semplicità di calcolo.
Esempio 5.9.1.SianoX1 eX2 variabili casuali indipendenti, distribuite con legge
binomiale con parametro0 < p < 1; determiniamo la distribuzione di probabilità
di Y = g [X ≡ (X1, X2)] = X1 + X2. Indicando conn il numero di ripetizioni,
si haSX1 = SX2 ≡ (0, 1, 2, . . . , n) eSY ≡ (0, 1, 2, . . . , 2n). Vale la relazione
P(Y = j) = P (X1 +X2 = j) =n∑
k=0
P (X1 = k,X2 = j − k)
e, per le ipotesi poste, possiamo scrivere
P(Y = j) =
n∑
k=0
P (X1 = k) · P (X2 = j − k)
=n∑
k=0
b(k;n, p) · b(j − k;n, p)
=n∑
k=0
[(n
k
)
pk(1− p)n−k ×(
n
j − k
)
pj−k(1− p)n−j+k
]
=
n∑
k=0
(n
k
)(n
j − k
)
pj(1− p)2n−j =
(2n
j
)
pj(1− p)2n−j .
Per giustificare l’ultimo passaggio di faccia riferimento all’identità ipergeometrica
(2.20) ed in essa si ponga27 a = b = n, r = k en− r = j − k.
Esempio 5.9.2.Supponendo ancora valide le ipotesi sulle componenti diX, con-
sideriamo la variabile casuale differenzaW = g(X) = X1 −X2 e determiniamo
P(W = j) conj ∈ SW oveSW ≡ [−n,−(n − 1),−1, 0,+1, . . . , n]. Osserviamo
innanzitutto che
P(W = j) =
n∑
k=0
P (X1 = k + j,X2 = k)
27(nk
)si annulla perk > n e la sommatoria è composta di un numero finito di termini.
5.9 Funzioni di un vettore casuale 199
e, pertanto,
P(W = j) =n∑
k=0
P (X1 = k + j) · P (X2 = k) =n∑
k=0
b(k + j;n, p) · b(k;n, p).
Si ha
P(W = j) =n∑
k=0
[(n
k + j
)
pk+j(1− p)n−k−j ×(n
k
)
pk(1− p)n−k
]
=n∑
k=0
(n
k + j
)(n
k
)
p2k+j(1− p)2n−2k−j
=
(p
1− p
)j n∑
k=0
(n
k + j
)(n
k
)
p2k(1− p)2n−2k.
In particolare abbiamo
P(W = 0) =
n∑
k=0
(n
k
)2
p2k(1− p)2n−2k
e
P(W = −n) =
(p
1− p
)−n n∑
k=0
(n
k − n
)(n
k
)
p2k(1− p)2n−2k
=
(1− p
p
)n(n
0
)(n
n
)
p2n(1− p)2n−2n [infatti(
nk−n
)= 0 sek < n]
=
(1− p
p
)n
p2n = pn(1− p)n.
Esempio 5.9.3.SianoX1 e X2 due variabili casuali di Poisson indipendenti a
parametroλ1 eλ2 rispettivamente, determiniamo la legge di probabilità della va-
riabile casualeY = g [X ≡ (X1, X2)] = X1 +X2.
200 Capitolo 5. Variabili aleatorie
Tenendo presente cheSX1 = SX2 = SY ≡ N0, per ogniy ∈ N0 abbiamo
P(Y = y) = P(X1 +X2 = y) e per la formula della probabilità totale (3.6)
=∞∑
x=0
P(X1 = x)P(X1 +X2 = y|X1 = x) =∞∑
x=0
P(X1 = x,X1 +X2 = y)
=
y∑
x=0
P(X1 = x,X2 = y − x) e per l’ipotesi di indipendenza
=
y∑
x=0
P(X1 = x)P(X2 = y − x)
=
y∑
x=0
[exp(−λ1)λ
x1
x!
] [exp(−λ2)λ
y−x2
(y − x)!
]
= e−(λ1+λ2)
y∑
x=0
y!
y!· λx
1λy−x2
x!(y − x)!
=e−(λ1+λ2))
y!
y∑
x=0
(y
x
)
λx1λ
y−x2 =
e−(λ1+λ2)
y!
y∑
x=0
(y
x
)
λx1λ
y2λ
−x2
=e−(λ1+λ2)
y!λy2
y∑
x=0
(y
x
)(λ1
λ2
)x
e per il teorema binomiale
=e−(λ1+λ2)
y!λy2
(
1 +λ1
λ2
)y
=(λ1 + λ2)
y
y!· e−(λ1+λ2)
pertanto lav-cY è una variabile casuale di Poisson a parametroλ1 + λ2.
Esempio 5.9.4.SiaX ≡ (X1, X2) un vettore casuale ove28 X1 ∼ b(k;n, p), per
k = 0, 1, . . . , n, e X2 ∼ b(j;n, p), j = 0, 1, . . . , n. Supponiamo cheX1 e X2
sianov-c indipendenti e consideriamo il vettore casualeU ≡ (U1, U2) funzione
di X: U = g(X). PostoU1 = X1/ (X2 + 1) e U2 = X2 + 1, determiniamo
pU1U2(u1, u2) = P (U1 = u1, U2 = u2). Le trasformazioni inverse sono espresse
dalle relazioniX1 = U1 · U2 eX2 = U2 − 1, da esse segue che
SU1U2 ≡ SX1 ≡ (0, 1, . . . , n)
28X ∼ f(x) vuol significare che la funzione massa, o la densità di probabilità, di X èf(x), nel
nostro caso la distribuzione binomiale.
5.9 Funzioni di un vettore casuale 201
e
SU2 ≡ SX2+1 ≡ (0, 1, . . . , n, n+ 1).
La distribuzione congiunta diU1 eU2 è data da
pU1U2(u1, u2) = P (U1 = u1, U2 = u2)
= P (X1 = u1u2, X2 = u2 − 1) = b (u1u2;n, p) · b (u2 − 1;n, p)
=
(n
u1u2
)
pu1u2(1− p)n−u1u2 ×(
n
u2 − 1
)
pu2−1(1− p)n−(u2−1)
=
(n
u1u2
)(n
u2 − 1
)
pu1u2+u2−1(1− p)2n+1−u2−u1u2
sicché
pU1U2(n, 1) = pn(1− p)n
e, perk, j = 0, 1, 2, . . . , n,
pU1U2
(k
j + 1, j + 1
)
= P
(
U1 =k
j + 1, U2 = j + 1
)
=
(n
k
)(n
j
)
pk+j(1− p)2n−k−j.
Nel caso di una variabile casuale multidimensionale, le cuicomponenti siano as-
solutamente continue, il calcolo difg(X)[g(x)] non è altrettanto semplice; per ta-
le motivo esamineremo in dettaglio il caso bidimensionale.SiaX ≡ (X1, X2)
una variabile bidimensionale assolutamente continua con densità di probabili-
tà congiuntafX1,X2 (x1, x2) ed A un sottoinsieme del pianox1x2 definito da:
A = (x1, x2) : fX1,X2 (x1, x2) > 0. Consideriamo la funzioneU ≡ (U1, U2) =
g(X). Sia
u1 = g1(x1, x2)
u2 = g2(x1, x2)(5.89)
202 Capitolo 5. Variabili aleatorie
una trasformazione biunivoca che proiettaA su un certo sottoinsieme29 D del
pianou1u2. In altre parole supponiamo che esista la trasformazione inversa
x1 = g−11 (u1, u2)
x2 = g−12 (u1, u2)
(5.90)
per l’insieme di definizione della trasformazione. Ulteriori ipotesi sono la conti-
nuità delle funzionig1, g2, g−11 , g−1
2 , e che le derivate parziali
∂x1
∂u1
∂x1
∂u2
∂x2
∂u1
∂x2
∂u2
esistono e sono continue. Infine assumiamo che lo Jacobiano della trasformazione
inversa
J =∂(x1, x2)
∂(u1, u2)=
∣∣∣∣∣
∂x1/∂u1 ∂x1/∂u2
∂x2/∂u1 ∂x2/∂u2
∣∣∣∣∣
sia diverso da zero. La densità di probabilità congiuntafU1U2(u1, u2) è data da
fU1U2(u1, u2) = |J |fX1X2
[g−11 (u1, u2), g
−12 (u1, u2)
]. (5.91)
Per dimostrare la (5.91) richiamiamo alcune nozioni connesse al concetto di pro-
dotto vettoriale. Sianoa ≡ (ax, ay) e b ≡ (bx, by) due generici vettori ed indi-
chiamo cona ∧ b il loro prodotto vettoriale che, come è noto, è esso stesso un
vettore. Il modulo di tale vettore,|a ∧ b| = ab sin θ, è l’area del parallelogramma
individuato dai due vettori (vedi figura 5.17). Dal calcolo vettoriale si ricava
|a ∧ b| =∣∣∣∣∣
ax ay
bx by
∣∣∣∣∣= axby − aybx. (5.92)
Nel sistema di assi cartesianix1x2 fissiamo un rettangolinoR ⊂ A di areadx1dx2
(vedi figura 5.18), il prodottofX1X2 (x1, x2) dx1dx2 è la probabilità che la varia-
bile casuale bidimensionale(X1, X2) assuma valori all’interno diR.
29D è un sottoinsieme del pianou1u2 costituito dai punti(u1, u2) per i quali esiste un elemento
(x1, x2) ∈ A tale che(u1, u2) = [g1(x1, x2), g2(x1, x2)].
5.9 Funzioni di un vettore casuale 203
b
aθ
Figura 5.17: Significato geometrico del modulo di un prodotto vettoriale.
Sex1 varia di una quantitàdx1, come conseguenza, nel pianou1u2, la variazione
di u1 saràdu1 = (∂u1/∂x1) dx1 e, quella diu2, du2 = (∂u2/∂x1) dx1. Analoga-
mente, ad una variazionedx2 di x2 corrispondono le variazioni(∂u1/∂x2) dx2 e
(∂u2/∂x2) dx2 di u1 eu2, rispettivamente. Pertanto le (5.89) trasformano il rettan-
goloR ⊂ A del pianox1x2 nel parallelogrammaS ⊂ D nel sistema di coordinate
u1u2, come mostrato nella figura 5.19. Le precedenti considerazioni consentono
di scrivere la relazione
P [(X1, X2) ∈ R] ≡ fX1X2 (x1, x2) dx1dx2︸ ︷︷ ︸
area diR
= fU1U2 (u1, u2)× area diS ≡ P [(U1, U2) ∈ S] . (5.93)
A questo punto si osservi che la lunghezza della base diS coincide con il modu-
lo del vettore
(∂u1
∂x1· dx1,
∂u2
∂x1· dx1
)
, mentre la lunghezza del lato obliquo con
204 Capitolo 5. Variabili aleatorie
x1
x2
dx1
dx2R
Figura 5.18:R ⊂ A.
il modulo del vettore
(∂u1
∂x2· dx2,
∂u2
∂x2· dx2
)
. Pertanto, dalla (5.92) segue che
l’area del parallelogrammaS è∣∣∣∣∣∣∣∣∣∣
∂u1
∂x1· dx1
∂u2
∂x1· dx1
∂u1
∂x2· dx2
∂u2
∂x2· dx2
∣∣∣∣∣∣∣∣∣∣
=
∣∣∣∣∣∣∣∣∣∣
∂u1
∂x1
∂u2
∂x1
∂u1
∂x2
∂u2
∂x2
∣∣∣∣∣∣∣∣∣∣
dx1dx2. (5.94)
Poiché il valore del determinante di una matrice non cambia se in essa si scambia-
no le righe con le colonne, la (5.94) può essere riscritta come∣∣∣∣∣∣∣∣∣∣
∂u1
∂x1
∂u2
∂x1
∂u1
∂x2
∂u2
∂x2
∣∣∣∣∣∣∣∣∣∣
dx1dx2 =
∣∣∣∣∣∣∣∣∣∣
∂u1
∂x1
∂u1
∂x2
∂u2
∂x1
∂u2
∂x2
∣∣∣∣∣∣∣∣∣∣
dx1dx2 = |J |dx1dx2. (5.95)
5.9 Funzioni di un vettore casuale 205
(∂ u1/∂ x
1)dx
1
(∂ u2/∂ x
1)dx
1
(∂ u2/∂ x
2)dx
2
(∂ u1/∂ x
2)dx
2
u1
u2
S
Figura 5.19:S ⊂ D
Nella (5.95) è stato introdotto il valore assoluto|J | del determinante Jacobiano30
∂(u1, u2)
∂(x1, x2)in quanto l’area di un poligono è un numero reale positivo. Ilvalore
assoluto diJ svolge il ruolo difattore di trasformazioneper la misura delle aree
quando si passa dal sistema di coordinatex1x2 al sistema di coordinateu1u2:
l’area del parallelogrammaS è |J | volte l’area del rettangoloR. Dalla (5.93) e
dalla (5.95) deduciamo che
fX1X2 (x1, x2) dx1dx2 = fU1U2 (u1, u2) |J |dx1dx2
da cui segue
fX1X2 (x1, x2) = |J |fU1U2 (u1, u2)
30Si sottolinea che in questo casoJ è il determinate Jacobiano della trasformazione diretta
ui = gi(x1, x2), i = 1, 2.
206 Capitolo 5. Variabili aleatorie
ed infine
fU1U2 (u1, u2) =
∣∣∣∣
∂(u1, u2)
∂(x1, x2)
∣∣∣∣
−1
fX1X2 (x1, x2)
ovexi = g−1i (u1, u2), i = 1, 2. Fino ad ora abbiamo fatto ricorso al determinante
Jacobiano della trasformazione diretta laddove nella (5.91) compare quello della
trasformazione inversa. Ragionando all’inverso, ovvero passando dal sistema di
coordinateu1u2 al sistema di coordinatex1x2, il fattore di conversione di un’area
nel pianou1u2 nella sua immagine nel pianox1x2 è il valore assoluto del determi-
nate Jacobiano∂(x1, x2)/∂(u1, u2). Infine si perviene alla (5.91) esprimendox1 e
x2 in funzione diu1 eu2:
x1 = g−11 (u1, u2)
e
x2 = g−12 (u1, u2).
Esempio 5.9.5.Supponiamo che la variabile casuale(X1, X2) abbia la funzione
fX1X2 (x1, x2) =
exp (−x1 − x2) sex1 > 0, x2 > 0
0 altrove
come funzione densità di probabilità congiunta e di essere interessati alla densità
congiunta di(X1 +X2, X2/X1). Le trasformazioni coinvolte sono
u1 = x1 + x2
u2 =x2
x1
e le inverse
x1 =u1
1 + u2
x2 =u1u2
1 + u2
5.9 Funzioni di un vettore casuale 207
che pongono in corrispondenza biunivoca i punti nel primo quadrante del piano
x1x2 e quelli nel primo quadrante del pianou1u2. Si ha
∂(x1, x2)
∂(u1, u2)=
∣∣∣∣∣
∂x1/∂u1 ∂x1/∂u2
∂x2/∂u1 ∂x2/∂u2
∣∣∣∣∣
=
∣∣∣∣∣∣∣∣∣
1
1 + u2
− u1
(1 + u2)2
u2
1 + u2
u1
1 + u2
− u1u2
(1 + u2)2
∣∣∣∣∣∣∣∣∣
=u1
(1 + u2)2> 0 .
In conclusione, seu1, u2 > 0, abbiamo
fU1U2 (u1, u2) =u1
(1 + u2)2× exp
(
− u1
1 + u2− u1u2
1 + u2
)
= u1 exp (−u1)×1
(1 + u2)2
e saràfU1U2 (u1, u2) = 0, altrove. Le variabili casualiU1 eU2 sono indipendenti.
Esempio 5.9.6.Si supponga cheX1 e X2 siano variabili casuali indipendenti,
ognuna uniformemente distribuita nell’intervallo(0, 1). Abbiamo
fX1X2 (x1, x2) = fX1 (x1) fX2 (x2)
e
A = (x1, x2) : 0 < x1 < 1 e0 < x2 < 1coincide con il quadrato di lato unitario con un vertice nell’origine degli assi (vedi
figura 5.20).
SiaU1 = X1 + X2 eU2 = X2 − X1, determiniamofU1U2 (u1, u2). La relazione
(5.89) diventa31
u1 = g1 (x1, x2) = x1 + x2
u2 = g2 (x1, x2) = x2 − x1
31Si osservi cheu1 ∈ (0, 2) eu2 ∈ (−1, 1).
208 Capitolo 5. Variabili aleatorie
0 1
1
x1
x2
A
x2=0
x2=1
x1=0
x1=1
Figura 5.20:A ≡ (x1, x2) : fX1X2(x1, x2) > 0.
mentre
x1 = g−11 (u1, u2) =
12(u1 − u2)
x2 = g−12 (u1, u2) =
12(u1 + u2)
rappresenta la trasformazione inversa. Si noti che la trasformazione
ui = gi (x1, x2) (i = 1, 2)
proiettaA nel sottoinsiemeD del pianou1u2 (vedi figura 5.21). Infatti la frontiera
x1 = 0 di A diventa la frontiera diD 1/2(u1 − u2) = 0, ovverou2 = u1; la
frontierax2 = 0 di A diventa1/2(u1+u2) = 0, ovverou2 = −u1. Analogamente
la frontierax1 = 1 diventau2 = u1 − 2 ex2 = 1 diventau2 = 2− u1.
Il determinante Jacobiano della trasformazione inversa è
∂(x1, x2)
∂(u1, u2)=
∣∣∣∣∣
∂x1/∂u1 ∂x1/∂u2
∂x2/∂u1 ∂x2/∂u2
∣∣∣∣∣=
∣∣∣∣∣
1/2 −1/2
1/2 1/2
∣∣∣∣∣= 1/2.
5.9 Funzioni di un vettore casuale 209
0 1 2
−2
−1
0
1
2
u1
u2
D
u2 = u
1
u2 = −u
1
u2 =2− u
1
u2 = u
1−2
Figura 5.21:D ≡ (u1, u2) : fU1U2(u1, u2) > 0.
Si ha
fU1U2 (u1, u2) = |J |fX1X2
[g−11 (u1, u2) , g
−12 (u1, u2)
]
=1
2× fX1
[g−11 (u1)
)]× fX2
[g−12 (u2)
)]
=1
2× fX1
(u1 − u2
2
)
× fX2
(u1 + u2
2
)
e quindifU1U2 (u1, u2) = 1/2 per(u1, u2) ∈ D, fU1U2 (u1, u2) = 0 altrimenti. In
termini più dettagliati, tenuto conto dell’espressione analitica della distribuzione
uniforme,fU1U2 (u1, u2) = 1/2 seu1 eu2 verificano le condizione
0 <u1 − u2
2< 1 e 0 <
u1 + u2
2< 1
o l’equivalente
0 < u1 − u2 < 2 e 0 < u1 + u2 < 2 .
210 Capitolo 5. Variabili aleatorie
Calcoliamo le densità marginali32. Per quanto concerneU1 si ha
fU1(u1) =1
2
∫ u1
−u1
du2 = u1 seu1 ∈ (0, 1]
=1
2
∫ 2−u1
u1−2
du2 = 2− u1 seu1 ∈ (1, 2)
edfU1(u1) = 0 altrimenti. Analogamente otteniamo
fU2(u2) =1
2
∫ u2+2
−u2
du1 = 1 + u2 seu2 ∈ (−1, 0]
=1
2
∫ 2−u2
u2
du1 = 1− u2 seu2 ∈ (0, 1)
edfU2(u2) = 0 altrimenti.
La (5.91) si generalizza al caso di variabili casualin-dimensionali, conn > 2;
illustreremo il procedimento con un esempio.
Esempio 5.9.7.SiaX = (X1, X2, X3) una variabile casuale tridimensionale, sup-
poniamo, inoltre, che le variabili casualiXi siano indipendenti ed identicamente
distribuite con una densità esponenzialefXi(xi) = exp (−xi), sexi ∈ (0,+∞), e
fXi(xi) = 0, sexi /∈ (0,+∞), con(i = 1, 2, 3). SiaU = (U1, U2, U3) ≡ g(X);
definiamo la trasformazione diretta come
u1 = g1 (x1, x2, x3) = x1 + x2 + x3
u2 = g2 (x1, x2, x3) =x1 + x2
x1 + x2 + x3
u3 = g3 (x1, x2, x3) =x1
x1 + x2
da cui si ottieneu2 = (x1 + x2)/u1, x1 + x2 = u1u2, u3 = x1/u1u2 ed infine:
x1 = u1u2u3.
32u1 ∈ (0, 2), u2 ∈ (−1, 1); per i limiti di integrazione fare riferimento alla figura.
5.9 Funzioni di un vettore casuale 211
Inoltre si ha
x2 = u1u2 − x1 = u1u2 − u1u2u3 = u1u2(1− u3)
e
x3 = u1 − (x1 + x2) = u1 − u1u2 = u1(1− u2).
In virtù delle precedenti relazioni, lo Jacobiano della trasformazione inversa è
J =
∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣
∂x1
∂u1
∂x1
∂u2
∂x1
∂u3
∂x2
∂u1
∂x2
∂u2
∂x2
∂u3
∂x3
∂u1
∂x3
∂u2
∂x3
∂u3
∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣
=
∣∣∣∣∣∣∣
u2u3 u1u3 u1u2
u2(1− u3) u1(1− u3) −u1u2
1− u2 −u1 0
∣∣∣∣∣∣∣
= −u21u2.
Notiamo chefX1X2X3 = exp(−x1) exp(−x2) exp(−x3) = exp[−(x1 + x2 + x3)]
e cheu1 ∈ (0,+∞), u2, u3 ∈ (0, 1). La densità diU è
fU1U2U3(u1, u2, u3) =(u21u2
)× e−u1 =
(u21e
−u1)u2.
CAPITOLO 6
Caratteristiche numeriche delle
variabili aleatorie
Abbiamo sottolineato in precedenza come la descrizione piùcompleta di una va-
riabile casuale sia rappresentata dalla sua funzione di distribuzione. Infatti essa
indica sia i valori che la variabile casuale può assumere siacon quale probabilità
questi valori occorrono. Dalla funzione di distribuzione,applicando determinate
regole, si calcolano alcuni parametri caratteristici delle variabili aleatorie. Fra que-
ste costanti la più comune è la cosiddettamediao speranza matematicao valore
attesoo valore di aspettazione.
Definizione 6.0.1.SianoX una variabile casuale eg : R → R una funzione
Borel-misurabile; consideriamo la variabile aleatoriag(X).
(i) Supponiamo cheX sia discreta, con spettro a cardinalità numerabile e fun-
zione massapX(xi)i∈N. Se∑∞
i=1 |g(xi)|pX(xi) < +∞, si definisce spe-
ranza matematica dig(X) la quantità
E[g(X)] =
∞∑
i=1
g(xi)pX(xi) (6.1)
214 Capitolo 6. Caratteristiche numeriche delle variabilialeatorie
(ii) SeX è assolutamente continua, con densità di probabilitàfX(x), definiamo
speranza matematica dig(X) la quantità
E[g(X)] =
∫ ∞
−∞
g(x)fX(x)dx (6.2)
a patto che∫∞
−∞|g(x)|fX(x)dx < +∞.
In accordo alla precedente definizione possiamo affermare cheE[g(X)] esiste se
risulta E[|g(X)|] < +∞. Nel seguito, specificando opportunamente la legge
g(X), esamineremo alcuni casi di interesse.
6.1 Valore medio
Se g(X) = X, le formule 6.1 e 6.2 consentono il calcolo del valore medio o
momento di ordine 1 della variabile casualeX. In particolare si ha
(iii) per X discreta, se la serie∑
i xipX(xi) è assolutamente convergente, allora
E[X ] ≡ µ =
∞∑
i=1
xipX(xi) (6.3)
(iv) perX assolutamente continua
E[X ] =
∫ ∞
−∞
xfX(x)dx (6.4)
a patto che la funzione|x|fX(x) sia integrabile.
Osservazione6.1.1. I termini, valore atteso o valore di aspettazione quali sinoni-
mi di valore medio potrebbero indurre in errore, infatti il valoreµ ≡ E[X ] non
6.1 Valore medio 215
necessariamente coincide con uno dei valori che lav-cX può assumere una vol-
ta eseguito l’esperimento casualeE . Si consideri, ad esempio, l’esperimento del
lancio di un dado; si ha
µ =
6∑
i=1
i · pi = (1 + 2 + 3 + 4 + 5 + 6)1
6=
21
6= 3.5
che non è tra i risultati possibili.
Osservazione6.1.2. Se conFX denotiamo la funzione di distribuzione della va-
riabile casualeX, i termini media diX e media diFX sono da intendersi come
sinonimi.
Osservazione6.1.3. Il concetto di valore medio può essere messo in relazione al
concetto di baricentro proprio della meccanica. A tale scopo prendiamo in esame
il caso di una distribuzione di probabilità discreta e finitap(xi)i∈[1,n]; imma-
giniamo di disporre lungo una retta, nei punti di coordinatax1, x2, . . . , xn, delle
biglie di massap(x1), p(x2), . . . , p(xn) rispettivamente. La speranza matematica∑
i xi · p(xi) coincide, ricordando che∑
i p(xi) = 1, con il baricentro del sistema
di masse:
xB =
∑ni=1 xi ·mi∑n
i=1mi.
Da un punto di vista meccanico possiamo studiare il sistema immaginando che la
massa complessiva, unitaria nel nostro caso, in concentrata nel baricentro: il punto
di ascissaxB. Naturalmente l’analogo meccanico, seX è assolutamente continua,
è ancora valido. In questo caso dobbiamo immaginare di diluire la massa unitaria
sull’asse delle ascisse con una densitàρ(x) uguale alla densità di probabilitàf(x):
xB =
∫ +∞
−∞xρ(x)dx
∫ +∞
−∞ρ(x)dx
=
∫ +∞
−∞xf(x)dx
∫ +∞
−∞f(x)dx
=
∫ +∞
−∞
xf(x)dx ≡ µ.
216 Capitolo 6. Caratteristiche numeriche delle variabilialeatorie
Esempio 6.1.1. Variabile casuale del Bernoulli
EssendoP(X = 1) = p eP(X = 0) = 1− p, si ha
E[X ] = 1 · p+ 0 · (1− p) = p (6.5)
sicché il numero atteso di successi in una singola prova del Bernoulli coincide con
la probabilità che la prova dia luogo ad un successo.
Esempio 6.1.2. Variabile casuale binomiale
Ricordando la 4.1 possiamo scrivere
E[X ] =
n∑
i=0
i · b(i;n, p) =n∑
i=0
i
(n
i
)
pi(1− p)n−i =
n∑
i=1
i
(n
i
)
pi(1− p)n−i
=n∑
i=1
i · n!i! · (n− i)!
pi(1− p)n−i =n∑
i=1
n!
(i− 1)! · (n− i)!pi(1− p)n−i
= np
n∑
i=1
(n− 1)!
(i− 1)! · (n− i)!pi−1(1− p)n−i.
Eseguiamo la trasformazione di variabilek = i − 1. Peri = 1 si hak = 0 e per
i = n risultak = n− 1. Pertanto
n∑
i=1
(n− 1)!
(i− 1)! · (n− i)!pi−1(1− p)n−i
=
n−1∑
k=0
(n− 1)!
(k + 1− 1)! · (n− k − 1)!pk(1− p)n−k−1
=
n−1∑
k=0
(n− 1
k
)
pk(1− p)(n−1)−k =
m∑
k=0
(m
k
)
pk(1− p)m−k = 1
in virtù della condizione di normalizzazione (4.2). In conclusione
E[X ] =
n∑
i=0
i · b(i;n, p) = np. (6.6)
6.1 Valore medio 217
La media della distribuzione binomiale è uguale al prodottodel numero delle
prove per la probabilitàp di successo.
Esempio 6.1.3. Distribuzione di Poisson
SiaX una variabile casuale di Poisson, si ha
E[X ] =∞∑
i=0
i · p(i, λ) =∞∑
i=0
i · e−λ · λi
i!= e−λ
∞∑
i=1
λi
(i− 1)!
= λ · e−λ∞∑
i=1
λi−1
(i− 1)!(ponendoj = i− 1)
= λ · e−λ∞∑
j=0
λj
j!= λ · e−λ · eλ = λ (6.7)
ove si è fatto uso dell’identità∑∞
j=0
λj
j!= eλ. La (6.7) afferma che il parametroλ
che compare nella (4.10) coincide con il valore medio dellav-cdi Poisson.
Esempio 6.1.4. Variabile casuale geometrica
Ricordando l’espressione analitica (4.12) della densità di probabilità della varia-
bile casuale geometrica e ponendoq = 1− p, possiamo scrivere1
E[X ] =
∞∑
k=0
k · f(k; 1, p) =∞∑
k=1
k · p · qk = p(q + 2q2 + 3q3 + · · ·
)
= p · q(1 + 2q + 3q2 + · · ·
)= p · q
∞∑
k=1
k · qk−1 = p · q∞∑
k=1
d
dq
[qk]
= p · q · d
dq
[∞∑
k=1
qk
]
= p · q · d
dq
[q
1− q
]
= p · q · 1
(1− q)2
=q · pp2
= q/p. (6.8)
1Si ha∑∞
k=0 qk = 1/(1 − q), da cui1 +
∑∞k=1 q
k = 1/(1 − q) ed ancora∑∞
k=1 qk =
1/(1− q)− 1 = q/(1− q).
218 Capitolo 6. Caratteristiche numeriche delle variabilialeatorie
Il valore diE[X ], espresso dalla (6.8), è il numero medio diinsuccessiche prece-
dono ilprimo successoin una successione di prove del Bernoulli.
Osservazione6.1.4. La speranza matematica della distribuzione geometrica mo-
dificata (4.17) è uguale ad1/p.
Esempio 6.1.5. Distribuzione binomiale negativa
Calcoliamo ora il valore medio di una variabile casualeXr con funzione massa
data dalla distribuzione binomiale negativa
f(k; r, p) =
(−r
k
)
pr(−q)k k ∈ N0.
Per la definizione data di valore medio, possiamo scrivere
E [Xr] =
∞∑
k=0
kf(k; r, p) =
∞∑
k=1
kf(k; r, p).
Sviluppiamo il prodottokf(k; r, p); si ha
kf(k; r, p) = k
(−r
k
)
pr(−q)k = k
(−r
k
)
p−1pr+1(−q)k−1(−q) (6.9)
ove, per la definizione di coefficiente binomiale,(−r
k
)
=(−r)kk!
=(−r)(−r − 1)(−r − 2) · · · (−r − k + 1)
k!
e, quindi,
k
(−r
k
)
=(−r)(−r − 1)(−r − 2) · · · (−r − k + 1)
(k − 1)!.
Osserviamo che
(−r − 1)k−1 = (−r − 1) · [(−r − 1)− 1]︸ ︷︷ ︸
−r−2
· [(−r − 1)− 2]︸ ︷︷ ︸
−r−3
·
· · · [(−r − 1)− (−k − 1) + 1]︸ ︷︷ ︸
−r+k+1
6.1 Valore medio 219
ed allora si ricava
k
(−r
k
)
= (−r)(−r − 1)k−1
(k − 1)!= (−r)
(−r − 1
k − 1
)
= (−r)
(−(r + 1)
k − 1
)
.
I risultati precedenti consentono di riscrivere la (6.9) come
kf(k; r, p) = (−r)p−1(−q)
(−(r + 1)
k − 1
)
pr+1(−q)k−1 =rq
pf(k − 1; r + 1, p)
ed, in conclusione, si ottiene la relazione
E [Xr] =rq
p
∞∑
k=1
f(k − 1; r + 1, p)
︸ ︷︷ ︸
1
= r(q/p). (6.10)
Per convincersi della validità della precedente relazionesi ponga2 r + 1 = l e
j = k − 1, si ha∞∑
k=1
f(k − 1; r + 1, p) =
∞∑
j=0
f(j; l, p) ≡ 1.
Esempio 6.1.6. Distribuzione ipergeometrica
SiaX unav-ccon densità di probabilità ipergeometrica, calcoliamo
E[X ] =∞∑
k=0
k
(a
k
)(b
n− k
)
/
(a + b
n
)
=
(a+ b
n
)−1
·∞∑
k=1
k
(a
k
)(b
n− k
)
. (6.11)
La serie che compare nella definizione del valore medio (6.11) è solo apparen-
temente una serie infinita in quanto i coefficienti binomiali,
(a
k
)
e
(b
n− k
)
, si
annullano perk > a e n − k > b, rispettivamente. nel seguito continueremo a
2Si rammenti cher è un intero positivo.
220 Capitolo 6. Caratteristiche numeriche delle variabilialeatorie
considerarla come tale per esigenze formali. Calcoliamo lasomma della serie a
secondo membro; per la (2.15) si ha
∞∑
k=1
k
(a
k
)(b
n− k
)
=
∞∑
k=1
a
(a− 1
k − 1
)(b
n− k
)
= a
∞∑
l=0
(a− 1
l
)(b
n− 1− l
)
= a
(a+ b− 1
n− 1
)
ove si è fatto uso del cambiamento di variabilel = k − 1 e dell’identità ipergeo-
metrica (2.20). Infine, ritornando alla (6.11), possiamo porre
E[X ] =
(a + b
n
)−1
·∞∑
k=1
k
(a
k
)(b
n− k
)
=
a
(a+ b− 1
n− 1
)
(a + b
n
)
= a · (a+ b− 1)!
(a+ b)!· n! · (a + b− n)!
(n− 1)! · (a+ b− n)!= an(a+ b)−1. (6.12)
Esempio 6.1.7. Densità di probabilità di Cauchy
La funzione
f(x) =[π(1 + x2
)]−1x ∈ R (6.13)
è denominata densità di probabilità diCauchy, Essa è non negativa∀x ∈ R ed
inoltre∫ +∞
−∞
f(x)dx =1
π
∫ +∞
−∞
1
1 + x2dx =
1
π· arctan |+∞
−∞ =1
π·(π
2+
π
2
)
= 1 .
La densità di Cauchy non ammette valore medio, infatti
∫ +∞
−∞
|x|1 + x2
dx = 2
∫ +∞
0
x
1 + x2dx = 2 · 1
2· ln
(1 + x2
)∣∣+∞
0= +∞.
6.1 Valore medio 221
Esempio 6.1.8. Speranza matematica di una variabile casuale esponenziale
Ricordando la definizione di densità di probabilità esponenziale a parametroγ, il
valore atteso diX è
E[X ] =
∫ +∞
0
xγe−γxdx =1
γ. (6.14)
Infatti, integrando per parti3 si ha
∫ +∞
0
xγe−γxdx = −x e−γx∣∣+∞
0+
∫ +∞
0
e−γxdx
= 0− 1
γ· e−γx
∣∣+∞
0= −1
γ· (0− 1) = 1/γ.
Il precedente risultato dimostra che la speranza matematica di un variabile casuale
esponenziale coincide con il reciproco del parametro che caratterizza la funzione
di distribuzione.
Nell’ipotesi che il tempo di attesa per effettuare un’operazione presso uno spor-
tello bancario sia una variabile casuale esponenzialeT con mediaµ = 6 minuti,
calcoliamo la probabilità che un cliente attenda più dieci minuti. Essendoγ = 1/6
e utilizzando la relazione (5.28), si ha
P(T > 10) = 1− P(T 6 10) = exp
(
−1
6· 10)
= exp
(
−5
3
)
≈ 0.19 .
Inoltre la probabilià che il cliente attenda dieci minuti per essere servito, sapendo
che ne ha già atteso quattro, è, per la (5.30),
P(T > 4 + 6|T > 4) = exp
(
−1
6· 6)
= e−1 ≈ 0.37 .
Esempio 6.1.9. Speranza matematica di una variabile casuale uniforme
Sia X un v-a con densità di probabilità uniforme nell’intervallo dell’asse reale
3Si ha∫u(x)v′(x)dx = u(x)v(x) −
∫u′(x)v(x)dx oveu(x) = x e v(x) = − exp(−γx);
inoltre risultad
dx[− exp(−γx)] = +γ exp(−γx)
222 Capitolo 6. Caratteristiche numeriche delle variabilialeatorie
[a, b]; la funzionef(x) è così definita:f(x) = (b − a)−1, se0 6 a 6 x 6 b,
f(x) = 0 altrove. Si ha
E[X ] =
∫ b
a
x
b− adx =
1
b− a
∫ b
a
xdx =1
b− a· x
2
2
∣∣∣∣
b
a
=1
b− a· 12·(b2 − a2
)=
a+ b
2. (6.15)
Osservazione6.1.5. Se si poneg(x) = |x|, E[|X|] prende il nome dimomento
assolutodella variabile casualeX. Possiamo, allora, affermare cheX, discreta o
assolutamente continua, ammette un valore medio se esiste il momento assoluto
E[|X|].Teorema 6.1.1.SeX ammette una mediaE[X ], allora, ∀a, b ∈ R,
E[aX + b] = aE[X ] + b. (6.16)
Dimostrazione.Dobbiamo innanzitutto dimostrare cheE[|aX + b|] < +∞. A
tale scopo, dalla disuguaglianza triangolare4 e dalla non negatività dif(x), segue
E[|aX + b|] ≡∫ +∞
−∞
|ax+ b|f(x)dx
6
∫ +∞
−∞
|ax|f(x)dx︸ ︷︷ ︸
E[|aX|]
+
∫ +∞
−∞
|b|f(x)dx︸ ︷︷ ︸
E[|b|]
= |a|E[|X|] + |b| < +∞.
La precedente relazione assicura cheg(X) = aX + b ammette una media finita,
in particolare
E[aX + b] =
∫ +∞
−∞
(ax+ b)f(x)dx
= a
∫ +∞
−∞
xf(x)dx+ b
∫ +∞
−∞
f(x)dx = aE[X ] + b.
La dimostrazione è del tutto analoga nel caso discreto4|a+ b| 6 |a|+ |b|
6.2 Momenti di ordine superiore 223
Proposizione 6.1.1.SeX è una variabile casuale che assume solamente valo-
ri non negativi, per ogni numero realea sussiste la seguentedisuguaglianza di
Markov:
P(X > a) 6 µX/a. (6.17)
Per la verifica della (6.17) limitiamoci a considerare il caso di X assolutamente
continua con funzione densità di probabilitàfX(x).
Si ha
µX =
∫ +∞
0
xfX(x)dx =
∫ a
0
xfX(x)dx+
∫ +∞
a
xfX(x)dx
>
∫ +∞
a
xfX(x)dx >
∫ +∞
a
afX(x)dx = a
∫ +∞
a
fX(x)dx = aP(X > a)
e la validità della disuguaglianza di Markov è stata dimostrata.
6.2 Momenti di ordine superiore
Ponendo nella 6.1 e nella 6.2g(x) = xk, conk ∈ N0, si definiscono i cosiddetti
momenti di ordinek
µk ≡ E[Xk]=∑
i
xki pX(xi) (seX è discreta) (6.18a)
µk ≡ E[Xk]=
∫ ∞
−∞
xkfX(x)dx (seX è assolutamente continua) (6.18b)
sempre assumendo che risultino verificate le condizioni∑ |g(x)|pX(xi) < +∞
e∫ +∞
−∞|g(x)|fX(x)dx < +∞, rispettivamente. I momentiµk sono spesso deno-
minati momentiintorno all’origine. Sek = 0 si haµ0 = 1 che esprime sem-
plicemente la condizione di normalizzazione; nel caso in cui k = 1 si ricade nel
caso prima esaminato del momento di ordine 1 o del valore medio. Il momento di
ordine 2,µ2 = E [X2], prende il nome di media quadratica dellav-aX.
224 Capitolo 6. Caratteristiche numeriche delle variabilialeatorie
La definizione deimomenti assoluti di ordinek, E[|X|k
], è del tutto analoga a
quelle precedentemente date∑
i
|xi|kpX(xi)
∫ ∞
−∞
|x|kfX(x)dx
per distribuzioni di probabilità discrete e continue, rispettivamente.
Osservazione6.2.1. Poiché∣∣xk∣∣ = |x|k, l’esistenza del momento assoluto di
ordinek implica l’esistenza diµk.
Applicando le relazioni menzionate nella definizione 6.0.1cong(x − µ), si defi-
nisconomomenti centrali di ordinek:
µ′
k = E[(X − µ)k
]k ∈ N0. (6.19)
Corollario 6.2.1. SeX è dotata di media finita alloraµ′
1 ≡ E[(X − µ)] = 0.
Dimostrazione.La dimostrazione segue dal teorema 6.1.1 se si assumea = 1 e
b = −E[X ].
Teorema 6.2.1.Seµn < +∞, esistono allora finiti tutti i momentiµm, ∀m < n.
Dimostrazione.Per dimostrare la tesi è sufficiente dimostrare che seµr < +∞ancheµr−1 < +∞. Si rammenti cheµr−1 esiste finito se la funzionexr−1fX(x) è
assolutamente integrabile (o sommabile). Possiamo scrivere∫ ∞
−∞
|x|r−1fX(x)dx =
∫
|x|61
|x|r−1fX(x)dx+
∫
|x|>1
|x|r−1fX(x)dx
6
∫ +∞
−∞
fX(x)dx+
∫
|x|>1
|x|r−1fX(x)dx = 1 +
∫
|x|>1
|x|r−1fX(x)dx.
La condizione|x| > 1 implica che|x|r−1 < |x|r, pertanto∫ ∞
−∞
|x|r−1fX(x)dx < 1 +
∫
|x|>1
|x|rfX(x)dx < 1 +
∫ ∞
−∞
|x|rfX(x)dx < +∞
e la tesi è stata verificata perX assolutamente continua. La dimostrazione, nel
caso discreto, è analoga.
6.2 Momenti di ordine superiore 225
6.2.1 La varianza di una variabile casuale
Per introdurre il concetto di varianza è utile fare riferimento al modello meccanico
che ha consentito di mettere in relazione il valore di aspettazione con il baricentro
di un sistema lineare di masse. La conoscenza della posizione del centro di gravità
non dà alcuna informazione circa ladispersionedelle masse intorno ad esso. In
meccanica tale informazione è insita nelmomento di inerziaI. Indicando consjla distanza della massamj dal baricentro del sistema (lineare) di masse, si ha
I =∑
j
mj · s2j .
Nel caso che la distribuzione della massa unitaria sia continua, con densitàρ(s),
la precedente definizione assume la forma5
I =
∫ +∞
−∞
s2ρ(s)ds.
Tornando alla nostra variabile casualeX, il valoreµ è una misura della tendenza
centrale della densità di probabilitàfX(x), seX è assolutamente continua, o, nel
caso discreto, della distribuzionepX(xi). Qual è il parametro che può svolgere
lo stesso ruolo del momento d’inerzia e, quindi, consentireuna valutazione quan-
titativa della dispersione intorno al valore medio dei valori assunti dalla variabile
casuale? Poichè la media delle deviazioniX − µ è nulla (vedi il corollario 6.2.1),
è chiaro che non possiamo usareE[X − µ] come una misura di dispersione. Una
possibiltà potrebbe essere rappresentata dalla speranza matematica di|X−µ|, ma
i calcoli matematici che coinvolgono i valori assoluti non sono sempre agevoli.
Una ulteriore alternativa consiste nel considerare lav-c (X − µ)2.
5In questo caso, invece delle masse discretemj , dobbiamo considerare le massa distribuita
nell’intervallinods: dm = ρ(s)ds.
226 Capitolo 6. Caratteristiche numeriche delle variabilialeatorie
Definizione 6.2.1.SiaX una variabile casuale tale cheE [X2] < +∞, la varianza
di X è definita come il momento centrale di ordine 2
σ2X ≡ E
[(X − µ)2
]. (6.20)
La radice quadrataσX è denominatadeviazione standarddi X. Unav-c dotata di
varianza finita ènon degenere.
In particolare, seX è di tipo discreto si haσ2X =
∑
j
(xj − µ)2 pX(xi); seX è
assolutamente continua, la varianza è data daσ2X =
∫ +∞
−∞
(x− µ)2f(x)dx.
Vale la seguente importante relazione:
σ2X ≡ E
[(X − µ)2
]= E
[X2 − 2µX + µ2
]
= E[X2]− 2µE[X ] + µ2 = E
[X2]− µ2. (6.21)
Osservazione6.2.2. Se lav-cX assume valori prossimi alla speranza matematica
µ, il valore diσ2X = E [(X − µ)2] sarà piccolo, viceversa accade seX tende ad
assumere valori molto diversi dalla media. La varianza è il valore atteso della
variabile casuale scarto quadratico rispetto alla media.
Osservazione6.2.3. Siac un numero reale, si ha
E[(X − c)2
]= E
[(X − µ− c+ µ)2
]
= E[(X − µ)2
]− 2(c− µ)E[X − µ] + (c− µ)2 = σ2
X + (c− µ)2.
Dalla precedente relazione segue cheE [(X − c)2] assume il valore minimo se si
ponec = µ.
Proposizione 6.2.1.Moltiplicando la variabile casualeX per un costante realea
si produce il seguente effetto sulla varianza:
σ2aX = a2σ2
X . (6.22)
6.2 Momenti di ordine superiore 227
Infatti si ha
σ2aX = E
[(aX)2
]− E[aX ]2 = a2E
[X2]− (aE[X ])2
= a2E[X2]− a2(E[X ])2 = a2
E[X2]− (E[X ])2
= a2σ2
X .
Proposizione 6.2.2.La varianza non cambia se si somma una costante alla va-
riabile casuale:
σ2X+a = σ2
X . (6.23)
Infatti
σ2X+a = E
[(X + a)2
]− E[X + a]2
= E[X2]+ 2aE[X ] + a2 − E[X ] + a2
= E[X2]+ 2aE[X ] + a2 − (E[X ])2 − 2aE[X ]− a2
= E[X2]− (E[X ])2 ≡ σ2
X
e la (6.23) è stata verificata.
Teorema 6.2.2.Una variabile casuale X a valore medioµ < +∞ e varianza
nulla assume il valoreµ con probabilità 1:
P(|X − µ| > ε) = 0 ∀ε > 0 .
Dimostrazione.Supponiamo per assurdo che la tesi non sia vera, ossia esisteun
valore di ε positivo per il quale si haP(|X − µ| > ε) > 0. Dovrebbe allora
risultare, in contraddizione con l’ipotesi posta,σ2 > 0, infatti
σ2 =
∫ +∞
−∞
(x− µ)2f(x)dx
=
∫
|x−µ|>ε
(x− µ)2f(x)dx+
∫
|x−µ|6ε
(x− µ)2f(x)dx
>
∫
|x−µ|>ε
(x− µ)2f(x)dx > ε2P(|X − µ| > ε) > 0 .
228 Capitolo 6. Caratteristiche numeriche delle variabilialeatorie
Quindi,∀ε > 0, deve essere verificata la relazioneP(|X − µ| > ε) = 0 che, per
l’arbitrarietà diε, implica cheX assume il valoreµ con probailità 1.
Definizione 6.2.2.SeX è una variabile aleatoria di valore medioµ finito e va-
rianzaσ2 finita e non nulla, lav-a
Y =X − µ
σ
è lanormalizzatao standardizzatadi X.
La definizione si giustifica osservando cheµY = 0 eσY = 1.
Esempio 6.2.1. Distribuzione binomiale
Prima di procedere al calcolo della varianza della distribuzione binomiale, ricor-
diamo che, dato un numero naturale arbitrion, una utile applicazione del coeffi-
ciente binomiale è il calcolo della potenza(x+ y)n. Infatti in algebra si dimostra
la formula
(x+ y)n =n∑
k=0
(n
k
)
xkyn−k. (6.24)
Derivando ambo i membri della 6.24 rispetto adx, otteniamo
n(x+ y)n−1 =n∑
k=1
k
(n
k
)
xk−1yn−k (6.25a)
n(n− 1)(x+ y)n−2 =n∑
k=2
k(k − 1)
(n
k
)
xk−2yn−k (6.25b)
n(n− 1)(n− 2)(x+ y)n−3 =
n∑
k=3
k(k − 1)(k − 2)
(n
k
)
xk−3yn−k (6.25c)
6.2 Momenti di ordine superiore 229
e così via. Se sostituiamox conp edy conq = 1− p, abbiamo
n =n∑
k=1
k
(n
k
)
pk−1qn−k (6.26a)
n(n− 1) =n∑
k=2
k(k − 1)
(n
k
)
pk−2qn−k (6.26b)
n(n− 1)(n− 2) =n∑
k=3
k(k − 1)(k − 2)
(n
k
)
pk−3qn−k (6.26c)
Dalla (6.26a) segue il risultato già dimostrato che la mediadi una variabile casuale
binomiale è data dal prodottonp. Le altre due formule sono utili per il calcolo
della varianza; infatti quest’ultima si può scrivere come
σ2 = E[X2]− (E[X ])2 = E[X(X − 1)] + E[X ]− (E[X ])2. (6.27)
CalcoliamoE[X(X − 1)], si ha6
E[X(X − 1)] =
n∑
k=2
k(k − 1)b(k;n, p) =
n∑
k=2
k(k − 1)
(n
k
)
pkqn−k
= p2n∑
k=2
k(k − 1)
(n
k
)
pk−2qn−k = n(n− 1)p2. (6.28)
In conclusione vale la formula:
σ2 = n(n− 1)p2 + np− (np)2 = np(1− p). (6.29)
Indicando conX/n la percentuali di successi inn prove del Bernoulli, dalle
precedenti relazioni si ricavano le seguenti formule
µXn= p (6.30a)
σ2Xn
=p(1− p)
n(6.30b)
che consentono il calcolo della media e della varianza diX/n.
6La variabile casualeX assume valori sull’insieme dei numeri naturali:k = 0, 1, 2, . . . .
230 Capitolo 6. Caratteristiche numeriche delle variabilialeatorie
Esempio 6.2.2. Distribuzione di Poisson
Per calcolare la varianza della distribuzione di Poisson partiamo dalla relazione
(6.27) che è valida per ogni variabile casuale; nel caso diX v-c di Poisson si ha
σ2 = E[X(X − 1)] + λ− λ2. Per calcolareE[X(X − 1)] osserviamo che risulta
eλ =∞∑
k=0
λk
k!
e, calcolando la derivata prima e seconda rispetto aλ, ricaviamo
eλ =
∞∑
k=1
kλk−1
k!e eλ =
∞∑
k=2
k(k − 1)λk−2
k!.
PoichéE[X(X − 1)] =
∞∑
k=1
k(k − 1)λk
k!e−λ = e−λλ2
∞∑
k=2
k(k − 1)λk−2
k!= λ2,
otteniamo
σ2 = λ2 + λ− λ2 = λ. (6.31)
Nel caso della distribuzione di Poisson valore atteso e varianza coincidono!
Esempio 6.2.3. Distribuzione ipergeometrica
Nel calcolare la speranza matematica della distribuzione ipergeometrica abbiamo
fatto uso della identità
n∑
k=1
k
(a
k
)(b
n− k
)
= a
(a+ b− 1
n− 1
)
. (6.32)
In maniera analoga si perviene alla identità
n∑
k=2
k(k − 1)
(a
k
)(b
n− k
)
= a(a− 1)
(a+ b− 2
n− 2
)
. (6.33)
6.2 Momenti di ordine superiore 231
Infatti spossiamo scrivere
n∑
k=2
k(k − 1)
(a
k
)(b
n− k
)
=
n∑
k=2
a(a− 1)
(a− 2
k − 2
)(b
n− k
)
= a(a− 1)
n∑
l=0
(a− 2
l
)(b
n− 2− l
)
= a(a− 1)
(a+ b− 2
n− 2
)
ove l’ultimo passaggio si giustifica ricordando l’identitàipergeometrica (2.20). La
media della distribuzione ipergeometrica è uguale aan(a + b)−1, pertanto
σ2 = E[X(X − 1)] +a · na + b
−(a · na+ b
)2
.
Inoltre si ha
E[X(X − 1)] =n∑
k=2
k(k − 1)
[(a + b
n
)−1(a
k
)(b
n− k
)]
=
(a + b
n
)−1 n∑
k=2
k(k − 1)
(a
k
)(b
n− k
)
=
a(a− 1)
(a+ b− 2
n− 2
)
(a+ b
n
) =[a(a− 1)][n(n− 1)]
(a+ b)(a + b− 1)
ed in conclusione, ponendoN = a + b per semplificare la notazione, si perviene
alla formula
σ2 =[a(a− 1)][n(n− 1)]
N(N − 1)+
a · nN
−(a · n
N
)2
=a · nN
[(a− 1)(n− 1)
N − 1+ 1− a · n
N
]
=a · nN
[(a− 1)(n− 1)
N − 1+
N − an
N
]
= n · a
N· N − a
N· N − n
N − 1= n
(a
a + b
)(b
a + b
)(a + b− n
a+ b− 1
)
. (6.34)
232 Capitolo 6. Caratteristiche numeriche delle variabilialeatorie
Esempio 6.2.4. Distribuzione geometrica
Per il calcolo della varianza della distribuzione geometrica è ricordare alcuni ri-
sultati riguardanti la serie geometrica∑∞
k=0 rk. Per0 < |r| < 1 si ha
∞∑
k=0
rk = (1− r)−1. (6.35)
Derivando la (6.35) rispetto adr, otteniamo
d
dr
[∞∑
k=0
rk
]
≡∞∑
k=1
krk−1 = (1− r)−2 (6.36)
e, derivando ancora una volta,
d2
dr2
[∞∑
k=0
rk
]
≡∞∑
k=2
k(k − 1)rk−2 = 2(1− r)−3. (6.37)
In effetti la (6.36) è già stata utilizzata nel calcolo dellasperanza matematica della
distribuzione geometrica. CalcoliamoE[X(X − 1)],
E[X(X − 1)] =∞∑
k=2
k(k − 1)pqk = pq2∞∑
k=2
k(k − 1)rk−2
= pq22
(1− q)3= pq2
2
(p)3= 2q2p−2.
In conclusione si ottiene
σ2 =2q2
p2+
q
p− q2
p2=
2q2 + qp− q2
p2=
q2 + qp
p2= qp−2. (6.38)
Osservazione6.2.4. La varianza della distribuzione geometrica modificata coinci-
de con la varianza della distribuzione geometrica.
6.2 Momenti di ordine superiore 233
Esempio 6.2.5. Distribuzione binomiale negativa
Come primo passo determiniamoE[X(X − 1)]. Si noti che
k(k − 1)f(k : r, p) = k(k − 1)
(−r
k
)
p−2pr+2(−q)−2(−q)k−2
=q2
p2k(k − 1)
(−r
k
)
pr+2(−q)k−2
ove
k(k − 1)
(−r
k
)
= (−r)(−r − 1)
(−(r + 2)
k − 2
)
= r(r + 1)
(−(r + 2)
k − 2
)
.
Si ha
E[X(X − 1)] =∞∑
k=2
k(k − 1)
(−r
k
)
=q2
p2r(r + 1)
∞∑
k=2
(−(r + 2)
k − 2
)
pr+2(−q)k−2 =q2
p2r(r + 1).
Infatti risulta∞∑
k=2
(−(r + 2)
k − 2
)
pr+2(−q)k−2 =∞∑
j=0
(−l
j
)
pl(−q)j = 1 .
In conclusione otteniamo
σ2 =q2
p2r(r + 1) +
qr
p− q2r2
p2
=q2r2 + q2r + qrp− q2r2
p2=
qr
p2(q + p) = r(q/p−2). (6.39)
Esempio 6.2.6. Distribuzione uniforme in[a, b]
Ricordiamo cheE[X ] = 1/(b− a), inoltre vale la relazione7
E[X2]]=
1
(b− a)
∫ b
a
x2dx =1
(b− a)
x3
3
∣∣∣∣
b
a
=b3 − a3
3(b− a)=
b2 + ab+ a2
3.
7Si tenga presente la formula:an − bn = (a− b)(an−1 + an−2b+ · · ·+ abn−2 + bn−1
).
234 Capitolo 6. Caratteristiche numeriche delle variabilialeatorie
I precedenti risultati danno luogo alla formula:
σ2 = E[X2]− (E[X ])2 =b2 + ab+ a2
3−(a + b
2
)2
=(b− a)2
12. (6.40)
Esempio 6.2.7. Distribuzione esponenziale
Come abbiamo dimostrato in precedenza la media della variabile casuale espo-
nenziale èµX = 1/γ; per applicare la formulaσ2 = E [X2]] − µ2 è necessario il
calcolo del momento di ordine 2, µ2. Posto, perx > 0, fX(x) = γe−γx, si ha
µ2 =
∫ +∞
0
x2γ exp(−γx)dx
= −γx2 1
γexp(−γx)
∣∣∣∣
+∞
0
−∫ +∞
0
2γx
(
−1
γexp(−γx)
)
dx
= −x2 exp(−γx)∣∣+∞
0+
2
γ
∫ +∞
0
xγ exp(−γx)dx
︸ ︷︷ ︸
µX
=2
γ2
e da quest’ultima segue:
σ2X =
2
γ2− 1
γ2= 1/γ2. (6.41)
Esempio 6.2.8. Legge di Pareto
La funzione densità di probabilità diParetotrova applicazione soprattutto in cam-
po economico in quanto essa viene utilizzata nelle problematiche connesse alla
ottimizzazione delle risorse. È caratterizzata da due parametri, entrambi positivi,
uno di forma, che denotiamo conα, ed uno di posizione,β. Quest’ultimo determi-
na il valore minimo che la variabile casuale di Pareto può assumere (vedi il grafico
in figura 6.1). La legge di Pareto ha l’espressione analitica
fX(x) =αβα
xα+1sex > β (6.42)
6.2 Momenti di ordine superiore 235
0 x
f(x)
α/β
β
Figura 6.1: Funzione di densità di Pareto.
e si assumefX(x) = 0, se x < β. La funzione di distribuzione si ottiene
integrando la funzione densità traβ ex ∈ (β,+∞):
FX(x) = αβα
∫ x
β
ξ−(α+1)dξ = αβα · − 1
αξ−α
∣∣∣∣
x
β
= −βα · 1
ξα
∣∣∣∣
x
β
= −βα
(1
xα− 1
βα
)
= 1− (β/x)α. (6.43)
La funzione (6.42) verifica la condizione di normalizzazione:
∫ +∞
β
αβα
xα+1dx = αβα
∫ +∞
β
x−(α+1)dx
= αβα · − 1
αx−α
∣∣∣∣
+∞
β
= −βα · 1
xα
∣∣∣∣
+∞
β
= −βα
(
0− 1
βα
)
= 1 .
236 Capitolo 6. Caratteristiche numeriche delle variabilialeatorie
Calcoliamo ora la media e la varianza dellav-cdi Pareto. Abbiamo
µ1 =
∫ +∞
β
xαβα
xα+1dx = αβα
∫ +∞
β
x−αdx = αβα · x1−α
1− a
∣∣∣∣
+∞
β
=αβα
1− a· 1
xα−1
∣∣∣∣
+∞
β
=αβα
1− a
(
0− 1
βα−1
)
=αβ
α− 1(6.44)
e, pertanto, il parametro di forma deve soddisfare il vincolo α > 1 affinché la
speranza matematica sia definita positiva. Il momento di ordine 2 è dato da
µ2 = αβα
∫ +∞
β
x2
xα+1dx = αβα
∫ +∞
β
x1−αdx = αβα · 1
2− αx2−α
∣∣∣∣
+∞
β
= αβα · 1
2− α
1
xα−2
∣∣∣∣
+∞
β
= αβα · 1
2− α
(
0− 1
βα−2
)
=
− αβα
2− α· 1
βα−2=
αβ2
α− 2. (6.45)
Dalle precedenti relazioni si ricava
σ2 = µ2 − µ21 =
αβ2
α− 2−(
αβ
α− 1
)2
=αβ2
α− 2− α2β2
(α− 1)2
=αβ2(α− 1)2 − α2β2(α− 2)
(α− 2)(α− 1)2
=α3β2 + αβ2 − 2α2β2 − α3β2 + 2α2β2
(α− 2)(α− 1)2=
αβ2
(α− 2)(α− 1)2(6.46)
e quindi deve essereα > 2 affinché il valore della varianza sia positivo.
6.2.2 La disuguaglianza di Tchebycheff e il teorema di Ber-
noulli
Come abbiamo sottolineato nell’osservazione 6.2.2, la varianza è una misura del-
la dispersione dellav-a X intorno al suo valore medioµ. La disuguaglianza di
Tchebycheff dà un significato quantitativo alla precedenteconsiderazione.
6.2 Momenti di ordine superiore 237
Teorema 6.2.3(Disuguaglianza di Tchebycheff). Per ogni variabile aleatoria
X con varianza finitaσ2 vale la seguente disuguaglianza
P(|X − µ| > ε) 6σ2
ε2∀ε > 0 . (6.47)
Dimostrazione.Si ha
σ2 =
∫ +∞
−∞
(x− µ)2 fX(x)dx
=
∫
|x−µ|<ε
(x− µ)2 fX(x)dx+
∫
|x−µ|>ε
(x− µ)2 fX(x)dx
>
∫
|x−µ|>ε
(x− µ)2 fX(x)dx >
∫
|x−µ|>ε
ε2fX(x)dx
= ε2 · P(|X − µ| > ε)
ed, essendoε > 0, si deduce la (6.47). Nel caso discreto la dimostrazione è
simile.
Osservazione6.2.5. La seguente è una formulazione equivalente della (6.47):
P(|X − µ| < ε) > 1− σ2
ε2∀ε > 0 . (6.48)
Corollario 6.2.2. Le seguenti disuguaglianze equivalenti
P(|X − µ| > kσ) 61
k2(6.49a)
P(|X − µ| < kσ) > 1− 1
k2(6.49b)
sono verificate comunque si scelga un interok > 1.
Dimostrazione.La dimostrazione si ricava ponendo nella (6.47)ε = kσ.
238 Capitolo 6. Caratteristiche numeriche delle variabilialeatorie
Esempio 6.2.9.Fissatiσ eµ, si ha
P(|X − µ| > 5σ) 61
25= 0.04
e
P(|X − µ| > 10σ) 61
100= 0.01 .
Osservazione6.2.6. La disuguaglianza di Tchebycheff, nonostante l’eleganza for-
male e la generale validità, non deve essere considerata come un affidabile me-
todo di stima; infatti, in molti casi particolari, il secondo membro dalla (6.49a)
sovrastimaP(|X − µ| > kσ).
La disuguaglianza di Tchebycheff consente di dimostrare molto semplicemente
il cosiddettoteorema di Bernoullio legge dei grandi numeri. Si noti che James
Bernoulli pubblicò il risultato nel suo celebre testoArs Conjecturandiedito nel
1713 e Tchebycheff, uno dei fondatori della scuola matematica russa, visse in
pieno XIX secolo.
Teorema 6.2.4(Teorema di Bernoulli). SiaA un evento ep la sua probablità
di occorrenza; indichiamo conYn la frequenza con cui esso si verifica inn prove
ripetute indipendenti. Si ha
limn→∞
P (|Yn − p| < ε) = 1 ∀ε > 0 . (6.50)
Dimostrazione.SiaSn la v-c che conta il numero di successi, il verificarsi diA,
nellen prove indipendenti.Sn è una variabile casuale binomiale con medianp e
varianzanp(1 − p). TraSn edYn sussiste la relazioneYn = Sn/n. PertantoYn
è essa stessa una variabile casuale binomiale, infattiP
(
Yn =k
n
)
= P (Sn = k).
Si ha, quindi,µYn=
1
n·µSn
= p eσ2Yn
=1
n2·σ2
Sn=
p(1− p)
n. La disuguaglianza
(6.47) fornisce la relazione
P (|Yn − p| < ε) > 1− σ2Yn
ε2= 1− p(1− p)
nε2
6.3 Ulteriori misure di tendenza centrale e dispersione 239
e, passando al limite pern → ∞, si giustifica la tesi.
6.3 Ulteriori misure di tendenza centrale e disper-
sione
Nel definire i momenti abbiamo sottolineato che in alcuni casi essi possono non
esistere, una tale evenienza è particolarmente rilevante se riguarda la media e la va-
rianza. In questo paragrafo saranno definiti alcuni parametri di tendenza centrale
e di dispersione che esistono sempre.
Definizione 6.3.1.SiaX unav-c assolutamente continua con funzione di distri-
buzioneFX(x), sia, inoltre,α un numero reale in(0, 1). Il quantile di ordineα di
FX(x) è il particolare valoreξα di X tale che
P (X 6 ξα) ≡ FX (ξα) = α. (6.51)
L’area sottesa dalla densità di probabilitàfX(x) a sinistra diξα èα, quella a destra
è1− α. Il quantile di ordineα è anche denominato100× α-esimo percentile; ad
esempio, assumendoα = 0.3, ξ0.3 è il quantile di ordine 0.3 o 30-esimo percentile.
Di particolare interesse è il 50-esimo percentileξ0.5, chiamato anchemedianadi
X. Si ha
P (X < ξ0.5) = P (X > ξ0.5) = 1/2.
Per questo motivo la mediana è utilizzata in luogo della media µX per indicare
la posizione delcentrodi una distribuzione continua. Se la funzione densità di
probabilitàfX(x) ha un centro di simmetria, la mediana e la media, se quest’ultima
esiste, coincidono. InoltrefX(x) è simmetrica rispetto all’asse verticale di ascissa
µ ≡ ξ0.5.
240 Capitolo 6. Caratteristiche numeriche delle variabilialeatorie
Osservazione6.3.1. SeX è di tipo discreto, essendoFX(x) una funzione a gra-
dino, i quantili potrebbero essere non ben definiti, nel senso che potrebbe non
esistere un valoreξα di X che verifichi la (6.51); in tal caso si calcola un valore
approssimato diξα.
Una ulteriore misura di tendenza centrale è ilvalore modaleo moda. La mo-
da di una variabile casuale, o di una funzione di distribuzione, è il valore diX
più probabile, ovvero è il valoreξM tale chemaxx∈R fX(x) = fX(ξM), seX
è assolutamente continua; nel caso discreto la moda è il valore ξM per il quale
maxx∈SXP(X = x) = P(X = ξM).
La differenzaξ0.75 − ξ0.25 è spesso usata come una misura di dispersione;ξ0.25 è il
cosiddettoprimo quartilee ξ0.75 è il terzo quartile.
Esempio 6.3.1.Determiniamo la mediana della distribuzione di Pareto. Ricor-
dando la (6.43), possiamo scrivere1− (β/ξ0.5)α = 0.5 e
(β
ξ0.5
)α
=1
2
ed infineξ0.5 = 21/αβ.
6.3.1 Valori caratteristici di forma
Come si deduce dagli esempi finora trattati, sia le funzioni densità di probabilità
che le distribuzioni di probabilità possono avere forme assai diverse. È eviden-
temente impossibile caratterizzare la forma di una curva con un solo indice, nel
seguito daremo la definizione di due di questi, i più importanti. Si noti che essi
sono numeri adimensionali.
Definizione 6.3.2.Sia X una variabile casuale dotata di mediaµ e deviazione
standardσ, si definiscecoefficiente di asimmetria, o skewness, il momento di
6.3 Ulteriori misure di tendenza centrale e dispersione 241
ordine 3 della variabile casuale normalizzata:
γ1 = E
[(X − µ
σ
)3]
=E [(X − µ)3]
σ3≡(
µ′
2
)−3/2
· µ′
3. (6.52)
A sua volta la relazione
γ2 = E
[(X − µ
σ
)4]
− 3 =E [(X − µ)4]
σ4− 3 ≡ µ
′
4(µ
′
2
)2 − 3 (6.53)
definisce ilcoefficiente di piccatezzao di eccessoo di kurtosis.
Nel caso in cui la densità di probabilità sia simmetrica, risultaγ1 = 0; un valore di
γ1 negativo si riscontra nel caso in cuifX(x) abbia una coda a sinistra, al contrario
si haγ1 > 0 se la funzionefX(x) presenta una coda a destra.
Il significato del coefficiente di piccatezza sarà discusso nel seguito dopo aver
introdotto la legge di Gauss.
CAPITOLO 7
Momenti di variabili casuali
multidimensionali
7.1 Momenti congiunti
Il concetto di speranza matematica, introdotto nel capitolo 6, si generalizza consi-
derandon variabili casualiX1, . . . , Xn definite su uno stesso spazio di probabilità
Ω,F ,P e con densità di probabilità congiuntaf (x1, . . . , xn). Per i nostri scopi
ci limiteremo a trattarein extensoil caso due variabili aleatorie.
Definizione 7.1.1.SianoX edY due variabili aleatorie e sia, inoltreh : R2 −→ R
una funzione Borel-misurabile; consideriamo la variabilecasualeh(X, Y ).
(a) X,Y assolutamente continue
Se assolutamente convergente, si definisce valore atteso dih(X, Y ) l’inte-
grale
E[h(X, Y )] =
∫ +∞
−∞
∫ +∞
−∞
h(x, y)f(x, y)dxdy (7.1)
ovef(x, y) è la densità di probabilità congiunta diX eY .
244 Capitolo 7. Momenti di variabili casuali multidimensionali
(b) X,Y di tipo discreto
Se è verificata la condizione∑
xi
∑
yj|h (xi, yj)| p (xi, yj) < +∞, si defi-
nisce valore atteso dih(X, Y ) la serie
E[h(X, Y )] =∑
xi
∑
yj
h (xi, yj) p (xi, yj) (7.2)
ovep (xi, yj) è la distribuzione di probabilità congiunta diX eY .
Proposizione 7.1.1.L’operatoreE è lineare.
Abbiamo già visto che, seX è dotata di valore medio risultaE[cX ] = cE[X ] per
ogni numero realec. Per completare la dimostrazione della linearità diE, resta da
verificare cheE[X + Y ] = E[X ] +E[Y ] se entrambe le variabili hanno speranza
matematica finita. Nel caso discreto si ha
E[X + Y ] =∑
xi
∑
yj
(xi + yj) p (xi, yj)
=∑
xi
xi
∑
yj
p (xi, yj) +∑
yj
yj∑
xi
p (xi, yj)
=∑
xi
xip (xi) +∑
yj
yjp (yi) = E[X ] + E[Y ].
Se le variabili casuali sono assolutamente continue otteniamo
E[X + Y ] =
∫ +∞
−∞
∫ +∞
−∞
(x+ y)f(x, y)dxdy
=
∫ +∞
−∞
x
[∫ +∞
−∞
f(x, y)dy
]
dx+
∫ +∞
−∞
y
[∫ +∞
−∞
f(x, y)dx
]
dy
=
∫ +∞
−∞
xf(x)dx+
∫ +∞
−∞
yf(y)dy = E[X ] + E[Y ].
7.1 Momenti congiunti 245
I calcoli precedenti si estendono al caso della somma din variabili casuali con
media finita; in generale vale la relazione
E
[n∑
k=1
Xk
]
=
n∑
k=1
E [Xk] . (7.3)
Esempio 7.1.1.In precedenza abbiamo calcolato il valore atteso,µSn= np, della
variabile casualeSn, numero di successi inn prove del Bernoulli con probabilità
di successop. Osservando cheSn è la somma,Sn = X1 + X2 + · · · + Xn di n
variabile casuali del Bernoulli, ciascuna con mediap, dalla (7.3) si ricava, senza
effettuare laboriosi calcoli,µSn= np.
Definizione 7.1.2.Sianor eds interi fissati.
(i) X,Y assolutamente continue
Se assolutamente convergente, l’integrale
µrs ≡ E [XrY s] =
∫ +∞
−∞
∫ +∞
−∞
xrysf(x, y)dxdy (7.4)
definisce ilmomento prodottodi ordiner, s delle variabili casualiX eY .
(ii) X,Y di tipo discreto
Se è verificata la condizione∑
xi
∑
yj|xryy| p (xi, yj) < +∞, la serie
µrs ≡ E [XrY s] =∑
xi
∑
yj
xri y
sjp (xi, yj) (7.5)
definisce momento prodotto di ordiner, s delle variabili casualiX eY
Il caso r = s = 1 è particolarmente interessante; se le variabili casuali sono
continue si ha
E[XY ] =
∫ +∞
−∞
∫ +∞
−∞
xyf(x, y)dxdy
246 Capitolo 7. Momenti di variabili casuali multidimensionali
e
E[XY ] =∑
xi
∑
yj
xiyjp (xi, yj)
nel caso di variabili casuali discrete. SeX ed Y sono indipendenti, essendo
f(x, y) = fX(x) · fY (y) o, p (xi, yj) = pX (xi) · pY (yj), risulta
E[XY ] = E[X ] · E[Y ]. (7.6)
Osservazione7.1.1. Il verificarsi della (7.6)non implical’indipendenza delle va-
riabili aleatorie.
Osservazione7.1.2. La (7.6) è valida anche nel caso din variabili aleatorie indi-
pendenti, si ha
E
[n∏
k=1
Xk
]
=
n∏
k=1
E [Xk] . (7.7)
SeX e Y sono dotate di valori medi finiti, la definizione 7.1.2, applicata alla
funzioneh(X − Y ) = (X − µX)r (Y − µY )
s, dà luogo al cosiddettomomento
centrale prodottodi ordiner, s
µ′
rs ≡ E [(X − µX)r (Y − µY )
s] . (7.8)
7.1.1 Covarianza e correlazione
Ponendo nella (7.8)r = s = 1, si definisce lacovarianza, µ′
11, delle variabili
aleatorieX eY :
µ′
11 ≡ CXY = E [(X − µX) (Y − µY )] . (7.9)
Per la definizione data risultaCXY = CY X . Sviluppando il prodotto nella 7.9 e
ricordando che l’operatoreE è lineare, otteniamo
CXY = E [(X − µX) (Y − µY )] = E [XY −XµY − µXY + µXµY ]
= E[XY ]− µXµY − µXµY + µXµY = E[XY ]− µXµY . (7.10)
7.1 Momenti congiunti 247
SeX e Y sonov-a indipendenti, la (7.10) e la (7.6) implicano che esse hanno
covarianza nulla; inoltre, seX = Y , dalla (7.10) si deduce che
CXX = E[X2]− µ2X ≡ σ2
X . (7.11)
Proposizione 7.1.2.SianoX e Y variabili casuali congiuntamente distribuite,
comunque si fissano i numeri realia, b, c ed, si ha
CaX+b,cY+d = acCXY . (7.12)
Infatti, per definizione di covarianza si ha
CaX+b,cY+d = E[(aX + b− µaX+b) · (cY + d− µcY+d)]
= E[(aX + b− aµX − b) · (cY + d− cµY − c)]
= E[a (X − µX) · c (Y − µY )] = acCXY
e l’asserto della proposizione è stato dimostrato. Osserviamo che la (7.12) è una
ulteriore dimostrazione della relazioneσ2aX+b = a2σ2
X .
SeX eY hanno varianza non nulla, il rapporto
ρXY =CXY
σXσY(7.13)
è denominato coefficiente di correlazione diX eY .
Osservazione7.1.3. Diversamente dalla covarianza, il coefficiente di correlazione
è un numero adimensionale. Tale coefficiente coincide con lacovarianza delle
variabili normalizzate.
Definizione 7.1.3.Due variabili casuali sononon correlatese la loro covarianza
è nulla:CXY = 0.
Definizione 7.1.4.Due variabili casuali sono chiamateortogonaliseE[XY ] = 0.
Per indicare l’ortogonalità diX eY si usa la simbologia:X ⊥ Y .
248 Capitolo 7. Momenti di variabili casuali multidimensionali
Osservazione7.1.4. SeX eY sono non correlate alloraX − µX ⊥ Y − µY . Se
X eY sono non correlate ed hanno media nulla alloraX ⊥ Y .
Calcoliamo, ora, la varianza diX + Y . Si ha1
σ2X+Y = E
[(X + Y )2
]− (E[X + Y ])2 = E
[(X + Y )2
]− (µX + µY )
2
= E[X2 + Y 2 + 2XY
]− µ2
X − µ2Y − 2µXµY
= E[X2]− µ2
X + E[Y 2]− µ2
Y + E[2XY ]− 2µXµY
= σ2X + σ2
Y + 2CXY = σ2X + σ2
Y + 2ρσXσY . (7.14)
Se le variabili casuali sono non correlate otteniamo
σ2X+Y = σ2
X + σ2Y . (7.15)
I precedenti risultati si applicano anche al caso più generale di n variabili casuali
con varianza finita (vedi [5]); postoSn = X1 + · · ·+Xn, vale la relazione
σ2Sn
=
n∑
k=1
σ2k + 2
∑
j,k
CXjXk(7.16)
nella quale la seconda sommatoria è estesa a ciascuna delle
(n
2
)
coppie(Xj , Xk)
con j < k. Se le variabili aleatorie sono non correlate, possiamo riscrivere la
precedente relazione come
σ2Sn
=
n∑
k=1
σ2k. (7.17)
Esempio 7.1.2.Ragionando come nell’esempio 7.1.1, dalla (7.17) si evinceche
σ2Sn
= npq.
1σ2X−Y = σ2
X + σ2Y − 2CXY
7.2 Alcune disuguaglianze notevoli 249
Esempio 7.1.3. Prove del Bernoulli con probabilità di successo variabile
SianoX1, . . . , Xn variabili casuali indipendenti tali che ciascuna di esse assuma i
valori 1 e0 con probabilitàpk e qk = 1 − pk rispettivamente. AlloraE [Xx] = pk
eσ2Xk
= pkqk e, ponendo al solitoSn =∑n
k=1Xk, abbiamo
µSn=
n∑
k=1
pk e σ2Sn
=n∑
k=1
pkqk.
la variabileSn è il numero totale di successi inn prove indipendenti ciascuna
delle quali ha come esito un successo o un insuccesso, pertanto p = (∑n
k=1 pk) /n
rappresenta laprobabilità media di successo. Osserviamo cheµSn= np e
σ2Sn
=n∑
k=1
pk (1− pk) = np−n∑
k=1
p2k.
Fissato un valorep esistono più combinazionipk tali che∑
k pk = np; la com-
binazione che rende minima la∑
k p2k è quella in cui tutte lepk sono uguali tra
loro e, quindi, ap. In conclusioneσ2Sn
è massima se la probabilità di successo è
costante o, con altre parole, la variabilità dellepk riduce la varianza diSn.
7.2 Alcune disuguaglianze notevoli
In questo paragrafo saranno dimostrate alcune disuguaglianze che ricorrono spes-
so sia nelle applicazioni sia nelle elaborazioni teoriche.
Dalla relazione|X + Y | 6 |X| + |Y | e dalla proprietà di linearità dell’operatore
E segue la cosiddettadisuguaglianza triangolare:
E[|X + Y |] 6 E[|X|] + E[|Y |]. (7.18)
250 Capitolo 7. Momenti di variabili casuali multidimensionali
Consideriamo, ora, la disuguaglianza
|X + Y |2 = |X2 + Y 2 + 2XY | 6 |X2|+ |Y 2|+ 2|XY |= X2 + Y 2 + 2|XY | − 2X2 − 2Y 2 + 2X2 + 2Y 2
= 2X2 + 2Y 2 −(X2 + Y 2 − 2|XY |
)= 2X2 + 2Y 2 − (|X| − |Y |)2
6 2|X|2 + 2|Y |2.
passando ai valori di aspettazione si ottiene
E[|X + Y |2
]6 2E
[|X|2
]+ 2E
[|Y |2
]. (7.19)
Si può dimostrare (vedi [2]) che, seX edY sono dotati di momenti assoluti di
ordiner, sussiste la disuguaglianza
E [|X + Y |r] 6 2r−1E [|X|r] + 2r−1E [|Y |r] . (7.20)
Pertanto la (7.18) e la (7.19) sono da considerarsi casi particolari della più generale
disuguaglianza (7.20).
7.2.1 La disuguaglianza di Cauchy e Schwarz
Proposizione 7.2.1.SianoX eY variabili casuali congiuntamente distribuite; se
E [X2] eE [Y 2] esistono finiti, risulta2
E2[XY ] 6 E[X2]E[Y 2]. (7.21)
Per dimostrare la (7.21) osserviamo che per ogni coppia di numeri realia, b si ha
|ab| 6 (a2 + b2) /2 e, quindi, l’esistenza del momento di ordine 2 delle variabili
2La (7.21) è nota come la disuguaglianza di Cauchy e Schwarz.
7.2 Alcune disuguaglianze notevoli 251
aleatorieX eY implica l’esistenza diE[|XY |] e di conseguenza esiste finito anche
E[XY ]. Poiché la speranza matematica di unav.apositiva è> 0, si ha
E[(aX − Y )2
]> 0 ∀a ∈ R.
Come conseguenza diretta della precedente disuguaglianzae della linearità dell’o-
peratoreE possiamo scrivere
0 6 a2E[X)2
]− 2aE[XY ] + E
[Y )2]
= E[X2]
a2 − 2aE[XY ]
E [X2]+
E [Y 2]
E [X2]
= E[X2]
a2 − 2aE[XY ]
E [X2]+
E2[XY ]
E2 [X2]− E2[XY ]
E2 [X2]+
E [Y 2]
E [X2]
= E[X2]
(
a− E2[XY ]
E2 [X2]
)2
− E2[XY ]
E2 [X2]+
E [Y 2]
E [X2]
E [X2]
E [X2]
= E[X2]
(
a− E2[XY ]
E2 [X2]
)2
− 1
E2 [X2]
(E2[XY ]− E
[X2]E[Y 2])
︸ ︷︷ ︸
∆
.
Affinché la precedente disequazione sussista per ogni realea la quantità∆ deve
essere non positiva:
∆ = E2[XY ]− E[X2]E[Y 2]6 0
di qui segue la (7.21).
Proposizione 7.2.2.Il coefficiente di correlazioneρXY soddisfa la condizione3
−1 6 ρXY 6 +1 . (7.22)
3o la equivalente|ρXY | 6 1.
252 Capitolo 7. Momenti di variabili casuali multidimensionali
La (7.22) segue dalla disuguaglianza di Schwarz
E2 [(X − µX) (Y − µY )] 6 E[(X − µX)
2]E[(Y − µY )
2]
da cui si ricavaC2XY 6 σ2
Xσ2Y ed infineρ2XY 6 1.
Proposizione 7.2.3.SiaX una variabile aleatoria non degenere eY = aX + b,
ovea, b sono reali qualunque cona 6= 0. Si haρXY = +1, sea > 0, oppure, se
a < 0, ρXY = −1 .
Per dimostrare l’asserto, osserviamo cheµY = aµX + b, σ2Y = a2σ2
X e
CXY = E [(X − µX) (aX + b− aµX − b)] = E[a (X − µX)
2] = aσ2X .
Si ha allora
ρXY =CXY
σXσY=
aσ2X
σX · |a|σX=
a
|a|e la tesi della proposizione è stata verificata.
Si può, infine, dimostrare (vedi [2]) che, se|ρXY | = 1, con probabilità 1Y dipende
linearmente daX.
7.3 Momenti condizionati
SianoX e Y due variabili casuali definite in uno stesso spazio di probabilità
Ω,F ,P.
Definizione 7.3.1.Si dice valore medio, o valore di attesa,
1. X,Y discrete
di Y condizionato daX(ω) = xj, la serieE [Y |xj ] =∑
i
yip (yi|xj), se
essa è assolutamente convergente; analogamenteE [X|yj] =∑
i
xip (xi|yj)
è la media condizionata diX datoY (ω) = yj;
7.3 Momenti condizionati 253
2. X,Y assolutamente continue
di Y condizionato daX(ω) = x, l’integraleE[Y |x] =∫ +∞
−∞
yg(y|x)dy,
se esso è assolutamente convergente; allo stesso modo si definisceE[X|y] =∫ +∞
−∞
xg(x|y)dx.
Fissata una qualsiasi funzioneh, sussistono analoghe definizioni perE[h(X)|y] e
E[h(Y )|x].
Osservazione7.3.1. Sia p (yi|xj) che g(y|x) dipendono dal valorex, di conse-
guenzaZ = γ(X), conγ(x) = E[Y |x] ex variabile inSX o in R, è una variabile
casuale. In questo caso si usa la notazioneE[Y |X ] (o E[X|Y ]).
Osservazione7.3.2. SeX eY sono indipendenti e dotate di speranza matematica
si haE[X|Y ] = E[X ] eE[Y |X ] = E[Y ].
Teorema 7.3.1.SeµX < +∞, allora la media condizionataE[X|y] assume va-
lori finiti per ogni y per il quale è definita la distribuzione condizionata diX dato
Y = y; inoltre
µX = E[E[X|Y ]]. (7.23)
Dimostrazione.Dimostreremo la tesi del teorema solamente nel caso discreto; per
le variabili aleatorie assolutamente continue sussiste una dimostrazione similare,
operando le opportune sostituzioni.
Supponiamo chepY (yj) sia maggiore di zero, allora lap (xi|yj) è definita e
p (xi|yj) =pXY (xi, yj)
pY (yj)6
pX (xi)
pY (yj).
Dalla precedente relazione si ricava
∑
i
|xi|p (xi|yj) 6∑
i
|xi|pX (xi)
pY (yj)=
1
pY (yj)·∑
i
|xi|pX (xi) < +∞
254 Capitolo 7. Momenti di variabili casuali multidimensionali
e la prima porte del teorema è dimostrata. Possiamo, infine, scrivere
µX =∑
i
xipX (xi) =∑
i
∑
j
xipXY (xi, yj) =∑
i
xi
∑
j
pY (yj) p (xi|yj)
=∑
j
pY (yj)∑
i
xip (xi|yj) =∑
j
pY (yj)E [X|yj] = E[E[X|Y ]].
Esempio 7.3.1.SianoX e Y variabili casuali indipendenti e distribuite secondo
la legge di Poisson con mediaλ1 e λ2, rispettivamente. PoniamoZ = X + Y e
calcoliamoE[X|Z = n]. Osserviamo che
P(X = k, Z = n) = P(X = k, Y = n− k) = P(X = k) · P(Y = n− k)
da cui:
pXZ(k, n) =(λ1)
k
k!exp(−λ1) ·
(λ2)n−k
(n− k)!exp(−λ2).
Ricordiamo che nell’esempio 5.9.3 abbiamo fatto vedere come la somma di due
variabili aleatorie indipendenti di Poisson, a parametroλ1 eλ2 rispettivamente, sia
ancora una variabile casuale di Poisson a parametroλ1 + λ2; pertanto si ha
pZ(n) =(λ1 + λ2)
n
n!exp [−(λ1 + λ2)] .
Dalle precedenti relazioni si ricava
pX|Z(k, n) =e−λ1(λ1)
k
k!· e
−λ2(λ2)n−k
(n− k)!· n!
e−(λ1+λ2)(λ1 + λ2)n
=n!
k!(n− k)!· e
−(λ1+λ2)
e−(λ1+λ2)· (λ1)
k(λ2)n−k
(λ1 + λ2)n
=
(n
k
)(λ1
λ1 + λ2
)k (λ2
λ1 + λ2
)n−k
≡ b
(
k;n,λ1
λ1 + λ2
)
.
In conclusione otteniamo:
E[X|Z = n] = n · [λ1/ (λ1 + λ2)] .
7.3 Momenti condizionati 255
7.3.1 Somma di un numero casuale di variabili aleatorie indi-
pendenti
SianoX1, X2, . . . , Xk, . . . variabili casuali indipendenti ed identicamente distri-
buite; indichiamo, inoltre, conN una variabile aleatoria a valori interi positivi
che sia indipendente da ciascuna delleXk. Per l’ipotesi posta sulla legge di di-
stribuzione delleXk, si haE [X1] = · · · = E [Xk] = · · · ≡ µ, imponiamo che
µ < +∞; come ipotesi ulteriore assumiamo che anche il valore mediodi N , µN ,
esista finito. SiaSN =∑N
k=1Xk, calcoliamoE[SN ]. Per tale scopo, essendo
N una variabile casuale, non possiamo fare ricorso alla (7.3). PoichéSN = Sn
quandoN = n, si ha
E [SN ] = E [E [SN |N ]] =∞∑
n=1
E [SN |N = n] pN (n)
=∞∑
n=1
E [Sn] pN(n) infatti N eSn sono indipendenti∀n
=
∞∑
n=1
(nµ)pN(n) come conseguenza della (7.23)
= µ
∞∑
n=1
npN(n) = µ · µN . (7.24)
CAPITOLO 8
La legge di Gauss ed alcune
distribuzioni collegate
La legge di Gauss o densità di probabilitànormaleè la funzione densità di proba-
bilità di uso più comune nella teoria della probabilità ed instatistica matematica.
Il teorema centrale del limite, che sarà introdotto in seguito, è probabilmente la
ragione principale che ha determinato tale situazione. Anche nelle applicazioni
pratiche la legge di Gauss svolge un ruolo fondamentale.
Definizione 8.0.2.Una variabile casualeX è dotata di una funzione di distribu-
zione normaleo di Gausscon parametriµ e σ2, se la sua funzione densità di
probabilità,∀x ∈ R, ∀µ ∈ R e∀σ > 0, è data da
f(x) =1
σ√2π
exp
[
−(x− µ)2
2σ2
]
(8.1)
e, quindi,
F (x) =
∫ x
−∞
1
σ√2π
exp
[
−(ξ − µ)2
2σ2
]
dξ. (8.2)
In tal casoX è denominatav-c normaleo gaussiana.
258 Capitolo 8. La legge di Gauss ed alcune distribuzioni collegate
Per come è stata definitaf(x) è sempre positiva, rimane da verificare la condizione∫ +∞
−∞f(x)dx = 1. Ricordiamo, per tale scopo, che vale l’uguaglianza1:
b√2π =
∫ +∞
−∞
exp
[
−(x− a)2
2b2
]
dx. (8.3)
Si ha, pertanto,∫ +∞
−∞
f(x)dx =1
σ√2π
∫ +∞
−∞
exp
[
−(x− µ)2
2σ2
]
dx =σ√2π
σ√2π
= 1 .
8.1 Proprietà della densità normale
Cominciamo con il calcolare la media di una variabile casuale normale. Si ha
E[X ] =
∫ +∞
−∞
xf(x)dx =
∫ +∞
−∞
x1
σ√2π
exp
[
−(x− µ)2
2σ2
]
dx
=
∫ +∞
−∞
(σy + µ)1√2π
exp
(
−y2
2
)
dy
(
ovey =x− µ
σ
)
=σ√2π
∫ +∞
−∞
y exp
(
−y2
2
)
dy
︸ ︷︷ ︸
0
+µ1√2π
∫ +∞
−∞
exp
(
−y2
2
)
dy
︸ ︷︷ ︸
1
= µ. (8.4)
L’ultimo passaggio si giustifica osservando che la funzioneintegranda, nel primo
integrale, è una funzione dispari e tenendo presente il risultato (8.3) riscritto po-
nendoa = 0 e b = 1. Dimostriamo, ora, che il parametroσ2 coincide con la
varianza diX; per tale scopo si rammenti la seguente relazione∫ +∞
0
√x exp(−ax)dx =
1
2a
√π
a(8.5)
che, pera = 1/2, diventa:∫ +∞
0
√x exp
(
−x
2
)
dx =√2π.
1Per la dimostrazione di questo risultato, il lettore interessato può consultare [2] oppure [13].
8.1 Proprietà della densità normale 259
Si ha
σ2X =
∫ +∞
−∞
(x− µ)21
σ√2π
exp
[
−(x− µ)2
2σ2
]
dx
=σ2
√2π
∫ +∞
−∞
y2 exp
(
−y2
2
)
dy ponendoy =x− µ
σ
=2σ2
√2π
∫ +∞
0
y2 exp
(
−y2
2
)
dy
=2σ2
√2π
∫ +∞
0
z exp(
−z
2
) dz
2√z
ovez = y2
=σ2
√2π
∫ +∞
0
√z exp
(
−z
2
)
dz = σ2. (8.6)
Osservazione8.1.1. Si noti che la funzione densità di probabilità normale è sim-
metrica rispetto alla media, ovverof(x + µ) = f(x − µ). Essa assume il valore
massimo inx = µ: f(µ) = 1/(σ√2π); inoltre f(x) è unimodale in quanto me-
dia, mediana e moda coincidono inx = µ. Come|x| → ∞, f(x) → 0: l’asse
delle ascisse è asintoto orizzontale dif(x). Quest’ultima, nei puntix1 = µ − σ e
x2 = µ+ σ mostra due punti di flesso, quindi la curva cambia concavità.Il valore
medio della variabile casuale normale fissa la posizione della funzione di densità
nel grafico, la varianza ne determina la forma. La figura 8.1 mostra l’andamento
della funzione densità di variabili aleatorie normali con la stessa tendenza centrale
ma con varianza diversa; nella figura 8.2 sono rappresentatefunzioni densità di
probabilità con uguale varianza e diversa tendenza centrale.
Osservazione8.1.2. Nel caso della legge di Gauss il coefficiente di eccessoγ2,
definito dalla formula (6.53), risulta nullo. In generale chiameremomesocurtica
una distribuzione per la quale si haγ2 = 0. Quelle conγ2 > 0, sono denomi-
nateleptocurtiche, platicurtichenel caso contrario:γ2 < 0. Molto spesso curve
simmetriche con un picco più pronunciato della legge di Gauss sono leptocurti-
260 Capitolo 8. La legge di Gauss ed alcune distribuzioni collegate
x
f(x)
µ
Figura 8.1: Funzione di densità div-c normali con la stessa media e differente
varianza.
che, quelle più appiattite mesocurtiche. Tale corrispondenza non ha una validità
generale.
La standardizzata della variabile casuale normale,(X − µ)/σ, è spesso indicata
conZ. La funzione densità di probabilitàfZ(z) ≡ n(z) è data da
n(z) =1√2π
exp
(
−z2
2
)
∀z ∈ R. (8.7)
Il relativo grafico è illustrato nella figura 8.3. La funzionedi distribuzione (vedi
figura 8.4) si calcola integrando la (8.7):
N(z) =1√2π
∫ z
−∞
exp
(
−ζ2
2
)
dζ. (8.8)
La v-c normale standardizzata conserva tutte le proprietà della variabile casuale
normale. Si ricordi che questo non è vero per tutte le variabili aleatorie.
8.1 Proprietà della densità normale 261
x
f(x)
µ1
µ2
Figura 8.2: Funzione di densità div-c normali con la media diversa e identica
varianza.
Osservazione8.1.3. Valgono le seguenti relazioni
(i)∫ +0.67
−0.67n(z)dz = 0.5
(ii)∫ +1
−1n(z)dz = 0.683
(iii)∫ +2
−2n(z)dz = 0.9545
(iv)∫ +3
−3n(z)dz = 0.9973
che quantificano l’area della curva sottesa dan(z) tra gli estremi di integrazione.
In particolare dalla (iii) si evince cheP(−2 6 Z 6 +2) = 0.956 e, considerando
la genericav-c normaleX con mediaµ e varianzaσ2, dalla (iv) si ricava che
P(X ∈ [µ± 3σ]) ≈ 1 .
Data la rilevanza teorica ed applicativa della legge di Gauss, la distribuzioneN(z)
è stata tabulata e la relativa tavola è facilmente reperibile. Essa fornisce la proba-
262 Capitolo 8. La legge di Gauss ed alcune distribuzioni collegate
−4 −3 −2 −1 0 1 2 3 40
0.1
0.2
0.3
0.4
0.5
x
0.242
Figura 8.3: Funzione di densitàn(x) dellav-cnormale standardizzata.
bilità P(0 < Z < z) ≡∫ z
0n(z)dz, l’area sottesa dal grafico della funzione densità
di probabilità compresa tra i punti di ascissa0 ez. Le probabilità corrispondenti a
valori negativi diz si ricavano per simmetria. Sicché perz > 0 possiamo scrivere
P(−∞ < Z < z) = 0.5 + P(0 < Z < z)
P(0 < Z < z) = P(−z < Z < 0)
P(|Z| < z) = P(−z < Z < z) = 2P(−z < Z < 0)
P(|Z| > z) = 2P(Z > z) = 2[0.5− P(0 < Z < z)]
P (z1 < Z < z2) = P (Z < z2)− P (Z 6 z1)
dalle quali si risale ai valori di probabilità di interesse.
8.1 Proprietà della densità normale 263
−4 −3 −2 −1 0 1 2 3 40
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
x
(−0.67,0.25)
(0.67,0.75)
Figura 8.4: Funzione di distribuzioneN(x) dellav-c normale standardizzata.
Esempio 8.1.1.AbbiamoP(Z 6 1.75) = 0.5 + P(0 < Z 6 1.75) = 0.9599.
Inoltre si ha
P(Z 6 −0.75) = P(Z > 0.75) = 1− P(Z 6 0.75)
= 1− [0.5− P(0 < Z > 0.75)] = 1− (0.5− 0.2734) = 0.2266
e
P(−0.38 < Z 6 1.42) = P(0 6 Z 6 1.42) + P(0 6 Z 6 0.38)
= 0.4222 + 0.1480 = 0.5702 .
Osservazione8.1.4. Con la notazionezα, per0 < α < 1, si indica il quantile di
ordine1 − α della distribuzione normale standardizzata, in altri termini il valore
264 Capitolo 8. La legge di Gauss ed alcune distribuzioni collegate
di Z per cui
P (Z > zα) = α
e
P(|Z| > zα/2
)= α.
I valori riportati nella sottostante tabella
α zα/2 zα
0.01 2.575 2.33
0.02 2.33 2.05
0.05 1.96 1.645
0.10 1.645 1.28
sono di uso comune in statistica.
Nel caso in cuiµ 6= 0 e σ 6= 1 è necessario considerare la standardizzata diX,
infatti
P(X 6 c) = P
(X − µ
σ6
c− µ
σ
)
= P
(
Z 6c− µ
σ
)
.
Esempio 8.1.2.Data la variabile casuale normaleX con µ = 3 e σ2 = 4,
calcoliamoP(1 6 X 6 4). Si ha
P(1 6 X 6 4) = P
(1− 3
26 X 6
4− 3
2
)
= P(−1 6 Z 6 0.5)
=
∫ 0.5
−1
n(z)dz =
∫ 0
−1
n(z)dz +
∫ 0.5
0
n(z)dz =
∫ 0.5
0
n(z)dz +
∫ 1
0
n(z)dz
= 0.1915 + 0.3413 = 0.2328 .
Esempio 8.1.3.SianoZ1 e Z2 due variabili casuali normali standardizzate indi-
pendenti:
fZ1Z2 (z1, z2) = n (z1)× n (z2) =1
2πexp
[
−1
2
(z21 + z22
)]
.
8.1 Proprietà della densità normale 265
SiaY1 = Z1 + Z2 eY2 = Z1/Z2, determiniamofY1Y2 (y1, y2). Si hay1 = z1 + z2
e y1 = z1/z2. Per quanto concerne le trasformazioni inverse abbiamoz1 = y1z2
e z2 = z1/y2, da cuiy1 = z1 (1 + y2) /y2 e z1 = y1y2/ (1 + y2) ≡ g−11 (y1, y2).
Essendo inoltrey1 = y2z2 + z2, si haz2 = y1/ (1 + y2) ≡ g−12 (y1, y2).
Lo Jacobiano2 della trasformazione inversa è
J =∂(z1, z2)
∂(y1, y2)=
∣∣∣∣∣
∂z1/∂y1 ∂z1/∂y2
∂z2/∂y1 ∂z2/∂y2
∣∣∣∣∣
=
∣∣∣∣∣∣∣∣∣
y21 + y2
y1(1 + y2)2
1
1 + y2− y1(1 + y2)2
∣∣∣∣∣∣∣∣∣
= −y1(1 + y2)
(1 + y2)3= −y1/(1 + y2)
2.
Ricordando la (5.91), la densità congiunta diY1 eY2 è
fY 1Y2 (y1, y2) = |J |fZ1Z2
[g−11 (y1, y2) , g
−12 (y1, y2)
]
=|y1|
(1 + y2)2× 1
2πexp
−1
2
[(y1y2)
2
(1 + y2)2+
y21(1 + y2)2
]
=1
2π
|y1|(1 + y2)2
exp
[
−1
2
y21(1 + y22)
(1 + y2)2
]
.
È interessante calcolare la distribuzione marginale diY2 integrandofY 1Y2 (y1, y2)
rispetto ay1. Si ha
fY2 (y2) =1
2π
1
(1 + y2)2
∫ +∞
−∞
|y1| exp[
−1
2
y21(1 + y22)
(1 + y2)2
]
dy1
=1
2π
1
(1 + y2)2× 2
∫ +∞
0
y1 exp
[
−1
2
y21(1 + y22)
(1 + y2)2
]
dy1.
2∂z1/∂y2 = ∂ [y1y2/ (1 + y2)] /∂y2 = y1[(1 + y2)
−1 − y2(1 + y2)−2]= y1/(1 + y2)
−2;
∂z2/∂y2 = ∂[y1(1 + y2)
−1]/∂y2 = −y1(1 + y2)
−2.
266 Capitolo 8. La legge di Gauss ed alcune distribuzioni collegate
Con l’ausilio della trasformazione di variabile
u =1
2
(1 + y22)
(1 + y2)2y21
otteniamo
du =(1 + y22)
(1 + y2)2y1 · dy1
e così la distribuzione
fY2 (y2) =1
2π
1
(1 + y2)2× 2
(1 + y22)
(1 + y2)2
∫ +∞
0
e−udu =1
π
1
1 + y22coincide con la distribuzione di Cauchy (6.13). In conclusione il rapporto di due
variabili casuali indipendenti normali standardizzate è unav-c di Cauchy.
8.1.1 Momenti della distribuzione normale
I momenti intorno all’origine della v-c normale standardizzata sono dati da
µr =
∫ +∞
−∞
zrn(z)dz =1√2π
∫ +∞
−∞
zr exp
(
−1
2z2)
dz. (8.9)
Ricordiamo cheµ0 = 1 eµ1 = 0 Perr > 2, esprimiamoµr come:
µr =1√2π
∫ +∞
−∞
zr−1
[
z exp
(
−1
2z2)]
dz.
Per calcolareµr adottiamo il metodo dell’integrazione per parti osservando che:
d
dz
[
− exp
(
−1
2z2)]
= −(−2z
2
)
exp
(
−1
2z2)
= z exp
(
−1
2z2)
.
Abbiamo
µr =1√2π
∫ +∞
−∞
zr−1
[
z exp
(
−1
2z2)]
dz
= − 1√2π
· zr−1 exp
(
−1
2z2)∣∣∣∣
+∞
−∞︸ ︷︷ ︸
0
+(r − 1)1√2π
∫ +∞
−∞
zr−2 exp
(
−1
2z2)
dz
= (r − 1)µr−2. (8.10)
8.1 Proprietà della densità normale 267
Dalla (8.10) segue
µ2 = (2− 1)µ0 = 1
µ3 = (3− 1)µ1 = 0
µ4 = (4− 1)µ2 = 3 · 1 = 3
µ5 = (5− 1)µ3 = 4 · 0 = 0
µ6 = (6− 1)µ4 = 5 · 3 = 15
ed, infine, si ottiene:
µ2r+1 = 0 e µ2r = (2r − 1)(2r − 3) · · ·3 · 1 . (8.11)
8.1.2 La variabile casuale lognormale
Sia, al solito,Z la v-c normale standard e poniamoY = g(Z) = eZ . Sey > 0 si
ha
fY (y) = n[g−1(y)
]· dzdy
= n [ln(y)] · 1y=
1
y√2π
exp
− [ln(y)]2
2
. (8.12)
Il comportamento difY (y) è diverso da quello din(z), infatti essa è nulla per
y < 0 e non possiede la proprietà di simmetria intorno al suo massimo. La (8.12)
è nota quale densità di probabilitàlognormale. Al fine di determinare la media
della distribuzione lognormale è necessario calcolare
E[Y ] =
∫ +∞
−∞
ezn(z)dz =1√2π
∫ +∞
−∞
eze−z2/2dz.
Dal calcolo integrale si ricava la seguente relazione
∫ +∞
−∞
exp(−p2x2 ± qx
)dx = exp
(q2
4p2
) √π
p(p > 0) (8.13)
268 Capitolo 8. La legge di Gauss ed alcune distribuzioni collegate
che, ponendop = 1/√2 e q = 1, dà luogo a
∫ +∞
−∞
exp(−z2/2 + z
)dz = exp
(1
2
)
·√2π
da cui segue
E[Y ] = e1/2. (8.14)
Abbiamo, inoltre,
σ2Y = E
[Y 2]− µ2
Y = E [exp(2Z)]−(e1/2)2
= E [exp(2Z)]− e.
CalcoliamoE[exp(2Z)]; si ha3
∫ +∞
−∞
e2zn(z)dz =1√2π
∫ +∞
−∞
exp(−z2/2 + 2z
)dz =
1√2π
e2√2π = e2
da cui
σ2Y = e2 − e = e(e− 1). (8.15)
Nel caso in cui siaY = eX , oveX è lav-c normale con mediaµ e varianzaσ2, la
densità lognormale assume l’espressione analitica
fY (y) =1
yσ√2π
exp
− [ln(y)− µ]2
2σ2
. (8.16)
8.2 Distribuzione Gamma
Dai corsi di analisi è noto che l’integrale4
Γ(α) =
∫ +∞
0
xα−1e−xdx. (8.17)
3Si applichi la (8.13) ponendoq = 2.4Tranne che in alcuni casi particolari l’integrale non si puòcalcolare analiticamente e si deve
far ricorso a metodi numerici o tavole specifiche.
8.2 Distribuzione Gamma 269
converge5 ∀α ∈ R+. Quindi, perα ∈ (0,+∞), l’integrale (8.17) definisce una
funzione, a valori inR+, che è denotata con il terminefunzione gamma.
Osserviamo innanzitutto che perα = 1 vale la relazione
Γ(1) =
∫ +∞
0
e−xdx = 1 (8.18)
ed inoltre, seα > 0,
Γ(α + 1) =
∫ +∞
0
xαe−xdx = −[∫ +∞
0
xα(−e−x
)dx
]
= −
xα · e−x∣∣+∞
0︸ ︷︷ ︸
0
−α
∫ +∞
0
xα−1e−xdx
= α
∫ +∞
0
xα−1e−xdx
= αΓ(α). (8.19)
Dalle (8.18) e (8.19), pern intero positivo, si ottiene
Γ(n) = (n− 1)!. (8.20)
Osservazione8.2.1. Di seguito elenchiamo alcune proprietà della funzione gamma
rimandando, per la dimostrazione, ai testi di analisi:
Γ
(1
2
)
= 2
∫ +∞
0
exp(−t2)dt =
√π, (8.21a)
Γ
(
n +1
2
)
=(2n)!
√π
n!22n(n = 0, 1, 2, . . .), (8.21b)
Γ
(
−n +1
2
)
=(−1)nn!22n
√π
2n!(n = 0, 1, 2, . . .), (8.21c)
Γ(x)Γ(1− x) =π
sin πx(x 6= 0,±1,±2, . . .). (8.21d)
5Il lettore interessato trova la dimostrazione anche in [13].
270 Capitolo 8. La legge di Gauss ed alcune distribuzioni collegate
Perβ > 0, poniamo nell’integrale (8.17),x = y/β Si ha
Γ(α) =
∫ +∞
0
yα−1
βα−1e−y/βd(y/β) =
∫ +∞
0
yα−1
βαe−y/βdy. (8.22)
e, come conseguenza della precedente relazione, otteniamo∫ +∞
0
1
Γ(α)βαyα−1e−y/βdy = 1 . (8.23)
Poiché la funzione integranda nella (8.23) è positiva pery > 0, la funzione
f(y) =
1
Γ(α)βαyα−1e−y/β se0 < y < +∞
0 sey 6 0(8.24)
definisce una funzione densità di probabilità perα > 0 eβ > 0.
Definizione 8.2.1.Una variabile casualeX, con funzione densità di probabilità
definita dalla (8.24), ha una distribuzione gamma con parametri α eβ; in simboli
X ≡ Γ(α, β) o ancheX ∼ Γ(α, β).
La funzione di distribuzione di unav-cΓ(α, β) è data da
F (x) =
0 sex 6 01
Γ(α)βα
∫ x
0yα−1e−y/β se0 < x
(8.25)
ove, ricordiamo, i parametriα eβ sono numeri reali positivi.
Osservazione8.2.2. La (8.24), nel caso particolare in cui siaα = 1, coincide con
la densità di probabilità esponenziale conγ = β−1.
8.2.1 La variabile casuale chi-quadrato
SiaZ la variabile casuale normale standardizzata, poniamoχ2 = Z2. Poichéχ2
non può assumere valori negativi, la probabilitàP(χ2 6 χ) è definita solamente
8.2 Distribuzione Gamma 271
seχ ∈ [0,+∞), si ha
P(χ26 χ) = P
(Z2
6 χ)= P
(|Z| 6 χ1/2
)= 2P
(0 < Z 6 χ1/2
)
= 2[P(Z 6 χ1/2
)− 0.5
]= P
(Z 6 χ1/2
)− 1 .
Derivando rispetto aχ, abbiamo la funzione densità di probabilità
f(χ) = 2n(χ1/2
)· 12· χ−1/2 =
1√2π
χ−1/2 exp
(
−1
2χ
)
(seχ > 0)
che è la cosiddetta funzione densità di unavariabile casuale chi-quadrato con un
grado di libertà. Quest’ultima si indica con il simboloχ21. Possiamo riformulare
la precedente relazione come
fχ21(χ) =
1
Γ(1/2)21/2exp (−χ/2)χ−1/2 se0 < x < +∞
0 sex 6 0(8.26)
ove si è fatto uso del risultatoΓ(1/2) =√π.
Osservazione8.2.3. La (8.26) è una caso particolare della (8.24) se in quest’ultima
si poneα = 1/2 eβ = 2.
Proposizione 8.2.1.SianoZ1, . . . , Zn variabili casuali normali standardizzate
indipendenti, la variabile casuale
χ2n = Z2
1 + · · ·+ Z2n
è denominata variabile casuale chi-quadrato conn gradi di libertà, χ2n, ed è
definita nell’intervallo[0,+∞). La funzione densità di probabilitàfχ2n(χ) è data
da
fχ2n(χ) =
1
Γ(n/2)2n/2exp (−χ/2)χn/2−1 seχ > 0
0 sex 6 0(8.27)
ed è chiamata distribuzione chi-quadrato conn gradi di libertà.
272 Capitolo 8. La legge di Gauss ed alcune distribuzioni collegate
Per dimostrare la precedente proposizione è necessario premettere un interessante
risultato che riguarda la somma di variabili casuali distribuite secondo la legge
gamma. A tale scopo consideriamo la variabile casualeZ, somma di duev-c
indipendenti,X1 ∼ Γ (α1, β) eX2 ∼ Γ (α2, β); determiniamofZ(z). Ricordando
la (5.86a) possiamo scrivere
fZ(z) =
∫ +∞
−∞
f1 (x1) f1 (z − x1) dx1 =
∫ z
0
f1 (x1) f2 (z − x1) dx1.
L’ultimo passaggio si giustifica tenendo conto che le densità gamma è nulla per
valori negativi dell’argomento. Si ha
f1 (x1) f2 (z − x1) =1
Γ(α1)βα1xα1−11 exp (−x1/β)
× 1
Γ(α2)βα2(z − x1)
α2−1 exp (− (z − x1) /β)
=1
Γ(α1)Γ(α2)
1
β(α1+α2)xα1−11 (z − x1)
α2−1 e−z/β
sicché
fZ(z) =1
Γ(α1)Γ(α2)β(α1+α2)e−z/β
∫ z
0
xα1−11 (z − x1)
α2−1 dx1.
Con il cambio di variabiley = x1/z, l’integrale a secondo membro nell’ultima
espressione difZ(z) diventa
∫ z
0
xα1−11 (z − x1)
α2−1 dx1 =
∫ 1
0
(zy)α1−1(z − zy)α2−1zdy
= zzα1−1zα2−1
∫ 1
0
yα1−1(1− y)α2−1dy = zα1+α2−1
∫ 1
0
yα1−1(1− y)α2−1dy
e pertanto
fZ(z) =1
Γ(α1)Γ(α2)β(α1+α2)
(∫ 1
0
yα1−1(1− y)α2−1dy
)
zα1+α2−1e−z/β
8.3 Distribuzione Beta 273
ove l’integrale in parentesi assume un valore costante. In particolare si ha6
∫ 1
0
yα1−1(1− y)α2−1dy =Γ (α1) Γ (α2)
Γ (α1) + Γ (α2)(8.28)
e da quest’ultima si ricava
fZ(z) =1
Γ(α1 + α2)β(α1+α2)zα1+α2−1e−z/β.
Da tale relazione si evince cheX1+X2 ∼ Γ (α1 + α2, β). Applicando lo stesso ra-
gionamento alla variabile casualeZ+X3 ≡ (X1 +X2)+X3, conX3 ∼ Γ (α3, β),
si dimostra cheX1+X2+X3 ∼ Γ (α1 + α2 + α3, β). Estendendo il procedimento
alla somma dik v-c indipendenti,X1, . . . , Xk, di leggeΓ (α1, β) , . . . ,Γ (αk, β),
si dimostra che essa ha una densitàΓ (α1 + · · ·+ αk, β). La variabile casuale
χ2n = Z2
1 + · · ·+ Z2n è la somma din variabili casuali indipendenti, ciascuna con
leggeΓ(1/2, 2), tenedo conto del precedente risultato si dimostra la (8.27).
L’andamento analitico difχ2n(χ) dipende dal valore din; si rammenti che, per
grandi valori din, la fχ2n(χ) ≈ n(z). Sono facilmente reperibili tavole della
distribuzioneχ2n che è coinvolta in molte applicazioni e problematiche teoriche.
8.3 Distribuzione Beta
La funzionebetaè definita dalla relazione
B(α, β) =
∫ 1
0
xα−1(1− x)β−1dx (8.29)
conα eβ reali positivi. Dalla precedente definizione segue che la funzione
f(x) =
xα−1(1− x)β−1
B(α, β)se0 < x < 1
0 alrimenti(8.30)
6Il risultato (8.28) sarà discusso in seguito trattando la distribuzione beta.
274 Capitolo 8. La legge di Gauss ed alcune distribuzioni collegate
è una densità di probabilità7.
Definizione 8.3.1.Unav-cX si dice avere unadistribuzione betacon parametriα
eβ se la sua densità di probabilità è definita dalla (8.30) conα eβ entrambi reali
maggiori di zero. In simboli si scriveX ≡ B(α, β) oppureX ∼ B(α, β).
La funzione di distribuzione di unav-aB(α, β) è
F (x) =
0 sex 6 0
B(α, β)−1 ×∫ x
0yα−1(1− y)β−1dy se0 < x < 1
1 sex > 1
(8.31)
e si ottiene integrando la (8.30).
La seguente proposizione rende esplicito lo stretto legameesistente tra la funzioni
gamma e beta.
Proposizione 8.3.1.Si ha8
B(α, β) ≡∫ 1
0
xα−1(1− x)β−1dx =Γ(α)Γ(β)
Γ(α) + Γ(β). (8.32)
La dimostrazione dell’asserto richiede conoscenze avanzate del calcolo integrale,
il lettore interessato trova due differenti dimostrazioniin [3] e in [2]. Dalla (8.32)
segue cheB(α, β) = B(β, α).
Osservazione8.3.1. Nel caso particolare in cuiα = β = 1 la distribuzione beta
coincide con la distribuzione uniforme in(0, 1).
7Si osservi che la funzione integranda in (8.29) è non negativa nell’intervallo di integrazione8Si colleghi l’asserto alla (8.28).
CAPITOLO 9
Funzioni generatrici
Il calcolo dei momenti di una variabile casuale implica spesso procedimenti mate-
matici complessi, l’introduzione di opportune funzioni ausiliarie conduce a note-
voli semplificazioni. Esse sono anche utili per determinarel’andamento analitico
di funzioni di distribuzione.
9.1 Funzione generatrice dei momenti
Definizione 9.1.1.SiaX una variabile casuale con funzione di distribuzioneF , si
definiscefunzione generatrice dei momentidi X (o diF ) la funzione
M(θ) = E[exp(θX)] (9.1)
doveθ è una variabile reale di comodo, che assume valori in un intervallo chiu-
so contenente lo zero, scelta in modo da rendere finita, se possibile, la speranza
matematica diexp(θX).
276 Capitolo 9. Funzioni generatrici
SeX è discreta, abbiamo
M(θ) =∞∑
j=1
eθxjp (xj) .
Nel caso di una variabile casuale assolutamente continua con densità di probabilità
f(x), la (9.1) diventa:
M(θ) =
∫ +∞
−∞
eθxf(x)dx.
Il nome funzione generatrice dei momenti scaturisce dal fatto che, come faremo
vedere nel seguito, i momentiµk di X possono essere calcolati derivandoM(θ)
in θ = 0.
Osservazione9.1.1. Ponendoθ = 0, si ricavaM(0) ≡ 1.
Esempio 9.1.1.SiaX una variabile casuale con funzione densità di probabilità
f(x) = (1/2) exp(−x/2), sex > 0; poniamo, inoltre,f(x) = 0, sex 6 0.
Ricordiamo1 che∫ +∞
0exp(−ax)dx = 1/a. Si ha
M(θ) =
∫ +∞
0
eθxf(x)dx =1
2
∫ +∞
0
eθxe−x/2dx =1
2
∫ +∞
0
e(θ−12)xdx
e, seθ < 1/2,
=1
2· 1
θ − 12
= 1/(1− 2θ).
Proposizione 9.1.1.Sia X una variabile casuale con funzione generatrice dei
momentiMX(θ). Definiamo la nuova variabile aleatoriaY = aX + b, cona, b
numeri reali eda tale che esisteMX(aθ), vale la relazione
MY (θ) = ebθMX(aθ). (9.2)
1da cui segue:1/2∫+∞
0exp(−x/2) = 1
9.1 Funzione generatrice dei momenti 277
La (9.2) è facilmente dimostrabile, infatti
MY (θ) = E[eθY]= E
[eθ(aX+b)
]= ebθE
[eaθX
]= ebθMX(aθ).
Naturalmente seMX(θ) è definita nell’intervallo[−θ0,+θ0], alloraMY (θ) è defi-
nita in
[
−θ0a,+
θ0a
]
.
Teorema 9.1.1.Siaθ0 un numero reale positivo, seX ha una funzione generatrice
dei momenti finita per|θ| 6 θ0, alloraX ammette momentiµk di qualsiasi ordine.
Dimostrazione.Ricordiamo che per ogni numero realet vale la relazione
e|t| 6 e|t| + e−|t| = et + e−t.
Allora, supponendo cheX sia assolutamente continua,∀θ ∈ [−θ0,+θ0], si ha
E[exp(|θX|)] =∫ +∞
−∞
e|θX|f(x)dx
6
∫ +∞
−∞
eθXf(x)dx+
∫ +∞
−∞
e−θXf(x)dx = M(θ) +M(−θ) < +∞. (9.3)
Poiché, per ogni numero realet edn numero intero maggiore di zero, è valida la
disuguaglianza|t|nn!
6
∞∑
j=0
|t|jj!
≡ e|t|, ponendot = θx, dove conx denotiamo un
generico valore diX, otteniamo
|θx|nn!
=|θ|nn!
|x|n 6 e|θx|
ed infine|θ|nn!
∫ +∞
−∞
|x|nf(x)dx 6
∫ +∞
−∞
e|θX|f(x)dx < +∞.
Pertanto tutti i momenti assoluti diX, e quindi tutti i momenti intorno all’origine,
esistono finiti.
278 Capitolo 9. Funzioni generatrici
Proposizione 9.1.2.SeX ha una funzione generatrice dei momentiM(θ), per
|θ| 6 θ0, si ha
µk =dkM(θ)
dθk
∣∣∣∣θ=0
. (9.4)
La dimostrazione rigorosa dell’asserto presuppone la conoscenza di alcuni teore-
mi di analisi matematica generalmente poco noti al di fuori dei corsi di laurea in
matematica e fisica, il lettore interessato può consultare [2], [4] e [11]. Intuitiva-
mente possiamo affermare2 che, essendo la speranza matematica e la derivazione
entrambi operatori lineari, essi possono essere scambiatidi posto; in altre parole è
possibile scrivere le seguenti relazioni
dM(θ)
dθ=
d
dθE [exp(θX)] = E
[deθX
dθ
]
= E[XeθX ]
d2M(θ)
dθ2=
d2
dθ2E [exp(θX)] = E
[d2eθX
dθ2
]
= E[X2eθX ]
d3M(θ)
dθ3=
d3
dθ3E [exp(θX)] = E
[d3eθX
dθ3
]
= E[X3eθX ]
...dkM(θ)
dθk=
dk
dθkE [exp(θX)] = E
[dkeθX
dθk
]
= E[XkeθX ] (9.5)
e, postoθ = 0, otteniamo la (9.4) perk = 1, 2, . . . .
Si perviene alla stessa conclusione considerando lo sviluppo in serie di potenze
eθx =∑∞
k=0
(θx)k
k!. Se esiste la funzione generatrice dei momenti, si ha
M(θ) = E[eθX]= E
[∞∑
k=0
θk
k!Xk
]
2Seguiamo l’impostazione data da Parzen (vedi [10]).
9.1 Funzione generatrice dei momenti 279
e, applicando la proprietà di linearità3 dell’operatoreE, abbiamo
M(θ) =∞∑
k=0
E[Xk] θk
k!=
∞∑
k=0
µkθk
k!(9.6)
e, pertanto,µk è, per ogni interok, il coefficiente diθk/k! nello sviluppo in serie
di potenze diM(θ). Poiché una serie di potenze può essere derivata termine a
termine, si ottiene
M′(θ) =d
dθ
(
1 + µ1 · θ + µ2 ·θ2
2!+ µ3 ·
θ3
3!+ · · ·
)
= µ1 + µ2 ·2θ
2!+ µ3 ·
3θ2
3!+ · · · (9.7)
da cui segueM′(0) = µ1. Derivando la (9.7) si ricava
M′′(θ) =d
dθ
(
µ1 + µ2 ·2θ
2!+ µ3 ·
3θ2
3!+ · · ·
)
= µ2 + µ3 ·6θ
3!+ · · · (9.8)
e da quest’ultima segue cheM′′(0) = µ2. Continuando a derivare si perviene alla
formula generale (9.4)
Definiamo la funzioneφ(θ) ponendoφ(θ) = ln[M(θ)]. Si ha
φ′(θ) =M′(θ)
M(θ)
ed inoltre
φ′′(θ) =M′′(θ)M(θ)− [M′(θ)]2
[M(θ)]2.
Perθ = 0 otteniamo
φ′(0) =M′(0)
M(0)= µ1 (9.9)
e
φ′′(0) =M′′(0)M(0)− [M′(0)]2
[M(0)]2= µ2 − µ2
1 = σ2X . (9.10)
3Vedi [2] e [11] per la dimostrazione in base alteorema della convergenza dominata.
280 Capitolo 9. Funzioni generatrici
Il seguente teorema, del quale si omette la dimostrazione, illustra la proprietà fon-
damentale della funzione generatrice dei momenti che è quella di determinare
univocamente la funzione di distribuzione.
Teorema 9.1.2.SianoX e Y due v-c con funzione di distribuzioneFX(x) ed
FY (y), rispettivamente; denotiamo conMX(θ) eMY (θ) le funzioni generatrici
dei momenti.X eY hanno la stessa funzione di distribuzione,FX ≡ FY , se e solo
seMX(θ) = MY (θ), ∀θ.
Osservazione9.1.2. Supponiamo che esistano finiti i momentiµk, ∀k, di una
v-c X. Tale condizione non è sufficiente affinché esista la funzione generatri-
ce dei momenti diX. Possiamo renderci conto della validità della preceden-
te affermazione con un esempio. SiaX una variabile casuale con densità di
probabilità
f(x) = c exp (−|x|α)ove0 < α < 1, x ∈ (−∞,+∞) e la costantec è tale da verificare la condizione
di normalizzazionec∫ +∞
−∞exp (−|x|α) dx = 1. Siaθ > 0, si ha
∫ +∞
0
exp(θx) exp (−xα) dx =
∫ +∞
0
exp[x(θ − xα−1
)]dx.
Poichéα− 1 < 0, l’integrale∫ +∞
0exp(θx) exp (−xα) dx non assume valori finiti
∀θ > 0 e, quindi,X non ha una funzione generatrice dei momenti. Essa, invece,
ha momenti finiti di ogni ordine. Infatti si ha
E[|X|k] = c
∫ +∞
−∞
|xk| exp (−|x|α) dx = 2c
∫ +∞
0
xk exp (−xα) dx
e, con il cambio di variabiley = xα, otteniamo4
E[|X|k] = 2c
∫ +∞
0
yk/αe−y ·[1
αy−(1+
1α)]
dy < +∞ ∀k.
4I limiti di integrazione non cambiano; inoltrey1/α = x edx = (1/α) · y1/α−1dy.
9.1 Funzione generatrice dei momenti 281
La convergenza dell’integrale a secondo membro segue dall’esserey−(1+1α) fun-
zione decrescete diy e dal fatto chee−y tende a zero più rapidamente di quanto
yk/α cresca a+∞ al crescere diy.
Teorema 9.1.3.Siaµk la sequenza dei momenti di unav-cX. Se la serie
∞∑
1
µk
k!θk
converge assolutamente per un valoreθ > 0, allora µk determina univocamente
FX(x).
Il precedente teorema, dovuto ad Hamburger (1920), è di difficile dimostrazio-
ne; il lettore interessato trova in [13] i riferimenti bibliografici originali in lingua
tedesca.
Osservazione9.1.3. In particolare, se esiste una costantec che verifica la disugua-
glianza|µk| 6 ck, conk = 1, 2, . . ., allora, perθ > 0, si ha
∞∑
1
µk
k!θk 6
∞∑
1
(cθ)k
k!< ecθ
eµk determina in maniera univoca la distribuzione diX.
Esempio 9.1.2.Consideriamo la densità di probabilità esponenziale con parame-
tro γ > 0, abbiamo
M(θ) = E[eθX]=
∫ ∞
0
eθxγe−γxdx = γ
∫ ∞
0
e(θ−γ)xdx.
Seθ < γ l’integrale all’ultimo membro esiste finito:∫ ∞
0
e(θ−γ)xdx =
∫ ∞
0
e−(γ−θ)xdx = 1/(γ − θ).
282 Capitolo 9. Funzioni generatrici
In conclusione l’espressione analitica della funzione generatrice dei momenti è
M(θ) =γ
γ − θ∀θ ∈ [−θ0,+θ0] (9.11)
ove0 < θ0 < γ.
Calcoliamo la media e la varianza della distribuzione; si haM′(θ) =γ
(γ − θ)2
e µ1 ≡ M′(0) = 1/γ. Derivando ancora una volta la funzione generatrice dei
momenti abbiamoM′′(θ) =2γ
(γ − θ)3eµ2 ≡ M′′(0) = 2/γ2; infine si ritrova la
formula (6.41):
σ2 = µ2 − µ21 =
2
γ2− 1
γ2= 1/γ2.
La derivata terza della funzione generatrice dei momenti èM′′′(θ) =6γ
(γ − θ)4
e ponendo, al solitoθ = 0, otteniamoµ3 = 6/γ3; continuando nel processo di
derivazione si perviene alla formula generale
µn = n!/γn. (9.12)
Esempio 9.1.3.Sia X una variabile casuale di Poisson con parametroλ. La
funzione generatrice dei momenti è data da
M(θ) =
∞∑
k=0
eθk · p(k, λ) =∞∑
k=0
eθk · λk
k!· e−λ
= e−λ∞∑
k=0
(eθλ)k
k!= e−λ · eeθλ = ee
θλ−λ = eλ(eθ−1). (9.13)
Inoltre, si haφ(θ) = ln[
eλ(eθ−1)
]
= λ(eθ − 1
). Da quest’ultima si ricavano le
relazioniφ′(θ) = λ exp(θ) eφ′′(θ) = λ exp(θ) da cui:
µ1 = λ e σ2 = λ.
9.1 Funzione generatrice dei momenti 283
Esempio 9.1.4.Nel caso della distribuzione binomiale abbiamo
M(θ) =
∞∑
k=0
eθk · b(k;n, p) =n∑
k=0
eθk(n
k
)
pk(1− p)n−k
=
n∑
k=0
(n
k
)(peθ)k
(1− p)n−k =(1− p+ peθ
)n(9.14)
ove l’ultimo passaggio si giustifica ricordando la formula del binomio (6.24).
Calcolando la derivata prima e seconda della funzione generatrice dei momenti,
otteniamo
M′(θ) = n(1− p+ peθ
)n−1 · p · eθ
e
M′′(θ) = n(n− 1)(1− p+ peθ
)n−2 · p2 · e2θ + n(1− p+ peθ
)n−1 · p · eθ.
Ponendoθ = 0, otteniamo
µ1 = M′(0) = np
e
µ2 = M′′(0) = n(n− 1)p2 + np.
Da queste ultime relazioni si calcola il valore della varianza della distribuzione
binomiale espresso in precedenza dalla formula (6.29).
Esempio 9.1.5.Determiniamo la funzione generatrice dei momenti della variabile
casuale normale standardizzata.
284 Capitolo 9. Funzioni generatrici
Si ha
M(θ) =1√2π
∫ +∞
−∞
exp(θz) exp
(
−z2
2
)
dz
=1√2π
∫ +∞
−∞
exp
[
−1
2
(z2 − 2θz
)]
dz
=1√2π
∫ +∞
−∞
exp
−1
2
[(z − θ)2 − θ2
]
dz
= exp
(θ2
2
)∫ +∞
−∞
1√2π
exp
[
−(z − θ)2
2
]
dz
︸ ︷︷ ︸
1
= exp
(θ2
2
)
. (9.15)
Si noti, infatti, che la funzione integranda che compare nelpenultimo passaggio
è la densità di probabilità di una variabile casuale normalea mediaθ e varianza
unitaria. Abbiamoφ(θ) = ln[M(θ)] = θ2/2, da cui si trae
φ′(θ) = θ e φ′′(θ) = 1
ed infine, ponendoθ = 0, ritroviamo media e varianza dellav-c normale standar-
dizzata. Dalle relazioni (9.15) e (9.2) si ricava la funzione generatrice dei momenti
di X = σZ + µ; si ha
MX(θ) = eµθ ·MZ(σθ) = exp (µθ)·exp[(σθ)2
2
]
= exp
[
µθ +(σθ)2
2
]
. (9.16)
Teorema 9.1.4.SianoX1, X2, . . . , Xn variabili casuali indipendenti, dotate di
funzione generatrice dei momentiMi(θ), coni = 1, 2, . . . , n. SiaY la variabile
casuale somma delleXi: Y = X1 + · · ·+Xn, si ha
MY (θ) =n∏
i=1
Mi(θ). (9.17)
9.1 Funzione generatrice dei momenti 285
Dimostrazione.Consideriamo per semplicità formale il caso in cui sian = 2. Nel
caso discreto, in virtù dell’indipendenza delle variabilicasuali, possiamo scrivere
MY (θ) = E[eθY]= E
[eθ(X1+X2)
]
=∑
i
∑
j
exp[θ(x1i + x2j
)]pX1X2
(x1i, x2j
)
=∑
i
∑
j
exp (θx1i) exp(θx2j
)pX1 (x1i) pX2
(x2j
)
=∑
i
exp (θx1i) pX1 (x1i)∑
j
exp(θx2j
)pX2
(x2j
)= E
[eθX1
]· E[eθX2
]
da cui segue immediatamente l’asserto. La dimostrazione nel caso div-c assolu-
tamente continue è analoga:
MY (θ) = E[eθY]=
∫ +∞
−∞
∫ +∞
−∞
eθ(x1+x2)fX1X2 (x1, x2) dx1dx2
=
∫ +∞
−∞
∫ +∞
−∞
eθx1eθx2fX1 (x1) fX2 (x2) dx1dx2
=
∫ +∞
−∞
eθx1fX1 (x1) dx1
∫ +∞
−∞
eθx2fX2 (x2) dx2 = E[eθX1
]· E[eθX2
].
Nel caso in cui le variabili casuali, oltre ad essere indipendenti, hanno anche la
stessa funzione di distribuzioneFX(x), la (9.17) diventa:
MY (θ) = [MX(θ)]n . (9.18)
Esempio 9.1.6.SianoZ1 e Z2 due variabili casuali normali standardizzate indi-
pendenti, poniamoZ = Z1 + Z2 e calcoliamoMZ(θ). Si ha
MZ(θ) = MZ1(θ) · MZ2(θ) = exp
(θ2
2
)
· exp(θ2
2
)
= eθ2
.
286 Capitolo 9. Funzioni generatrici
Z è essa stessa unav-c gaussiana, non è però standardizzata; infatti, essendo
φ(θ) = θ2, abbiamoφ′(θ) = 2θ eφ′′(θ) = 2; pertantoZ ha media nulla e varianza
σ2Z = 2.
Esempio 9.1.7.Consideriamo due variabili casuali normali indipendenti,X1 eX2
con media e varianzaµ1, σ21 e µ2, σ2
2, rispettivamente; determiniamo la distribu-
zione diX = X1 +X2. Si ha
MX(θ) = MX1(θ) ·MX2(θ)
= exp
[
µ1θ +(σ1θ)
2
2
]
· exp[
µ2θ +(σ2θ)
2
2
]
= exp
[
(µ1 + µ2) θ +(σ2
1 + σ22) θ
2
2
]
.
Dalla precedente relazione deduciamo cheX è unav-cgaussiana con valore atteso
µ1 + µ2 e varianzaσ21 + σ2
2.
Esempio 9.1.8.Supponiamo che la funzione generatrice dei momenti di una va-
riabile casualeX sia data daM(θ) = exp[3(eθ − 1)
], calcoliamoPX = 0.
Ricordando la (9.13), deduciamo cheM(θ) è la funzione generatrice dei momenti
di unav-a di Poisson con media 3. In virtù del teorema 9.1.2 possiamo affermare
cheX ammette come distribuzione di probabilità la legge di Poisson conλ = 3 e
pertanto:
PX = 0 = e−3.
Esempio 9.1.9.Determiniamo la funzione generatrice dei momenti della variabile
9.1 Funzione generatrice dei momenti 287
casualeX ∼ Γ(α, β). Si ha
M(θ) =1
Γ(α)βα
∫ +∞
0
exp(θx) exp(−x/β)xα−1dx
=1
Γ(α)βα
∫ +∞
0
exp[x(θ − 1/β)]xα−1dx
=1
Γ(α)βα
∫ +∞
0
exp[−x(1/β − θ)]xα−1dx
=1
Γ(α)βα
∫ +∞
0
exp[−x
β(1− βθ)]xα−1dx.
Con il cambio di variabile
y = x
(1
β− θ
)
= x
(1− βθ
β
)
=x
β(1− βθ)
risultadx = β/(1− βθ)dy ex = β/(1− βθ)y, pertanto
M(θ) =1
Γ(α)βα× β
1− βθ× βα−1
(1− βθ)α−1×∫ +∞
0
e−yyα−1dy
=1
(1− βθ)α× 1
Γ(α)
∫ +∞
0
e−yyα−1dy
︸ ︷︷ ︸
1
conθ < 1/β. In conclusione la funzione generatrice diX ∼ Γ(α, β) è data
M(θ) = (1− βθ)−α (9.19)
conθ < 1/β. Dalla (9.19) ricaviamo
dM(θ)
dθ= −α(1− βθ)−α−1 · −β = αβ(1− βθ)−(α+1)
e
d2M(θ)
dθ2= −αβ(α + 1)(1− βθ)−(α+2) · −β = αβ2(α + 1)(1− βθ)−(α+2).
288 Capitolo 9. Funzioni generatrici
Dalle precedenti relazioni ricaviamo la media e la varianzadi X. Si ha infatti
µX =dM(θ)
dθ
∣∣∣∣θ=0
= αβ. (9.20)
Il momento di ordine due è
E[X2] =d2M(θ)
dθ2
∣∣∣∣θ=0
= α(α + 1)β2 (9.21)
sicché
σ2X = E[X2]− (µX)
2 = αβ2. (9.22)
Concludiamo calcolando direttamente i momenti di ordine a partire dalla densità
di probabilià. Abbiamo
µk ≡ E[Xn] =1
Γ(α)βα
∫ +∞
0
xn exp(−x/β)xα−1dx
=1
Γ(α)βα× βn
βn×∫ +∞
0
exp(−x/β)xα+n−1dx
=βn
Γ(α)
∫ +∞
0
1
βα+nexp(−x/β)xα+n−1dx
=βn
Γ(α)× Γ(α + n)
= βn(α + n− 1)(α+ n− 2) · · ·α. (9.23)
Per giustificare l’espressione finale diE [Xn] si deve far riferimento alla (8.19):
Γ(α) = (α− 1)Γ(α− 1).
9.1 Funzione generatrice dei momenti 289
Esempio 9.1.10.SiaX ∼ B(α, β), calcoliamoM(θ). Si ha
M(θ) =1
B(α, β)
∫ 1
0
exp(θx)xα−1(1− x)β−1dx
=1
B(α, β)
∫ 1
0
(+∞∑
k=0
θk
k!xk
)
xα−1(1− x)β−1dx
=1
B(α, β)
+∞∑
k=0
θk
k!
∫ 1
0
xα+k−1(1− x)β−1dx
︸ ︷︷ ︸
B(α+k,β)
=
+∞∑
k=0
[B(α + k, β)
B(α, β)
]
× θk
k!(9.24)
ed è possibile dimostrare la convergenza della serie per ogni interok.
Osservazione9.1.4. Si noti che la funzione generatrice dei momenti esiste qualun-
que siaθ; infatti, essendo la funzione integrandaexp(θx)xα−1(1−x)β−1 continua
in x nell’intervallo[0, 1], l’integrale∫ 1
0exp(θx)xα−1(1−x)β−1dx esiste ed assume
un valore finito.
Dalla (9.24), ricordando la (9.6), segue
µk ≡ E[Xk]=
B(α + k, β)
B(α, β)=
Γ(α+ k)Γ(β)
Γ(α + β + k)
Γ(α)Γ(β)
Γ(α + β)
=Γ(α + k)
Γ(α+ β + k)× Γ(α + β)
Γ(α)(k = 1, 2, . . .). (9.25)
290 Capitolo 9. Funzioni generatrici
In particolare, da quest’ultima relazione si ricava
E [X ] =Γ(α + 1)
Γ(α+ β + 1)× Γ(α + β)
Γ(α)
=αΓ(α)
(α+ β)Γ(α + β)× Γ(α + β)
Γ(α)
= α/(α + β) (9.26)
e
E[X2]=
Γ(α + 2)
Γ(α + β + 2)× Γ(α+ β)
Γ(α)
=(α + 1)Γ(α + 1)
(α+ β + 1)Γ(α + β + 1)× Γ(α + β)
Γ(α)
=(α+ 1)αΓ(α)
(α+ β + 1)(α + β)Γ(α+ β)× Γ(α + β)
Γ(α)
= α(α + 1)/[(α+ β)(α+ β + 1)]. (9.27)
Infine si ottiene l’espressione della varianza:
σ2X = E
[X2]− (E [X ])2 = αβ/[(α+ β)2(α + β + 1)]. (9.28)
È possibile ottenere la (9.25) attraverso il calcolo diretto a partire dalla densità di
probabilità; si ha
µk =
∫ 1
0
xk ×[
1
B(α, β)xα−1(1− x)β−1
]
dx
=1
B(α, β)
∫ 1
0
xα+k−1(1− x)β−1dx
=B(α + k, β)
B(α, β)= [Γ(α + k)Γ(α + β)] / [Γ(α)Γ(α + β + k)] . (9.29)
La (9.29) afferma cheX ∼ B(α, β) è dotata di momentiµk finiti ∀k. In particola-
re vale la disuguaglianzaE [X ]k < 1, per ogni interok. Infatti B(α, β), fissato il
9.1 Funzione generatrice dei momenti 291
valore diβ, è funzione decrescente diα: B(α+ k, β) < B(α, β). Per convincersi
della validità della precedente affermazione si osservi che nella (8.29) la funzione
potenzaxα−1, essendo0 < x < 1, è funzione decrescente dell’esponente, mentre
(1 − x)β, perβ fissato, è una costante moltiplicativa. Da quanto sopra premes-
so si deduce che, essendo verificate le condizioni richiamate nel teorema 9.1.3 e
nell’osservazione 9.1.3, la distribuzione beta è dotata difunzione generatrice dei
momentiM(θ) ≡∑k µk(θk/k!), oveµk si ricava dalla (9.29).
Esempio 9.1.11.Calcoliamo la moda della distribuzione beta nel caso in cui i
parametriα e β siano entrambi maggiori di 1. Ricordiamo che la moda coincide
con il valorex di X in cui f(x) assume il valore massimo, in altre parole è il
valorex per cuif ′(x) = 0. Si ha
df(x)
dx=
1
B(α, β)
[xα−1(1− x)β−1
]
=1
B(α, β)
d
dx
[(α− 1)xα−2(1− x)β−1 + xα−1(β − 1)(1− x)β−2(−1)
]
=1
B(α, β)
[(α− 1)xα−2(1− x)β−1 − xα−1(β − 1)(1− x)β−2
]
=1
B(α, β)xα−2(1− x)β−2 [(α− 1)(1− x)− x(β − 1)] .
Da quest’ultima relazione, tenuto conto chex ∈ (0, 1), segue che il valorex deve
essere tale da verificare l’uguaglianza
(α− 1)(1− x)− x(β − 1) = 0
e, pertanto,
x = (α− 1)/(α+ β − 2).
CAPITOLO 10
La convergenza stocastica e teoremi
limite
10.1 La convergenza delle variabili aleatorie
SiaXn, n = 0, 1, 2, . . ., una successione infinita di variabili casuali definite in
un medesimo spazio di probabilitàΩ,F ,P. Per un fissatoω ∈ Ω, Xn(ω) ≡ xn
costituisce, al variare din, una successione di numeri reali che converge ad un
limite finito oppure risulta divergente. In generale la nozione di convergenza di
una successione casuale si presta a differenti interpretazioni. Una approfondita
trattazione dell’argomento è consultabile in [12], nel seguito daremo le definizioni
fondamentali utili allo studente per gli studi futuri; analogamente enunceremo,
omettendo la dimostrazione, proprietà e teoremi essenziali. Inizieremo col definire
la modalità di convergenza più debole.
294 Capitolo 10. La convergenza stocastica e teoremi limite
10.1.1 Convergenza in distribuzione
Definizione 10.1.1.Sia Fn una successione di funzioni di distribuzione; se
esiste una funzione di distribuzioneF tale che
limn→∞
Fn(x) = F (x)
in ogni puntox in cui F è continua, allora si dice cheFn convergein leggeo
in distribuzioneo debolmentea F e si usa la simbologia1 Fnw−→ F . SeXn
è una successione di variabili casuali edFn è la corrispondente successione
di distribuzioni di probabilità,Xn converge in distribuzione, o in legge, aX, se
esiste una variabile casualeX la cui funzione di distribuzione è tale cheFnw−→ F .
Per indicare cheXn converge in distribuzione aX si scrive
XnD−→ X.
Si noti che una data successione di funzioni di distribuzione potrebbe convergere
ad una funzione che non ha i requisiti per essere considerataessa stessa una legge
di distribuzione. Inoltre la convergenza in distribuzionenon implica né la con-
vergenza dei momenti né la convergenza delle corrispondenti funzioni di densità
di probabilità. Il seguente teorema, dimostrato da Scheffé2, mette in relazione la
convergenza in distribuzione con la convergenza della funzioni densità.
Teorema 10.1.1.SianoXnn∈N e X variabili casuali continue ed indichiamo
confn(x) edf(x) le rispettive funzioni di densità di probabilità. Se,∀x,
limn→∞
fn(x) = f(x)
allora
XnD−→ X.
1w sta perweakly(debolmente).2Per la dimostrazione si rimanda a: H. Scheffé:A useful convergence theorem for probability
distribution.Ann. Math. Stat. (1947), 434-438.
10.1 La convergenza delle variabili aleatorie 295
Per variabili casuali discrete e a valori interi, sussiste il teorema che enunciamo di
seguito.
Teorema 10.1.2.SianoXn eX variabili casuali discrete e a valori nell’insieme
dei numeri interi, allora
limn→∞
pn(x) = p(x) se e solo se XnD−→ X.
La convergenza in distribuzione gode delle seguenti proprietà. SeXnD−→ X e c è
una generica costante, ancheXn+ c converge in distribuzione aX + c; inoltre per
c 6= 0 si ha:cXnD−→ cX.
Osservazione10.1.1. SeXnD−→ X eg è una funzione reale continua ancheg (Xn)
converge in legge ag(X). La dimostrazione di questo risultato è riportata in: C.R.
Rao, “Linear statistical inference and its applications”,Wiley, 1965.
10.1.2 Convergenza in probabilità
La convergenza in probabilitàdefinisce un concetto di convergenza immediata-
mente più forte della convergenza in legge.
Definizione 10.1.2.SiaXn una successione di variabili casuali. La successione
Xn converge in probabilità alla variabile casualeX, definita nello stesso spazio
di probabilitàΩ,F ,P, se
limn→∞
P (|Xn −X| > ε) = 0 ∀ε > 0 . (10.1)
La convergenza in probabilità, in simboli, è espressa come:XnP−→ X.
Osservazione10.1.2. La definizione appena formulata non deve essere intesa nel-
l’ambito della convergenza nota dall’analisi matematica.In altri termini la con-
vergenza in probabilità diXn aX non implica che, datoε > 0, esista unn0 tale
296 Capitolo 10. La convergenza stocastica e teoremi limite
che risulti|Xn − X| < ε pern > n0. Essa assicura solamente la convergenza a
zero della successione di probabilitàP (|Xn −X| > ε).
Osservazione10.1.3. Il limite X è unico nel senso che se si verificano contem-
poraneamente le condizioniXnP−→ X e Xn
P−→ Z allora, quasi certamente,
Z ≡ X:
PX − Z = 0 = 1 .
Osservazione10.1.4. La condizione (10.1) è equivalente alla seguente
limn→∞
P (|Xn −X| < ε) = 1 ∀ε > 0 . (10.2)
La convergenza in probabilità gode delle proprietà che elenchiamo nel seguito.
1. Vale la condizione necessaria e sufficiente:
XnP−→ X se e solo se Xn −X
P−→ 0 . (10.3)
2. XnP−→ X implica che Xn −Xm
P−→ 0 per n,m → ∞.
3. SeXnP−→ X eYn
P−→ Y alloraXn ± YnP−→ X ± Y .
4. Siac una costante, seXn converge in probabilità alla variabile casualeX,
cXn converge in probabilità acX.
5. Dalla condizioneXnP−→ c segue cheX2
nP−→ c2.
6. Sianoa e b due costanti, la convergenza in probabilità diXn ada e diYn a
b assicura che
XnYnP−→ ab. (10.4)
7. SianoX eY due variabili casuali, dalla convergenza in probabilità diXn a
X segue che
XnYP−→ XY. (10.5)
10.1 La convergenza delle variabili aleatorie 297
8. SeXn converge in probabilità aX eYn aY , la successione prodottoXnYn
converge in probabilità aXY
XnYnP−→ XY. (10.6)
Un caso particolare della (10.6) è
X2n
P−→ X2 se XnP−→ X. (10.7)
9. La seguente3 è ulteriore condizione necessaria e sufficiente:Xn converge in
probabilità se e solo se,∀ε, η > 0, esiste unn0 tale che
P |Xn −Xm| > ε < η ∀n,m > n0. (10.8)
Teorema 10.1.3.Sia g una funzione continua definita nell’insieme dei numeri
reali R, seXnP−→ X ancheg (Xn)
P−→ g(X).
Corollario 10.1.1. Sec è una costante, la condizioneXnP−→ c implica g (Xn)
P−→g(c), essendog una funzione continua.
I teoremi seguenti illustrano la relazione tra convergenzadebole e convergenza in
probabilità.
Teorema 10.1.4.Se la successioneXn converge in probabilità aX, vale anche la
proprietà:XnD−→ X.
Teorema 10.1.5.Sia c una costante; la convergenza in legge diXn a c implica
cheXnP−→ c.
Corollario 10.1.2. Fissata una costantec, XnD−→ c se e solo seXn
P−→ c.
3Vedi: M. S. Bartlett, “An introduction to stochastic processes”, Cambrige University Press,
1966.
298 Capitolo 10. La convergenza stocastica e teoremi limite
È importante sottolineare che il corollario (10.1.2) non è valido se si sostituisce a
c una variabile casuale: in generale la convergenza in leggenon implicala con-
vergenza in probabilità. Grazie ad opportuni esempi si deduce che la convergenza
in probabilità non garantisce la convergenza, pern → ∞, di E[Xk
n
]a E
[Xk]
qualunque sia l’interok.
Enunciamo, infine, un teorema dovuto a Cramér4 utile in molte situazioni. Per
semplicità espressiva useremo il simbolo matematico⇒ per implica.
Teorema 10.1.6.Sia c una costante eXn, Yn una successione di coppie di
variabili casuali, si ha:
XnD−→ X, Yn
P−→ c ⇒ Xn ± YnD−→ X ± c , (10.9)
XnD−→ X, Yn
P−→ c ⇒
XnYnD−→ cX se c 6= 0 ,
XnYnP−→ 0 se c = 0 ,
(10.10)
XnD−→ X, Yn
P−→ c ⇒ Xn
Yn
D−→ X
cse c 6= 0 . (10.11)
10.1.3 Convergenza in mediar-ma
Definizione 10.1.3.SiaXn una successione di variabili casuali tale che, per un
dato interor ≥ 1, E (|Xn|r) < ∞. Essa convergein media di ordine rad una
variabile casualeX se
E [|X|r] < ∞ e limn→∞
E [|Xn −X|r] = 0 .
La convergenza in mediar-ma si indica conXnr−→ X.
Perr = 1 si ha la cosiddetta convergenza in media, ser = 2 in media quadratica.
In generale, se non altrimenti specificato, si considera il caso della convergenza in
4H. Cramér, “Mathematical methods of statistics”, Princeton University Press, 1946.
10.1 La convergenza delle variabili aleatorie 299
media quadratica che viene anche espressa dalla formula
l.i.m.n→∞
Xn = X.
Il teorema successivo afferma che la convergenza in mediar-ma è più forte della
convergenza in probabilità.
Teorema 10.1.7.SiaXn una successione di variabili casuali tale cheXnr−→ X
allora XnP−→ X.
Teorema 10.1.8.SeXn2−→ X allora, pern → ∞,
E [Xn] → E[X ] e E[X2
n
]→ E
[X2].
Corollario 10.1.3. La convergenza in media quadratica diXn aX implica che
σ2Xn
−−−→n→∞
σ2X
.
Dimostrazione.Si haσ2Xn
= E [X2n]−E
2 [Xn]; passando al limite e tenendo conto
dei risultati del teorema (10.1.8) si dimostra la tesi.
Il limite nel senso della media quadratica è un operatore lineare. Vale, infatti, il
teorema:
Teorema 10.1.9.Se si verificano contemporaneamente le condizioni
l.i.m.n→∞
Xn = X e l.i.m.n→∞
Yn = Y
risulta anche
l.i.m.n→∞
(aXn + bYn) = aX + bX.
300 Capitolo 10. La convergenza stocastica e teoremi limite
Concludiamo la trattazione della convergenza in media di ordine r ricordando
alcuni importanti risultati.
(i) Xm2−→ X, Yn
2−→ Y ⇒ E [Xm, Yn] → E[XY ];
(ii) Xm2−→ X, Yn
2−→ Y ⇒ ρXmYn→ ρXY ;
(iii) Xnr−→ X ⇒ E [|Xn|r] → E [|X|r];
(iv) Xnr−→ X ⇒ Xn
s−→ X, perr > s;
(v) Xnr−→ X ⇒ E [|Xn|s] → E [|X|s] pers ≤ r.
10.1.4 Convergenza quasi certa
Definizione 10.1.4.La successione di variabili casualiXn convergequasi cer-
tamenteo con probabilità1 ad una variabile casualeX se e solo se
P (ω : Xn(ω) → X(ω) pern → ∞) = 1 .
La notazioneXnq.c.−→ X indica la convergenza quasi certa.
La convergenza quasi certa è una modalità di convergenza piùforte delle prece-
denti, per questo motivo è talvolta chiamata anche convergenzaforte. Per rendere
più chiaro il concetto sotteso dalla convergenza forte consideriamo la realizzazio-
nex1, . . . , xn, . . . della sequenzaXn; xn può o convergere o non convergere in
senso ordinario ad un limitex. Se la probabilità che essa sia convergente è 1, allo-
ra diciamo cheXnq.c.−→ X. Una definizione equivalente, nella quale non compare
esplicitamente la variabile casuale limiteX, afferma che se∀(ε, η), esiste unn0
tale che,∀n > n0,
P (|Xn −Xm| > ε per almeno unm ≥ n) < η
10.2 Teorema limite locale 301
alloraXn converge quasi certamente.
Alcune delle più rilevanti proprietà della convergenza quasi certa sono elencate di
seguito5.
(a) Xnq.c.−→ X ⇔ limn→∞ P
supm≥n |Xm −X| > ε
= 0, ∀ε > 0 ;
(b) Xnq.c.−→ X ⇒ Xn
P−→ X;
(c) siaXn una successione strettamente decrescente di variabili casuali posi-
tive,XnP−→ 0 ⇒ Xn
q.c.−→ 0;
(d) sussiste il seguente criterio sufficiente per la convergenza forte:
∑
n
E |Xn −X|p < ∞ per un certop > 0 ⇒ Xnq.c.−→ X ; (10.12)
(e) una condizione sufficiente alternativa è:
∑
n
E
[ |Xn+1 −Xn|εn
]p
< ∞, ove∑
n
εn < ∞. (10.13)
Non esiste nessuna condizione necessaria e sufficiente tra convergenza forte e
convergenza in media quadratica.
10.2 Teorema limite locale
Il calcolo della probabilitàb(k;n, p) dalla formula (4.1) comporta, per grandi va-
lori di n edk, notevoli difficoltà se non si utilizza un calcolatore elettronico. Non
5Il simbolo matematico⇔ sta perse e solo se. Inoltre la condizioni sufficienti sono riportate
nel libro di Bartlett citato in precedenza.
302 Capitolo 10. La convergenza stocastica e teoremi limite
stupisce, pertanto, che in passato si sia presentata la necessità di sviluppare for-
mule asintotiche per il calcolo di questa probabilità con ungrado di accuratez-
za sufficientemente elevato. Nel caso particolare delle prove del Bernoulli con
p = q = 1/2, una formula che soddisfa sia i requisiti di semplicità che di ele-
vata approssimazione fu dimostrata nel 1730 dal matematicofrancese de Moivre;
successivamente Laplace generalizzò il risultato al caso generale di0 < p < 1.
Teorema 10.2.1(Teorema limite locale di de Moivre-Laplace). Se in uno sche-
ma del Bernoulli la probabilità di successo6 p ∈ (0, 1) e se il numero di prove
n → ∞, la probabilitàb(k;n, p) tende al valore
1√2πnpq
exp
[
−(k − np)2
2npq
]
(10.14)
oveq = 1− p.
Il teorema limite locale7 afferma che la distribuzione di probabilità della variabile
casuale numero di successi inn prove del Bernoulli conp ∈ (0, 1), sen è molto
grande, è approssimata dalla legge di Gauss con medianp e varianzanpq. La
rappresentazione asintotica della distribuzione binomiale con la legge di Gauss
peggiora sempre di più via via che la probabilità elementarep si discosta da1/2. In
questi casi, affinché l’applicazione del teorema precedente dia errori trascurabili,
n deve essere veramente molto grande. In numerose applicazioni p ha un valore
dell’ordine di 1/10 o anche inferiore e quindi il problema è rilevante. In questi
casi una formula asintotica più affidabile, come abbiamo visto, fu determinata da
Poisson nel 1837 (vedi paragrafo 4.3). L’approssimazione di Poisson della legge
binomiale è un altro dei teoremi limite locale di grande valore pratico e storico.
Le tavole della densità di probabilitàn(z) della variabile normale standardizzataZ
6Ricordiamo che essa è per ipotesi costante.7Il lettore interessato trova in [6] una possibile dimostrazione basata sulla formula di Stirling.
10.3 Teorema limite integrale 303
rendono abbastanza agevole l’utilizzo del teorema limite locale. Ponendo, infatti,
z = (k − np)/√npq, la (10.14) diventa
b(k;n, p) ≈ 1√npq
·[
1√2π
exp
(
−z2
2
)]
=1√npq
· n(z). (10.15)
Esempio 10.2.1.Sian = 104, k = 40 ep = 5 · 10−3, dal calcolo diretto si ottiene
b (40; 104, 5 · 10−3) ≈ 0.0197. Dal teorema appena dimostrato segue
b(k;n, p) ≈ 1√npq
· 1√2π
exp
[
−1
2
(k − np√
npq
)2]
e, sostituendo i parametri assegnati, si ricava
√npq =
√104 · 5 · 10−3 · 0.995 =
√49.75 ≈ 7.05
ed inoltrek − np√
npq≈ −1.42 .
Di conseguenza abbiamo
b(k;n, p) ≈ 1
7.05·[
1√2π
exp
(
−1
2· 1.422
)]
=1
7.05· n(1.42).
Dalle tavole dellan(z) si han(1.42) = 0.1456 ed infine
b(k;n, p) ≈ 0.1456
7.05≈ 0.0206 .
10.3 Teorema limite integrale
Indichiamo come al solito conSn la variabile casuale numero di successi inn
prove del Bernoulli a parametrop; ricordiamo che essa ha medianp e varianza
npq. Introduciamo la variabile casuale standardizzata
S∗n =
Sn − np√npq
.
304 Capitolo 10. La convergenza stocastica e teoremi limite
Vale il seguente teorema8.
Teorema 10.3.1(Teorema limite integrale di de Moivre-Laplace). Fissati due
numeri realiz1 ez2, ovez1 < z2, comen tende all’infinito la successione di varia-
bili casualiS∗n converge in distribuzione alla variabile normale standardizzata:
P (z1 6 S∗n 6 z2) →
1√2π
∫ z2
z1
exp
(
−z2
2
)
dz = N(z2)−N(z1). (10.16)
In particolare il precedente teorema afferma che per grandivalori di n la probabi-
lità a primo membro della (10.3.1) non dipende dap.
Percome è stata definitaS∗n, è possibile riscrivere la (10.16) come
P (np + z1√npq 6 Sn 6 np+ z2
√npq) → N(z2)−N(z1). (10.17)
Osservazione10.3.1. Il teorema 10.3.1 consente di dimostrare facilmente il teore-
ma di Bernoulli che abbiamo ricavato in precedenza grazie alla disuguaglianza di
Tchebycheff.
Valutiamo la probabilità connessa alla disuguaglianza|Sn/n− p| < ε, conε > 0
costante. Abbiamo
P
(∣∣∣∣
Sn
n− p
∣∣∣∣< ε
)
= P (|Sn − np| < nε) = P(−nε < Sn − np < +nε)
= P
(
− nε√npq
<Sn − np√
npq< +
nε√npq
)
= P
(
−ε
√n
pq< S∗
n < +ε
√n
pq
)
.
Come conseguenza della precedente relazione si ha
limn→∞
P
(∣∣∣∣
Sn
n− p
∣∣∣∣< ε
)
=1√2π
∫ +∞
−∞
exp(−z2/2
)dz = 1 .
Quindi, comunque si fissi il valoreε > 0, la probabilità connessa alla disugua-
glianza|Sn/n− p| < ε tende ad1 pern che tende all’infinito.
8Per la dimostrazione il lettore faccia riferimento a [6] e [5].
10.3 Teorema limite integrale 305
Esempio 10.3.1.Calcoliamo la probabilità che il numero di volte che esce testa,
lanciando duecento volte una moneta, si discosti dal valoreatteso al più per cinque
uscite. Essendon = 200 e p = 1/2, si haE (S200) = 100; dobbiamo quindi
calcolare
P (95 6 S200 6 105) .
Determiniamoz1 e z2. Si ha
np+ z1√npq = 95
np+ z2√npq = 105
e, sostituendo gli opportuni valori numerici, otteniamo
100 + z1√50 = 95
100 + z2√50 = 105
ed infinez1 = −5/√50 e z2 = +5/
√50.
Per migliorare l’approssimazione, quando gli estreminp+z1√npq enp+z2
√npq
della disuguaglianza che compare a primo membro della (10.17) sono interi, si
sottrae1/2 a z1 e si somma la stessa quantità az2. Nel nostro caso si perviene
ai nuovi valori z1 = −5.5/√50 ≈ −0.7778 e z2 = +5.5/
√50 ≈ +0.7778.
Ricordando la simmetria dellan(z), abbiamoN(−0.7778) = 1 − N(0.7778) ed
infine
P (95 6 S200 6 105) ≈ 2 ·N(0.7778)− 1 ≈ 0.56331.
L’approssimazione è alla quarta cifra decimale, infatti dal calcolo diretto, appli-
cando la definizione di distribuzione binomiale, si ricava un valore all’incirca pari
a0.56325.
Esempio 10.3.2.Assumendon = 500 ep = 10−1, calcoliamo
P (50 6 S500 6 55) .
306 Capitolo 10. La convergenza stocastica e teoremi limite
AbbiamoE (S500) = 50 e σS500 =√5 · 102 · 10−1 · 9 · 10−1 =
√45. Dalle
precedenti relazioni otteniamo
50 + z1√45 = 50
50 + z2√45 = 55
ed infine, tenendo conto della correzione prima menzionata,si ricavano i valori
z1 = −0.5/√45 ≈ −0.074 e z2 = 5.5/
√45 ≈ +0.82. Pertanto
P (50 6 S500 6 55) ≈ N(0.82)−N(−0.074)
= N(0.82) +N(0.074)− 1 ≈ 0.3235.
Il valore esatto dedotto applicando la distribuzione binomiale è all’incirca0.3176.
Anche se il numero di prove del Bernoulli è molto più alto di quello dell’esempio
precedente, l’approssimazione è stavolta sulla seconda cifra decimale e l’errore
è circa il due per cento. Questo effetto, come abbiamo già sottolineato, è dovu-
to al valore dip = 0.1 che si discosta di molto dal valorep = 0.5. In questo
caso l’approssimazione di Poisson fornisce valori maggiormente vicini al valore
teorico.
Esempio 10.3.3.Grazie alle relazioni (iii) e (iv) in 8.1.3 possiamo calcolare le
probabilitàP (Sn ∈ [E (Sn)± 2σSn]) e P (Sn ∈ [E (Sn)± 3σSn
]) assumendo che
n siaragionevolmente grande(≫ 100). Abbiamo
P (np− 2√npq 6 Sn 6 np+ 2
√npq)
≈∫ +2
−2
n(z)dz = N(2)−N(−2) ≈ 0.9545
e
P (np− 3√npq 6 Sn 6 np+ 3
√npq)
≈∫ +3
−3
n(z)dz = N(3)−N(−3) ≈ 0.9973.
10.4 Legge dei grandi numeri 307
10.4 Legge dei grandi numeri
È noto dall’esperienza che un evento con probabilità prossima a uno si verifica
quasi certamente, esso è comunemente ritenutopraticamente certo. Al contrario
eventi la cui probabilità sia prossima a zero avvengono assai raramente, un evento
assai poco probabile viene consideratopraticamente impossibile. Quanto deve
valere la probabilità di un evento affinché lo si possa ritenere praticamente certo
(praticamente impossibile)9? Una risposta univoca al precedente interrogativo non
esiste, essendo essa legata alla natura dell’evento in questione. Supponiamo, ad
esempio, di dover misurare la distanza tra due punti e che essa sia dell’ordine dei
chilometri. Se l’errore commesso nell’effettuare tale misura ha probabilità pari
a 0.02 di essere maggiore o uguale ad un metro, allora possiamo trascurare la
possibilità di un tale errore e considerare il valore ottenuto come sostanzialmente
corretto. Un valore di probabilità pari a0.02 in altre situazioni sperimentali non
può essere trascurato. Se, fissate le caratteristiche dei materiali utilizzati, sussiste
una probabilità del due per cento che, in determinate situazioni, il peso che la
struttura deve sopportare raggiunga un valore superiore alcarico di rottura della
stessa con conseguente crollo, è evidente che tale evento non possa essere ignorato
ed è necessario impiegare materiali con caratteristiche adeguate. È di volta in volta
quindi, in relazione al problema pratico che si sta esaminando, che va scelto il
criterio in base al quale considerare certi eventi come praticamente impossibili ed
altri come praticamente certi10. Per chiarire la differenza tra l’impossibilità teorica
e l’impossibilità pratica ricorriamo ad un esempio. Un mazzo di carte francesi
contiene trentasei carte di quattro semi differenti. Supposto che le carte siano ben
9Il contenuto del presente paragrafo è tratto in gran parte dal capitolo sesto del testo di
Gnedenko citato in bibliografia10A questo proposito il lettore ricordi le definizioni formalidi evento quasi certo e quasi
impossibile formulate nel paragrafo 1.3.5.
308 Capitolo 10. La convergenza stocastica e teoremi limite
mescolate, la probabilità che, in una partita a quattro giocatori, nella prima mano
a ciascun giocatore siano servite carte tutte dello stesso seme è straordinariamente
bassa:(9!)4 · 4!
36!< 1.1 · 10−18.
Pur tuttavia una simile disposizione delle carte è stata registrata almeno una volta.
Da quanto detto appare chiaro come gli eventi di probabilitàprossima ad uno o
a zero siano di grande importanza sia dal punto di vista pratico che teorico. In
particolare sono state studiate a fondo leggi riguardanti probabilità prossima ad
uno soprattutto in quelle situazioni in cui il fenomeno osservato è il risultato della
sovrapposizione di un gran numero di effetti aleatori indipendenti o debolmente
dipendenti. Lalegge dei grandi numerisi inserisce in questo ambito teorico. Per
legge dei grandi numeri si intende l’insieme di tutte quelleproposizioni che af-
fermano che un dato evento, dipendente da un numero via via crescente di eventi
aleatori, ciascuno dei quali ha solo un debole effetto sull’evento in questione, si
verificherà con probabilità arbitrariamente prossima ad uno.
Di seguito riportiamo la formulazione generale dei teoremilegati alla legge dei
grandi numeri data da Gnedenko [6]. Sia data una successionedi variabili aleatorie
X1, X2, . . . , Xn, · · · (10.18)
e consideriamo le variabili aleatorie
Zn = fn (X1, X2, . . . , Xn) (10.19)
definite come funzioni simmetriche delle primen variabili casuali della succes-
sione (10.18). Se esiste una successione di costantia1, a2, . . . , an . . . tali che per
ogniε > 0
limn→∞
P (|Zn − an| < ε) = 1 (10.20)
allora la successione (10.18) verifica la legge dei grandi numeri relativamente alle
date funzionifn.
10.4 Legge dei grandi numeri 309
Abitualmente tuttavia si dà un significato più limitato allalegge dei grandi numeri,
ossia ci si limita ad analizzare quei casi in cui le funzionifn rappresentano la
media aritmetica delle variabiliX1, . . . , Xn.
Osservazione10.4.1. La (10.20) ci dice che la successioneZn − an converge in
probabilità a zero. Se tutte le grandezzean che compaiono nella (10.20) sono
uguali ad uno stesso valorea, diremo che le variabili aleatorieXn convergono in
probabilità ada (vedi paragrafo 10.1.2).
Osservazione10.4.2. Quando si studia un fenomeno fisico, questo viene osserva-
to assieme a tutti i fattori individuali che non sono intimamente collegati con la
natura del processo e compaiono solo sporadicamente producendo effetticasuali
sulla singola osservazione (misura). Si è osservato sperimentalmente che questi,
allorché viene considerata la media su un gran numero di osservazioni, tendono ad
annullarsi l’un l’altro rendendostatisticamente stabilela media calcolata. La leg-
ge dei grandi numeri è collegata a questo effettolivellatore caratteristico di quei
fenomeni fisici, che sono il risultato dellasommadi un gran numero dicontribu-
ti elementari. Chiariamo il concetto con un esempio. Un gas è costituito daun
enorme numero di particelle in costante moto caotico e, per ciascuna particella, è
impossibile predire con esattezza la posizione e la velocità in un determinato istan-
te. La pressione del gas è data dalla forza complessiva esercitata da tutte quelle
particelle che, nel loro insieme, colpiscono un’area unitaria nell’unità di tempo.
Il numero di urti e la velocità con la quale le varie particelle collidono varia ca-
sualmente, ma, in virtù della legge dei grandi numeri nella forma di Tchebycheff
che studieremo nel successivo paragrafo, la pressione11 può essere considerata co-
stante, fissate alcune condizioni come ad esempio la costanza della temperatura,
e questo fenomeno si osserva sperimentalmente con sorprendente regolarità. Il
valore del contributo teorico di Tchebycheff e degli altri studiosi a cui si devono i
11somma di un numero straordinariamente grande di contributielementari indipendenti
310 Capitolo 10. La convergenza stocastica e teoremi limite
teoremi che saranno introdotti nel seguito consiste nel fatto che essi hanno deter-
minato le condizioni generali il cui verificarsi dà luogo alla stabilità statistica delle
quantità medie calcolate o osservate sperimentalmente.
10.4.1 Legge dei grandi numeri nella forma di Tchebycheff
Dimostriamo, ora, alcuni teoremi dovuti a Tchebycheff, Markov ed altri, seguendo
il metodo introdotto nel 1866 dallo stesso Tchebycheff (vedi [6]).
Teorema 10.4.1(Teorema di Tchebycheff). SiaXk una successione numera-
bile di variabili casuali non correlate12, aventi varianze finite13 e limitate da una
medesima costanteC, allora vale la relazione
limn→∞
P
(∣∣∣∣∣
1
n
n∑
k=1
Xk −1
n
n∑
k=1
E (Xk)
∣∣∣∣∣< ε
)
= 1 ∀ε > 0 . (10.21)
Dimostrazione.Indichiamo conµk il valore atteso e conσ2k la varianza diXk.
Osserviamo che vale la relazione
E
[
1
n
n∑
k=1
Xk
]
=1
n
n∑
k=1
µk.
Dalle ipotesi fatte segue inoltre che
σ21/n
∑nk=1 Xk
=1
n2
n∑
k=1
σ2k
12Nell’edizione inglese del libro di Gnedenko, l’autore ipotizza l’indipendenza a due a due delle
variabili casuali, in realtà questa ipotesi è troppo forte in quanto per la dimostrazione occorre che
siano verificate le condizioni per applicare la (7.17). Nell’edizione italiana [6] il terminepairwise
independentè stato tradotto erroneamente come indipendenza.13e l’ipotesi implica che leXk abbiano anche valore di aspettazione finito
10.4 Legge dei grandi numeri 311
e, essendo, per ogni interok, σ2k 6 C, si ha
σ21/n
∑nk=1 Xk
6 C/n.
In virtù della disuguaglianza di Tchebycheff (6.48) abbiamo
P
(∣∣∣∣∣
1
n
n∑
k=1
Xk −1
n
n∑
k=1
µk
∣∣∣∣∣< ε
)
> 1−σ21/n
∑nk=1 Xk
ε2> 1− C
nε2
e, passando al limite pern → ∞, otteniamo
limn→∞
P
(∣∣∣∣∣
1
n
n∑
k=1
Xk −1
n
n∑
k=1
µk
∣∣∣∣∣< ε
)
> 1
da cui segue la tesi del teorema non potendo, per definizione,la probabilità essere
maggiore di uno.
Nel paragrafo 6.2.2 abbiamo dimostrato il teorema del Bernoulli 6.2.4. Con ovvio
significato della terminologia, la relazione (6.50) afferma che lav-c frequenza
relativaYn ≡ Sn/n converge in probabilitàal valorep, la probabilità che l’evento
in studio ha di verificarsi. Ricordando cheSn =∑n
i=1Xi, oveµXi= p e σ2
Xi=
pq 6 1/4, è facile convincersi che il teorema di Bernoulli è un caso particolare del
teorema di Tchebycheff14.
Osservazione10.4.3 (Alcune considerazioni sul teorema di Bernoulli). Poiché
è spesso necessario valutare, basandosi sull’esperienza sperimentale, probabilità a
priori incognite, è stata verificata in passato la validità del teorema di Bernoulli.
Lo schema seguito era il seguente. Sono stati considerati eventi di probabilità nota
per i quali era facile realizzare un gran numero di prove, potendo ritenere tali prove
indipendenti e costante la probabilità in ciascuna ripetizione. Illustriamo alcuni di
questi esperimenti paradigmatici, facilmente riproducibili.
14In questo caso, essendo le ripetizioni indipendenti, lev-cXk sono non correlate.
312 Capitolo 10. La convergenza stocastica e teoremi limite
Nel XVIII secolo il naturalista francese Buffon ha lanciatouna moneta4040 volte
ottenendo testa2048 volte. Nell’esperimento di Buffon la frequenza di successo,
ove per successo si intende l’apparizione di testa, è approssimativamente uguale
a 0.507. Lo statistico inglese Karl Pearson ripetè l’esperimento lanciando12000
volte la moneta ottenendo testa6019 volte; in questo caso la frequenza di successo
è pari a0.5016. In una ulteriore ripetizione di24000 lanci testa apparve12012
volte, con una frequenza di successo pari a0.5005. Osserviamo che in tutti i casi
il risultato differiva di poco dal valore teorico della probabilità uguale a1/2.
Un altro esperimento facilmente riproducibile consiste nel dividere per cento volte
in due parti uguali un mazzo di trentasei carte francesi. La probabilità che le
diciotto carte che costituiscono una metà del mazzo siano esattamente nove rosse
e nove nere è
p =
(189
)·(189
)
(3618
) ≈ 0.26 .
L’esecuzione delle tagliate15 ha dato luogo a risultati che, all’inizio, si discostano
abbastanza dal valore teorico, successivamente la frequenza di successi oscilla
tra 0.23 e 0.25. È interessante calcolare la probabilità che il valore stimato dip,
attraverso la frequenza relativa osservata, differisca dal valore teoricop = 0.26 per
uno scostamento maggiore o uguale al due per cento. In virtù del teorema limite
integrale si ha
P
(∣∣∣∣
Sn
n− p
∣∣∣∣> 0.02
)
= P
(∣∣∣∣
Sn − np√npq
∣∣∣∣> 0.02 ·
√n
pq
)
≈ 1− 2 ·N(
0.02 ·√
n
pq
)
= 1− 2 ·N(
0.02 ·√
100
0.26 · 0.74
)
= 1− 2 ·N(0.455) ≈ 0.65 .
15I risultati ottenuti sono riportati, sia in grafico che in tabella, in [6].
10.4 Legge dei grandi numeri 313
Possiamo concludere che, ripetendo molte volte l’esperimento costituito dalle cen-
to tagliate, in circa i due terzi dei casi l’errore nella valutazione dip attraverso la
frequenza osservata dei successi non sarà inferiore al due per cento.
È importante notare che nell’enunciato del teorema di Bernoulli compare la fre-
quenza relativa con la quale l’evento si realizza e non il numero assoluto di rea-
lizzazioni dell’evento che può comunque fluttuare arbitrariamente. La probabilità
che sulla ruota di Napoli venga estratto il numero48 è
p =
(90
4
)
/
(90
5
)
=5
90= 1/18.
Il numero medio di estrazioni del48 è, quindi, una volta ogni diciotto, ma questo
non garantisce l’incauto scommettitore a puntare una fortuna se il numero non
è stato estratto nelle cinquanta estrazioni precedenti. Così quando una moneta
onesta lanciata sei volte mostra testa tutte le volte, la probabilità di osservare croce
nella successiva prova è sempre1/2; la legge dei grandi numerinon condiziona i
risultati dei lanci successivi per bilanciare il risultatodelle prime sei prove nelle
quali si è osservato sempre testa. È senz’altro vero che la probabilità di ottenere
per sette volte testa consecutivamente è piccola,0.57 ≈ 8 · 10−3, pur tuttavia
la probabilità di osservare croce al settimo lancio è ancora1/2. Se un delicato
intervento chirurgico ha una probabilità di successo di1/10, il decimo paziente
non trova conforto da fatto che le prime nove sono fallite.
Un altro teorema, che è un caso particolare della legge dei grandi numeri secondo
Tchebychef, è il seguente teorema di Poisson, ove conSn si indica il numero di
volte in cui si è verificato l’eventoA nelle primen prove.
Teorema 10.4.2(Teorema di Poisson). Se in una successione di prove indipen-
denti la probabilità che l’eventoA si verifichi nellak-esima prova èpk, allora
limn→∞
P
(∣∣∣∣∣
Sn
n− 1
n
n∑
k=1
pk
∣∣∣∣∣< ε
)
= 1 ∀ε > 0 . (10.22)
314 Capitolo 10. La convergenza stocastica e teoremi limite
Dimostrazione.Per lev-a Xk, che indicano il numero di volte che l’eventoA
si è verificato nellak-esima prova, valgono le relazioniµk = pk e σk 6 1/4.
Ricordando cheSn =∑n
k=1Xk, segue l’asserto.
Il teorema di Poisson ha un’importanza fondamentale nelle applicazioni pratiche
della teoria della probabilità. Infatti i metodi probabilistici si utilizzano molto
spesso per lo studio di fenomeni che non hanno possibilità diripetersi nelle me-
desime condizioni. Il mutare delle condizioni induce in ciascuna prova variazioni
del valore della probabilità associata all’evento di interesse. Ciò nonostante la fre-
quenza relativa dei successi tende in probabilità alla probabilità media dell’evento.
Una forma particolare del teorema di Tchebycheff, di dimostrazione immediata, è
la seguente.
Teorema 10.4.3.SiaXk una successione numerabile di variabili casuali non
correlate tali che
E (X1) = E (X2) = . . . = E (Xk) = . . . = µ
e, per ogni interok,
σ2k 6 C
allora per ogniε costante maggiore di zero
limn→∞
P
(∣∣∣∣∣
1
n
n∑
k=1
Xk − µ
∣∣∣∣∣< ε
)
= 1 . (10.23)
La (10.23) asserisce che, supponendo verificate le ipotesi poste, per un nume-
ro sufficientemente grande di prove indipendenti la media aritmetica dei valori
osservati di una variabile aleatoria converge in probabilità alla sua speranza mate-
matica. In altre parole pern sufficientemente grande la media aritmetica si com-
portaquasi come una grandezza non aleatoria16. Approfondiamo ulteriormente
16Il lettore ricordi quanto appreso nel corso di statistica circa la dipendenza da1/n della varianza
dellav-cmedia aritmetica.
10.4 Legge dei grandi numeri 315
questo concetto. Supponiamo di dover misurate una certa quantità fisicaµ, ad
esempio il carico di rottura di un cavo di acciaio, e che ripetendon volte tale mi-
surazione, sempre nelle medesime condizioni sperimentali, si ottengano i valori
x1, x2, . . . , xn lievemente differenti l’uno dall’altro. La regola comunemente usa-
ta consiste nell’assumere come valore approssimato diµ la media aritmetica dei
valori osservatixi:
µ =1
n
n∑
i=1
xi.
Se le misure effettuate non presentano errori sistematici,ossia se è lecito assumere
cheE (X1) = E (X2) = . . . = E (Xn) = µ, allora, pern sufficientemente grande,
il teorema 10.4.3 assicura che in tal modo si può ottenere un valore arbitrariamente
vicino alla quantitàµ, con probabilità uno.
Il successivo teorema di Khinchin (1928) permette di ottenere un analogo risultato
presupponendo l’uguale distribuzione dellev-c Xi, ma senza porre vincoli sulle
varianze.
Teorema 10.4.4(Teorema di Khinchin). Se le variabili aleatorieX1, X2, . . .
sono indipendenti ed ugualmente distribuite con valore medio µ, allora
limn→∞
P
(∣∣∣∣∣
1
n
n∑
k=1
Xk − µ
∣∣∣∣∣< ε
)
= 1 ∀ε > 0 . (10.24)
Una semplice dimostrazione di questo teorema basata sulla funzione caratteristica
è riportata in [2]. Gnedenko [6] utilizza per la dimostrazione una tecnica dovuta a
Markov (1907) nota comemetodo del troncamento. Si rimanda ai testi citati per
gli approfondimenti.
Osservazione10.4.4. I teoremi precedentemente introdotti si prestano a numerose
applicazioni pratiche. Per un loro corretto uso occorre poter legittimamente porre
l’ipotesi che i fenomeni in studio siano il frutto di cause indipendenti. I mutamenti
316 Capitolo 10. La convergenza stocastica e teoremi limite
delle condizioni esterne nelle quali il fenomeno si svolge inducono modificazio-
ni fenomenologiche alle quali il modello matematico deve adeguarsi. In prima
approssimazione si può in generale assumere che le cause cheagiscono sul fe-
nomeno sono indipendenti e trarre le dovute conseguenze dalmodello. In base
all’accordo tra risultati sperimentali e le previsioni dello schema teorico adottato
si valuta la bontà del modello stesso. Nel caso si osservino differenze sensibili tra
dati osservati e dati previsti si dovranno modificare le ipotesi di base, per esem-
pio rimuovere l’ipotesi di totale indipendenza a favore di una debole dipendenza.
L’esperienza sinora fatta sull’uso dei teoremi relativi alla legge dei grandi nume-
ri permette di affermare che l’ipotesi di indipendenza è soddisfatta nella maggior
parte dei più importanti problemi delle scienze naturali e tecnologiche.
Concludiamo il paragrafo enunciano un risultato dovuto a Markov. Se una succes-
sione di variabili casualiX1, X2, . . . è tale che
limn→∞
1
n2σ2∑n
k=1 Xk= 0
allora vale il teorema di Tchebyceff, come espresso dalla (10.21), per ogniε > 0.
10.4.2 Legge forte dei grandi numeri
Accade spesso di trarre conclusioni del tutto ingiustificate dalla legge debole dei
grandi numeri. Per esempio letture errate del teorema del Bernoulli portano a dire
che la frequenza di un eventoA tende alla probabilità diA quando il numero delle
prove cresceindefinitamente. Il teorema del Bernoulli stabilisce che per un nume-
ro n sufficientemente grande di prove la probabilità di unasingola disuguaglianza
|Sn/n − p| < ε diviene maggiore di1 − η per un arbitrarioη > 0. Per valori
n′ > n alcune frequenze relative potrebbero differire dal valoreteoricop per una
quantità maggiore di±ε. La legge dei grandi numeri nella forma di Tchebycheff17
17che denoteremo comelegge debole dei grandi numeri
10.4 Legge dei grandi numeri 317
si basa sul concetto di convergenza in probabilità; nel1909 il matematico francese
Emil Borel ha enunciato una proposizione assai più profonda, divenuta nota come
la legge forte dei grandi numeri18, nella quale compare la convergenza quasi certa.
Teorema 10.4.5(Teorema di Borel). Sia Sn il numero di volte che un evento
A accade inn prove indipendenti, in ciascuna delle qualiA ha probabilitàp di
verificarsi. Allora si ha
Sn
n
q.c.−→ p pern → ∞.
Cerchiamo di chiarire la differenza tra il teorema di Borel equello di Bernoulli.
Se la sequenzaSn/n obbedisce alla legge forte dei grandi numeri, ossia se vale il
teorema 10.4.5, comunque si sceglie un interok, la probabilità che la frequenza
relativaSn/n fuoriesca dall’intervallop ± ε è minore di un prefissatoη piccolo a
piacereper tutti i k lanci successivi all’n-esimo:
P
([∣∣∣∣
Sn
n− p
∣∣∣∣< ε
]
∩[∣∣∣∣
Sn+1
n + 1− p
∣∣∣∣< ε
]
∩ · · · ∩[∣∣∣∣
Sn+k
n+ k− p
∣∣∣∣< ε
]
· · ·)
< 1− η.
A partire dal teorema di Borel una serie di studi ha dimostrato la validità dei teo-
remi introdotti nel paragrafo precedente sostituendo in essi la convergenza quasi
certa alla convergenza in probabilità. In particolare ricordiamo un teorema dovu-
to a Kolmogorov nel quale si dimostra che il teorema di Tchebicheff vale nella
forma della legge forte dei grandi numeri, se la successionedi variabili casuali
mutuamente indipendentiXk soddisfa la condizione
∞∑
k=1
σ2Xk
n2< +∞. (10.25)
18Per la dimostrazione vedi [6].
318 Capitolo 10. La convergenza stocastica e teoremi limite
Osservazione10.4.5. Si noti che la (10.25) è senz’altro verificata se esiste una
costanteC tale cheσ2Xk
6 C, ∀k. Pertanto la legge forte dei grandi numeri vale
anche nel caso dello schema di Poisson (vedi il teorema 10.4.2).
Un ultimo teorema dovuto ancora a Kolmogorov afferma che l’esistenza del valore
medioµ è condizione necessaria e sufficiente affinché la legge fortedei grandi nu-
meri si possa applicare alla sequenza di variabili aleatorieX1, X2, . . . mutuamente
indipendenti ed identicamente distribuite (vedi il teorema di Khinchin 10.4.4).
10.4.3 Il teorema centrale del limite
Il teorema limite integrale 10.3.1 afferma che
P (z1 6 S∗n 6 z2) ≡ P
(
z1 6Sn − np√
npq6 z2
)
≡ P
(
z1 6Sn − E (Sn)
σSn
6 z2
)
→ 1√2π
∫ z2
z1
exp
(
−z2
2
)
dz = N(z2)−N(z1).
Se al solito conXi indico la v-c che nellai-esima prova del Bernoulli assume il
valore1 in caso di successo e0 nel caso di un insuccesso, la relazione precedente
diventa
P
z1 6
∑ni=1 [Xi − E (Xi)]√∑n
i=1 σ2Xi
6 z2
→ 1√2π
∫ z2
z1
exp
(
−z2
2
)
dz.
Ci si pone a questo punto una domanda molto naturale: quanto èforte il legame
tra il teorema limite integrale e le ipotesi sugli addendiXi? Se si impongono con-
dizioni più deboli alla legge di distribuzione dellev-aXi il teorema di de Moivre-
Laplace è ancora valido? La formulazione rigorosa e la risoluzione del problema
sono dovute essenzialmente a Tchebycheff, ai suoi allievi Markov e Ljapunov,
a Lévy ed a Lindeberg che dimostrarono, in varie forme, il cosiddetto Teorema
Centrale di Convergenza o Teorema Centrale del Limite (Central Limit Theorem).
10.4 Legge dei grandi numeri 319
Osservazione10.4.6. Il quesito posto è rivolto a stabilire la regolarità di cui go-
de la somma di un gran numero di variabili aleatorie indipendenti, ciascuna delle
quali ha un effetto trascurabile sulla somma. L’interesse applicativo del problema
matematico sopra menzionato è considerevole. Infatti molti fenomeni naturali e
sociali su larga scala sono il risultato dell’influenza di ungran numero di fattori
aleatori tra loro indipendenti, ciascuno dei quali, preso singolarmente, ha un effet-
to trascurabile sullo svolgimento del fenomeno macroscopico. L’osservatore non
è interessato all’effetto separato dei singoli fattori ma all’azione sovrapposta di
questi.
Sussiste il seguente teorema.
Teorema 10.4.6(Teorema centrale del limite di Lévy). Sia Xi una succes-
sione di variabili casuali indipendenti e identicamente distribuite con mediaµ
e varianzaσ2, ove0 < σ2 < ∞. PoniamoSn =∑n
i=1Xi, n = 1, 2, . . . e
Zn = (σ√n)−1 (Sn − nµ). Allora per ogni numero realez si ha
limn→∞
P (Zn 6 z) =(
1/√2π)∫ z
−∞
exp(−t2/2
)dt = N(z). (10.26)
La dimostrazione rigorosa del teorema di Lévy presuppone laconoscenza della
funzione caratteristica di unav-c, il lettore interessato consulti [2]. Se ci si limita al
caso in cui leXi siano dotate di una funzione generatrice dei momentiM(θ) finita
in |θ| < θ0 per un fissatoθ0 > 0, è possibile far ricorso nella dimostrazione alla
M(θ) in luogo della funzione caratteristica (vedi [13]). Si notiche l’esistenza di
M(θ) implica cheE(
|Xi|k)
< +∞ per tutti gli interik. Quest’ultima condizione
è molto più forte di quanto ipotizzato nella tesi del teorema. Ricordiamo, inoltre,
che sussiste una ulteriore formulazione del teorema centrale del limite dovuta a
Lyapunov che si basa sullacondizione di Lindeberge non presuppone che lev-a
siano identicamente distribuite. Il teorema di Ljapunov, che riguarda corsi avanzati
di teoria della probabilità, è descritto in [6].
320 Capitolo 10. La convergenza stocastica e teoremi limite
Osservazione10.4.7. Il teorema di Lévy rappresenta un risultato notevole. Es-
so afferma che la distribuzione limite delle somme parzialistandardizzate è una
normale standard indipendentemente dalla legge di distribuzione delle variabili
casuali che compongono la somma a patto che esse rispettino le ipotesi poste.
Osservazione10.4.8. PoniamoX = Sn/n, la (10.26) dà luogo alla relazione
P (Zn 6 x) = P
(Sn − nµ
σ√n
6 x
)
dividendo pern il numeratore ed il denominatore della frazione
= P
(X − µ
σ/√n
6 x
)
→(
1/√2π) ∫ x
−∞
exp(−t2/2
)dt = N(x).
Dalla (10.26) ricaviamo che per grandi valori din si ha
P (a 6 Sn 6 b) = P
(a− nµ
σ√n
6 Zn 6b− nµ
σ√n
)
≈ N
(b− nµ
σ√n
)
−N
(a− nµ
σ√n
)
=(
1/σ√2πn
)∫ b
a
exp[−(t− nµ)2/
(2nσ2
)]dt.
AsintoticamenteX ha una distribuzione normale con mediaµ e varianzaσ2/n ed
Sn tende ad una normale con medianµ e varianzanσ2.
Osservazione10.4.9. In virtù della (6.49b), perk > 1 si ha
P
(∣∣X − µ
∣∣
σ/√n
6 k
)
> 1− 1/k2. (10.27)
Dal teorema centrale del limite ricaviamo, pern grande,
P
(∣∣X − µ
∣∣
σ/√n
6 k
)
≈ 1√2π
∫ k
−k
e−x2/2dx. (10.28)
Rispetto alla (10.27), la (10.28) fornisce una stima più precisa della probabilità a
primo membro.
Bibliografia
[1] P. Baldi: Calcolo delle probabilità, McGraw-Hill, Milano, 2011.
[2] A. Buonocore, A. Di Crescenzo, L.M. Ricciardi:Appunti di probabilità,
Liguori editore, Napoli, 2011.
[3] H. Cramér:Mathematical methods of statistics, Princeton University Press,
Princeton, 1966.
[4] G. Dall’Aglio: Calcolo delle probabilità, Zanichelli editore, Bologna, 2003.
[5] W. Feller: An introduction to probability theory and its application, Vol. 1,
John Wiley and sons inc., New York, 1968.
[6] B. Gnedenko:Teoria della probabilità, Editori Riuniti, Roma, 1979.
[7] J.G. Kalbfleisch:Probability and statistical inference Vol. I, II, Springer-
Verlag, New York, 1979.
[8] A.N. Kolmogorov: Fundations of the theory of probability, Chelsea
Publishing Company, New York, 1956. [traduzione della monografia
Grundbegriffe der Wahrscheinlichkeitsrechnung, 1933.]
322 Bibliografia
[9] A. Papoulis: Probability, random variables and stochastic processes,
McGraw-Hill Series in Electrical Enginering, New York, 1991.
[10] E. Parzen:Modern probability theory and its application, John Wiley and
sons, New York, 1992.
[11] P.E. Pfeiffer:Concepts of probability theory, McGraw-Hill Book Company,
New York, 1965.
[12] V.K. Rohatgi: An introduction to probability theory and mathematical
statistics, John Wiley and sons, New York, 1976.
[13] V.K. Rohatgi:Statistical inference, John Wiley and sons, New York, 1984.