Brunero Liseo
Introduzione alla statistica bayesiana
Settembre 2008
Springer
Molte persone credono che il loro modo di agire e pensare sia lunico
corretto, non solo per loro stessi ma per chiunque altro. Questa
ingiustificata estensione di un principio di utilita` genera, di solito, una gran
confusione; ma puo` generare tragedie se quel modo diventa lo stesso per troppi.
Anonimo, XXI secolo
Prefazione
Lapproccio bayesiano allinferenza sta acquisendo un ruolo sempre piu` importante nella letteratura
statistica: e` infatti in continuo aumento il numero di elaborazioni di dati in campo medico-sanitario,
economico-finanziario, socio-politico e forse ancor di piu` nelle scienze sperimentali, dove si fa utilizzo
piu` o meno esplicito di tecniche riconducibili al paradigma bayesiano dellinferenza.
Le ragioni di questa improvvisa accelerazione, iniziata piu` o meno negli anni 90 del secolo scorso,
della diusione dei metodi bayesiani nella statistica applicata sono molteplici ma riconducibili a tre
categorie essenziali: i) ragioni epistemologiche, ii) ragioni pragmatiche e, soprattutto, iii) ragioni
di natura computazionali.
Da un punto di vista epistemologico, le motivazioni piu` cogenti per laermarsi del metodo
bayesiano sono quelle di carattere fondazionale: limpostazione bayesiana dellinferenza statistica
formalizza in modo semplice e diretto il ragionamento induttivo di un essere razionale che, in base
alla informazioni disponibili su un certo insieme di fenomeni, in un certo istante della sua vita, vuole
calcolare la probabilita` di eventi futuri o, piu` in generale, di eventi per i quali non e` noto se si siano
verificati o meno. La logica bayesiana e` coerente, dotata di solide basi logiche ed esente dal rischio
di controesempi, sempre in agguato quando ci si muove nel campo dellinduzione, ed e` necessario
produrre aermazioni di natura probabilistica su eventi che non sappiamo se si verificheranno o
meno.
Esistono poi motivazioni piu` pragmatiche: nel corso degli anni sono via via aumentate le appli-
cazioni statistiche in cui lesigenza di tener conto di informazioni extra-sperimentali, aspetto carat-
terizzante - sebbene non il piu` importante - dellimpostazione bayesiana, emergeva con chiarezza.
In ambito epidemiologico, ad esempio, quando si valuta la probabilita` che un paziente sia aetto
da una certa patologia sulla base di un test diagnostico, quelle che sono le probabilita` a priori sono
nientaltro che le informazioni sulla prevalenza di quella malattia in quel contesto specifico e non
sono meno oggettive delle informazioni sulla sensibilita` e specificita` del test adottato, che invece
hanno una interpretazione nellambito della statistica classica.
In ambito economico-sociale, e` sempre piu` importante per gli istituti nazionali di statistica e
per altri enti di ricerca disporre di informazioni ad un livello di disaggregazione sucientemente
elevato: e` certamente piu` utile, ad esempio, conoscere i livelli di disoccupazione o di natalita` a
livello comunale piuttosto che a livello provinciale. Questa esigenza e` oggi cos` pressante che ha
prodotto lo sviluppo di un nuovo tema di ricerca che va sotto il nome di stima per piccole aree,
dove spesso la dicolta` principale e` quella di produrre informazioni anche per aree per le quali
non si hanno a disposizione informazioni campionarie dirette. Una caratteristica intrinseca del
VIII Prefazione
metodo bayesiano e` proprio quella di poter assumere, in modo semplice e naturale, diversi livelli
di associazione tra le unita` campionarie, consentendo cos` quel fenomeno di borrowing strength
che consente la produzione di stime sucientemente stabili anche per quelle aree poco o per nulla
coperte dallindagine campionaria.
La solidita` fondazionale del metodo bayesiano e la possibilita` di integrare, attraverso il teorema
di Bayes, le informazioni fornite dallesperimento statistico con le ulteriori conoscenze a priori
relative al problema in esame sono tuttavia cose ben note da molti decenni e non bastano da
sole a giustificare lenorme sviluppo degli ultimi anni. Cio` che ha causato la recente inversione di
tendenza culturale nei confronti dei metodi bayesiani e` stato senza dubbio lenorme sviluppo di
nuove metodologie computazionali che consentono ormai di analizzare, allinterno di questa im-
postazione, modelli statistici estremamente complessi. I cosiddetti metodi di Monte Carlo, basati o
meno sulle proprieta` delle catene di Markov (metodi MC e MCMC), permettono oggi di generare un
campione, di dimensione qualsivoglia, di realizzazioni che possiamo considerare, almeno approssi-
mativamente, indipendenti e somiglianti generate dalla distribuzione a posteriori dei parametri
dinteresse del modello. Questo, oggi, e` praticamente possibile per ogni modello statistico non im-
porta quanto complesso. Questa potenzialita` ha avuto un impatto fondamentale, soprattutto in
campo applicato. Prima dellera MCMC, limpostazione bayesiana rappresentava un elegante mod-
ello teorico del paradigma inferenziale, insegnato soprattutto, sia in Italia che altrove, nei corsi di
laurea con forte orientamento matematico. La pratica statistica era saldamente nelle mani della
scuola frequentista, oggi rappresentata dalla fusione, non sempre armoniosa, di due correnti di
pensiero, quella di Neyman, Pearson e Wald da un lato e quella Fisher e Cox dallaltra. Cio` che
rendeva impraticabile il metodo bayesiano erano soprattutto i problemi di calcolo: aldila` di sem-
plici modelli parametrici, infatti, non e` possibile ottenere espressioni esplicite delle distribuzioni
a posteriori delle quantita` di interesse. Questo dicolta` ha fatto in modo che levoluzione della
modellistica statistica avvenisse perlopiu` in ambito frequentista.
Oggi la situazione e` notevolmente diversa, a volte ribaltata. In un numero sempre crescente di
ambiti applicativi, lapproccio bayesiano consente una flessibilita` del modello dicilmente ottenibile
mediante metodi classici.
Quanto appena descritto potrebbe lasciare intendere che il futuro sviluppo della scienza statisti-
ca sia orientato verso laermazione della logica bayesiana. Questo non e` aatto certo: molti aspetti
vanno ancora considerati e ancora oggi, ad esempio, molti studiosi sono contrari allintroduzione
di informazioni extra-sperimentali nel procedimento inferenziale, intravedendo in questo la perdita
di qualsiasi tipo di possibile oggettivita` delle inferenze. Questa dialettica scientifica tra diverse
scuole di pensiero rende costantemente attuali due particolari capitoli del metodo bayesiano:
lo studio delle proprieta` delle distribuzioni cosiddette convenzionali, costruite per minimizzareil contenuto informativo introdotto nella procedura e non direttamente relativo allesperimento
programmato;
lo studio della sensibilita` delle inferenze prodotte al variare degli input, con particolare riguardoalla distribuzione iniziale.
Di questi aspetti ci occuperemo, rispettivamente, nella 5.2 e nella 5.3.Questo testo va considerato di livello introduttivo, concepito per un corso di statistica impartito
nellambito di una laurea magistrale presso le facolta` di Economia, Scienze statistiche oppure
Prefazione IX
per studenti di Matematica. I prerequisiti necessari per la lettura del testo si limitano ad un
corso di matematica generale e ad unesposizione almeno introduttiva, al calcolo delle probabilita`.
Argomenti di teoria della misura, che in alcune parti renderebbero il testo piu` snello ed elegante
sono stati volutamente evitati. La conoscenza dellimpostazione frequentista dellinferenza non e`
considerata un prerequisito, ma certamente rende la lettura del testo piu` utile.
Dopo aver introdotto il lessico probabilistico necessario per una corretta interpretazione della
logica bayesiana (capitolo 1), e una breve ma necessaria rassegna sulle tecniche di inferenza classiche
basate sulla funzione di verosimiglianza (capitolo 2), i capitoli 3, 4 e 6 sono dedicati allintroduzione
del metodo bayesiano e ad una rivisitazione in ottica bayesiana delle piu` consolidate tecniche
inferenziali. Il capitolo 5 aronta invece il tema della scelta della distribuzione a priori, per molto
tempo considerato il vero aspetto discriminante tra metodi bayesiani e non. Il capitolo 7 e` dedicato
allillustrazione dei metodi computazionali oggi piu` importanti nella pratica bayesiana. Questi
argomenti sono tra laltro a tuttoggi al centro di una frenetica attivita` di ricerca, e questo rende
ancora dicile una loro trattazione sistematica. Prima di arontare, nei capitoli successivi, la
modellistica lineare e le sue evoluzioni, si e` voluto dedicare il capitolo 8 alla discussione del tema
del confronto tra modelli alternativi. Questo e` uno dei settori dove le discrepanze tra metodi classici
e bayesiani e` piu` evidente e molto dicile appare una riconciliazione teorica tra le impostazioni.
Nel testo non compaiono alcuni argomenti, oggi centrali nella ricerca, come le interconnessioni
fra la statistica classica e quella bayesiana in un contesto non parametrico, oppure il ruolo centrale
del teorema di Bayes nelle tecniche di machine learning. Tali argomenti, oggi essenziali per un
uso ecace delle potenzialita` che la statistica consente, sono tuttavia ancora troppo avanzati dal
punto di vista matematico per essere trattati in modo comprensibile senza alterare la struttura del
testo.
Il testo ha avuto una gestazione molto lunga, e nasce come note di un corso di statistica
matematica da me tenuto per alcuni anni presso il corso di laurea in Matematica delluniversita`
Roma Tre. A tal proposito mi fa piacere ringraziare tutti gli studenti che, leggendo e studiando
le versioni precedenti, hanno segnalato diverse inesattezze. Ringrazio inoltre Alessandra Salvan,
Gianfranco Adimari, Marilena Barbieri che hanno utilizzato versioni preliminari di questo testo nei
loro corsi e Ludovico Piccinato che ha letto tutto con la consueta attenzione e profondita`.
Roma, settembre 2008 Brunero Liseo
Indice
Parte I Titolo della parte
1 Teorema di Bayes e probabilita` soggettiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1 Il teorema di Bayes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Probabilita` a priori e verosimiglianze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Limpostazione soggettiva della probabilita` . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Definizione e condizione di coerenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Problemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 Modello statistico e funzione di verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1 Gli ingredienti di un modello statistico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 La funzione di verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Uso inferenziale di L() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.1 Stime di massima verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.2 Stima per intervalli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4 Sucienza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.5 Informazione di Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.6 La divergenza di Kullback-Leibler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.7 Unapprossimazione della funzione di verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.8 Proprieta` frequentiste delle procedure basate su L() . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.8.1 Lo stimatore di massima verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.8.2 Intervalli di confidenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.8.3 Verifica di ipotesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.9 Il principio di verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.10 Eliminazione dei parametri di disturbo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.11 La famiglia esponenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.12 Anomalie della funzione di verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.13 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3 Inferenza statistica da un punto di vista bayesiano . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.1 Il teorema di Bayes e il processo induttivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2 La soggettivita` delle conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.2.1 La distribuzione a posteriori e` il riassunto dellinferenza. . . . . . . . . . . . . . . . . . . 51
XII Indice
3.3 La logica dellinduzione: evidenza, inferenza, decisioni . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4 Alcune note tecniche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.4.1 La costante di marginalizzazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.4.2 Alcuni aspetti matematici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.5 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4 Analisi di semplici modelli statistici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.1 Dati dicotomici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.2 Dati uniformi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.3 La distribuzione gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.3.1 Varianza nota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.3.2 Media e varianza incognite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.4 Modello di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.5 Altri esempi notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.5.1 Confronto fra due proporzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.5.2 Confronto fra due medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.6 La normale multivariata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.7 Consistenza del metodo bayesiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.8 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5 Scelta della distribuzione iniziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.1 Distribuzioni coniugate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.2 Distribuzioni non informative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.2.1 Notazione e motivazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.2.2 La distribuzione uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.2.3 Il metodo di Jereys . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.2.4 Il metodo delle reference priors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.3 La sensibilita` delle conclusioni rispetto alla distribuzione a priori . . . . . . . . . . . . . . . . 90
5.3.1 Cenni al problema della robustezza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.3.2 Il ruolo della dimensione campionaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.4 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
6 Procedure inferenziali bayesiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
6.1 Stima puntuale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
6.2 Stima per intervallo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
6.3 Verifica di ipotesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.3.1 Il caso di due ipotesi semplici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6.3.2 Il caso dellipotesi alternativa composta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
6.3.3 Uso di distribuzioni improprie nei problemi di test . . . . . . . . . . . . . . . . . . . . . . . 107
6.4 Limpostazione predittiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
6.4.1 Il concetto di sucienza nellimpostazione predittiva . . . . . . . . . . . . . . . . . . . . . 113
6.4.2 Calcoli predittivi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
6.5 La modellizzazione gerarchica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
6.5.1 Lapproccio bayesiano empirico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
Indice XIII
6.6 Cenni alla teoria delle decisioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
6.7 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
7 Metodi computazionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
7.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
7.2 Approssimazioni analitiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
7.2.1 Comportamento asintotico della distribuzione finale . . . . . . . . . . . . . . . . . . . . . . 127
7.2.2 Metodo di Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
7.2.3 Altri tipi di approssimazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
7.3 Simulazione a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
7.4 Data Augmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
7.5 Metodi MonteCarlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
7.5.1 Campionamento per importanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
7.5.2 Metodi accettazione-rifiuto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
7.5.3 Distribuzioni log-concave . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
7.6 Algoritmi adattivi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
7.7 Metodi MCMC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
7.7.1 Aspetti matematici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
7.7.2 Gli algoritmi di tipo Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
7.7.3 Lalgoritmo di Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
7.7.4 Altri algoritmi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
7.7.5 Convergenza degli algoritmi MCMC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
7.8 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
8 Scelta del modello statistico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
8.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
8.2 Impostazione formale del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
8.3 Il fattore di Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
8.3.1 Approssimazioni del fattore di Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
8.3.2 Uso di distribuzioni non informative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
8.4 Metodi MC e MCMC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
8.4.1 Stima diretta della distribuzione marginale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
8.4.2 Il meta-modello . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
8.4.3 Lalgoritmo Reversible Jump . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
8.5 Altre impostazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
8.5.1 Cross Validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
8.6 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
9 Il modello lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
9.1 Analisi bayesiana coniugata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
9.2 Il caso non informativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
9.3 Regioni di credibilita`. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
9.4 Regressione lineare attraverso metodi di simulazione . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
9.4.1 Regressione lineare con errori a code pesanti . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
XIV Indice
9.5 Confronto tra modelli di regressione alternativi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
9.5.1 Il fattore di Bayes per modelli lineari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
9.5.2 Il calcolo della marginale di y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
9.5.3 Uso delle g-priors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
9.6 Previsioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
9.7 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
10 Modelli lineari generalizzati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
10.1 Introduzione ed esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
10.2 Distribuzioni a priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
10.3 Tecniche di calcolo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
10.4 Alcune esemplificazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
10.4.1 Dati dicotomici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
10.4.2 Dati di conteggio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
10.4.3 sopravvivenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
10.5 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
11 I modelli gerarchici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
11.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
11.2 Modelli gerarchici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
11.2.1 Strategie per lanalisi dei modelli gerarchici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
11.3 Il modello gerarchico gaussiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
11.3.1 Il caso EB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
11.3.2 Lapproccio HB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
11.3.3 Sulla scelta della distribuzione a priori di 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
11.4 Il calcolo dei momenti a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
11.4.1 Media e varianza dei j . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
11.5 Le stime finali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
11.5.1 La Strategia EB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
11.6 Approccio basato sulla simulazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
11.7 Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
11.8 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
12 Approfondimenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
12.1 Modelli a struttura latente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
12.1.1 Mistura finita di distribuzioni gaussiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
12.1.2 Frontiera stocastica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
12.2 Il problema della stima della numerosita` di una popolazione . . . . . . . . . . . . . . . . . . . . 199
12.3 Scelta della numerosita` campionaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
12.4 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
A Alcune nozioni di algebra lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
Indice XV
B Nozioni di probabilita` . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
B.1 Funzione generatrice dei momenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
B.2 Convergenza di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
C Alcuni risultati e dimostrazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
C.1 Statistiche dordine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
C.2 Alcuni approfondimenti matematici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
C.2.1 Derivazione della distribuzione di Jereys . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
C.3 Sulla scambiabilita` . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
C.3.1 Dimostrazione del Teorema 6.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
C.4 Sulle forme quadratiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
C.4.1 Combinazione di due forme quadratiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
C.5 Sul calcolo delle distribuzioni non informative nel modello lineare . . . . . . . . . . . . . . . . 213
C.6 Sul calcolo della marginale per un modello lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
D Catene di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
D.1 Catene in tempo discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
D.1.1 Distribuzione del processo ad un tempo prefissato . . . . . . . . . . . . . . . . . . . . . . . 216
D.1.2 Probabilita` di assorbimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
D.1.3 Tempi di arresto e proprieta` forte di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
D.1.4 Classificazioni degli stati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
D.1.5 Distribuzioni invarianti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
D.1.6 Equilibrio di una catena . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
D.1.7 Reversibilita` . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
D.2 Catene continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
E Le principali distribuzioni di probabilita` . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
E.1 Distribuzioni discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
E.2 Distribuzioni assolutamente continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
E.3 Distribuzioni multivariate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
Soluzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
Riferimenti bibliografici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
Indice analitico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
Parte I
Titolo della parte
1Teorema di Bayes e probabilita` soggettiva
1.1 Il teorema di Bayes.
E noto che, dati due eventi qualsiasi F e E, la probabilita` dellintersezione F E si puo` scrivere
P (F E) = P (F |E)P (E), (1.1)
oppure
P (F E) = P (E|F )P (F ). (1.2)Uguagliando la (1.1) con la (1.2) ed esplicitando rispetto a P (F | E) si puo` scrivere, quandoP (E) > 0,
P (F | E) = P (F )P (E | F )P (E)
, (1.3)
La formula (1.3) rappresenta la forma piu` semplice del cosiddetto teorema di Bayes, dal nome
di colui che, apparentemente per primo [5], utilizzo` una versione leggermente piu` complessa delle-
spressione stessa: essa insegna che la probabilita` di un evento F non e` una caratteristica intrinseca
dellevento, ma va calcolata sulla base delle informazioni a disposizione: il verificarsi di E, ad es-
empio, modifica la probabilita` di F , e la trasforma in P (F |E), secondo la (1.3).Esempio 1.1
La mia collezione di CD e` costituita da un 70% di dischi tradizionali e da un 30% di dischi
contenenti file MP3. Tra i dischi tradizionali il 30% contiene musica rock mentre il restante 70%
contiene brani di musica classica. Tra i dischi contenenti files MP3, il 10% contiene musica classi-
ca e il 90% musica rock. Scegliamo a caso un disco e sia A e` levento { il disco estratto e` di tipotradizionale}, mentre R rappresenta levento { il disco estratto contiene musica rock }. Ovviamentesi avra` Pr (A) = 0.7; ma se dopo alcuni secondi mi rendo conto che si tratta di un disco rock, la
probabilita` che si tratti di un disco tradizionale diventa
Pr (A | R) = Pr (A) Pr (R | A)Pr (R)
=Pr (A) Pr (R | A)
Pr(A)Pr(R | A)+ Pr (A) Pr (R | A)
=0.7 0.3
0.7 0.3 + 0.3 0.9 =21
48.
Esempio 1.2
4 1 Teorema di Bayes e probabilita` soggettiva
Esempio 1.3
Esempio 1.4
Da un mazzo di 52 carte se ne estrae una a caso senza osservarla; se ne estrae poi una seconda
che risulta essere un Asso. Qual e` la probabilita` che la prima carta estratta fosse un Re?
Soluzione. In questo caso identifichiamo F con levento {La prima carta e` un Re} e con E levento{La seconda carta e` un Asso}. Poich P (F ) = 4/52, P (E) = 4/52 (non conoscendo lesito dellaprima estrazione, tutte le carte hanno la stessa probabilita` di comparire come seconda carta) e
P (E|F ) = 4/51, si ha in conclusione
P (F | E) = 452
4
51/4
52=
4
51.
Potrebbe risultare contro intuitivo il fatto che P (E) = 4/52 o, piu` in generale, che le probabilita`
relative alla seconda estrazione risultino uguali a quelle relative alla prima; ma quello che conta
non e` tanto il susseguirsi temporale degli eventi quanto linformazione che si ha su di essi: se non
conosciamo lesito della prima estrazione al momento di calcolare la probabilita` di eventi relativi alla
seconda estrazione, e` come se la prima se non si fosse mai verificata. Dal punto di vista matematico
si puo` arrivare facilmente al risultato osservando che, chiamando A levento {La prima carta e` unAsso}
Pr (E) = Pr (E A) + Pr (E Ac) = Pr (A) Pr (E | A) + Pr (Ac) Pr (E | Ac)=
4
52
3
51+
48
52
4
51=
4
52
Esempio 1.5
Sugli aerei esiste una spia luminosa che si accende in fase di atterraggio quando il carrello non
fuoriesce regolarmente. Puo` succedere pero` che la spia si illumini anche se il carrello non ha avuto
alcun problema. Sia A levento {Carrello in ordine } e sia B levento {Spia accesa}. E` noto, daindagini di laboratorio, che
Pr (B | A) = 0.005, Pr (B | Ac) = 0.999;
in altri termini la spia si accende erroneamente solo cinque volte su 1000 mentre non si accende
quando dovrebbe soltanto una volta su 1000. Infine le statistiche di bordo riportano che la frequenza
relativa di volte in cui il carrello non ha funzionato correttamente e` pari al 3%. Calcolare la
probabilita` che, in caso di spia accesa, si tratti di un falso allarme.
Soluzione: Dalle informazioni di bordo sappiamo che P (A) = .97; si tratta di calcolare P (A | B):
P (A | B) = P (A)P (B | A)P (A)P (B | A) + P (Ac)P (B | Ac) =
0.97 0.0050.97 0.005 + 0.03 0.999 = 0.139.
1.1 Il teorema di Bayes. 5
Un modo ecace di interpretare la formula di Bayes e` quello di considerare levento E come un
insieme di sintomi (eetti) e levento F come una possibile malattia (causa) associata a tali sintomi.
Esempio 1.6 [ Possibili cause di un sintomo ]
Tizio si reca dal medico perch ha notato alcuni strani puntini rossi sulla sua cute (E=insorgen-
za di puntini rossi). Tizio non sa a quali cause far risalire tali sintomi. Il medico sostiene che le
possibili cause sono tre: un banale fungo della pelle (F1), varicella (F2), una grave malattia (F3).
Per semplicita` assumiamo che una e una sola delle tre cause possa aver eettivamente agito. Il
medico sa anche quanto e` verosimile osservare E quando si e` malati di F1, F2, oppure F3. Infatti
studi precedenti indicano che P (E | F1) = 0.5, P (E | F2) = 0.7, mentre P (E | F3) = 0.99. Inpratica, in presenza del fungo, si ha una probabilita` su due di osservare i puntini rossi, mentre,
nel caso della grave malattia (F3) linsorgenza dei puntini e` pressoch certa. E il caso che Tizio si
preoccupi? Soluzione. Prima di iniziare a preoccuparsi, e` bene che Tizio calcoli, secondo la formula di Bayes,
le probabilita` a posteriori delle tre possibili malattie. Per fare questo pero` occorrono le probabilita`
a priori che Tizio, non essendo un esperto del settore, non conosce: il medico, che assumiamo
esperto, sostiene che, nella citta` di Tizio linsorgenza di F1, soprattutto in quella stagione, e` molto
comune mentre le altre due malattie hanno una scarsa diusione: egli quantifica tali valutazioni
nelle seguenti probabilita`:
P (F1) = 0.7 P (F2) = 0.2 P (F3) = 0.1
Va notato che la somma delle tre probabilita` sopra assegnate e` 1: infatti stiamo assumendo che
una e una sola causa abbia veramente agito. Non vi e` invece alcun motivo per cui le tre probabilita`
condizionate assegnate precedentemente (le P (E|Fi), i = 1, 2, 3) sommino a 1. Alla luce di questidati la probabilita` che Tizio sia aetto da F3 e`
P (F3|E) = P (F3)P (E|F3)P (E)
=0.1 0.99P (E)
=0.099
P (E). (1.4)
Allo stesso modo
P (F2|E) = P (F2)P (E|F2)P (E)
=0.7 0.2P (E)
=0.14
P (E), (1.5)
P (F1|E) = P (F1)P (E|F1)P (E)
=0.5 0.7P (E)
=0.35
P (E). (1.6)
Pur senza calcolare P (E), siamo in grado di tranquillizzare Tizio. Infatti,
P (F1|E)P (F3|E) =
0.35
0.099= 3.53
eP (F1|E)P (F2|E) =
0.35
0.14= 2.5.
In pratica la presenza del fungo e` 3 volte e mezzo piu` probabile della malattia F3 e 2 volte e mezzo
piu` probabile della varicella. Se poi vogliamo calcolare le eettive probabilita` a posteriori occorre
calcolare P (E). Questo si puo` fare in due modi, ovviamente equivalenti.
(a) Metodo formale: perch E si verifichi, deve verificarsi uno tra i tre eventi Fi; quindi
E = (E F1) (E F2) (E F3);
6 1 Teorema di Bayes e probabilita` soggettiva
essendo poi le cause incompatibili,
P (E) = P (E F1) + P (E F2) + P (E F3) (1.7)= P (F1)P (E|F1) + P (F2)P (E|F2) + P (F3)P (E|F3)= 0.589
(b)Metodo piu` semplice: dalle formule (1.4),(1.5) e (1.6) si evince che P (E) non e` altro che un
fattore di normalizzazione delle tre quantita` suddette, necessario anch la loro somma sia 1.
Basta quindi sommare le tre quantita`, uguagliare il risultato a 1 ed esplicitare rispetto a P (E).
Per concludere, viene fornita una versione piu` formale del teorema di Bayes.
Teorema 1.1 (Teorema di Bayes) . Sia E un evento contenuto in F1F2 Fk, dove gli Fj,j = 1, , k sono eventi a due a due incompatibili (il verificarsi di uno di essi esclude la possibilita`che se ne possa verificare un altro). Allora, per ognuno dei suddetti Fj vale la seguente formula
P (Fj |E) = P (Fj)P (E|Fj)ki=1 P (Fi)P (E|Fi)
. (1.8)
Dimostrazione 1.1 Lasciata per esercizio
La dimostrazione del teorema e` molto semplice nel caso in cui il numero di eventi incompatibili
F1, , Fk risulti finito. Qualora essi rappresentino uninfinita` numerabile, occorre un momentodi zelo, e specificare che, nellimpostazione comune del calcolo delle probabilita`, quella sistem-
atizzata da Kolmogorov nel 1933, il teorema continua ad essere ugualmente valido; al contrario,
nellimpostazione di de Finetti [32], la (1.7) non e` piu` garantita e occorre assumere tale uguaglian-
za o condizioni che la implichino. Nel seguito, salvo avviso contrario, ci muoveremo nellambito
dellimpostazione di Kolmogorov.
1.2 Probabilita` a priori e verosimiglianze
Nella formula (1.8) il membro di sinistra prende il nome di probabilita` finale (o a posteriori)
dellevento Fj : il termine finale sta a significare dopo che e` noto che si e` verificato E. Come gia`
osservato, il denominatore del membro di destra della (1.8) e` un semplice fattore di normalizzazione;
nel numeratore, invece, compaiono due quantita`: la P (Fj) e` la probabilita` a priori dellevento
Fj (nellesempio medico, rappresenta la probabilita` che qualcuno sia aetto dalla malattia Fj
indipendentemente dallaver riscontrato o meno i sintomi E); la P (E | Fj) rappresenta invece laverosimiglianza di Fj , ovvero la probabilita` che si manifestino i sintomi E quando si e` aetti dalla
malattia Fj . La formula (1.8) fornisce cos` un modo sintetico di valutare il grado di incertezza che
abbiamo sul verificarsi di un evento, basandoci sia sulle informazioni a priori che abbiamo riguardo
levento stesso, sia su ulteriori conoscenze sopraggiunte, magari mediante un apposito test, come
nellesempio precedente.
Volendo confrontare le probabilita` a posteriori di due tra le k possibili cause, ad esempio Fh e
Fj si haP (Fh|E)P (Fj |E) =
P (Fh)
P (Fj)
P (E|Fh)P (E|Fj) .
1.3 Limpostazione soggettiva della probabilita` 7
A conferma di quanto osservato in precedenza, si vede che il rapporto delle probabilita` a posteriori
di due eventi e` pari al prodotto dei due rapporti: P (Fh)/P (Fj) e` il rapporto a priori mentre il
rapporto delle verosimiglianze P (E|Fh)/P (E|Fj) viene spesso indicato con B e prende il nome difattore di Bayes: esso rappresenta un indicatore di evidenza relativa per una possibile ipotesi Fh
rispetto ad un altra ipotesi Fj , basato esclusivamente sui fatti osservati (levento E) e non su val-
utazioni soggettive sul verificarsi degli eventi Fj , j = 1, , k. Un valore di B pari a 1 corrispondeal caso di eguale evidenza per le due ipotesi a confronto.
1.3 Limpostazione soggettiva della probabilita`
E bene chiarire subito un aspetto essenziale: la probabilita` non e` una caratteristica intrinseca
degli eventi per i quali viene calcolata bens` puo` dipendere dalla percezione che lindividuo ha degli
eventi stessi. Quando si lancia una moneta presa a caso da un salvadanaio, siamo tutti pronti a
sostenere che la probabilita` che la moneta dia testa (T) sia pari a 0.5: in realta`, a voler essere
pignoli, avremmo dovuto verificare che la moneta fosse regolare (che, ad esempio, non fosse una
moneta con due teste!) e che non presentasse vistose alterazioni.
Allo stesso modo ci appare naturale, estraendo a caso una pallina da unurna che ne contiene 10
rosse (R) e cinque blu (B), che la probabilita` che la pallina estratta sia B sia posta pari a 1/3. Ma
se chiediamo ad un gruppo di persone di valutare la probabilita` che la squadra di calcio A superi la
squadra B nella prossima partita di campionato, e` verosimile aspettarci tante dierenti risposte e
nessuno trova da ridire sul fatto che un tifoso della squadra A reputi piu` probabile levento {vittoriadella squadra A} rispetto, ad esempio, ad un tifoso della squadra B.
E giustificabile tutto cio`? Esistono casi in cui la probabilita` e` soggettiva (variabile da individuo
a individuo) ed altri in cui e` invece uguale per tutti? Certamente no.
La probabilita` che un individuo associa ad un evento e` sempre soggettiva: essa rappresenta il
grado di fiducia che lindividuo pone nel verificarsi dellevento. Essa si colloca dunque, non gia`
allinterno dellevento bens` tra lindividuo e il mondo esterno: e` dallinterazione che scaturisce tra
lindividuo e levento, dallinteresse che per lindividuo suscita levento che nasce la valutazione
della probabilita` (si veda [25]).
Risulta allora del tutto normale che individui dierenti, di fronte al lancio di una moneta, in
assenza di particolari informazioni sulla moneta stessa, concordino nel sostenere che, non fossaltro
per ragioni di simmetria, la probabilita` che la moneta dia T e` uguale alla probabilita` che la moneta
dia C e quindi entrambe valgano 0.5. Ma la partita di calcio e` un qualcosa di ben piu` complesso e
ciascun individuo, con le sue informazioni e le sue distorsioni (tifo, pregiudizi, superstizioni, etc..)
finira` con lassociare allevento vince la squadra A una probabilita` dierente dagli altri.
Una prima conseguenza della soggettivita` della probabilita` e` che non esiste una probabilita`
corretta, se non forse in alcuni casi speciali. Anche se, come abbiamo visto, un gran numero di
persone concorda nellassegnare probabilita` 0.5 allevento {la moneta da` T}, non esiste alcun mec-canismo fisico per verificare tale valutazione e non servirebbero nemmeno un gran numero di
prove ripetute per eliminare il dubbio che la probabilita` di T sia 0.5001 e non 0.5.
8 1 Teorema di Bayes e probabilita` soggettiva
Il fatto che non esista una probabilita` corretta per un dato evento, non ci autorizza pero` ad
associare agli eventi probabilita` scelte a caso: pur nella soggettivita` delle valutazioni, le probabilita`
debbono soddisfare alcune condizioni di coerenza.
Negli anni 20 e 30, B. de Finetti, con una serie di scritti (si vedano, ad esempio [32], e [36]), getto`
le basi per la costruzione della teoria soggettiva della probabilita`: a tal fine egli utilizzo lo schema
teorico, e il linguaggio, delle scommesse. Nel prossimo paragrafo verra` illustrata tale impostazione
arrivando cos` alla definizione soggettiva di probabilita`: inoltre, attraverso la condizione di coerenza,
verranno riottenuti quei postulati che altre teorie della probabilita` introducono in modo esogeno.
La profonda influenza che la figura di Bruno de Finetti tuttora esercita nella probabilita` e nella
statistica possono essere apprezzati appieno mediante la lettura dei suoi due volumi, [33], apparsi
poi in lingua inglese in [34] e [35].
1.4 Definizione e condizione di coerenza
Prima di addentrarci nel linguaggio delle scommesse, e` bene chiarire che cosa si intende per evento.
Definizione 1.1 Un evento e` un ente logico che puo` assumere solo due valori: vero (V) o falso
(F). Inoltre la situazione sperimentale deve essere tale per cui, una volta eettuata la prova, si e`
in grado di verificare se levento si sia manifestato come V oppure come F.
Ad esempio, la proposizione {La squadra A vincera` il campionato nel 2010} e` un evento, che potra`essere dichiarato vero o falso nel mese di giugno del 2010. Al contrario, la proposizione {La talmoneta da` Testa con probabilita` 0.5 } non rappresenta un evento perch non siamo in grado diverificarne la verita` o meno: E` un evento invece il seguente {Nei prossimi dieci lanci, la tal monetafornira` 3 T e 7 C}:
Possiamo ora dare la definizione di probabilita` [25]:
Definizione 1.2 La probabilita` di un evento E, per un dato individuo, in un certo momento della
sua vita, e` il prezzo P (E) = p che egli ritiene giusto pagare (o ricevere da uno scommettitore) per
partecipare ad una scommessa in cui vincera` (o paghera`) 0 se E non si verifica oppure 1, qualora
E si verifichi.
E` importante sottolineare che lindividuo deve produrre lo stesso valore di p sia nelle vesti di
scommettitore che nel ruolo del Banco. Se ad esempio levento su cui scommettiamo e` A = {vincela squadra A} e Tizio ritiene che p = P (A) = 0.4 allora Tizio deve essere disposto a pagare 0.4 per ricevere 1 in caso di vittoria di A (e 0 altrimenti)
oppure
pagare 0.6 per ricevere 1 in caso di mancata vittoria di A (e 0 altrimenti)Ce` da notare che in questo modo la valutazione della probabilita` non dipende dallentita` della
posta in palio in quanto tutti ragionamenti fin qui esposti funzionano ugualmente se le poste ven-
gono moltiplicate per una somma S. Abbiamo gia` detto che la probabilita` e` soggettiva ma deve
rispettare una condizione di coerenza.
1.4 Definizione e condizione di coerenza 9
Definizione 1.3 . Una valutazione di probabilita` sugli n eventi E1, E2, , En si dice coerente senessuna combinazione di scommesse sugli eventi consente una vincita certa (indipendentemente
dagli eventi Ei, i = 1, , n, che si verificano eettivamente).Esempio 1.7
Consideriamo il caso di una corsa a cui partecipano n cavalli, e siano p1, p2, , pn le probabilita`di vittoria assegnate agli n cavalli. Consideriamo il caso in cui
p1 + p2 + + pn = C < 1;
Allora e` suciente scommettere una posta S su ogni cavallo partecipante alla gara per garantirsi
una vincita certa. Infatti la quota pagata per partecipare alle scommesse sara`
p1S + p2S + + pnS = CS < S
a fronte di una vincita certa pari a S (un cavallo vincera` certamente). Nella definizione di probabilita` non e` espressamente richiesto che la probabilita` di un evento debba
essere un numero compreso tra 0 e 1. Questo vincolo emerge naturalmente se pero` vogliamo che la
nostra probabilita` sia coerente. Infatti
Teorema 1.2 Condizione necessaria e suciente anch P (E) sia coerente e` che
0 P (E) 1
In particolare, se P (E) = 0, levento e` impossibile, se P (E) = 1, levento si dice certo.
Dimostrazione 1.2 Sia p = P (E) e assumiamo di scommettere una posta S sul verificarsi di E.
Quando E si verifica il guadagno ottenuto dalla scommessa e` W (E) = S pS = S(1 p). QuandoE non si verifica si ha invece W (E) = pS. Se prendiamo p < 0, allora basta scommettere unaquantita` S positiva per garantirci una vincita sicura. Se invece prendiamo p > 1, sara` suciente
prendere una posta S negativa (ovvero, invertire i termini della scommessa) per garantirci una
vincita certa.
Ne segue che 0 P (E) 1. Inoltre, se levento E e` certo si avra` certamente W (E) = (1 p)Se, per non avere vincite certe, deve per forza essere W (E) = 0, da cui p = 1; allo stesso modo si
verifica che p deve essere 0 nel caso di eventi impossibili.
E` possibile derivare, attraverso la condizione di coerenza tutte le piu` familiari regole del calcolo
delle probabilita`, come ad esempio il teorema delle probabilita` totali.
Meritano un discorso a parte le probabilita` condizionate che, nellimpostazione soggettiva, sono
considerate vere e proprie probabilita` ma riferite ad eventi subordinati (del tipo E1 | E2): in terminidi scommesse la probabilita` condizionata P ( | ) si definisce esattamente come nel caso precedentequando E2 si verifica, mentre non si procede alla scommessa (non si valuta la probabilita`) se, al
contrario, non si verifica E2.
Esempio 1.8
In una sala scommesse si accettano scommesse sullesito dellincontro di calcio tra la squadra A e
la squadra B. Gli esperti sostengono che il giocatore Pallino e` molto importante per la squadra A,
le cui probabilita` di vittoria sono molto diverse con Pallino in campo o meno. Siano E1 levento
10 1 Teorema di Bayes e probabilita` soggettiva
{Vince la squadra A} e E2 levento { Pallino gioca}. Uno scommettitore puo` decidere di pagareun prezzo p per partecipare ad una scommessa relativa allevento E1 | E2. In questo caso gli esitipossibili della scommessa sono:
Gioca Pallino e la squadra A vince: Tizio incassa 1; Gioca Pallino e la squadra A perde: Tizio incassa 0; Non gioca Pallino: la scommessa e` annullata e a Tizio viene restituita la posta p
Dalla precedente definizione di probabilita` condizionata discendono direttamente, attraverso la
condizione di coerenza, la legge delle probabilita` composte cos` come il Teorema di Bayes.
Problemi
1.1. Ogni giorno Mario tenta di comprare il quotidiano. Egli prova di mattina (M) con probabilita`
1/3, di sera (S) con probabilita` 1/2 oppure si dimentica del tutto (D) con probabilita` 1/6. La
probabilita` di trovare eettivamente il giornale (G) e` pari a 0.9 se va di mattina, 0.2 se va di sera
e, ovviamente 0 se non va aatto.
Una sera torna a casa e la moglie vede che Mario ha eettivamente comprato il giornale. Qual
e` la probabilita` che lo abbia comprato di mattina?
1.2. Una certa specie di criceti puo` nascere con il manto nero o marrone a seconda dellassociazione
tra due geni ognuno dei quali puo` assumere il valore A oppure B. Se i due geni sono simili (AA
oppure BB) il criceto e` omozigote, altrimenti e` detto eterozigote. Il criceto nasce marrone solo
se e` omozigote di tipo AA. Il figlio di una coppia di criceti porta con s i due geni, uno da ogni
genitore: se il genitore e` eterozigote il gene ereditato e` A o B con la stessa probabilita`; se il parente
e` omozigote, con probabilita` pari a 1, trasmette il suo unico gene. Supponiamo che un criceto nero
sia nato da una coppia di due eterozigoti.
(a) Qual e` la probabilita` che questo criceto sia omozigote?
Supponiamo ora che tale criceto sia poi accoppiato ad una cricetina marrone e che tale accoppia-
mento produca 7 figli, tutti neri
(b)Usa il teorema di Bayes per determinare la nuova probabilita` che lo stesso criceto risulti
omozigote.
1.3. Ogni mattina il lattaio ci lascia sulla porta di casa una bottiglia di latte. Egli riceve forniture
in eguale misura dalle centrali di Roma e Latina ed ogni mattina sceglie a caso la bottiglia che ci
lascia. Il latte di Roma raggiunge lebollizione in un tempo in minuti che puo` considerarsi una v.a.
N(2, 3) mentre quello di Latina ha un tempo di ebollizione pari ad una v.a. N(2.5, 4). Una certa
mattina cronometriamo il tempo necessario allebollizione del latte appena ricevuto e registriamo
2 minuti e 18 secondi. Qual e` la probabilita` che si tratti di latte di Roma?
1.4. Dimostrare il Teorema 1.1.
1.4 Definizione e condizione di coerenza 11
1.5. Ogni individuo appartiene ad uno dei quattro gruppi sanguigni O (si legge zero); A; B; AB.
In una popolazione le frequenze dei quattro gruppi sono rispettivamente O;A;B ;AB . Per poter
eseguire una trasfusione di sangue da un donatore a un ricevente occorre seguire regole specifiche:
O puo` ricevere solo da O; A puo` ricevere da O e da A; B puo` ricevere da O e da B; AB puo` ricevere
da O, da A, da B e da AB. Si dice anche che il gruppo O e` donatore universale e il gruppo AB e`
ricevente universale. Si estraggono a caso un donatore e un ricevente. Calcolare
(a) la probabilita` che la trasfusione sia possibile;
(b) la probabilita` che il ricevente sia di gruppo AB sapendo che la trasfusione e` possibile.
1.6. Un test radiologico per la tubercolosi ha esito incerto: la probabilita` che il test risulti positivo
su un malato e` 1; la probabilita` che il test risulti positivo su un non malato e` invece pari ad .La frequenza relativa o prevalenza di malati nella popolazione e` pari a . Un individuo, selezionato
a caso nella popolazione e sottoposto a test, risulta positivo. Qual e` la probabilita` che egli sia sano?
1.7. Lurna U1 contiene 1 pallina bianca e n1 palline nere; lurna U2 contiene n2 palline bianche e
1 nera. Si estrae a caso una pallina dallurna U1 e la si mette nellurna U2; poi si estrae a caso una
pallina dallurna U2 e la si mette nellurna U1. Trovare la distribuzione di probabilita` del numero
finale di palline bianche nellurna U1.
1.8. Durante un intero anno, il numero di rareddori che un individuo contrae puo` essere consider-
ato una v.a. X con distribuzione di Poisson di parametro 5. Viene immessa sul mercato una nuova
medicina: essa risulta ecace sul 75% della popolazione, e per tali persone il numero di rareddori
contratti in un anno, condizionatamente alluso della medicina, e` una v.a. di Poisson di parametro
3. Sul restante 25% della popolazione la medicina e` inecace. Se un individuo a caso prende la
medicina e in un anno ha due rareddori, qual e` la probabilita` che appartenga alla categoria di
persone su cui la medicina ha eetto?
1.9. Il 10% della popolazione sore di una seria malattia. Ad un individuo estratto a caso vengono
somministrati due test diagnostici indipendenti. Ciascuno dei due test fornisce una diagnosi corretta
nel 90% dei casi. Calcolare la probabilita` che lindividuo sia eettivamente malato nelle due ipotesi
alternative:
(a) entrambi i test siano positivi;
(b) un solo test sia positivo.
1.10. In una fabbrica di bibite, le bottiglie che essa stessa produce vengono sottoposte a un controllo
prima di essere riempite. Il 30% delle bottiglie prodotte sono difettose. La probabilita` che lispettore
si accorga che una bottiglia e` difettosa, e quindi la scarti, e` 0.9. Mentre la probabilita` che lispettore
giudichi erroneamente difettosa una bottiglia buona e` 0.2. Qual e` la probabilita` che una bottiglia
scartata sia difettosa? E la probabilita` che una bottiglia giudicata buona sia invece difettosa?
1.11. La moneta M1 da` testa con probabilita` 0.3, la moneta M2 con probabilita` 0.5 e la moneta
M3 con probabilita` 0.7. Viene scelta a caso una moneta e lanciata finche non si ottiene testa per
la seconda volta. Sapendo che la seconda testa si e` avuta al quinto tentativo, stabilire quale delle
monete ha la probabilita` piu` alta di essere stata lanciata.
12 1 Teorema di Bayes e probabilita` soggettiva
1.12. Si sappia che le donne in una specifica famiglia possono essere portatrici di emofilia con
probabilita` 0.5. Se la madre e` portatrice, allora i suoi figli maschi, indipendentemente l uno dall
altro, possono essere emofiliaci, ciascuno con probabilita` 0.5. Se la madre non e` portatrice, allora
i figli maschi non sono emofiliaci.
(a) Se il primo figlio maschio di una donna nella famiglia non e` emofiliaco, qual e` la probabilita` che
anche il secondo non sia emofiliaco?
(b) Se i primi due figli maschi di una donna della famiglia non sono emofiliaci, qual e` la probabilita`
che la madre sia portatrice di emofilia?
2Modello statistico e funzione di verosimiglianza
Questo capitolo va considerato come un breve compendio di inferenza classica che si prefigge due
obiettivi principali:
introdurre i concetti e gli strumenti matematici, con relativa notazione, che costituiscono la basedel metodo inferenziale e che vengono utilizzati sia in ambito classico che in ambito bayesiano;
rendere la lettura di questo testo il piu` possibile indipendente da nozioni di inferenza statisticapreliminari.
E` evidente pero` che quanto segue in questo capitolo non puo` considerarsi esauriente per una
competenza nelle discipline del calcolo di probabilita` e della statistica classica. Il lettore interessato
puo` consultare, ad esempio, [30] oppure [26] per una trattazione esauriente dei fondamenti del
calcolo delle probabilita` e [2] o [66] per quanto concerne linferenza non bayesiana.
2.1 Gli ingredienti di un modello statistico
Nel linguaggio comune un esperimento statistico viene percepito come losservazione parziale di un
fenomeno quantitativo, eettuata in modo da poter trarre informazioni anche sulla parte non osser-
vata. Tale percezione, troppo vaga, deve essere formalizzata in modo chiaro e privo di ambiguita`.
Cominciamo allora a definire lo spazio dei possibili risultati di un esperimento, ovvero linsieme di
tutte le possibili realizzazioni numeriche relative alla misurazione di un determinato fenomeno.
Definizione 2.1 Si definisce X linsieme di tutti i possibili risultati osservabili in un esperimento.Esempio 2.1 [Lancio di una moneta]
Se lesperimento consiste nel lancio di una moneta, i cui risultati possibili sono Testa (T) e Croce
(C), si avra` X = {T,C}; in genere si preferisce codificare i possibili risultati in modo numerico: adesempio si potrebbe porre T = 1 e C = 0, cosicch X = {1, 0}. Se la stessa moneta viene lanciataun numero n 1 di volte, allora lo spazio X sara` formato da tutte le nple i cui elementi possonoessere 0 oppure 1, ovvero
X =(
n volte 0, 0, , 0, 0), (
n-1 volte 0, 0, , 0, 1), , (
n volte 1, 1, , 1, 1)
.
In forma sintetica si puo` esprimere X come il prodotto cartesiano dellinsieme {0, 1} per s stessoripetuto n volte, ovvero X = {0, 1}n.
14 2 Modello statistico e funzione di verosimiglianza
Esempio 2.2 [Tempo di attesa]
Se invece lesperimento consiste nel misurare, in minuti, il tempo di attesa che trascorriamo una
certa mattina in banca prima che arrivi il nostro turno allo sportello, il risultato dellesperimento
potra` essere, in linea teorica qualunque valore reale positivo, cosicch X = R+. Una volta definito linsieme X , consideriamo la variabile aleatoria X il cui supporto, linsieme deivalori che puo` assumere, coincide con X . Per definire un modello statistico occorre selezionare uninsieme di leggi di probabilita`, una delle quali si assume che sia la vera legge di probabilita` di X.
Definizione 2.2 Si definisce P la famiglia di tutte le possibili leggi di probabilita` associabili allavariabile aleatoria X.
Esempio 2.1 (continua). In questo caso X puo` assumere solo i valori 0 e 1. E` ragionevole assumere
allora che, fissato un valore [0, 1], si abbia P (X = 1; ) = e, di conseguenza, P (X = 0; ) =1 . In questa formalizzazione, gioca il ruolo di parametro incognito. In questo caso si avra`
P = {P (; ) : P (X = 1; ) = , [0, 1]} ;
in altri termini si assume per X un modello di tipo Bernoulliano, la cui distribuzione generica verra`
indicata col simbolo Be(). Puo` accadere che il risultato dinteresse dellesperimento non sia quello della variabile aleatoria X,
bens` quello di una sua funzione t(X).
Definizione 2.3 Con riferimento allo spazio dei risultati X si chiama statistica ogni funzione
t : X Rk, k 1,
che associa ad ogni punto x X , una funzione a k valori
t(x) = (t1(x), t2(x), , tk(x)) .
Esempio 2.1 (continua). Supponiamo ora che la stessa moneta venga lanciata n volte e i lanci,
condizionatamente al valore di , siano indipendenti. Questo schema e` tra i piu` frequenti nella
pratica statistica: puo` essere utilizzato tutte le volte in cui si eettuano prove ripetute di un
esperimento che fornisce risposte dicotomiche (successo o insuccesso, favorevole o contrario, sopra o
sotto una determinata soglia, etc.); quasi sempre, in questo tipo di esperimenti, la variabile aleatoria
osservabile dinteresse e` rappresentata da Y = {numero totale di successi} o, se vogliamo, Y ={numero di 1 nella npla osservata}. Il modello naturale di riferimento e` allora quello Binomiale,che indicheremo col simbolo Bin(n, ): assumeremo cioe` che lo spazio dei possibili risultati sia
relativo alla variabile aleatoria Y , ovvero
Y = {0, 1, 2, , n} ,
mentre la famiglia P e` costituita da tutte le leggi di probabilita` binomiali Bin(n, ), con n fissatopari al numero di prove ripetute e [0, 1],
P ={p(; ) : P (Y = y;n, ) =
(n
y
)y (1 )ny , [0, 1]
}.
Riprenderemo queste idee nella 2.4 quando si introdurra` il concetto di sucienza.
2.2 La funzione di verosimiglianza 15
Negli esempi precedenti il numero di leggi di probabilita` in P e` pari al numero dei punti cheformano lintervallo [0, 1]; esiste cioe` una corrispondenza biunivoca tra linsieme P e lintervallochiuso [0, 1] che prende il nome di spazio parametrico.
Definizione 2.4 Si definisce spazio parametrico, e verra` indicato con il simbolo , linsieme
dei valori assumibili dal parametro .
Definizione 2.5 Si definisce modello statistico e si indica col simbolo E, la terna
E = (X ,P,) . (2.1)
Ogni volta che faremo riferimento ad un modello statistico, assumeremo implicitamente che il
modello in questione sia identificabile.
Definizione 2.6 Un modello statistico si dice identificabile se comunque consideriamo due mis-
ure di probabilita` della famiglia P, P (,1) e P (,2), con 1 = 2, e` possibile individuare almenoun sottoinsieme E X per il quale
Pr (E; 1) = Pr (E;2) . (2.2)
Tutte le volte che e` rappresentabile come un sottoinsieme dello spazio euclideo Rk, per qualche
k intero, parleremo di modello parametrico; altrimenti si dice che il modello e` non parametrico.
Esempio 2.3 [Modello non parametrico]
Sia X il tempo di durata di una certa lampadina e consideriamo, come possibili leggi di probabilita`
su X = (0,), tutte quelle dotate di densita` di probabilita` decrescente in X . In questo caso non e`possibile individuare la singola legge di probabilita` in P attraverso un numero finito di parametri:si tratta dunque di un problema di inferenza non parametrica. In questo testo ci occuperemo quasi esclusivamente di modelli parametrici: alcuni esempi di
inferenza non parametrica secondo un approccio bayesiano verranno discussi nella ??. ?.?.Una volta definito il modello statistico, viene concretamente eettuato lesperimento statistico
e la realizzazione (X = x0) viene utilizzata per estrarre informazioni su quale, tra le possibili leggi
in P, abbia realmente operato nel generare x0.
2.2 La funzione di verosimiglianza
La trattazione che segue dovrebbe soermarsi su alcuni aspetti matematici non del tutto trascur-
abili. Tuttavia per perseguire lobiettivo di mantenere una certa agilita` del testo, faremo delle as-
sunzioni semplificatrici. Assumeremo allora che la famiglia P di leggi di probabilita` che costituisceil modello statistico possa essere di due tipi:
Tutte le leggi in P sono assolutamente continue, ovvero dotate di una funzione di densita` f(; ),non negativa su X Rn, per qualche n e per ogni possibile valore di .
Tutte le leggi in P sono di tipo discreto, ovvero, per ogni , i valori che la variabile aleatoriaX assume con probabilita` positiva sono al piu` un insieme numerabile. In questo caso la generica
distribuzione di probabilita` di X si indica col simbolo p(; ).
16 2 Modello statistico e funzione di verosimiglianza
Per ulteriori approfondimenti su tali aspetti si possono consultare diversi testi che approfondiscono
a diversi livelli largomento. Suggeriamo [30] per gli aspetti probabilistici e [2] o [68] per le
implicazioni inferenziali.
Assumere un modello statistico corrisponde a limitare la scelta fra le possibili leggi aleatorie che
descrivono il fenomeno osservabile alla famiglia di distribuzioni P o, analogamente, allinsieme delleetichette . Occorre ora stabilire in che modo il risultato osservato dellesperimento (X = x0)
fornisca supporto ai diversi elementi di . Consideriamo il seguente esempio binomiale.
Esempio 2.4 [Verosimiglianza binomiale]
Una moneta da` Testa (oppure il valore 1) con probabilita` incognita ; essa viene lanciata n = 10
volte e i lanci possono essere considerati indipendenti condizionatamente al valore di . Per sem-
plicita` di esposizione supponiamo che possa assumere i soli valori = {0, 0.1, 0.2, , 0.9, 1}. Ilrisultato dellesperimento, ovvero il numero di Teste ottenute in dieci lanci, e` allora, per ogni valore
fissato di , una variabile aleatoria di tipo Bin(10, ). Prima di osservare il risultato dellesperi-
mento e` possibile elencare, per ogni , la legge di probabilita` di Y . La righe della Tabella 2.1mostrano tutte le possibili leggi di probabilita` della variabile aleatoria Y secondo i diversi valori di
.
Pr (Y = y)
0 1 2 3 4 5 6 7 8 9 10
0 1 0 0 0 0 0 0 0 0 0 0
0.1 0.348 0.387 0.193 0.057 0.011 0.001 0 0 0 0 0
0.2 0.107 0.268 0.302 0.201 0.088 0.026 0.005 0.0007 0 0 0
0.3 0.028 0.121 0.233 0.267 0.200 0.103 0.037 0.009 0.001 0 0
0.4 0.006 0.040 0.121 0.215 0.251 0.201 0.111 0.042 0.010 0.001 0
0.5 0.0009 0.010 0.044 0.117 0.205 0.246 0.205 0.117 0.044 0.010 0.0009
0.6 0 0.001 0.010 0.042 0.111 0.201 0.251 0.215 0.121 0.040 0.006
0.7 0 0 0.001 0.009 0.037 0.103 0.200 0.267 0.233 0.121 0.028
0.8 0 0 0 0.0007 0.005 0.026 0.088 0.201 0.302 0.268 0.107
0.9 0 0 0 0 0 0.001 0.011 0.057 0.193 0.387 0.348
1 0 0 0 0 0 0 0 0 0 0 1
Tabella 2.1. Distribuzioni di probabilita` di Y per diversi valori di
Supponiamo ora che lesperimento fornisca il risultato {Y = y0 = 7}. E` ragionevole alloraconsiderare, nella tabella, solo i valori della colonna corrispondente allevento osservato1 {Y = 7}e interpretare come misure dellevidenza che {Y = 7} fornisce ai diversi valori di , le probabilita`che aveva levento Y = 7 di verificarsi secondo i vari . In altre parole i valori della colonna della
tabella relativa a {Y = 7} ci dicono quanto sono verosimili i valori di alla luce del risultatoosservato. Cos`, ad esempio, quando si osservano 7 Teste su 10 lanci, il fatto che la moneta sia
regolare ( = 0.5) ha una verosimiglianza pari a 0.117, mentre lipotesi che la moneta sia distorta
e fornisca testa nel 60% dei casi viene valutata con una verosimiglianza superiore, pari a 0.215.
1 Alcune scuole inferenziali, prima fra tutte quella classica, basate sulla teoria di Neyman e Pearson,
propongono metodi inferenziali che sono in chiaro contrasto con tale ragionevole considerazione; non
approfondiremo qui tali aspetti fondazionali: il lettore interessato puo` consultare [68]
2.2 La funzione di verosimiglianza 17
Detto in altro modo equivalente, il valore ( = 0.6) e`
Pr (Y = 7; 0.6)
Pr (Y = 7; 0.5)=
0.215
0.117= 1.838
volte piu` verosimile del valore = .0.5. Tuttavia, nella pratica statistica, linsieme non e` composto da un numero finito di possibili valori
di e un approccio tabellare non e` piu` possibile: la naturale estensione del ragionamento precedente
conduce alla definizione della cosiddetta funzione di verosimiglianza [2].
Definizione 2.7 Con riferimento al modello statistico (2.1), si chiama funzione di verosimiglianza
associata al risultato X = x0 la funzione L : [0,) che associa, ad ogni valore di ,la probabilita` p(X = x0; ) (nel caso discreto) oppure la densita` di probabilita` f(x0; ) (nel caso
assolutamente continuo).
Esempio 2.4 (continua). Consideriamo ora il caso in cui e` lintervallo chiuso [0, 1]. P er n = 10
e y0 = 7 la funzione di verosimiglianza vale
L() = Pr (Y = 7; ) =
(10
7
)7(1 )3, (2.3)
e viene rappresentata nella Figura 2.1(b); nella Figura 2.1(d) viene considerato il caso con n = 50
e y0 = 35.
Esempio 2.5 [Verosimiglianza normale]
Si osservano n replicazioni (X1, X2, , Xn) di una variabile aleatoria X N(,20), che, per fissato, risultano indipendenti; il valore di 20 va considerato, per semplicita`, noto. La realiz-
zazione dellesperimento consiste in un vettore di osservazioni z0 = (x1, x2, , xn). La funzione diverosimiglianza e` allora definita come
L() = f(z0;) =nj=1
f(xj ;) =nj=1
1
02
exp
{ 1220
(xj )2}.
Attraverso semplici elaborazioni algebriche si puo` scrivere, denotando con x la media campionaria
osservata e con s2 =n
j=1(xj x)2/n la varianza campionaria osservata,
L() =1
n0 (2)n/2
exp
1220
nj=1
(xj )2
=1
n0 (2)n/2
exp
1220
nj=1
(xj x+ x )2
=1
n0 (2)n/2
exp
1220
nj=1
(xj x)2 + n(x )2 ,
da cui finalmente,
L() =1
n0 (2)n/2
exp
{ n220
[s2 + (x )2]} . (2.4)
La figura 2.1, nel riquadro (a) mostra il grafico della L() nel caso particolare in cui n = 10, 20 = 4
e le osservazioni sono
z0 = (2.71, 3.53, 3.76, 3.24, 2.73, 2.36, 1.66, 3.97, 2.89, 1.52) ,
18 2 Modello statistico e funzione di verosimiglianza
con x = 2.84 e s2 = 0.61. Nel riquadro (c) e` invece proposta la funzione di verosimiglianza per lo
stesso contesto, ma ottenuta da un campione di n = 50 osservazioni che hanno fornito una media
campionaria pari a x = 3.15. Lesempio precedente suggerisce alcune considerazioni, di natura generake.
1. La funzione di verosimiglianza e` definita a meno di una costante.
La funzione di verosimiglianza stabilisce un sistema di pesi relativi con cui viene misurata levidenza
a favore dei vari valori di . Se la L() viene moltiplicata per un termine c(x0) dipendente dal
campione osservato, ma non dal parametro , il contributo informativo relativo resta inalterato.
Ad esempio, nel precedente esempio, dove il parametro dintereesse era la media , possono essere
eliminati dalla (2.4) tutti i fattori che non coinvolgono e scrivere semplicemente
L() exp{ n220
(x )2}. (2.5)
In alcuni casi per risolvere questa indeterminazione e, allo stesso tempo, avere a disposizione un
indicatore di evidenza che assuma un ben preciso range di valori si preferisce utilizzare la versione
relativa della funzione di verosimiglianza, LR(), che si ottiene semplicemente dividendo L() per
il suo valore massimo, a patto che questo risulti finito: si ottiene cos`
LR() =L()
sup L(). (2.6)
In questo modo si ottiene che 0 LR() 1, per ogni , e LR() puo` a ben diritto essereconsiderata come un indice di evidenza sperimentale a favore di , basato sullosservazione campi-
onaria.
2. La funzione di verosimiglianza non e` una distribuzione di probabilita`.
Il sistema di pesi relativo costituito da L(), oppure da LR() non rappresenta una distribuzione
di probabilita` su . Va sottolineato che, in una impostazione classica dellinferenza, e` il risultato
sperimentale X e non il parametro ad essere considerato aleatorio. Se riconsideriamo la Tabella
2.1 si puo` notare che, mentre le righe rappresentano le distribuzioni di probabilita` della variabile
aleatoria Y sotto i diversi valori di (e, come tali, sommano a 1), le colonne rappresentano le pos-
sibili funzioni di verosimiglianza associate ai possibili risultati dellesperimento, e nulla le vincola
ad avere somma unitaria.
2.3 Uso inferenziale di L()
La funzione di verosimiglianza e` lo strumento attraverso cui vengono soppesati i diversi valori dei
parametri. Attraverso di essa e` possibile produrre sintesi inferenziali di diverso tipo. Ad esempio e`
naturale considerare come stima puntuale del parametro incognito , largomento che massimizza
la funzione L().
2.3.1 Stime di massima verosimiglianza
Definizione 2.8 Si chiama stima di massima verosimiglianza il valore tale che
L() L(), = .
2.3 Uso inferenziale di L() 19
2 0 2 4 6 8
0 e
+00
2 e
08
4 e
08
(a)
L(
)
0.0 0.2 0.4 0.6 0.8 1.0
0.0
00.0
50.1
00.1
50.2
00.2
5
(b)
L(
)
2 0 2 4 6 8
0.0
e+
00
1.0
e
42
2.0
e
42
(c)
L(
)
0.0 0.2 0.4 0.6 0.8 1.0
0.0
00.0
20.0
40.0
60.0
8
(d)
L(
)
Figura 2.1. Funzioni di verosimiglianza per gli esempi normale (casi (a) e (c)) e binomiale ((b) e (d))
Va detto che il valore non necessariamente esiste n tanto meno e` unico. E` facile costruire esempi
in cui, ad esempio, la funzione di verosimiglianza risulta illimitata: si veda [2]. Nei modelli piu`
frequentemente usati, e` facile ottenere il valore , attraverso la massimizzazione analitica della
funzione di log-verosimiglianza definita come il logaritmo della funzione di verosimiglianza. Nel caso
frequente di un campione di osservazioni (x1, x2, , xn), realizzazioni indipendenti e somigliantidi una variabile aleatoria X con funzione di (densita` di) probabilita` f(; ) si avra`
() = logL() =nj=1
log f(xj ; ). (2.7)
Esempio 2.6 [Modello esponenziale]
La durate delle telefonate che il centralino dellUniversita` di Roma La Sapienza riceve quotidi-
anamente possono essere considerate variabili aleatorie indipendenti con distribuzione Esp(). Per
acquisire informazioni sul parametro incognito si registra la durata di n = 10 telefonate ricevute
in un certo intervallo di tempo.
La formulazione matematico-statistica del contesto descritto e` allora:
X1, X2, , Xn iid Esp(),
ovvero ogni singola Xj ha funzione di densita`
f(x; ) = exp {x}1(0,)(x), > 0,
20 2 Modello statistico e funzione di verosimiglianza
dove il simbolo 1A(x) rappresenta la funzione indicatrice dinsieme, che vale 1 per ogni x A e 0altrove. La funzione di verosimiglianza associata allesperimento e`
L() =nj=1
f(xj ; ) = n exp
nj=1
xj
, > 0,
e la conseguente funzione di log-verosimiglianza risulta pari a
() = n log() nj=1
xj = n log() nx,
dove x e` la media campionaria; e` facile ora massimizzare ():
()
=n
nx = 0,
da cui risulta che il valore = 1/x e` uno zero della della derivata prima di (). Che sia eettiva-
mente un punto di massimo lo si deduce dal fatto che la derivata seconda di () e` negativa per ogni
valore di > 0. Dunque la stima di massima verosimiglianza per il parametro di una distribuzione
esponenziale e` pari al reciproco della media campionaria. Nella 2.8 discuteremo brevemente leproprieta` frequentiste delle procedure basate sulla massimizzazione di L().
2.3.2 Stima per intervalli
Quando esiste, la versione relativa della funzione di verosimiglianza, LR(), rappresenta un sistema
di pesi compresi tra 0 e 1. Un intervallo di verosimiglianza puo` allora essere costituito da tutti i
valori di per i quali la funzione di verosimiglianza relativa e` non inferiore ad una certa soglia.
Possiamo cos` definire intervallo di verosimiglianza di livello k, con k [0, 1], linsieme
Lk = { : LR() k} .
Non esiste un criterio oggettivo per la scelta di k. Fisher (???) propose lutilizzo delle soglie 1/20,
1/100. Tuttavia, queste scelte convenzionali non hanno riscosso lo stesso successo di altri valori
altrettanto convenzionali che vengono quotidianamente utilizzati nella pratica statistica come il
livello di significativita` del 5% nella verifica di ipotesi (vedi oltre)????
Esempio.[Verosimiglianza normale] (continua). In questo contesto la verosimiglianza (2.5)
calcolata in vale 1 cosicch LR() = L(). Linsieme Lk e`
Lk ={ IR : exp
{ n220
(x )2} k
},
che puo` analogamente essere scritto come{ IR : n(x )
2
20 k
},
con k = 2 log k; ne consegue facilmente allora che
Lk =(x
2 log k
n0, x+
2 log k
n0
).
2.3 Uso inferenziale di L() 21
Nellambito della statistica classica esiste comunque una teoria alternativa alla costruzione di
stime intervallari, che non si basa sulla espressione della funzione di verosimiglianza osservata bens`
sulla distribuzione campionaria degli stimatori puntuali di e che prende il nome di regioni di
confidenza. Torneremo su questi aspetti nella 2.8.2.La struttura di Lk e` cos` identica a quella di un intervallo di confidenza: e` possibile associare
ad ogni livello k il corrispondente livello di confidenza 1 [68]. Va da s che questa completacoincidenza operativa tra le soluzioni classiche e quelle basate sulla funzione di verosimiglianza si
verifica solo in pochi casi, soprattutto quando si adotta il modello normale. Ritorneremo su questi
aspetti nella 6.2 a proposito degli intervalli di stima di tipo bayesiano.
Alcuni esempi
Concludiamo questa sezione con alcuni esempi di utilizzo della funzione di verosimiglianza in
contesti leggermente piu` complessi.
Esempio 2.7 [Modelli cattura-ricattura]
Dopo unindagine censuaria nella citta` XXX, il cui obiettivo specifico e` di rilevare tutte le unita`
della popolazione di riferimento, una specifica circoscrizione della citta`, diciamo yy, viene analizzata
nuovamente e con maggior impegno, per rilevare tutte le unita` abitanti in quella zona: lobiettivo
della seconda indagine e` di produrre una stima dellecacia dellindagine censuaria, attraverso la
stima del suo livello di copertura, ovvero la stima della percentuale degli individui catturati
nella prima indagine. Sia N il numero incognito di unita` che vivono nella circoscrizione yy, e sia
n1 il numero di persone rilevate dallindagine censuaria nella circoscrizione stessa. Nella seconda
rilevazione vengono catturati n2 individui, dei quali m erano gia` stati osservati nella prima
occasione, mentre gli altri n2m risultano nuove catture. Per semplicita` di esposizione assumiamoche ogni individuo abbia la stessa probabilita` p di essere catturato in ogni occasione2 e che tale
probabilita` sia uguale per tutti gli individui.
Consideriamo allora come realizzazione dellesperimento la terna (N1, N2,M). La loro dis-
tribuzione congiunta, per un valore fissato di N e P , e` data da
p(n1, n2,m;N, p) = p(n1;N, p)p(n2;n1, N, p)p(m;n1, n2, N, p);
il primo fattore, la legge di n1, e` di tipo Bin(N, p) (ogni tentativo di cattura degli N individui e`
una prova bernoulliana con probabilita` di successo pari a p); il secondo fattore, per lindipendenza
delle due occasioni di cattura, non dipende da n1 ed e` ancora di tipo Bin(n, p); infine la legge di
m condizionata ad (n1, n2) non dipende da p ed ha distribuzione ipergeometrica, ovvero
Pr (M = m | n1, n2, N, p) =(N n1n2 m
)(n1m
)/
(N
n2
).
Ne segue che, dopo facili semplificazioni,
L(N, p) (N
n1
)(N n1n2 m
)pn1+n2(1 p)2Nn1n2
N !(N +m n1 n2)!p
n1+n2(1 p)2Nn1n2 (2.8)2 questa assunzione e` chiaramente poco realistica; ad esempio, quando si applicano modelli del genere al
problema della stima di popolazioni animali, e` ragionevole supporre che individui piu` deboli siano piu`
facilmente catturabili.
22 2 Modello statistico e funzione di verosimiglianza
Per ottenere una stima di N si puo` ad esempio considerare la funzione di verosimiglianza calcolata
in p = pN , ovvero sostituendo a p la sua stima di massima verosimiglianza assumendo N noto.
Si vede facilmente che che pN = (n1 + n2)/(2N). Questo modo di agire conduce alla cosiddetta
funzione di verosimiglianza profilo, sulla quale torneremo piu` avanti, che in questo esempio e` pari
a
L(N) =N !
(N +m n1 n2)!(2N n1 n2)2Nn1n2
(2N)2N
che puo` essere massimizzata numericamente. Consideriamo un esempio in cui, la prima cattura con-
duce ad identificare n1 = 40 individui, la seconda cattura conduce a n2 = 30, dei quali m = 25 gia`
osservati nella prima occasione. Si ha dunque pN = 55/(2N), mentre la funzione di verosimiglian-
za profilo e` ragurata nella figura 2.2. Il valore piu` verosimile appare chiaramente N = 48, che
produce una stima del livello di copertura pari a p = 55/96 = 0.572.
44 46 48 50 52 54 56 58
0.0
0.2
0.4
0.6
0.8
1.0
Verosimiglianza profilo relativa per N
N
L(N
)
Figura 2.2. Verosimiglianza profilo e curve di livello per la funzione di verosimiglianza bivariata per
lEsempio 2.7; dal secondo grafico si puo` notare linformazione sui due parametri sia dicilmente separabile
Esempio 2.8 [Osservazioni a informazione limitata].
[67], pag.24, considera il seguente esempio di tipo bernoulliano: si lancia n volte una moneta che da`
testa (T) con una certa propensione incognita , e i lanci possono essere considerati indipendenti.
Il risultato dellesperimento e` la realizzazione della v.a. X =numero di T in n lanci; tuttavia tale
valore non viene reso noto con precisione, e si sa soltanto che il valore osservato di X risulta minore
o uguale ad m, con m n. La funzione di verosimiglianza per associata a tale esperimento, omeglio al contenuto informativo dellesperimento, cioe` il valore m, e` allora
L() = P (X m; ) mk=0
(n
k
)k (1 )nk . (2.9)
2.4 Sucienza 23
Una funzione di verosimiglianza approssimata L() e` ottenibile attraverso lapprossimazione
normale alla distribuzione binomiale. Poich X Bin(n, ), si vede facilmente che
L()