+ All Categories

Download - Dispensa Liseo 2008 Bay

Transcript

Brunero Liseo

Introduzione alla statistica bayesiana

Settembre 2008

Springer
Molte persone credono che il loro modo di agire e pensare sia lunico

corretto, non solo per loro stessi ma per chiunque altro. Questa

ingiustificata estensione di un principio di utilita` genera, di solito, una gran

confusione; ma puo` generare tragedie se quel modo diventa lo stesso per troppi.

Anonimo, XXI secolo
Prefazione

Lapproccio bayesiano allinferenza sta acquisendo un ruolo sempre piu` importante nella letteratura

statistica: e` infatti in continuo aumento il numero di elaborazioni di dati in campo medico-sanitario,

economico-finanziario, socio-politico e forse ancor di piu` nelle scienze sperimentali, dove si fa utilizzo

piu` o meno esplicito di tecniche riconducibili al paradigma bayesiano dellinferenza.

Le ragioni di questa improvvisa accelerazione, iniziata piu` o meno negli anni 90 del secolo scorso,

della diusione dei metodi bayesiani nella statistica applicata sono molteplici ma riconducibili a tre

categorie essenziali: i) ragioni epistemologiche, ii) ragioni pragmatiche e, soprattutto, iii) ragioni

di natura computazionali.

Da un punto di vista epistemologico, le motivazioni piu` cogenti per laermarsi del metodo

bayesiano sono quelle di carattere fondazionale: limpostazione bayesiana dellinferenza statistica

formalizza in modo semplice e diretto il ragionamento induttivo di un essere razionale che, in base

alla informazioni disponibili su un certo insieme di fenomeni, in un certo istante della sua vita, vuole

calcolare la probabilita` di eventi futuri o, piu` in generale, di eventi per i quali non e` noto se si siano

verificati o meno. La logica bayesiana e` coerente, dotata di solide basi logiche ed esente dal rischio

di controesempi, sempre in agguato quando ci si muove nel campo dellinduzione, ed e` necessario

produrre aermazioni di natura probabilistica su eventi che non sappiamo se si verificheranno o

meno.

Esistono poi motivazioni piu` pragmatiche: nel corso degli anni sono via via aumentate le appli-

cazioni statistiche in cui lesigenza di tener conto di informazioni extra-sperimentali, aspetto carat-

terizzante - sebbene non il piu` importante - dellimpostazione bayesiana, emergeva con chiarezza.

In ambito epidemiologico, ad esempio, quando si valuta la probabilita` che un paziente sia aetto

da una certa patologia sulla base di un test diagnostico, quelle che sono le probabilita` a priori sono

nientaltro che le informazioni sulla prevalenza di quella malattia in quel contesto specifico e non

sono meno oggettive delle informazioni sulla sensibilita` e specificita` del test adottato, che invece

hanno una interpretazione nellambito della statistica classica.

In ambito economico-sociale, e` sempre piu` importante per gli istituti nazionali di statistica e

per altri enti di ricerca disporre di informazioni ad un livello di disaggregazione sucientemente

elevato: e` certamente piu` utile, ad esempio, conoscere i livelli di disoccupazione o di natalita` a

livello comunale piuttosto che a livello provinciale. Questa esigenza e` oggi cos` pressante che ha

prodotto lo sviluppo di un nuovo tema di ricerca che va sotto il nome di stima per piccole aree,

dove spesso la dicolta` principale e` quella di produrre informazioni anche per aree per le quali

non si hanno a disposizione informazioni campionarie dirette. Una caratteristica intrinseca del
VIII Prefazione

metodo bayesiano e` proprio quella di poter assumere, in modo semplice e naturale, diversi livelli

di associazione tra le unita` campionarie, consentendo cos` quel fenomeno di borrowing strength

che consente la produzione di stime sucientemente stabili anche per quelle aree poco o per nulla

coperte dallindagine campionaria.

La solidita` fondazionale del metodo bayesiano e la possibilita` di integrare, attraverso il teorema

di Bayes, le informazioni fornite dallesperimento statistico con le ulteriori conoscenze a priori

relative al problema in esame sono tuttavia cose ben note da molti decenni e non bastano da

sole a giustificare lenorme sviluppo degli ultimi anni. Cio` che ha causato la recente inversione di

tendenza culturale nei confronti dei metodi bayesiani e` stato senza dubbio lenorme sviluppo di

nuove metodologie computazionali che consentono ormai di analizzare, allinterno di questa im-

postazione, modelli statistici estremamente complessi. I cosiddetti metodi di Monte Carlo, basati o

meno sulle proprieta` delle catene di Markov (metodi MC e MCMC), permettono oggi di generare un

campione, di dimensione qualsivoglia, di realizzazioni che possiamo considerare, almeno approssi-

mativamente, indipendenti e somiglianti generate dalla distribuzione a posteriori dei parametri

dinteresse del modello. Questo, oggi, e` praticamente possibile per ogni modello statistico non im-

porta quanto complesso. Questa potenzialita` ha avuto un impatto fondamentale, soprattutto in

campo applicato. Prima dellera MCMC, limpostazione bayesiana rappresentava un elegante mod-

ello teorico del paradigma inferenziale, insegnato soprattutto, sia in Italia che altrove, nei corsi di

laurea con forte orientamento matematico. La pratica statistica era saldamente nelle mani della

scuola frequentista, oggi rappresentata dalla fusione, non sempre armoniosa, di due correnti di

pensiero, quella di Neyman, Pearson e Wald da un lato e quella Fisher e Cox dallaltra. Cio` che

rendeva impraticabile il metodo bayesiano erano soprattutto i problemi di calcolo: aldila` di sem-

plici modelli parametrici, infatti, non e` possibile ottenere espressioni esplicite delle distribuzioni

a posteriori delle quantita` di interesse. Questo dicolta` ha fatto in modo che levoluzione della

modellistica statistica avvenisse perlopiu` in ambito frequentista.

Oggi la situazione e` notevolmente diversa, a volte ribaltata. In un numero sempre crescente di

ambiti applicativi, lapproccio bayesiano consente una flessibilita` del modello dicilmente ottenibile

mediante metodi classici.

Quanto appena descritto potrebbe lasciare intendere che il futuro sviluppo della scienza statisti-

ca sia orientato verso laermazione della logica bayesiana. Questo non e` aatto certo: molti aspetti

vanno ancora considerati e ancora oggi, ad esempio, molti studiosi sono contrari allintroduzione

di informazioni extra-sperimentali nel procedimento inferenziale, intravedendo in questo la perdita

di qualsiasi tipo di possibile oggettivita` delle inferenze. Questa dialettica scientifica tra diverse

scuole di pensiero rende costantemente attuali due particolari capitoli del metodo bayesiano:

lo studio delle proprieta` delle distribuzioni cosiddette convenzionali, costruite per minimizzareil contenuto informativo introdotto nella procedura e non direttamente relativo allesperimento

programmato;

lo studio della sensibilita` delle inferenze prodotte al variare degli input, con particolare riguardoalla distribuzione iniziale.

Di questi aspetti ci occuperemo, rispettivamente, nella 5.2 e nella 5.3.Questo testo va considerato di livello introduttivo, concepito per un corso di statistica impartito

nellambito di una laurea magistrale presso le facolta` di Economia, Scienze statistiche oppure
Prefazione IX

per studenti di Matematica. I prerequisiti necessari per la lettura del testo si limitano ad un

corso di matematica generale e ad unesposizione almeno introduttiva, al calcolo delle probabilita`.

Argomenti di teoria della misura, che in alcune parti renderebbero il testo piu` snello ed elegante

sono stati volutamente evitati. La conoscenza dellimpostazione frequentista dellinferenza non e`

considerata un prerequisito, ma certamente rende la lettura del testo piu` utile.

Dopo aver introdotto il lessico probabilistico necessario per una corretta interpretazione della

logica bayesiana (capitolo 1), e una breve ma necessaria rassegna sulle tecniche di inferenza classiche

basate sulla funzione di verosimiglianza (capitolo 2), i capitoli 3, 4 e 6 sono dedicati allintroduzione

del metodo bayesiano e ad una rivisitazione in ottica bayesiana delle piu` consolidate tecniche

inferenziali. Il capitolo 5 aronta invece il tema della scelta della distribuzione a priori, per molto

tempo considerato il vero aspetto discriminante tra metodi bayesiani e non. Il capitolo 7 e` dedicato

allillustrazione dei metodi computazionali oggi piu` importanti nella pratica bayesiana. Questi

argomenti sono tra laltro a tuttoggi al centro di una frenetica attivita` di ricerca, e questo rende

ancora dicile una loro trattazione sistematica. Prima di arontare, nei capitoli successivi, la

modellistica lineare e le sue evoluzioni, si e` voluto dedicare il capitolo 8 alla discussione del tema

del confronto tra modelli alternativi. Questo e` uno dei settori dove le discrepanze tra metodi classici

e bayesiani e` piu` evidente e molto dicile appare una riconciliazione teorica tra le impostazioni.

Nel testo non compaiono alcuni argomenti, oggi centrali nella ricerca, come le interconnessioni

fra la statistica classica e quella bayesiana in un contesto non parametrico, oppure il ruolo centrale

del teorema di Bayes nelle tecniche di machine learning. Tali argomenti, oggi essenziali per un

uso ecace delle potenzialita` che la statistica consente, sono tuttavia ancora troppo avanzati dal

punto di vista matematico per essere trattati in modo comprensibile senza alterare la struttura del

testo.

Il testo ha avuto una gestazione molto lunga, e nasce come note di un corso di statistica

matematica da me tenuto per alcuni anni presso il corso di laurea in Matematica delluniversita`

Roma Tre. A tal proposito mi fa piacere ringraziare tutti gli studenti che, leggendo e studiando

le versioni precedenti, hanno segnalato diverse inesattezze. Ringrazio inoltre Alessandra Salvan,

Gianfranco Adimari, Marilena Barbieri che hanno utilizzato versioni preliminari di questo testo nei

loro corsi e Ludovico Piccinato che ha letto tutto con la consueta attenzione e profondita`.

Roma, settembre 2008 Brunero Liseo
Indice

Parte I Titolo della parte

1 Teorema di Bayes e probabilita` soggettiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.1 Il teorema di Bayes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Probabilita` a priori e verosimiglianze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3 Limpostazione soggettiva della probabilita` . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.4 Definizione e condizione di coerenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

Problemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Modello statistico e funzione di verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.1 Gli ingredienti di un modello statistico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2 La funzione di verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.3 Uso inferenziale di L() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.3.1 Stime di massima verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.3.2 Stima per intervalli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.4 Sucienza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.5 Informazione di Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.6 La divergenza di Kullback-Leibler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.7 Unapprossimazione della funzione di verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.8 Proprieta` frequentiste delle procedure basate su L() . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.8.1 Lo stimatore di massima verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.8.2 Intervalli di confidenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.8.3 Verifica di ipotesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.9 Il principio di verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.10 Eliminazione dei parametri di disturbo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.11 La famiglia esponenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.12 Anomalie della funzione di verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

2.13 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3 Inferenza statistica da un punto di vista bayesiano . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.1 Il teorema di Bayes e il processo induttivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.2 La soggettivita` delle conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.2.1 La distribuzione a posteriori e` il riassunto dellinferenza. . . . . . . . . . . . . . . . . . . 51
XII Indice

3.3 La logica dellinduzione: evidenza, inferenza, decisioni . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.4 Alcune note tecniche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.4.1 La costante di marginalizzazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.4.2 Alcuni aspetti matematici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.5 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4 Analisi di semplici modelli statistici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.1 Dati dicotomici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.2 Dati uniformi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.3 La distribuzione gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.3.1 Varianza nota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.3.2 Media e varianza incognite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.4 Modello di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.5 Altri esempi notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.5.1 Confronto fra due proporzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.5.2 Confronto fra due medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4.6 La normale multivariata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

4.7 Consistenza del metodo bayesiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4.8 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

5 Scelta della distribuzione iniziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

5.1 Distribuzioni coniugate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.2 Distribuzioni non informative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

5.2.1 Notazione e motivazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

5.2.2 La distribuzione uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

5.2.3 Il metodo di Jereys . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

5.2.4 Il metodo delle reference priors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

5.3 La sensibilita` delle conclusioni rispetto alla distribuzione a priori . . . . . . . . . . . . . . . . 90

5.3.1 Cenni al problema della robustezza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5.3.2 Il ruolo della dimensione campionaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5.4 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

6 Procedure inferenziali bayesiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

6.1 Stima puntuale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

6.2 Stima per intervallo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

6.3 Verifica di ipotesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

6.3.1 Il caso di due ipotesi semplici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

6.3.2 Il caso dellipotesi alternativa composta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

6.3.3 Uso di distribuzioni improprie nei problemi di test . . . . . . . . . . . . . . . . . . . . . . . 107

6.4 Limpostazione predittiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

6.4.1 Il concetto di sucienza nellimpostazione predittiva . . . . . . . . . . . . . . . . . . . . . 113

6.4.2 Calcoli predittivi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

6.5 La modellizzazione gerarchica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

6.5.1 Lapproccio bayesiano empirico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
Indice XIII

6.6 Cenni alla teoria delle decisioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

6.7 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

7 Metodi computazionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

7.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

7.2 Approssimazioni analitiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

7.2.1 Comportamento asintotico della distribuzione finale . . . . . . . . . . . . . . . . . . . . . . 127

7.2.2 Metodo di Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

7.2.3 Altri tipi di approssimazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

7.3 Simulazione a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

7.4 Data Augmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

7.5 Metodi MonteCarlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

7.5.1 Campionamento per importanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

7.5.2 Metodi accettazione-rifiuto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

7.5.3 Distribuzioni log-concave . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

7.6 Algoritmi adattivi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

7.7 Metodi MCMC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

7.7.1 Aspetti matematici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

7.7.2 Gli algoritmi di tipo Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

7.7.3 Lalgoritmo di Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

7.7.4 Altri algoritmi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

7.7.5 Convergenza degli algoritmi MCMC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

7.8 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

8 Scelta del modello statistico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

8.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

8.2 Impostazione formale del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

8.3 Il fattore di Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

8.3.1 Approssimazioni del fattore di Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

8.3.2 Uso di distribuzioni non informative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

8.4 Metodi MC e MCMC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

8.4.1 Stima diretta della distribuzione marginale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

8.4.2 Il meta-modello . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

8.4.3 Lalgoritmo Reversible Jump . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

8.5 Altre impostazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170

8.5.1 Cross Validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170

8.6 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170

9 Il modello lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

9.1 Analisi bayesiana coniugata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

9.2 Il caso non informativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

9.3 Regioni di credibilita`. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

9.4 Regressione lineare attraverso metodi di simulazione . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

9.4.1 Regressione lineare con errori a code pesanti . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
XIV Indice

9.5 Confronto tra modelli di regressione alternativi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

9.5.1 Il fattore di Bayes per modelli lineari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

9.5.2 Il calcolo della marginale di y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

9.5.3 Uso delle g-priors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180

9.6 Previsioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

9.7 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182

10 Modelli lineari generalizzati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

10.1 Introduzione ed esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

10.2 Distribuzioni a priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

10.3 Tecniche di calcolo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

10.4 Alcune esemplificazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

10.4.1 Dati dicotomici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

10.4.2 Dati di conteggio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

10.4.3 sopravvivenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

10.5 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

11 I modelli gerarchici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

11.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

11.2 Modelli gerarchici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

11.2.1 Strategie per lanalisi dei modelli gerarchici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

11.3 Il modello gerarchico gaussiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

11.3.1 Il caso EB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

11.3.2 Lapproccio HB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

11.3.3 Sulla scelta della distribuzione a priori di 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191

11.4 Il calcolo dei momenti a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192

11.4.1 Media e varianza dei j . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192

11.5 Le stime finali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193

11.5.1 La Strategia EB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193

11.6 Approccio basato sulla simulazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198

11.7 Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198

11.8 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198

12 Approfondimenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199

12.1 Modelli a struttura latente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199

12.1.1 Mistura finita di distribuzioni gaussiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199

12.1.2 Frontiera stocastica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199

12.2 Il problema della stima della numerosita` di una popolazione . . . . . . . . . . . . . . . . . . . . 199

12.3 Scelta della numerosita` campionaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199

12.4 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199

A Alcune nozioni di algebra lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
Indice XV

B Nozioni di probabilita` . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203

B.1 Funzione generatrice dei momenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208

B.2 Convergenza di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208

C Alcuni risultati e dimostrazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209

C.1 Statistiche dordine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209

C.2 Alcuni approfondimenti matematici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210

C.2.1 Derivazione della distribuzione di Jereys . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210

C.3 Sulla scambiabilita` . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210

C.3.1 Dimostrazione del Teorema 6.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210

C.4 Sulle forme quadratiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212

C.4.1 Combinazione di due forme quadratiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212

C.5 Sul calcolo delle distribuzioni non informative nel modello lineare . . . . . . . . . . . . . . . . 213

C.6 Sul calcolo della marginale per un modello lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213

D Catene di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215

D.1 Catene in tempo discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215

D.1.1 Distribuzione del processo ad un tempo prefissato . . . . . . . . . . . . . . . . . . . . . . . 216

D.1.2 Probabilita` di assorbimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217

D.1.3 Tempi di arresto e proprieta` forte di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218

D.1.4 Classificazioni degli stati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218

D.1.5 Distribuzioni invarianti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220

D.1.6 Equilibrio di una catena . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221

D.1.7 Reversibilita` . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222

D.2 Catene continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222

E Le principali distribuzioni di probabilita` . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223

E.1 Distribuzioni discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224

E.2 Distribuzioni assolutamente continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226

E.3 Distribuzioni multivariate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230

Soluzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235

Riferimenti bibliografici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237

Indice analitico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
Parte I

Titolo della parte
1Teorema di Bayes e probabilita` soggettiva

1.1 Il teorema di Bayes.

E noto che, dati due eventi qualsiasi F e E, la probabilita` dellintersezione F E si puo` scrivere

P (F E) = P (F |E)P (E), (1.1)

oppure

P (F E) = P (E|F )P (F ). (1.2)Uguagliando la (1.1) con la (1.2) ed esplicitando rispetto a P (F | E) si puo` scrivere, quandoP (E) > 0,

P (F | E) = P (F )P (E | F )P (E)

, (1.3)

La formula (1.3) rappresenta la forma piu` semplice del cosiddetto teorema di Bayes, dal nome

di colui che, apparentemente per primo [5], utilizzo` una versione leggermente piu` complessa delle-

spressione stessa: essa insegna che la probabilita` di un evento F non e` una caratteristica intrinseca

dellevento, ma va calcolata sulla base delle informazioni a disposizione: il verificarsi di E, ad es-

empio, modifica la probabilita` di F , e la trasforma in P (F |E), secondo la (1.3).Esempio 1.1

La mia collezione di CD e` costituita da un 70% di dischi tradizionali e da un 30% di dischi

contenenti file MP3. Tra i dischi tradizionali il 30% contiene musica rock mentre il restante 70%

contiene brani di musica classica. Tra i dischi contenenti files MP3, il 10% contiene musica classi-

ca e il 90% musica rock. Scegliamo a caso un disco e sia A e` levento { il disco estratto e` di tipotradizionale}, mentre R rappresenta levento { il disco estratto contiene musica rock }. Ovviamentesi avra` Pr (A) = 0.7; ma se dopo alcuni secondi mi rendo conto che si tratta di un disco rock, la

probabilita` che si tratti di un disco tradizionale diventa

Pr (A | R) = Pr (A) Pr (R | A)Pr (R)

=Pr (A) Pr (R | A)

Pr(A)Pr(R | A)+ Pr (A) Pr (R | A)

=0.7 0.3

0.7 0.3 + 0.3 0.9 =21

48.

Esempio 1.2
4 1 Teorema di Bayes e probabilita` soggettiva

Esempio 1.3

Esempio 1.4

Da un mazzo di 52 carte se ne estrae una a caso senza osservarla; se ne estrae poi una seconda

che risulta essere un Asso. Qual e` la probabilita` che la prima carta estratta fosse un Re?

Soluzione. In questo caso identifichiamo F con levento {La prima carta e` un Re} e con E levento{La seconda carta e` un Asso}. Poich P (F ) = 4/52, P (E) = 4/52 (non conoscendo lesito dellaprima estrazione, tutte le carte hanno la stessa probabilita` di comparire come seconda carta) e

P (E|F ) = 4/51, si ha in conclusione

P (F | E) = 452

4

51/4

52=

4

51.

Potrebbe risultare contro intuitivo il fatto che P (E) = 4/52 o, piu` in generale, che le probabilita`

relative alla seconda estrazione risultino uguali a quelle relative alla prima; ma quello che conta

non e` tanto il susseguirsi temporale degli eventi quanto linformazione che si ha su di essi: se non

conosciamo lesito della prima estrazione al momento di calcolare la probabilita` di eventi relativi alla

seconda estrazione, e` come se la prima se non si fosse mai verificata. Dal punto di vista matematico

si puo` arrivare facilmente al risultato osservando che, chiamando A levento {La prima carta e` unAsso}

Pr (E) = Pr (E A) + Pr (E Ac) = Pr (A) Pr (E | A) + Pr (Ac) Pr (E | Ac)=

4

52

3

51+

48

52

4

51=

4

52

Esempio 1.5

Sugli aerei esiste una spia luminosa che si accende in fase di atterraggio quando il carrello non

fuoriesce regolarmente. Puo` succedere pero` che la spia si illumini anche se il carrello non ha avuto

alcun problema. Sia A levento {Carrello in ordine } e sia B levento {Spia accesa}. E` noto, daindagini di laboratorio, che

Pr (B | A) = 0.005, Pr (B | Ac) = 0.999;

in altri termini la spia si accende erroneamente solo cinque volte su 1000 mentre non si accende

quando dovrebbe soltanto una volta su 1000. Infine le statistiche di bordo riportano che la frequenza

relativa di volte in cui il carrello non ha funzionato correttamente e` pari al 3%. Calcolare la

probabilita` che, in caso di spia accesa, si tratti di un falso allarme.

Soluzione: Dalle informazioni di bordo sappiamo che P (A) = .97; si tratta di calcolare P (A | B):

P (A | B) = P (A)P (B | A)P (A)P (B | A) + P (Ac)P (B | Ac) =

0.97 0.0050.97 0.005 + 0.03 0.999 = 0.139.
1.1 Il teorema di Bayes. 5

Un modo ecace di interpretare la formula di Bayes e` quello di considerare levento E come un

insieme di sintomi (eetti) e levento F come una possibile malattia (causa) associata a tali sintomi.

Esempio 1.6 [ Possibili cause di un sintomo ]

Tizio si reca dal medico perch ha notato alcuni strani puntini rossi sulla sua cute (E=insorgen-

za di puntini rossi). Tizio non sa a quali cause far risalire tali sintomi. Il medico sostiene che le

possibili cause sono tre: un banale fungo della pelle (F1), varicella (F2), una grave malattia (F3).

Per semplicita` assumiamo che una e una sola delle tre cause possa aver eettivamente agito. Il

medico sa anche quanto e` verosimile osservare E quando si e` malati di F1, F2, oppure F3. Infatti

studi precedenti indicano che P (E | F1) = 0.5, P (E | F2) = 0.7, mentre P (E | F3) = 0.99. Inpratica, in presenza del fungo, si ha una probabilita` su due di osservare i puntini rossi, mentre,

nel caso della grave malattia (F3) linsorgenza dei puntini e` pressoch certa. E il caso che Tizio si

preoccupi? Soluzione. Prima di iniziare a preoccuparsi, e` bene che Tizio calcoli, secondo la formula di Bayes,

le probabilita` a posteriori delle tre possibili malattie. Per fare questo pero` occorrono le probabilita`

a priori che Tizio, non essendo un esperto del settore, non conosce: il medico, che assumiamo

esperto, sostiene che, nella citta` di Tizio linsorgenza di F1, soprattutto in quella stagione, e` molto

comune mentre le altre due malattie hanno una scarsa diusione: egli quantifica tali valutazioni

nelle seguenti probabilita`:

P (F1) = 0.7 P (F2) = 0.2 P (F3) = 0.1

Va notato che la somma delle tre probabilita` sopra assegnate e` 1: infatti stiamo assumendo che

una e una sola causa abbia veramente agito. Non vi e` invece alcun motivo per cui le tre probabilita`

condizionate assegnate precedentemente (le P (E|Fi), i = 1, 2, 3) sommino a 1. Alla luce di questidati la probabilita` che Tizio sia aetto da F3 e`

P (F3|E) = P (F3)P (E|F3)P (E)

=0.1 0.99P (E)

=0.099

P (E). (1.4)

Allo stesso modo

P (F2|E) = P (F2)P (E|F2)P (E)

=0.7 0.2P (E)

=0.14

P (E), (1.5)

P (F1|E) = P (F1)P (E|F1)P (E)

=0.5 0.7P (E)

=0.35

P (E). (1.6)

Pur senza calcolare P (E), siamo in grado di tranquillizzare Tizio. Infatti,

P (F1|E)P (F3|E) =

0.35

0.099= 3.53

eP (F1|E)P (F2|E) =

0.35

0.14= 2.5.

In pratica la presenza del fungo e` 3 volte e mezzo piu` probabile della malattia F3 e 2 volte e mezzo

piu` probabile della varicella. Se poi vogliamo calcolare le eettive probabilita` a posteriori occorre

calcolare P (E). Questo si puo` fare in due modi, ovviamente equivalenti.

(a) Metodo formale: perch E si verifichi, deve verificarsi uno tra i tre eventi Fi; quindi

E = (E F1) (E F2) (E F3);
6 1 Teorema di Bayes e probabilita` soggettiva

essendo poi le cause incompatibili,

P (E) = P (E F1) + P (E F2) + P (E F3) (1.7)= P (F1)P (E|F1) + P (F2)P (E|F2) + P (F3)P (E|F3)= 0.589

(b)Metodo piu` semplice: dalle formule (1.4),(1.5) e (1.6) si evince che P (E) non e` altro che un

fattore di normalizzazione delle tre quantita` suddette, necessario anch la loro somma sia 1.

Basta quindi sommare le tre quantita`, uguagliare il risultato a 1 ed esplicitare rispetto a P (E).

Per concludere, viene fornita una versione piu` formale del teorema di Bayes.

Teorema 1.1 (Teorema di Bayes) . Sia E un evento contenuto in F1F2 Fk, dove gli Fj,j = 1, , k sono eventi a due a due incompatibili (il verificarsi di uno di essi esclude la possibilita`che se ne possa verificare un altro). Allora, per ognuno dei suddetti Fj vale la seguente formula

P (Fj |E) = P (Fj)P (E|Fj)ki=1 P (Fi)P (E|Fi)

. (1.8)

Dimostrazione 1.1 Lasciata per esercizio

La dimostrazione del teorema e` molto semplice nel caso in cui il numero di eventi incompatibili

F1, , Fk risulti finito. Qualora essi rappresentino uninfinita` numerabile, occorre un momentodi zelo, e specificare che, nellimpostazione comune del calcolo delle probabilita`, quella sistem-

atizzata da Kolmogorov nel 1933, il teorema continua ad essere ugualmente valido; al contrario,

nellimpostazione di de Finetti [32], la (1.7) non e` piu` garantita e occorre assumere tale uguaglian-

za o condizioni che la implichino. Nel seguito, salvo avviso contrario, ci muoveremo nellambito

dellimpostazione di Kolmogorov.

1.2 Probabilita` a priori e verosimiglianze

Nella formula (1.8) il membro di sinistra prende il nome di probabilita` finale (o a posteriori)

dellevento Fj : il termine finale sta a significare dopo che e` noto che si e` verificato E. Come gia`

osservato, il denominatore del membro di destra della (1.8) e` un semplice fattore di normalizzazione;

nel numeratore, invece, compaiono due quantita`: la P (Fj) e` la probabilita` a priori dellevento

Fj (nellesempio medico, rappresenta la probabilita` che qualcuno sia aetto dalla malattia Fj

indipendentemente dallaver riscontrato o meno i sintomi E); la P (E | Fj) rappresenta invece laverosimiglianza di Fj , ovvero la probabilita` che si manifestino i sintomi E quando si e` aetti dalla

malattia Fj . La formula (1.8) fornisce cos` un modo sintetico di valutare il grado di incertezza che

abbiamo sul verificarsi di un evento, basandoci sia sulle informazioni a priori che abbiamo riguardo

levento stesso, sia su ulteriori conoscenze sopraggiunte, magari mediante un apposito test, come

nellesempio precedente.

Volendo confrontare le probabilita` a posteriori di due tra le k possibili cause, ad esempio Fh e

Fj si haP (Fh|E)P (Fj |E) =

P (Fh)

P (Fj)

P (E|Fh)P (E|Fj) .
1.3 Limpostazione soggettiva della probabilita` 7

A conferma di quanto osservato in precedenza, si vede che il rapporto delle probabilita` a posteriori

di due eventi e` pari al prodotto dei due rapporti: P (Fh)/P (Fj) e` il rapporto a priori mentre il

rapporto delle verosimiglianze P (E|Fh)/P (E|Fj) viene spesso indicato con B e prende il nome difattore di Bayes: esso rappresenta un indicatore di evidenza relativa per una possibile ipotesi Fh

rispetto ad un altra ipotesi Fj , basato esclusivamente sui fatti osservati (levento E) e non su val-

utazioni soggettive sul verificarsi degli eventi Fj , j = 1, , k. Un valore di B pari a 1 corrispondeal caso di eguale evidenza per le due ipotesi a confronto.

1.3 Limpostazione soggettiva della probabilita`

E bene chiarire subito un aspetto essenziale: la probabilita` non e` una caratteristica intrinseca

degli eventi per i quali viene calcolata bens` puo` dipendere dalla percezione che lindividuo ha degli

eventi stessi. Quando si lancia una moneta presa a caso da un salvadanaio, siamo tutti pronti a

sostenere che la probabilita` che la moneta dia testa (T) sia pari a 0.5: in realta`, a voler essere

pignoli, avremmo dovuto verificare che la moneta fosse regolare (che, ad esempio, non fosse una

moneta con due teste!) e che non presentasse vistose alterazioni.

Allo stesso modo ci appare naturale, estraendo a caso una pallina da unurna che ne contiene 10

rosse (R) e cinque blu (B), che la probabilita` che la pallina estratta sia B sia posta pari a 1/3. Ma

se chiediamo ad un gruppo di persone di valutare la probabilita` che la squadra di calcio A superi la

squadra B nella prossima partita di campionato, e` verosimile aspettarci tante dierenti risposte e

nessuno trova da ridire sul fatto che un tifoso della squadra A reputi piu` probabile levento {vittoriadella squadra A} rispetto, ad esempio, ad un tifoso della squadra B.

E giustificabile tutto cio`? Esistono casi in cui la probabilita` e` soggettiva (variabile da individuo

a individuo) ed altri in cui e` invece uguale per tutti? Certamente no.

La probabilita` che un individuo associa ad un evento e` sempre soggettiva: essa rappresenta il

grado di fiducia che lindividuo pone nel verificarsi dellevento. Essa si colloca dunque, non gia`

allinterno dellevento bens` tra lindividuo e il mondo esterno: e` dallinterazione che scaturisce tra

lindividuo e levento, dallinteresse che per lindividuo suscita levento che nasce la valutazione

della probabilita` (si veda [25]).

Risulta allora del tutto normale che individui dierenti, di fronte al lancio di una moneta, in

assenza di particolari informazioni sulla moneta stessa, concordino nel sostenere che, non fossaltro

per ragioni di simmetria, la probabilita` che la moneta dia T e` uguale alla probabilita` che la moneta

dia C e quindi entrambe valgano 0.5. Ma la partita di calcio e` un qualcosa di ben piu` complesso e

ciascun individuo, con le sue informazioni e le sue distorsioni (tifo, pregiudizi, superstizioni, etc..)

finira` con lassociare allevento vince la squadra A una probabilita` dierente dagli altri.

Una prima conseguenza della soggettivita` della probabilita` e` che non esiste una probabilita`

corretta, se non forse in alcuni casi speciali. Anche se, come abbiamo visto, un gran numero di

persone concorda nellassegnare probabilita` 0.5 allevento {la moneta da` T}, non esiste alcun mec-canismo fisico per verificare tale valutazione e non servirebbero nemmeno un gran numero di

prove ripetute per eliminare il dubbio che la probabilita` di T sia 0.5001 e non 0.5.
8 1 Teorema di Bayes e probabilita` soggettiva

Il fatto che non esista una probabilita` corretta per un dato evento, non ci autorizza pero` ad

associare agli eventi probabilita` scelte a caso: pur nella soggettivita` delle valutazioni, le probabilita`

debbono soddisfare alcune condizioni di coerenza.

Negli anni 20 e 30, B. de Finetti, con una serie di scritti (si vedano, ad esempio [32], e [36]), getto`

le basi per la costruzione della teoria soggettiva della probabilita`: a tal fine egli utilizzo lo schema

teorico, e il linguaggio, delle scommesse. Nel prossimo paragrafo verra` illustrata tale impostazione

arrivando cos` alla definizione soggettiva di probabilita`: inoltre, attraverso la condizione di coerenza,

verranno riottenuti quei postulati che altre teorie della probabilita` introducono in modo esogeno.

La profonda influenza che la figura di Bruno de Finetti tuttora esercita nella probabilita` e nella

statistica possono essere apprezzati appieno mediante la lettura dei suoi due volumi, [33], apparsi

poi in lingua inglese in [34] e [35].

1.4 Definizione e condizione di coerenza

Prima di addentrarci nel linguaggio delle scommesse, e` bene chiarire che cosa si intende per evento.

Definizione 1.1 Un evento e` un ente logico che puo` assumere solo due valori: vero (V) o falso

(F). Inoltre la situazione sperimentale deve essere tale per cui, una volta eettuata la prova, si e`

in grado di verificare se levento si sia manifestato come V oppure come F.

Ad esempio, la proposizione {La squadra A vincera` il campionato nel 2010} e` un evento, che potra`essere dichiarato vero o falso nel mese di giugno del 2010. Al contrario, la proposizione {La talmoneta da` Testa con probabilita` 0.5 } non rappresenta un evento perch non siamo in grado diverificarne la verita` o meno: E` un evento invece il seguente {Nei prossimi dieci lanci, la tal monetafornira` 3 T e 7 C}:

Possiamo ora dare la definizione di probabilita` [25]:

Definizione 1.2 La probabilita` di un evento E, per un dato individuo, in un certo momento della

sua vita, e` il prezzo P (E) = p che egli ritiene giusto pagare (o ricevere da uno scommettitore) per

partecipare ad una scommessa in cui vincera` (o paghera`) 0 se E non si verifica oppure 1, qualora

E si verifichi.

E` importante sottolineare che lindividuo deve produrre lo stesso valore di p sia nelle vesti di

scommettitore che nel ruolo del Banco. Se ad esempio levento su cui scommettiamo e` A = {vincela squadra A} e Tizio ritiene che p = P (A) = 0.4 allora Tizio deve essere disposto a pagare 0.4 per ricevere 1 in caso di vittoria di A (e 0 altrimenti)

oppure

pagare 0.6 per ricevere 1 in caso di mancata vittoria di A (e 0 altrimenti)Ce` da notare che in questo modo la valutazione della probabilita` non dipende dallentita` della

posta in palio in quanto tutti ragionamenti fin qui esposti funzionano ugualmente se le poste ven-

gono moltiplicate per una somma S. Abbiamo gia` detto che la probabilita` e` soggettiva ma deve

rispettare una condizione di coerenza.
1.4 Definizione e condizione di coerenza 9

Definizione 1.3 . Una valutazione di probabilita` sugli n eventi E1, E2, , En si dice coerente senessuna combinazione di scommesse sugli eventi consente una vincita certa (indipendentemente

dagli eventi Ei, i = 1, , n, che si verificano eettivamente).Esempio 1.7

Consideriamo il caso di una corsa a cui partecipano n cavalli, e siano p1, p2, , pn le probabilita`di vittoria assegnate agli n cavalli. Consideriamo il caso in cui

p1 + p2 + + pn = C < 1;

Allora e` suciente scommettere una posta S su ogni cavallo partecipante alla gara per garantirsi

una vincita certa. Infatti la quota pagata per partecipare alle scommesse sara`

p1S + p2S + + pnS = CS < S

a fronte di una vincita certa pari a S (un cavallo vincera` certamente). Nella definizione di probabilita` non e` espressamente richiesto che la probabilita` di un evento debba

essere un numero compreso tra 0 e 1. Questo vincolo emerge naturalmente se pero` vogliamo che la

nostra probabilita` sia coerente. Infatti

Teorema 1.2 Condizione necessaria e suciente anch P (E) sia coerente e` che

0 P (E) 1

In particolare, se P (E) = 0, levento e` impossibile, se P (E) = 1, levento si dice certo.

Dimostrazione 1.2 Sia p = P (E) e assumiamo di scommettere una posta S sul verificarsi di E.

Quando E si verifica il guadagno ottenuto dalla scommessa e` W (E) = S pS = S(1 p). QuandoE non si verifica si ha invece W (E) = pS. Se prendiamo p < 0, allora basta scommettere unaquantita` S positiva per garantirci una vincita sicura. Se invece prendiamo p > 1, sara` suciente

prendere una posta S negativa (ovvero, invertire i termini della scommessa) per garantirci una

vincita certa.

Ne segue che 0 P (E) 1. Inoltre, se levento E e` certo si avra` certamente W (E) = (1 p)Se, per non avere vincite certe, deve per forza essere W (E) = 0, da cui p = 1; allo stesso modo si

verifica che p deve essere 0 nel caso di eventi impossibili.

E` possibile derivare, attraverso la condizione di coerenza tutte le piu` familiari regole del calcolo

delle probabilita`, come ad esempio il teorema delle probabilita` totali.

Meritano un discorso a parte le probabilita` condizionate che, nellimpostazione soggettiva, sono

considerate vere e proprie probabilita` ma riferite ad eventi subordinati (del tipo E1 | E2): in terminidi scommesse la probabilita` condizionata P ( | ) si definisce esattamente come nel caso precedentequando E2 si verifica, mentre non si procede alla scommessa (non si valuta la probabilita`) se, al

contrario, non si verifica E2.

Esempio 1.8

In una sala scommesse si accettano scommesse sullesito dellincontro di calcio tra la squadra A e

la squadra B. Gli esperti sostengono che il giocatore Pallino e` molto importante per la squadra A,

le cui probabilita` di vittoria sono molto diverse con Pallino in campo o meno. Siano E1 levento
10 1 Teorema di Bayes e probabilita` soggettiva

{Vince la squadra A} e E2 levento { Pallino gioca}. Uno scommettitore puo` decidere di pagareun prezzo p per partecipare ad una scommessa relativa allevento E1 | E2. In questo caso gli esitipossibili della scommessa sono:

Gioca Pallino e la squadra A vince: Tizio incassa 1; Gioca Pallino e la squadra A perde: Tizio incassa 0; Non gioca Pallino: la scommessa e` annullata e a Tizio viene restituita la posta p

Dalla precedente definizione di probabilita` condizionata discendono direttamente, attraverso la

condizione di coerenza, la legge delle probabilita` composte cos` come il Teorema di Bayes.

Problemi

1.1. Ogni giorno Mario tenta di comprare il quotidiano. Egli prova di mattina (M) con probabilita`

1/3, di sera (S) con probabilita` 1/2 oppure si dimentica del tutto (D) con probabilita` 1/6. La

probabilita` di trovare eettivamente il giornale (G) e` pari a 0.9 se va di mattina, 0.2 se va di sera

e, ovviamente 0 se non va aatto.

Una sera torna a casa e la moglie vede che Mario ha eettivamente comprato il giornale. Qual

e` la probabilita` che lo abbia comprato di mattina?

1.2. Una certa specie di criceti puo` nascere con il manto nero o marrone a seconda dellassociazione

tra due geni ognuno dei quali puo` assumere il valore A oppure B. Se i due geni sono simili (AA

oppure BB) il criceto e` omozigote, altrimenti e` detto eterozigote. Il criceto nasce marrone solo

se e` omozigote di tipo AA. Il figlio di una coppia di criceti porta con s i due geni, uno da ogni

genitore: se il genitore e` eterozigote il gene ereditato e` A o B con la stessa probabilita`; se il parente

e` omozigote, con probabilita` pari a 1, trasmette il suo unico gene. Supponiamo che un criceto nero

sia nato da una coppia di due eterozigoti.

(a) Qual e` la probabilita` che questo criceto sia omozigote?

Supponiamo ora che tale criceto sia poi accoppiato ad una cricetina marrone e che tale accoppia-

mento produca 7 figli, tutti neri

(b)Usa il teorema di Bayes per determinare la nuova probabilita` che lo stesso criceto risulti

omozigote.

1.3. Ogni mattina il lattaio ci lascia sulla porta di casa una bottiglia di latte. Egli riceve forniture

in eguale misura dalle centrali di Roma e Latina ed ogni mattina sceglie a caso la bottiglia che ci

lascia. Il latte di Roma raggiunge lebollizione in un tempo in minuti che puo` considerarsi una v.a.

N(2, 3) mentre quello di Latina ha un tempo di ebollizione pari ad una v.a. N(2.5, 4). Una certa

mattina cronometriamo il tempo necessario allebollizione del latte appena ricevuto e registriamo

2 minuti e 18 secondi. Qual e` la probabilita` che si tratti di latte di Roma?

1.4. Dimostrare il Teorema 1.1.
1.4 Definizione e condizione di coerenza 11

1.5. Ogni individuo appartiene ad uno dei quattro gruppi sanguigni O (si legge zero); A; B; AB.

In una popolazione le frequenze dei quattro gruppi sono rispettivamente O;A;B ;AB . Per poter

eseguire una trasfusione di sangue da un donatore a un ricevente occorre seguire regole specifiche:

O puo` ricevere solo da O; A puo` ricevere da O e da A; B puo` ricevere da O e da B; AB puo` ricevere

da O, da A, da B e da AB. Si dice anche che il gruppo O e` donatore universale e il gruppo AB e`

ricevente universale. Si estraggono a caso un donatore e un ricevente. Calcolare

(a) la probabilita` che la trasfusione sia possibile;

(b) la probabilita` che il ricevente sia di gruppo AB sapendo che la trasfusione e` possibile.

1.6. Un test radiologico per la tubercolosi ha esito incerto: la probabilita` che il test risulti positivo

su un malato e` 1; la probabilita` che il test risulti positivo su un non malato e` invece pari ad .La frequenza relativa o prevalenza di malati nella popolazione e` pari a . Un individuo, selezionato

a caso nella popolazione e sottoposto a test, risulta positivo. Qual e` la probabilita` che egli sia sano?

1.7. Lurna U1 contiene 1 pallina bianca e n1 palline nere; lurna U2 contiene n2 palline bianche e

1 nera. Si estrae a caso una pallina dallurna U1 e la si mette nellurna U2; poi si estrae a caso una

pallina dallurna U2 e la si mette nellurna U1. Trovare la distribuzione di probabilita` del numero

finale di palline bianche nellurna U1.

1.8. Durante un intero anno, il numero di rareddori che un individuo contrae puo` essere consider-

ato una v.a. X con distribuzione di Poisson di parametro 5. Viene immessa sul mercato una nuova

medicina: essa risulta ecace sul 75% della popolazione, e per tali persone il numero di rareddori

contratti in un anno, condizionatamente alluso della medicina, e` una v.a. di Poisson di parametro

3. Sul restante 25% della popolazione la medicina e` inecace. Se un individuo a caso prende la

medicina e in un anno ha due rareddori, qual e` la probabilita` che appartenga alla categoria di

persone su cui la medicina ha eetto?

1.9. Il 10% della popolazione sore di una seria malattia. Ad un individuo estratto a caso vengono

somministrati due test diagnostici indipendenti. Ciascuno dei due test fornisce una diagnosi corretta

nel 90% dei casi. Calcolare la probabilita` che lindividuo sia eettivamente malato nelle due ipotesi

alternative:

(a) entrambi i test siano positivi;

(b) un solo test sia positivo.

1.10. In una fabbrica di bibite, le bottiglie che essa stessa produce vengono sottoposte a un controllo

prima di essere riempite. Il 30% delle bottiglie prodotte sono difettose. La probabilita` che lispettore

si accorga che una bottiglia e` difettosa, e quindi la scarti, e` 0.9. Mentre la probabilita` che lispettore

giudichi erroneamente difettosa una bottiglia buona e` 0.2. Qual e` la probabilita` che una bottiglia

scartata sia difettosa? E la probabilita` che una bottiglia giudicata buona sia invece difettosa?

1.11. La moneta M1 da` testa con probabilita` 0.3, la moneta M2 con probabilita` 0.5 e la moneta

M3 con probabilita` 0.7. Viene scelta a caso una moneta e lanciata finche non si ottiene testa per

la seconda volta. Sapendo che la seconda testa si e` avuta al quinto tentativo, stabilire quale delle

monete ha la probabilita` piu` alta di essere stata lanciata.
12 1 Teorema di Bayes e probabilita` soggettiva

1.12. Si sappia che le donne in una specifica famiglia possono essere portatrici di emofilia con

probabilita` 0.5. Se la madre e` portatrice, allora i suoi figli maschi, indipendentemente l uno dall

altro, possono essere emofiliaci, ciascuno con probabilita` 0.5. Se la madre non e` portatrice, allora

i figli maschi non sono emofiliaci.

(a) Se il primo figlio maschio di una donna nella famiglia non e` emofiliaco, qual e` la probabilita` che

anche il secondo non sia emofiliaco?

(b) Se i primi due figli maschi di una donna della famiglia non sono emofiliaci, qual e` la probabilita`

che la madre sia portatrice di emofilia?
2Modello statistico e funzione di verosimiglianza

Questo capitolo va considerato come un breve compendio di inferenza classica che si prefigge due

obiettivi principali:

introdurre i concetti e gli strumenti matematici, con relativa notazione, che costituiscono la basedel metodo inferenziale e che vengono utilizzati sia in ambito classico che in ambito bayesiano;

rendere la lettura di questo testo il piu` possibile indipendente da nozioni di inferenza statisticapreliminari.

E` evidente pero` che quanto segue in questo capitolo non puo` considerarsi esauriente per una

competenza nelle discipline del calcolo di probabilita` e della statistica classica. Il lettore interessato

puo` consultare, ad esempio, [30] oppure [26] per una trattazione esauriente dei fondamenti del

calcolo delle probabilita` e [2] o [66] per quanto concerne linferenza non bayesiana.

2.1 Gli ingredienti di un modello statistico

Nel linguaggio comune un esperimento statistico viene percepito come losservazione parziale di un

fenomeno quantitativo, eettuata in modo da poter trarre informazioni anche sulla parte non osser-

vata. Tale percezione, troppo vaga, deve essere formalizzata in modo chiaro e privo di ambiguita`.

Cominciamo allora a definire lo spazio dei possibili risultati di un esperimento, ovvero linsieme di

tutte le possibili realizzazioni numeriche relative alla misurazione di un determinato fenomeno.

Definizione 2.1 Si definisce X linsieme di tutti i possibili risultati osservabili in un esperimento.Esempio 2.1 [Lancio di una moneta]

Se lesperimento consiste nel lancio di una moneta, i cui risultati possibili sono Testa (T) e Croce

(C), si avra` X = {T,C}; in genere si preferisce codificare i possibili risultati in modo numerico: adesempio si potrebbe porre T = 1 e C = 0, cosicch X = {1, 0}. Se la stessa moneta viene lanciataun numero n 1 di volte, allora lo spazio X sara` formato da tutte le nple i cui elementi possonoessere 0 oppure 1, ovvero

X =(

n volte 0, 0, , 0, 0), (

n-1 volte 0, 0, , 0, 1), , (

n volte 1, 1, , 1, 1)

.

In forma sintetica si puo` esprimere X come il prodotto cartesiano dellinsieme {0, 1} per s stessoripetuto n volte, ovvero X = {0, 1}n.
14 2 Modello statistico e funzione di verosimiglianza

Esempio 2.2 [Tempo di attesa]

Se invece lesperimento consiste nel misurare, in minuti, il tempo di attesa che trascorriamo una

certa mattina in banca prima che arrivi il nostro turno allo sportello, il risultato dellesperimento

potra` essere, in linea teorica qualunque valore reale positivo, cosicch X = R+. Una volta definito linsieme X , consideriamo la variabile aleatoria X il cui supporto, linsieme deivalori che puo` assumere, coincide con X . Per definire un modello statistico occorre selezionare uninsieme di leggi di probabilita`, una delle quali si assume che sia la vera legge di probabilita` di X.

Definizione 2.2 Si definisce P la famiglia di tutte le possibili leggi di probabilita` associabili allavariabile aleatoria X.

Esempio 2.1 (continua). In questo caso X puo` assumere solo i valori 0 e 1. E` ragionevole assumere

allora che, fissato un valore [0, 1], si abbia P (X = 1; ) = e, di conseguenza, P (X = 0; ) =1 . In questa formalizzazione, gioca il ruolo di parametro incognito. In questo caso si avra`

P = {P (; ) : P (X = 1; ) = , [0, 1]} ;

in altri termini si assume per X un modello di tipo Bernoulliano, la cui distribuzione generica verra`

indicata col simbolo Be(). Puo` accadere che il risultato dinteresse dellesperimento non sia quello della variabile aleatoria X,

bens` quello di una sua funzione t(X).

Definizione 2.3 Con riferimento allo spazio dei risultati X si chiama statistica ogni funzione

t : X Rk, k 1,

che associa ad ogni punto x X , una funzione a k valori

t(x) = (t1(x), t2(x), , tk(x)) .

Esempio 2.1 (continua). Supponiamo ora che la stessa moneta venga lanciata n volte e i lanci,

condizionatamente al valore di , siano indipendenti. Questo schema e` tra i piu` frequenti nella

pratica statistica: puo` essere utilizzato tutte le volte in cui si eettuano prove ripetute di un

esperimento che fornisce risposte dicotomiche (successo o insuccesso, favorevole o contrario, sopra o

sotto una determinata soglia, etc.); quasi sempre, in questo tipo di esperimenti, la variabile aleatoria

osservabile dinteresse e` rappresentata da Y = {numero totale di successi} o, se vogliamo, Y ={numero di 1 nella npla osservata}. Il modello naturale di riferimento e` allora quello Binomiale,che indicheremo col simbolo Bin(n, ): assumeremo cioe` che lo spazio dei possibili risultati sia

relativo alla variabile aleatoria Y , ovvero

Y = {0, 1, 2, , n} ,

mentre la famiglia P e` costituita da tutte le leggi di probabilita` binomiali Bin(n, ), con n fissatopari al numero di prove ripetute e [0, 1],

P ={p(; ) : P (Y = y;n, ) =

(n

y

)y (1 )ny , [0, 1]

}.

Riprenderemo queste idee nella 2.4 quando si introdurra` il concetto di sucienza.
2.2 La funzione di verosimiglianza 15

Negli esempi precedenti il numero di leggi di probabilita` in P e` pari al numero dei punti cheformano lintervallo [0, 1]; esiste cioe` una corrispondenza biunivoca tra linsieme P e lintervallochiuso [0, 1] che prende il nome di spazio parametrico.

Definizione 2.4 Si definisce spazio parametrico, e verra` indicato con il simbolo , linsieme

dei valori assumibili dal parametro .

Definizione 2.5 Si definisce modello statistico e si indica col simbolo E, la terna

E = (X ,P,) . (2.1)

Ogni volta che faremo riferimento ad un modello statistico, assumeremo implicitamente che il

modello in questione sia identificabile.

Definizione 2.6 Un modello statistico si dice identificabile se comunque consideriamo due mis-

ure di probabilita` della famiglia P, P (,1) e P (,2), con 1 = 2, e` possibile individuare almenoun sottoinsieme E X per il quale

Pr (E; 1) = Pr (E;2) . (2.2)

Tutte le volte che e` rappresentabile come un sottoinsieme dello spazio euclideo Rk, per qualche

k intero, parleremo di modello parametrico; altrimenti si dice che il modello e` non parametrico.

Esempio 2.3 [Modello non parametrico]

Sia X il tempo di durata di una certa lampadina e consideriamo, come possibili leggi di probabilita`

su X = (0,), tutte quelle dotate di densita` di probabilita` decrescente in X . In questo caso non e`possibile individuare la singola legge di probabilita` in P attraverso un numero finito di parametri:si tratta dunque di un problema di inferenza non parametrica. In questo testo ci occuperemo quasi esclusivamente di modelli parametrici: alcuni esempi di

inferenza non parametrica secondo un approccio bayesiano verranno discussi nella ??. ?.?.Una volta definito il modello statistico, viene concretamente eettuato lesperimento statistico

e la realizzazione (X = x0) viene utilizzata per estrarre informazioni su quale, tra le possibili leggi

in P, abbia realmente operato nel generare x0.

2.2 La funzione di verosimiglianza

La trattazione che segue dovrebbe soermarsi su alcuni aspetti matematici non del tutto trascur-

abili. Tuttavia per perseguire lobiettivo di mantenere una certa agilita` del testo, faremo delle as-

sunzioni semplificatrici. Assumeremo allora che la famiglia P di leggi di probabilita` che costituisceil modello statistico possa essere di due tipi:

Tutte le leggi in P sono assolutamente continue, ovvero dotate di una funzione di densita` f(; ),non negativa su X Rn, per qualche n e per ogni possibile valore di .

Tutte le leggi in P sono di tipo discreto, ovvero, per ogni , i valori che la variabile aleatoriaX assume con probabilita` positiva sono al piu` un insieme numerabile. In questo caso la generica

distribuzione di probabilita` di X si indica col simbolo p(; ).
16 2 Modello statistico e funzione di verosimiglianza

Per ulteriori approfondimenti su tali aspetti si possono consultare diversi testi che approfondiscono

a diversi livelli largomento. Suggeriamo [30] per gli aspetti probabilistici e [2] o [68] per le

implicazioni inferenziali.

Assumere un modello statistico corrisponde a limitare la scelta fra le possibili leggi aleatorie che

descrivono il fenomeno osservabile alla famiglia di distribuzioni P o, analogamente, allinsieme delleetichette . Occorre ora stabilire in che modo il risultato osservato dellesperimento (X = x0)

fornisca supporto ai diversi elementi di . Consideriamo il seguente esempio binomiale.

Esempio 2.4 [Verosimiglianza binomiale]

Una moneta da` Testa (oppure il valore 1) con probabilita` incognita ; essa viene lanciata n = 10

volte e i lanci possono essere considerati indipendenti condizionatamente al valore di . Per sem-

plicita` di esposizione supponiamo che possa assumere i soli valori = {0, 0.1, 0.2, , 0.9, 1}. Ilrisultato dellesperimento, ovvero il numero di Teste ottenute in dieci lanci, e` allora, per ogni valore

fissato di , una variabile aleatoria di tipo Bin(10, ). Prima di osservare il risultato dellesperi-

mento e` possibile elencare, per ogni , la legge di probabilita` di Y . La righe della Tabella 2.1mostrano tutte le possibili leggi di probabilita` della variabile aleatoria Y secondo i diversi valori di

.

Pr (Y = y)

0 1 2 3 4 5 6 7 8 9 10

0 1 0 0 0 0 0 0 0 0 0 0

0.1 0.348 0.387 0.193 0.057 0.011 0.001 0 0 0 0 0

0.2 0.107 0.268 0.302 0.201 0.088 0.026 0.005 0.0007 0 0 0

0.3 0.028 0.121 0.233 0.267 0.200 0.103 0.037 0.009 0.001 0 0

0.4 0.006 0.040 0.121 0.215 0.251 0.201 0.111 0.042 0.010 0.001 0

0.5 0.0009 0.010 0.044 0.117 0.205 0.246 0.205 0.117 0.044 0.010 0.0009

0.6 0 0.001 0.010 0.042 0.111 0.201 0.251 0.215 0.121 0.040 0.006

0.7 0 0 0.001 0.009 0.037 0.103 0.200 0.267 0.233 0.121 0.028

0.8 0 0 0 0.0007 0.005 0.026 0.088 0.201 0.302 0.268 0.107

0.9 0 0 0 0 0 0.001 0.011 0.057 0.193 0.387 0.348

1 0 0 0 0 0 0 0 0 0 0 1

Tabella 2.1. Distribuzioni di probabilita` di Y per diversi valori di

Supponiamo ora che lesperimento fornisca il risultato {Y = y0 = 7}. E` ragionevole alloraconsiderare, nella tabella, solo i valori della colonna corrispondente allevento osservato1 {Y = 7}e interpretare come misure dellevidenza che {Y = 7} fornisce ai diversi valori di , le probabilita`che aveva levento Y = 7 di verificarsi secondo i vari . In altre parole i valori della colonna della

tabella relativa a {Y = 7} ci dicono quanto sono verosimili i valori di alla luce del risultatoosservato. Cos`, ad esempio, quando si osservano 7 Teste su 10 lanci, il fatto che la moneta sia

regolare ( = 0.5) ha una verosimiglianza pari a 0.117, mentre lipotesi che la moneta sia distorta

e fornisca testa nel 60% dei casi viene valutata con una verosimiglianza superiore, pari a 0.215.

1 Alcune scuole inferenziali, prima fra tutte quella classica, basate sulla teoria di Neyman e Pearson,

propongono metodi inferenziali che sono in chiaro contrasto con tale ragionevole considerazione; non

approfondiremo qui tali aspetti fondazionali: il lettore interessato puo` consultare [68]
2.2 La funzione di verosimiglianza 17

Detto in altro modo equivalente, il valore ( = 0.6) e`

Pr (Y = 7; 0.6)

Pr (Y = 7; 0.5)=

0.215

0.117= 1.838

volte piu` verosimile del valore = .0.5. Tuttavia, nella pratica statistica, linsieme non e` composto da un numero finito di possibili valori

di e un approccio tabellare non e` piu` possibile: la naturale estensione del ragionamento precedente

conduce alla definizione della cosiddetta funzione di verosimiglianza [2].

Definizione 2.7 Con riferimento al modello statistico (2.1), si chiama funzione di verosimiglianza

associata al risultato X = x0 la funzione L : [0,) che associa, ad ogni valore di ,la probabilita` p(X = x0; ) (nel caso discreto) oppure la densita` di probabilita` f(x0; ) (nel caso

assolutamente continuo).

Esempio 2.4 (continua). Consideriamo ora il caso in cui e` lintervallo chiuso [0, 1]. P er n = 10

e y0 = 7 la funzione di verosimiglianza vale

L() = Pr (Y = 7; ) =

(10

7

)7(1 )3, (2.3)

e viene rappresentata nella Figura 2.1(b); nella Figura 2.1(d) viene considerato il caso con n = 50

e y0 = 35.

Esempio 2.5 [Verosimiglianza normale]

Si osservano n replicazioni (X1, X2, , Xn) di una variabile aleatoria X N(,20), che, per fissato, risultano indipendenti; il valore di 20 va considerato, per semplicita`, noto. La realiz-

zazione dellesperimento consiste in un vettore di osservazioni z0 = (x1, x2, , xn). La funzione diverosimiglianza e` allora definita come

L() = f(z0;) =nj=1

f(xj ;) =nj=1

1

02

exp

{ 1220

(xj )2}.

Attraverso semplici elaborazioni algebriche si puo` scrivere, denotando con x la media campionaria

osservata e con s2 =n

j=1(xj x)2/n la varianza campionaria osservata,

L() =1

n0 (2)n/2

exp

1220

nj=1

(xj )2

=1

n0 (2)n/2

exp

1220

nj=1

(xj x+ x )2

=1

n0 (2)n/2

exp

1220

nj=1

(xj x)2 + n(x )2 ,

da cui finalmente,

L() =1

n0 (2)n/2

exp

{ n220

[s2 + (x )2]} . (2.4)

La figura 2.1, nel riquadro (a) mostra il grafico della L() nel caso particolare in cui n = 10, 20 = 4

e le osservazioni sono

z0 = (2.71, 3.53, 3.76, 3.24, 2.73, 2.36, 1.66, 3.97, 2.89, 1.52) ,
18 2 Modello statistico e funzione di verosimiglianza

con x = 2.84 e s2 = 0.61. Nel riquadro (c) e` invece proposta la funzione di verosimiglianza per lo

stesso contesto, ma ottenuta da un campione di n = 50 osservazioni che hanno fornito una media

campionaria pari a x = 3.15. Lesempio precedente suggerisce alcune considerazioni, di natura generake.

1. La funzione di verosimiglianza e` definita a meno di una costante.

La funzione di verosimiglianza stabilisce un sistema di pesi relativi con cui viene misurata levidenza

a favore dei vari valori di . Se la L() viene moltiplicata per un termine c(x0) dipendente dal

campione osservato, ma non dal parametro , il contributo informativo relativo resta inalterato.

Ad esempio, nel precedente esempio, dove il parametro dintereesse era la media , possono essere

eliminati dalla (2.4) tutti i fattori che non coinvolgono e scrivere semplicemente

L() exp{ n220

(x )2}. (2.5)

In alcuni casi per risolvere questa indeterminazione e, allo stesso tempo, avere a disposizione un

indicatore di evidenza che assuma un ben preciso range di valori si preferisce utilizzare la versione

relativa della funzione di verosimiglianza, LR(), che si ottiene semplicemente dividendo L() per

il suo valore massimo, a patto che questo risulti finito: si ottiene cos`

LR() =L()

sup L(). (2.6)

In questo modo si ottiene che 0 LR() 1, per ogni , e LR() puo` a ben diritto essereconsiderata come un indice di evidenza sperimentale a favore di , basato sullosservazione campi-

onaria.

2. La funzione di verosimiglianza non e` una distribuzione di probabilita`.

Il sistema di pesi relativo costituito da L(), oppure da LR() non rappresenta una distribuzione

di probabilita` su . Va sottolineato che, in una impostazione classica dellinferenza, e` il risultato

sperimentale X e non il parametro ad essere considerato aleatorio. Se riconsideriamo la Tabella

2.1 si puo` notare che, mentre le righe rappresentano le distribuzioni di probabilita` della variabile

aleatoria Y sotto i diversi valori di (e, come tali, sommano a 1), le colonne rappresentano le pos-

sibili funzioni di verosimiglianza associate ai possibili risultati dellesperimento, e nulla le vincola

ad avere somma unitaria.

2.3 Uso inferenziale di L()

La funzione di verosimiglianza e` lo strumento attraverso cui vengono soppesati i diversi valori dei

parametri. Attraverso di essa e` possibile produrre sintesi inferenziali di diverso tipo. Ad esempio e`

naturale considerare come stima puntuale del parametro incognito , largomento che massimizza

la funzione L().

2.3.1 Stime di massima verosimiglianza

Definizione 2.8 Si chiama stima di massima verosimiglianza il valore tale che

L() L(), = .
2.3 Uso inferenziale di L() 19

2 0 2 4 6 8

0 e

+00

2 e

08

4 e

08

(a)

L(

)

0.0 0.2 0.4 0.6 0.8 1.0

0.0

00.0

50.1

00.1

50.2

00.2

5

(b)

L(

)

2 0 2 4 6 8

0.0

e+

00

1.0

e

42

2.0

e

42

(c)

L(

)

0.0 0.2 0.4 0.6 0.8 1.0

0.0

00.0

20.0

40.0

60.0

8

(d)

L(

)

Figura 2.1. Funzioni di verosimiglianza per gli esempi normale (casi (a) e (c)) e binomiale ((b) e (d))

Va detto che il valore non necessariamente esiste n tanto meno e` unico. E` facile costruire esempi

in cui, ad esempio, la funzione di verosimiglianza risulta illimitata: si veda [2]. Nei modelli piu`

frequentemente usati, e` facile ottenere il valore , attraverso la massimizzazione analitica della

funzione di log-verosimiglianza definita come il logaritmo della funzione di verosimiglianza. Nel caso

frequente di un campione di osservazioni (x1, x2, , xn), realizzazioni indipendenti e somigliantidi una variabile aleatoria X con funzione di (densita` di) probabilita` f(; ) si avra`

() = logL() =nj=1

log f(xj ; ). (2.7)

Esempio 2.6 [Modello esponenziale]

La durate delle telefonate che il centralino dellUniversita` di Roma La Sapienza riceve quotidi-

anamente possono essere considerate variabili aleatorie indipendenti con distribuzione Esp(). Per

acquisire informazioni sul parametro incognito si registra la durata di n = 10 telefonate ricevute

in un certo intervallo di tempo.

La formulazione matematico-statistica del contesto descritto e` allora:

X1, X2, , Xn iid Esp(),

ovvero ogni singola Xj ha funzione di densita`

f(x; ) = exp {x}1(0,)(x), > 0,
20 2 Modello statistico e funzione di verosimiglianza

dove il simbolo 1A(x) rappresenta la funzione indicatrice dinsieme, che vale 1 per ogni x A e 0altrove. La funzione di verosimiglianza associata allesperimento e`

L() =nj=1

f(xj ; ) = n exp

nj=1

xj

, > 0,

e la conseguente funzione di log-verosimiglianza risulta pari a

() = n log() nj=1

xj = n log() nx,

dove x e` la media campionaria; e` facile ora massimizzare ():

()

=n

nx = 0,

da cui risulta che il valore = 1/x e` uno zero della della derivata prima di (). Che sia eettiva-

mente un punto di massimo lo si deduce dal fatto che la derivata seconda di () e` negativa per ogni

valore di > 0. Dunque la stima di massima verosimiglianza per il parametro di una distribuzione

esponenziale e` pari al reciproco della media campionaria. Nella 2.8 discuteremo brevemente leproprieta` frequentiste delle procedure basate sulla massimizzazione di L().

2.3.2 Stima per intervalli

Quando esiste, la versione relativa della funzione di verosimiglianza, LR(), rappresenta un sistema

di pesi compresi tra 0 e 1. Un intervallo di verosimiglianza puo` allora essere costituito da tutti i

valori di per i quali la funzione di verosimiglianza relativa e` non inferiore ad una certa soglia.

Possiamo cos` definire intervallo di verosimiglianza di livello k, con k [0, 1], linsieme

Lk = { : LR() k} .

Non esiste un criterio oggettivo per la scelta di k. Fisher (???) propose lutilizzo delle soglie 1/20,

1/100. Tuttavia, queste scelte convenzionali non hanno riscosso lo stesso successo di altri valori

altrettanto convenzionali che vengono quotidianamente utilizzati nella pratica statistica come il

livello di significativita` del 5% nella verifica di ipotesi (vedi oltre)????

Esempio.[Verosimiglianza normale] (continua). In questo contesto la verosimiglianza (2.5)

calcolata in vale 1 cosicch LR() = L(). Linsieme Lk e`

Lk ={ IR : exp

{ n220

(x )2} k

},

che puo` analogamente essere scritto come{ IR : n(x )

2

20 k

},

con k = 2 log k; ne consegue facilmente allora che

Lk =(x

2 log k

n0, x+

2 log k

n0

).
2.3 Uso inferenziale di L() 21

Nellambito della statistica classica esiste comunque una teoria alternativa alla costruzione di

stime intervallari, che non si basa sulla espressione della funzione di verosimiglianza osservata bens`

sulla distribuzione campionaria degli stimatori puntuali di e che prende il nome di regioni di

confidenza. Torneremo su questi aspetti nella 2.8.2.La struttura di Lk e` cos` identica a quella di un intervallo di confidenza: e` possibile associare

ad ogni livello k il corrispondente livello di confidenza 1 [68]. Va da s che questa completacoincidenza operativa tra le soluzioni classiche e quelle basate sulla funzione di verosimiglianza si

verifica solo in pochi casi, soprattutto quando si adotta il modello normale. Ritorneremo su questi

aspetti nella 6.2 a proposito degli intervalli di stima di tipo bayesiano.

Alcuni esempi

Concludiamo questa sezione con alcuni esempi di utilizzo della funzione di verosimiglianza in

contesti leggermente piu` complessi.

Esempio 2.7 [Modelli cattura-ricattura]

Dopo unindagine censuaria nella citta` XXX, il cui obiettivo specifico e` di rilevare tutte le unita`

della popolazione di riferimento, una specifica circoscrizione della citta`, diciamo yy, viene analizzata

nuovamente e con maggior impegno, per rilevare tutte le unita` abitanti in quella zona: lobiettivo

della seconda indagine e` di produrre una stima dellecacia dellindagine censuaria, attraverso la

stima del suo livello di copertura, ovvero la stima della percentuale degli individui catturati

nella prima indagine. Sia N il numero incognito di unita` che vivono nella circoscrizione yy, e sia

n1 il numero di persone rilevate dallindagine censuaria nella circoscrizione stessa. Nella seconda

rilevazione vengono catturati n2 individui, dei quali m erano gia` stati osservati nella prima

occasione, mentre gli altri n2m risultano nuove catture. Per semplicita` di esposizione assumiamoche ogni individuo abbia la stessa probabilita` p di essere catturato in ogni occasione2 e che tale

probabilita` sia uguale per tutti gli individui.

Consideriamo allora come realizzazione dellesperimento la terna (N1, N2,M). La loro dis-

tribuzione congiunta, per un valore fissato di N e P , e` data da

p(n1, n2,m;N, p) = p(n1;N, p)p(n2;n1, N, p)p(m;n1, n2, N, p);

il primo fattore, la legge di n1, e` di tipo Bin(N, p) (ogni tentativo di cattura degli N individui e`

una prova bernoulliana con probabilita` di successo pari a p); il secondo fattore, per lindipendenza

delle due occasioni di cattura, non dipende da n1 ed e` ancora di tipo Bin(n, p); infine la legge di

m condizionata ad (n1, n2) non dipende da p ed ha distribuzione ipergeometrica, ovvero

Pr (M = m | n1, n2, N, p) =(N n1n2 m

)(n1m

)/

(N

n2

).

Ne segue che, dopo facili semplificazioni,

L(N, p) (N

n1

)(N n1n2 m

)pn1+n2(1 p)2Nn1n2

N !(N +m n1 n2)!p

n1+n2(1 p)2Nn1n2 (2.8)2 questa assunzione e` chiaramente poco realistica; ad esempio, quando si applicano modelli del genere al

problema della stima di popolazioni animali, e` ragionevole supporre che individui piu` deboli siano piu`

facilmente catturabili.
22 2 Modello statistico e funzione di verosimiglianza

Per ottenere una stima di N si puo` ad esempio considerare la funzione di verosimiglianza calcolata

in p = pN , ovvero sostituendo a p la sua stima di massima verosimiglianza assumendo N noto.

Si vede facilmente che che pN = (n1 + n2)/(2N). Questo modo di agire conduce alla cosiddetta

funzione di verosimiglianza profilo, sulla quale torneremo piu` avanti, che in questo esempio e` pari

a

L(N) =N !

(N +m n1 n2)!(2N n1 n2)2Nn1n2

(2N)2N

che puo` essere massimizzata numericamente. Consideriamo un esempio in cui, la prima cattura con-

duce ad identificare n1 = 40 individui, la seconda cattura conduce a n2 = 30, dei quali m = 25 gia`

osservati nella prima occasione. Si ha dunque pN = 55/(2N), mentre la funzione di verosimiglian-

za profilo e` ragurata nella figura 2.2. Il valore piu` verosimile appare chiaramente N = 48, che

produce una stima del livello di copertura pari a p = 55/96 = 0.572.

44 46 48 50 52 54 56 58

0.0

0.2

0.4

0.6

0.8

1.0

Verosimiglianza profilo relativa per N

N

L(N

)

Figura 2.2. Verosimiglianza profilo e curve di livello per la funzione di verosimiglianza bivariata per

lEsempio 2.7; dal secondo grafico si puo` notare linformazione sui due parametri sia dicilmente separabile

Esempio 2.8 [Osservazioni a informazione limitata].

[67], pag.24, considera il seguente esempio di tipo bernoulliano: si lancia n volte una moneta che da`

testa (T) con una certa propensione incognita , e i lanci possono essere considerati indipendenti.

Il risultato dellesperimento e` la realizzazione della v.a. X =numero di T in n lanci; tuttavia tale

valore non viene reso noto con precisione, e si sa soltanto che il valore osservato di X risulta minore

o uguale ad m, con m n. La funzione di verosimiglianza per associata a tale esperimento, omeglio al contenuto informativo dellesperimento, cioe` il valore m, e` allora

L() = P (X m; ) mk=0

(n

k

)k (1 )nk . (2.9)
2.4 Sucienza 23

Una funzione di verosimiglianza approssimata L() e` ottenibile attraverso lapprossimazione

normale alla distribuzione binomiale. Poich X Bin(n, ), si vede facilmente che

L()

Top Related

ALLAN BAY-RISTORANDI da VIVI_MILANOaggio_2011

HERMI TAGE BAY - Visit Antigua & Barbudavisitantiguabarbuda.com/wp-content/uploads/Hermitage-Bay-Italian.pdfavventura di Hermitage Bay ha inizio nel 2000, a Londra, quando un imprenditore

Sommario - kids.bo.cnr.itkids.bo.cnr.it/irrsaeer/rivista/numero2-06.pdf · fre di enciclopedismo e di verbalismo che contrassegnano da sempre i suoi Programmi ministeriali. ... Liseo

TEC EN ADMON TURISTICA - usap.edu©cnico...MANDALAY BAY MANDALAY BAY . Title: TEC EN ADMON TURISTICA Created Date: 5/6/2015 3:43:09 PM

DISPENSA DI MATEMATICA - scaruffilevitricolore.edu.itscaruffilevitricolore.edu.it/attachments/article/941/dispensa... · DISPENSA DI MATEMATICA . ... «Moltiplica per 5 la differenza

Salamis Bay Conti

Dispensa PID

Una dispensa - progettazioneurbanistica.files.wordpress.com · Una dispensa Questo libro è una dispensa. Una dispensa è un pezzetto di un’opera in costruzione, che quando sarà