+ All Categories
Home > Documents > Elementi di Statistica Matematica - bassetti/didattica/statmat/stat2013-14.pdf · Sommario. Questi...

Elementi di Statistica Matematica - bassetti/didattica/statmat/stat2013-14.pdf · Sommario. Questi...

Date post: 07-Sep-2019
Category:
Upload: others
View: 11 times
Download: 0 times
Share this document with a friend
123
Appunti del corso “Elementi di Statistica Matematica” Corso di laurea in Matematica, Universit` a degli Studi di Pavia. Federico Bassetti E-mail address : [email protected]
Transcript

Appunti del corso

“Elementi di Statistica Matematica”

Corso di laurea in Matematica,

Universita degli Studi di Pavia.

Federico Bassetti

E-mail address: [email protected]

Sommario. Questi appunti nascono dalla giustapposizione di vario ma-teriale che nel corso degli ultimi 6 anni ho usato per tenere corsi diStatistica Matematica e Statistica Bayesiana. In questa ultima versioneil materiale e stato ridotto e modificato per farne un corso adatto allalaurea triennale, levando tutto cio che richiedeva elementi di teoria dellaprobabilita avanzata.

La prima importante osservazione e:QUESTI APPUNTI NON POSSONO SOSTITUIRE UN TESTO

PIU’ ORGANICO DI STATISTICA!!Gli studenti sono caldamente invitati a consultare• Bickel, P. J., Doksum, K. A.: ”Mathematical statistics”, Prentice-

Hall, 2001,• Morris H. DeGroot, Mark J. Schervish. Probability and Statistics

(4th Edition) Pearson Education,oltre al resto del materiale messo sul sito.

Genesi: i capitoli 4,6 nascono da una iper-semplificazione di appuntipresi da me e da Valentina Leucari durante un corso di dottorato tenutodal Prof. E.Regazzini. Preciso pero che degli appunti originari nonrimane molto. Il capitolo 5 e in parte tratto dagli appunti del corso diRegazzini e in parte dal Bickel e Doksum (2001).I Capitoli 7,9,10 e 11sono sostanzialmente basati Bickel e Doksum (2001).

Naturalmente, tutti gli errori sono da imputare solo a me.Federico Bassetti

Bibliografia

[1] J.M. Bernardo and A. F. M. Smith. Bayesian theory. Wiley Series inProbability and Mathematical Statistics: Probability and MathematicalStatistics. John Wiley & Sons Ltd., Chichester, 1994.

[2] P. J. Bickel and K. A. Doksum. Mathematical statistics. Holden-Day Inc.,San Francisco, Calif., 1976. Basic ideas and selected topics, Holden-DaySeries in Probability and Statistics.

[3] Patrick Billingsley. Probability and measure. Wiley Series in Probabilityand Mathematical Statistics. John Wiley & Sons, Inc., New York, thirdedition, 1995. A Wiley-Interscience Publication.

[4] P. Diaconis and D. Ylvisaker. Conjugate priors for exponential families.Ann. Statist., 7(2):269–281, 1979.

[5] J. K. Ghosh, M. Delampady, and T. Samanta. An introduction to Baye-sian analysis. Springer Texts in Statistics. Springer, New York, 2006.Theory and methods.

[6] Olav Kallenberg. Foundations of modern probability. Probability andits Applications (New York). Springer-Verlag, New York, second edition,2002.

3

CAPITOLO 1

Introduzione, notazioni, esempi

1. Dati

Esperimenti e studi producono dati. Sono dati, ad esempio, le misura-zioni di una concentrazione di un agente chimico o biologico in un mezzoliquido o gassoso (sangue, acqua, aria, gas di scarico di un’automomile...);sono dati le misurazioni di una distanza fra due corpi celesti, le misurazionidella velocita di un oggetto o della durata di un fenomeno, le misurazio-ni del tempo che intercorre fra due fenomeni periodici. Sono dati l’eta, lepreferenze politiche, il reddito degli individui in una popolazione, l’intensitadei terremoti negli ultimi cento anni in Italia, il numero di sinistri fra gliassicurati di una compagnia in un anno, i tassi di rendita delle banche, itassi di cambio, il valore all’apertura della borsa delle azioni negli ultimi tremesi, la struttura del genoma, le sequenza del DNA.

I dati sono (o dovrebbero essere) le fondamenta di ogni scienza. Natural-mente, pero, i dati da soli non dicono nulla. I dati vanno letti ed interpretatie, quando possibile, usati per validare o smentire una teoria.

2. Apprendimento e statistica matematica

La statistica costituisce uno degli strumenti per dedurre dai dati infor-mazioni ”generali” e per verificare se una teoria o un modello siano adatti aspiegare o a descrivere un certo fenomeno. La statistica fornisce un metodo(o, meglio, vari metodi) per organizzare i dati in modo razionale e coerentee per usarli per prendere decisioni in situazioni di incertezza.

La statistica matematica assume come ipotesi che i dati siano realizza-zioni di fenomeni aleatori.

Questo non vuole dire che i dati reali siano ”davvero” realizzazionidi un fenomeno aleatorio, ma semplicemente che pensarli come tali aiu-ta ad organizzare il nostro processo di comprensione e di apprendimentodall’esperienza.

”Models, of course, are never true but fortunately it is only necessarythat they be useful.” George Box (1979)

5

6 1. INTRODUZIONE, NOTAZIONI, ESEMPI

In breve, la statistica puo essere considerata uno strumento per prenderedelle decisioni e per dare delle valutazioni su fenomeni futuri (o non ancoraosservati) non determinabili con certezza.

3. Esempi introduttivi

Esempio 1. Supponiamo di dover controllare la qualita di una massa dipezzi prodotti in serie tramite un’ispezione campionaria (n pezzi). Ciascunpezzo puo risultare difettoso (1) oppure idoneo (0). Se si esegue l’ispezionecon la modalita delle estrazioni con restituzione e le estrazioni avvengonoin condizioni analoghe, indicata con θ la frazione dei difettosi nell’interamassa, la probabilita di avere una specifica successione (x1, . . . , xn) di 0, 1,e uguale a

n∏i=1

θxi(1− θ)1−xi .

Sulla base del campione osservato in che modo possiamo dare una valutazio-ne della qualita del prodotto, ossia di θ? Entro che limiti e sensato utilizzarecome stima di θ

νn =1

n

n∑i=1

xi?

Esempio 2. Si effettuano n misurazioni di una grandezza fisica m conuno strumento che fornisce letture con un certo errore. Se denotiamo conei l’errore commesso nella lettura i–esima xi, allora

xi = m+ ei (i = 1, . . . , n).

Se le misurazioni si effettuano nelle stesse condizioni ambientali, e ragio-nevole considerare ei come realizzazioni di variabili aleatorie εi indipendentied identicamente distribuite. Un’ipotesi classica e considerare εi variabi-li aleatorie con distribuzione Gaussiana di media nulla e varianza (nota oincognita) σ2, ossia variabili aleatorie caratterizzate dalla densita

y 7→ 1√2πσ2

exp

− 1

2σ2y2

.

Supponendo noto σ2 come possiamo stimare m? Come possiamo valutarel’errore che rischiamo di commettere con questa valutazione? Come possia-mo procedere nel caso in cui σ non sia noto? E se fossimo interessati astimare σ invece di m?

Esempio 3. Un produttore di batterie dichiara che la durata in vita diciascuna batteria e di almeno θ0 giorni. Un acquirente di tali batterie einteressato ad accertare se la precedente affermazione possa intendersi co-me sostanzialmente veritiera oppure no. Un modo ragionevole di procedere,per l’acquirente, potrebbe essere quello di osservare la durata effettiva di n

4. CAMPIONI GAUSSIANI 7

batterie e, ad esempio, sulla base della media osservata decidere se gli con-venga comportarsi come se la durata ”reale” delle batterie θ risultasse noninferiore a θ0 oppure come se θ risultasse minore di θ0.

Esempio 4. Per testare l’efficacia di un farmaco contro l’insonnia si pro-cede come segue. Si forma un campione di n = 100 persone e lo si sottoponeal seguente esperimento. Per ogni soggetto i (i = 1, . . . , n), vengono registra-te le ore di sonno in una notte senza l’assunzione del farmaco (x1,i) e in unanotte dopo l’assunzione del farmaco (x2,i). Per tanto xi = x1,i − x2,i indicala differenza fra le ore di sonno senza assunzione del farmaco e quelle dopol’assunzione del farmaco nel soggetto i–esimo. Come utilizzare (x1, . . . , xn)per decidere se riterere efficace o meno il farmaco?

Esempio 5. [Feller Vol. I] Si supponga che in un lago siano catturati1000 pesci e che, dopo la cattura, vengano segnati con della vernice rossa edinfine vengano rilasciati. Dopo un po’ di tempo viene eseguita una nuovacattura di 1000 pesci e si scopre che 100 fra essi sono marchiati con la ver-nice rossa. Che conclusione puo essere tratta riguardo al numero di pescipresenti nel lago? Assumiamo naturalmente che le due catture possano es-sere considerate come estrazioni casuali dalla popolazione totale di pesci nellago. Supponiamo anche che il numero di pesci nel lago non vari fra unacattura e l’altra. Generalizzando il problema siano: n il numero (incognito)di pesci nel lago, n1 il numero di pesci nella prima cattura, r il numero dipesci nella seconda cattura, k il numero di pesci marcati nella seconda cat-tura. Ovviamente la probabilita che il numero di pesci rossi nella secondacattura sia k e data da (

n1

k

)(n−n1

r−k)(

nr

) .

Sappiamo che n1+r−k pesci diversi sono stati catturati, e quindi n ≥ n1+r−k. Questo e tutto cio che possiamo dire con certezza. Nel nostro esempiopossiamo dire che il numero dei pesci e maggiore di 1900? Ipotizziamoora che il numero dei pesci sia effettivamente 1900. Sotto questa ipotesi laprobabilita di aver ripescato 100 pesci marcati sarebbe dell’ordine di 10−430.Per tanto, presumibilmente, tutti sarebbero disposti a ritenere irragionevolecomportarsi come se in effetti il lago contenga 1900 pesci.

4. Campioni gaussiani

Prima di procedere con una trattazione sistematica di alcuni argomen-ti di statistica matematica ci proponiamo in questa sezione di ricapitolarealcuni risultati classici sui campioni gaussiani che saranno utili in seguitocome spunto e come illustrazione di risultati generali.

Nel resto della sezione

ξ1, . . . , ξn

8 1. INTRODUZIONE, NOTAZIONI, ESEMPI

sono da intendersi come variabili aleatorie indipendenti e identicamentedistribuite con legge gaussiana di media m e varianza σ2.

4.1. Stima della media con varianza nota. Supponiamo noto σ2.Per stimare m possiamo scegliere di utilizzare la media empirica

mn =1

n

n∑i=1

ξi.

In seguito vederemo come tale scelta possa essere variamente giustificata.Al momento assumiamola senz’altri commenti. Notiamo che, se indichiamocon E la speranza matematica,

E(mn) = m

inoltre la varianza di mn e

V ar(mn) =σ2

n=: s2

n.

La legge forte dei grandi numeri assicura che mn converge quasi certamentea m. Queste proprieta suggeriscono che la nostra scelta non e del tuttoinsensata.

La variabile aleatoria mn, essendo somma di variabili aleatorie gaussiane,ha legge gaussiana di media m e varianza s2

n e, di conseguenza, la legge diMn := (mn −m)/sn e una gaussiana di media nulla e varianza 1. Ne segueche

Prob−c ≤Mn ≤ c = Φ(c)− Φ(−c) = 2Φ(c)− 1

dove Φ e la funzione di ripartizione di una gaussiana di media nulla e varianzaunitaria, ossia

Φ(x) =1√2π

∫ x

−∞e−t

2/2dt.

Poiche−c ≤Mn ≤ c

se e solo semn − snc ≤ m ≤ mn + snc,

anche senza sapre quale sia il valore di m, si puo concludere che la probabilitache l’intervallo aleatorio

[mn − cασ/√n,mn + cασ/

√n]

contenga m e 1−α, quando si scelga cα in modo che Φ(cα) = 1−α/2, ossia

cα = Φ−1(1− α/2).

In questo modo possiamo parzialmente rispondere alle domande dell’Esempio2.Infatti potremmo affermare che se ragionassimo come se m fosse contenutonel suddetto intervallo avremmo la probabilita 1 − α di comportarci ”cor-rettamente”. Si puo procedere in modo del tutto analogo quando si siainteressati a stimare la varianza.

4. CAMPIONI GAUSSIANI 9

4.2. Stima della varianza con media incognita. Si voglia stimarela varianza. Come stimatore consideriamo qui la varianza empirica, ossia

S2n :=

1

n

n∑i=1

(ξi −mn)2.

Si noti che la legge forte dei grandi numeri implica che

S2n =

1

n

n∑i=1

ξ2i +m2

n − 2mn1

n

n∑i=1

ξi

converge quasi certamente a σ2.

Per quanto riguarda la distribuzione esatta di S2n si ha la seguente

Proposizione 1.1. La distribuzione di nS2n/σ

2 e una χ2n−1 (chi quadrato

con n− 1 gradi di liberta) e quindi nS2n/σ

2 ha densita

x 7→ xn−12−1e−

12x

2(n−1)/2Γ((n− 1)/2)

per ogni x > 0. Inoltre Sn e mn sono stocasticamente indipendenti.

Dimostrazione. Calcoliamo la funzione caratteristica del vettore (mn, ξ1−mn, . . . , ξn−mn). Sia (t, t1, . . . , tn) un vettore di Rn+1. Posto t =

∑nj=1 tj/n,

si ha

E(expitmn + in∑j=1

tj(ξj −mn)) = E(expin∑j=1

(t

n+ tj − t)ξj)

= expitm− σ2

n

t2

2 exp−σ

2

2n(

1

n

n∑j=1

t2j − (1

n

n∑j=1

tj)2)

= expitm− σ2

n

t2

2 exp−1

2(

n∑j=1

t2j (1−1

n)σ2 −

∑1≤k 6=j≤n

tjtkσ2

n).

Nell’ultimo termine della precedente catena di uguaglianze si riconosce ilprodotto di due funzioni caratteristiche gaussiane. In particolare mn e (ξ1−mn, . . . , ξn−mn) risultano stocasticamente indipendenti, inoltre mn ha leggegaussiana di media m e varianza σ2/n mentre (ξ1 −mn, . . . , ξn −mn) e unvettore con legge gaussiana n–dimensionale con vettore delle medie nullo ematrice di varianze e covarianze

(1− 1n)σ2 −σ2

n . . . −σ2

n

−σ2

n (1− 1n)σ2 . . . −σ2

n. . . . . . . . . . . .

−σ2

n −σ2

n . . . (1− 1n)σ2

.

10 1. INTRODUZIONE, NOTAZIONI, ESEMPI

Questo dimostra che Sn e mn sono stocasticamente indipendenti. Conside-riamo ora un vettore di variabili aleatorie indipendenti identicamente distri-buite con legge gaussiana di media nulla e varianza unitaria (ζ1, . . . , ζn) Siverifica subito, con un semplice cambiamento di variabili, che

Probζ21 ≤ z =

1√2π

∫ z

0

1√te−tdt,

pertanto ζ21 ha legge Gamma di parametri (1/2, 1/2), ossia una χ2

1. Sfrut-tando il fatto che se Y1, . . . , Yn sono variabili aleatorie indipendenti condistribuzione Gamma(pi, λ), allora

∑i Yi ha legge Gamma(

∑pi, λ) (vedi

esercizi), si deduce che∑n

i=1 ζ2i ha legge χ2

n. Quindi

1

σ2

n∑i=1

(ξi −m)2

ha funzione caratteristica

t 7→ 1

(1− 2it)n/2.

D’altra parte

1

σ2

n∑i=1

(ξi −m)2 =1

σ2

n∑i=1

(ξi −mn)2 +n

σ2(mn −m)2

e quindi, passando alle funzioni caratteristiche, dal momento che∑n

i=1(ξi−mn)2 e mn sono indipendenti

1

(1− 2it)n/2= φnS2

n/σ2(t)

1

(1− 2it)1/2

ossia

φnS2n/σ

2(t) =1

(1− 2it)(n−1)/2.

Il che conclude la dimostrazione.

Se indichiamo con Fχ2n−1

la funzione di ripartizione di una variabile

aleatoria χ2n−1, e con c1 e c2 due numeri tali che

Fχ2n−1

(c2)− Fχ2n−1

(c1) = 1− α

si ha che

Probc1 ≤ nS2n/σ

2 ≤ c2 = Fχ2n−1

(c2)− Fχ2n−1

(c2) = 1− α

e quindi la probabilita che σ2 appartenga a all’intervallo (aleatorio)

[nS2n/c2, nS

2n/c1]

e 1− α.

4. CAMPIONI GAUSSIANI 11

4.3. Stima della media con varianza incognita. Come procederequando la varianza sia incognita ma si sia interessati a stimare la media?Naturalmente mn rimane una stima valida, ma come possiamo possiamodeterminare agevolemente un intervallo di confidenza per m? La risposta edata dalla seguente

Proposizione 1.2. La distribuzione di

Tn =

√n(n− 1)(mn −m)√∑n

i=1(ξi −mn)2

e una T di Student con n− 1 gradi di liberta, ossia ha densita

Γ(n/2)

Γ((n− 1)/2)√π(n− 1)

(1 +

x2

n− 1

)−n/2x ∈ R.

Dimostrazione. Prima di tutto si noti che Tn puo essere riscritto come

X√Yn−1

dove

X :=

√n

σ2(mn −m)

ha legge gaussiana di media nulla e variaza unitaria e

Y :=1

σ2

n∑i=1

(ξi −mn)2

ha legge χ2n−1, inoltre X ed Y sono stocasticamente indipendenti (cfr. Pro-

posizione 1.1). Osservato che Tn ha chiaramente una distribuzione simme-trica attorno all’origine, fissato u > 0 ne segue che

ProbTn ≤ u = ProbX − u√Y/(n− 1) ≤ 0

ovvero

ProbTn ≤ u =

∫ +∞

0

∫ u√y/(n−1)

−∞

1√2πe−

x2

2 dx2−(n−1)/2

Γ((n− 1)/2)y(n−1)/2−1e−y/2dy.

Derivando si ha che la densita di Tn calcolata in u e

f(u) =

∫ +∞

0

1√2πe−

u2

2y

n−1

√y

n− 1

2−(n−1)/2

Γ((n− 1)/2)y(n−1)/2−1e−y/2dy

=1

2n/2Γ((n− 1)/2)√π√n− 1

∫ +∞

0yn/2−1e

−y( 12

+ u2

2(n−1))dy

=1

2n/2Γ((n− 1)/2)√

(n− 1)π

Γ(n/2)

(12 + u2

2(n−1))n/2

=Γ(n/2)

Γ((n− 1)/2)√

(n− 1)π(1

2+

u2

2(n− 1))−n/2.

12 1. INTRODUZIONE, NOTAZIONI, ESEMPI

Ancora una volta possiamo concludere che

Prob−c ≤ Tn ≤ c = FTn−1(c)− FTn−1(−c) = 2FTn−1(c)− 1

dove FTn−1 e la funzione di ripartizione di una T di Student a n− 1 gradi diliberta. La seconda uguaglianza segue dalla simmetria attorno allo zero delladistribuzione T di Student. Senza sapere quale sia il valore di m e quale siaquelllo di σ, possiamo affermare che la probabilita che m appartenga a

[mn − Sncα/√n− 1,mn + Sncα/

√n− 1]

e 1− α secα = F−1

Tn−1(1− α/2).

5. Modello statistico

In tutte le dispense considereremo esperimenti i cui possibili risultaticostituiscono un insieme X, a cui si associa una classe di suoi sottoinsiemiX , dotata della struttura di σ-algebra. L’insiemeX prende il nome di spaziocampionario e la σ-algebra X rappresenta quindi una famiglia di eventisignificativi relativi all’esperimento in esame.

In generale, l’esperimento potra consistere in un numero finito, infinitoo incognito di osservazioni relative ad un dato fenomeno. Tipicamente laforma del risultato di un esperimento sara x = (x1, . . . , xn).

Come detto si vuole interpretare l’esito di un esperimento (ossia il ri-sultato del processo di osservazione) come una variabile aleatoria. Si puopertanto pensare che ogni valore osservato x sia la realizzazione di una certavariabile aleatoria ξ definita su uno spazio di probabilita astratto (Ω,F) conuna data legge di probabilita P a valori in (X,X ). In questo corso X sarasempre un sottoinsieme di Rd per d opportuno (eventualmente d = +∞).

Si definisce modello statistico

M = Ω,F , X,X ,P ∈Mdove P e una misura di probabilita incognita appartenente ad una famiglia dileggi di probabilita M. La famiglia M identifica un insieme di meccanismi digenerazione dei dati plausibili per il fenomeno analizzato, ognuno dei qualiriflette sia le caratteristiche del processo di osservazione sia differenti ipotesisulle proprieta del fenomeno stesso.

Prima di proseguire notiamo che lo spazio astratto (Ω,F) non giocaun ruolo importante, infatti lo statistico ha accesso solo alle osservazionie quindi solo allo spazio (X,X ). Si ricordi che per noi X sara sempre unqualche sottoinsieme di Rd. Allo stesso modo cio che conta veramente none la misura a P ma la sua immagine (tramite ξ) su X , in altri termini

P (·) := Pξ ∈ ·.

6. IPOTESI BASE E NOTAZIONI 13

In seguito, quindi, intenderemo per modello statistico piu brevemente l’in-sieme

M = X,X , P ∈Mdove, questa volta, M e un’insieme di misure di probabilita su X .

6. Ipotesi base e notazioni

Il principale obiettivo della statistica e quello di fare inferenza sulla leggedi probabilia P sulla base del campione osservato, ossia sulla base di unarealizzazione del processo di osservazione ξ.

Nel seguito il modello verra formulato in termini parametrici diretta-mente in funzione della misura immagine P , ossia

M = (X,X , Pθ) : θ ∈ Θ

dove θ e il parametro che indicizza la distribuzione delle osservazioni e Θ ilrelativo spazio parametrico. In questo caso θ sara l’oggetto dell’inferenza.Volendo che l’inferenza sia sensata sara necessario imporre che il parametroidentifichi univocamente la legge di probabilita e viceversa.

Definizione 1.3. Identificabilita. Il modello si dice identificabile sevale

θ 6= θ′ ⇒ Pθ 6= Pθ′ .

Definizione 1.4. Modelli dominati. Un modello (X,X , Pθ, θ ∈ Θ)si dice dominato se esiste una misura σ-finita µ su (X,X ) tale che

Pθξ ∈ B = Pθ(B) =

∫Bfθ(x)µ(dx) ∀ B ∈ X .

In altri termini, un modello e dominato se Pθ ammette una densita fθrispetto a µ.

In questo corso considereremo solo modelli dominati dalla misura diconteggio o dalla misura di Lebesgue, per i quali valgono, rispettiva-mente e per ogni B in X ,

Pθ(B) =∑x∈B

fθ(x)

e

Pθ(B) =

∫Bfθ(x)dx.

Queste ipotesi verranno implicitamente sempre assunte nel seguito (ameno che non sia chiaramente indicato il contrario).

Come gia detto non specificheremo mai la natura di (Ω,F ,P) ma soloquella di (X,X , P ). Tuttavia, per chiarezza, useremo spesso il fatto che il

14 1. INTRODUZIONE, NOTAZIONI, ESEMPI

processo di osservazione puo essere identificato con una variabile aleatoriaξ, definita su (Ω,F) con legge P , ossia tale che

Pξ ∈ A = P (A) (A ∈ X ).

In generale se (X,X , P ) e uno spazio probabilizzato, h : (X,X )→ (R,B(R))una funzione misurabile e ξ : (Ω,F ,P)→ (X,X ) una variabile aleatoria conlegge P , i.e. Pξ ∈ · = P (·), la speranza matematica di h(ξ) rispetto a P ,qualora esista, verra indicata indifferentemente con

E[h(ξ)] =

∫Ωh(ξ(ω))P(dω) =

∫Xh(x)P (dx).

Se vorremo evidenziare la misura di probabilita rispetto a cui si stafacendo la speranza matematica useremo la scrittura EP . In altre parole seP e Q sono due m.d.p. allora EP (h(ξ)) sara

∫X h(x)P (dx) e EQ(h(ξ)) sara∫

X h(x)Q(dx). Analogamente, dato un modello statistico Pθ : θ ∈ Θ, conEθ, (V arθ, Covθ) si indichera la speranza matematica (varianza, covarianza)calcolata rispetto a Pθ.

Ancora sono equivalenti le notazioni

Eθ[h(ξ)] e

∫Xh(x)Pθ(dx).

Dal momento che considereremo sempre modelli dominati con densitafθ si ricordi che nel caso assolutamente continuo

Eθ[h(ξ)] =

∫Xh(x)fθ(x)dx,

dove dx indica la misura di Lebesgue su Rd, e nel caso discreto

Eθ[h(ξ)] =∑x∈X

h(x)fθ(x).

Per evitare di dover continuamente distinguere questi due casi, useremo lanotazione

∫X h(x)fθ(x)µ(dx) con la convenzione che, nel caso in qui ξ sia

una v.a. assolutamente continua, allora µ(dx) coincidera con la misura diLebesgue dx, mentre nel caso in cui ξ sia discreta tale integrale va intesocome la somma

∑x∈X h(x)fθ(x).

7. Distribuzioni condizionali

Data una coppia di variabili aleatorie (ξ, T ) a valori in Rd × Rm,

EP [h(ξ)|T ]

indichera (una versione) della speranza condizionale di h(ξ) dato T qualora(ξ, T ) abbia legge P . Analogamente, nel caso di un modello statistico Pθ :θ ∈ Θ, Eθ[h(ξ)|T ] indichera una versione della speranza condizionale di h(ξ)

7. DISTRIBUZIONI CONDIZIONALI 15

dato T qualora (ξ, T ) abbia legge Pθ. Per i richiami minimi alle speranzecondizionali, si rimanda ad un qualunque buon libro di probabilita.

Richiamiamo qui alcuni risultati che ci saranno utili nel resto del corso.Dato il vettore (ξ, T ) ∈ Rd×m, sia Fθ(x, t) la funzione di ripartizione di talevettore, ossia

Fθ(x, t) = Pθξ ≤ x, T ≤ tcon ξ ≤ x = ξ1 ≤ x1, ξ2 ≤ x2, . . . e analogamente T ≤ t = T1 ≤t1, T2 ≤ t2, . . . . Si ricordi che

Pθξ ∈ A, T ∈ B =

∫A

∫BdFθ(x, t)

per ogni A e B misurabili in Rd e Rm. In particolare

PθT ∈ B =

∫X

∫BdFθ(x, t) =

∫BdFθ:T (t)

e

Pθξ ∈ A =

∫APθ(dx) =

∫A

∫Rm

dFθ(x, t) =

∫AdFθ:ξ(x).

Dove abbiamo indicato le funzioni di ripartizione marginali di ξ e di T conFθ:ξ(x) e Fθ:T (t).

La funzione di ripartizione condizionale Fθ:ξ|T (x|t) di ξ dato T e definitacome quella funzione Fθ:ξ|T (x|t) tale che x 7→ Fθ:ξ|T (x|t) e una funzione diripartizione per ogni t e inoltre vale la disintegrazione

Pξ ∈ A, T ∈ B =

∫B

(∫AdFθ:ξ|T (x|t)

)dFθ:T (t).

(per ogni coppia di insiemi A e B misurabili). Qualora le variabili aleatorieassumano valori in Rd × Rm si puo dimostrare che una tale funzione esistesempre.

In particolare e facile controllare che se (ξ, T ) ammette una densitafθ(x, t) rispetto alla misura di lebesgue allora

Fθ:ξ|T (x|t) :=

∫(−∞,x]

fθ(u, t)∫fθ(v, t)dv

du

quando t e tale che∫fθ(v, t)dv > 0 e definita arbitrariamente per i t che∫

fθ(v, t)dv = 0, e una funzione di ripartizione condizionale di ξ dato T .Analogamente nel caso discreto

Fθ:ξ|T (x|t) :=∑u≤x

fθ(u, t)∑v fθ(v, t)

.

In questi casi di parla di denista condizionale

fθ:ξ|T (x|t) :=fθ(x, t)∫fθ(v, t)dv

16 1. INTRODUZIONE, NOTAZIONI, ESEMPI

e

fθ:ξ|T (x|t) :=fθ(x, t)∑v fθ(v, t)

.

Posto

R(t) =

∫h(x)dFθ:ξ|T (x|t)

si ha che

Eθ[h(ξ)|T ] = R(T ).

Tipicamente si utilizza la notazione Eθ[h(ξ)|T = t] per indicare la funzioneR(t). Talvolta useremo la notazione Fθ(dx) al posto di dFθ(x).

Richiamiamo anche alcune proprieta del valore atteso che ci serviranno.Siano h(x, t), h1(x), h2(t) funzioni misurabili tali che Eθ[|h(ξ, T )|] < +∞,Eθ[|h1(ξ)|] < +∞ e Eθ[|h2(T )|] < +∞. Allora

(1) Eθ[h(ξ, T )] = Eθ[Eθ[h(ξ, T )|T ]],

in particolare

(2) Eθ[Eθ[h1(ξ)|T ]] = Eθ[h1(ξ)].

Inoltre

(3) Eθ[h1(ξ)h2(T )|T ] = h2(T )Eθ[h1(ξ)|T ].

Infine, se ξ e T sono indipendneti

(4) Eθ[h1(ξ)|T ] = Eθ[h1(ξ)].

8. Esempi

Esempio 6 (Modello Bernoulliano). Si consideri una successione di nestrazioni, con restituzione, da un’urna contenente palline bianche e pallinenere secondo una composizione non nota. La composizione e completamentecaratterizzata dalla frazione (incognita) θ∗ delle palline bianche. Il risultatodi ogni osservazione puo descriversi mediante gli interi 0 e 1: 0 corrispon-de all’estrazione di nera, 1 all’estrazione di bianca. Quindi X = 0, 1n.In considerazione delle modalita di estrazione ipotizzate, fissata una deter-minazione θ di θ∗ che, necessariamente, deve appartenere a [0, 1], Pθ puosupporsi coerente col ben noto schema Bernoulliano, ovvero

Pθξ1 = x1, . . . , ξn = xn = Pθ((x1, . . . , xn))

= θx1+···+xn(1− θ)n−(x1+···+xn)(5)

in cui si pone, per convenzione, 00 = 1. Per completare la definizione diM, resta da specificare Θ che, in assenza di vincoli posti dal problema, siidentifica con l’intervallo [0, 1].

8. ESEMPI 17

Esempio 7 (Modello Poissoniano). Si consideri l’osservazione, in n in-tervalli di tempo consecutivi, degli arrivi presso un dato punto di servizio.Si puo porre X = Nn0 (numerabile) e come σ-algebra degli eventi l’insiemedi tutte le parti di Nn0 . Per quanto riguarda la definizione di M, ipotizzandovalide le condizioni del processo di Poisson, per ogni specifica determina-zione di θ (valore atteso del numero di arrivi in un intervallo unitario) siha

(6) Pθξ1 = x1, . . . , ξn = xn = Pθ((x1, . . . , xn)) =

n∏i=1

θxi

xi!e−θ

con θ in Θ := (0,∞).

Esempio 8 (Modello Gaussiano). Si effettuano n misurazioni di unacerta grandezza con uno strumento che fornisce letture il cui errore dal verovalore incognito si distribuisce secondo la legge Gaussiana di media nulla evarianza σ2 = 1/h2, dove h e un indice noto della precisione dello strumento.Se le misurazioni si effettuano nelle stesse condizioni ambientali e m e ilvero valore della grandezza misurata, e ragionevole considerare le ξi comevariabili aleatorie indipendenti, tutte con distribuzione Gaussiana di mediam e varianza σ2. In questo caso X = Rn, X = B(X) (σ-algebra di Borel suRn), θ = m, Θ = R e la famiglia delle misure di probabilita e caratterizzabilecon

Pθ(B) =

∫B

1

(2πσ2)n/2exp

− 1

2σ2

n∑i=1

(xi −m)2

dx1, . . . , dxn ∀ B ∈ B(X).

Chiaramente con h incognita si ha θ = (m,σ) e Θ = R×R+. Si noti che ξipuo essere riscritta come ξi = m+σεi (con εi = (ξ−m)/σ) dove (ε1, . . . , εn)risultano essere variabili aleatorie indipendenti ed identicamente distribuitecon legge gaussiana di media nulla e varianza unitaria. In questo caso σεipuo essere interpretato come l’errore commesso nella misurazione i–esima.

Esempio 9 (Scala-posizione). Come generalizzazione dell’esempio pre-cedente si supponga di effettuare n misurazioni indipendenti di una quantitaincognita m. In questo caso l’errore nella misurazione i-esima sara inte-so come una quantita aleatoria σεi dove (ε1, . . . , εn) e un vettore di variabilialeatorie indipendenti ed identicamente distribuite con una certa legge carat-terizzata da una funzione di ripartizione F su R e σ e una costante positiva.Quindi

ξi = m+ σεi

e per tanto, per ogni (x1, . . . , xn) in Rn,

Pθξ1 ≤ x1, . . . , ξn ≤ xn =n∏i=1

F

(xi −mσ

),

con θ = (m,σ) e Θ = R× (0,+∞).

18 1. INTRODUZIONE, NOTAZIONI, ESEMPI

Esempio 10 (Regressione). In molti problemi pratici si programmanostudi in cui n soggetti sono sottoposti ad un test il cui esito e un numeroreale xi (i = 1, . . . , n). In generale di ogni soggetto si conoscono delle ca-ratteristiche specifiche che vengono registrate prima del test, per semplicitasupponiamo che tali caratteristiche si possano sintetizzare in un vettore zidi Rd (i = 1, . . . , n). In altri termini si osserva

(z1, x1), . . . (zn, xn).

Generalmente ogni xi e pensata come realizzazione di una variabile aleatoriaξi. Spesso le ξi sono supposte indipendenti e sono da intendersi, appunto,come la risposta del soggetto i–esimo (anche detto caso) allo studio. Sisuppone infine che la legge di ogni ξi dipenda dalle caratteristiche del soggettoi–esimo. Ad esempio ξi potrebbe essere il risultato di un test medico e le zipotrebbero contenere le informazioni sul sesso, sull’eta, sul peso e sull’altezzadel soggetto i–esimo. In generale le zi si suppongono fissate (ossia nonsono aleatorie) e sono dette covariate (o variabili esplicative). Per quantoriguarda la legge delle ξi, comunemente dette variabili dipendenti, si possonopostulare varie forme. Qui supponiamo che ogni ξi si possa scrivere come

ξi = gθ(zi) + εi

dove ε1, . . . , εn sono variabili aleatorie indipendenti e identicamente distri-buite con media nulla (i.e. E(εi) = 0) e gθ : Rd → R e una funzione notaa meno di un parametro θ che varia in Θ ⊂ Rk. Se indichiamo con F lafunzione di ripartizione di εi si ha che

Pθξ1 ≤ x1, . . . , ξn ≤ xn =n∏i=1

F (xi − gθ(zi)).

In questa generalita non e detto che il modello Rn,B(Rn), Pθ : θ ∈ Θ siaun modello identificabile.

Esempio 11 (Modello lineare gaussiano). Come caso notevole dell’e-sempio precedente si consideri il caso in cui le εi sono variabili aleatoriegaussiane con media nulla e

gθ(t) :=

d∑i=1

tiθi, (t ∈ Rd)

(con k = d e Θ = Rd) ossia

ξi =d∑j=1

zi,jθj + εi i = 1, . . . n.

Sotto queste ipotesi si dimostra che se z1, . . . , zn sono linearmente indipen-denti allora il modello e identificabile.

CAPITOLO 2

Statistica frequentista

In questo capitolo e nel successivo introduciamo schematicamente alcuniconcetti fondamentali di statistica, sia dal punto di vista della statisticafrequentista, sia dal punto di vista della statistica Bayesiana.

Nei capitoli successivi svilupperemo piu nel dettaglio quanto introdottoin questo capitolo.

1. Concetti fondamentali

Nella statistica frequentista si assume che la legge del fenomeno oggettodi studio sia un ben determinato elemento di Pθ : θ ∈ Θ. In altri terminisi assume che le osservazioni siano realizzazioni di una variabile aleatoria ξla cui legge sia una certa Pθ0 con θ0 in Θ. Naturalmente θ0 e incognito e loscopo della statistica e fare dell’inferenza su questo parametro incognito.

In queste note distingueremo tre tipologie di problemi

• Stima puntuale• Stima per insiemi di confidenza• Test di ipotesi

1.1. Stima puntuale. Date le premesse, e chiaro che uno dei problemiprincipali della statistica frequentista e quello di stimare il vero ”valore” delparametro θ a partire dalla conoscenza del campione ξ = (ξ1, ξ2, . . . ), o, piuin generale, di una sua statistica, ossia di una funzione T (ξ). Spesso si einteressati a stimare una funzione di θ, diciamo τ(θ), e non direttamenteθ. Per questo motivo si introducono delle particolari statistiche a valorinell’immagine di τ che in un qualche senso permettano di approssimare ilvero valore τ(θ). Nel seguito supponiamo che Θ sia un qualche sottoinsiememisurabile di RK e che τ : RK → RM .

Definizione 2.1. Dato il modello (X,X , Pθ) : θ ∈ Θ e una funzionemisurabile τ da Θ in RM , si dice stimatore puntuale di τ(θ) qualunquestatistica T (ξ) che associa ad ogni realizzazione di ξ un valore in RM .

Definizione 2.2. Sia τ una funzione a valori in R, uno stimatorepuntuale T (ξ) di τ si dice non distorto se

Eθ[T (ξ)] = τ(θ)

19

20 2. STATISTICA FREQUENTISTA

per ogni θ in Θ.

Esempio 12. Si supponga che ξ = (ξ1, . . . , ξn) sia un vettore di va-riabili aleatorie indipendenti ed identicamente distribuite con funzione diripartizione Fθ, ossia che

Pθξ1 ∈ A1, . . . , ξn ∈ An =

∫A1×···×An

dFθ(x1) . . . dFθ(xn).

Si supponga inoltre che Eθ[ξi] = τ(θ). Allora uno stimatore della media τ(θ)e la media empirica

T (ξ) =1

n

n∑i=1

ξi.

Ovviamente tale stimatore e anche non distorto.

La costruzione di stimatori puntuali e le proprieta di tali stimatoricostituiranno una parte importante di questo corso.

Qui ci limitiamo ad un semplice esempio.

Esercizio 1. Si supponga che ξ = (ξ1, . . . , ξn) (n ≥ 2) sia un vettore divariabili aleatorie indipendenti ed identicamente distribuite con funzione diripartizione Fθ tale che

∫x2dFθ(x) < +∞ per ogni θ. Si dimostri che

T (ξ) =1

n− 1

n∑i=1

(ξi −mn)2

con

mn =1

n

n∑i=1

ξi

e uno stimatore non distorto della varianza τ(θ) = V arθ(ξ1).

Esempio 13 (Stime dei minimi quadrati). Si supponga, come gia vistonell’Esempio 10, che ogni osservazione ξi sia la somma di una ”parte siste-matica” e di un disturbo. In particolare si supponga che la parte sistematicasia esprimibile come αzi + β, con zi nota, e che il disturbo sia esprimibilecome una variabile aleatoria εi. Un metodo classico di stima puntuale (cherisale a Legandre e Gauss) consiste nella ricerca di stimatori di (α, β) cherendano minima un’opportuna penalizzazione quadratica. Il metodo proponein sostanza di stimare (α, β) con la coppia (αn, βn) che minimizza la sommadei quadrati dei disturbi

q(α, β) :=

n∑i=1

ε2i =

n∑i=1

(ξi − β − αzi)2.

1. CONCETTI FONDAMENTALI 21

Determinando i punti stazionari di q dalle equazioni

∂αq(α, β) = −2n∑i=1

(ξi − β − αzi)zi = 0

∂βq(α, β) = −2n∑i=1

(ξi − β − αzi) = 0

si ottiene

αn = ρnσ2,n

σ1,n

βn = m2,n −m1,nρnσ2,n

σ1,n

dove

m1,n :=1

n

n∑i=1

zi

m2,n :=1

n

n∑i=1

ξi

σ1,n :=

√√√√ 1

n

n∑i=1

z2i −m2

1,n

σ2,n :=

√√√√ 1

n

n∑i=1

ξ2i −m2

2,n

ρn :=1

σ1,nσ2,n

( 1

n

n∑i=1

ziξi −m1,nm2,n

).

E’ facile verificare che (αn, βn) e punto di minimo assoluto di q(α, β); pertanto questo e detto vettore delle stime dei minimi quadrati.

1.2. Insiemi di confidenza. Naturalmente la stima puntuale non el’unico strumento di un’indagine statistica. Supponiamo, ad esempio, divoler stimare la durata in vita θ di una parte di un dato sistema. In certi casipiu che fissare una stima puntuale, si e interessati a stabilire una funzionedell’osservazione θ∗(ξ) per la quale si possa affermare che

Pθθ∗(ξ) ≤ θ ≥ 1− α

per ogni θ in Θ, essendo α un numero positivo (piccolo) assegnato. In altritermini, si intende determinare un intervallo (aleatorio) [θ∗,+∞) che, conprobabilita elevata, contenga il vero valore incognito del parametro.

La stima di parametri mediante insiemi che ne contengano il vero valoreincognito viene detta stima mediante insiemi di confidenza.

22 2. STATISTICA FREQUENTISTA

Definizione 2.3. Dato il modello statistico (X,X , Pθ) : θ ∈ Θ, siaSx ⊂ Θ : x ∈ X una famiglia di sottoinsiemi di Θ. Tale famiglia e dettafamiglia d’insiemi di confidenza di livello (1− α) per θ se

PθSξ contiene θ ≥ 1− α

per ogni θ in Θ.

Analoga definizione si puo dare sostituendo τ(θ) a θ.

Definizione 2.4. Dato il modello statistico (X,X , Pθ) : θ ∈ Θ e unafunzione τ del parametro θ, una famiglia Sx ⊂ τ(Θ) : x ∈ X di sottoinsie-mi di τ(Θ) e detta famiglia d’insiemi di confidenza di livello (1 − α)per τ(θ) se

PθSξ contiene τ(θ) ≥ 1− α

per ogni θ in Θ.

Esempio 14. Sia (ξ1, . . . , ξn) un vettore aleatorio di variabili indipenden-ti ed identicamente distribuite con legge gaussiana di media m e varianzaσ2. Nel Paragrafo 4.1 abbiamo dimostrato che un intervallo di confidenzadi livello (1− α) per m quando σ2 sia noto e dato da

[mn − cασ/√n,mn + cασ/

√n]

dove

mn =1

n

n∑i=1

ξi.

e

cα = Φ−1(1− α/2).

Nel Paragrafo 4.2 abbiamo dimostrato che un intervallo di confidenza dilivello (1− α) per σ con m incognito e dato da

[nS2n/c2, nS

2n/c1]

dove S2n := 1

n

∑ni=1(ξi −mn)2 e c1 e c2 sono tali per cui

Fχ2n−1

(c2)− Fχ2n−1

(c1) = 1− α.

Nel Paragrafo 4.3 abbiamo dimostrato che un intervallo di confidenza dilivello (1− α) per m quando σ sia incognito e dato da

[mn − Sncα/√n− 1,mn + Sncα/

√n− 1]

se

cα = F−1Tn−1

(1− α/2).

1. CONCETTI FONDAMENTALI 23

1.3. Test di Ipotesi. Nel test d’ipotesi si e interessati, a partire daidati osservati, a decidere se il parametro incognito θ0 appartenga o meno adun dato insieme Θ0. In generale si supporra Θ = Θ0∪Θ1, con Θ0∩Θ1 = ∅. Ilfatto che θ0 appartegna a Θ0 viene generalmente riferito come ipotesi nulla,in simboli H0, mentre il fatto che θ0 appartegna a Θ1 e comunemente indi-cato con il termine di ipotesi alternativa, H1. Se accettiamo H0 (o, megliodire non rifiutiamo H0) ci comporteremo come se il parametro incognito ap-partega a Θ0, mentre se rifiutiamo H0 ci comportiamo come se il parametronon appartenga ad Θ0.

Un test sara una metodologia per decidere se accettare o rifiutare H0.

Definizione 2.5. Un test e una funzione misurabile

δ : X → [0, 1].

Se in corrispondenza di un’osservazione x0 si ha δ(x0) = 1, allora lostatistico rifiuta H0, se δ(x0) = 0 allora lo statistico accetta H0, se inveceδ(x0) = p, con p ∈ (0, 1), lo statistico procede accettando o rifiutando inmodo casuale, con probabilita di rifiutare pari a p. In altri termini tirauna monetina con probabilita di testa pari a p e se esce testa rifiuta H0

mentre se esce croce l’accetta. Un simile test si dice randomizzato, mentrese δ(x) ∈ 0, 1 per ogni x in X, δ si dice non randomizzato.

Naturalmente lo statistico puo commettere due errori

• Errore di I tipo: rifiutare H0 mentre θ0 appartiene a Θ0,• Errore di II tipo: accettare H0 mentre θ0 non appartiene a Θ0.

Sebbene matematicamente il ruolo di H0 e H1 sia assolutamente simme-trico, nella pratica vi possono essere grandi differenze.

L’esempio piu classico e testare l’efficacia di un farmaco nuovo. In unmodello semplificato potremmo assumere che Θ0 = θ∗ e Θ1 = θ∗∗.Assumiamo che Θ0 corrisponda al fatto che il farmaco nuovo non funzionimeglio di quello vecchio. Se si accetta H0 si puo supporre che un deciso-re non immetta sul mercato il farmaco nuovo, ritenendolo non migliore diquello vecchio. Se si rifiuta H0 si ritiene il farmaco migliore e quindi lo siimmette sul mercato. Commettere un errore di primo tipo comporta quindiimmettere nel mercato un farmaco che funziona peggio di un farmaco giasul mercato, mentre l’errore di secondo tipo comporta di non immettere nelmercato un farmaco che funziona meglio di quello gia sul mercato. In que-sto caso e ragionevole ritenere piu grave l’errore di primo tipo. Data questaasimmetria in genere si deve pensare all’errore di primo tipo come il peggiorefra i possibili due errori. Questo classico esempio dovrebbe spiegare comemai storicamente le definizioni e le procedure statistiche non consideranol’ipotesi nulla e l’ipotesi alternativa come simmetriche.

24 2. STATISTICA FREQUENTISTA

Occorre anche sottolineare come dal punto di vista ”filosofico” accettarel’ipotesi nulla o accettare l’ipotesi alternativa (ossia rifiutare l’ipotesi nulla)non hanno lo stesso identico ruolo. In genere i test si costruiscono in modoche sia preminente il ruolo di rifiutare l’ipotesi nulla. Ossia in modo che sesi rifiuta l’ipotesi nulla si e ragionevolmente sicuri che sia sensato procedere”come se” fosse vero che il parametro vero non appartenga a Θ0, mentrese non si rifiuta l’ipotesi nulla si dovrebbe essere piu cauti nell’interpretarel’esito del test, come viene illustrato da De Groot e Shervish nel seguenteparagrafo.

Sometimes a legal analogy is drawn to statistical hypo-thesis testing. The null hypothesis is compared to thepresumption of innocence in a legal case. Failure to finda defendant guilty doesn’t prove innocence. All it says isthat there was not enough evidence to establish guilt. [DeGroot & Shervish]

Definizione 2.6. Dato un test δ, si dice funzione di potenza la funzione

θ 7→ β(θ, δ) = β(θ) := Eθ[δ(ξ)].

Chiaramente

se θ0 ∈ Θ0 allora β(θ0) = prob. errore I tipo

se θ0 ∈ Θ1 allora β(θ0) = 1− prob. errore II tipo.

Definizione 2.7. La taglia di un test e

Tg(δ) = supθ∈Θ0

β(θ, δ).

Definizione 2.8. Un test si dice di livello α se

Tg(δ) ≤ α.

Definizione 2.9. La potenza di un test contro un’alternativa θ1 ∈ Θ1 edefinita come β(θ1).

Guardando θ 7→ β(θ) vorremmo che fosse una funzione prossima a zerosu Θ0 e prossima ad uno su Θ1. Dal momento che cio e in generale impossi-bile, si pensa a contenere l’errore di primo tipo sotto una certa soglia, ossia,fissato α in (0, 1), si considerano solo test di livello α.

Definizione 2.10. Un test δ0 e detto α-test piu potente contro θ1 ∈ Θ1

seTg(δ0) ≤ α e β(θ1, δ) ≤ β(θ1, δ0) ∀ δ : Tg(δ) ≤ α.

Spesso per costruire un test si procede fissando un’opportuna statisticaT : X → Rk e scegliendo come test

δ(ξ) = IT (ξ) ∈ C

1. CONCETTI FONDAMENTALI 25

con C ⊂ Rk, oppure

δ(ξ) = IT (ξ) ∈ C+ γIT (ξ) ∈ ∂C

Esempio 15. Supponiamo di voler confrontare un trattamento con unplacebo. Ad esempio si vuole testare se un farmaco induce sonnolenza. Adun gruppo di n pazienti (scelti a caso) si somministra un giorno il placeboe un’altro giorno il farmaco. Si registra poi in ξi la differenza delle ore disonno con e senza farmaco per il paziente i. Se facciamo l’ipotesi (si notiche e un’ipotesi!) che le osservazioni ξi siano indipendenti ed identicamentedistribuite con comune legge gaussiana di media incognita m e di varianzanota (per semplicita) σ2, possiamo formulare il problema come un proble-ma di test d’ipotesi. Si tratta di testare Θ0 = (−∞, 0) contro l’alternativaΘ1 = [0,+∞). Infatti se m > 0 la media della differenza fra le ore si sonnoprima e dopo il trattamento e positivo e quindi si puo ragionevolmente rite-nere che il farmaco non induca sonnolenza, mentre se m < 0 la situazione eribaltata. Come si vede nella scelta di chi sia H0 e chi H1 preferiamo essereconservativi e non rischiare di affermare che un farmaco non induca son-nolenza qunado invece la induce. Infatti l’errore di primo tipo e affermareche il farmaco non induce sonnolenza (H1) quando invece la induce. Conriferimento a 4.1, consideriamo il test

δc(ξ) = ITn > c

con

Tn(ξ) =

√nmn

σ=

1

σ√n

n∑i=1

ξi.

Chiaramente

β(m, δc) = PmTn(ξ) > c = PMn > c−

√nm

σ

= Φ

(− c+

√nm

σ

)dove

Mn :=mn −m

σ

√n ∼ N (0, 1)

e Φ e la funzione di ripartizione di una gaussiana standard. Quindi, dalmomento che Φ e una funzione monotona non decrescente

supm≤0

β(m, δc) = Φ(−c)

e dunque se scegliamo cα in modo che

Φ(−cα) = α ossia cα = −Φ−1(α)

otteniamo un test di livello α.

26 2. STATISTICA FREQUENTISTA

2. Stime di massima verosimiglianza.

2.1. Funzione di Verosimiglianza. Sia (X,X , Pθ) : θ ∈ Θ unmodello statistico dove Pθ abbia densita fθ.

Definizione 2.11. Data una realizzazione x di ξ, la funzione

θ 7→ fθ(x) =: vx(θ)

e detta funzione di verosimiglianza.

Espressioni della funzione di verosimiglianza per alcuni modelli notevolivengono presentate nei successivi esempi.

Esempio 16. (Modello Bernoulliano). Si consideri il modello bernoul-liano definito nell’Esempio 6. Per ogni campione osservato x = (x1, . . . , xn)in 0, 1n, la funzione di verosimiglianza e

vx(θ) = θ∑i xi(1− θ)n−

∑i xi

con θ ∈ [0, 1].

Esempio 17. (Modello Poissoniano). Si consideri il modello poissonianodefinito nell’Esempio 7. In questo caso si ha, per ogni x = (x1, . . . , xn) ∈ Nn0 ,

vx(θ) =1∏n

i=1 xi!θ∑i xie−nθ.

Esempio 18. (Modello Gaussiano). Si consideri il modello gaussianodefinito nell’Esempio 8. Per ogni x = (x1, . . . , xn) ∈ Rn e per ogni θ =(µ, σ2) ∈ R× R+ si ha

vx(θ) =1

(2πσ2)n/2exp

− n

2σ2(s2 + (µ− x)2)

dove x := 1

n

∑ni=1 xi e s2 :=

∑ni=1

(xi−x)2

n .

Esempio 19. (Regressione gaussiana). Si consideri il modello di regres-sione lineare definito nell’Esempio 11 con d = 2, θ = (α, β), zi = (zi,1, 1),ossia gθ(t) = αt+ β. Per ogni x = (x1, . . . , xn) in Rn e per ogni θ = (α, β)in R× R si ha

vx(θ) =1

(2πσ2)n/2exp

− 1

2σ2

n∑i=1

(xi − αzi,1 − β)2

2.2. Stimatori di massima verosimiglianza. Il termine verosimi-glianza (traduzione di likelihood usato da Fisher) sarebbe coerente con laseguente interpretazione: i valori di θ in corrispondenza ai quali vξ(θ) risultapiu elevata sarebbero da ritenersi vicini ”al vero” in quanto in corrisponden-za ad essi risulterebbe elevata la probabilita (o la densita) associata a ξ. E’

3. ESERCIZI 27

sembrato lecito (a partire da Fisher) proporre come metodo per stimare il

”vero” parametro incognito di scegliere un valore θ che massimizzi

θ 7→ vξ(θ).

Definizione 2.12. Uno stimatore θ e chiamato stimatore di massimaverosimiglianza se in corrispondenza di θ(ξ) la funzione di verosimiglianzaθ 7→ vξ(θ) e massimizzata.

Come dimostrano i seguenti esempi puo essere comodo determinare ilminimo di θ 7→ − log vx(θ) al posto del massimo di θ 7→ vx(θ).

Esempio 20. (Modello Poissoniano). Si consideri il modello poissonianodefinito nell’Esempio 7 derivando e immediato determinare che il massimodi

θ 7→ log(vx(θ)) =n∑i=1

xi log(θ)− nθ − log(n∏i=1

xi!)

e raggiunto in∑n

i=1 xi/n, ossia lo stimatore di massima verosimiglianza diθ basato su (ξ1, . . . , ξn) e

θn =1

n

n∑i=1

ξi.

Esempio 21. (Modello Gaussiano). Si consideri il modello gaussiano de-finito nell’Esempio 8. Ancora per derivazione e facile vedere che lo stimatoredi massima verosimiglianza di (m,σ2) e dato da

mn =1

n

n∑i=1

ξi σ2n =

1

n

n∑i=1

(ξi − mn)2.

Esempio 22. (Modello di regressione gaussiano). Si consideri il modellodi regressione definito nell’Esempio 19 con varianza nota σ2. Osserviamoche massimizzare log(vx(θ)) equivale a minimizzare

n∑i=1

|xi − β − αzi,1|2

e quindi lo stimatore di massima verosimiglianza di (α, β) coincide, in questocaso particolare, alla stima ai minimi quadrati vista nell’Esempio 13.

3. Esercizi

Esercizio 2. Siano ξ1, . . . , ξn variabili aleatorie indipendenti con leggecomune Gamma di parametri (α, 1/λ), con λ > 0, α > 0, ossia con comunedensita di probabilita

fα,1/λ(x) = I(0,+∞)(x)xα−1

λαΓ(α)e−x/λ.

28 2. STATISTICA FREQUENTISTA

Supposto noto α determinare lo stimatore di massima verosimiglianza λn diλ basato sul campione ξ1, . . . , ξn e calcolare E(λn).

Esercizio 3. Siano ξ1, . . . , ξn v.a. indipendenti con comune legge diPoisson di parametro λ > 0, i.e. tali che

Pξi = k =λke−λ

k!(k ≥ 0).

(1) Determinare lo stimatore di massima verosimiglianza λn di λ ba-sato sul campione ξ1, . . . , ξn

(2) Calcolare E(λn).

Esercizio 4. Siano ξ1, . . . , ξn variabili aleatorie indipendenti con leggecomune Weibull di parametri (α, λ), α > 0 e λ > 0, ossia con comunedensita di probabilita

fα,λ(x) = I(0,+∞)(x)αxα−1

λe−x

α/λ.

(1) Supposto noto α determinare lo stimatore di massima verosimi-

glianza λn di λ basato sul campione ξ1, . . . , ξn;(2) calcolare E(λn).

Esercizio 5 (Cfr. Esercizi 12 e 15). Sia (ξn)n≥1 una successione dii.i.d. con comune densita di probabilita

fλ,a(x) = λaλ1

xλ+1I(a,+∞)(x) (a > 0, λ > 0).

Si ponga Yi = log(ξi/a) e Tn =∑n

i=1 Yi.

(1) Dimostrare che Yi ha legge esponenziale di parametro λ.(2) Dimostrare che

E(1

Tn) =

λ

n− 1.

(3) Noto λ determinare lo stimatore di massima verosimiglianza di a.(4) Noto a determinare lo stimatore di massima verosimiglianza di λ.

Esercizio 6 (Cfr. Esercizi 11 e 14). Sia (ξn)n≥1 una successione dii.i.d. con comune legge esponenziale di parametri (a, λ).

(1) Si scriva la verosimiglianza delle prime n osservazioni.(2) Si mostri che noto a lo stimatore di massima verosimiglianza di λ

e dato da

λn :=n∑n

i=1(ξi − a)

e che

E(λn) =n

n− 1λ.

3. ESERCIZI 29

(3) Si mostri che noto λ lo stimatore di massima verosimiglianza di ae dato da

νn := minξ1, . . . , ξne che

E(νn) =1

λn+ a.

CAPITOLO 3

Statistica Bayesiana

1. Introduzione elementare alla statistica Bayesiana

Un approccio completamente diverso all’indagine statistica e quello del-la statistica bayesiana. La statistica bayesiana differisce dalla statistica fre-quentista sia per i metodi sia per i principi “filosofici” su cui si basa. Per unadiscussione approfondita sul tema si rinvia al Capitolo 4, Sezioni 4.1-4.2-4.3e al Capitolo 5, Sezioni 5.1.1 - 5.1.2 - 5.1.3 di [1]. Nel seguito esponiamosinteticamente alcuni punti base della statistica bayesiana.

Il concetto chiave sul quale si basa la statistica bayesiana e il concettodi probabilita condizionale e, in varie forme, il teorema di Bayes.

Ricordiamo che il teorema di Bayes, nella sua versione elementare, af-ferma che, dato uno spazio di probabilita (Ω,F , P ), se H1, H2, . . . e unapartizione di Ω ed E e un determinato evento con P (E) > 0, allora

P (Hj |E) =P (E|Hj)P (Hj)

P (E)=

P (E|Hj)P (Hj)∑i P (E|Hi)P (Hi)

.

L’interpretazione e la seguente. La partizione rappresenta un insieme diipotesi (H1, H2, . . . ) (ipotesi che possono essere pensate come determinatecircostanze e che hanno il ruolo di parametri) sulle quali sappiamo forniredelle valutazioni di probabilita (ossia P (Hi)). Inoltre si suppone che con-dizionatamente ad una data ipotesi sappiamo valutare la probabilita di E,ossia sappiamo fornire P (E|Hi). Nel processo di osservazione immaginiamodi osservare il verificarsi di E. Naturalmente non conosciamo quale delle ipo-tesi si sia verificata, allora “aggiorniamo” la probabilita delle ipotesi usandoil terema di Bayes. L’opinione iniziale P (Hi) sul’ipotesi Hi diventa un’o-pinione finale (o a posteriori) P (Hi|E). In questo modo abbiamo descrittoprobabilitisticamente il processo di apprendimento. P (H1), . . . , P (Hn) de-scrivera l’opinione iniziale sui parametri, P (E|Hi) sara il nostro modello eP (Hi|E) l’opinione dopo l’esperimento.

Il legame con i concetti di statistica presentati nei capitolo precedenti e ilseguente: possiamo pensareH1, H2, . . . come possibili valori di un parametroθ e P (E|Hi) come la funzione di verosimiglianza fθ(x).

Prima di proseguire, ricordiamo che, se (X,Y ) e un vettore aleatorio condensita g(x, y) rispetto alla misura di lebesgue o di conteggio (indicata con

31

32 3. STATISTICA BAYESIANA

µ(dxdy)), la densita condizionale di X dato Y e

gX|Y (x|y) :=g(x, y)

gY (y)

dove g2(y) =∫g(x, y)µ(dx). In questo caso il teorema di Bayes e semplice-

mente

gY |X(y|x) =gX|Y (x|y)gY (y)∫

gX|Y (x|u)gY (u)µ(du).

A differenza di quanto visto per la statistica frequentista, nella statisticabayesiana non si suppone l’esistenza di una legge “vera” Pθ0 , che descrivela legge di probabilita del processo di osservazione, ma si considera anche ilparametro come un ente aleatorio. In altri termini si considera un vettorealeatorio (ξ, θ) a valori in (X × Θ) e non piu solo ξ. Il fatto di considerarela legge congiunta di parametro ed osservazioni consente, come vedremo,di utilizzare i principi della probabilita non solo per descrivere i fenomenistudiati (il processo di osservazione), ma anche per descrivere il processo diapprendimento dall’esperienza.

Come sempre supponiamo che X ⊂ Rn e Θ ⊂ Rd. Un modello statisticoBayesiano, in questo caso, e dato da

Θ, π,X, P (·|θ)

dove: P (·|θ) = Pθ e la legge del vettore delle osservazioni nell’ipotesi che ilparametro incognito sia θ, Θ e uno spazio di parametri nei quali varia θ, πe una misura di probabilita (m.d.p.) su Θ.

A questo punto occorre definire la legge congiunta di osservazioni e pa-rametro. Come sempre assumiamo che Pθ ammetta una densita f(x|θ) perogni θ in Θ rispetto ad una misura (σ-finita) µ. Si noti che f(x|θ) e esat-tamente cio che in precedenza abbiamo indicato con fθ(x), tuttavia, permotivi che saranno chiari fra poco, preferiamo qui una differente notazione.

Per assegnare la legge congiunta di osservazioni-parametro, si ricorre alparadigma di Bayes-Laplace. Ossia assumiamo che: la legge congiunta delprocesso di osservazione e del parametro e data da

Pξ1 ∈ dx1, . . . , ξn ∈ dxn, θ ∈ dθ =

f(x1, . . . , xn|θ)µ(dx1 . . . dxn)π(dθ).(7)

L’espressione (7) non e altro che una forma abbreviata per indicare che laprobabilita P e l’unica probabilita caratterizzata dal fatto che

Pξ1 ∈ A1, . . . , ξn ∈ An, θ ∈ B =

∫A1×···×An×B

f(x1, . . . , xn|θ)µ(dx1 . . . dxn)π(dθ).

per ogni scelta di insiemi misurabili A1, . . . , An, B. Tale forma abbreviatasara spesso usata nel resto di questi appunti.

1. INTRODUZIONE ELEMENTARE ALLA STATISTICA BAYESIANA 33

Proposizione 3.1. Sotto le ipotesi precedenti f(x1, . . . , xn|θ) risulta

essere la densita condizionale di (ξ1, . . . , ξn) dato θ e π la legge di θ.

Esercizio 7. Dimostrare la Proposizione precedente.

Ne segue che la legge marginale delle osservazioni e

Pξ1 ∈ dx1, . . . , ξn ∈ dxn =[ ∫

Θf(x1, . . . , xn|θ)π(dθ)

]µ(dx1 . . . dxn).

Come accennato, uno dei punti cruciali dell’impostazione Bayesiana eil fatto che consente di formalizzare il processo di apprendimento dall’espe-rienza. Infatti, osservato (ξ1, . . . , ξn) = (x1, . . . , xn) si aggiorna l’opinioneiniziale sul parametro incognito (ossia π(dθ)) con il teorema di Bayes.

Si noti che se π(dθ) ammette una densita π(θ) 1, applicando il teroemadi Bayes per denisia si ottiene facilmente l’espressione della distribuzionefinale (posterior) (ossia la distribuzione condizionale di θ dato (ξ1, . . . , ξn)):

π(θ|x1:n) =f(x1, . . . , xn|θ)π(θ)∫

Θ f(x1, . . . , xn|u)π(u)du

dovex1:n = (x1, . . . , xn).

Piu in generale possiamo definire la distribuzione finale come segue.

Definizione 3.2. La distribuzione finale, posterior, e

π(dθ|x1:n) =f(x1, . . . , xn|θ)π(dθ)∫

Θ f(x1, . . . , xn|u)π(du)

dovex1:n = (x1, . . . , xn).

Il passaggio da π a π(·|x1:n) e cio che abbiamo appreso dai dati.

Supponendo che il processo di osservazione sia proseguibile, si puo con-siderare anche la distribuzione predittiva, ossia

Pξn+1 ∈ dxn+1|ξ1:n = x1:nEssa serve se si vuole dare una previsione dell’n + 1–esima osservazioneavendo osservato le prime n-realizzazioni del processo di osservazione.

Molto spesso si assume che, per ogni n ≥ 1, la densita condiziona-le f(x1, . . . , xn|θ) (rispetto ad una misura µ(dx1) · · ·µ(dxn)) fattorizzi nelprodotto

f(x1, . . . , xn|θ) =

n∏i=1

f(xi|θ),

1Con un certo abuso di linguaggio indicheremo con π sia la misura di probabilita chela sua densita (qualora esista).

34 3. STATISTICA BAYESIANA

ossia che, condizionatamente al parametro θ, le osservazioni siano indipen-denti ed identicamente distribuite con densita f(·|θ). Chiaramente in questocaso il processo e infinitamente proseguibile. Inoltre notiamo che poiche

Pξ1 ∈ dx1, . . . , ξn ∈ dxn =

∫Θ

n∏i=1

f(xi|θ)µ(dx1) . . . µ(dxn)π(dθ),

la legge di (ξ1, . . . , ξn) e scambiabile, ossia invariante per permutazioni fi-nite. In altri termini, per ogni permutazione di σ di 1, . . . , n la legge di(ξ1, . . . , ξn) e ugale alla legge di (ξσ(1), . . . , ξσ(n)).

Nel caso ora esaminato la distribuzione predittiva prende la forma par-ticolarmente significativa

Pξn+1 ∈ dxn+1|ξ1:n = x1:n =

∫Θf(xn+1|θ)π(dθ|x1:n)µ(dxn+1).

Esercizio 8. Dimostrare la formula precedente.

Vi sono due tipi diversi di inferenza nella statistica bayesiana: l’inferenzapredittiva e l’inferenza sul parametro.

-INFERENZA PREDITTIVA. Essa risponde alla necessita di fornire unavalutazione di probabilita sull’n + k–esima osservazione condizionatamentealla conoscenza delle prime n-realizzazioni del processo di osservazione. Sibasa sulla determinazione della distribuzione predittiva. In ques’ottica ladeterminazione della distribuzione finale e solo uno strumento per calcolarela distribuzione finale e non ha particolare interesse in se stesso. Si veda5.1.2 e 5.1.3 in [1].

-INFERENZA PARAMETRICA. E’ l’inferenza che ha come oggetto ilparametro θ. Per tale tipo di inferenza si puo riportare la legge finale oppurequalche sua funzione. Ad esempio, se il parametro di interesse e un numeroreale, si puo calcolare la media a posteriori

E[θ|ξ1:n = x1:n] =

∫Rθπ(dθ|x1:n)

e la varianza a posteriori∫R

(θ −∫Ruπ(u|x1:n)du)2π(dθ|x1:n)

per avere un riassunto delle informazioni realtive alla distribuzione a poste-riori del parametro. In questo caso si pensa al parametro θ (e di conseguenzaalla sua legge) come qualcosa interessante dal punto di vista statistico. Inquesto ambito e possibile formulare sia problemi di stima (puntuale o perintervalli) del parametro, sia problemi di test d’ipotesi. Anche se occorretenere a mente che per l’impostazione Bayesiana il parametro e esso stessoun ente aleatorio, e quindi non avra senso parlare di parametro vero.

2. ELEMENTI DI TEORIA DELLE DECISIONI 35

2. Elementi di teoria delle decisioni

La teoria delle decisioini e un ampio settore della statistica. Essa eutilizzata sia in ambito frequentista che in ambito classico. Qui introduciamoalcuni elementi minimali di teoria delle decisioni per far campire come essapossa essere utilmente usata in ambito bayesiano per guidare le scelte dellostatistico.

Lo studente interessato legga il paragrafo 2.5 di Ghosh et al. [5].

Schematicamente nella teoria delle decisioni si hanno

• A: spazio delle azioni.• D: spazio delle decisioni , ossia un insieme di funzioni (misurabili)

da X in A.• L: funzione di danno. L : Θ × A → R+, tale per cui L(θ, a)

”rappresenta” la perdiata alla quale va in contro lo statistico chesceglie a quando il parametro e θ.

Nel seguito poniamo supponiamo che

X = Rn

e indichiamo con f(x1, . . . , xn|θ) la densita di Pθ.

A partire dalla verosimiglianza f e dalla funzione di danno L, per ognidecisione δ si possono definire vari costi.

Definizione 3.3. Il costo medio di una decisione δ e

Rn(θ, δ) := E[L(θ, δ(ξ1:n))|θ = θ] =

∫RnL(θ, δ(x1:n))f(x1:n|θ)dx1 . . . dxn.

Definizione 3.4. Il costo iniziale di una decisione δ e

Rn(δ) :=

∫ΘRn(θ, δ)π(dθ) = E[L(θ, δ(ξ1:n))].

Definizione 3.5. Il costo a posteriori di una decisione δ:

ψn(δ(ξ1:n)) := E[L(θ, δ(ξ1:n))|ξ1:n] =

∫ΘL(θ, δ(ξ1:n))π(θ|ξ1:n)dθ.

Definizione 3.6. Bayes estimator. Una scelta Bayesiana ottima aposteriori e definita come un elemento δn di D tale che

ψn(δn(ξ1:n)) = minδ∈D

ψn(δ(ξ1:n))

per ogni realizzazione di ξ1:n.

Chiaramete E(ψn(δ(ξ1:n)) = E(E[L(θ, δ(ξ1:n))|ξ1:n]) = Rn(δ).

A questo punto si verifica facilmente (farlo per esercizio) che ogni sceltabayesiana ottima a posteriori minimizza Rn(δ). (Si veda il Thm.2.7 in Ghoshet al. [5].)

36 3. STATISTICA BAYESIANA

Esempio 23 (Stima puntuale-costo quadratico). In questo caso

A = Θ = Re

L(θ, a) = |θ − a|2.Allora

Rn(θ, δ) =

∫Rn|θ − δ(x1:n)|2f(x1, . . . , xn|θ)dx

e l’errore quadratico medio. Lo stimatore Bayesiano e in questo caso lamedia a posteriori, infatti

argminδE[|θ − δ(ξ1:n)|2|ξ1:n] = E[θ|ξ1:n].

Questo esempio giustifica l’uso (assai frequente) della media a posterioricome stima bayeisiana del parametro.

Esempio 24 (Tests). In questo caso

A = 0, 1dove 0 = accetto H0 = θ ∈ Θ0 e 1 = rifiuto H0, ossia vale H1 = θ ∈ Θ1,dove Θ0 ∪Θ1 = Θ. Se

L(θ, a) = 1− IΘa(θ),

Rn(θ, δ) risulta uguale all’errore di primo tipo se θ appartiene a Θ0 a quellodi secondo tipo se θ appartiene a Θ1.

3. Due esempi base

Esempio 25 (Binomiale-Beta). Consideriamo il caso in cui

X = 0, 1n, Θ = (0, 1)

e assumiamo che le osservazioni siano indipendenti e identicamente distri-buite condizionatamente al parametro θ con densita

f(x|θ) = θx(1− θ)1−x x = 0, 1 θ ∈ (0, 1).

Come prior scegliamo

π(dθ) = B(a, b)−1I(0,1)(θ)θa−1(1− θ)b−1dθ (a > 0, b > 0)

con

B(a, b) =

∫ 1

0θa−1(1− θ)b−1dθ.

In questo caso la legge congiunta e

Pθ ∈ dθ, ξ1:n = x1:n = θ∑ni=1 xi(1− θ)1−

∑ni=1 xiθa−1(1− θ)b−1 I(0,1)(θ)

B(a, b)dθ.

e la posterior e

π(θ|x1:n) =θa+

∑ni=1 xi−1(1− θ)b+n−

∑ni=1 xi−1J(0,1)(θ)

B (a+∑n

i=1 xi, b+ n−∑n

i=1 xi).

3. DUE ESEMPI BASE 37

Possiamo calcolare media e varianza a posteriori:

E[θ|ξ = x1:n] =a+

∑ni=1 xi

a+ b+ n

V ar[θ|ξ = x1:n] =(a+

∑ni=1 xi)(b+ n−

∑ni=1 xi)

(a+ b+ n)2(a+ b+ n+ 1).

Si ricordi che se X e una variabile con legge Beta(a, b) allora

E(X) =a

a+ b

V ar(X) =ab

(a+ b)2(a+ b+ 1).

Esempio 26 (Normale-Normale). Consideriamo

X = Rn, Θ = R

π(dθ) =1√2πa

exp− 1

2aθ2dθ = N (0, a)(dθ).

Anche in questo caso assumiamo che le osservazioni siano condizionatamen-te (al parametro) indipendenti con comune densita

f(x|θ) =1√2π

exp−1

2(x− θ)2.

Allora

π(θ|x1:n) ∝ exp−1

2

n∑i=1

(xi − θ)2 − 1

2θ2/a

= exp−1

2(n∑i=1

x2i + θ2(n+ 1/a)− 2

n∑i=1

xiθ)

∝ exp−1

2(n+ 1/a)

(θ − 1

n+ 1/a

n∑i=1

xi

)2

ossia la distribuzione finale di θ e

N( 1

n+ 1/a

n∑i=1

xi,1

n+ 1/a

).

Media e varianza a posteriori sono:

E[θ|ξ = x1:n] =1

n+ 1/a

n∑i=1

xi

V ar[θ|ξ = x1:n] =1

n+ 1/a.

38 3. STATISTICA BAYESIANA

Esercizio 9. Si consideri

Xn = R, Θ = R

π(dθ) =1√2πa

exp− 1

2a(θ − η)2dθ = N (η, a)(dθ).

f(x|θ) =1√

2πσ2exp− 1

2σ2(x− θ)2

(σ,η ed a noti). Dimostrare che

π(dθ|x1:n) = N(

a+

1

σ2

n∑i=1

xi)/(a−1 + n/σ2),

σ2a/n

σ2/n+ a

)(dθ).

CAPITOLO 4

Sufficienza e Completezza.

1. Statistiche Sufficienti.

Come gia ricordato qualunque funzione del campione ξ e usualmentechiamata statistica o riassunto del campione.

La prima caratteristica di cui tratteremo e la sufficienza. Il concettodi sufficienza in statistica e molto intuitivo: si tratta di definire quandouna statistica, che di per se rappresenta una forma di riduzione dei dati,non comporti perdita di informazione nel contesto di un modello statisticoPθ, θ ∈ Θ.

Chiaramente se ξ = (ξ1, . . . , ξn) e un vettore aleatorio che rappresenta ilprocesso di osservazione e T (ξ1, . . . , ξn) e una opportuna statistica a valoriin RM , allora, fissato θ, resta ben definita la legge congiunta del vettore

(ξ, T (ξ)).

Supponiamo che tale legge sia discreta e indichiamo con gθ la sua densita,ossia

gθ(x, t) = Pθξ = x, T (ξ) = t.

Per costruzione ∑t

gθ(x, t) = fθ(x) = Pθξ = x.

Inoltre la densita marginale di T (ξ) e

gθ:T (t) =:∑x

gθ(x, t)

e la densita condizionale di ξ dato T (ξ) = t e

gθ:ξ|T (x|t) =gθ(x, t)

gθ:T (t)= Pθξ = x|T (ξ) = t.

Si noti che occorre concordare sulla definizione di gθ:ξ|T (x|t) nel caso incui PθT (ξ) = t = 0. In questo caso la definizione di gθ:ξ|T (x|t) e arbitraria,infatti per qualunque scelta resta vera la relazione

Pθξ = x, T (ξ) = t = Pθξ = x|T (ξ) = tPθT (ξ) = t,39

40 4. SUFFICIENZA E COMPLETEZZA.

che possiamo assumere come definizione di probabilita condizionale anchequando PθT (ξ) = t = 0. Data l’arbitrarita di tale scelta, sarebbe piucorretto parlare di una versione della densita condizionale di ξ dato T (ξ).

Nel caso in cui la legge di ξ sia discreta, una statistica T e detta suffi-ciente se (una versione del)la densita condizionale di ξ dato T (ξ) = t, nondipende da θ per ogni valore di t.

La definizione precedente va precisata con maggior cura nel caso in cui lalegge di (ξ, T (ξ)) non sia discreta. Ad esempio se ξ ha distribuzione uniformesu [−θ, θ] e T (ξ) = ξ2 il vettore congiunto (ξ, T (ξ)) non e discreto e nemmenoassolutamente continuo. Tuttavia, come ricordato in precedenza, si puoconsiderare egualmente la legge condizionale di ξ dato T (ξ), ad esempiocalcolando la funzione di ripartizione condizinale. In questo esempio si puodimostrare che

dFθ:T (ξ)(t) = I(0,θ)(√t)

dt

2θ√t

dFθ:ξ|T (ξ)(x|t) =1

2δ−√t(dx) +

1

2δ+√t(dx).

La formula precedente e intuitiva perche fissato ξ2 = t e chiaro che persimmetria (la distribuzione di ξ e uniforme) ξ = ±

√t con probabilita 1/2.

Naturalmente il discorso precedente e solo intuitivo. Lo studente interessatopuo provare a dimostrare quanto enunciato usando la definizione di funzionedi ripartizione condizionale. In ogni caso, prendendo per buona la precedenteformula, in questo caso dFθ:ξ|T (ξ)(x|t) non dipende da θ.

Definizione 4.1. Una statistica T e detta sufficiente se la legge con-dizionale di ξ dato T (ξ) non dipende da θ, ossia se esiste una funzione diripartizione condizionale G indipendente da θ tale che, per ogni θ, G(·|·) siauna versione di Fθ:ξ|T (ξ)(·|·).

Esempio 27. a) Nell’Esempio 6 si consideri T (x) =∑n

i=1 xi =: |x|. Dalmomento che(8)

Pθ(ξ1 = x1, ..., ξn = xn||ξ| = s) =

0 se s 6= |ξ|Pθ(ξ=x1,...,ξn=xn)

Pθ(|ξ|=s) = 1/( ns)

se s = |ξ|,

Dunque |ξ| e una statistica sufficiente.

b) Nell’Esempio 7 si ponga T (x) =∑n

i=1 xi =: |x|. Si ha(9)

Pθ(ξ = x1, ..., ξn = xn||ξ| = s) =

0 se s 6= |ξ|Pθ(ξ=x1,...,ξn=xn)

Pθ(|ξ|=s) = s!∏ni=1 xi!

1ns se s = |ξ|.

Anche in questo caso essa non dipende da θ e dunque |ξ| e una statisticasufficiente.

1. STATISTICHE SUFFICIENTI. 41

Quando si ha a che fare con modelli che non sono discreti verificare pervia diretta se una statistica sia sufficiente puo essere complicato. Per questomotivo risulta molto utile il successivo teorema.

Teorema 4.2 (di fattorizzazione di Neyman). Sia (X,X , Pθ : θ ∈ Θ)uno modello statistico dominato. Una statistica T (ξ) e sufficiente se e solo seper ogni θ ∈ Θ esiste una funzione misurabile φθ ed una funzione misurabileh tale che tale che x 7→ φθ(T (x))h(x) sia una densita di ξ sotto Pθ.

In altri termini

T e sufficiente ⇔ fθ(x) = Φθ(T (x))h(x).

La dimostrazione di questo teorema e omessa perche richiede strumentileggermente piu sofisticati di quelli presupposti per il corso. Dimostriamo ilteorema solo nel caso semplice in cui la legge di ξ sia discreta.

Dimostrazione per il caso discreto. Supponiamo che

fθ(x) = Φθ(T (x))h(x).

Dal momento che T e una funzione deterministica, per ogni x tale che Pθξ =x > 0 esiste un’unico t tale che t = T (x), inoltre si ha che

PθT (ξ) = t =∑

y:T (y)=t

Pθξ = y ≥ Pθξ = x > 0.

Siano allora (x, t) tali che Pθξ = x > 0 e t = T (x). In questo caso

Pθξ = x|T (ξ) = t =Pθξ = x, T (ξ) = t

PθT (ξ) = t=

Pθξ = x, T (x) = t∑y:T (y)=t Pθξ = y

=Pθξ = x∑

y:T (y)=t Pθξ = y=

Φθ(T (x))h(x)∑y:T (y)=t Φθ(T (y))h(y)

=Φθ(t)h(x)∑

y:T (y)=t Φθ(t)h(y)=

h(x)∑y:T (y)=t h(y)

che non dipende da θ. Se Pθξ = x = 0 la distribuzione condizionale euguale a zero e quindi non dipende da θ, infine se t 6= T (x) la distribuzionecondizionale e arbitraria e quindi possiamo sceglierla indipendente da θ.

Viceversa, supponiamo che T sia sufficiente. Considerando ancora unacoppia (x, t) tale che Pθξ = x > 0 e t = T (x). In questo caso

Pθξ = x = Pθξ = x, T (x) = t = Pθξ = x, T (ξ) = t= Pθξ = x|T (ξ) = tPθT (ξ) = t.

Dal momento che t = T (x) si ha che

PθT (ξ) = t =∑

y:T (y)=T (x)

Pθξ = y =: Φθ(T (x))

42 4. SUFFICIENZA E COMPLETEZZA.

e, per l’ipotesi di sufficienza,

Pθξ = x|T (ξ) = t = Pθξ = x|T (ξ) = T (x) =: h(x).

Cio conclude la dimostrazione.

Definizione 4.3. Una statistica sufficiente U(ξ) per un modello (X,X , Pθ :θ ∈ Θ) e detta minimale se per ogni statistica sufficiente T (ξ) esiste unafunzione misurabile g tale che

PθU(ξ) = g(T (ξ)) = 1

per ogni θ.

Una statistica minimale e detta anche necessaria. Infatti essa rappre-senta il risultato della riduzione massima per l’osservazione campionaria.

2. Statistiche complete.

Definizione 4.4. Una statistica T si dice completa se per ogni funzioneφ misurabile, tale che Eθ[|φ(T (ξ))|] < +∞ per ogni θ e che soddisfa

Eθ[φ(T (ξ))] = 0 ∀ θ ∈ Θ

risulta

(10) Pθφ(T (ξ)) = 0 = 1 ∀ θ ∈ Θ.

Definizione 4.5. Una statistica T si dice l-completa se per ogni fun-zione φ misurabile e limitata che soddisfa

Eθ[φ(T (ξ))] = 0 ∀ θ ∈ Θ

risulta

(11) Pθφ(T (ξ)) = 0 = 1 ∀ θ ∈ Θ.

Ogni statistica completa e anche l-completa; non vale in genere il vice-versa.

Teorema 4.6 (Bahadur). Se U(ξ) e una statistica sufficiente a valoriin Rk e l-completa per il modello dominato (X,X , Pθ) : θ ∈ Θ, allora U esufficiente minimale.

Dimostrazione. Per semplicita scriviamo U al posto di U(ξ) e T al postodi T (ξ). Per ipotesi U = (U1, . . . , Uk). Si ponga Vi(U) = 1/(1 + exp(Ui)).Chiaramente Vi e biettiva e limitata. Poniamo

Hi(t) = Eθ[Vi(U)|T = t] =

∫Vi(U(x))dFθ:ξ|T (ξ)(x|t)

Li(u) = Eθ[Hi(T )|U = u] =

∫Hi(T (x))dFθ:ξ|U(ξ)(x|u).

2. STATISTICHE COMPLETE. 43

Osserviamo che Hi e Li non dipendono da θ perche T ed U sono sufficientied inoltre sono limitate poiche Vi e limitata. Per come abbiamo definito Hi

e Li, si verifica facilmente usando ripetutamente la (1) che

Eθ[Vi(U(ξ))] = Eθ[Hi(T (ξ))] = Eθ[Li(U(ξ))]

per ogni θ (farlo!). Dal momento che Vi e limitata e U e l-completa ne segueche

PθVi(U) = Li(U) = 1

per ogni θ. Di conseguenza

Eθ[Li(U)|T ] = Hi(T ).

A questo punto, si ricordi che date due variabili aleatorie η, ζ si ha perdefinizione

V ar(η|ζ) = E[η2|ζ]− (E[η|ζ])2 = E[(η − E[η|ζ])2|ζ]

(si noti che V ar(η|ζ) e una variabile aleatoria). Inoltre

V ar(η) = E[V ar(η|ζ)] + V ar(E[η|ζ])

Combinando quanto fin qui dimostrato, si ottiene

V arθ(Hi(T )) = Eθ[V arθ(Hi(T )|U)] + V arθ(Li(U))

V arθ(Li(U)) = Eθ[V arθ(Li(U)|T )] + V arθ(Hi(T )).

Dal precedente sistema si conclude che

Eθ[V arθ[Li(U)|T ]] = −Eθ[V arθ[Hi(T )|U ]]

e quindi V arθ[Li(U)|T ] = 0 Pθ q.c.. Poiche Li(U) = Vi(U) q.c., segue cheV arθ[Vi(U)|T ] = 0 Pθ q.c. e dunque Vi(U) = Eθ[Vi(U)|T ] = Hi(T ) Pθ q.c..Cio conclude la dimostrazione perche risulta Ui = V −1

i (Hi(T )).

Definizione 4.7. Una statistica T si dice libera per il modello (X,X , Pθ) :θ ∈ Θ se la sua legge e indipendente da θ.

Teorema 4.8 (Basu). Siano T1 e T2 rispettivamente una statistica suf-ficiente l-completa e libera per il modello (X,X , Pθ) : θ ∈ Θ. Allora T1 eT2 sono stocasticamente indipendenti per ogni θ ∈ Θ.

Dimostrazione. Se T1 e sufficiente per definizione la funzione di riparti-zione condizionale di ξ dato T1(ξ) = t1 non dipende da θ. Indichiamola conGξ|T1(x|t1). Inoltre indichiamo con γ la funzione di ripartizione di T2. An-che’essa e indipendente da θ poiche T2 e libera. Fissato A (nella σ-algebra

44 4. SUFFICIENZA E COMPLETEZZA.

di arrivo di T2), supponendo che T1 assuma valori in Rm,∫Adγ(t2) = PθT2(ξ) ∈ A = Pθξ : T2(ξ) ∈ A, T1(ξ) ∈ Rm

=

∫Rm

(∫x:T2(x)∈A

dGξ|T1(x|t1)

)PθT1(ξ) ∈ dt1

= Eθ[∫x:T2(x)∈A

dGξ|T1(x|T1(ξ))].

Dunque

0 = Eθ

(∫Adγ(t2)−

∫x:T2(x)∈A

dGξ|T1(x|T1(ξ))

).

L’ultima uguaglianza vale per ogni θ ∈ Θ e, poiche T1 e l-completa, essaimplica

∫Aγ(dt2) =

∫x:T2(x)∈A

γξ|T1(dx|T1(ξ))

= 1.

Pertanto, per ogni B misurabile, si ha

PθT2(ξ) ∈ A, T1(ξ) ∈ B =

∫B

∫x:T2(x)∈A

dGξ|T1(x|t1Pθ(T1(ξ) ∈ dt1)

=

∫B

∫Aγ(dt2)Pθ(T1(ξ) ∈ dt1)

= PθT2(ξ) ∈ APθT1(ξ) ∈ B.

CAPITOLO 5

Famiglia esponenziale

1. Famiglia esponenziale

Un modello X,X , Pθ : θ ∈ Θ e detto famiglia esponenziale se esisteuna funzione misurabile T : X → Rk, una misura σ–finita µ su (X,X ) e unafunzione misurabile η : Θ→ Rk tale che

(12) Pθ(B) :=

∫B

exp(η(θ), T (x))− ψ(θ)µ(dx) (B ∈ X )

dove (v, w) indica il prodotto scalare in Rk e, per ipotesi,

ψ(θ) := log

∫X

exp(η(θ), T (x))µ(dx) < +∞

per ogni θ in Θ.

Si noti che in generale noi avremo a che fare con misrue µ che ammettonodensita ripsetto alla misura di conteggio oppure alla misura di Lebesgue, inaltri termini spesso ci troveremo in situazioni in cui

Pθ(B) :=

∫B

exp(η(θ), T (x))− ψ(θ)h(x)dx (B ∈ X )

per un’opportuna funzione h ≥ 0 tale che∫h(x)dx < +∞ oppure

Pθ(B) :=∑x∈B

exp(η(θ), T (x))− ψ(θ)h(x) (B ∈ X )

con∑

x h(x) < +∞. Nel primo caso µ(dx) = h(x)dx, nel secondo µ(dx) =h(x)C(dx) dove C(dx) e la misura di conteggio suX. Quindi, per riconoscereuna famiglia esponenziale, si puo procedere come quando vogliamo usare ilteorema di fattorizzazione e dimostrare che la densita di Pθ rispetto allamisura di Lebesgue (oppure alla misura di conteggio) su X e della forma

fθ(x) = exp(η(θ), T (x))h(x).

A questo punto e d’obbligo un’osservazione: non ci si deve confondre con lasimbologia, infatti, possiamo anche affermare che una densita per il nostromodello statistico rispetto alla misura µ(dx) = h(x)C(dx) (oppure µ(dx) =h(x)dx) e data da

fθ(x) = exp(η(θ), T (x)).Come naturale, parlando di densita, occorre specificare rispetto a qualemisura stiamo lavorando.

45

46 5. FAMIGLIA ESPONENZIALE

Esempio 28. Consideriamo il modello di Poisson dell’Esempio 7. Talemodello puo essere visto come famiglia esponenziale. In questo caso µ e lamisura la cui densita rispetto alla misura di conteggio su Nn e data da

h(x) =1∏n

i=1 xi!,

k risulta essere pari ad 1, T (x) =∑n

i=1 xi, η(θ) = log(θ), Θ = R+ e

ψ(θ) = nθ. Introduciamo ora una riparametrizzazione del precedente mo-dello ponendo H = η(Θ) = R e riparametrizzando Pθ : θ ∈ Θ comeQη := Peη : η ∈ R. Si noti che il nuovo modello e una reale riparametriz-zazione in quanto la funzione log e biettiva da R+ in R. Il nuovo modello ecaratterizzato dalla misura di probabilita Qη(dx) := expηT (x)−ψ(η)µ(dx),ossia e ancora una famiglia esponenziale in cui la funzione η e l’identita.

L’esempio precedente suggerisce che, talvolta, un modello esponenzialeX,X , Pθ : θ ∈ Θ puo essere riparametrizzato come X,X , Qη : η ∈ H,dove H = η(Θ), e Qη(B) :=

∫B exp(η, T (x))− ψ(η)µ(dx).

Data una funzione misurabile T : X → Rk e una misura σ–finita µ su(X,X ) si puo sempre definire una famiglia esponenziale definendo

H := η ∈ Rk :

∫X

exp(η, T (x))µ(dx) < +∞

e per ogni η in H ponendo

(13) Qη(B) :=

∫B

exp(η, T (x))− ψ(η)µ(dx) (B ∈ X )

con

ψ(η) := log

∫X

exp(η, T (x))µ(dx).

Se la famiglia esponenziale si presenta nella forma (13) viene detta canoni-ca. Da una qualunque famiglia esponenziale si ottiene sempre una famigliacanonica, tuttavia non e detto che quest’ultima sia una riparametrizzazionedella famiglia originaria, ossia non e detto che η sia biettiva. Non solo, ingenerale, presa una famiglia esponenziale in forma canonica (13) non e dettoche X,X , Qη : η ∈ H sia un modello identificabile.

Indichiamo con µT la misura immagine su Rk di µ tramite T , ossiaµT (A) = µT−1(A) per ogni A in B(Rk).

Prima di proseguire ricordiamo che per ogni funzione φ che sia µTintegrabile, si ha (per cambiamento di variabili)∫

Xφ(T (x)))µ(dx) =

∫Rkφ(y)µT (dy),

(si veda, ad esempio, Lemma 1.22 [6]) e quindi, in particolare,

exp(ψ(η)) =

∫X

exp(η, T (x))µ(dx) =

∫Rk

exp(η, y))µT (dy).

2. MOMENTI 47

Ricordiamo che il supporto di una misura ν su i boreliani di uno spaziotopologico U con topologia U e definito come l’insieme di tutti i punti u diU tali per cui ogni intorno di u ha misura positiva. In formule

supp(ν) := u ∈ U : per ogni N ∈ U tale che u ∈ N allora ν(N) > 0.

Nel seguito supporremo che l’interno del convessificato del supporto diµT sia non vuoto.

Lemma 5.1. ψ e una funzione convessa da H in R e H e un sottoinsiemeconvesso di Rk.

Dimostrazione. Dato che il dominio di una funzione convessa e un con-vesso e chiaro che e sufficiente dimostrare la convessita di ψ. Per ogni ε in(0, 1) ed ogni coppia di funzioni non negative u e v, la disuguaglianza diHolder fornisce∫

u(y)v(y)µT (dy) ≤(∫

u(y)1εµT (dy)

)ε(∫v(y)

11−εµT (dy)

)1−ε

da cui prendendo i logaritmi

log

∫u(y)v(y)µT (dy) ≤ ε log

(∫u(y)

1εµT (dy)

)+(1−ε) log

(∫v(y)

11−εµT (dy)

).

Scegliendo ora u(y) = expε(η1, y) e v(y) = exp(1− ε)(η2, y) si ha che

ψ(εη1 + (1− ε)η2) ≤ εψ(η1) + (1− ε)ψ(η2).

Da cui segue immediatamente la tesi.

Come gia detto, il modello X,X , Qη : η ∈ H e detto famiglia espo-nenziale in forma canonica e quandoH ha interno non vuoto tale famigliasi dice regolare.

2. Momenti

Se X,X , Pη : η ∈ H e una famiglia esponenziale regolare in formacanonica con statistica sufficiente e completa T ed η appartiene all’internodi H, allora e immediato calcolare la funzione generatrice dei momenti diT (ξ) sotto Pη, infatti

(14) Mη(z) := Eη[e(z,T (ξ))] =

∫µ(dx)e(z+η,T (x))−ψ(η) = eψ(z+η)−ψ(η),

con Mη(z) finita se η + z appartiene ad H. In altri termini si e dimostratoche, per ogni η nell’interno di H, T (ξ) ammette generatrice dei momentifinita in un intorno dell’origine sotto Pη .

Prima di proseguire occorre ricordare alcuni importanti risultati sullafunzione generatrice dei momenti. Iniziamo dal caso monodimensionale.Sia M una funzione generatrice dei momenti di una variabile aleatoria Y ,ossia M(z) = E[ezY ]. Si supponga che M sia (ben) definita in un introno

48 5. FAMIGLIA ESPONENZIALE

dell’origine, diciamo per ogni z con |z| ≤ δ. Poiche e|zx| ≤ e−zx + ezx risulta

che E[e|zY |] ≤M(z) +M(−z) < +∞. D’altra parte e|zx| =∑

k≥0 |zx|k/k! e

ezx =∑

k≥0(zx)k/k!, quindi possiamo concludere che∑k≥0

|z|k

k!|E[Y k]| ≤

∑k≥0

|z|k

k!E[|Y |k] = E[e|zY |] < +∞

per ogni z tale che |z| ≤ δ. Abbiamo cosı dimostrato sia che Y ammettemomenti finiti di ogni ordine sia che

M(z) =∑k≥0

zkak

con ak := E[Y k]k! e

∑k≥0 |z|k|ak| < +∞ per ogni z : |z| ≤ δ. In altri

termini, M si puo sviluppare in serie di potenze in un introno dell’origine.In particolare, per le proprieta delle serie di potenze: (i) M ammette derivatedi ogni ordine per |z| < δ; (ii) le derivate di M si possono calcolare derivandotermine a termine la serie, (iii) la serie delle derivate risulta assolutamenteconvergente per |z| < δ. Come conseguenza, i momenti di Y possono esserefacilmente calcolati per derivazione, ossia

M (k)(0) = E[Y k].

Nel caso multidimensionale vale un risultato analogo (anche se la dimostra-zione e piu laboriosa, si veda Eserizio 13). Se Y e un vettore aleatorio di

dimensione k e M(z) := E[e(z,Y )] e ben definita per |z| ≤ δ, allora

∂i1+···+ik

∂zi11 . . . ∂zikkM(z)

∣∣∣z=0

= E[Y i11 . . . Y ik

k ]

Usando questo fatto e la (14) si ottiene la seguente

Proposizione 5.2. Sia X,X , Pη : η ∈ H una famiglia esponenzia-

le regolare in forma canonica, allora per ogni (i1, . . . , ik) in Nk ed ogni ηappartenente all’interno di H si ha

Eη[T1(ξ)i1 . . . Tk(ξ)ik ] = e−ψ(η) ∂i1+···+ik

∂ηi11 . . . ∂ηikkeψ(η)

Ad esempio, se H ⊂ R, con semplici conti si ottiene

Eη(T (ξ)) = ψ(η)

Eη(T2(ξ)) = ψ(η)2 + ψ(η)

V arη(T (ξ)) = ψ(η).

In generale se Y = (Y1, . . . , Yn) e un vettore aleatorio, porremo

E[Y ] := (E[Y1], . . . , E[Yn])

3. COMPLETEZZA PER FAMIGLIE ESPONENZIALI IN FORMA CANONICA 49

eV ar(Y ) = [Cov(Yi, Yj)]ij

Piın generale dalla precedente proposizione segue che

Proposizione 5.3. Sia X,X , Pη : η ∈ H una famiglia esponenzialeregolare in forma canonica, ed η0 appartenga all’interno di H, allora

Eη0 [T (ξ)] = ∇ψ(η0)

eV arη0 [T (ξ)] = Hess[ψ(η0)]

dove ∇ψ(η0) = ( ∂ψ∂η1 (η0), . . . , ∂ψ∂η1 (η0)) e Hess[ψ(η0)] = [ ∂2ψ∂ηi∂ηj

(η0)]ij.

3. Completezza per famiglie esponenziali in forma canonica

Come conseguenza immediata del teorema di fattorizzazione si ha che Te una statistica sufficiente per il modello. Dimostriamo ora che T e ancheuna statistica completa.

Nel seguito, cambiando notazioni, indicheremo con Pη : η ∈ H unafamiglia esponenziale in forma canonica.

Prima di proseguire facciamo un’importante osservazione. Per costru-zione una famiglia esponenziale e un modello dominato da ogni elementodella famiglia, ossia:

(15) Pη0(A) = 0 ⇒ Pη(A) = 0 ∀η ∈ H.

Per dimostrare il prossimo enunciato abbiamo bisogno anche di ricordareun’altra importante proprieta delle funzioni generatrici dei momenti.

Proposizione 5.4. Siano Q1 e Q2 due misure di probabilita su Rk congeneratrice dei momenti finita in un’intorno dell’origine. Ossia

L1(z) =

∫e(z,x)Q1(dx) < +∞ ∀z : |z| ≤ δ

e

L2(z) =

∫e(z,x)Q2(dz) < +∞ ∀z : |z| ≤ δ.

Se L1(z) = L2(z) coincidono per ogni z in un’intorno dell’origine alloraQ1 = Q2.

Per una dimostrazione diretta del precedente risultato si veda ad esempiopagina 390 [3]. In realta, partendo dalle osservazioni sulla generatrice deimomenti fatte nel paragrafo precedente, nel caso k = 1 sappiamo che sottole condizioni della proposizione L1 e L2 sono funzioni sviluppabili in seriedi potenze in un introno dell’origine. Quindi, il prolungamento analitico diL1 e L2 devono coincidere con le funzioni caratteristiche di Q1 e Q2. Poichedue funzioni analitiche che coincidono su un intervallo coincidono ovunque si

50 5. FAMIGLIA ESPONENZIALE

ottiene che le funzioni caratteristiche di Q1 e Q2 coincidono e la proposizionesegue dal noto teorema di unicita delle funzioni caratteristiche.

Si noti che la proposizione precedente puo essere ri-enunciata come segue:

Corollario 5.5. Siano Y1 e Y2 due variabili aleatorie a valori in Rm.Sia T : Rm → Rk una funzione misurabile. Se esiste δ > 0 tale che

E[e(z,T (Yi))] < +∞ ∀z : |z| ≤ δ, i = 1, 2

e E[e(z,T (Y1))] = E[e(z,T (Y2))] per ogni z con |z| ≤ δ, allora la legge di T (Y1)e uguale alla legge di T (Y2), ossia

PT (Y1) ∈ A = PT (Y2) ∈ A ∀A ∈ B(Rk).

Un’altro semplice risultato che ci tornera utile nel corso della dimostra-zione e il seguente.

Proposizione 5.6. Sia Φ : Rk → R una funzione misurabile e Y unavariabile aleatoria definita su (Ω,F , P ) a valori in Rk. Se E[|Φ(Y )|] < +∞e

E[IY ∈ AΦ(Y )] = 0

per ogni A in B(Rk) allora PΦ(Y ) = 0 = 1.

Si noti in particolare che come corollario della precedente proposizionesi ottiene

Corollario 5.7. Sia T : Rm → Rk misurabile, sia Y una variabilealeatoria definita su (Ω,F , P ) a valori in Rm e sia Φ : Rk → R una funzionemisurabile. Se E[|Φ(T (Y ))|] < +∞ e

E[IY ∈ T−1(A)Φ(T (Y ))] = 0

per ogni A in B(Rk) allora PΦ(T (Y )) = 0 = 1.

Esercizio 10. Dimostrare la Proposizione e il Corollario precedenti.

Siamo ora pronti per enunciare e dimostrare la prossima importanteproposizione.

Proposizione 5.8. Sia X,X , Pη : η ∈ H una famiglia esponenzialeregolare in forma canonica, allora T e una statistica completa.

Dimostrazione. Fissato un valore η0 nell’interno di H, sia δ > 0 taleche la bolla di centro η0 e raggio δ sia contenuta in H. Allora, per ogni ηcontenuto nella bolla suddetta e per ogni A ∈ X si ha

Pη(A) =

∫A

exp(η−η0, T (x))−ψ(η)+ψ(η0) exp(η0, T (x))−ψ(η0)µ(dx)

3. COMPLETEZZA PER FAMIGLIE ESPONENZIALI IN FORMA CANONICA 51

dove z = (η − η0) appartiene ad un intorno I0 dell’origine di Rk. Sia φ unafunzione che soddisfa le condizioni della definizione di statistica completa.In particolare Eη(|φ(T (ξ))|) < +∞ e Eη[φ(T (ξ))] = 0 per ogni η in H, ossia

0 =

∫Xφ(T (x)) exp(η, T (x))− ψ(η)µ(dx)

=

∫Xφ+(T (x)) exp(η − η0, T (x))− ψ(η) + ψ(η0)Pη0(dx)

−∫Xφ−(T (x)) exp(η − η0, T (x))− ψ(η) + ψ(η0)Pη0(dx).

Si ha quindi, ricordando che z = η − η0,∫Xφ+(T (x)) exp(z, T (x))Pη0(dx) =

∫Xφ−(T (x)) exp(z, T (x))Pη0(dx) z ∈ I0.

Ponendo z = 0 si ottiene

Z :=

∫Xφ+(T (x))Pη0(dx) =

∫Xφ−(T (x))Pη0(dx).

Se Z = 0 si ha che φ+(T (ξ)) = φ−(T (ξ)) Pη0–quasi certamente. Grazie a(15) ne segue che

φ+(T (ξ)) = φ−(T (ξ)) Pηq.c.- ∀ η

e la dimostrazione e conclusa. Se invece Z > 0 si ha che∫X

exp(z, T (x)) φ+(T (x))Pη0(dx)∫X φ

+(T (s))Pη0(ds)=

∫X

exp(z, T (x)) φ−(T (x))Pη0(dx)∫X φ−(T (s))Pη0(ds)

.

L’ultima uguaglianza puo essere scritta come

E[e(z,T (Y1))] = E[e(z,T (Y2))],

dove Y1 e Y2 hanno legge

P+(dy) :=φ+(T (y))Pη0(dy)∫X φ

+(T (x))Pη0(dx).

e, rispettivamente,

P−(dy) :=φ−(T (y))Pη0(dy)∫X φ−(T (x))Pη0(dx)

.

In altri termini le funzioni generatrici dei momenti di T (Y1) e T (Y2) coinci-dono su I0 e grazie al Corollario 5.5, si ha che∫IT (x) ∈ Aφ+(T (x))Pη0(dx) =

∫IT (x) ∈ Aφ−(T (x))Pη0(dx) ∀ A ∈ X

e, quindi, dal Corollario 5.7 si ha φ+(T (ξ)) = φ−(T (ξ)) q.c.-Pη0 . Nuova-mente, si conclude grazie a (15).

52 5. FAMIGLIA ESPONENZIALE

Chiaramente se M = Qη : η ∈ H e una famiglia esponenziale informa canonica con T (x) statistica completa e M ′ = Pθ : θ ∈ Θ e unariparametrizzazione di M , ne segue che T e completa anche per M ′.

Esempio 29 (Modello Gaussiano.). Un caso particolare di modello espo-nenziale e rappresentato dal modello Gaussiano di parametro θ = (θ1, θ2) ∈(−∞,+∞)× [0,+∞). Si veda l’Esempio 8. Ponendo η1 = θ1

θ2e η2 = −1

2θ2si

ottiene una densita (rispetto alla misura di Lebesgue su Rn) riparametrizzatacome

expη1

n∑i=1

xi + η2

n∑i=1

x2i − ψ(η1, η2)

dove η = (η1, η2) ∈ (−∞,+∞)× (−∞, 0] e (x1, . . . , xn) ∈ Rn e il vettore diosservazioni. Si noti che in questo caso la forma canonica coincide con lariparametrizzazione appena introdotta, infatti e facile dimostrare (farlo peresercizio) che

H = η :

∫eη1

∑ni=1 xi+η2

∑ni=1 x

2i dx1 · · · dxn < +∞

e che = R × (0,+∞). La statistica sufficiente e completa e quindi data daT (ξ) = (T1(ξ), T2(ξ)) = (

∑ni=1 ξi,

∑ni=1 ξ

2i ).

Esempio 30 (Regressione gaussiana). Si consideri il modello di regres-sione lineare definito nell’Esempio 19 e per semplicita di notazione si pongazi,1 = zi. In altri termini

ξi = αzi + β + εi.

Si noti che, posto θ = (α, β, σ2), la densita (rispetto alla misura di Lebesgue)di (ξ1, . . . , ξn) puo essere riscritta come

fθ(x) =1

(2πσ2)n/2exp

− 1

2σ2

n∑i=1

(xi − αzi − β)2

= exp

−n

2log(2πσ2)− 1

2σ2

n∑i=1

(αzi + β)2

exp

− 1

2σ2

n∑i=1

x2i +

β

σ2

n∑i=1

xi +α

σ2

n∑i=1

zixi

e quindi e una famiglia esponenziale con k = 3,

η(θ) = (− 1

2σ2,β

σ2,α

σ2)

e

T (x) = (n∑i=1

x2i ,

n∑i=1

xi,n∑i=1

zixi).

4. RANGO E PARAMETRIZZAZIONE 53

Per tanto

(n∑i=1

ξ2i ,

n∑i=1

ξi,n∑i=1

ziξi)

risulta essere una statistica sufficiente. Per ottenere la forma canonica esufficiente riparametrizzare Θ come

(η1, η2, η3) = (− 1

2σ2,β

σ2,α

σ2).

Esempio 31 (Gaussiana p-dimensionale.). Si consideri il modello stati-stico in cui il processo di osservazione e un vettore ξ = (ξ1, . . . , ξp) gaussianomultivariato con vettore medie m = (m1, . . . ,mp) e matrice di covarianza(invertibile) S. In altri termini θ = (m,S) e

fθ(x) =1

(|det(S)|πp)1/2exp−1

2(S−1(x−m), (x−m)).

Se S−1 = [s(−1)ij ]ij, semplici conti forniscono

1

2

(S−1(x−m), (x−m)

)=

1

2(S−1x, x)− (S−1m,x) +

1

2(S−1m,m)

=∑i≤j

s(−1)ij xixj +

1

2

∑i

(∑j

s(−1)ij mj

)xi +

1

2(S−1m,m)

ossia fθ : θ ∈ Θ e una famiglia esponenziale con statistica sufficiente

T (x) = [x1, . . . , xp; xixj : 1 = i ≤ j ≤ p](ordinato come vettore) e

ψ(θ) = [(∑

j

s(−1)ij mj

): i = 1, . . . , p; s

(−1)ij : 1 = i ≤ j ≤ p]

(ordinato come vettore). Si noti che in questo caso la dimensione k dellafamiglia e pari a p(p+ 3)/2 (verificarlo!).

4. Rango e parametrizzazione

Una famiglia esponenziale regolare in forma canonica si dice di rango kse T (x) = (T1(x), . . . , Tk(x)) e, per qualche η in H, si ha

Pηk∑j=1

ajTj(ξ) = ak+1 = Pηx :k∑j=1

ajTj(x) = ak+1 < 1

per ogni a1, . . . , ak+1 reali tali che aj 6= 0 per almeno un j = 1, . . . , k + 1.

Enunciamo senza dimostrare il seguente risultato.

Proposizione 5.9. Sia X,X , Pη : η ∈ H una famiglia esponenzialeregolare in forma canonica con T (x) = (T1(x), . . . , Tk(x)) e H aperto. Allorasono equivalenti

54 5. FAMIGLIA ESPONENZIALE

(1) la famiglia e di rango k;(2) η e un parametro, ossia Pη : η ∈ H e identificabile;(3) V arη(T (ξ)) e definita positiva;(4) ψ e strettamente convessa.(5) ∇ψ e ben definita in H ed e un’applicazione iniettiva su H

Per la dimostrazione si veda [2] Thm. 1.6.4.

Esempio 32 (Multinomiale). Si consideri un modello statistico descrittoda un vettore ξ = (ξ1, . . . , ξn) di osservazioni i.i.d. a valori in 1, . . . , k ,dove

Pθξi = j = θj j = 1, . . . , k, i = 1, . . . , n

conθ ∈ Θ := θ ∈ Rk : θj > 0, j = 1, . . . , k,∑k

j=1 θj = 1. In questo caso

una densita per Pθ rispetto alla misura di conteggio su 1, . . . , kn e data da

fθ(x) =

n∏i=1

θxi =

k∏j=1

θTj(x)j = e

∑kj=1 log(θj)Tj(x)

con

Tj(x) =n∑i=1

Ixi = j.

Chiaramente Pθ : θ ∈ Θ e una famiglia esponenziale con statistica T (x) =(T1(x), . . . , Tk(x)). La forma canonica di tale famiglia esponenziale puoessere scritta come

f∗α(x) = expk∑j=1

αjTj(x)− n log(k∑j=1

eαj ).

dove α ∈ Rk. Per convincersi che f∗α(x) e ben definta per ogni α, bastaosservare che posto

θj = eαj/(k∑l=1

eαl)

con (α1, . . . , αk) in Rk si ha che f∗α coincide con fθ. In questa forma,tuttavia, il modello non e identificabile, infatti fα = fα+c per ogni vet-tore c = (c, . . . , c) (verificarlo!). Si noti che la T ha dimensione k ma

Pα∑k

j=1 Tj(ξ) = n = 1 e dunque il modello non ha rango k. Per ot-tenere una famiglia esponenziale in forma canonica identificabile poniamoηj = log(θj/θk) = αj−αk. In questo modo otteniamo la famiglia di denistia

qη(x) = expk−1∑j=1

ηjTj(x)− n log(1 +k−1∑j=1

eηj ).

In questo caso la statistica T (x) = (T1(x), . . . , Tk−1(x)) ha dimensione k−1e

eηj = Pηξ1 = j/Pηξ1 = k.

5. STIMATORI DI MASSIMA VEROSIMIGLIANZA 55

In particolare risulta evidente che in questa forma la famiglia e identificabileed e dunque di rango k − 1. Si noti che il modello e esattamente lo stessodescritto da Pθ : θ ∈ Θ.

5. Stimatori di massima verosimiglianza

Proposizione 5.10. Sia X,X , Pη : η ∈ H una famiglia esponenzia-le regolare in forma canonica di rango k con H aperto. Sia x0 il valoreosservato dei dati e si ponga t0 = T (x0). Se

(16) Pη0(T (ξ)− t0, c) > 0 > 0 ∀ c 6= 0

(per qualche η0, e quindi per tutti gli η) allora esiste un’unico stimatore dimassima verosimiglianza η(x0). Inoltre tale stimatore e soluzione di

(17) ∇ψ(η) = t0.

Vicecersa, se t0 non soddisfa (16) allora allora lo stimatore di massimaverosimiglianza (per t0) non esiste e l’equazione (17) non ha soluzione.

Dimostrazione. Prima di tutto riscriviamo il modello come segue

Pη(dx) = Pη0(dx) exp(T (x)− t0, η − η0)− ψ(η)con

ψ(η) = −(t0, η − η0) + ψ(η)− ψ(η0).

Di conseguenza massimizzare log(vx0(η)) e equivalente a massimizzare

(T (x0)− t0, η − η0)− ψ(η) = −ψ(η)

ossia a minimizzare ψ(η). Dalla Proposizione 5.9 sappiamo che ψ e stret-tamente convessa e continua in H. Per concludere l’esistenza di un’unicomassimo resta da dimostrare che data una qualunque successione (ηn)n chenon contenga punti di accumulazione in H allora ψ(ηn + η0)→ +∞.

Dimostriamo l’ultima affermazione distinguendo due casi. Scriviamo

ηn = λnun

con λn = ‖ηn‖ e un = ηn/‖ηn‖. Ci sono solo due possibilia o (a) supn λn <+∞ oppure (b) supn λn = +∞.

Valga (a). Consideriamo una generica sottosuccessione di n, diciamo n′.Dato che stiamo supponendo che ηn non contenga punti di accumulazionein H possiamo estrarre una sotto-sottosuccessione nk tale che λnk → λ e,contemporaneamente, unk → u. Chiaramente deve accadere che λu 6∈ H.Per tale sottosuccessione

lim infk

expψ(ηn + η0) = lim infk

Eη0 [eλnk (T (ξ)−t0,unk )]

≥ Eη0 [eλ(T (ξ)−t0,u)] = eλ(t0,u)Eη0 [e(T (ξ),λu)] = +∞

poiche λu 6∈ H. Questo dimostra che limn expψ(ηn + η0) = +∞ e dunquelimn ψ(ηn + η0) = +∞.

56 5. FAMIGLIA ESPONENZIALE

Valga (b). Consideriamo una generica sottosuccessione di n, diciamo n′.Questa volta possiamo estrarre una sotto-sottosuccessione tale che λnk →+∞ e, contemporaneamente, unk → u. Ora notiamo

lim infk

expψ(ηnk + η0) = lim infk

∫Pη0(dx)e(T (x)−t0,ηnk )

≥ lim infk

eδλnkPη0(T (ξ)− t0, unk) > δ

= lim infk

Pη0(T (ξ)− t0, u) > δeδλnk = +∞

poiche per ipotesi, per qualche δ > 0, Pη0(T (ξ)− t0, u) > δ > 0. Anche inquesto caso, data l’arbitrarieta della sotto-successione iniziale, concludiamofacilmente che limn ψ(ηn + η0) = +∞. La dimostrazione della prima partesi conclude facilmente perche, stabilito esistenza ed unicita del massimo diuna funzione differenziabile definita su un’aperto, tale punto di massimodeve essere necessariamente un punto stazionario e quindi deve valere (17).

Per la seconda parte, supponiamo che (16) sia falsa. Allora, per oppor-tuni c 6= 0 ed η0, Pη0(T (ξ) − t0, c) ≤ 0 = 1. Di conseguenza Eη[(T (ξ) −t0, c)] ≤ 0 per ogni η. Se η esistesse, essendo tale η necessariamente un puntoin H (aperto), dovrebbe essere un punto stazionario e quindi dovrebbe esse-re soluzione di (17), ossia EηT (ξ)− t0 = 0, che implica Eη(T (ξ)− t0, c) = 0e quindi Pηx : (T (x) − t0, c) = 0 = 1 che contraddice l’ipotesi che la fa-miglia sia di rango k. La non solubilita di (17) e ovvia dal momento che unpunto stazionario e necessariamente un punto di minimo essendo la funzioneψ convessa.

Proposizione 5.11. Sia X,X , Pη : η ∈ H una famiglia esponenzialeregolare in forma canonica di rango k con H aperto. Sia x0 il valore dei datiosservato e si ponga t0 = T (x0). Lo stimatore di massima verosimiglianzaper x0 esiste se e solo se t0 appartiene all’interno del convessificato delsupporto della distribuzione di T (ξ).

Dimostrazione Sia C il convessificato del supporto della legge di T (ξ).E’ sufficiente osservare che per definizione di interno di un convesso, t0appartine all’interno di C se e solo se per ogni d 6= 0 in Rk, gli insiemiy : (y − t0, d) > 0 ∩ C e y : (y − t0, d) < 0 ∩ C sono non vuoti. La tesisegue quindi dalla Proposizione 5.10 e dalla definizione di supporto di unamisura.

Proposizione 5.12. Sia X,X , Pη : η ∈ H una famiglia esponenzialeregolare in forma canonica di rango k con H aperto tale che Pη(T (ξ) ∈ ·) siaassolutamente continua rispetto alla misura di lebesgue. Allora lo stimatoredi massima verosimiglianza esiste con probabilita uno.

7. ESERCIZI 57

Dimostrazione La tesi segue immediatamente da un risultato di teoriadella misura che afferma la frontiera di un insieme convesso ha misura dilebesgue nulla.

6. Famiglie esponenziali per campioni i.i.d.

Un’altra buona proprieta delle famiglie esponenziali e che un prodottodi famiglia esponenziali e ancora una famiglia esponenziale. In altri terminise consideriamo un modello statistico in cui le osservazioni (ξ1, ξ2, . . . , ξn)sono variabili aleatorie indipendenti ed identicamente distribuite a valoriin (X,X ) con comune legge appartenente ad una famiglia esponenziale de-scritta da (µ, T, η,Θ), allora il modello statistico associato al campione n-dimensionale e ancora una famiglia esponenziale. In particolare la misuraPθ per il modello n-dimensionale sara

Pθ(A) =

∫A

exp( n∑

i

T (x), η(θ))−nψ(θ)

µ(dx1) . . . µ(dxn) (A ∈ X n).

Si noti che Θ rimane invariato cosı come η, mentre la nuova statistica suffi-ciente e completa sara

∑ni=1 T (x), la nuova funzione ψ sara nψ(θ) e la nuova

misura di riferimento sara il prodotto delle µ, ossia dµ⊗n. Posto

Tn(x) =1

n

n∑i=1

T (xi)

la forma canonica e utile scriverla come

dQηdµ⊗n

(x) = exp(nTn, η)− nψ(η)

con

ψ(η) = log∫

Xexp(T (x1), η)dµ(x1)

.

In questo modo l’equazione per gli stimatori di massima verosimiglianza (17)diventa

nTn(x0) = n∇ψ(η)

ossia, se x0 = (x0,1, . . . , x0,n),

1

n

n∑i=1

T (x0,i) = ∇ψ(η) = Eη[T (ξ1)].

7. Esercizi

Esercizio 11. Siano ξ1, . . . , ξn variabili aleatorie indipendenti con leg-ge comune esponenziale di parametri (a, λ), ossia con comune densita diprobabilita

fa,λ(xi) = λI(a,+∞)(xi)e−λ(xi−a) (a > 0, λ > 0).

58 5. FAMIGLIA ESPONENZIALE

Si denoti, inoltre, con Pa,λ la misura di probabilita di (ξ1, . . . , ξn)

(1) Scrivere la densita di (ξ1, . . . , ξn).(2) Il modello Rn,B(Rn), Pa,λ : λ ∈ R+ e una famiglia esponenzia-

le? Il modello Rn,B(Rn), Pa,λ : a ∈ R+, λ ∈ R+ e una famigliaesponenziale?

(3) Noto a mostrare che∑n

i=1 xi e una statistica sufficiente e completaper λ.

(4) Noto λ mostrare che νn e una statistica sufficiente e completa pera.

Esercizio 12. Siano ξ1, . . . , ξn variabili aleatorie indipendenti con leggecomune di pareto di parametri (a, λ), ossia con comune densita di probabilita

fλ,a(x) = λaλ1

xλ+1I(a,+∞)(x) (a > 0, λ > 0).

Si denoti, inoltre, con Pa,λ la misura di probabilia di (ξ1, . . . , ξn)

(1) Scrivere la densita di (ξ1, . . . , ξn).(2) Il modello Rn,B(Rn), Pa,λ : λ ∈ R+ e una famiglia esponenzia-

le? Il modello Rn,B(Rn), Pa,λ : a ∈ R+, λ ∈ R+ e una famigliaesponenziale?

(3) Noto a mostrare che∑n

i=1 log(xi) e una statistica sufficiente ecompleta per λ.

(4) Noto λ mostrare che νn e una statistica sufficiente e completa pera.

Esercizio 13. Sia Y un vettore aleatorio a valori in Rk. Si suppongache la sua funzione generatrice dei momenti M(z) sia ben definita per ogni|z| ≤ δ.

A) Procedendo in modo analogo al caso monodimensionale si dimostriche

M(z) =∑i∈Nk

a(i)zi

dove

a(i) =E[Y i1

1 . . . Y ikk ]

i1! · · · ik!

e zi =∏kj=1 z

ijj . In particolare dimostrare che la serie converge assoluta-

mente.

B) Ricalcando l’analoga dimostrazione nel caso scalare, dimostrare chese∑

i∈Nk a(i)zi e assolutamente convergente per |z| < δ allora

∂i1+···+ik

∂zi11 . . . ∂zikkM(z) =

∑i∈Nk

a(i)∂i1+···+ik

∂zi11 . . . ∂zikkzi

7. ESERCIZI 59

per ogni |z| < δ. Dedurre quindi che

∂i1+···+ik

∂zi11 . . . ∂zikkM(z)

∣∣∣z=0

= E[Y i11 . . . Y ik

k ]

CAPITOLO 6

Stimatori a Varianza Uniformemente Minima einformazione di Fisher.

1. Stimatori a Varianza Uniformemente Minima

La sufficienza, unitamente alla completezza, si rivela una proprieta fon-damentale per la ricerca di stimatori ottimali di funzioni dei parametri inco-gniti. Preliminari all’illustrazione di questo punto sono alcuni concetti legatialla nozione di stimatore puntuale di un parametro.

Nel seguito si supponga fissata una funzione

τ : Θ→ R.

Se lo spazio dei parametri e R l’esempio piu classico di τ e l’ identita.

In questo capitolo considereremo statistiche che siano stimatori di τ(θ),ossia statistiche T (ξ) a valori in R.

Per valutare la bonta di uno stimatore puntuale si considerano simulta-neamente due aspetti: la capacita di avvicinarsi al valore vero della quantitada stimare e la variabilita intorno a tale valore. Piu precisamente, e possibilevalutare l’errore (o scarto) quadratico medio di un generico stimatoreT calcolando

(18) Eθ[(T (ξ)− τ(θ))2

]= [Eθ(T (ξ))− τ(θ)]2 + V arθ(T (ξ))

Tra tutti i possibili stimatori per τ(θ) si vorrebbe quindi cercare quelloche minimizza sia lo scarto medio dal valore vero di τ che la varianza. Ingenerale, data l’ampiezza della classe degli stimatori ammissibili, non sitrova uno stimatore ottimale unico sulla base di questo criterio. Pertanto eopportuno restringere la ricerca all’interno della classe degli stimatori nondistorti per τ(θ).

Ricordiamo che uno stimatore T e non distorto per τ(θ) se

Eθ(T (ξ)) = τ(θ) ∀ θ ∈ Θ.

Dalla (18) e chiaro che, considerando soltanto stimatori non distorti, ilconfronto va fatto sulla base della varianza. Per far cio e naturale restringersialla classe degli stimatori con varianza finita.

61

626. STIMATORI A VARIANZA UNIFORMEMENTE MINIMA E INFORMAZIONE DI FISHER.

Nel seguito denotiamo con Uτ l’insieme degli stimatori non distorti avarianza finita di τ , ossia

Uτ : = T : V arθ(T (ξ)) < +∞,Eθ(T (ξ)) = τ(θ) ∀θ ∈ Θ.

Come gia detto si puo pensare che piu uno stimatore abbia ”varianzapiccola” piu sia buono. Tuttavia, dal momento che vi e la dipendenza dalparametro θ, incognito, non e ovvio cosa intendere per varianza piccola.Potrebbe accadere che uno stimatore per certi valori di θ abbia variazabassa mentre per altri valori di θ lo stesso stimatore abbia varianza moltoalta. Generalmente si e portati a considerare migliore uno stimatore cheminimizzi uniformemnte la varianza nell’ ambito degli stimatori non distorticon varianza finita.

Definizione 6.1. Uno stimatore T ∗ appartenente a Uτ e detto stimatorenon distorto a varianza uniformemente minima (in inglese UMVUE)se

V arθ(T∗(ξ)) ≤ V arθ(T (ξ)) ∀ T ∈ Uτ , ∀ θ ∈ Θ.

Se non vengono fatte ipotesi sul campione e sulla funzione da stimarenon e detto che tali stimatori esistano. Vedremo ora sotto quali condizionie possibile costruire uno stimatore a varianza uniformemente minima. Suf-ficienza e completezza forniscono risultati utili per la ricerca di stimatoriottimali. Un primo importante risultato in tale direzione e il seguente

Lemma 6.2. (Kolmogorov, Blackwell, Rao). Siano M = (X,X , Pθ) :θ ∈ Θ un modello statistico, T1 una statistica sufficiente per M e T2 unostimatore non distorto per τ(θ). Posto

T3(ξ) = Eθ(T2(ξ)|T1(ξ))

si ha:

(i) T3(ξ) e indipendente da θ e Eθ[T3(ξ)] = τ(θ).(ii) V arθT3(ξ) ≤ V arθT2(ξ) ∀ θ ∈ Θ.

Dimostrazione. Dalla sufficienza di T1 segue che la funzione di riparti-zione condizionale di ξ dato T1(ξ) non dipende da θ, ossia Fθ:ξ|T1(x|t1) =H(x|t1) per un’opportuna H. Quindi

Eθ(T2(ξ)|T1(ξ) = t1) =

∫T2(x)dFθ:ξ|T1(x|t1) =

∫T2(x)H(dx|t1)

che e indipendente da θ e

T3(ξ) =

∫T2(x)H(dx|T1(ξ))

Inoltre, usando (2) e il fatto che T2(ξ) e non distorto, si ha

Eθ[T3(ξ)] = Eθ[Eθ[T2(ξ)|T1(ξ)]] = Eθ[T2(ξ)] = τ(θ).

1. STIMATORI A VARIANZA UNIFORMEMENTE MINIMA 63

Ricordando che per una variabile aleatoria con momento finito V ar(Y ) ≥ 0,ossia E[Y ]2 ≤ E[Y 2], possiamo scrivere

T3(ξ)2 =(∫

T2(x)dFθ:ξ|T1(x|T1(ξ)))2

≤∫T2(x)2dFθ:ξ|T1(x|T1(ξ))

(19)

e quindi

Eθ(T23 (ξ)) ≤

∫ ∫T2(x)2dFθ:ξ|T1(x|t1)dFθ:T1(t1)

=

∫ ∫T2(x)2dFθ:ξ,T1(x, t1) = Eθ(T

22 (ξ)).

Dal momento che T1 e T2 hanno lo stesso valore atteso si conclude imme-diatamente.

Questo teorema non ci assicura che T3 sia a varianza uniformemente mi-nima, ma ci fornisce una tecnica per migliorare uno stimatore non distortosfruttando la conoscenza di una statistica. Per ottenere uno stimatore a va-rianza uniformemente minima dobbiamo rinforzare le ipotesi sulla statisticarispetto alla quale si condiziona. Un risultato fondamentale e il seguenteclassico

Teorema 6.3. (Lehmann, Scheffe). Siano soddisfatte le condizioni delprecedente Lemma e si assuma inoltre che T1 sia completa. Allora T3 estimatore UMVUE per τ(θ).

Dimostrazione. Sia U(ξ) uno stimatore non distorto di τ(θ). Grazie allemma precedente si ha che U ′(ξ) = Eθ(U(ξ)|T1(ξ)) e tale che

V arθ(U′(ξ)) ≤ V arθ(U(ξ)).

D’altro canto si ha che T3(ξ) = φ T1(ξ) e U ′(ξ) = φ′ T1(ξ) per opportuneφ e φ′ poiche entrambe le statistiche sono valori attesi condizionali (datoT1(ξ)) e quindi funzioni di T1(ξ). Inoltre, essendo U ′ e T3 sono stimatorinon distorti di τ(θ),

Eθ[T3(ξ)− U ′(ξ)] = τ(θ)− τ(θ) = 0.

Poiche T1 e completa ne segue che T3 = U ′ Pθ-q.c.. Dunque V arθ(U(ξ)) ≥V arθ(U

′(ξ)) = V arθ(T3(ξ))

Il signficato dei due risultati appena esposti e che lo stimatore UMVUE,se esiste, va cercato tra gli stimatori non distorti che siano funzioni di sta-tistiche sufficienti e complete. Si noti che la statistica T1 dei precedentiteoremi non necessariamente e una statistica a valori reali. Come illustratodal seguente esempio e spesso utile condizionare a statistiche che assumonovalori in Rk.

646. STIMATORI A VARIANZA UNIFORMEMENTE MINIMA E INFORMAZIONE DI FISHER.

Esempio 33 (Modello Gaussiano). Si consideri modello gaussiano del-l’esempio 8. In altri termini

X = Rn, X = B(Rn), Θ = R× (0,+∞) θ = (µ, σ2)

e

fθ(x) =

n∏k=1

1

(σ22π)1/2exp

− 1

2σ2(xk − µ)2

x = (x1, . . . , xn) ∈ Rn.

Si vuole stimare τ(θ) = Eθξ1 = µ. Come gia visto quando si e trattata lafamiglia esponenziale, si ha che T1(ξ) = (

∑ni=1 ξi,

∑ni=1 ξ

2i ) e una statistica

sufficiente e completa per tale modello, almeno scritto in forma canonica.E’ immediato dedurre che lo e anche per il medesimo modello scritto comesopra, perche in questo caso la forma canonica e una reale riparametrizza-zione del modello sopra scritto. Si osservi ora che la media campionariamn = 1

n

∑ni=1 ξi e uno stimatore non distorto per τ(θ) = µ ed inoltre e

funzione di T1. Applicando il Teorema 6.3 si ha quindi che mn e stimatoreUMVUE per µ. In maniera analoga si consideri

sn(ξ) :=1

n− 1

n∑i=1

(ξ − mn)2 =1

n− 1(

n∑i=1

ξ2 − nm2n).

Con un po’ di conti si vede che Eθ(sn(ξ)) = σ2, quindi sn e uno stimatorenon distorto di τ(θ) = σ2, inoltre, poiche e funzione di T1, esso e unostimatore UMVUE per σ2.

Esempio 34 (Regressione lineare Gaussiana). Si consideri modello diregressione lineare gaussiana dell’Esempio 30. In altri termini

X = Rn, X = B(Rn), Θ = R× R× (0,+∞) θ = (α, β, σ2)

e

fθ(x) =1

(σ22π)n/2exp

− 1

2σ2

n∑i=1

(xi − αzi − β)2

x = (x1, . . . , xn) ∈ Rn.

Ragionando come nell’esempio precedente si dimostra che

T1(ξ) = (n∑i=1

ξ2i ,

n∑i=1

ξi,n∑i=1

ξizi)

e una statistica per il modello in forma canonica ma anche per il modelloscritto come sopra. Consideriamo ora gli stimatori ai minimi quadrati di αe β

αn(ξ) =1

σ21,n

( 1

n

n∑i=1

ξizi −m1,n1

n

n∑i=1

ξi

)β(ξ) =

1

n

n∑i=1

ξi −m1,n

σ21,n

( 1

n

n∑i=1

ξizi −m1,n1

n

n∑i=1

ξi

)

2. L’ INFORMAZIONE DI FISHER E LA DISUGUAGLIANZA DI FISHER-CRAMER-RAO65

dove

m1,n =1

n

n∑i=1

zi, σ21,n =

1

n

n∑i=1

z2i −m2

1,n

si veda Esempio 13. Semplici conti mostrano che Eθ[α(ξ)] = α e Eθ[β(ξ)] =

β. Poiche α e β risultano funzioni di T1 essi sono stimatori UMVUE.

2. L’ Informazione di Fisher e la disuguaglianza diFisher-Cramer-Rao

In questa sezione considereremo solo modelli parametrici con Θ ⊂ R.

Diremo che un modello e regolare se sono soddisfatte le condizioni se-guenti

(H1) Θ e un intervallo aperto di R. Il modello e dominato da una misuraσ-finita µ. La densita di Pθ rispetto a µ sara indicata con fθ.

(H2) X+ := x ∈ X : fθ(x) > 0 non dipende da θ.(H3) θ 7→ fθ(x) e una funzione derivabile con continuita su Θ, per ogni

x in X.(H4) Si ha

(20)d

dθEθ[T (ξ)] = Eθ[T (ξ)∂θ log(fθ(ξ))1X+(ξ)]

per ogni funzione misurabile T a valori reali definita su X conEθ(T

2(ξ)) < +∞ per ogni θ in Θ.(H5) Per ogni θ in Θ

[(∂θ log(fθ(ξ)))

2 1X+(ξ)]< +∞.

Si osservi che la condizione (H4) e verificata sicuramente se

θ 7→∫XT (x)fθ(x)µ(dx)

e derivabile sotto il segno d’integrale, per ogni T come nella definizione datasopra.

Si noti che in particolare (H4) implica, scegliendo T (ξ) = 1, il fatto che

(H4’) per ogni θ in Θ

Eθ[∂θ log(fθ(ξ))1X+(ξ)] = 0.

Infatti, poiche ∫Xfθ(x)µ(dx) = 1 per ogni θ,

si ha

0 =d

∫X+

fθ(x)µ(dx) =

∫X+

∂θfθ(x)µ(dx) =

∫X+

∂θ log(fθ(x))Pθ(dx).

666. STIMATORI A VARIANZA UNIFORMEMENTE MINIMA E INFORMAZIONE DI FISHER.

Da (H4’) si deduce che H5 puo essere riformulata, in modo espressivo, come

I(θ) := V arθ(∂θ log(fθ(ξ))) < +∞.

Definizione 6.4. La funzione I(θ) e detta informazione di Fisher.

Osserviamo che l’informazione di Fisher gode di una proprietata di addi-tivita nel caso di successioni di osservazioni indipendenti. Supponiamo cheX = X1 × · · · ×Xn, e che

Pθ(A1 × . . . An) = p(1)θ (A1)× . . . p(n)

θ (An)

per ogni A1, . . . An in X1, . . .Xn, con p(i)θ : θ ∈ Θ famiglia di misure di

probabilita su Xi per i = 1, . . . , n. Si vede facilmente che Pθ : θ ∈ Θsoddisfa H1-H5 se p(i)

θ : θ ∈ Θ soddisfa le corrispondenti proprieta perogni i = 1, . . . , n. Inoltre, posto

I(i)(θ) = V arθ(∂θ log(f(i)θ (ξ))1f (i)

θ (ξi)) > 0),

con f(i)θ una densita per p

(i)θ rispetto ad una dominante µ(i) σ–finita su Xi,

si ha

I(θ) =n∑i=1

I(i)(θ).

Infatti, grazie all’indipendenza delle ξi,

I(θ) = V arθ(∂θ log(fθ(ξ))1X+(ξ)) = V arθ(

n∑i=1

∂θ log(f(i)θ (ξi))1X+(ξ))

=

n∑i=1

V arθ(∂θ log(f(i)θ (ξi))1f (i)

θ (ξi)) > 0) =

n∑i=1

I(i)(θ).

Consideriamo ora un stimatore non distorto T di τ(θ), ossia tale cheEθ(T (ξ)) = τ(θ) per ogni θ in Θ.

Teorema 6.5. Se il modello introdotto e regolare e se I(θ) > 0 per ogniθ in Θ, allora

V arθ(T (ξ)) ≥ (τ(θ))2

I(θ)

per ogni θ in Θ ed ogni stimatore non distorto T di τ .

Dimostrazione Dalla condizione (20) si ha che

τ(θ) = Eθ(T (ξ)∂θ log fθ(ξ)1X+)

= Covθ(T (ξ), ∂θ log(fθ(ξ))1X+) [per la (H4’)]

e per la disuguaglianza di Cauchy-Schwartz

[Covθ(T (ξ), ∂θ log(fθ(ξ))1X+)]2 ≤ V arθ(T (ξ))I(θ)

2. L’ INFORMAZIONE DI FISHER E LA DISUGUAGLIANZA DI FISHER-CRAMER-RAO67

Esempio 35. Si consideri un modello statistico di tipo scala-posizionecon parametro di scala noto. Si veda Esempio 9. Ossia

ξi = θ + εi

con εi indip. ed identicamente distribuite con una certa densita f . In questocaso fθ(x1, . . . , xn) =

∏ni=1 f(xi − θ). Poiche

(∂θ log f(x− θ))2 =(f ′(x− θ)f(x− θ)

)2,

se I1(θ) e l’informazione di fisher del modello unidimensionale si ha subitoche

I1(θ) =

∫ (f ′(x− θ)f(x− θ)

)2f(x− θ)dx =

∫ (f ′(x)

f(x)

)2f(x)dx.

In altri termini I risulta essere indipendente da θ. Piu in generale l’infor-mazione di Fisher per (ξ1, . . . , ξn), usando quanto gia visto per campioniindipendneti, e

In(θ) = n

∫ (f ′(x)

f(x)

)2f(x)dx.

2.1. Informazione e statistiche sufficienti. Data una statistica T :(X,X )→ Rm, si definisce il modello statistico indotto

Pθ,T : θ ∈ Θ

dove

Pθ,T (B) := PθT (ξ) ∈ Bper ogni misurabile B, e la misura µT su indotta da T , µT (B) := µx :T (x) ∈ B per ogni B misurabile. Se µ e asseganta come in (H2), allora µTdomina Pθ,T : θ ∈ Θ. Infatti, se µT (B) = 0, allora µx : T (x) ∈ B = 0 equindi, poiche µ domina il modello, PθT (ξ) ∈ B = 0 e, dunque, Pθ,T (B) =0. Si denoti, allora, con fθ,T una versione della densita di Pθ,T rispetto µT ,ossia una funzione non negativa tale che

Pθ,T (B) =

∫Bfθ,T (y)µT (dy)

per ogni B misurabile. Se anche il modello indotto Pθ,T risulta regolare, nelsenso che soddisfa le (H1)-(H5), resta definita l’informazione di Fisher delmodello indotto

IT (θ) = V arθ(∂θ log(fθ,T (T (ξ))).

Enunciamo senza dimostrare il seguente risultato.

Teorema 6.6. Se i modelli Pθ : θ ∈ Θ e Pθ,T : θ ∈ Θ sono regolari,allora

IT (θ) ≤ I(θ)

per ogni θ in Θ e l’uguaglianza vale per ogni θ se e solo se T e sufficiente.

686. STIMATORI A VARIANZA UNIFORMEMENTE MINIMA E INFORMAZIONE DI FISHER.

3. Esercizi

Esercizio 14. [Vedi Esercizio 11] Siano ξ1, . . . , ξn variabili aleatorieindipendenti con legge comune esponenziale di parametri (a, λ), ossia concomune densita di probabilita

fα,θ(xi) = λI(a,+∞)(xi)e−λ(xi−a).

(1) Noto a determinare uno stimatore UMVUE di λ.[Usare l’Esercizio 11 e il fatto che se Z e una variabile aleatoria

con legge Gamma(n, θ) allora E(1/Z) = θ/(n− 1)][soluzione: (n− 1)/

∑ni=1(xi − a)]

(2) Noto λ determinare uno stimatore UMVUE di a.[soluzione: νn − 1/nλ]

Esercizio 15. [Vedi Esercizio 12] Siano ξ1, . . . , ξn variabili aleatorie in-dipendenti con legge comune di pareto di parametri (a, λ), ossia con comunedensita di probabilita

fλ,a(x) = λaλ1

xλ+1I(a,+∞)(x) (a > 0, λ > 0).

(1) Noto a determinare uno stimatore UMVUE di λ. [Usare l’Eser-cizio 12 e il fatto che se Z e una variabile aleatoria con leggeGamma(n, θ) allora E(1/Z) = θ/(n− 1)]

(2) Noto λ determinare uno stimatore UMVUE di a.

Esercizio 16. Siano ξ1, . . . , ξn variabili indipendenti aleatorie con co-mune legge di Poisson di parametro θ. Determinare uno stimatore nondistorto a varianza uniformemente minima per

τ(θ) := Pθξ1 = 0 = e−θ.

[Suggerimento: si ricordi che∑n

i=1 ξ1 e una statistica sufficiente e com-pleta per tale modello. Trovare una statistica semplice che sia stimatore nondistorto di τ(θ). Applicare il Teorema di Lehmann-Scheffe.]

CAPITOLO 7

Test di Ipotesi

Per le definizioni base sui test rimandiamo al Paragrafo 1.3 del Capitolo2.

1. Test e P-value

Come gia anticipato nel Paragrafo 1.3 del Capitolo 2, un test spesso sibasa sulla costruzione di una zona di rifiuto, ossia si cercano test della forma

δα(ξ) = IT (ξ) ∈ Rαdove T e un’opportuna statistica e Rα e una regione tale che

PθT (ξ) ∈ Rα ≤ αper ogni θ ∈ Θ0. In questo modo δα sara un test di livello α.

Definizione 7.1. Un test δ∗ di livello α e detto uniformemente piupotente se

Eθ1 [δ∗(ξ)] > Eθ1 [δ(ξ)]

per ogni θ1 in Θ1 e ogni δ test di livello α.

Da quato fin qui visto e chiaro che un parametro importante per costruireun test e il livello α. Tale scelta, naturalmente, e arbitraria e dipende daquale probabilita di errore di primo tipo si e disposti a tollerare. Spesso si hapero la possibilita di costruire per ogni α un opportuno test di livello α. Ilconcetto di p-value e strettamente collegato a questa particolare possibilita.

Definizione 7.2. Sia (δα)α∈(0,1) una famiglia di test (non randomizzati)dove δα ha taglia α. Si supponga che per ogni realizzazione x di ξ la fun-zione α 7→ δα(x) sia monotona non decrescente, allora si definisce p-value(associato alla famiglia (δα)α∈(0,1)) il valore

Pv(x) = infα : δα(x) = 1.

Spesso se il test e costruito sulla base di una statistica T (ξ), il p-valuesi intende funzione delle realizzazioni di T (ξ).

Il significato del p-value e di indicare a quale livello si deve prendere iltest per rifiutare l’ipotesi nulla in corrispondenza di una data osservazionex. Chiaramente se p e molto piccolo sara sufficiente che lo statistico fissi

69

70 7. TEST DI IPOTESI

una soglia molto bassa come livello per rifiutare l’ipotesi nulla. In questocaso si considera il risultato di rifiutare l’ipotesi nulla come significativo. Nelcaso contrario, quando p e grande, per rifiutare l’ipotesi nulla si e costretti aconsiderare α elevati e quindi, in sostanza, si considera piu ragionevole nonrifiutare l’ipotesi nulla.

In termini pratici, fissato α, se il Pv(x) ≤ α si rifiuta l’ipotesi nulla,se Pv(x) ≤ α non si rifiuta. Quindi, se il p-value e molto piccolo si rifiuta”facilmente” l’ipotesi nulla e spesso si dice che che il ”test e significativo”.Occorre fare molta attenzione a questa frase (spesso abusata in ambito ap-plicativo): dicendo che un p-value e significativo bisogna sempre specificarea che test corrisponde questo p-value e quale sia l’ipotesi nulla. Infatti dalmomento che p-value molto piccolo vuol dire che siamo molto propensi arifiutare l’ipotesi nulla occorre aver ben chiaro quale sia l’ipotesi nulla!

Naturalmente il tutto e opinabile e soggettivo: quanto piccolo deve esserePv per essere significativo? Non c’e una risposta univoca. Nella praticaspesso si considera, in modo sostanzialmente arbitrario, una soglia del 0.05come accettabile.

2. Qualche test per campioni gaussiani

Esempio 36 (Media con varianza nota). Consideriamo il problema diEsempio 15. Si vuole testare se la media di un campione gaussiano ξ1, . . . , ξndi variabili aleatorie indipendenti ed identicamente distribuite (di varianzanota σ2) sia positiva. Abbiamo visto che

δα(ξ) = ITn > cα

con

Tn(ξ) =

√nmn

σ=

1

σ√n

n∑i=1

ξi.

e

cα = −Φ−1(α)

e un test per Θ0 = m ≤ 0 contro Θ1 = m ≥ 0 di livello α. In questocaso, osservato Tn(ξ) = t, si rifiuta H0 se

t > cα

ossia, notando che vale anche cα = Φ−1(1− α), se

Φ(t) > Φ(cα) = 1− α

e quindi se

Φ(−t) < α.

Concludendo

Pv(t) = Φ(−t)

2. QUALCHE TEST PER CAMPIONI GAUSSIANI 71

ovvero come funzione di ξ,

Pv(ξ) = Φ(− 1

σ√n

n∑i=1

ξi

)Esempio 37 (Media con varianza incognita). Consideriamo ora il caso

in cui si voglia testare se la media di un campione gaussiano ξ1, . . . , ξn divariabili aleatorie indipendenti ed identicamente distribuite sia minore di µ0,supponendo questa volta la varianza non nota. Ricordiamo che, posto

sn =

√√√√ 1

n− 1

n∑i=1

(ξi −mn)2,

la variabile aleatoria1

sn√n

n∑i=1

(ξi − µ)

ha distribuzione T di Student con n − 1 gradi di liberta (Proposizione 1.2)Procedendo come fatto per l’esempio precedente, poniamo

Tn(ξ) =1

sn√n

n∑i=1

(ξi − µ0)

e definiamoδα(ξ) = ITn(ξ) > cα

concα = −F−1

Tn−1(α)

dove FTn−1 e la funzione di ripartizione di una T di Student con n− 1 gradidi liberta. Osservando che

Tn(ξ) =1

sn√n

n∑i=1

(ξi − µ) +

√n(µ− µ0)

sn

si puprocedere in modo analogo a quanto fatto nell’Esempio 15 e dimostrareche δα e un test per Θ0 = µ ≤ µ0 contro Θ1 = µ ≥ µ0 di livello α e,inoltre,

Pv(ξ) = FTn−1

(− 1

sn√n

n∑i=1

ξi

)Esempio 38 (Media con varianza incognita: test bilaterale). Nelle con-

dizioni del precedente Esempio, si voglia testare H0 = µ = µ0 controH1 = µ 6= µ0. Ancore una volta si procede in modo analogo a quanto giafatto. Questa volta,

Tn(ξ) =1

sn√n

n∑i=1

(ξi − µ0)

eδα(ξ) = I|Tn(ξ)| > cα

dove FTn−1(cα)− FTn−1(−cα) = 1− a. Per esercizio completare i dettagli.

72 7. TEST DI IPOTESI

Esempio 39 (Due campioni con varianza nota). Supponiamo che

ξ1,1, . . . , ξ1,n1 , ξ2,1, . . . , ξ2,n2

siano variabili aleatorie indipendenti tali che ξ1,j siano gaussiane di mediaµ1 e varianza (nota) σ2

1 e ξ2,j siano gaussiane di media µ2 e varianza (nota)σ2

2. Si voglia testare H0 : µ1 = µ2 contro H1 : µ1 6= µ2. In questo caso sipuo’ osservare che

Z =1n1

∑n1j=1 ξ1,j − 1

n2

∑n2j=1 ξ2,j√

σ21n1

+σ21n2

sotto H0 ha legge gaussiana di media 0 e varianza unitaria (farlo per eser-cizio). Quindi

δα(ξ) = I|Z| > cαcon cα = Φ(1−α/2), risulta essere un test di livello α per testare H0 controH1.

3. Test alla Neyman-Pearson

Consideriamo un campione ξ e indichiamo con fθ la densita di ξ.

Supponiamo che Θ = θ0, θ1 e per semplicita poniamo fθi = fi. Chia-ramente siamo interessati al problema della verifica d’ipotesi per Θ0 = θ0contro Θ1 = θ1.

Definizione 7.3. Un test di Neyman-Pearson di parametri k > 0 ec ≥ 0 e

δNP (ξ) = If1(ξ) > kf0(ξ)+ cIf1(ξ) = kf0(ξ).

Si noti che, se f0(x) > 0, il test di Neyman-Pearson puo essere scrittoin fuzione del rapporto di verosimiglianza L(ξ) = f1(ξ)/f0(ξ). Intuitiva-mente, ragionando come fatto per giustificare gli stimatori di massima ve-rosimiglianza, se il campione proviene da f0 si ha maggior probabilita cheL(ξ) < 1, ossia f1(ξ) < f0(ξ).

Proposizione 7.4. Se δ e un test di livello α, ossia Eθ0 [δ(ξ)] ≤ α,per testare H0 vs H1, allora ogni test di Neyman-Pearson δNP tale cheEθ0 [δNP (ξ)] = α soddisfa

Eθ1 [δNP (ξ)] ≥ Eθ1 [δ(ξ)],

ossia δNP e piu potente di δ.

Dimostrazione Poniamo

A∗0 = x : f1(x) 6= 0, f0(x) 6= 0A1 = A∗0 ∩ x : f1(x) > kf0(x)A2 = A∗0 ∩ x : f1(x) = kf0(x)A3 = A∗0 ∩ x : f1(x) < kf0(x).

3. TEST ALLA NEYMAN-PEARSON 73

Chiaramente (A∗0)c = A01 ∪A02 ∪A03 con A01 = x : f1(x) = 0, f0(x) 6= 0,A02 = x : f1(x) = 0, f0(x) = 0, A03 = x : f1(x) 6= 0, f0(x) = 0. Allora

Eθ1 [δNP (ξ)− δ(ξ)] =

∫(δNP (x)− δ(x))f1(x)µ(dx)

≥∫A∗0

(δNP (x)− δ(x))f1(x)µ(dx)

=

∫A∗0

(δNP (x)− δ(x))f1(x)

f0(x)f0(x)µ(dx)

(21)

poiche su A03 si ha δNP (x) = 1 ≥ δ(x) e Pθ1(A01 ∪A02) = 0. Ora su A1

(δNP (x)− δ(x))f1(x)

f0(x)= (1− δ(x))

f1(x))

f0(x)> k(δNP (x)− δ(x)),

su A2

(δNP (x)− δ(x))f1(x)

f0(x)= k(δNP (x)− δ(x))

e su A3

(δNP (x)− δ(x))f1(x)

f0(x)= −δ(x)

f1(x)

f0(x)≥ −kδ(x)

f1(x)

f0(x)= k(δNP (x)− δ(x)).

Combinando queste disuguaglianze con la (21) si ha

Eθ1 [δNP (ξ)− δ(ξ)] ≥ kEθ0 [(δNP (ξ)− δ(ξ))IA∗0(ξ)]

D’altra parte Pθ0(A02 ∪A03) = 0 e su A01 si ha δNP = 0, quindi

Eθ1 [δNP (ξ)− δ(ξ)] ≥ kEθ0 [(δNP (ξ)− δ(ξ))] = k(α− Eθ0 [δ(ξ)]) ≥ 0.

Resta da dimostrare che e possibile trovare (k, c) = (kα, cα) in modo cheEθ0 [δNP (ξ)] = α.

Dal momento che L(ξ) = f1(ξ)/f0(ξ)If0(ξ) > 0 e una variabile alea-toria positiva la funzione

[0,+∞) 3 y 7→ Pθ0L(ξ) > y = 1− Pθ0L(ξ) ≤ ye monotona non crescente, in 0 vale 1 ed e continua da destra. Quindi perogni α ∈ (0, 1) esiste kα tale che

Pθ0L(ξ) > kα ≤ αe

Pθ0L(ξ) ≥ kα ≥ α.Ponendo

cα =α− Pθ0L(ξ) > kαPθ0L(ξ) = kα

se Pθ0L(ξ) = kα > 0 e cα = 0 altrimenti, si ha che

δNP (ξ) = If1(ξ) > kαf0(ξ)+ cαIf1(ξ) = kf0(ξ)

74 7. TEST DI IPOTESI

e un test di Neyman-Pearson e che

Eθ0 [δNP (ξ)] = Pθ0L(ξ) > kα+ cαPθ0L(ξ) = kα = α.

Definizione 7.5. Una famiglia fθ : θ ∈ Θ ⊂ R di densita di probabi-lita e detta a rapporto di verosimiglianza monotono se per ogni θ1 < θ2 inΘ

fθ2(x)

fθ1(x)= Ψθ1,θ2(T (x))

cony 7→ Ψθ1,θ2(y)

monotona crescente (strettamente) e T statistica a valori in R.

Esempio 40. Si consideri una famiglia esponenziale con T reale para-meterizzata in modo canonico. In questo caso

fθ(x) = expθT (x)−Ψ(θ).Quindi

fθ2(x)

fθ1(x)= exp(θ2 − θ1)T (x) expΨ(θ1)−Ψ(θ2),

e dunque

y 7→ Ψθ1,θ2(y) = exp(θ2 − θ1)y expΨ(θ1)−Ψ(θ2)e monotona crescente.

In presenza di modelli con rapporto di verosimiglianza monotono e pos-sibile adattare la costruzione del test di Neyman-Pearson per testare

Θ0 := θ ≤ θ0 vs Θ1 = θ > θ0.

Si ponga, per ogni t0 e c in Rδt0,c(ξ) = IT (ξ) > t0+ cIT (ξ) = t0.

Proposizione 7.6. La funzione

θ 7→ β(θ) = Eθ[δt0,c(ξ)]

e crescente.

Dimostrazione. Sia θ1 < θ2 e si ponga

α := Eθ1 [δt0,c(ξ)].

Ora dal momento che Ψθ1,θ2 e una funzione monotona

δt0,c(ξ) = IΨθ1,θ2(T (ξ)) > Ψθ1,θ2(t0)+ cIΨθ1,θ2(T (ξ)) = Ψθ1,θ2(t0).e quindi δt0,c e un test di Neyman-Pearson di livello α per testare l’ipotesiH0 = θ = θ1 versus H1 = θ = θ2. Si ponga ora δ(ξ) = α. Poiche δ e untest di livello α, per il Lemma di Neyman-Pearson si ha

Eθ1 [δt0,c(ξ)] = α = Eθ2 [δ(ξ)] ≤ Eθ2 [δt0,c(ξ)].

4. TEST ED INTERVALLI DI CONFIDENZA: IMPOSTAZIONE BAYESIANA 75

Proposizione 7.7. Se Eθ0 [δt0,c(ξ)] = α > 0 allora δt0,c e un test unifor-memente piu potente di livello α per testare Θ0 := θ ≤ θ0 vs Θ1 = θ >θ0.

Dimostrazione Per la proposizione precedente θ 7→ β(θ) e crescente equindi δt0,c e di livello α. D’altra parte, ragionando come nella dimostrazioneprecedente δt0,c e un test di Neyman-Pearson per testare θ0 vs θ1 per ogniθ1 > θ0 e quindi per il lemma di Neyman-Pearson

Eθ1 [δt0,c(ξ)] ≥ Eθ1 [δ(ξ)]

purche δ sia di livello α. Dal momento che ogni test di livello α per testareΘ0 contro Θ1 puo essere visto come un test di livello α per testare θ0 vs θ1

per un θ1 > θ0 si conclude.

4. Test ed intervalli di confidenza: impostazione bayesiana

In linea molto generale, dal punto di vista Bayesiano, volendo testareH0 = θ ∈ Θ0 versus H1 = θ ∈ Θ1 si puo procedere considerando unaprior π su Θ = Θ0 ∪Θ1 e poi confrontare

Pθ ∈ Θ0|ξ = x =

∫Θ0

π(dθ|x)

con

Pθ ∈ Θ1|ξ = x =

∫Θ1

π(dθ|x).

Spesso questo confronto e fatto sulla base del cosiddetto posterior-odds, ossia

Odd =Pθ ∈ Θ0|ξ = xPθ ∈ Θ1|ξ = x

.

Si fissa una soglia e si rifiuta l’ipotesi a seconda se l’Odd supera o menoquesta soglia. Se il posterior odd e piccolo (piu piccolo di uno) si e propensia rifiutare l’ipotesi nulla.

Un modo comodo per riscrivere quanto appena visto e nel riscrivere πcome degue

π(dθ) = π0g0(dθ)Iθ ∈ Θ0+ (1− π0)g1(dθ)Iθ ∈ Θ1dove chiaramente π0 = π(Θ0) e gi sono probabilita su Θi. In questo modo simette in evidenza il peso a priori che si assegna all’ipotesi nulla e all’ipotesialternativa (i.e. π0 e 1− π0).

A qusto punto, ricordando che

π(dθ|x) =f(x|θ)π(dθ)∫

Θ f(x|u)π(du)

osserviamo che∫Θf(x|u)π(du) = π0

∫Θ0

f(x|u)g0(du) + (1− π0)

∫Θ1

f(x|u)g1(du)

76 7. TEST DI IPOTESI

per ottenere

π(dθ|x) =π0f(x|θ)g0(dθ)Iθ ∈ Θ0+ (1− π0)f(x|θ)g1(dθ)Iθ ∈ Θ1

π0

∫Θ0f(x|u)g0(du) + (1− π0)

∫Θ1f(x|u)g1(du)

.

Quindi

Pθ ∈ Θ0|ξ = x =π0

∫Θ1f(x|θ)g0(dθ)

π0

∫Θ0f(x|u)g0(du) + (1− π0)

∫Θ1f(x|u)g1(du)

.

e

Pθ ∈ Θ1|ξ = x =(1− π0)

∫Θ1f(x|θ)g1(dθ)

π0

∫Θ0f(x|u)g0(du) + (1− π0)

∫Θ1f(x|u)g1(du)

.

e dunque

Odd =π0

1− π0

∫Θ0f(x|θ)g0(dθ)∫

Θ1f(x|θ)g1(dθ)

.

Comunemente si chiama Bayes factor il termine

BF01 =

∫Θ0f(x|θ)g0(dθ)∫

Θ1f(x|θ)g1(dθ)

=1− π0

π0Odd.

Il fatto di avere BF01 piccolo si considera come un’idicazione contro l’ipotesinulla, ossia a favore del suo rifiuto.

Quando l’ipotesi nulla e del tipo Θ0 = θ0 una possibilita e procederecome fatto prima considerando una prior π con una componente concentratasu θ0, ossia

π(dθ) = π0δθ0(dθ) + (1− π0)g1(dθ)Iθ ∈ Θ1.

In questo caso, usando sempre il teorema di Bayes, si ottiene che

Pθ ∈ Θ0|ξ = x =π0f(x|θ0)

π0f(x|θ0) + (1− π0)m1(x)

dove

m1(x) =

∫θ∈Θ1

f(x|θ)g1(dθ).

Usando il fatto che

Pθ ∈ Θ1|ξ = x = 1− Pθ ∈ Θ0|ξ = x

si ottiene

Odd =π0

1− π0

f(x|θ0)

m1(x)

Concludiamo questo paragrafo osservando che, nel caso si sia interessatia stime per intervalli dal punto di vista bayesiano, si possono considerare icosiddetti intervalli di credibilita.

5. GOODNESS OF FIT 77

Definizione 7.8. Un insieme C ⊂ Θ si dice insieme di confidenza(credibilita) di livello α se

Pθ ∈ C|ξ = x ≥ 1− α

5. Goodness of fit

Consideriamo un campione ξ = (ξ1, . . . , ξn) di variabili aleatorie (reali)indipendeneti e identicamente distribuite con comune funzione di ripartizio-ne Fθ.

Supponiamo di fissare un certo θ0 in Θ e per semplicita poniamo Fθ0 =F0. Capita spesso di trovarsi nella situazione in cui, sulla base del campioneξ, si e interessati a verificare l’ipotesi H0 che la funzione di ripartizionedelle osservazioni sia F0 contro l’alternativa H1 che θ 6= θ0. Sulla base delleosservazioni possiamo costruire la funzione di ripartizione empirica

Fn(x) = Fn,ξ(x) =1

n

n∑j=1

I(−∞,x](ξj).

Si noti che fissata una realizzazione di ξ in X (ossia una traiettoria), x 7→Fn,ξ(x) e una funzione di ripartizione, viceversa, fissato x in R, ξ 7→ Fn,ξ(x)e una variabile aleatoria. Si noti anche che questa funzione (aleatoria)corrisponde alla misura (aleatoria)

en(dx) =1

n

n∑j=1

δξj (dx).

Il teorema di Glivenko-Cantelli (si veda il Capitolo 9) assicura che pern tendente a +∞, Fn tende (quasi certamente) a Fθ. Quindi per deciderese la funzione Fθ sia uguale a F0 o meno, non e irragionevole considerare

Tn(ξ) = supx∈R|F0(x)− Fn(x)|.

Tale statistica e nota come distanza di Kolmogorov-Smirnov. Sulla base diquesta statistica si puo poi di costruire il test

δ(ξ) = ITn(ξ) > c.

Per fissare c = cα in modo che il test costruito sia di livello α e utile laseguente

Proposizione 7.9. Per ogni F0 funzione di ripartizione continua lavariabile aleatoria Tn(ξ) ha la stessa legge di

Dn = supy∈[0,1]

|y − 1

n

n∑j=1

I(−∞,y](Uj)|

dove U1, . . . , Un sono v.a. indipendenti con legge uniforme su [0, 1].

78 7. TEST DI IPOTESI

Dimostrazione. Si definisca la funzione quantile (o inversa generalizzata)di F0 ponendo, per ogni y ∈ (0, 1),

F−10 (y) = infx ∈ R : y ≤ F0(x).

Se U1, . . . , Un sono variabili i.i.d. con disribuzione uniforme su [0, 1], siverifica facilmente che

F−10 (Ui)

sono variabili aleatorie con funzione di ripartizione F0. Farlo per esercizio.1 Quindi Tn(ξ) ha la stessa legge di

supx∈R| 1n

n∑j=1

IF−10 (Ui) ≤ x − F0(x)|.

Ora, se F0 e continua vale anche, ponendo F0(x) = y, che

supx∈R| 1n

n∑j=1

IF−10 (Ui) ≤ x−F0(x)| = sup

y∈(0,1)| 1n

n∑j=1

IF0(F−10 (Ui)) ≤ y−y|.

Inoltre, sempre usando la continuita di F0, si ha F0(F−10 (Ui)) = Ui, da cui

la tesi.

La distribuzione di Dn si trova oramai in molti pacchetti statistici ein varie tavole. Inoltre si puo facilmente simulare con un banale metodoMontecarlo.

Una variante del precedente test di ipotesi si presenta quando le ξi,i = 1, . . . , n, sono osservazioni i.i.d. con una certa funzione di ripartizioneFθ tale che Eθ[ξ2

i ] < +∞.

Supponiamo di voler testare

Fθ0(x) = Φ(x− µ

σ

)per qualche µ e σ2

con Φ funzione di ripartizione gaussiana. In questo caso dovremmo specifi-care meglio lo spazio dei parametri Θ. Assumiamo che Θ coincida con tuttele funzioni di ripartizione con media e varianza finita. Si noti che in que-sto modo Θ risulta uno spazio infinito dimensionale. Sorvolando su questopunto, consideriamo

Tn := supx∈R|Fn(x)− Φ(

x−mn

sn)|

dove

mn =1

n

n∑j=1

ξj , s2n =

1

n

n∑j=1

(ξj −mn)2.

1Il caso facile e quando F0 e strettamente monotona, in questo caso, ovviamenteF−10 (F0(x)) = x, e quindi PF−1

0 (Ui) ≤ x = PUi ≤ F0(x) = F0(x).

5. GOODNESS OF FIT 79

A differenza di quanto visto in precedenza, in questo caso, essendo (µ, σ2)variabili, abbiamo costruito una versione della statistica di Kolmogorov-Smirnov in cui al posto di µ e σ abbiamo messo le relative stime basate su(ξ1, . . . , ξn). Un test ragionevole di livello α sara

δ(ξ) = ITn ≥ cαcon cα scelto in modo che δ abbia livello α. A tal proposito si noti che primadi tutto

Tn := supx∈R|Fn(xsn +mn)− Φ(x)| = sup

x∈R| 1n

n∑j=1

Iξj −mn

sn≤ x − Φ(x)|.

Inoltre, sotto l’ipotesi nulla H0, si vede subito che

(ξ1 −mn

σ, . . . ,

ξn −mn

σ)

ha la stessa legge del vettore

(ξ∗1 −m∗n, . . . , ξ∗n −m∗n)

dove ξ∗1 , . . . , ξ∗n sono i.i.d. con legge Gaussiana di media 0 e varianza 1 e

m∗n =∑n

j=1 ξ∗j /n. Di conseguenza, sotto H0, per qualunque µ, σ,

(ξ1 −mn

sn, . . . ,

ξn −mn

sn)

ha la stessa legge di

(ξ∗1 −m∗ns∗n

, . . . ,ξ∗n −m∗ns∗n

)

con ξ∗j e m∗n come sopra e s∗n =√

1n

∑nj=1(ξ∗j −m∗n)2. Concludendo

Tn = supx∈R|n∑j=1

Iξ −mn

sn≤ x − Φ(x)|

sotto l’ipotesi nulla, comunque si scelga µ e σ ha la stessa legge di

T ∗n = supx∈R|n∑j=1

Iξ∗ −m∗n

s∗n≤ x

− Φ(x)|,

e quindisupθ∈Θ0

Eθ[δ(ξ)] = PT ∗n ≥ cα.

Anche in questo caso, la determinazione di cα puo essere fatta usando unastima numerica di PT ∗ ≥ cα.

CAPITOLO 8

La famiglia esponenziale nella statisitca Bayesiana

Consideraimo prima di tutto modelli statistici in cui pθ sia una fami-glia esponenziale in forma canonica e la cui statistica sufficiente e completasia l’identita. Per accordare le notazioni con la parte delle dispense in cuiabbiamo introdotto la famiglia esponenziale, indichiamo il parametro con η.

In accordo con il paradigma Bayesiano, consideriamo il caso in cui ilprocesso di osservazioni

(ξ1, ξ2, . . . )

sia tale per cui ogni singola osservazione ξi assuma valori in X0 ⊂ Rk condisribuzione (condizionale dato η)

(22) pη(dx) = e(x,η)−ψ(η)µ(dx)

con µ misura σ–finita su Rk e tale per cui l’interno del convessificato del suosupporto (d’ora in poi indicato con CS(µ)) sia non vuoto. Infine, poniamo

H = η ∈ Rk : exp(ψ(η)) :=

∫Rke(x,η)µ(dx) < +∞,

e supponiamo che H sia un aperto non vuoto.

Osserviamo che il modello statistico Bayesiano che vogliamo studiare ecaratterizzato dalla distribuzione congiunta (ξ1, ξ2, . . . , η) data da

P

(ξ1, ξ2, . . . , ξn, η) ∈ A×B

=

∫Bp⊗nη (A)π(dη)

per ogni n ≥ 1, per ogni A in B(Rk×n) ed ogni B in B(H). Nella formulaprecedente abbiamo usato la notazione p⊗nη per indicare la misura prodotto

(indipendente) su Rk×n caratterizzata da

p⊗nη (A1 × · · · ×An) =n∏j=1

pη(Aj)

per ogni A1, . . . , An in B(Rk).

Siamo qui interessati a determinare una famiglia coniugata di distribu-zioni iniziali per il modello esponenziale.

In generale, diremo che una famiglia di m.d.p. πλ : λ ∈ Λ su (H,B(H))e detta famiglia coniugata per una famiglia di m.d.p. pη : η ∈ H se

81

82 8. LA FAMIGLIA ESPONENZIALE NELLA STATISITCA BAYESIANA

per ogni λ in Λ, la distribuzione finale πλ(·|ξ1:n) appartiene a Λ, ossia se

πλ(·|ξ1:n) = πλn(ξ1:n) per un’opportuna funzione λn : (Rk)n → Λ.

Ora, data la famiglia esponenziale (22), scegliamo come distribuzioneiniziale su (H,B(H)) la seguente misura di probabilita:

πn0,x0(dη) = exp(n0x0, η)− n0ψ(η)− φ(n0, x0)dη

dove

φ(n0, x0) := log

[∫H

exp(n0x0, η)− n0ψ(η)dη]

n0 e un numero reale positivo e x0 un punto di Rk. Naturalmente, percheπn0,x0 sia ben definita, dovremo dimostrare che exp(φ(n0, x0)) < +∞. Rin-viamo per il momento questo controllo e, prendendo per buona la limita-tiezza del precedente integrale, osserviamo che per il teorema di Bayes siha

πn0,x0(dη|x1:n) =exp(

∑ni=1 xi, η)− nψ(η) exp(n0x0, η)− n0ψ(η)− φ(n0, x0)dη

(∫Rk exp(

∑ni=1 xi, u)− nψ(u) exp(n0x0, u)− n0ψ(u)− φ(n0, x0))du)

= exp

(n∑i=1

xi + n0x0, η

)− (n+ n0)ψ(η)− φ

(n0 + n,

n0x0 +∑n

i=1 xin0 + n

)dη.

E’ possibile giustificare i precedenti passaggi con con la prossima propo-sizione, in cui poniamo

U := πn0,x0(dη) := exp(n0x0, η)−n0ψ(η)−φ(n0, x0)dη;x0 ∈ CS(µ), n0 ∈ (0,+∞).

Proposizione 8.1 (Diaconis-Ylvisaker). Se n0 > 0 e x0 ∈ CS(µ) e He un aperto non vuoto, allora

expφ(n0, x0) < +∞.

Inoltre, U e una famiglia coniugata di prior per la famiglia esponenziale(22). In particolare

πn0,x0(dη|x1:n) = πn+n0,

n0x0+∑ni=1 xi

n0+n (dη).

Dimostrazione. Sia A un sottoinsieme convesso e compatto di CS(µ).Dimostriamo prima di tutto che µ(A) < +∞. Fissiamo η 6= 0 in H.

Chiaramente IA = infx∈A e(x,η) > 0, quindi µ(A)IA ≤

∫A e

(x,η)µ(dx) ≤∫X0e(x,η)µ(dx) < +∞ e quindi µ(A) <

∫X0e(x,η)/IA < +∞. Di conse-

guenza, per ogni A convesso e compatto possiamo definire una mdp µA nelseguente modo

B 7→ µA(B) =µ(A ∩B)

µ(A)

8. LA FAMIGLIA ESPONENZIALE NELLA STATISITCA BAYESIANA 83

e porre poi xA :=∫xµA(dx). Applicando la disuguaglianza di Jensen alla

funzione x 7→ exp(x, η), otteniamo

exp(−ψ(η)) =1∫

e(x,η)µ(dx)≤ 1

(∫e(x,η)µA(dx))µ(A)

≤exp(−(η,

∫xµA(dx)))

µ(A),

ossia

(23) e−ψ(η) ≤ 1

µ(A)e−(η,xA).

Ora sia D l’insieme di tutti i punti di CS(µ) ⊂ Rd che si possono scriverecome

x =d+1∑j=1

λjxAj

dove

• Aj sono sottoinsiemi covessi e compatti di CS(µ),

• λj > 0 per j = 1, . . . , d+ 1 e∑d+1

j=1 λj = 1,• xA1 , . . . , xAd+1

non giacciono in alcun iperspazio d−1 dimensionale.

Si puo dimostrare che D e denso in CS(µ). Omettiamo la dimostrazionedettagliata, limitandoci a sottolineare i punti salienti: (i) Ogni punto x di

CS(µ) puo essere scritto come x =∑d+1

j=1 λjxj con xj in nel supporto di µ,∑d+1j=1 λj = 1, λj ≥ 0 e con x1, . . . , xd+1 che non giacciono in alcun iperpiano

d− 1 dimensionale; (ii) il sottoinsieme di punti x =∑d+1

j=1 λjxj come sopra

dove pero λj > 0 per ogni j e denso in CS(µ); (iii) i punti del tipo xA sonodensi nel supporto di µ.

Una volta appurato che D e un sottoinsieme denso di CS(µ), dimostria-mo prima di tutto il teorema per n0 > 0 e x0 ∈ D. Supponiamo quindi

che x0 =∑d+1

j=1 λjxAj . Per ogni k = 1, . . . , d + 1, sia Hk := η : (η, xAk) =

maxj=1,...,d+1(η, xAj ). Chiaramente ∪d+1k=1Hk = H, inoltre modo che se η

appartiene ad Hk allora

(η, xAk − xAj ) ≥ 0 j 6= k.

84 8. LA FAMIGLIA ESPONENZIALE NELLA STATISITCA BAYESIANA

Usando (23) possiamo quindi scrivere∫Hen0((x0,η)−ψ(η))dη ≤

d+1∑k=1

∫Hk

en0((x0,η)−ψ(η))dη

≤d+1∑k=1

1

µ(Ak)n0

∫Hk

en0(x0−xAk ,η)dη

=d+1∑k=1

1

µ(Ak)n0

∫Hk

e−n0

∑d+1j=1 λj(xAk−xAj ,η)

Si noti che su Hk si ha (xAk − xAj , η) ≥ 0 per ogni j. Per concludere cheper ogni k gli integrali che compaiono nell’ultima espressione sono integralidi esponenziali negativi e quindi finiti, non ci resta che fare un semplicecambiamento di variabili. Su Hk consideriamo il cambiamento di base Lkdato da lkj := (η, xAk − xAj ) per j = 1, . . . , k − 1, k + 1, . . . , d + 1. Dalmomento che i punti xAj non giacciono su un iperpiano d− 1 dimensionalesi ha che |JLk| 6= 0, quindi un semplice cambio di variabili fornisce∫

Hk

e−n0

∑d+1j=1 λj((xAk−xAj ),η)

=

∫Lk(Hk)∩lkj≥0

e−n0∑j 6=k λj l

kj

1

|JLk|⊗j 6=k dlkj < +∞.

Ora se x = εx1 + (1 − ε)x2 e combinazione convessa di due punti x1 ex2 appartenenti a D, la disuguaglianza di Holder implica che φ(n0, x) ≤εφ(n0, x1) + (1− ε)φ(n0, x2) < +∞. Quindi per ogni punto x di Conv(D) si

ha φ(n0, x) < +∞. A questo punto si conclude facilmente poiche CS(µ) =

D ⊂ Conv(D), e dunque φ(n0, x) < +∞ per ogni punto di CS(µ).

E’ immediato rienuciare il precedente risultato nel caso in cui

(24) pη(A) =

∫Ae(T (x),η)−ψ(η)µ(dx) (A ∈ B(Rk)).

e

H = η ∈ Rk : exp(ψ(η)) :=

∫Rke(T (x),η)µ(dx) < +∞.

In questo caso supporremo che l’interno del convessificato del supporto diµT sia non vuoto, e lo indicheremo con CS(µT ). Posto

φ(n0, t0) := log

[∫H

exp(n0t0, η)− n0ψ(η)dη]

si ha che

U := πn0,t0(dη) := exp(n0t0, η)−n0ψ(η)−φ(n0, t0)dη; t0 ∈ CS(µT ), n0 ∈ (0,+∞)e una famiglia coniugata per (24).

8. LA FAMIGLIA ESPONENZIALE NELLA STATISITCA BAYESIANA 85

Molto importante e il seguente risultato, che tuttavia non dimostreremo.

Proposizione 8.2. Se H e un aperto di Rk allora, per ogni n0 > 0 eper ogni t0 in CS(µT ) ∫

H∇ψ(η)πn0,t0(dη) = t0.

Proof. Si veda [4].

In particolare, grazie al fatto che∫RkT (x)pη(dx) = ∇ψ(η)

otteniamo il seguente utile corollario.

Corollario 8.3. Se H e un aperto di Rk,∫H

[∫RkT (x)pη(dx)

]πn0,t0(dη|ξ1:n) = E[T (ξn+1)|ξ1:n] =

n0t0 +∑n

i=1 T (ξi)

n0 + n.

In altri termini, la media a posteriori di T e una combinazione convessadella media a priori e della media empirica.

Infine, supponiamo che

(25) pθ(A) =

∫Ae(T (x),η(θ))−ψ(θ)µ(dx) (A ∈ B(Rk))

e

Θ = θ ∈ Rk : exp(ψ(θ)) :=

∫Rke(T (x),η(θ))µ(dx) < +∞

con η : Θ → H biettiva e misurabile e con Θ ⊂ Rk aperto non vuoto.Ancora supponiamo che l’interno del convessificato del supporto di µT sianon vuoto. Osserviamo che ψ(θ) = ψ(η(θ)). Definiamo infine νη(dθ) comela misura σ–finita su Θ tale che∫

Aνη(dθ) =

∫η(A)

dη.

Allora, posto

φ(n0, t0) := log

[∫Θ

exp(n0t0, η(θ))− n0ψ(η(θ))νη(dθ)],

si ha che

U := πn0,t0(dθ) := exp(n0t0, θ)−n0ψ(η(θ()−φ(n0, t0)νη(dθ); t0 ∈ CS(µT ), n0 ∈ (0,+∞)

e una famiglia coniugata per (25). Infatti∫Θ

exp(n0t0, η(θ))− n0ψ(η(θ))νη(dθ) =

∫H

exp(n0t0, η)− n0ψ(η)dη.

86 8. LA FAMIGLIA ESPONENZIALE NELLA STATISITCA BAYESIANA

In particolare per ogni t0 ∈ CS(µT ) e n0 ∈ N risulta φ(n0, t0) < +∞ e

πn0,t0(dθ|x1:n) = πn+n0,

n0t0+∑ni=1 t(xi)

n0+n (dθ).

Esempio 41 (Binomiale-Beta). Consideriamo il classico modello bino-miale, ossia

Θ = (0, 1) X0 = R µ(dx) := δ0(dx) + δ1(dx)

pθ(dx) = θx(1− θ)1−xµ(dx) = explog(1− θ) + x log(θ/(1− θ))µ(dx)

Chiaramente in questo caso

T (x) = x;

η(θ) = log(θ/(1− θ)) H = R;

ψ(θ) = − log(1− θ).

Di conseguenza, poiche η′(θ) = (θ(1− θ))−1,

πn0,x0(dθ) =θn0x0−1(1− θ)n0−1

B(n0x0, n0)dθ

con n0 > 0, x0 ∈ (0, 1) = CS(µ) e

B(a, b) =

∫ 1

0θa−1(1− θ)b−1dθ.

Ossia la famiglia coniugata risulta essere la famiglia di distribuzioni beta.La posteriori risulta essere

πn0,t0(dθ|x1:n) = θn0x0+∑ni=1 xi−1(1− θ)n0+n−

∑ni=1 xi−1

I(0,1)(θ)B

(n0x0 +

n∑i=1

xi, n0 + n−n∑i=1

xi

)−1

Esempio 42 (Poisson-Gamma). Consideriamo il modello di Poisson. Inquesto caso

Θ = R+ X0 = R µ(dx) :=∑k≥0

δk(dx)

pθ(dx) =1

x!e−θθxµ(dx) = exp− log(x!)− θ + (log θ)xµ(dx).

Chiaramente in questo caso

T (x) = x;

η(θ) = log(θ) H = R;

ψ(θ) = θ.

Di conseguenza, poiche η′(θ) = (θ)−1,

πn0,x0(dθ) =θn0x0−1e−n0θ

Γ(n0x0)nn0x0

0 dθ

8. LA FAMIGLIA ESPONENZIALE NELLA STATISITCA BAYESIANA 87

con n0 > 0, x0 ∈ R+ = CS(µ). Ossia la famiglia coniugata risulta essere lafamiglia di distribuzioni gamma.

Esempio 43 (Normale-Normale). Consideriamo ora una likelihood nor-male di media incognita e precisione nota λ. Ossia

X0 = R, Θ = R

pµ(dx) = dx

√λ

2πe−

λ2

(x−µ)2 =dx√λ√

2πe−λx

2/2 expλµx− λµ2/2.

Ossiat(x) = λx ψ(µ) = λµ2/2.

Poiche t0 = λx0 si ha

πn0,λx0(dµ) ∝ expn0x0λµ− n0λµ2/2dµ

= exp−n0λ

2(µ− x0)2

√n0λ

2πdµ.

In altre parole πn0,λx0 = N (x0,1n0λ

). Quindi la gaussiana e una fami-glia coniugata per la gaussiana con media incognita e precisione nota. Inparticolare la distribuzione a posteriori e

πn0,λx0x1:n = N (

n0x0 +∑n

i=1 xin0 + n

,1

λ(n0 + n)).

CAPITOLO 9

Stimatori M e Z.

Come sempre supponiamo di avere a che fare con un modello statistico(X,X , Pθ : θ ∈ Θ). In questo capitolo e nel successivo concentreremo la no-stra attenzione su modelli un po’ particolari. Supporremo che la successionedelle osservazioni sia infinitamente proseguibile, ossia

ξ = (ξ1, . . . , ξn, . . . )

e che le osservazioni ξi siano indipendenti ed identicamente distribuite.

Per formalizzare quando detto supporremo dunque che

• X := (Rd)N e X e la σ-algebra dei boreliani di X.• Pθ : θ ∈ Θ e una famiglia di misure prodotto tale che ogni Pθ renda

indipendenti e identicamente distribuite le variabili aleatorie ξi. Inaltri termini Pθ := ⊗∞i=1pθ ove pθ e una misura di probabilita suiboreliani di Rd, ossia

Pθ(A1 × . . . An × (Rd)+∞) =

∫A1×...An

pθ(dx1) . . . pθ(dxn)

Ai ∈ B(Rd), i = 1 . . . n.

Un importante teorema, noto come teorema di Glivenko Cantelli, affer-ma che, se (ξ1, . . . , ξn, . . . ) e una successione di vettori aleatori indipendentied identicamente distribuiti con comune funzione di ripartizione F , allora

supx∈Rk

|Fn(x)− F (x)|

P−q.c.→ 0,

ossia

P limn→+∞

supx∈Rk

|Fn(x)− F (x)|

= 0 = 1.

1. Il metodo di sostituzione

In ambito frequentista, come gia ricordato, si suppone implicitamentel’esistenza di un parametro θ0 tale che la distribuzione ”reale” di ξ sia Pθ0 .Sebbene non sappiamo quale sia questo parametro θ0 sappiamo che essoesiste.

89

90 9. STIMATORI M E Z.

Indicheremo con Fθ la funzione di ripartizione in Rd relativa a pθ, percui pθ(dx) = dFθ(x), misura di Lebesgue-Stiltjes. Notiamo che in questocaso, supponendo che le osservazioni sono indipendenti ed identicamentedistribuite, la conoscenza di pθ conincide con la conoscenza di Pθ.

Abbiamo gia avuto modo di vedere che in molti casi non si e interessatia fare dell’inferenza direttamente sul parametro θ0 (ossia direttamente supθ0) ma, piuttosto, su un funzionale di pθ0 .

Indicato con F l’insieme delle funzioni di ripartizione su Rd, un funzionaledi pθ e semplicemente una funzione T : F0 → T, dove tipicamente T ⊂ Rk eF0 ⊂ F.

Ecco alcuni esempi importanti con d = 1.

Media p:

T (F ) = Meanp(F ) :=

∫RxpdF (x);

Varianza:

T (F ) = V ar(F ) :=

∫R

(x−∫RydF (y))2dF (x);

Quantile:

T (F ) = Qp(F ) := F−1(p) = infx : F (x) ≥ p;Skewness:

T (F ) = k(F ) =

∫R(x−

∫R ydF (y))3dF (x)

[∫R(x−

∫R ydF (y))2dF (x)]3/2

;

Funzione di ripartizione in x:

T (F ) = F (x).

Infine vediamo un esempio di funzionale definito su un sottoinsieme dellefunzioni di ripartizioni doppie, ossia per d = 2.

Correlazione:

T (F ) = ρ(F ) =

∫R2 [(x−

∫R tdF1(t))(y −

∫R tdF2(t))]dF (x, y)

([∫R(x−

∫R tdF1(t))2dF1(x)][

∫R(y −

∫R tdF2(t))2dF2(y)])1/2

,

dove F1(x) =∫

(−∞,x]×R dF (t, y) e F2(y) =∫R×(−∞,y] dF (x, t).

Spesso, data una certa τ , identificando Θ con il sottoinsieme di F defi-nito da Fθ : θ ∈ Θ possiamo pensare il problema di stima di τ(θ) comeequivalente al problema di stimare una certa T (Fθ), per un’opportuna sceltadi T .

Il metodo di sostituzione consiste nel considerare come stimatore di unfunzionale T (F ) il funzionale medesimo calcolato nella funzione di riparti-zione empirica assocaita alle prime n osservazioni, i.e. T (Fn), a patto cheFn appartenga a F0.

2. STIME M E Z 91

Il teorema di Glivenko-Cantelli, ricordato all’inizio del capitolo, giustifica”euristicamente” il metodo di sostituzione, infatti ci si puo aspettare che,per n grande, T (Fn) sia ”vicino” a T (F ), almeno se T e un funzionale inqualche senso continuo.

2. Stime M e Z

Nei capitoli precedenti abbiamo visto che due buone proprieta di unostimatore sono che esso sia non distorto e che sia a varianza uniformementeminima. Tuttavia tali proprieta non sono le uniche significative, inoltre, nonsempre e possibile determinare agevolmente stimatori non distorti a varian-za uniformemente minima. E’ per tanto interessante determinare ”strate-gie” che conducano a costruire stime sensate, anche se magari non ottima-li dal punto di vista della varianza. Le stime di massima verosimiglianzaconstituiscono un primo ed importante esempio in questa direzione.

Un metodo per determinare classi abbastanza generali di stimatori equello di ottenere uno stimatore minimizzando (o massimizzando) opportu-ne funzioni del parametro e delle osservazioni. Descriviamo una classe distimatori ottenuti in questo modo. Si consideri una funzione

ρ : Rd ×Θ→ Rtale che per ogni θ ∈ Θ l’applicazione

x 7→ ρ(x, θ)

sia misurabile ed inoltre

−∞ < Eθ0ρ(ξ1, θ0) =

∫Rdρ(x, θ0)dFθ0(x) <

∫Rdρ(x, θ)dFθ0(x) = Eθ0ρ(ξ1, θ)

per ogni θ 6= θ0. Si definisca quindi

(26) M(θ) :=

∫Rdρ(x, θ)dFθ0(x).

Notiamo che M dipende da θ0 ma che

argminθ∈ΘM(θ) = θ0.

Se conoscessimo M , per determinare θ0 sarebbe quindi sufficiente minimiz-zare la suddetta funzione, tuttavia per conoscere M dovremmo conoscereθ0, il che e ovviamente tautologico. Si puo pero procedere sostituendo ad Muna sua approssimazione, diciamo Mn, che dipenda dal campione osservatoma non da θ0, e scegliere come stima di θ0 il minimo di Mn.

A questo punto, ragionando come nel paragrafo precedente, viene natu-rale scegliere

Mn(θ) :=

∫Rdρ(x, θ)dFn(x)

come approssimazione di M(θ).

92 9. STIMATORI M E Z.

Osserviamo subito che

Mn,ξ(θ) =1

n

n∑k=1

ρ(ξk, θ)

e che ξ 7→ Mn,ξ(θ) e misurabile. Quindi come stima di θ0 si puo scegliere

(27) θn = argminθ∈ΘMn(θ).

Spesso invece di voler stimare direttamente il parametro θ si e inte-ressati solo ad “una parte” di tale parametro, ossia ad una funzione τ(·)di θ. In questo caso un criterio per determinare una stima di τ(θ0), conτ : Θ → Y funzione a valori in uno spazio metrico (Y, d), puo essere quellodi minimizzare

h→ Mn(τ−1(h)),

ossia scegliere come stimatore di t(θ0)

(28) hn := argminh∈τ(Θ)Mn(τ−1(h)).

Qui occorre osservare che τ−1 in generale non e iniettiva e che per tantoh 7→ Mn(τ−1(h)) potrebbe non essere ben definita. Per questo motivo puoconvenire considerare semplicemente come nuovo spazio dei parametri τ(Θ),e su questo spazio costruire una funzione di discrepanza

M(h) :=

∫Rdρ∗(x, h)dFθ(x),

con ρ∗ definita su X × τ(Θ) in modo che

argminh∈τ(Θ)M(h) = τ(θ0).

Di conseguenza si puo scegliere

Mn(h) =1

n

n∑k=1

ρ∗(ξk, h)

e quindi

hn := argminh∈τ(Θ)Mn(h).

Osservazione. Naturalmente non e detto che i punti di massimo ominimo di cui si e discusso fin qui esistano. Inoltre, se anche viene garantital’esistenza di una successione di applicazioni da X in Θ che soddisfi (27) none affatto detto che gli elementi di tale successione siano variabili aleatorie,ossia siano misurabili.

Ovviamente quanto detto puo anche essere riletto dicendo che per otte-nere una stima di θ0 si deve massimizzare

θ 7→Mn(θ) := −Mn(θ),

per questo motivo stimatori come quelli fin qui discussi sono spesso deno-minati stimatori M – dove M sta per “max”.

3. MINIMA DISCREPANZA 93

Notiamo che se Θ = Rk e θ → M(θ) e una funzione sufficientementeregolare, allora θ0 e un punto di Rk dove si annulla

Z(θ) := ∇M(θ).

Pertanto si puo pensare di ottenere uno stimatore di θ0 cercando una solu-zione di

0 = ∇Mn(θ) =: Zn(θ).

Stimatori di questo tipo sono talvolta chiamati stimatori Z– dove Z staper “zero”. Va rilevato che vi sono stimatori ottenuti cercando le soluzionidi equazioni del tipo Zn(θ) = 0 dove tuttavia Zn non e necessariamente ilgradiente di una funzione.

In generale sia

ψ : Rd ×Θ→ (R)k

una funzione tale che per ogni θ ∈ Θ l’applicazione x 7→ ψ(x, θ) sia misu-rabile ed inoltre tale che θ0 sia l’unica soluzione del sistema di equazioni inθ

(29)

∫Rdψi(x, θ)dFθ0(x) = 0, i = 1, . . . , k,

ossia ∫Rdψi(x, θ0)dFθ0(x) = 0 i = 1, . . . , k,

e

(

∫Rdψ1(x, θ)dFθ0(x), . . . ,

∫Rdψk(x, θ)dFθ0(x)) 6= (0, 0, . . . , 0)

per ogni θ 6= θ0.

Una successione di variabili aleatorie θn e detta successione di stimatoriZ per θ0 se

(30)1

n

n∑j=1

ψi(ξj , θn) = 0 i = 1, . . . , k,

Pθ0 quasi certamente per ogni n ≥ 1.

3. Minima discrepanza

I metodi M possono essere spesso visti come metodi di minima discre-paza. Nei metodi di minima discrepanza si considera una funzione di di-screpanza D fra funzioni di ripartizione (o fra misure), tale che sia definitasu D × D, con D sottoinsieme dello spazio delle funzioni di ripartizione (odelle misure) tale che Fθ : θ ∈ Θ ⊂ D. Per essere una discrepanza D

deve essere tale che che θ 7→ M(θ) := D(Fθ, Fθ0) sia una funzione con un

solo minimo in θ0. Ancora si puo sostituire ad M una sua approssimazione,diciamo Mn, che dipenda dal campione osservato ma non da θ0, e sceglierecome stima di θ0 il minimo di Mn. Per determinare un’approssimazione

94 9. STIMATORI M E Z.

di M , in generale, si cerca di scegliere D in modo che contenga, per ognin, la funzione di ripartizione empirica associata a (ξ1, . . . , ξn) per ogni rea-lizzazione di (ξ1, . . . , ξn). Si puo quindi scegliere come approssimazione di

M

θ 7→ D(Fθ, Fn) =: Mn(θ).

3.1. Le divergenze come esempio di discrepanze. Si assuma chep e q siano due misure di probabilita su (X,X ), e si ponga pa e ps per laparte assolutamente continua e la parte singolare di p rispetto a q, da cuip = pa + ps.

La cosiddetta g–divergenza fra p e q si definisce come

(31) Dg(p, q) =

∫X\X∗

g(l(x)

)q(dx) + gp(X∗),

dove

• g e una funzione convessa a valori in [0,+∞), con limx→+∞ x−1g(x) =

g e g(1) = 0;• l = dpa/dq e X∗ e un insieme di misura pa nulla tale che per ogni

insieme misurabile A, ps(A) = ps(A ∩X∗).

Se X e uno spazio discreto con cardinalita k e p = (p1, . . . , pk), q =(q1, . . . , qk) sono due vettori di probabilita allora

(32) Dg(p, q) =k∑j=1

[I(0,+1](qj) g(pjqj

)qj + I0(qj)gpj ].

E’ facile verificare che la scelta g(x) = |x − 1|/2 implica che Dg(p , q)coincida con la distanza in variazione fra p e q, ossia

dTV (p, q) =1

2

∫X|fp(x)− fq(x)|µ(dx)

= supA∈X|q(A)− p(A)|

dove fp e fq sono densita di p e q rispetto ad una misura σ–finita µ. Si puoscegliere µ = p+ q.

Ecco altre forme importanti di g–divergenze.

Divergenza di Kullback–Leibler:

dKL(p, q) :=

∫X log(fp(x)/fq(x))fp(x)µ(dx) se p e assolutamente continua rispetto a q

+∞ altrimenti.

distanza χ2:

dχ2(p, q) :=

∫X(fq(x)− fp(x))2fq(x)−1µ(dx) se p e assolutamente continua rispetto a q

+∞ altrimenti.

4. ESEMPI 95

distanza di Hellinger (al quadrato):

d2H(p, q) :=

∫X

(√fp(x)−

√fq(x)

)2µ(dx).

Questi indici possono essere ottenuti da Dg scegliendo g(x) = x log x,g(x) = (x− 1)2 e g(x) = (

√x− 1)2.

4. Esempi

Esempio 44 (Media). Si supponga di disporre di un campione di variabilialeatorie reali (ξ1, . . . , ξn) delle quali si sia interessati a stimare la media

τ(θ) = Eθ(ξ1).

Si puo notare che

τ(θ0) = argminm∈RM(m)

con

M(m) = Eθ0 |ξ1 −m|2.Applicando il principio di sostituzione otteniamo

Mn(m) =1

n

n∑i=1

|ξi −m|2

e quindi abbiamo che una stima M di τ(θ) e data dalla media empirica

1

n

n∑i=1

ξi.

Esempio 45 (Mediana). Nelle ipotesi dell’esempio precedente si suppon-ga di voler stimare una mediana di Pθ0 (per semplicita supponiamo che talemediana sia unica). Ancora si puo notare che

τ(θ0) := Med(Pθ0) = argminm∈RM(m)

con

Eθ0 |ξ1 −m|.Applicando il principio di sostituzione otteniamo

Mn(m) =1

n

n∑i=1

|ξi −m|

e quindi abbiamo che una stima di τ(θ) e data dalla mediana empirica, chenel caso di un campione di dimensione dispari e data da ξ(m), con m =(n− 1)/2 + 1.

96 9. STIMATORI M E Z.

Esempio 46. Un esempio di funzione di discrepanza fra funzioni diripartizione e dato da

M(θ) =

∫R|Fθ(x)− Fθ0(x)|2dFθ0(x).

In questo caso

Mn(θ) =1

n

n∑i=1

|Fθ(ξ(i))−i

n|2

dove (ξ(1), . . . , ξ(n)) e la statistica d’ordine associata a (ξ1, . . . , ξn), ossia ivalori di (ξ1, . . . , ξn) riordinati in maniera crescente, in particolare ξ(1) ≤· · · ≤ ξ(n).

Esempio 47 (Metodo dei momenti). Si supponga che il modello statisticopossa essere parametrizzato da un parametro θ tale che

θ = (θ1, . . . , θd) = (Eθ(g1(ξ1)), . . . , Eθ(gd(ξ1))).

Classicamente gi(x) = xi. Il metodo dei momenti, visto come metodo Z,consiste nel considerare

ψ(ξ1, θ)i =

∫gi(x)dFθ(x)− gi(ξ1)

e quindi determinare θn come soluzione di∫gj(x)dFθn(x) =

1

n

n∑k=1

gj(ξk) j = 1, . . . , d.

5. Stimatori di Massima Verosimiglianza come stimatori M

Nel quadro generale degli stimatori M rientra una classe importantissimadi stimatori, gli Stimatori di Massima Verosimiglianza.

Supponiamo il modello statistico in esame sia dominato da una misuraσ-finita µ, inoltre poniamo fθ := dpθ

dµ .

Proposizione 9.1. Se µ(fθ > 04fθ0 > 0

)= 0, allora

(33) maxθ∈Θ

∫Rd

log(fθ(x))dFθ0(x) =

∫Rd

log(fθ0(x))dFθ0(x).

Scegliendo ρ(x, θ) := − log(fθ(x)), si ha che una scelta ammissibile didiscrepanza e

M(θ) = −∫Rd

log(fθ(x))dFθ0(x).

Quindi per stimare θ0, occorre minimizzare

Mn(θ) := − 1

n

n∑i=1

log(fθ(ξ)

)= − 1

nlog(

n∏i=1

fθ(ξi)).

6. STIMATORI CONSISTENTI 97

Il che equivale a massimizzare la cosiddetta funzione di verosimiglianza delcampione n-dimensionale θ 7→

∏ni=1 fθ(ξi), ove

∏ni=1 fθ(ξi) e la densita n-

dimensionale di P θ.

Dimostrazione della Prop. 9.1.

Sfruttando la disuguaglianza

x > log(1 + x) x 6= 0,

si ha ∫R

(log fθ0(x)− log fθ(x)

)fθ0(x)µ(dx) =

=

∫x:fθ0 (x)>0,fθ(x)>0

− log( fθ(x)

fθ0(x)

)fθ0(x)µ(dx) =

=

∫x:fθ0 (x)>0,fθ(x)>0

− log(

1 +fθ(x)

fθ0(x)− 1)fθ0(x)µ(dx) =

≥−∫x:fθ0 (x)>0,fθ(x)>0

( fθ(x)

fθ0(x)− 1)fθ0(x)µ(dx).

(34)

La disuguaglianza e stretta se Pθ0fθfθ0− 1 6= 0 > 0, ossia si ha l’ugua-

glianza solo se Pθ0fθ = fθ0 = 1.

6. Stimatori consistenti

Definizione 9.2. Una successione di stimatori Tn(ξ)n di τ(θ) e dettasuccessione debolmente consistente per τ(θ) se converge in probabilitaPθ a τ(θ), ossia

limn→∞

Pθ‖Tn(ξ)− τ(θ)‖ > ε = 0 ∀ε > 0.

Definizione 9.3. Una successione di stimatori Tn(ξ)n di τ(θ) e dettasuccessione fortemente consistente per τ(θ) se converge Pθ-q.c. a τ(θ),ossia se esiste un insieme A t.c. Pθ(A) = 1 e tale per cui limn→∞ Tn(ξ) =τ(θ) per ogni ω ∈ A.

CAPITOLO 10

Modello lineare

Leggere il Capitolo 6 di [2] e parte delle dispense messe in rete sul modellolineare.

Nel seguito I indichera la matrice identita, i vettori saranno intesi comevettori colonna, At indichera il trasposto della matrice (o del vettore) A.Ricordiamo che se

X = [Xi,j ]1≤i≤n,1≤j≤me una matrice aleatoria si usa indicare con E[X] la matrice la cui componente(i, j) e E[Xi,j ]. Inoltre se U e V sono due vettori aleatori scriviamo

Cov(U, V ) = E(

(U − E[U ])(V − E[V ])t)

= [Cov(Ui, Vj)]i,j .

Ricordiamo anche alcune semplici (ma utili) proprieta. Siano A e B duematrici deterministiche, a e b due vettori deterministici e U e V due vettorialeatori, allora

• E[AU +BV ] = AE[U ] +BE[V ],• Cov(AU + a,BV + b) = ACov(U, V )Bt,• Cov(atAU, btBV ) = atACov(U, V )Btb.

In particolare, posto

V ar(U) = Cov(U,U) = [Cov(Ui, Uj)]i,j ,

si haV ar(AU + a) = AV ar(U)At.

Esercizio 17. Dimostrare le relazioni precedenti.

Data una matriceA (reale) n×m, le cui colonne indichiamo con a1, . . . , am,il sottospazio lineare (di Rn) generato dalle colonne di A verra indicato conC(A). Ossia

C(A) = w ∈ Rn : w = Ay, y ∈ Rm.Scriveremo anche ker(A) = y ∈ Rm : Ay = 0. Sia Z una matrice (reale)n× p di rango r ≤ p ≤ n. Si ricordino i seguenti fatti elementari di algebralineare:

(A1) ker(Z) = ker(ZtZ)(A2) C(ZtZ) = C(Zt)(A3) rank(Z) = rank(Zt) = rank(ZtZ)

99

100 10. MODELLO LINEARE

(A4) Se rank(Z) = p allora ZtZ e invertibile.

Esercizio 18. Dimostrare le relazioni precedenti.

Dato un vettore Y in Rn la proiezione (ortogonale) di Y su C(Z) e un

vettore Y ∈ C(Z) tale che

‖Y − Y ‖2 = minV ∈C(Z)

‖Y − V ‖2.

In particolare esistera una matrice di proiezione, che indicheremo con PZ ,tale che

Y = PZY

per ogni Y in Rn.

Esercizio 19. Dimostrare che P 2Z = PZ = P tZ e che tr(PZ) = r.

Ricordiamo anche che se v1, . . . , vr sono vettori ortonormali in Rn taliche

C(Z) = µ : µ =

r∑i=1

λivi per λi in R

e W e la matrice che ha come colonne i vettori vi, allora

PZ = WW t.

1. Definizioni

Nel modello lineare si assume che il vettore di osservazioni

Y = (Y1, . . . , Yn)t

si possa scrivere come

Y = Zβ + ε

dove

• Z e una matrice n× p di rango r ≤ p ≤ n (nota), detta matrice didisegno;• β e un parametro che varia in Rp (o in un suo sottoinsieme);• εt = (ε1, . . . , εn) un vettore aleaorio.

Nel seguito faremo tre differenti assunzioni:

• (LSM) Least square models: la legge di ε e nota con E[ε] = 0 , ilparametro e θ = β e Θ = Rp;• (GMM) Gauss-Markov moldes: ε e tale che E[ε] = 0 e Cov(ε) =σ2I, il parametro e θ = (σ2, β) e Θ = R+ × Rp;• (GLM) Gaussian Linear models: ε ∼ N (0, σ2I), il parametro eθ = (σ2, β) e Θ = R+ × Rp.

2. ESEMPI 101

Nessuno dei modelli precedenti, senza fare ulteriori ipotesi su Z, e iden-tificabile. Ad esempio

Yi = a+ bi + εi (i = 1, 2)

con εi i.i.d N (0, σ2) puo essere scritto come modello linerare scegliendo

Z =

(1 1 01 0 1

)β =

ab1b2

ma chiaramente la legge di (Y1, Y2) quando β = (1, 0, 0) e uguale alla leggedi (Y1, Y2) quando β = (0, 1, 0).

2. Esempi

2.1. Regressione lineare.

2.1.1. Regressione lineare semplice. In questo caso

Yi = α1zi + α0 + εi

per i = 1, . . . , n con εi i.i.d. In particolare, p = 2

Z =

1 z1

. . . . . .1 zn

e

βt = (α0, α1).

2.1.2. Regressione lineare multipla. Qui

Yi = β1zi1 + · · ·+ βkzik + εi

per i = 1, . . . , n e

Z =

z11 z12 . . .. . . . . . . . . . . .zn1 zn2 . . .

e

βt = (β1, β2, . . . , βk).

Tipicamente si considera il caso in cui zi1 = 1 per ogni i ottenendo unageneralizzazione della regressione semplice

Yi = β1 + β2zi2 · · ·+ βkzik + εi

In questo caso, β1 e un parametro libero dalle covariate, mentre i βk perk ≥ 2 sono parametri che regolano Yi a partire dalla covariata k-iesima, i.e.zi,k.

102 10. MODELLO LINEARE

2.2. ANOVA ad una e due vie. Nel caso dell’ANOVA (analisi dellavarianza), si suppone che le osservazioni appartengano a m gruppi distinti,ciascuno con cardinalita ni. L’osservazione j-esiama del gruppo i si indicacon Yij . Nel caso dell’ANOVA ad una via si pone

Yik = α0 + αi + εik i = 1, . . . ,m, k = 1, . . . , ni.

dove εik sono i.i.d. (la legge degli errori non dipende ne da i ne da k),α0 e il fattore comune a tutti e αi e il fattore proprio del gruppo i. Nelcaso dell’ANOVA a due vie si ha a che fare con il caso in cui ogni singolaosservazione e classificata da due caratteri, i e j che possono variare da 1 am1 e da 1 a m2 rispettivamente. La k-esima osservazione del blocco (ij) siindica con Yijk. In questo caso si pone

Yijk = α0 + αi + γj + εijk i = 1, . . . ,m1, j = 1, . . . ,m2, k = 1, . . . , nij .

Ancora εijk sono i.i.d, α0 e il fattore comune, αi il fattore proprio delcarattere α e γj quello del carattere γ.

3. LSE

In questo paragrafo assumiamo valga una delle tre ipotesi LSM,GMM oGLM. In particolare assumiamo che

E[ε] = 0.

Definizione 10.1. Una funzione τ(β) = λtβ e detta (linearmente)stimabile se esiste una statistica T lineare tale che

Eθ[T (Y )] = λtβ

per ogni β in Rp.

Teorema 10.2. λtβ e linearmente stimabile se e solo se λt = atZ, ossiase e solo se λ ∈ C(Zt).

Dimostrazione. (⇐) Si consideri T (Y ) = atY . Allora Eθ[atY ] = atZβ =

λtβ.

(⇒) Sia T (Y ) = c+atY , se Eθ[c+atY ] = λtβ per ogni β allora c+atZβ =

λtβ per ogni β. Allora scegliendo β = 0 si ha subito c = 0 e per β = ei (conei i-esimo versore) si ottiene λt = atZ.

In particolare se rank(Z) = p, usando (A3), anche rank(Zt) = p edunque C(Zt) = Rp. Cio mostra che se rank(Z) = p allora ogni funzionelineare λtβ e stimabile. Se invece rank(Z) < p questo non e vero, comemostra l’esempio successivo.

3. LSE 103

Esempio 48. Consideriamo l’ANOVA ad una via introdotta nella sezio-ne precedente. In questo caso

Zt =

1, 1, 1, . . . 1, 1, 1 . . . 1, 1, 1, . . . . . .1, 1, 1, . . . 0, 0, 0, . . . 0, 0, 0, . . . . . .0, 0, 0, . . . 1, 1, 1, . . . 0, 0, 0, . . . . . .

. . . . . . . . . . . .︸ ︷︷ ︸n1

︸ ︷︷ ︸n2

quindi se λ = Zta con at = (a1, . . . , an) allora

λt = (n∑i=1

ai,

n1∑i=1

ai,

n1+n2∑i=n1+1

ai, . . . ).

Ossia

C(Zt) = λt = (λ0, λ1, . . . , λp) : λ0 =

p∑i=1

λi.

Dunque, α0 non e stimabile poiche

α0 = λtβ

con λt = (1, 0, 0, . . . ) 6∈ C(Zt). Ragionando allo stesso modo si dimostra cheanche αi non e stimabile. Risultano invece stimabili αi − αj e α0 + αi.

Definiamo

Q(β) = Q(β, Y ) = ‖Y − Zβ‖2 = (Y − Zβ)t(Y − Zβ).

Definizione 10.3. Uno stimatore βLS di β si dice ai minimi quadratise

βLS ∈ argminβQ(β, Y )

Ricordando che data una matrice A simmetrica,

∇β(βtAβ) = 2Aβ

si ottiene che

∇βQ(β) = ∇β(Y tY + βtZtZβ − 2Y tZβ)

= 2(ZtZβ − ZtY ).

Dunque i punti stazionari di Q sono le soluzioni dell’equazione (detta nor-male)

(35) ZtZβ = ZtY.

Di conseguenza ogni βLS sara soluzione dell’equazione (35).

Indichiamo con Y la proiezione (ortogonale) di Y su C(Z). Come ricor-dato esistera una matrice di proiezione PZ tale che

Y = PZY.

104 10. MODELLO LINEARE

Il successivo risultato e ovvio.

Lemma 10.4. Per ogni Y esiste almeno uno stimatore ai minimi qua-drati. Inoltre β ∈ argminβQ(β, Y ) se e solo se Zβ = Y

Dim. La seconda parte della tesi e ovvia. Il fatto che esista almeno unostimatore ai minimi quadrati discende dal fatto che esiste sempre la proie-zione di Y su C(Z). In altri termini, per definizione di C(Z) e di proiezioneesiste sempre un β(Y ) tale che Zβ(Y ) sia la proiezione di Y su C(Z), ossiaβ(Y ) ∈ argminβQ(β, Y ).

Si noti in particolare che se βi ∈ argminβQ(β, Y ) per i = 1, 2 alloraZβ1 = Zβ2.

Lemma 10.5. β ∈ argminβQ(β, Y ) se e solo se β e soluzione di (35).

Dimostrazione. In un verso e ovvio per derivazione. Supponiamo orache β sia soluzione di (35). Allora

Q(β) = (Y − Zβ)t(Y − Zβ)

= (Y − Zβ)t(Y − Zβ) + (Zβ − Zβ)t(Zβ − Zβ) + 2(Zβ − Zβ)t(Y − Zβ)

con

(Zβ − Zβ)t(Y − Zβ) = Y tZβ − βtZtZβ + Y tZβ − βtZtZβ.Usando (35) ne segue che

(Zβ − Zβ)t(Y − Zβ) = 0

e quindiQ(β) = Q(β) +RtR ≥ Q(β)

con R = Z(β − β).

Osserviamo ora che se r = rank(Z) = p allora ZtZ e invertibile (crf[A4]) e (35) fornisce

βLS = (ZtZ)−1ZtY.

In generale se r < p la soluzione dell’equazione (35) esiste ma non e unica.Come gia osservato nel Lemma 10.4 sappiamo che esiste almeno un β(Y ) ∈argminβQ(β, Y ). Ossia, posto A = ZtZ e b = ZtY , grazie al Lemma 10.5esiste (per ogni realizzazione di Y ) almeno una soluzione (β = β(Y )) delsistema lineare

Aβ = b.

Si noti che cio e equivalente a dire che b = ZtY appartiene a C(ZtZ),ma cio, volendo, segue anche da [A2], essendo ovviamente b ∈ C(Zt). Dalmomento che almeno una soluzione β(Y ) esiste, osserviamo ora che se A−

e una matrice tale che AA−A = A, allora anche x = A−b e una soluzione.Infatti, poiche Aβ(Y ) = b

Ax = AA−b = AA−Aβ(Y ) = Aβ(Y ) = b.

Mettendo assieme quanto fin qui visto otteniamo la seguente

4. STIMATORI BLUE 105

Proposizione 10.6. Se (ZtZ)− e una matrice tale che ZtZ(ZtZ)−ZtZ =ZtZ allora

βLS = (ZtZ)−ZtY

e uno stimatore ai minimi quadrati di β ed inoltre

PZ = Z(ZtZ)−Zt.

Se rank(Z) = p allora βLS e unico ed uguale a (ZtZ)−1ZtY .

In effetti si puo dimostrare che una matrice (ZtZ)− che soddisfa ZtZ(ZtZ)−ZtZ =ZtZ esiste sempre (anche se non e unica).

Il vettore Y = ZβLS e detto fitted values mentre il vettore e = Y −ZβLSe detto vettore dei residui. Immediata conseguenza del fatto che e e Y sonoortogonali e il fatto che

‖Y ‖2 = Y tY = Y tY + ete.

4. Stimatori BLUE

In questo paragrafo assumiamo che valgano le ipotesi GMM e dunqueche θ = (σ2, β).

Definizione 10.7. Uno stimatore T lineare di τ(β) e detto BLUE (BestLinear Unbiased Estimator) se e non distorto, lineare (in Y ) e a varianzauniformemente minima nella classe degli stimatori lineari non distorti di τ .

Proposizione 10.8. Se λtβ e linearmente stimabile allora λtβLS e unostimatore BLUE.

Dimostrazione. Prima di tutto si osservi che λtβLS e uno stimatore nondistorto di λtβ. Infatti dal momento che λtβ e stimabile λt = atZ perqualche a (Teorema 10.2). Allora

Eθ[λtβLS ] = Eθ[a

tZβLS ],

ma dal momento che ZβLS = PZY

Eθ[λtβLS ] = atPZZβ = atZβ = λtβ.

Se u = at0Y e uno stimatore lineare non distorto di λtβ. Allora

λtβ = Eθ[at0Y ] = at0Zβ

per ogni β e quindi λt = at0Z. Dal momento che λt = atZ segue che

λt = at0Z = atZ.

Scrivendo u = λtβLS + (u− λtβLS) si ha

V arθ(u) = V arθ(λtβLS) + V arθ(u− λtβLS) + 2Covθ(u− λtβLS , λtβLS)

≥ V arθ(λtβLS) + 2Covθ(u− λtβLS , λtβLS).

106 10. MODELLO LINEARE

Ora, ricordando che at0Z = atZ e che ZβLS = PZY ,

Covθ(u− λtβLS , λtβLS) = Covθ(at0Y − atZβLS , atZβLS)

= Covθ(at0Y − at0ZβLS , at0ZβLS)

= Covθ(at0(I − PZ)Y, at0PZY ) = at0(I − PZ)σ2I(at0PZ)t

= σ2at0(I − PZ)(PZ)ta0 = 0

poiche (I − PZ)(PZ)tx = 0 per qualunque x. Quindi

V arθ(θ) ≥ V arθ(λtβLS).

Chiaramente nella precedente disuguaglianza si ha l’uguale se e solo seV arθ(u− λtβLS) = 0, ossia se e solo se u = λtβLS q.c. .

5. Stimatore non distorto di σ2 per GMM

Supponiamo che valgano le ipotesi GMM.

Proposizione 10.9. Sia Y un vettore aleatorio con V ar(Y ) = Σ eE[Y ] = µ. Allora, se A e una matrice deterministica

E[Y tAY ] = µtAµ+ tr(AΣ)

Dimostrazione. Osserviamo prima di tutto che Y tAY e uno scalare,quindi tr(Y tAY ) = Y tAY . Inoltre dal momento che sia E che tr sono lineariE[tr(X)] = tr(E[X]) per ogni matrice aleatoria X. Grazie alla ciclicita dellatraccia si ha anche tr(Y tAY ) = tr(AY Y t). In fine, poiche

V ar(Y ) = E[(Y − µ)(Y − µ)t] = E[Y Y t]− µµt,si ha che E[Y Y t] = V ar(Y ) + µµt = Σ + µµt. Combinando queste osserva-zioni otteniamo

E[Y tAY ] = tr(AE[Y Y t]) = tr(A(Σ + µµt)) = tr(AΣ) + tr(µtAµ).

In GMM si ha

Eθ[Y ] = Zβ

quindi posto A = I − PZ usando la proposizione precedente otteniamo

Eθ[Yt(I − PZ)Y ] = βtZt(I − PZ)Zβ + tr((I − PZ)σ2I),

ma (I − PZ)Zβ = 0 e tr((I − PZ)) = n− r, quindi

Eθ[1

n− rY t(I − PZ)Y ] = σ2.

In altri termini

σ2 :=1

n− rY t(I − PZ)Y

e uno stimatore non distorto di σ2. Osserviamo che

Y t(I − PZ)Y = Y t(Y − Y ) = (Y − Y )t(Y − Y ) + Y (Y − Y )

6. MODELLO LINEARE GAUSSIANO 107

ma Y (Y − Y ) = 0 poiche Y e (Y − Y ) sono ortogonali. In altri termini

σ2 :=1

n− r‖Y − Y ‖2 =

1

n− r‖e‖2.

Riassumendo

Proposizione 10.10. Nelle ipotesi GMM,

σ2 :=1

n− r‖e‖2

e uno stimatore non distorto di σ2.

6. Modello lineare Gaussiano

Se vale GLM allora, indicato con θ = (β, σ2) e con fθ(y) la densita diY , si ha immediamente che

fθ(y) = exp−n2

log(2πσ2)− 1

2σ2(y − Zβ)t(y − Zβ).

Quindi

ΛY (β, σ2) = log(fθ(Y )) = − 1

2σ2Q(β, Y )− n

2log(2πσ2).

Come prima conseguenza notiamo che se σ2 e noto lo stimatore di massimaverosimiglianza di β e esattamente βLS . Nel caso piu generale (σ2 non noto),

ricordando che Y = ZβLS osserviamo che

−ΛY (β, σ2) ≥ 1

2σ2Q(βLS, Y ) +

n

2log(2πσ2) = −ΛY (βLS , σ

2)

per ogni β. Come conseguenza dei precedenti conti si ottiene il seguenterisultato:

Proposizione 10.11. Sotto le ipotesi GLM, lo stimatore di massimaverosimiglianza (βMLE , σ

2MLE) risulta essere

(βLS ,1

n‖e‖2).

Notiamo ora che

fθ(y) = exp−n2

log(2πσ2)− 1

2σ2(Zβ)tZβ +

1

σ2yty − ytZβ

= exp−ψ(θ) + T (y)tη(θ))

dove

ψ(θ) =n

2log(2πσ2) +

1

2σ2(Zβ)tZβ

T (y)t = (yty, ytZ)

η(θ)t = (−1/2σ2, βt/σ2).

108 10. MODELLO LINEARE

In altri termini fθ e una famiglia esponenziale di dimensione 1 + p. Si notiche in forma canonica lo spazio dei parametri di questa famiglia esponenzialee

H = R− × Rp.

e per η ∈ H la forma canonica e

expT (y)tη − ψ(η)

con ψ(η) opportuna.

Chiaramente se r < p, fθ non e identificabile e dunque fθ non puo esserepensata come una riparametrizzazione della forma canonica. Se r = p, fθ eidentificabile ed e una riparametrizzazione della forma canonica. In questocaso T (Y ) e una statistica sufficiente e completa anche per fθ.

Osserviamo ora che

βLS = (ZtZ)−ZtY

e una funzione di ZtY e quindi di T (Y ), analogamente

σ2 =1

n− r[Y tY − Y tZβLS ] =

1

n− r[Y tY − (ZtY )tβLS ]

e funzione di T (y) = (Y tY, ZtY )t. Quando r = p, e dunque (ZtZ)− =(ZtZ)−1, (βLS)i e σ2 sono tutti stimatori non distorti funzioni di una sta-tistica sufficiente e completa e dunque, per il Teorema di Lehmann, Scheffe(Teo 6.3) sono UMVUE. Analogo discorso vale per λtβLS come stimatore diλtβ.

Quando r < p si possono comunque dire alcune cose interessanti sulmodello, anche se bisogna aggirare il problema dell’identificabilita. Possiamoriparametrizzare fθ usando come parametro

µ(β) = Zβ.

Con questa scelta il modello risulta identificabile. Si noti che chiaramente ilnuovo parametro (σ, µ) vive in R+ × C(Z), dove C(Z) = µ : µ = Zβ : β ∈Rp e un sottospazio di Rn di dimensione r. Tuttavia, poiche r < p ancheusando la parametrizzazione in (µ, σ) la famiglia

fµ,σ(y) = exp−n2

log(2πσ2)− 1

2σ2(y − µ)t(y − µ)

non e una riparametrizzazione della forma canonica

expT (y)tη − ψ(η).

6. MODELLO LINEARE GAUSSIANO 109

Occorre quindi procedere in modo differente. Indicato con C(Z)⊥ l’ortogo-nale di C(Z) scegliamo una base ortonormale v1, . . . , vn di Rn tale che

C(Z) = µ : µ =

r∑i=1

λivi per λi in R

C(Z)⊥ = µ : µ =

n∑i=r+1

λivi per λi in R .

Indicata con V la matrice che ha come colonne i vettori vi, poniamo

U := V tY

ossia Ui = vtiY . Chiaramente

Y =

r∑i=1

(vtiY )vi =

r∑i=1

Uivi

(attenzione che Ui e uno scalare e vi un vettore!) e

ε = Y − Y =

n∑i=r+1

(vtiY )vi =

n∑i=r+1

Uivi.

Ricordando ancora una volta che Eθ[Y ] = βZ ∈ C(Z), si ottiene subito che

Eθ[Y ] = βZ

Eθ[e] = 0.

Dal momento che una trasformazione lineare di un vettore gaussiano e unvettore gaussiano si ha che U = V tY e un vettore gaussiano. Inoltre

V arθ(U) = V arθ(VtY ) = V tV arθ(Y )V = V tσ2IV = σ2I

poiche la matrice V e ortonormale. Inoltre

Eθ[Ui] = Eθ[vtiY ] = vtiZβ = vtiµ(β).

In particolare, per i > r Eθ[Ui] = 0. Ricordando ora che un vettore gaussianocon matrice di covarianza diagonale ha componenti indipendenti, abbiamodimostrato che il vettore U t = (U1, . . . , Un) e un vettore di variabili aleatorie

gaussiane indipendenti. Infine osserviamo che Y =∑r

i=1 Uivi = PZY e

e =∑n

i=r+1 Uivi = (1−PZ)Y implica che anche Y e e siano variabili aleatorieGaussiane indipendenti e, inoltre,

V arθ(Y ) = PZσ2IP tZ = σ2PZ

eV arθ(e) = (I − PZ)σ2I(I − PZ)t = σ2(I − PZ).

Infine, se r = p, βLS = (ZtZ)−1ZtY e una variabile aleatoria gaussiana con

Eθ[βLS ] = β

e

V arθ(βLS) = V ar((ZtZ)−1ZtY ) = (ZtZ)−1ZtZ(ZtZ)−1 = (ZtZ)−1.

110 10. MODELLO LINEARE

Riassumendo abbiamo dimostrato la seguente proposizione.

Proposizione 10.12. Sia r ≤ p. Il vettore U = (U1, . . . , Un) e unvettore di variabili aleatorie gaussiane indipendenti, in particolare Ui ∼N (vtiµ(β), σ2) per i = 1, . . . , r e Ui ∼ N (0, σ2) per i = r + 1, . . . , n. Inoltre

Y e e sono indipendenti e Y ∼ N (Zβ, σ2PZ) e e ∼ N (0, σ2(I−PZ)). Infine,se r = p, βLS ∼ N (β, σ2(ZtZ)−1).

Poniamo ora ηi = vtiµ (µ = µ(β)). Si noti che la densita di U =(U1, . . . , Un) e

fµ,σ2(u) = exp−n2

log(2πσ2)− 1

2σ2(

r∑i=1

(ui − ηi)2 +

n∑i=r+1

u2i )

= exp−n2

log(2πσ2)− 1

2σ2

r∑i=1

η2i −

1

2σ2

n∑i=1

u2i +

1

2σ2

r∑i=1

ηiui

= exp(T (u), η(µ, σ))− ψ(µ, σ)con

ψ(µ, σ) =n

2log(2πσ2) +

1

2σ2

r∑i=1

η2i

T (u)t = (n∑i=1

u2i , u1, . . . , ur)

η(µ, σ)t = (− 1

2σ2, η1/σ

2, . . . , ηr/σ2).

(si noti che per indicare la densita di U abbiamo usato ancora la lettera f perevitare il proliferare delle notazioni inutili). Quindi fµ,σ : (µ, σ) ∈ Rr×R+e una famiglia esponeziale di dimensione r+ 1, inoltre, questa volta, η(µ, σ)e una riparametrizzazione. Quindi T (U) = (

∑ni=1 U

2i , U1, . . . , Ur) e una

statsitica sufficiente e completa.

Proposizione 10.13. Siano (c1, . . . , cr) numeri reali. Allora

r∑i=1

ciUi =r∑i=1

ci(vtiY )

e uno stimatore UMVUE dir∑i=1

civtiZβ.

Inoltre σ2 e uno stimatore UMVUE di σ2.

Dimostrazione. Dal momento che T (U) e una statistica sufficiente ecompleta per (U1, . . . , Un) la prima parte della tesi segue immediatamente

6. MODELLO LINEARE GAUSSIANO 111

dal fatto che

Eθ[

r∑i=1

ci(vtiY )] =

r∑i=1

civtiZβ.

Per quanto riguarda la seconda parte gia sappiamo che σ2 e stimatore nondistorto di σ2, inoltre

σ2 =1

n− r

n∑i=r+1

U2i

e dunque funzione di T (U).

Corollario 10.14. Sia λ ∈ C(Zt), ossia λ = Zta. Allora atZβLS euno stimatore UMVUE di λtβ.

Dim. Abbiamo gia visto che atZβLS e uno stimatore non distorto di λtβ.Resta da dimostrare che possiamo scriverlo come

∑ri=1 ciUi per opportuni

coefficienti ci. Poiche ZβLS = Y =∑Uivi, si ha

atZβLS =n∑j=1

aj

r∑i=1

Uivij

dove vij e il j-esimo elemento del vettore vi. Dunque

atZβLS =r∑i=1

(n∑j=1

ajvij)Ui.

Esempio 49. Riprendiamo l’esempio dell’ANOVA ad una via. In questocaso

ZtZ =

n n1 n2 . . .n1 n1 0 . . .n2 0 n2 . . .. . . . . . . . . . . .

ZtZ

α0

α1

α2

. . .

=

nα0 +

∑i αini

n1α0 + α1n1

n2α0 + α2n2

. . .

e

ZtY =

ij Yij∑j Y1j∑j Y2j

. . .

Introducendo la notazione tipica dell’ANOVA

Y·· =1

n

∑ij

Yij , Yi· =1

ni

∑j

Yij

112 10. MODELLO LINEARE

possiamo riscrivere l’equazione caratteristica ZtZβ = ZtY come

α0 +

m∑i=1

ninαi = Y··

α0 + αi = Yi· i = 1, . . . ,m.

Come gia sappiamo (rank(Z) < p) e un sistema con piu soluzioni. Unapossibile soluzione e

βtLS = (0, Y1·, Y2·, . . . )

un’altra soluzione e, ad esempio,

βtLS = (Y··, Y1· − Y··, Y2· − Y·,·, . . . ).Scegliendo un qualunque βLS otteniamo come conseguenza del Corollarioprecedente che uno stimatore UMVUE di α0 + αi e Yi·. Analogamente

Yi· − Yj·e uno stimatore UMVUE di αi − αj. Un’altro esempio e

1

m

m∑i=1

Yi·

che e uno stimatore UMVUE di

1

m

m∑i=1

(αi + α0).

Si noti che1

m

m∑i=1

Yi· 6= Y··.

Esempio 50. Consideriamo ora il caso della regressione multipla in-trodotta in Sezione 2.1.2. Assumiamo che la matrice di disegno (ossia iregressori zij) sia tale che rank(Z) = k = p. In questo caso risulta bendefinita (ZtZ)−1 e, grazie a Proposizione 10.12, βLS = (ZtZ)−1ZtY ∼N (β, σ2(ZtZ)−1). Inoltre ‖e‖2 =

∑ni=k+1 U

2i con Ui gaussiane di media zero

e varianza σ2. Quindi

σ2(n− k)

σ2=‖e‖2

σ2∼ χ2

n−k.

A questo punto, volendo determinare un’intervallo di confidenza di livello αper αj, si puo osservare che

βLS,j − βj√σ2[(ZtZ)−1]jj

ha legge gaussiana standard. Inoltre, poiche e e βLS sono indipendenti, siha che

βLS,j − βj√σ2[(ZtZ)−1]jj

7. TEST IN GLM 113

ha legge T di student con n− k gradi di liberta. Si ricordi che una variabilealeatoria Tm ha legge T di Student con m gradi di liberta se

Tm =N√Cm

dove N e C sono indipendenti, N ha legge gaussiana standard e C ha leg-ge χ2

m. Dunque, ragionando come e stato fatto in Sezione 4.3, se cα =F−1Tn−k(1 − α/2) (FTn−k funzione di ripartizione di una T di student con

n− k gradi di liberta), l’intervallo[βLS,j −

√σ2[(ZtZ)−1]jjcα, βLS,j +

√σ2[(ZtZ)−1]jjcα

]e un’intervallo di confidenza di livello α per βj.

7. Test in GLM

Forniamo qualche cenno sul problema dei test. Conviene lavorare con ilparametro µ che sappiamo non essere affetto dal problema dell’identificabi-lita. Sia

M0 ⊂ C(Z) ⊂ Rn

un sottospazio (lineare) di C(Z) di dimensone q < r (altrimenti non c’e’nulla da testare). Supponiamo di voler testare

H0 : µ ∈M0 v.s. H1 : µ 6∈M0.

Iniziamo con il caso in cui σ2 sia noto. Consideriamo la statistica (dettarapporto di verosimiglianza)

Λ(Y ) =supµ:∈C(Z) fµ(Y )

supµ:∈M0fµ(Y )

Ricordando che Y e la proiezione ortogonale di Y su C(Z) e indicato con Y0

la proiezione ortogonale di Y su M0, si ha

Λ(Y ) = exp− 1

2σ2(‖Y − Y ‖2 − ‖Y − Y0‖2)

.

Scegliendo la base v1, . . . , vn del paragrafo precendente in modo che v1, . . . , vqgeneri M0 si ha che

Λ(Y ) = exp 1

2σ2

r∑i=q+1

U2i

.

Grazie alla Proposizione 10.12 si ha che Ui/σ sono v.a. gaussiane indipend-neti di varianza 1 e media ηi/σ = vtiµ/σ. In particolare, sotto H0, poiche µappartiene a M0, si ha che ηi = 0 per i = q + 1, . . . , r e dunque la lege di

1

σ2

r∑i=q+1

U2i

114 10. MODELLO LINEARE

e una χ2r−q.

Lemma 10.15. Siano Z1, . . . , Zm sono v.a. indipendenti gaussiane dimedia ai e di varianza 1 e si poinga a2 :=

∑mi a

2i . La legge di

m∑i

Z2i

dipende solo da a2 (e non dai singoli a1, . . . , am).

Dimostrazione. Si consideri una matrice ortogonale O e si ponga U =OZ. Si puo scegliere O in modo che U1 =

∑mi=1 aiZi/a. Ora Uk = otkZ se otk

e la k-esima riga di O. Poiche le righe di O sono ortonormali, dal momentoche E[Z]t = ot1a e un multiplo di o1, per k ≥ 2 si ha E[Uk] = otkE[Z] = 0.Quindi,

m∑i

Z2i = ‖Z‖2 = ‖OZ‖2 =

m∑i=1

U2i .

Chiaramente, essendo le Zi indipendneti a varianza 1,

V ar(U) = OIOt = I,

ossia U1, . . . , Um sono gaussiane indipendenti con varianza unitaria. InoltreU1 ha media a e Uk (per k ≥ 2) ha media 0. Cio completa la dimostrazione.

Nelle ipotesi del lemma precedente la legge di∑n

i Z2i si dice χ2 con m

gradi di liberta e parametro di non-centralita a2, in simboli χ2m(a2).

Ricordando che µ =∑r

i=1 vtiµ, indicata con µ0 la proiezione ortogonale

di µ su M0 si ha µ− µ0 =∑r

i=p+1 vtiµ e dunque

1

σ2

r∑i=q+1

η2i =

1

σ2‖µ− µ0‖2

Riassumendo

Proposizione 10.16. Quando σ2 e noto si ha che 2 log(Λ(Y )) ha leggeχ2r−q(θ

2) con θ2 = ‖µ − µ0‖2/σ2. In particolare, sotto H0, 2 log(Λ(Y )) ∼χ2r−q.

Grazie alla precedente proposizione e chiaro come costruire un test dilivello α usando come statistica pivot 2 log(Λ(Y )) (la cui legge sotto H0 euna χ2

r−q).

Nel caso in cui anche σ2 sia incognito, ragionando come in Proposizione10.11 lo stimatore di massima verosimiglianza per σ e µ risulta essere

(σ2, µ) = (1

n‖Y − Y ‖2, Y )

7. TEST IN GLM 115

e analogamente lo stimatore MLE per il modello ristretto (ossia sotto H0)risulta essere

(σ20, µ0) = (

1

n‖Y − Y0‖2, Y0).

Quindi

Λ(Y ) =fσ2,µ(Y )

fσ20 ,µ0

(Y )=(‖Y − Y0‖2

‖Y − Y ‖2)n

2.

Invece di costruire un test usando come statistica pivot Λ(Y ) possiamo usare

F (Y ) =n− rr − q

(Λ(Y )2/n − 1).

Con i soliti conti si vede che

F (Y ) =‖Y − Y0‖2/(r − q)‖Y − Y ‖2/(n− r)

.

Ricordiamo ora che se C1 e C2 sono due variabili aleatorie indipendentiχ2r(a

2) e χ2m(0) allora la distribuzione della variabile

C1/r

C2/m

e detta distribuzione F non centrata di parametri (r,m, a2), in simboliFr,m,a2 .

Proposizione 10.17. Si che

F (Y ) ∼ Fr−q,n−r,θ2 ,

in particolare, sotto H0,

F (Y ) ∼ Fr−q,n−r,0,

Dimostrazione. E’ sufficiente osservare che

1

σ2‖Y − Y0‖2 =

r∑i=q+1

U2i /σ

2 ∼ χ2r−q(θ

2)

1

σ2‖Y − Y ‖2 =

n∑i=r+1

U2i /σ

2 ∼ χ2n−r(0).

Anche in questo caso, usando i quantili di Fr−q,n−r,0, e facile determinarecα in modo che

δ(Y ) = IF (Y ) > cαsia un test di livello α per H0.

Esempio 51. Riprendiamo l’esempio dell’ANOVA ad una via. Suppo-niamo di voler testare l’ipotesi nulla

H0 : αi = αj ∀i, j.

116 10. MODELLO LINEARE

In questo caso p = m+ 1, r = m, q = 1. Per quanto visto nell’Esempio 49,(ZβLS)t = Y t = (Y1·, . . . , Ym·). Quindi

‖Y − Y ‖2 =

m∑i=1

ni∑k=1

|Yik − Yi·|2 =: SSW .

In SSW la W sta per within, infatti SSW misura la variabilita all’internodei gruppi. Inoltre, poiche sotto H0 il modello si riduce ad osservazioni i.i.d.gaussiane di media µ, si ha che Y0 = (Y··, . . . , Y··), e dunque

‖Y − Y0‖2 =m∑i=1

ni∑k=1

|Yi· − Y··|2 =m∑i=1

ni|Yi· − Y··|2 =: SSB.

Questa volta B sta per between, infatti SSB misura la variabilita fra igruppi. Possiamo quindi concludere che

F (Y ) =n−mm− 1

∑mi=1 ni|Yi· − Y··|2∑m

i=1

∑nik=1 |Yik − Yi·|2

=SSB/(m− 1)

SSW /(n−m)

Si noti che

SSB + SSW = SST :=m∑i=1

ni∑k=1

|Yik − Y··|2

e questa volta SST e la variabilita totale. Questo spiega il nome di ANOVA.Spesso si riassumo le quantita significative di questa procedura in cio che enoto come ANOVA table:

sums of squares d.f. mean squares F-value

between samples SSB m− 1 SSB/(m− 1) SSB/(m−1)SSW /(n−m)

within samples SSW n−m SSW /(n−m)total SST n− 1

Esempio 52. Proseguiamo con l’esempio sulla regressione lineare mul-tipla (Esempio 50). Supponiamo che zi1 = 1 e supponiamo di voler testare

H0 : βj = 0 j = 2, . . . ,m.

Anche in questo caso, sotto H0, il modello si riduce ad osservazioni gaus-siane i.i.d. di media α1 e varianza σ2, infatti sotto H0

Yj = β1 + εj .

Dunque, ancora una volta, la componente j-esima di Y0 e

Y0,j = Y .

7. TEST IN GLM 117

Indichiamo poi con Yj la j-esima componente di Y e definiamo

SSFull :=n∑j=1

|Yj − Yj |2 = ‖Y − Y ‖2

SSTot :=n∑j=1

|Yj − Y |2 = ‖Y − Y0‖2

SSReg :=n∑j=1

|Yj − Y |2 = ‖Y − Y ‖2.

Si ricordi cheSSTot = SSReg + SSFull.

Dunque

F (Y ) =n−mm− 1

SSRegSSFull

=n−mm− 1

[SSTot − SSFullSSFull

].

In particolare

F (Y ) =n−mm− 1

R2

1−R2

dove

R2 =SSRegSSTot

.

La statistica R2 (chiamata appunto R-quadro) varia in [0, 1] e, intuitivamen-te, indica un buon fit se R2 e vicino a zero, mentre se R2 e vicino a zeroindica che il modello di regressione non spiega molto di piu di un semplicemodello in cui ogni osservazione ha la stessa media (fit povero). In effetti,se non si rigetta H0, il che accade se F (Y ) e troppo piccolo (ossia se R2 evicino a zero), vuol dire che si “accetta” il modello nullo in cui le covariate(i.e. zj,2, . . . , zj,m) non contano.

CAPITOLO 11

Proprieta asintotiche: cenni

1. Stimatori consistenti

In questo caso si suppone di avere a disposizione una successione (teori-camente infinita) di osservazioni, ossiaX = ×i≥1Xi, e si richiede che al diver-gere della dimensione del campione il metodo di stima considerato forniscauna risposta esatta.

Una successione di stimatori Tn(ξ)n di τ(θ) e detta successione de-bolmente consistente per τ(θ) se converge in probabilita Pθ a τ(θ), ossia

limn→∞

Pθ‖Tn(ξ)− τ(θ)‖ > ε = 0 ∀ε > 0.

Una successione di stimatori Tn(ξ)n di τ(θ) e detta successione for-temente consistente per τ(θ) se converge Pθ-q.c. a τ(θ), ossia

Pθ limn→∞

Tn(ξ) = τ(θ) = 1.

2. Normalita asintotica

Consideriamo una successione (θn)n≥1 di stimatori Z, ossia una succes-

sione (θn)n≥1 tale che

(36)1

n

n∑i=1

ψ(ξi, θn) = 0.

Per semplificare la trattazione supponiamo inizialmente che Θ ⊂ R.

Supponiamo, inoltre, cha valgano le seguenti ipotesi:

(i) ψ sia tale che

(37) Eθ0ψ(ξ1, θ0) = 0

con Eθ0 |ψ(ξ1, θ0)|2 < +∞;

119

120 11. PROPRIETA ASINTOTICHE: CENNI

(ii) θ 7→ ψ(x, θ) sia una funzione differenziabile con continuita in unintorno di θ0 per ogni x in Rd e che

Eθ0 |ψ(ξ1, θ0)| < +∞

Eθ0ψ(ξ1, θ0) 6= 0;(38)

Se sviluppiamo con Taylor θ 7→ 1n

∑ni=1 ψ(ξi, θ) in un intorno di θ0 da

(39) ricaviamo

0 =1

n

n∑i=1

ψ(ξi, θn) =1

n

n∑i=1

ψ(ξi, θ0) +1

n

n∑i=1

ψ(ξi, θ0)(θn− θ0) +Rn(θn− θ0)

dove

Rn =1

n

n∑i=1

[ψ(ξi, θ∗n)− ψ(ξi, θ0)]

e un termine di resto e θ∗n = θ∗n(ξ1, . . . , ξn) e tale che |θ∗n − θ0| ≤ |θn − θ0|.Per tanto

√n(θn − θ0) =

1√n

∑ni=1 ψ(ξi, θ0)

1n

∑ni=1 ψ(ξi, θ0) +Rn

dove stiamo supponendo non nullo

1

n

n∑i=1

ψ(ξi, θ0) +Rn.

Ora il teorema centrale del limite implica che la convergenza in legge di1√n

∑ni=1 ψ(ξi, θ0) ad una gaussiana di media nulla e varianza

σ2 := Eθ0 [ψ2(ξ1, θ0)],

mentre la legge dei grandi numeri implica che 1n

∑ni=1 ψ(ξi, θ0) converge in

probabilita a Eθ0 [ψ(ξ1, θ0)]. Se Rn converge in probabilita a zero, applicando

il teorema di Slutski, si ha che√n(θn−θ0) converge in legge ad una gaussiana

di media nulla e varianza

σ20 :=

σ2

[Eθ0(ψ(ξ1, θ0))]2.

Questa e in essenza la dimostrazione della successiva proposizione in cui:Θ ⊂ Rk, ψ(x, θ) indica lo Jacobiano di θ 7→ ψ(x, θ), | · | indica la normaeuclidea in Rk o la nomra di matrice e Eθ(Y ), dove Y = [Yi,j ] e una ma-trice, indica la matrice delle speranze componente per componente, ossia lamatrice [Eθ(Yi, j))]ij .

Proposizione 11.1. Supponiamo che valgano le seguenti ipotesi

(i) ψ sia tale che

(39) Eθ0ψ(ξ1, θ0) = 0

con Eθ0 |ψ(ξ1, θ0)|2 < +∞;

2. NORMALITA ASINTOTICA 121

(ii) θ 7→ ψ(x, θ) sia una funzione differenziabile con continuita in unintorno di θ0 per ogni x in Rd e che

Eθ0 |ψ(ξ1, θ0)| < +∞

det(Eθ0ψ(ξ1, θ0)) 6= 0;(40)

(iii) θn sia una successione di stimatori Z che soddisfa (39) e tale che

θn converge in Pθ0-probabilita a θ0 (consistenza);

(iv)

sup| 1n

n∑i=1

[ψ(ξi, θ)− ψ(ξi, θ0)]|; θ : |θ − θ0| ≤ εn

converge a zero in Pθ0-probabilita per ogni successione εn convergente a zeroin Pθ0-probabilita.

Allora√n(θn − θ0) converge in legge (rispetto a Pθ0) ad una variabile

aleatoria gaussiana di media nulla e matrice di covarianza

σ20 = [Eθ0(ψ(ξ1, θ0))]−1Eθ0 [ψ(ξ1, θ0)ψ(ξ1, θ0)T ][Eθ0(ψ(ξ1, θ0))T ]−1

= [Eθ0(ψ(ξ1, θ0))]−1V arθ0(ψ(ξ1, θ0))[Eθ0(ψ(ξ1, θ0))T ]−1

Dimostrazione. [traccia] Lo sviluppo di Taylor implica che

0 =1

n

n∑i=1

ψ(ξi, θn) =1

n

n∑i=1

ψ(ξi, θ0)+1

n

n∑i=1

ψ(ξi, θ0)·(θn−θ0)+Rn ·(θn−θ0)

con

Rn =1

n

n∑i=1

[ψ(ξi, θ∗n)− ψ(ξi, θ0)]

dove |θ∗n − θ0| ≤ |θn − θ0|. Definiamo ora la matrice stocastica Mn

Mn :=1

n

n∑i=1

ψ(ξi, θ0)

e osserviamo che la legge forte dei grandi numeri e (ii) implica che Mn

converge fortemente alla matrice (non aleatoria) non singolare Eθ0ψ(ξi, θ0).Da (iii) e (iv) segue che Rn tende alla matrice zero in probabilita. Infine ilteroema centrale del limite multidimensionale, unitamente alla (i), implicache il vettore

Zn = [1√n

n∑i=1

ψ(ξi, θ0)]

converge in legge ad una variabile aleatoria Z con legge gaussiana di vettoremedia nullo e di matrice varianza covarianza

V arθ0(ψ(ξ1, θ0)) = Eθ0 [ψ(ξ1, θ0)ψ(ξ1, θ0)T ].

122 11. PROPRIETA ASINTOTICHE: CENNI

A questo punto osserviamo che

[1

n

n∑i=1

ψ(ξi, θ0) +Rn]√n(θn − θ0) = [

1√n

n∑i=1

ψ(ξi, θ0)].

ossia(An +Mn)

√n(θn − θ0) = Zn.

La dimostrazione si conclude applicando il seguente risultato, che non di-mostreremo.

Sia zn una successione di vettori aleatori di lunghezza k, sia Bn unasuccessione di matrici aleatorie k×k, e xn una successione di vettori aleatoridi lunghezza k tale che per ogni n ≥ 1 valga

Bnxn = zn.

Se zn converge in legge ad una vettore z e Bn converge in probabilita aduna matrice non aleatoria B con det(B) 6= 0, allora xn converge in legge alvettore aleatorio B−1z.

Si noti che se ad esempio θ 7→ ψ(x, θ) e lipshitziana per ogni x concostante di Lipshitz L(x) e se Eθ0 |L(ξ1)| la (iv) e vera (dimostrarlo peresercizio).

3. Normalita asintotica degli MLE

Un caso particolarmente interessante e quello in cui

ψ(x, θ) = ∂θ log(fθ(x)),

ossia quello degli stimatori di massima verosimiglianza. Si noti che proce-dendo formalmente, supponendo per semplicita Θ ⊂ R,

ψ(x, θ) = ∂2θ log(fθ(x)) =

(∂2θfθ(x))fθ(x)− (∂θfθ(x))2

f2θ (x)

.

Se il modello e regolare (si veda Capitolo 6), e se∫X+

1

∂2θfθ0(x)µ(dx) = 0

si avraEθ0(ψ(ξ1, θ0)) = −I(θ0).

Resta pertanto dimostrata la seguente

Proposizione 11.2. Sia (θn)n≥1 una successione di stimatori di massi-ma verosimiglianza debolmente consistente. Supponiamo che il modello siaregolare e che inoltre ∫

X+1

∂2θfθ0(x)µ(dx) = 0.

3. NORMALITA ASINTOTICA DEGLI MLE 123

Se

sup| 1n

n∑i=1

[R(ξi, θ)−R(ξi, θ0)]|; θ : |θ − θ0| ≤ εn,

dove R(x, θ) = ∂2θ log(fθ(x)), converge a zero in probabilita per ogni succes-

sione εn convergente a zero in probabilita e I(θ0) 6= 0, allora√n(θn − θ0)

converge in legge ad una variabile aleatoria gaussiana di media nulla e divarianza

I−1(θ0).


Recommended