Statistica Raffaele D. Facendola
1
Statistica – 2° parte
ARGOMENTI Vettori gaussiani
Matrice di covarianza e sua positività
Marginali di un vettore normale
Trasformazioni affini di vettori normali
Indipendenza delle componenti scorrelate di un vettore normale
La distribuzione delle statistiche campionarie
Media campionaria e sua media, varianza e densità
Varianza campionaria e sua media
Distribuzione congiunta di meda e varianze campionarie nel caso normale
Densità t, media, varianza e simmetria
Stima parametrica
Relazione tra MSE varianza e Bias di uno stimatore
Consistenza in media quadratica implica consistenza per gli stimatori corretti
MLE per una popolazione bernoulliana , poissoniana, normale, uniforme
IC per la media campionaria normale o numerosa con varianza nota
IC per la media campionaria normale o numerosa con varianza incognita
IC per la varianza campionaria normale con media incognita
IC per la differenza tra medie campionarie normali con varianze incognite ma uguali
IC per la differenza tra medie campionarie normali o numerose con varianze note
IC per la media campionaria di Bernoulli numeroso
IC per la differenza tra medie campionarie per bernoulliane numerose o indipendenti
Test di ipotesi
Z-test e suo livello
Curva OC per lo z-test
Dimensionamento del campione per ottenere un errore del II tipo sotto una soglia
prefissata nello Z-test bilatero
Z-test con ipotesi nulla composta e suo livello
t-test e suo livello
Test sulla differenza di medie per campioni indipendenti normali o numerosi con varianze
note
Test sulla differenza di medie per campioni indipendenti numerosi con varianze incognite
Test sulla differenza di medie per campioni normali indipendenti con varianze incognite ma
uguali
Test sulla varianza per campioni normali
Test sul rapporto di varianze per campioni normali indipendenti
Bontà di adattamento e analisi di dati categoriali
Statistica Raffaele D. Facendola
2
Vettori gaussiani Si definisce vettore gaussiano standard n-dimensionale (o n-variato) un vettore costituito da n elementi in
cui i singoli elementi sono variabili aleatorie gaussiane standard indipendenti:
La densità di probabilità di tale vettore è definita come:
∑
Il vettore delle medie è pari al vettore nullo, mentre la matrice di covarianza (in virtù dell’indipendenza
delle singole variabili aleatorie) è data dalla matrice identità di ordine n.
Consideriamo un vettore aleatorio gaussiano X funzione lineare di Z:
X è vettore gaussiano se la funzione lineare in Z è definita come:
Con A matrice (n x m), e Z vettore gaussiano standard m-dimensionale.
Il valore atteso di X è , questo perchè quello di Z è proprio 0, mentre la matrice di covarianza di X è .
Matrice di covarianza e sua positività Un vettore gaussiano defito come sopra ha densità su se e solo se la matrice di covarianza
non è singolare (ha determinante diverso da 0).
In queso caso la densità di tale vettore è data da:
√
Se, inoltre, C risulta simmetrica e definita positiva allora la densità di Z sarà pari a:
√
Marginali di un vettore normale Se (cella di coordinate (i; i)) allora la componente i-esima , se , invece,
La dimostrazione è ovvia in quanto ogni può essere espressa come combinazione lineare di variabili
aleatorie gaussiane indipendenti più una certa costante.
Statistica Raffaele D. Facendola
3
Trasformazioni affini di vettori normali Sia G una matrice (k x n) e , è possibile definire una nuovo vettore gaussiano con
vettore delle medie e matrice di covarianza pari a .
La dimostrazione è immediata, basta considerare .
La media è il vettore , mentre sfruttando la definzione di covarianza otteniamo che la covarianza è
.
Indipendenza delle componenti scorrelate di un vettore normale Se scorrelate allora esse sono anche indipendenti.
Se sono scorrelate allora la matrice di covarianza di X è matrice diagonale in cui l’elemento è
uguale alle varianze relative al vettore e pertanto la densità è:
√
√
∑ (
)
∏
√
(
)
∏
E ciò dimostra, pertanto, che esse sono anche indipendenti.
Statistica Raffaele D. Facendola
4
La distribuzione delle statistiche campionarie Dicesi campione o campione aleatorio un insieme di n variabili indipendenti tutte con la stessa
distribuzione F.
Media campionaria e sua media, varianza e densità Definiamo media campionaria:
Con variabile aleatoria di media e varianza .
Il suo valore atteso è pari a :
[ ] [
]
[ ] [ ]
La sua varianza sarà pari a
:
( ) (
*
Se n è un numero abbastanza grande vale la seguente approssimazione:
√
Dove e è la funzione di ripartizione della normale standard.
NB: Partendo dalla definizione di media campionaria e ponendo in evidenza
otteniamo che:
∑
Consideriamo che il prodotto di una costante per una V.A. normale è ancora normale, pertanto si può
concludere che è approssimativamente gaussiana da cui si ha che:
√
Statistica Raffaele D. Facendola
5
Varianza campionaria e sua media
Sia un campione aleatorio di una distibuzione di media e varianza e sia la sua media
campionaria:
Definiamo varianza campionaria la seguente statistica:
∑( )
La sua radice, ovvero S, prende il nome di deviazione standard campionaria.
Il valore atteso della varianza campionaria è pari a:
[ ]
Dimostrazione:
Consideriamo che per una n-upla di numeri vale la seguente proprietà:
∑ ∑
(dove è la media del campione)
Applicando la proprietà alla varianza campionaria otteniamo che:
∑
[ ] [∑ ] [ ]
(la media è uguale per ogni V.A)
[ ] [ ]
(applicando la definizione di varianza [ ] [ ] )
[ ] ( ) [ ]
Da cui
[ ]
Statistica Raffaele D. Facendola
6
Distribuzione congiunta di meda e varianze campionarie nel caso normale
Sia un campione di una distibuzione normale di media e varianza , allora e sonoV.A.
indipendenti.
Inoltre vale la seguente proprietà:
Densità t, media, varianza e simmetria Si consideri il campione precedente in cui però la distribuzione risulta gaussiana.
Per le condizioni di cui sopra vale:
√
Statistica Raffaele D. Facendola
7
Stima parametrica Si dice stimatore di una qualsiasi statistica (variabile aleatoria) in grado di dire qualcosa (fare inferenza)
circa un parametro incognito (la media, la varianza, ecc.). Il valore deterministico di uno stimatore
indicato con si dice invece stima di .
Stimatori di massima verosimiglianza Sia dato un campione di n variabili aleatorie e definiamo una funzione di massa o densità
congiunta dipendente dal parametro incognito .
La strategia in questo caso consiste nell’individuare quel valore di che rende massima la funzione sopra
definita quando i dati osservati sono . La funzione è detta funzione di likelihood
(verosomiglianza ndr).
Spesso si ricorre alla funzione di log-likelihood definita come questo perchè, essendo il
logaritmo naturale funzione strettamente crescente, la funzione di likelihood e quella di log-likelihood
assumono il massimo per lo stesso valore di .
Uno stimatore individuato con la strategia di cui sopra si chiama stimatore di massima verosimiglianza o
MLE (maximum likelihood estimator).
MLE per una popolazione bernoulliana , poissoniana, normale, uniforme
-MLE della media di una bernoulliana
Supponiamo di realizzare n prove indipendenti ciascuna delle queli ha una probabilità p di successo.
Consideriamo che nel caso di popolazioni bernoulliane la funzione di massa è
La likelihood del campione è data da:
Sfruttando la funzione di log likelihood e alcune proprietà dei logaritmo otteniamo:
( ) ∑ ∑
Per massimizzare la suddetta funzione basta derivare rispetto a p:
( )
∑
∑
Poniamo il primo termine pari a zero e portiamo il termine negativo dall’altra parte; risolvendo rispetto a p
otteniamo:
∑
∑
∑
Il che è lo stimatore di massima verosimiglianza di una distribuzione di Bernoulli in cui la media è incognita.
Statistica Raffaele D. Facendola
8
-MLE del parametro di una poissoniana
Siano variabili aleatorie di Poisson indipendenti, ciascuna della queli con valore atteso .
La funzione di likelihood è data da:
La funzione di log-likelihood è, invece, pari a :
( ) ∑ ⏟
Derivando rispetto a otteniamo:
( )
∑
Massimizzando la funzione otteniamo pertanto la MLE del parametro :
∑
-MLE per una distribuzione normale
Siano variabili aleatoria normali ed indipendenti, con media e varianza incognite.
La funzione di likelihood è:
∏
√
(
*
(
*
∑
La log-likelihood è:
( ) (
)
∑
Per individuare contemporaneamente le stime della media e della varianza che massimizzano la log-
likelihood occorre porre le due derivate parziali pari a zero e mettere il tutto a sistema:
Statistica Raffaele D. Facendola
9
{
( )
∑
( )
∑
{
∑
∑
{
∑
∑
-MLE per la media di una distribuzione uniforme
Sia un campione proveniente da una distribuzione uniforme sull’intervallo con parametro
incognito.
La densità congiunta è data da:
{
La funzione di cui sopra viene massimizzata scegliendo un valore di quanto più piccolo è possibile,
tuttavia siccome deve essere più grande di tutti i valori osservati ne segue che è .
Il MLE della sua media è dato da
.
Relazione tra MSE varianza e Bias di uno stimatore Sia X un campione casuale estratto da una popolazione con parametri noti eccetto un parametro incognito
e sia uno stimatore di .
Definiamo errore quadratico medio o MSE (mean square error) il seguente:
[ ]
Definiamo distorsione di d o bias il seguente indicatore:
[ ]
Se il bias è nullo allora lo stimatore d è corretto o non distorto. Se il bias si annulla per n molto grande
allora diremo che lo stimatore d è asintitocamente corretto.
Se è uno stimatore corretto allora il suo MSE è:
[ ] [ [ ] ]
Da cui si ricava la seguente relazione tra MSE, varianza e Bias:
[ ] [ [ ] [ ] ]
[ [ ] [ ] [ ] [ ] ]
[ [ ] ] [ ] [ [ ]] [ [ ] ]
[ ]
Statistica Raffaele D. Facendola
10
Consistenza in media quadratica implica consistenza per gli stimatori corretti Sia uno stimatore di parametro incognito. Diremo che è consistente in media quadratica se
.
è consistente se
Se lo stimatore è corretto e consistente in media quadratica allora esso è anche consistente.
Intervallo di confidenza (IC) Con riferimento agli stimatori puntuali trattati in precedenza bisogna precisare che il valore ottenuto con il
metodo della massima verosimiglianza non indica il valore preciso assunto dal parametro, ma, bensì, un
valore vicino a quello reale. Rispetto ad uno stimatore puntuale un intervallo di confidenza ci fornisce un
intervallo di valori per il quale sappiamo che il parametro incognito vi appartiene con un certo grado di
fiducia (o confidenza).
IC per la media campionaria normale o numerosa con varianza nota Sia un campione di una popolazione condistribuzione normale di cui la media sia incognita e la
varianza sia nota.
Ricordiamo che:
√
Da cui:
(
√
)
(
√
√ )
(
√
√ )
L’intervallo che garantisce un livello di confidenza pari a su è pertanto:
[
√
√ ]
Statistica Raffaele D. Facendola
11
IC per la media campionaria normale o numerosa con varianza incognita Sia un campione di una popolazione i cui parametri sono entrambi ignoti. La richiesta è
quella di costruire un intervallo di confidenza per ad un livello di (vogliamo cioè sapere qual’è
l’intervallo di valori che garantisce con una confidenza che il valore cada vi appartenga).
Prendendo in considerazione il paragrafo “Densità t, media, varianza e simmetria” del capitolo “La
distribuzione delle statistiche campionarie” consideriamo che:
√
Visto che la densità delle distribuzioni è simmetrica rispetto a 0 per
sappiamo che:
(
√
)
Da cui
(
√
√ *
L’intervallo trovato [
√
√ ] è l’intervallo che soddisfa con un livello di confidenza
la richiesta di cui sopra.
IC per la varianza campionaria normale con media incognita Sia un campione proveniente da una distribuzione normale con parametri e incogniti.
Consideriamo che
Da cui, per le considerazioni del paragrafo precedente, si ha che:
(
) (
)
L’intervallo appena trovato rappresenta l’intervallo di confidenza (bilaterale) per ad un livello di
confidenza di .
Statistica Raffaele D. Facendola
12
IC per la differenza tra medie campionarie normali con varianze incognite ma
uguali Siano e due campioni indipendenti in cui le varianze sono incognite ma uguali e valgono
entrambe .
Sappiamo che:
Inoltre sappiamo che visto che i due campioni sono indipendenti, anche le chi-quadro precedenti sono
indipendenti, così come la loro somma:
Ricordiamo che:
√
e che il rapporto tra una normale standard e una √
è per definizione una distribuzione di tipo t con
k gradi di libertà.
Sia definita come:
Dividiamo la (1) per la (2) sostituendo al posto di
al fine di ottenere una t di Student:
√
(√
)
√
Da ciò possiamo determinare gli intervalli di confidenza per , infatti:
√
E quindi
√
Statistica Raffaele D. Facendola
13
IC per la differenza tra medie campionarie normali o numerose con varianze
note Siano e due campioni indipendenti in cui le varianze sono note ma la media no.
Possiamo mutuare la tecnica illustrata nel paragrafo precedente considerando che non abbiamo bisogno,
però, della varianza campionaria in quanto sappiamo già qual’è il suo valore reale (ovvero
.
L’intervallo che ci garantisce un livello di confidenza su di è pertanto:
[
√
√
]
IC per la media campionaria di Bernoulli numeroso Consideriamo una popolazione in cui ogni elemento possiede certi requisiti indipendentemente dagli altri
con una probabilità incognità p.
Se X è una variabile aleatoria che descrive quanti oggetti sugli n testati soddisfano i requisiti di interesse e
nel caso in cui n sia un numero elevato, potremo dire che X approssima una normale con media e
varianza e pertanto:
√
Perso un qualsiasi valore allora sappiamo che:
(
√
)
Tuttavia l’approssimazione di cui sopra non è un vero intervallo di confidenza.
Imponiamo che sia
la frazione degli oggetti che soddisfano i requisiti (in questo caso si tratta proprio
del MLE di p) e da ciò ricaviamo che √ è circa uguale a √ . Alla luce di queste
considerazioni e dell’approssimazione poco sopra possiamo concludere che:
√
√
IC per la differenza tra medie campionarie per bernoulliane numerose o
indipendenti
Statistica Raffaele D. Facendola
14
Test di ipotesi Supponiamo di disporre di un campione aleatorio proveniente da una distribuzione nota a meno di alcuni
parametri incogniti. Il nuovo obiettivo non è quello di stimare i parametri incogniti ma, bensì, quello di
verificare se la distribuzione soddisfa una certa ipotesi sulla base dei soli dati provenienti dal campione.
Si parla di ipotesi in quanto non c’è modo di sapere se essa sia vera o falsa.
Supponiamo di voler verificare qualche ipotesi (chiamata ipotesi nulla) su un certo campione circa un
parametro incognito : se l’ipotesi caratterizza completamente la distribuzione (un’ipotesi potrebbe essere
che valga esattamente 1) allora essa verrà chiamata ipotesi semplice, in caso contrario ( è compreso in
un certo intervallo, è minore o maggiore di una soglia, e via dicendo) diremo che l’ipotesi è composta.
Chiamiamo regione critica la regione di spazio n-dimensionale (con n numero degli elementi del campione)
per il quale l’ipotesi nulla è falsa al verificarsi di certe condizioni per il campione.
A prescindere dalla metodologia applicata va necessariamente ricordato che è possibile sbagliare il risultato
del test secondo due diverse modalità: la prima ci porta a rifiutare l’ipotesi che in realtà è corretta (errore
di I specie), mentre la seconda ci porta ad accettare l’ipotesi che in realtà è errata (errore di II specie).
Definiamo livello di significatività il valore percentuale tale che la probabilità di effettuare un errore di I
specie sia inferiore ad esso.
Statistica Raffaele D. Facendola
15
Z-test e suo livello Sia un campione aleatorio proveniente da una distribuzione normale con incognito e noto.
Vogliamo verificare l’ipotesi nulla: contro l’ipotesi alternativa .
La regione critica è: | | con media campionaria (lo stimatore naturale della
media e c costante. In questo caso la strategia è quella di scartare l’ipotesi qualora la differenza tra la media
campionaria ed il valore testato sia superiore ad una certa costante c.
Utilizzando la definizione di livello di significatività sappiamo pertanto che
| |
Sappiamo che:
√
Da cui:
|
√
| √
(
√
) (
√
)
√
Si dedice pertanto che √
, ovvero
√ .
Alla luce di quanto detto sopra concluderemo dicendo che l’ipotesi sarà accettata se |
√
|
,
mentre sarà rifiutata in caso contraio.
Curva OC per lo z-test Definiamo curva operativa caratteristica (OC) per il test di una distribuzione di tipo Z la funzione
definita come:
(|
√
| )
√
Ques’ultima rappresenta la probabilità di accettare l’ipotesi nulla quando la media reale vale .
(
√
) (
√
√
√
√
)
(
√
√
) (
√
) (
√
)
Statistica Raffaele D. Facendola
16
Dimensionamento del campione per ottenere un errore del II tipo sotto una
soglia prefissata nello Z-test bilatero La funzione è chiamata funzione di potenza del test ed indica la probabilità di rifiutare
(correttamente) l’ipotesi nulla quando è il valore reale.
La curva di OC ci permette di determinare qual’è la dimensione ottimale del campione affinchè la
probabilità di ottenere un errore del II tipo sia inferiore ad una certa soglia.
Supponiamo di voler individuare qual’è il valore di n per il quale la probabilità di accettare
quando in realtà il valore reale è sia circa uguale ad un valore prefissato, vogliamo cioè n tale che
Usando la definizione di curva di OC otteniamo: (
√
) (
√
) . (1)
La risoluzione rispetto a n è piuttosto complessa, tuttavia una buona approssimazione è data da:
[(
*
]
NB: Tale approssimazione è valida in quanto o il primo termine o il secondo termine della sottrazione delle
funzioni tendono a zero rispettivamente se o se .
Z-test con ipotesi nulla composta e suo livello
Statistica Raffaele D. Facendola
17
t-test e suo livello Sia un campione aleatorio proveniente da una distribuzione normale con e incogniti.
Vogliamo verificare l’ipotesi nulla: contro l’ipotesi alternativa .
Facendo riferimento allo z-test possiamo pensare di rifiutare ragionevolmente l’ipotesi qualora valga la
seguente: |
√
|
.
La disequazione di cui sopra non può aiutarci però in quanto non conosciamo il valore , tuttavia possiamo
pensare di sostituirla con il suo stimatore, ovvero la deviazione standard campionaria S:
√
∑( )
Da cui deduciamo che l’ipotesi nulla va rifiutata per |
√
| troppo grande.
Sappiamo che
√
A questo punto poniamo le condizioni di base del livello di significatività del test:
Concludiamo perciò che l’ipotesi verrà accettata se |
√
|
e rifiutata in caso contrario.
Statistica Raffaele D. Facendola
18
Test sulla differenza di medie per campioni indipendenti normali o numerosi
con varianze note Supponiamo che e siano campioni indipendenti provenienti da due popolazioni
differenti di medie incognite e e varianze note e
.
Vogliamo verificare l’ipotesi: contro .
Giacchè le medie campionarie sono stimatori naturali per le rispettive medie delle distribuzioni, è naturale
concludere che la differenza delle medie campionarie sia stimatore della differenza delle medie.
Riscrivendo l’ipotesi si accetta se e si rifiuta in caso contrario per un valore
opportuno di c.
√
Se è vera la differenza delle medie è zero e pertanto si ha:
(
√
)
Conveniamo alla conclusione che viene rifiutata se
√
, accettata in caso contrario.
Test sulla differenza di medie per campioni indipendenti numerosi con varianze
incognite Le ipotesi di questo genere di test sono le stesse del paragrafo precedente, tuttavia questa volta le varianze
non sono note. E’ possibile usare lo stesso modus operandi adottato in precedenza sostituendo al valore
preciso delle varianze il valore del loro stimatore ottenendo che viene rifiutata se
√
, accettata
in caso contrario.
Statistica Raffaele D. Facendola
19
Test sulla differenza di medie per campioni normali indipendenti con varianze
incognite ma uguali Supponiamo che e siano campioni indipendenti provenienti da due popolazioni
differenti normali e
delle quali non si conoscono i parametri ma si sa che le due
varianze sono uguali.
Vogliamo verificare che contro
Ricordiamo che
√
Dove è lo stimatore pooled di :
Quando l’ipotesi è vera allora la statistica
√
e quindi possiamo concludere che se
allora può essere rifiutato, altrimenti può essere accettato in caso contrario.
Test sulla varianza per campioni normali Sia un campione proveniente da una distribuzione normale con media incognita e varianza
incognita e supponiamo di voler verificare l’ipotesi nulla
contro
per un valore
di fissato.
Ricordiamo che:
Da cui:
(
)
Concludiamo accettando qualora
e rifiutandola in tutti gli altri.
Test sul rapporto di varianze per campioni normali indipendenti