Statistica – 2° parte - PoliMipolinformatici.it/ARCHIVIO/Statistica e Calcolo delle...

Statistica Raffaele D. Facendola

1

Statistica – 2° parte

ARGOMENTI Vettori gaussiani

Matrice di covarianza e sua positività

Marginali di un vettore normale

Trasformazioni affini di vettori normali

Indipendenza delle componenti scorrelate di un vettore normale

La distribuzione delle statistiche campionarie

Media campionaria e sua media, varianza e densità

Varianza campionaria e sua media

Distribuzione congiunta di meda e varianze campionarie nel caso normale

Densità t, media, varianza e simmetria

Stima parametrica

Relazione tra MSE varianza e Bias di uno stimatore

Consistenza in media quadratica implica consistenza per gli stimatori corretti

MLE per una popolazione bernoulliana , poissoniana, normale, uniforme

IC per la media campionaria normale o numerosa con varianza nota

IC per la media campionaria normale o numerosa con varianza incognita

IC per la varianza campionaria normale con media incognita

IC per la differenza tra medie campionarie normali con varianze incognite ma uguali

IC per la differenza tra medie campionarie normali o numerose con varianze note

IC per la media campionaria di Bernoulli numeroso

IC per la differenza tra medie campionarie per bernoulliane numerose o indipendenti

Test di ipotesi

Z-test e suo livello

Curva OC per lo z-test

Dimensionamento del campione per ottenere un errore del II tipo sotto una soglia

prefissata nello Z-test bilatero

Z-test con ipotesi nulla composta e suo livello

t-test e suo livello

Test sulla differenza di medie per campioni indipendenti normali o numerosi con varianze

note

Test sulla differenza di medie per campioni indipendenti numerosi con varianze incognite

Test sulla differenza di medie per campioni normali indipendenti con varianze incognite ma

uguali

Test sulla varianza per campioni normali

Test sul rapporto di varianze per campioni normali indipendenti

Bontà di adattamento e analisi di dati categoriali


2

Vettori gaussiani Si definisce vettore gaussiano standard n-dimensionale (o n-variato) un vettore costituito da n elementi in

cui i singoli elementi sono variabili aleatorie gaussiane standard indipendenti:

La densità di probabilità di tale vettore è definita come:

∑

Il vettore delle medie è pari al vettore nullo, mentre la matrice di covarianza (in virtù dell’indipendenza

delle singole variabili aleatorie) è data dalla matrice identità di ordine n.

Consideriamo un vettore aleatorio gaussiano X funzione lineare di Z:

X è vettore gaussiano se la funzione lineare in Z è definita come:

Con A matrice (n x m), e Z vettore gaussiano standard m-dimensionale.

Il valore atteso di X è , questo perchè quello di Z è proprio 0, mentre la matrice di covarianza di X è .

Matrice di covarianza e sua positività Un vettore gaussiano defito come sopra ha densità su se e solo se la matrice di covarianza

non è singolare (ha determinante diverso da 0).

In queso caso la densità di tale vettore è data da:

√

Se, inoltre, C risulta simmetrica e definita positiva allora la densità di Z sarà pari a:

√

Marginali di un vettore normale Se (cella di coordinate (i; i)) allora la componente i-esima , se , invece,

La dimostrazione è ovvia in quanto ogni può essere espressa come combinazione lineare di variabili

aleatorie gaussiane indipendenti più una certa costante.


3

Trasformazioni affini di vettori normali Sia G una matrice (k x n) e , è possibile definire una nuovo vettore gaussiano con

vettore delle medie e matrice di covarianza pari a .

La dimostrazione è immediata, basta considerare .

La media è il vettore , mentre sfruttando la definzione di covarianza otteniamo che la covarianza è

.

Indipendenza delle componenti scorrelate di un vettore normale Se scorrelate allora esse sono anche indipendenti.

Se sono scorrelate allora la matrice di covarianza di X è matrice diagonale in cui l’elemento è

uguale alle varianze relative al vettore e pertanto la densità è:

√

√

∑ (

)

∏

√

(

)

∏

E ciò dimostra, pertanto, che esse sono anche indipendenti.


4

La distribuzione delle statistiche campionarie Dicesi campione o campione aleatorio un insieme di n variabili indipendenti tutte con la stessa

distribuzione F.

Media campionaria e sua media, varianza e densità Definiamo media campionaria:

Con variabile aleatoria di media e varianza .

Il suo valore atteso è pari a :

[ ] [

]

[ ] [ ]

La sua varianza sarà pari a

:

( ) (

*

Se n è un numero abbastanza grande vale la seguente approssimazione:

√

Dove e è la funzione di ripartizione della normale standard.

NB: Partendo dalla definizione di media campionaria e ponendo in evidenza

otteniamo che:

∑

Consideriamo che il prodotto di una costante per una V.A. normale è ancora normale, pertanto si può

concludere che è approssimativamente gaussiana da cui si ha che:

√


5

Varianza campionaria e sua media

Sia un campione aleatorio di una distibuzione di media e varianza e sia la sua media

campionaria:

Definiamo varianza campionaria la seguente statistica:

∑( )

La sua radice, ovvero S, prende il nome di deviazione standard campionaria.

Il valore atteso della varianza campionaria è pari a:

[ ]

Dimostrazione:

Consideriamo che per una n-upla di numeri vale la seguente proprietà:

∑ ∑

(dove è la media del campione)

Applicando la proprietà alla varianza campionaria otteniamo che:

∑

[ ] [∑ ] [ ]

(la media è uguale per ogni V.A)

[ ] [ ]

(applicando la definizione di varianza [ ] [ ] )

[ ] ( ) [ ]

Da cui

[ ]


6

Distribuzione congiunta di meda e varianze campionarie nel caso normale

Sia un campione di una distibuzione normale di media e varianza , allora e sonoV.A.

indipendenti.

Inoltre vale la seguente proprietà:

Densità t, media, varianza e simmetria Si consideri il campione precedente in cui però la distribuzione risulta gaussiana.

Per le condizioni di cui sopra vale:

√


7

Stima parametrica Si dice stimatore di una qualsiasi statistica (variabile aleatoria) in grado di dire qualcosa (fare inferenza)

circa un parametro incognito (la media, la varianza, ecc.). Il valore deterministico di uno stimatore

indicato con si dice invece stima di .

Stimatori di massima verosimiglianza Sia dato un campione di n variabili aleatorie e definiamo una funzione di massa o densità

congiunta dipendente dal parametro incognito .

La strategia in questo caso consiste nell’individuare quel valore di che rende massima la funzione sopra

definita quando i dati osservati sono . La funzione è detta funzione di likelihood

(verosomiglianza ndr).

Spesso si ricorre alla funzione di log-likelihood definita come questo perchè, essendo il

logaritmo naturale funzione strettamente crescente, la funzione di likelihood e quella di log-likelihood

assumono il massimo per lo stesso valore di .

Uno stimatore individuato con la strategia di cui sopra si chiama stimatore di massima verosimiglianza o

MLE (maximum likelihood estimator).

MLE per una popolazione bernoulliana , poissoniana, normale, uniforme

-MLE della media di una bernoulliana

Supponiamo di realizzare n prove indipendenti ciascuna delle queli ha una probabilità p di successo.

Consideriamo che nel caso di popolazioni bernoulliane la funzione di massa è

La likelihood del campione è data da:

Sfruttando la funzione di log likelihood e alcune proprietà dei logaritmo otteniamo:

( ) ∑ ∑

Per massimizzare la suddetta funzione basta derivare rispetto a p:

( )

∑

∑

Poniamo il primo termine pari a zero e portiamo il termine negativo dall’altra parte; risolvendo rispetto a p

otteniamo:

∑

∑

∑

Il che è lo stimatore di massima verosimiglianza di una distribuzione di Bernoulli in cui la media è incognita.


8

-MLE del parametro di una poissoniana

Siano variabili aleatorie di Poisson indipendenti, ciascuna della queli con valore atteso .

La funzione di likelihood è data da:

La funzione di log-likelihood è, invece, pari a :

( ) ∑ ⏟

Derivando rispetto a otteniamo:

( )

∑

Massimizzando la funzione otteniamo pertanto la MLE del parametro :

∑

-MLE per una distribuzione normale

Siano variabili aleatoria normali ed indipendenti, con media e varianza incognite.

La funzione di likelihood è:

∏

√

(

*

(

*

∑

La log-likelihood è:

( ) (

)

∑

Per individuare contemporaneamente le stime della media e della varianza che massimizzano la log-

likelihood occorre porre le due derivate parziali pari a zero e mettere il tutto a sistema:


9

{

( )

∑

( )

∑

{

∑

∑

{

∑

∑

-MLE per la media di una distribuzione uniforme

Sia un campione proveniente da una distribuzione uniforme sull’intervallo con parametro

incognito.

La densità congiunta è data da:

{

La funzione di cui sopra viene massimizzata scegliendo un valore di quanto più piccolo è possibile,

tuttavia siccome deve essere più grande di tutti i valori osservati ne segue che è .

Il MLE della sua media è dato da

.

Relazione tra MSE varianza e Bias di uno stimatore Sia X un campione casuale estratto da una popolazione con parametri noti eccetto un parametro incognito

e sia uno stimatore di .

Definiamo errore quadratico medio o MSE (mean square error) il seguente:

[ ]

Definiamo distorsione di d o bias il seguente indicatore:

[ ]

Se il bias è nullo allora lo stimatore d è corretto o non distorto. Se il bias si annulla per n molto grande

allora diremo che lo stimatore d è asintitocamente corretto.

Se è uno stimatore corretto allora il suo MSE è:

[ ] [ [ ] ]

Da cui si ricava la seguente relazione tra MSE, varianza e Bias:

[ ] [ [ ] [ ] ]

[ [ ] [ ] [ ] [ ] ]

[ [ ] ] [ ] [ [ ]] [ [ ] ]

[ ]


10

Consistenza in media quadratica implica consistenza per gli stimatori corretti Sia uno stimatore di parametro incognito. Diremo che è consistente in media quadratica se

.

è consistente se

Se lo stimatore è corretto e consistente in media quadratica allora esso è anche consistente.

Intervallo di confidenza (IC) Con riferimento agli stimatori puntuali trattati in precedenza bisogna precisare che il valore ottenuto con il

metodo della massima verosimiglianza non indica il valore preciso assunto dal parametro, ma, bensì, un

valore vicino a quello reale. Rispetto ad uno stimatore puntuale un intervallo di confidenza ci fornisce un

intervallo di valori per il quale sappiamo che il parametro incognito vi appartiene con un certo grado di

fiducia (o confidenza).

IC per la media campionaria normale o numerosa con varianza nota Sia un campione di una popolazione condistribuzione normale di cui la media sia incognita e la

varianza sia nota.

Ricordiamo che:

√

Da cui:

(

√

)

(

√

√ )

(

√

√ )

L’intervallo che garantisce un livello di confidenza pari a su è pertanto:

[

√

√ ]


11

IC per la media campionaria normale o numerosa con varianza incognita Sia un campione di una popolazione i cui parametri sono entrambi ignoti. La richiesta è

quella di costruire un intervallo di confidenza per ad un livello di (vogliamo cioè sapere qual’è

l’intervallo di valori che garantisce con una confidenza che il valore cada vi appartenga).

Prendendo in considerazione il paragrafo “Densità t, media, varianza e simmetria” del capitolo “La

distribuzione delle statistiche campionarie” consideriamo che:

√

Visto che la densità delle distribuzioni è simmetrica rispetto a 0 per

sappiamo che:

(

√

)

Da cui

(

√

√ *

L’intervallo trovato [

√

√ ] è l’intervallo che soddisfa con un livello di confidenza

la richiesta di cui sopra.

IC per la varianza campionaria normale con media incognita Sia un campione proveniente da una distribuzione normale con parametri e incogniti.

Consideriamo che

Da cui, per le considerazioni del paragrafo precedente, si ha che:

(

) (

)

L’intervallo appena trovato rappresenta l’intervallo di confidenza (bilaterale) per ad un livello di

confidenza di .


12

IC per la differenza tra medie campionarie normali con varianze incognite ma

uguali Siano e due campioni indipendenti in cui le varianze sono incognite ma uguali e valgono

entrambe .

Sappiamo che:

Inoltre sappiamo che visto che i due campioni sono indipendenti, anche le chi-quadro precedenti sono

indipendenti, così come la loro somma:

Ricordiamo che:

√

e che il rapporto tra una normale standard e una √

è per definizione una distribuzione di tipo t con

k gradi di libertà.

Sia definita come:

Dividiamo la (1) per la (2) sostituendo al posto di

al fine di ottenere una t di Student:

√

(√

)

√

Da ciò possiamo determinare gli intervalli di confidenza per , infatti:

√

E quindi

√


13

IC per la differenza tra medie campionarie normali o numerose con varianze

note Siano e due campioni indipendenti in cui le varianze sono note ma la media no.

Possiamo mutuare la tecnica illustrata nel paragrafo precedente considerando che non abbiamo bisogno,

però, della varianza campionaria in quanto sappiamo già qual’è il suo valore reale (ovvero

.

L’intervallo che ci garantisce un livello di confidenza su di è pertanto:

[

√

√

]

IC per la media campionaria di Bernoulli numeroso Consideriamo una popolazione in cui ogni elemento possiede certi requisiti indipendentemente dagli altri

con una probabilità incognità p.

Se X è una variabile aleatoria che descrive quanti oggetti sugli n testati soddisfano i requisiti di interesse e

nel caso in cui n sia un numero elevato, potremo dire che X approssima una normale con media e

varianza e pertanto:

√

Perso un qualsiasi valore allora sappiamo che:

(

√

)

Tuttavia l’approssimazione di cui sopra non è un vero intervallo di confidenza.

Imponiamo che sia

la frazione degli oggetti che soddisfano i requisiti (in questo caso si tratta proprio

del MLE di p) e da ciò ricaviamo che √ è circa uguale a √ . Alla luce di queste

considerazioni e dell’approssimazione poco sopra possiamo concludere che:

√

√

IC per la differenza tra medie campionarie per bernoulliane numerose o

indipendenti


14

Test di ipotesi Supponiamo di disporre di un campione aleatorio proveniente da una distribuzione nota a meno di alcuni

parametri incogniti. Il nuovo obiettivo non è quello di stimare i parametri incogniti ma, bensì, quello di

verificare se la distribuzione soddisfa una certa ipotesi sulla base dei soli dati provenienti dal campione.

Si parla di ipotesi in quanto non c’è modo di sapere se essa sia vera o falsa.

Supponiamo di voler verificare qualche ipotesi (chiamata ipotesi nulla) su un certo campione circa un

parametro incognito : se l’ipotesi caratterizza completamente la distribuzione (un’ipotesi potrebbe essere

che valga esattamente 1) allora essa verrà chiamata ipotesi semplice, in caso contrario ( è compreso in

un certo intervallo, è minore o maggiore di una soglia, e via dicendo) diremo che l’ipotesi è composta.

Chiamiamo regione critica la regione di spazio n-dimensionale (con n numero degli elementi del campione)

per il quale l’ipotesi nulla è falsa al verificarsi di certe condizioni per il campione.

A prescindere dalla metodologia applicata va necessariamente ricordato che è possibile sbagliare il risultato

del test secondo due diverse modalità: la prima ci porta a rifiutare l’ipotesi che in realtà è corretta (errore

di I specie), mentre la seconda ci porta ad accettare l’ipotesi che in realtà è errata (errore di II specie).

Definiamo livello di significatività il valore percentuale tale che la probabilità di effettuare un errore di I

specie sia inferiore ad esso.


15

Z-test e suo livello Sia un campione aleatorio proveniente da una distribuzione normale con incognito e noto.

Vogliamo verificare l’ipotesi nulla: contro l’ipotesi alternativa .

La regione critica è: | | con media campionaria (lo stimatore naturale della

media e c costante. In questo caso la strategia è quella di scartare l’ipotesi qualora la differenza tra la media

campionaria ed il valore testato sia superiore ad una certa costante c.

Utilizzando la definizione di livello di significatività sappiamo pertanto che

| |

Sappiamo che:

√

Da cui:

|

√

| √

(

√

) (

√

)

√

Si dedice pertanto che √

, ovvero

√ .

Alla luce di quanto detto sopra concluderemo dicendo che l’ipotesi sarà accettata se |

√

|

,

mentre sarà rifiutata in caso contraio.

Curva OC per lo z-test Definiamo curva operativa caratteristica (OC) per il test di una distribuzione di tipo Z la funzione

definita come:

(|

√

| )

√

Ques’ultima rappresenta la probabilità di accettare l’ipotesi nulla quando la media reale vale .

(

√

) (

√

√

√

√

)

(

√

√

) (

√

) (

√

)


16

Dimensionamento del campione per ottenere un errore del II tipo sotto una

soglia prefissata nello Z-test bilatero La funzione è chiamata funzione di potenza del test ed indica la probabilità di rifiutare

(correttamente) l’ipotesi nulla quando è il valore reale.

La curva di OC ci permette di determinare qual’è la dimensione ottimale del campione affinchè la

probabilità di ottenere un errore del II tipo sia inferiore ad una certa soglia.

Supponiamo di voler individuare qual’è il valore di n per il quale la probabilità di accettare

quando in realtà il valore reale è sia circa uguale ad un valore prefissato, vogliamo cioè n tale che

Usando la definizione di curva di OC otteniamo: (

√

) (

√

) . (1)

La risoluzione rispetto a n è piuttosto complessa, tuttavia una buona approssimazione è data da:

[(

*

]

NB: Tale approssimazione è valida in quanto o il primo termine o il secondo termine della sottrazione delle

funzioni tendono a zero rispettivamente se o se .

Z-test con ipotesi nulla composta e suo livello


17

t-test e suo livello Sia un campione aleatorio proveniente da una distribuzione normale con e incogniti.

Vogliamo verificare l’ipotesi nulla: contro l’ipotesi alternativa .

Facendo riferimento allo z-test possiamo pensare di rifiutare ragionevolmente l’ipotesi qualora valga la

seguente: |

√

|

.

La disequazione di cui sopra non può aiutarci però in quanto non conosciamo il valore , tuttavia possiamo

pensare di sostituirla con il suo stimatore, ovvero la deviazione standard campionaria S:

√

∑( )

Da cui deduciamo che l’ipotesi nulla va rifiutata per |

√

| troppo grande.

Sappiamo che

√

A questo punto poniamo le condizioni di base del livello di significatività del test:

Concludiamo perciò che l’ipotesi verrà accettata se |

√

|

e rifiutata in caso contrario.


18

Test sulla differenza di medie per campioni indipendenti normali o numerosi

con varianze note Supponiamo che e siano campioni indipendenti provenienti da due popolazioni

differenti di medie incognite e e varianze note e

.

Vogliamo verificare l’ipotesi: contro .

Giacchè le medie campionarie sono stimatori naturali per le rispettive medie delle distribuzioni, è naturale

concludere che la differenza delle medie campionarie sia stimatore della differenza delle medie.

Riscrivendo l’ipotesi si accetta se e si rifiuta in caso contrario per un valore

opportuno di c.

√

Se è vera la differenza delle medie è zero e pertanto si ha:

(

√

)

Conveniamo alla conclusione che viene rifiutata se

√

, accettata in caso contrario.

Test sulla differenza di medie per campioni indipendenti numerosi con varianze

incognite Le ipotesi di questo genere di test sono le stesse del paragrafo precedente, tuttavia questa volta le varianze

non sono note. E’ possibile usare lo stesso modus operandi adottato in precedenza sostituendo al valore

preciso delle varianze il valore del loro stimatore ottenendo che viene rifiutata se

√

, accettata

in caso contrario.


19

Test sulla differenza di medie per campioni normali indipendenti con varianze

incognite ma uguali Supponiamo che e siano campioni indipendenti provenienti da due popolazioni

differenti normali e

delle quali non si conoscono i parametri ma si sa che le due

varianze sono uguali.

Vogliamo verificare che contro

Ricordiamo che

√

Dove è lo stimatore pooled di :

Quando l’ipotesi è vera allora la statistica

√

e quindi possiamo concludere che se

allora può essere rifiutato, altrimenti può essere accettato in caso contrario.

Test sulla varianza per campioni normali Sia un campione proveniente da una distribuzione normale con media incognita e varianza

incognita e supponiamo di voler verificare l’ipotesi nulla

contro

per un valore

di fissato.

Ricordiamo che:

Da cui:

(

)

Concludiamo accettando qualora

e rifiutandola in tutti gli altri.

Test sul rapporto di varianze per campioni normali indipendenti


20

Bontà di adattamento e analisi di dati categoriali

Date post:	14-Feb-2019
Category:	Documents
Upload:	trankien
View:	218 times
Download:	0 times

Statistica – 2° parte - PoliMipolinformatici.it/ARCHIVIO/Statistica e Calcolo delle...

Documents