+ All Categories
Home > Documents > STATISTICA a.a. 2003-2004

STATISTICA a.a. 2003-2004

Date post: 20-Jan-2016
Category:
Upload: tuan
View: 36 times
Download: 0 times
Share this document with a friend
Description:
STATISTICA a.a. 2003-2004. LA STATISTICA INFERENZIALE TEST A UNA CODA E A DUE CODE TEST DEL CHI QUADRATO. CONFRONTO FRA POPOLAZIONI. Uno scopo della statistica è determinare se le caratteristiche di due popolazioni sono differenti o meno. - PowerPoint PPT Presentation
37
STATISTICA a.a. 2003-2004 – LA STATISTICA INFERENZIALE – TEST A UNA CODA E A DUE CODE – TEST DEL CHI QUADRATO
Transcript
Page 1: STATISTICA a.a. 2003-2004

STATISTICAa.a. 2003-2004

– LA STATISTICA INFERENZIALE

– TEST A UNA CODA E A DUE CODE

– TEST DEL CHI QUADRATO

Page 2: STATISTICA a.a. 2003-2004

CONFRONTO FRA POPOLAZIONI

– Uno scopo della statistica è determinare se le caratteristiche di due popolazioni sono differenti o meno.

– Si traggono cioè conclusioni sulla popolazione, determinando un’inferenza statistica.

– Possiamo confrontare campioni o popolazioni attraverso le medie o le varianze.

Page 3: STATISTICA a.a. 2003-2004

CONFRONTO FRA POPOLAZIONI

– Per effettuare un confronto si ricorre al test statistico.

– Il test statistico è il procedimento che consente di rifiutare o non rifiutare (accettare ) un’ipotesi sulla popolazione

– Il test assegna un certo valore di probabilità all’ipotesi che viene formulata.

Page 4: STATISTICA a.a. 2003-2004

L’IPOTESI NULLA

– Si usa in genere la cosiddetta ipotesi nulla (H0).

– Essa postula come inesistenti (nulle, pari a zero) le differenze fra le caratteristiche delle popolazioni in esame (H0 : A=B).

– Un test statistico consente di provare l’inaccettabilità (con una certa quota di errore) di un’ipotesi, ma non di provarla.

Page 5: STATISTICA a.a. 2003-2004

L’IPOTESI NULLA

– Se la probabilità che l’ipotesi nulla sia vera è bassa, vorrà dire che le popolazioni confrontate sono verosimilmente differenti.

– Confrontare un modello con un campione sperimentale, tramite un test statistico, significa provare la concordanza tra i dati reali e il modello, cioè la validità del modello.

Page 6: STATISTICA a.a. 2003-2004

L’IPOTESI NULLA

– Prima dell’esperimento si stabilisce il valore limite per la probabilità che l’ipotesi nulla sia vera.

– Per probabilità inferiori a tale valore stimeremo falsa l’ipotesi nulla.

– Per probabilità superiori, non si è in grado di rifiutare l’ipotesi nulla.

Page 7: STATISTICA a.a. 2003-2004

L’IPOTESI NULLA

– Per convenzione si adottano due livelli di significatività:

• se la probabilità che l’ipotesi nulla sia vera è uguale o minore al 5% (p<=0.05) si dice che la differenza fra le popolazioni considerate è significativa

• se la probabilità è minore o uguale all’1% (p<=0.01) si dice che la differenza fra le popolazioni è altamente significativa.

Page 8: STATISTICA a.a. 2003-2004

L’IPOTESI NULLA

• Se la probabilità è maggiore di 0.05, non si può concludere che le popolazioni considerate sono uguali, ma si può ammettere di non avere elementi sufficienti per affermare l’esistenza di una differenza.

• Il livello di significatività è il rischio di rifiutare erroneamente l’ipotesi nulla quando questa è vera.

Page 9: STATISTICA a.a. 2003-2004

L’IPOTESI NULLA

• Questo errore è definito come errore di I tipo o errore .

• La probabilità di non rifiutare l’ipotesi nulla quando questa è in realtà falsa (ossia di accettare un’ipotesi nulla falsa) viene detta errore di II tipo o errore .

Page 10: STATISTICA a.a. 2003-2004

STRUTTURA DEI TEST

– Un test di significatività consiste nel calcolo di un parametro e della distribuzione di probabilità ad esso associata.

– Questi parametri (chi quadrato, t di student, ecc.) hanno distribuzioni di probabilità diverse a seconda del numero di gradi di libertà (GdL) impiegati nel calcolo.

– Queste diverse distribuzioni sono tabulate su apposite tavole.

Page 11: STATISTICA a.a. 2003-2004

USO DELLE TAVOLE– Le tavole permettono di evitare di ricorrere

alle equazioni delle curve di distribuzione del parametro.

– In una tavola vengono riportati i valori del parametro che vengono superati nel 5% dei casi, o nell’1% o in una frazione interessante (10%, 50%, ecc.).

– Ottenuto il valore del parametro si valuta sulla tavola se supera il valore corrispondente alla probabilità prescelta.

Page 12: STATISTICA a.a. 2003-2004

USO DELLE TAVOLE– Nel caso in cui il parametro superi tale valore

critico, la probabilità che ciò sia avvenuto casualmente è inferiore alla probabilità critica prescelta.

– Quindi si considerano significativamente differenti le due popolazioni in questione.

– In tal modo la probabilità di definire differenti popolazioni che non lo sono (errore del I tipo) è pari al livello critico prescelto (es. 5%).

Page 13: STATISTICA a.a. 2003-2004

TEST A UNA CODA E TEST A DUE CODE

– Supponiamo di confrontare due serie di dati A e B

– Se in seguito ad un test statistico rifiutiamo l’ipotesi nulla H0 : A=B dobbiamo assumere

un’ipotesi alternativa.

– Si possono creare due diverse situazioni: • può interessare solo la differenza fra le due

serie di dati nel senso di A>B (oppure A <B) e quindi l’ipotesi alternativa sarà H1 : A>B

Page 14: STATISTICA a.a. 2003-2004

TEST A UNA CODA E TEST A DUE CODE

– Supponiamo di confrontare due serie di dati A e B

– Se in seguito ad un test statistico rifiutiamo l’ipotesi nulla H0 : A=B dobbiamo assumere

un’ipotesi alternativa.

– Si possono creare due diverse situazioni: • può interessare solo la differenza fra le due serie

di dati nel senso di A>B (oppure A <B) e quindi l’ipotesi alternativa sarà H1 : A>B oppure H1 :

B>A

Page 15: STATISTICA a.a. 2003-2004

TEST A UNA CODA E TEST A DUE CODE

• Può non interessare la deviazione in un solo senso e quindi ci si limita alla verifica dell’ipotesi di uguaglianza fra A e B.

• Nel primo caso (test a una coda o unilaterale) si deve considerare la probabilità che la serie A sia maggiore della serie B

• Nel secondo caso (test a due code o bilaterale) si deve considerare la probabilità che la serie A sia maggiore della B oppure che la B sia maggiore della A.

Page 16: STATISTICA a.a. 2003-2004

TEST A UNA CODA E TEST A DUE CODE

• Se p1=P(A>B) e p2=P(B>A), nel caso del test a due code si avrà pT=p1+p2=Probabilità totale

• Nella distribuzione normale, se si ha una probabilità del 5% di trovare un valore esterno a +/- 1.96(probabilità a due code), si ha una probabilità del 2.5% di trovare un valore superiore a +1.96 (probabilità ad una coda).

Page 17: STATISTICA a.a. 2003-2004

TEST A UNA CODA E A DUE CODE

– All’inizio dell’esperimento occorre stabilire se il test di significatività sarà a una o a due code, ossia se interessano le variazioni in un solo senso (maggiore o minore) o in tutti e due i sensi .

– Un certo valore del parametro sarà significativo a livello di probabilità p per il test bilaterale, al livello p/2 per il test unilaterale.

Page 18: STATISTICA a.a. 2003-2004

TEST A UNA CODA E A DUE CODE

– La scelta del test unilaterale non dovrebbe essere presa dopo aver visto i dati e la direzione della loro deviazione, ma a priori e solo se si ha la certezza che le deviazioni in una direzione si verificano solo per caso e quindi non saranno mai significative.Ciò avviene raramente: è meglio usare i test bilaterali anche se hanno livello critico più alto e quindi significatività minore.

Page 19: STATISTICA a.a. 2003-2004

TEST DEL CHI-QUADRATO– Supponiamo di avere due popolazioni

nelle quali ogni individuo abbia probabilità P1 e P2 di mostrare la caratteristica A.

– In un campione casuale proveniente dalla prima popolazione, r membri hanno la caratteristica A e quindi frequenza relativa r1/n1

– Nella seconda popolazione la frequenza relativa è r2/n2.

Page 20: STATISTICA a.a. 2003-2004

TEST DEL CHI-QUADRATO– Questi dati possono essere esposti nella

tabella di contingenza 2x2:

Caratteristica A

Presente Assente

campione1 r1 n1-r1 n1

campione2 r2 n2-r2 n2

___________________________________

r1+r2 (n1-r1)+(n2-r2) n1+n2

Page 21: STATISTICA a.a. 2003-2004

TEST DEL CHI-QUADRATO– Il totale delle osservazioni è a destra in

basso.

– Le quatto celle interne rappresentano le frequenze osservate.

– L’ipotesi nulla afferma che la frequenza relativa della caratteristica A è uguale nelle due popolazioni (P1=P2).

Page 22: STATISTICA a.a. 2003-2004

TEST DEL CHI-QUADRATO– Ad esempio abbiamo due campioni

indipendenti di 45 e 46 pazienti affetti da infarto acuto.

– Nel primo gruppo viene somministrato propanololo, nel secondo no.

– Ad un mese di distanza si valutano sopravvissuti e si ottiene la seguente tabella:

Page 23: STATISTICA a.a. 2003-2004

TEST DEL CHI-QUADRATO

Trattamento

Propanololo Controllo

sopravvissuti 38 29 67

no 7 17 24

___________________________________

45 46 91

Page 24: STATISTICA a.a. 2003-2004

TEST DEL CHI-QUADRATO– Secondo l’ipotesi nulla i tassi di

sopravvissuti nelle due popolazioni sono identici . Tale tasso, stimato sui campioni, si ottiene dal rapporto 67/91 = 0.736.

– Se è vera l’ipotesi nulla, la proporzione di sopravvissuti deve essere mantenuta nei due gruppi (numero di unità attese).

– Nel primo gruppo il numero atteso di sopravvissuti è 45(67/91)=33.132

Page 25: STATISTICA a.a. 2003-2004

TEST DEL CHI-QUADRATO– Nel gruppo di controllo il numero atteso è

46(67/91)=33.868.

– Allo stesso modo il numero atteso di decessi è nel primo gruppo

45(24/91)= 11.868

e nel gruppo di controllo

46(24/91)=12.132

Page 26: STATISTICA a.a. 2003-2004

TEST DEL CHI-QUADRATO

– Il test del chi-quadrato per il confronto di due proporzioni in campioni indipendenti si basa sulla differenza fra frequenze osservate O e attese E:

E

EO 22 )(

Page 27: STATISTICA a.a. 2003-2004

TEST DEL CHI-QUADRATO Trattamento

Propanololo Controllo

Sopravvissuti 38 29 67

E 33.132 33.868

O – E 4.868 - 4.868

(O-E)^2/E 0.715 0.700

Deceduti 7 17 24

E 11.868 12.132

O – E -4.868 4.868

(O-E)^2/E 1.997 1.953

___________________________________________________

45 46 91

Page 28: STATISTICA a.a. 2003-2004

TEST DEL CHI-QUADRATO

– I valori di E danno come somma di riga e di colonna i totali osservati, ed è per questo che i quattro scarti hanno lo stesso valore assoluto.

– Tanto maggiore è lo scarto tanto più è ragionevole orientarsi contro l’ipotesi zero.

– E’ ragionevole dividere il quadrato degli scarti per i valori attesi, in modo che la differenza venga “normalizzata”.

Page 29: STATISTICA a.a. 2003-2004

TEST DEL CHI-QUADRATO– Calcolato il valore atteso di una cella, visto che gli E

danno gli stessi totali di riga e di colonna, le altre quantità attese si possono derivare per sottrazione dai totali marginali: esiste quindi una sola quantità attesa indipendente e per questo si dice che per una tabella di contingenza 2x2 vi è un grado di libertà (GdL) per il calcolo del chi-quadrato.

– Il calcolo del chi-quadrato è la sommatoria delle quattro celle (O-E)^2/E:

– Χ2= 0.715 + 0.7 + 1.997 + 1.953 = 5.365

Page 30: STATISTICA a.a. 2003-2004

TEST DEL CHI-QUADRATO– Nella tabella per la distribuzione chi-quadrato con 1

GdL si nota che il valore calcolato è compreso fra i valori 5.02 e 6.63, corrispondenti a p=0.025 e p=0.01.

– Quindi la differenza fra le due mortalità è significativa perchè p<0.05.

– La stessa procedura di calcolo si può estendere a tabelle 2 * k o addirittura r * k per confrontare più campioni.

– I GdL di una tabella r * k saranno (r-1) * (k-1).

Page 31: STATISTICA a.a. 2003-2004

TEST DEL CHI-QUADRATO– Esiste un modo alternativo di calcolo per il chi-

quadrato:

Colonne

a b r1

Righe

c d r2

_____________________________________________

c1 c2 N

2121

)( 22

ccrr

Nbcad

Page 32: STATISTICA a.a. 2003-2004

CORREZIONE DI YATES– Va ricordato che il test chi-quadrato va usato con

tabelle le cui entrate siano frequenze. E’ un errore usarlo con valori medi oppure percentuali.

– Il test chi-quadrato è un metodo approssimato valido quando le frequenze sono grandi.

– Una regola perchè sia valido è che il valore atteso di ogni cella sia maggiore o uguale a 5.

– Quando le frequenze attese sono basse (ma sempre >5) si applica la correzione di Yates che riduce di ½ la grandezza assoluta di (O-E) per ciascuna cella:

Page 33: STATISTICA a.a. 2003-2004

CORREZIONE DI YATES

2121

|2/)(| 222

ccrr

NNbcad

E

EO 22 )2/1(

Page 34: STATISTICA a.a. 2003-2004

CORREZIONE DI YATES

– La correzione è dovuta al fatto che il chi-quadrato si basa sull’approssimazione normale della binomiale e quindi si tratta di una correzione per la continuità.

– Nel nostro esempio utilizzando le nuove formule si ottiene ancora una p significativa, anche se meno significativa che nel caso senza correzione.

Page 35: STATISTICA a.a. 2003-2004

TEST ESATTO DI FISHER• Per frequenze assolute molto basse anche la

correzione per la continuità non è sufficiente.

• Quando la numerosità totale è inferiore a 20 o è compresa fra 20 e 40 ma il valore atteso più basso è inferiore a 5 si usa il test esatto di Fisher.

• Supponiamo di dover confrontare la virulenza di due ceppi batterici A e B dopo inoculazione in cavie:

Page 36: STATISTICA a.a. 2003-2004

TEST ESATTO DI FISHER Ceppo batteri

A B

Viva 6 4 10

Esito cavie

Morta 14 12 26

_______________________________________

20 16 36

Page 37: STATISTICA a.a. 2003-2004

TEST ESATTO DI FISHER• Il campione non è grande e le frequenze attese delle

due prime celle sono basse.

• L’ipotesi nulla ci dice che la proporzione dei morti nei due gruppi di animali è la stessa.

• In pratica si calcola la probabilità totale del campione osservato secondo la formula di Fisher

( r1! r2 ! c1 ! c2 !)/ (a! b! c! d! N!)

e poi si va a vedere nella tabella corrispondente alla distribuzione risultante della probabilità cumulativa.


Recommended