Roberto Bolzani & Mariagrazia BenassiRoberto Bolzani & Mariagrazia Benassi
Teorie e Tecniche di Teorie e Tecniche di PsicometriaPsicometria
Introduzione
• Legge statistica e legge deterministica
• Le principali definizioni di probabilità
• Proprietà della probabilità
Programma del CorsoProgramma del Corso
Parametri statistici
• Parametri descrittivi
• Distribuzioni di probabilità
• Densità di probabilità
• Le principali distribuzioni di probabilità
Programma del CorsoProgramma del Corso
Il test statistico
• Logica del test statistico
• L’ipotesi nulla
• Significatività
• Potenza del test
• Numerosità del campione
Programma del CorsoProgramma del Corso
Test parametrici
• Il t-test
• Analisi della varianza
• Analisi della regressione
• Analisi per prove ripetute
• Analisi multivariata
• Il modello lineare generale
Programma del CorsoProgramma del Corso
Test non-parametrici
• Confronto fra variabili qualitative
• Le tavole di contingenza
• La regressione logistica
Programma del CorsoProgramma del Corso
Bibliografia
Bolzani R., Canestrari R. (1994) Logica del test statistico. Milano, Casa Editrice Ambrosiana.
Bolzani R. (1999) Problemi di statistica. Milano, Casa Editrice Ambrosiana.
Bolzani R., Benassi M. (2003) Tecniche Psicometriche. Roma, Carocci
Introduzione
• Legge deterministica: corrispondenza univoca fra due eventi, causa ed effetto.
• Legge probabilistica: corrispondenza fra un evento e un insieme di possibili eventi
Finalità della Ricerca Scientifica
• Dimostrazione di leggi scientifiche su base sperimentale
• Interpretazione dei dati sperimentali
Definizioni di probabilità
• Classica. Dato un insieme di eventi equiprobabili la probabilità di un evento è data da
numero di eventi favorevoli
numero di casi possibili
• Frequentista. La probabilità di un evento è la frequenza con cui esso si presenta in un numero molto elevato di prove.
Definizioni di probabilità
• Assiomatica. La probabilità è definita dalle condizioni:
• Ad ogni evento A corrisponde un valore p(A) maggiore o uguale a zero
• La probabilità di tutti gli eventi possibili è uno
• La probabilità che si verifichi A o B, essendo A e B mutuamente escludenti, è data dalla somma della probabilità di A e della probabilità di B
In formule:
• p(A) 0
• p() = 1
• p(A o B) = p(A) + p(B)
se p(A&B)=0
Definizioni di probabilità
• Soggettiva. La probabilità di un evento E è la misura del grado di fiducia che un individuo coerente attribuisce, secondo le sue informazioni, all’avverarsi di E.
• coerenza
• informazione
Il Paradosso di Bertrand
Problema: Calcolare la probabilità di trovare una corda casuale di una circonferenza più lunga del lato del triangolo equilatero iscritto.
Il Paradosso di BertrandIl Paradosso di Bertrand
1a Soluzione:
Scegliere un punto
interno alla
circonferenza
inscritta
p=1/4
Il Paradosso di BertrandIl Paradosso di Bertrand
2a Soluzione:
Scegliamo il punto
d’origine della corda
nell’apice del triangolo
p=1/3
Il Paradosso di BertrandIl Paradosso di Bertrand
3a Soluzione:
Scegliere un punto
casuale su un raggio
della
circonferenza
p=1/2
Proprietà della Probabilità
La probabilità di un evento impossibile è
zero.
Non vale la proposizione inversa. Se la probabilità è zero l'evento non è necessariamente impossibile.• Es. La probabilità di ottenere 7 nel lancio di un dado a
sei facce è zero. La probabilità di avere su infiniti lanci di una moneta nemmeno un risultato 'testa' è zero ma l'evento non è impossibile.
Proprietà della ProbabilitàProprietà della Probabilità
La probabilità di un evento certo è uno.
Non vale la proposizione inversa.Es. La probabilità di ottenere un numero
compreso fra uno e sei in un lancio di un dado è uno.
La probabilità di avere su infiniti lanci di una moneta almeno un risultato 'testa' è uno pur non essendo l'evento certo.
Proprietà della ProbabilitàProprietà della Probabilità
Probabilità condizionata:
p(A|B) = probabilità che avvenga A essendo avvenuto B.
Es. probabilità di ottenere 12 in due lanci di un dado sapendo che nel primo lancio è risultato 6.
Proprietà della ProbabilitàProprietà della Probabilità
Eventi indipendenti: A e B sono indipendenti quando l’avverarsi di uno non influenza l’avverarsi dell’altro.
Cioè p(A|B) = p(A)
Es. la probabilità di avere testa nel primo lancio e croce nel secondo
Proprietà della ProbabilitàProprietà della Probabilità
Eventi disgiunti: A e B sono eventi disgiunti se il verificarsi dell'uno esclude il verificarsi dell'altro.
Es. testa e croce
Proprietà della ProbabilitàProprietà della Probabilità
Evento prodotto: Evento in cui si verifica sia A che B:
p(A&B) = p(A) p(B|A).
Se A e B sono indipendenti:
p(A&B)= p(A) p(B)
Proprietà della ProbabilitàProprietà della Probabilità
Evento somma: Evento in cui si verifica A o B o, se non sono disgiunti, entrambi:
p(A+B) = p(A) + p(B) ‑ p(A&B)
Es. Nel lancio di un dado:
P(pari)=1/2 P(<4)= 1/2
P(pari e <4) = 1/6
P(pari o <4)= 1/2+1/2-1/6 = 5/6
Proprietà della ProbabilitàProprietà della Probabilità
Evento complementare: Evento in cui non si verifica A: p(Ã)=1 ‑ p(A).
Es. il complementare del risultato 6 è il risultato 1 o 2 o 3 o 4 o 5.
Parametri descrittivi
• Frequenza di un evento: Numero di volte in cui si verifica un evento diviso per il numero totale delle occorrenze.
Q u a l i ta ti ve
Discrete Con tin u e
Q u a n ti ta ti ve
Va r i a bi l i
Parametri descrittiviParametri descrittivi
• Media: somma di tutti i valori di una variabile divisa per il numero totale dei valori.
• Varianza: somma dei quadrati degli scarti dei singoli valori dalla media divisa per i gradi di libertà.
• Deviazione standard: radice quadrata della varianza
nx=x i
n
1
1
2 2
n
xxn
1
i=s
Parametri descrittiviParametri descrittivi
• Valore atteso (Expected value)
– caso discreto
– caso continuo
• Varianza: valore atteso degli scarti al quadrato
)()( ii
n
1
xpx=xE
] )) ( [(2 ) (x E x E= x VAR
dxxfx=xE )()(
Parametri descrittiviParametri descrittivi
• Legge dei grandi numeri: Al crescere del numero delle prove
dove pE è la probabilità dell'evento E, fE la sua frequenza, una costante qualsiasi > 0.
1)|<f-pP(| EE
Parametri descrittiviParametri descrittivi
• Percentile: ordinando i casi secondo il valore di una variabile, l'n-esimo percentile è il limite al di sotto del quale si trova l'n% dei casi.
• Mediana: punto che divide la popolazione in due parti di uguale numerosità. Corrisponde al 50 percentile.
• Moda: valore per cui si ha un picco di frequenza. Caratterizza la distribuzione, che risulta unimodale, bimodale etc. a seconda dei picchi presenti.
Distribuzioni di Probabilità
Insieme dei valori di probabilità che competono a ciascun valore della variabile.
Funzione di distribuzione: funzione che rappresenta per ogni x la probabilità di ottenere un valore minore o uguale a x.
Distribuzioni di ProbabilitàDistribuzioni di Probabilità
• Se la variabile è discreta abbiamo una probabilità per ogni valore x discreto della variabile.
• La funzione di distribuzione si ottiene sommando le probabilità di tutti i casi aventi un valore inferiore ad X.
Distribuzioni di ProbabilitàDistribuzioni di Probabilità
• Se la variabile è continua la probabilità di un singolo valore della variabile è nulla essendo la probabilità di un valore su infiniti valori possibili. La funzione di distribuzione viene allora definita da
• La funzione f(x) è la densità di probabilità e rappresenta la probabilità che il valore di x sia compreso in un intervallo infinitesimo, diviso per l’ampiezza dell’intervallo.
f(x)dx=X)<p(x=F(X)X
-
Distribuzioni di ProbabilitàDistribuzioni di Probabilità DISTRIBUZIONE UNIFORME
Distribuzione relativa ad una variabile discreta o continua avente uguale probabilità per ciascun suo valore.
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0,16
0 1 2 3 4 5 6 7
Distribuzione Binomiale Se il risultato di una prova può essere il
successo S o l'insuccesso I con uguale probabilità p=q=1/2, i risultati possibili di due prove sono
SS SI IS II
ciascuno con probabilità 1/4.
Distribuzioni di ProbabilitàDistribuzioni di Probabilità
s
n
2
1=p(s)
n
s)!-(ns!
n!=
s
n
Distribuzione BinomialeDistribuzione Binomiale
In generale su n prove la probabilità di s successi è data da:
dove
Distribuzione BinomialeDistribuzione Binomiale
• Se p=q=1/2
s
n
2
1=p
n
La distribuzione sarà simmetrica
0
0,05
0,1
0,15
0,2
0,25
0 1 2 3 4 5 6 7 8 9 10
numero di successi
Distribuzione Binomiale con p=0.5
Distribuzione BinomialeDistribuzione Binomiale
Funzione di Distribuzione (Distribuzione Cumulativa)
0
0.2
0.4
0.6
0.8
1
0 1 2 3 4 5 6 7 8 9 10
numero di successi
Distribuzione Binomiale con p=0.5
s
nqp=p(s) is
Se la probabilità di successo p è diversa dalla probabilità di insuccesso q=1‑p allora la probabilità di s successi è data da
Distribuzione BinomialeDistribuzione Binomiale
Distribuzione BinomialeDistribuzione Binomiale
0
0,05
0,1
0,15
0,2
0,25
0,3
0 1 2 3 4 5 6 7 8 9 10
numero successi
Distribuzione Binomiale con p=0.25
Se
La distribuzione sarà asimmetrica
s
nqp=p
qp
is
Distribuzione BinomialeDistribuzione Binomiale
0
0.2
0.4
0.6
0.8
1
0 1 2 3 4 5 6 7 8 9 10
numero successi
Distribuzione Binomiale con p=0.25
Funzione di Distribuzione (Distribuzione Cumulativa)
Test con la distribuzione binomiale Test con la distribuzione binomiale Binomiale 5 prove
0.031
0.156
0.313 0.313
0.156
0.031
0.000
0.050
0.100
0.150
0.200
0.250
0.300
0.350
0 1 2 3 4 5
successi
pro
bab
ilit
à
Test con la distribuzione binomiale Test con la distribuzione binomiale Binomiale 6 prove
0.016
0.094
0.234
0.313
0.234
0.094
0.016
0.000
0.050
0.100
0.150
0.200
0.250
0.300
0.350
0 1 2 3 4 5 6
successi
pro
bab
ilit
à
Test con la distribuzione binomiale Test con la distribuzione binomiale Binomiale 12 prove
0.000 0.0030.016
0.054
0.121
0.193
0.226
0.193
0.121
0.054
0.0160.003 0.000
0.000
0.050
0.100
0.150
0.200
0.250
0 1 2 3 4 5 6 7 8 9 10 11 12successi
pro
ba
bili
tà
Distribuzioni di ProbabilitàDistribuzioni di Probabilità
DISTRIBUZIONE NORMALE (GAUSSIANA)
• Limite della distribuzione binomiale.
• Curva degli errori.
• Distribuzione a massima entropia.
Limite della distribuzione binomiale.
Al crescere di n la distribuzione binomiale tende ad una distribuzione normale con media np e varianza npq.
DISTRIBUZIONE NORMALE DISTRIBUZIONE NORMALE (GAUSSIANA)(GAUSSIANA)
DISTRIBUZIONE NORMALE DISTRIBUZIONE NORMALE (GAUSSIANA)(GAUSSIANA)
Curva degli errori. Condizioni: • un errore è la somma di molte componenti di uguale ampiezza
• le diverse componenti sono fra loro indipendenti
• ciascuna componente è positiva o negativa con uguale probabilità
allora l'ampiezza dell'errore ha una distribuzione normale.
DISTRIBUZIONE NORMALE DISTRIBUZIONE NORMALE
(GAUSSIANA)(GAUSSIANA)
Distribuzione a massima entropia.
La distribuzione normale è la distribuzione di probabilità con la massima entropia per una variabile compresa fra ‑ e + ed avente un data media e varianza. È quindi la distribuzione meno strutturata, la più casuale.
DISTRIBUZIONE NORMALE DISTRIBUZIONE NORMALE
(GAUSSIANA)(GAUSSIANA)
e2
1=f(x) 2
2
2
)-(x-
2
Una generica variabile normale con media e varianza ² è indicata con N(,²) e la sua densità di probabilità è
DISTRIBUZIONE NORMALE DISTRIBUZIONE NORMALE
(GAUSSIANA)(GAUSSIANA)
Essendo la distribuzione di una variabile continua il suo valore per un dato x corrisponde alla densità di probabilità per quel valore.
DISTRIBUZIONE NORMALE DISTRIBUZIONE NORMALE
(GAUSSIANA)(GAUSSIANA) Distribuzione Cumulativa Normale
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
-5 -4 -3 -2 -1 0 1 2 3 4 5
valori z
pro
bab
ilità
DISTRIBUZIONE NORMALE DISTRIBUZIONE NORMALE
(GAUSSIANA)(GAUSSIANA)
• Posizione massima (giace sulla media)
• Altezza del massimo (tanto più è grande la varianza
tanto più la curva è allargata)
DISTRIBUZIONE NORMALE DISTRIBUZIONE NORMALE
(GAUSSIANA)(GAUSSIANA) Una variabile normale a media zero e varianza unitaria è detta
variabile z o standard, si indica con N(0,1) e la sua densità di probabilità è data da
e2
1=f(z) 2
z-2
dove z e x sono legati dalla relazione
zxx
z ;
DISTRIBUZIONE 2
Essendo la distribuzione di una variabile continua il suo valore per un dato x corrisponde alla densità di
probabilità per quel valore. 2 = z1
2+ z22+ z3
2+…..+ zn2 z: N(0,1)
Distribuzioni di ProbabilitàDistribuzioni di Probabilità
)2n
(
e)(2=)f(2
2
1-1-n2
2
n-
2
Distribuzioni di ProbabilitàDistribuzioni di ProbabilitàDistribuzione χ²Distribuzione χ²
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
0.16
0.18
0.20
0 5 10 15 20 25 30
χ² 10 gl
χ² 4 gl
DISTRIBUZIONE t
Distribuzione di una variabile rapporto fra una variabile N(0,1) e la radice quadrata di una variabile 2 divisa per i gradi di libertà.È simmetrica e tende
alla normale. Ha espressione
Distribuzioni di ProbabilitàDistribuzioni di Probabilità
)nt+(1
1
)2n
(n
)2
1+n(
=f(t)2
1+n2
DISTRIBUZIONE F
Distribuzione di una variabile rapporto di due variabili 2 divise per i rispettivi gradi di
libertà. Ha espressione
Distribuzioni di ProbabilitàDistribuzioni di Probabilità
)Fn
n+(1 F )n
n()
2n( )
2n(
)2
n+n(=f(F) 2
n+n-
2
12
2-n2n
2
1
21
21
2111
Statistica descrittiva
Rappresentazione sintetica dei diversi valori relativi ai soggetti di un determinato gruppo
(media, frequenza, percentuale etc.)
Riguarda esclusivamente i soggetti esaminati.
RACCOLTA DATI
DESCRIZIONE DATI
IDEAGENERALE
Statistica inferenziale
‑Saggia l'influenza di alcuni fattori sui parametri‑Classifica soggetti in vari gruppi ‑Prevede l'andamento di certi parametri.
Riguarda concetti generali e quindi tutti i possibili soggetti che rispondono a certe caratteristiche.
Statistica inferenzialeStatistica inferenziale
Procedimento
falsifi co l'ipotesi nulla non falsifi co l'ipotesi nulla
Test Statistico( stim a del param etro)
Raccolta Dati eDescrizione Variabili
Scelta Cam pionecasuale e idoneo
Form ulazione Ho
I dea GeneraleI potesi Sperim entale
Statistica inferenzialeStatistica inferenzialeProcedimentoProcedimento
Ipotesi la cui accettazione renderebbe falsa l'idea da verificare.
Viene in genere indicata con H0.
Ipotesi Sperimentale
IpotesiNulla Ho
Statistica inferenzialeStatistica inferenzialeProcedimentoProcedimento
Campione• Idoneo a confermare l'idea.
• Rappresentativo dell'intera popolazione
(casuale, sufficientemente ampio)
• Conforme alle richieste del test che si intende utilizzare
(distribuzione, indipendenza)
Ipotesi Ipotesi
SperimentaleSperimentale Ipotesi Ipotesi
Nulla Ho Nulla Ho Scelta del Campione
Statistica inferenzialeStatistica inferenzialeProcedimentoProcedimento
TEST
• Creati per essere applicati in modo indipendente.
• Richiedono che i dati sperimentali abbiano determinate distribuzioni teoriche (continuità, normalità ..)
• In grado di falsificare tipi determinati di ipotesi nulle
Ipotesi Ipotesi
SperimentaleSperimentale Ipotesi Ipotesi
Nulla Ho Nulla Ho
Test Statistico
Scelta del Scelta del
Campione Campione
Statistica inferenzialeStatistica inferenzialeProcedimentoProcedimento
SIGNIFICATIVITÀ: Probabilità di respingere l'ipotesi nulla pur essendo questa vera.
Si stabilisce a priori quale probabilità di errore consideriamo accettabile per la verifica
(livello di significatività normalmente 0.05 o 0.01).
Ipotesi Ipotesi
SperimentaleSperimentale Ipotesi Ipotesi
Nulla Ho Nulla Ho
Test Test StatisticoStatistico
Scelta del Scelta del
Campione Campione
Significativitàp
Statistica inferenzialeStatistica inferenzialeProcedimentoProcedimento
Ipotesi Ipotesi
SperimentaleSperimentale Ipotesi Ipotesi
Nulla Ho Nulla Ho
Test Test StatisticoStatistico
Scelta del Scelta del
Campione Campione
SignificativitàSignificativitàpp
Non respingo HoNon respingo Ho
Respingo HoRespingo Ho
Processi Decisionali
Statistica inferenzialeStatistica inferenzialeFalsificazione HoFalsificazione Ho
Errori di DecisioneErrori di Decisione
H0 veraH1 falsa
H0 falsaH1 vera
Respingo H0 errore I tipo
corretto
Non respingo H0 corretto errore II tipo
Statistica inferenzialeStatistica inferenzialeFalsificazione HoFalsificazione Ho
POTENZA DI UN TESTProbabilità di respingere H0 quando H0 è
falsa. È dato da 1‑. Dipende :
da H0 e da H1 dalla numerosità del campione dalla minima differenza apprezzabile dalla varianza casuale
Statistica inferenzialeStatistica inferenzialeFalsificazione HoFalsificazione Ho
Distribuzione di Ho e H 1
-4 -3 -2 -1 0 1 2 3 4 5 6 7
x
H0 H1
Statistica inferenzialeStatistica inferenzialeFalsificazione HoFalsificazione Ho
Non falsificazione di HNon falsificazione di H00:: l'ipotesi nulla è “vera” scarsa potenza del test:
il campione ha varianza elevata scarsa numerosità del campione il campione non soddisfa le condizioni relative alla
distribuzione il campione non è rappresentativo dell'intera
popolazione non sufficiente separazione fra H0 e H1
Statistica inferenzialeStatistica inferenzialeFalsificazione HoFalsificazione Ho
INTERVALLO DI CONFIDENZA:
rappresenta la zona, attorno al parametro stimato sperimentalmente, in cui potrebbe cadere il valore vero del parametro con una probabilità 1‑. Ha la stessa estensione dell'intervallo attorno all'ipotesi nulla. Se nell'intervallo di confidenza cade il valore di H0 non si può respingere l'ipotesi nulla.