Post on 29-May-2020
transcript
Elementi di Psicometria (con laboratorio software 1)11-Correlazione
(v. 1.1, 22 maggio 2020)
Germano Rossi1
germano.rossi@unimib.it
1Dipartimento di Psicologia, Università di Milano-Bicocca
a.a. 2019-20
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 1 / 64
Sommario
1 Concetto di correlazione
2 Correlazioni di Pearson
3 Correlazione: verifica d’ipotesi
4 Correlazione in SPSS
5 Correlazione di Spearman
6 Altre misure di correlazione
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 2 / 64
A cosa serve la correlazione?
Rispondere a domande tipo:C’è un legame fra Intelligenza e dizionario linguistico?
Una persona più intelligente ha un dizionario più ampio?
C’è una relazione fra abilità matematica e abilità musicale?chi è più bravo in matematica è anche più bravo in musica?
Studiare più tempo è associato a maggior conoscenza?
Portare gli occhiali, avere la fronte ampia, essere anziani fa pensareche siamo saggi?
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 3 / 64
Correlazione
È un indice statistico che misura l’associazione (relazione) fra duevariabili
Misura come le due variabili si muovono assieme, ossia come co-relano.
Viene espresso come un valore che oscilla fra -1 e 1
Per ora vedremo la correlazione lineare prodotto-momento diBravais-Pearson, più conosciuta come correlazione di Pearson e a cuici si riferisce per antonomasia quando si parla di “correlazione”
è generalmente indicata con il simbolo r (𝜌 nella popolazione)
La correlazione di Pearson si usa a livello intervallo/rapporto
Poi vedremo la correlazione di Spearman a livello ordinale (con moltecategorie)
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 4 / 64
Coefficiente di correlazione
Riassunto numerico della forza della relazione fra due variabili
Permette di sostituire un diagramma a dispersione con un sempliceindiceÈ costituito da due parti:
Un segno che indica la direzione della relazioneUn numero fra 0.00 e 1.00 che indica la forza della relazione
1.00 indica una relazione perfetta, esprimibile tramite una formulamatematica precisa
0.00 indica la mancanza di qualunque relazione fra le due variabili
fra i due estremi (da r < 1 ma r > 0) la relazione è sempre piùsfumata
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 5 / 64
Es. di correlazione positiva
Usando EsempioCorr0.sav (variabili X e Y)
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
● ●●
●
●
●
●
●●
●
●
●●
● ●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
−2 −1 0 1 2
−2
−1
01
2
x
y
r = 0.91
2 4 6 8 10 124
68
1012
1416
r= 0.92
X
Y
All’aumentare di X aumenta anche Y, ciascuna variabile a modo suo. Eviceversa. È una relazione lineare proporzionale.
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 6 / 64
Es. di correlazione negativa
Usando EsempioCorr0.sav (variabili Z e W)
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
−2 −1 0 1 2
−2
−1
01
2
x
y
r = −0.91
8 10 12 14 164
68
1012
r= −0.85
Z
W
All’aumentare di Z diminuisce W, ciascuna variabile a modo suo. Eviceversa. È una relazione lineare inversamente proporzionale.
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 7 / 64
Es. correlazione nulla
Usando EsempioCorrNulla.sav (variabili X e Y)
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
● ● ●
●
●
●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
● ●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
−2 −1 0 1 2
−2
−1
01
2
x
y
r = 0
2 4 6 8 10 12 14 164
68
1012
1416
r= 0.07
X
Y
Non c’è alcun legame lineare fra X e Y. Ciascuna varia indipendentementedall’altra (linearmente parlando).
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 8 / 64
SPSS: Grafico a dispersione 1
chiamato anche“Grafico XY”, “Graficoa punti”
Rappresentagraficamente unavariabile sull’ascissaassociata ad un’altrasull’ordinata
In SPSS, Grafici |
Finestre di
dialogo Legacy |
Dispersione/Punti
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 9 / 64
SPSS: Grafico a dispersione 2
Selezionare “Adispersione
semplice”
Premere Definisci
Matrice dispersione usa più di 2 variabili
A dispersione sovrapposta usa una variabile categoriale peridentificare i casi
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 10 / 64
SPSS: Grafico a dispersione 3
Inserire una variabile suAsse X
Inserire una secondavariabile su Asse Y
Eventualmente unavariabile categoriale inEtichetta i casi in
base a:
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 11 / 64
SPSS: Grafico a dispersione 4
Il grafico a dispersione è fondamentale per capire se la relazione sia lineare(tende verso una linea?) oppure no (tendono a un ovale o a un cerchio?)
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 12 / 64
Correlazione e covarianza
Il coefficiente di correlazione è un indice che esprime la quantità dico-varianza dei dati
rispetto al grafico a dispersione, è un indice di quanto i dati sonodispersi attorno ad una ipotetica retta che venga sovrapposta al grafico
la covarianza è un indice che esprime la quantità di varianza che duevariabili anno in comune
la formula deriva da quella della varianza
la correlazione è la versione standardizzata della covarianza
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 13 / 64
Esempio numerico
Usando EsempioCor.sav
X Y Z W
a 1 5 13 7b 3 7 11 13c 5 9 9 9d 7 11 7 5e 9 13 5 11
M 5 9 9 9
s 2.828 2.828 2.828 2.828
La relazione fra X e Y è linearecrescente (Y = X + 4)
La relazione fra X e Z è linearedecrescente (Z = −X + 14ovvero Z = 14− X )
La relazione fra X e W non èriconducibile ad una regolalineare (sinusoidale?)
Vedi il grafico sulla slide successiva.
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 14 / 64
Esempio numerico
Usando EsempioCor.sav
X Y Z W
a 1 5 13 7b 3 7 11 13c 5 9 9 9d 7 11 7 5e 9 13 5 11
M 5 9 9 9
s 2.828 2.828 2.828 2.828
La relazione fra X e Y è linearecrescente (Y = X + 4)
La relazione fra X e Z è linearedecrescente (Z = −X + 14ovvero Z = 14− X )
La relazione fra X e W non èriconducibile ad una regolalineare (sinusoidale?)
Vedi il grafico sulla slide successiva.
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 14 / 64
Esempio numerico
Usando EsempioCor.sav
X Y Z W
a 1 5 13 7b 3 7 11 13c 5 9 9 9d 7 11 7 5e 9 13 5 11
M 5 9 9 9
s 2.828 2.828 2.828 2.828
La relazione fra X e Y è linearecrescente (Y = X + 4)
La relazione fra X e Z è linearedecrescente (Z = −X + 14ovvero Z = 14− X )
La relazione fra X e W non èriconducibile ad una regolalineare (sinusoidale?)
Vedi il grafico sulla slide successiva.
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 14 / 64
Esempio numerico
Usando EsempioCor.sav
X Y Z W
a 1 5 13 7b 3 7 11 13c 5 9 9 9d 7 11 7 5e 9 13 5 11
M 5 9 9 9
s 2.828 2.828 2.828 2.828
La relazione fra X e Y è linearecrescente (Y = X + 4)
La relazione fra X e Z è linearedecrescente (Z = −X + 14ovvero Z = 14− X )
La relazione fra X e W non èriconducibile ad una regolalineare (sinusoidale?)
Vedi il grafico sulla slide successiva.
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 14 / 64
Grafico relativo
X con Z è unarelazione negativa(decrescente)
X con W non sembraavere legami (cioè,nessuna relazionelineare)
X con Y è unarelazione positiva(crescente)
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 15 / 64
Usando gli scarti dalla media 1
X = 5 Scarti da Y = Z = W = 9
X * Y * Z * W *
1 -4 5 -4 13 4 7 -23 -2 7 -2 11 2 13 45 0 9 0 9 0 9 07 2 11 2 7 -2 5 -49 4 13 4 5 -4 11 2
*=(ki − k) con k=X, Y, Z, W
Trasformiamo tutti i datigrezzi in scarti dalla media
Per ciascuna variabile (X, Y, Ze W), a ciascun punteggiosottraiamo 5 o 9 e lotrascriviamo nella vicinacolonna indicata con *
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 16 / 64
Usando gli scarti dalla media 1
X = 5 Scarti da Y = Z = W = 9
X * Y * Z * W *
1 -4 5 -4 13 4 7 -23 -2 7 -2 11 2 13 45 0 9 0 9 0 9 07 2 11 2 7 -2 5 -49 4 13 4 5 -4 11 2
*=(ki − k) con k=X, Y, Z, W
Trasformiamo tutti i datigrezzi in scarti dalla media
Per ciascuna variabile (X, Y, Ze W), a ciascun punteggiosottraiamo 5 o 9 e lotrascriviamo nella vicinacolonna indicata con *
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 16 / 64
Usando gli scarti dalla media 1
X = 5 Scarti da Y = Z = W = 9
X * Y * Z * W *
1 -4 5 -4 13 4 7 -23 -2 7 -2 11 2 13 45 0 9 0 9 0 9 07 2 11 2 7 -2 5 -49 4 13 4 5 -4 11 2
*=(ki − k) con k=X, Y, Z, W
Trasformiamo tutti i datigrezzi in scarti dalla media
Per ciascuna variabile (X, Y, Ze W), a ciascun punteggiosottraiamo 5 o 9 e lotrascriviamo nella vicinacolonna indicata con *
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 16 / 64
Usando gli scarti dalla media 2
X = 5 Scarti da Y = Z = W = 9
X * Y * Z * W *
1 -4 5 -4 13 4 7 -23 -2 7 -2 11 2 13 45 0 9 0 9 0 9 07 2 11 2 7 -2 5 -49 4 13 4 5 -4 11 2
*=(k − k) con k=Y, Z, W
(X − X )(k − k) (1)∑(X − X )(k − k) (2)∑(X − X )(k − k)
N(3)
(X − X )(k − k)
XY XZ XW
16 -16 84 -4 -80 0 0 (1)4 -4 -816 -16 8
40 -40 0 (2)
8 -8 0 (3)
1 Moltiplichiamo gli scarti fra loro
2
3
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 17 / 64
Usando gli scarti dalla media 2
X = 5 Scarti da Y = Z = W = 9
X * Y * Z * W *
1 -4 5 -4 13 4 7 -23 -2 7 -2 11 2 13 45 0 9 0 9 0 9 07 2 11 2 7 -2 5 -49 4 13 4 5 -4 11 2
*=(k − k) con k=Y, Z, W
(X − X )(k − k) (1)∑(X − X )(k − k) (2)∑(X − X )(k − k)
N(3)
(X − X )(k − k)
XY XZ XW
16 -16 84 -4 -80 0 0 (1)4 -4 -816 -16 8
40 -40 0 (2)
8 -8 0 (3)
1 Moltiplichiamo gli scarti fra loro
2 li sommiamo tutti
3
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 17 / 64
Usando gli scarti dalla media 2
X = 5 Scarti da Y = Z = W = 9
X * Y * Z * W *
1 -4 5 -4 13 4 7 -23 -2 7 -2 11 2 13 45 0 9 0 9 0 9 07 2 11 2 7 -2 5 -49 4 13 4 5 -4 11 2
*=(k − k) con k=Y, Z, W
(X − X )(k − k) (1)∑(X − X )(k − k) (2)∑(X − X )(k − k)
N(3)
(X − X )(k − k)
XY XZ XW
16 -16 84 -4 -80 0 0 (1)4 -4 -816 -16 8
40 -40 0 (2)
8 -8 0 (3)
1 Moltiplichiamo gli scarti fra loro
2 li sommiamo tutti
3 li dividiamo per la numerosità
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 17 / 64
In formula
XY XZ XW
16 -16 84 -4 -80 0 04 -4 -816 -16 8
Se i co-prodotti (XY) sono inprevalenza positivi, la covarianzasarà positiva
Se sono in prevalenza negativi, lacovarianza sarà negativa
se sono più o meno in partiuguali, sarà vicina a 0
La covarianza è:
covxy =
∑(X − X )(Y − Y )
N
Mentre la varianza è:
varx =
∑(X − X )(X − X )
N
Notate la somiglianza fra le dueformule
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 18 / 64
In formula
XY XZ XW
16 -16 84 -4 -80 0 04 -4 -816 -16 8
Se i co-prodotti (XY) sono inprevalenza positivi, la covarianzasarà positiva
Se sono in prevalenza negativi, lacovarianza sarà negativa
se sono più o meno in partiuguali, sarà vicina a 0
La covarianza è:
covxy =
∑(X − X )(Y − Y )
N
Mentre la varianza è:
varx =
∑(X − X )(X − X )
N
Notate la somiglianza fra le dueformule
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 18 / 64
In formula
XY XZ XW
16 -16 84 -4 -80 0 04 -4 -816 -16 8
Se i co-prodotti (XY) sono inprevalenza positivi, la covarianzasarà positiva
Se sono in prevalenza negativi, lacovarianza sarà negativa
se sono più o meno in partiuguali, sarà vicina a 0
La covarianza è:
covxy =
∑(X − X )(Y − Y )
N
Mentre la varianza è:
varx =
∑(X − X )(X − X )
N
Notate la somiglianza fra le dueformule
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 18 / 64
Relazione varianza/covarianza
La varianza è:
var(X ) =
∑(X − X )2
N=
∑(X − X )(X − X )
N
La covarianza è:
cov(X ,Y ) =
∑(X − X )(Y − Y )
N
In entrambi i casi è la somma dei prodotti degli scarti dalla media
Nella varianza sono gli scarti della singola variabile
Nella covarianza sono gli scarti delle due variabili
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 19 / 64
Standardizziamo
Standardizziamo, dividendo per entrambe le dev. st.
r =cov(X ,Y )
sxsy
sxsy = 2.828 * 2.828 =
= 8
XY XZ XW
Cov 8 -8 0sx 2.828 2.828 2.828sy 2.828 2.828 2.828
sxsy 8 8 8
r 1 -1 0
Notate che una correlazione equivale ad una covarianza standardizzatasulla base delle variabili coinvolte
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 20 / 64
Standardizziamo
Standardizzando la co-varianza per entrambe le variabili
r =cov(X ,Y )
sxsy
otteniamo la correlazione
Trasformando i punteggi grezzi in punti z di entrambe le variabili
moltiplicando fra loro i punti z per ogni caso statistico
e facendo poi la media
r =
∑zxzyN
otteniamo la correlazione
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 21 / 64
Formule della correlazione di Pearson
r =cov(X ,Y )√var(X )var(Y )
=cov(X ,Y )
sxsy=
∑xy
N− X Y
sxsy
r =
∑zxzyN
È quella che si ricorda più facilmente
r =
∑XY −
∑X∑
Y
N√(∑
X 2 − (∑
X )2
N)(∑
Y 2 − (∑
Y )2
N)
r =N∑
XY −∑
X∑
Y√[N
∑X 2 − (
∑X )2][N
∑Y 2 − (
∑Y )2]
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 22 / 64
Calcolo d’esempio: manuale
X Y X 2 Y 2 XY
a 1 5 1 25 5b 3 7 9 49 21c 5 9 25 81 45d 7 11 49 121 77e 9 13 81 169 117∑
25 45 165 445 265
5 · 265− 25 · 45√[5 · 165− 252] [5 · 445− 452]
=200√
200 · 200= 1
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 23 / 64
Interpretazione: intensità e direzione
L’interpretazione si applica al valore della correlazioneindipendentemente dal segno (cioè .36 e -.36 hanno la stessaintensità di relazione)
La regola generale è: più è grande, più la correlazione è forte
Valore di r Correlazione Relazione
0 Nulla Nessuna relazione|0.00|-|0.20| Piccolissima / Piccola Molto poco intensa, quasi inesistente|0.20|-|0.40| Bassa Più o meno apprezzabile|0.40|-|0.60| Regolare Considerevole|0.60|-|0.80| Alta Intensa|0.80|-|1.00| Molto alta Molto intensa
N.B. 1 - Il segno indica solo la relazione proporzionale (+) o inversamenteproporzionale (-)N.B. 2 - 0.00 = 0
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 24 / 64
Correlazione: distribuzione campionaria
Immaginate di aver raccolto un campione di 20 persone
di aver misurato 2 variabili
e di aver trovato un valore di .56
In termini assoluti è una buona correlazione ma...
Siamo sicuri che il valore di .56 con un campione di 20 persone sia unabuona stima della correlazione della popolazione?
Potrebbe essere un campione “balordo” con una correlazioneeccessivamente alta (o bassa)
Usiamo la logica della distribuzione campionaria
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 25 / 64
Distribuzione campionaria della correlazione
Usiamo una popolazione finita di 2 variabili che correlano a 0.00365
Estraiamo dei campioni di ampiezza 20
Calcoliamo la correlazione per ciascuno dei campioni...Facciamo la rappresentazione grafica per vedere come:
i valori vicini a 0 sono i più frequentivalori (positivi e negativi) meno vicini a 0 sono leggermente menofrequenti di 0man mano i valori si allontanano da 0, meno frequenti diventano
In pratica i valori della distribuzione campionaria della correlazionedovrebbero distribuirsi approssimativamente come una normale.
In realtà non succede...
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 26 / 64
Distribuzione campionaria della correlazione
... ma è possibile trasformare r in t
t =r√
(1− r2)/(N − 2)
e t si distribuisce (per N < 30) in modo quasi normale e si avvicinasempre più alla normale quando N > 30
in ogni caso, t è una distribuzione di probabilità conosciuta a cuipossiamo fare riferimento
in teoria, dovremmo trasformare r in t, usare le tavole di t (con N-2gl) per trovare il valore critico, quindi interpretare
in pratica, esistono tavole che riportano i valori critici di r perdeterminati livelli 𝛼 e determinati gl
oppure, i software forniscono direttamente la probabilità
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 27 / 64
Distribuzione campionaria della correlazione
L’approssimazione alla normale è sempre migliore all’aumentaredell’ampiezza dei campioni (per N piccole si può aggiustare ladistribuzione)
Se la correlazione (o la t) trovata nel nostro campione di partenza ècompresa nel 95% attorno alla media di 0, allora la nostra correlazionesarà non significativa ovvero casualmente estratta da unapopolazione con correlazione 0
Se la correlazione trovata sarà compresa nel 5% delle due code dellanormale (o della t), allora sarà considerata significativa, cioè un valorepoco probabile da ottenere casualmente.
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 28 / 64
Dimostrazione (o verifica) dell’ipotesi
Quello che abbiamo fatto è una verifica d’ipotesi
Abbiamo ipotizzato che nella popolazione da cui abbiamo estratto ilcampione, la correlazione fra le due variabili sia 0 (H0 : 𝜌 = 0)
Abbiamo pensato ad un’ipotesi di ricerca, alternativa all’ipotesi nulla(H1 : 𝜌 = 0)
Abbiamo costruito una distribuzione campionaria della correlazione
E abbiamo confrontato la correlazione calcolata con la distribuzionedelle correlazioni
Se la probabilità associata alla nostra correlazione è ≤ 2.5% allorariteniamo che sia improbabile che il nostro campione sia stato estrattoda quella popolazione (che ha 𝜌 = 0)
In tal caso, concludiamo che il campione viene da una popolazionediversa
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 29 / 64
Correlazione lineare
Se i dati non sono “lineari” la correlazione di Pearson non è “buona”; la relazione
potrebbe non essere affatto lineare. Per questo l’inferenza sulla correlazione verifica che
sia estratta da una popolazione con correlazione nulla, cioè H0 : 𝜌 = 0 (rho)
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0 2 4 6 8 10 12
02
46
810
1214
r= 0.58
Var 1
Var
2
●
●
●
● ●
●
●
●
0 2 4 6 8 10 12 14
01
23
45
6
r= 0
Var 1
Var
2
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 30 / 64
Inferenza
Nel primo caso, la relazione nonè lineare ma il campione cheabbiamo estratto (quadrati) celo fa credere: r=.95
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0 2 4 6 8 10 12
02
46
810
1214
Popolazione r= 0.58 Campione r= 0.95
X
Y
●
●
●
●
Nel secondo (cerchi) è ilcontrario: r=-.08
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0 2 4 6 8 10 12
02
46
810
1214
Popolazione r= 0.58 Campione r= 0.33
XY
●
●
●
●
●
●
●
●
●
●
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 31 / 64
Inferenza
Nell’inferenza per lacorrelazione, H0 è sempre
uguale a 0 (H0 : 𝜌 = 0), mentrele ipotesi alternative potrebberoessere:
H1 : 𝜌 = 0
H1 : 𝜌 > 0
H1 : 𝜌 < 0
sempre con gl = N − 2
In pratica ci chiediamo se il valore da noi trovato viene da una popolazione concorrelazione nulla. Se accettiamo H0, la correlazione trovata (qualunque sia ilsuo valore) non deve neppure essere presa in considerazione (non vainterpretata).
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 32 / 64
Inferenza
Nel caso di un’ipotesi monodirezionale positiva H1 : 𝜌 > 0
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 33 / 64
Inferenza: uso delle tavole
La tavola dei valori critici riporta i valori (per i gradi di libertà, per diversi 𝛼 e perle due ipotesi, mono e bi-direzionali) sotto i quali accettare l’ipotesi nulla.
Tavole statistiche 475
Tabella CValori critici del coefficiente r di Pearson
Livello di significatività per il test a una coda
Livello di significatività per il test a due code0,10 0,05 0,02 0,01
1 0,988 0,997 0,9995 0,99992 0,900 0,950 0,980 0,9903 0,805 0,878 0,934 0,9594 0,729 0,811 0,882 0,9175 0,669 0,754 0,833 0,874
6 0,622 0,707 0,789 0,8347 0,582 0,666 0,750 0,7988 0,549 0,632 0,716 0,7659 0,521 0,602 0,685 0,735
10 0,497 0,576 0,658 0,708
11 0,476 0,553 0,634 0,68412 0,458 0,532 0,612 0,66113 0,441 0,514 0,592 0,64114 0,426 0,497 0,574 0,62315 0,412 0,482 0,558 0,606
16 0,400 0,468 0,542 0,59017 0,389 0,456 0,528 0,57518 0,378 0,444 0,516 0,56119 0,369 0,433 0,503 0,54920 0,360 0,423 0,492 0,537
21 0,352 0,413 0,482 0,52622 0,344 0,404 0,472 0,51523 0,337 0,396 0,462 0,50524 0,330 0,388 0,453 0,49625 0,323 0,381 0,445 0,487
26 0,317 0,374 0,437 0,47927 0,311 0,367 0,430 0,47128 0,306 0,361 0,423 0,46329 0,301 0,355 0,416 0,45630 0,296 0,349 0,409 0,449
35 0,275 0,325 0,381 0,41840 0,257 0,304 0,358 0,39345 0,243 0,288 0,338 0,37250 0,231 0,273 0,322 0,35460 0,211 0,250 0,295 0,325
70 0,195 0,232 0,274 0,30280 0,183 0,217 0,256 0,28390 0,173 0,205 0,242 0,267
100 0,164 0,195 0,230 0,254
df(= N - 2; 0,05 0,025 0,01 0,005
N = numerodi coppiedi dati)
AppeA.qxd 22-07-2009 11:12 Pagina 475
N = 7 𝛼 = .05(bi) rt = .65 ⇒ H0 rt = .79 ⇒ H1
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 34 / 64
Esempio numerico (calcolo manuale) 1
Usando EsempioCor2.sav
X Y X 2 Y 2 XY
46 126 2116 15876 579649 110 2401 12100 539048 103 2304 10609 494442 128 1764 16384 537646 111 2116 12321 510649 128 2401 16384 627243 104 1849 10816 447245 101 2025 10201 454549 111 2401 12321 543942 125 1764 15625 525040 113 1600 12769 452045 115 2025 13225 517548 100 2304 10000 480041 124 1681 15376 508443 101 1849 10201 4343
X Y X 2 Y 2 XY
40 102 1600 10404 408047 129 2209 16641 606348 112 2304 12544 537648 128 2304 16384 614446 123 2116 15129 5658
905 2294 41133 265310 103833
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 35 / 64
Esempio numerico (calcolo manuale) 2
20 · 103833− 905 · 2294√(20 · 41133− 9052)(20 · 265310− 22942)
=
2076660− 2076070√(822660− 819025)(5306200− 5262436)
=
590√3635 · 43764
=590√
159082140=
59012612.7768524
= 0.0467
H1 : 𝜌 = 0
Gdl: 20− 2 = 18
𝛼 .05 .01
rc .444 .561
Risultati in SPSS alla slide 43
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 36 / 64
Dimensione dell’effetto
La dimensione dell’effetto si esprime in due modi:versione non standardizzata (da 0 in su)versione standardizzata (da 0 a 1)
La correlazione è una dimensione dell’effetto standardizzata
Quindi tutti i tipi di correlazione (slide 64) sono anche misure didimensione degli effetti
L’effect size standardizzato si interpreta in modo simile (maleggermente diverso):
Valore dell’effetto interpretazione
≃ .10 piccolo≃ .30 medio≃ .50 grande
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 37 / 64
Correlazione in SPSS 1
Analizza |
Correlazione |
Bivariata
Dal riquadro “Coefficientidi correlazione” sceglierePearson o Spearman
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 38 / 64
Correlazione in SPSS 2
Il riquadro “Test disignificatività” permettedi scegliere l’opzionebidirezione (“A duecode”, preferibile) omonodirezionale (“A unacoda”)
Il riquadro “Evidenziacorrelazioni significative”permette di aggiungeredegli asterischi disignificatività
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 39 / 64
Correlazione in SPSS 3
Opzioni permette di scegliere leopzioni “Esclusioni a coppie”(pairwise) o “Esclusione listwise”per i valori mancanti
Lo stesso bottone permette dichiedere le statistiche descrittive(media e dev.st.) e la covarianza
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 40 / 64
Metodo listwise
Si applicano ai mancanti quando una formula usa 2 o più variabili
metodo listwise: si “buttano” tutti i casi con valori mancanti
Il campione potrebbe ridursi drasticamente!
COD ATG24 ATG25 ATG26 COD ATG24 ATG25 ATG26
504 2 4 1 504 2 4 1
505 4 4
506 2 2 4 506 2 2 4
507 1 1
508 4 1 1 ⇒ 508 4 1 1
509 4 4
510 4 4 1 510 4 4 1
511 4 4 3 511 4 4 3
514 3 5
N=9 N=5
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 41 / 64
Metodo pairwise
metodo pairwise (esclusione casi test per test, a coppie, analisi peranalisi...): si “ignorano” i casi con valori mancanti, limitatamente allestatistiche calcolate di volta in volta
con certe tecniche d’analisi, si perde la concomitanza delle risposte
COD ATG24 ATG25 ATG26 Usati
504 2 4 1 tutti505 4 4 solo con 24 e 25507 1 1 solo con 25 e 26509 4 4 solo con 24 e 26515 4 1 1 tutti
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 42 / 64
Esempio numerico (SPSS) Risultati
Usando EsempioCor2.sav
La prima tabella riportamedie, deviazioni standarde numerosità (se richiesto)
La seconda riporta lestatistiche di correlazione:
Correlazione (1 con sestessa)
Significatività (cioè la p)
il numeratore dellavarianza o della covarianza
varianza e covarianza
Numerosità
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 43 / 64
Più di 1 correlazione completa
Indicando più di 2 variabili, viene prodotta una matrice quadrata cheriporta la correlazione di tutte le variabili fra loro.
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 44 / 64
Matrice correlazioni compatta
Attivando Evidenzia correlazioni significative
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 45 / 64
Legame di r con t appaiato
Sia il t appaiato che r utilizzano le varianze (o le dev. st)
Esiste una formula che permette di calcolare t usando r
t =X1 − X2√
s21+s22N − 2rs1s2
N
Non è una formula molto utile, ma ci permette di vedere che unaparte del t appaiato è legato a r
All’aumentare di r, t aumenta
Quanto r = 0, t appaiato diventa uguale a t per campioniindipendenti
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 46 / 64
Attendibilità e validità
La correlazione (o misure basate sulla correlazione) vengono usate perl’analisi delle scale che andranno a formare un test psicologico
Attendibilità o Affidabilità: quanto ci si può fidare che lo strumentomisuri fedelmente ogni volta?
Test-retest: lo stesso strumento si somministra due volte a distanza ditempo, la correlazione fra le due dev’essere almeno .70Split-half: lo strumento viene diviso in due parti (item pari e itemdispari) e i punteggi delle due metà vengono confrontati fra loroAlfa di Cronbach: è un indice basato su tutte le correlazioni possibilifra gli item della scala. Deve essere almeno .70 (.60 con pochi item)
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 47 / 64
Attendibilità e validità
Validità: stiamo misurando veramente quello che pensiamo dimisurare?
Dipende da cosa stiamo facendoNuova versione di uno strumento: deve avere una correlazione elevatacon la vecchia versioneNuovo strumento per un costrutto mai misurato prima: devecorrelare abbastanza/molto con altre misure che si ipotizzano sianocorrelate al costrutto
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 48 / 64
Attendibilità in SPSS
Analizza | Scala | Analisi di affidabilità
Split-half
Split-half N di item
Scala di ortodossia RFS ,740 9
Alfa di Cronbach
Alfa di Cronbach N di item
Scala di ortodossia RFS ,885 9
Per entrambe le procedure, gli item contro-tratto devono essere ribaltati
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 49 / 64
Validità in SPSS
Validità con criterio esterno
Scala di fondamentalismo RF
Scala di ortodossia RFS r ,727Sig. ,000
Il fondamentalismo include l’ortodossia
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 50 / 64
Rappresentazione grafica di r
due variabili NON correlate
due variabili correlate
L’area in comune rappresenta la varianza che le due variabilicondividono fra loro
In termini di contenuto è qualcosa che è misuratocontemporaneamente da entrambe le variabili
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 51 / 64
Coefficiente di determinazione
La correlazione indica quanto sono associate le variabili
Il quadrato della correlazione indica esattamente quanta varianzahanno in comune le variabili
Se poi si moltiplica per 100 si ha la % di varianza comune
r = .9 r2 = .81, 81% r = .7 r2 = .49, 49%
r = .6 r2 = .36, 36% r = .4 r2 = .16, 16%
r = .3 r2 = .09, 9% r = .2 r2 = .04, 4%
È anche chiamato “% di varianza spiegata”
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 52 / 64
Legame fra le variabili
È importante ricordare che se esiste una correlazione fra due variabili,che calcoliamo con r, questo indice non ci dà nessuna informazione suilegami di causa-effetto.
Le due variabili “si muovono assieme”. STOP!
È possibile che esista una terza variabile che ha influenza su entrambee che la correlazione che abbiamo calcolato sia dovuta a questainfluenza
Y
X
Z
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 53 / 64
False correlazioni
Y
XÈ falsa una correlazione esistente che non ha senso logico ma chepuò portare ad una interpretazione apparentemente “accettabile”
X è il numero di pompieri mandato a spegnere un incendio
Y è l’entità del danno prodotto dall’incendio
La loro correlazione vuol dire che più pompieri producono piùdanni?
Y
X
Z
Nel momento in cui si identifica una variabileantecedente ad entrambe, la correlazione spuriaacquista senso
Z è l’ampiezza dell’incendio
Più ampio l’incendio, più pompieri vengono inviati aspegnerlo
più ampio l’incendio, più danni prodotti
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 54 / 64
Con tre variabili
r = 0 2 correlano fra loro
correlano tutte1 correla con le altre due
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 55 / 64
Correlazione multipla
È la correlazione di una variabile con 2 o più variabilicontemporaneamente
Oscilla fra −1 e +1 come la correlazione di Pearson (come tutti gliindici di correlazione)
r1.23 =
√r212 + r213 − 2r12r13r23
1− r223
dove r12 è la correlazione fra le variabili 1 e 2; r13 fra la 1 e la 3... er1.23 è la correlazione multipla
In SPSS si ottiene solo come sottoprodotto della regressione linearemultipla (che studierete l’anno prossimo)
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 56 / 64
Correlazione parziale
È la correlazione di due variabili a cui viene “tolta” l’influenza di unaterza variabile. In pratica si cerca di scorporare l’influenza di unaterza, quarta... variabile per trovare la relazione “vera” fra le prime due
Es. correlazione fra “numero di parole conosciute” da un bambino e“intelligenza” parzializzata in base all’età (tolto il contributo dell’età).Se l’età è correlata con una delle due o con entrambe, la correlazionediminuirà.
r12.3 =r12 − r13r23√
(1− r213)(1− r223)
dove r12 è la correlazione fra le variabili 1 e 2; r13 fra la 1 e la 3... er12.3 è la correlazione fra 1 e 2 parzializzata sulla 3
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 57 / 64
Correlazione semi-parziale
È la correlazione fra due variabili, ma solo ad una delle due è statotolto il contributo di una terza.
Es. correlazione fra “numero di parole conosciute” e “intelligenza”. Laparzializzazione in base all’età viene attuata solo con il numero diparole.
r1(2.3) =r12 − r13r23√
1− r223
dove r12 è la correlazione fra le variabile 1 e 2, r13 fra la prima e laterza e così via
In SPSS non è possibile ottenere la correlazione semi-parziale, se non comerisultato opzionale di una regressione multipla (che studierete l’annoprossimo)
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 58 / 64
Correlazione parziale in SPSS
Analizza | Correlazione | Parziale
Nel riquadro “Variabili”inserire almeno due nomidi variabile
Nel riquadro “Controlloper” inserire le variabili dicui si vuole eliminarel’effetto [“controllo” è lastessa cosa diparzializzare]
In “Test di significatività”scegliere l’opzione didirezione (“A due code”,preferibile)
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 59 / 64
Confronto fra correlazioni (semplici e parziali)
Correlazioni con Fondamentalismo
Ordine zero Parziali
Orient. Polit. 0.281 0.107Rel. Intrinseca 0.679 0.274Rel. estr. pers. 0.310 0.145Rel. Estr. soc 0.510 0.026Ortodossia 0.727 0.422Attac. Sicuro 0.115 0.039Attac. Preoccup. 0.089 0.024Attac. Spavent. −0.037 0.035Attac. Distanz. −0.209 −0.063
La correlazione di ordine zero è la normale correlazioneLa correlazione parziale (in questo caso) è parzializzata su tutte le altre
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 60 / 64
Correlazione di Spearman
È una formula per calcolare una correlazione che si usa quando:
la relazione fra le variabili non è propriamente lineare
o almeno una delle variabili è ordinale
o ci sono campioni piccoli e non si è sicuri degli assunti di normalità(ad es. campioni patologici)
è chiamata correlazione rho di Spearman ma, più spesso, indicatacon rs
utilizza una trasformazione in ranghi su cui applica una formulaparticolare
rs = 1− 6∑
d2
n(n2 − 1)
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 61 / 64
Trasformazione in ranghi
Si ordinano i valori (in modo crescente)
Si assegnano le posizioni (o ranghi)
Si usano i ranghi al posto dei valori
A valori uguali deve essere assegnato lo stesso rango,assegnando la media dei ranghi
valori A A B B C Dpos. 1 2 3 4 5 6rango 1.5 1.5 3.5 3.5 5 6
valori 1 2 2 3 3 3pos. 1 2 3 4 5 6rango 1 2.5 2.5 5 5 5
Ad A viene assegnato la media dei ranghi (1+ 2)/2 = 1.5
X Y
A 3B 3A 1D 2C 3B 2
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 62 / 64
Trasformazione in ranghi
Si ordinano i valori (in modo crescente)
Si assegnano le posizioni (o ranghi)
Si usano i ranghi al posto dei valori
A valori uguali deve essere assegnato lo stesso rango,assegnando la media dei ranghi
valori A A B B C Dpos. 1 2 3 4 5 6rango 1.5 1.5 3.5 3.5 5 6
valori 1 2 2 3 3 3pos. 1 2 3 4 5 6rango 1 2.5 2.5 5 5 5
Ad A viene assegnato la media dei ranghi (1+ 2)/2 = 1.5
X Y
A 3B 3A 1D 2C 3B 2
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 62 / 64
Trasformazione in ranghi
Si ordinano i valori (in modo crescente)
Si assegnano le posizioni (o ranghi)
Si usano i ranghi al posto dei valori
A valori uguali deve essere assegnato lo stesso rango,assegnando la media dei ranghi
valori A A B B C Dpos. 1 2 3 4 5 6rango 1.5 1.5 3.5 3.5 5 6
valori 1 2 2 3 3 3pos. 1 2 3 4 5 6rango 1 2.5 2.5 5 5 5
Ad A viene assegnato la media dei ranghi (1+ 2)/2 = 1.5
X Y
A 3B 3A 1D 2C 3B 2
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 62 / 64
Trasformazione in ranghi
Si ordinano i valori (in modo crescente)
Si assegnano le posizioni (o ranghi)
Si usano i ranghi al posto dei valori
A valori uguali deve essere assegnato lo stesso rango,assegnando la media dei ranghi
valori A A B B C Dpos. 1 2 3 4 5 6rango 1.5 1.5 3.5 3.5 5 6
valori 1 2 2 3 3 3pos. 1 2 3 4 5 6rango 1 2.5 2.5 5 5 5
Ad A viene assegnato la media dei ranghi (1+ 2)/2 = 1.5
X Y
A 3B 3A 1D 2C 3B 2
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 62 / 64
Correlazione di Spearman
Ordinare i valori
Indicare laposizione
Assegnare i ranghi
La somma deiranghi devecoincidere
X rango Y rangoX Y d d2
A 1.5 3 5 -4 12B 3.5 3 5 -2 2,3A 1.5 1 1 0,5 0,3D 5 2 2.5 2,5 6,3C 6 3 5 1 1B 3.5 2 2.5 1 1∑
21 21 23
rs = 1− 6 · 236(62 − 1)
= 1− 1386 · 35
= 1− 138210
= 1− 0.657143 = 0.343
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 63 / 64
Altre misure di correlazione
Coefficiente di correlazione Livelli di misurazione
Prodotto momento di Pearson Entrambe intervalloA ranghi di Spearman Almeno una ordinaleTau di Kendall Entrambe ordinaliPhi, V di Cramer Entrambe nominaliPunto-biseriale Una intervallo e una dicotomica veraBiseriale* Una intervallo e una dicotomica artificialeContingenza Entrambe nominaliTetracorica* Entrambe dicotomiche artificialiPoliseriale* Una intervallo e una ordinalePolicorica* Entrambe ordinali artificiali
In grassetto quelle ottenibili con SPSSL’asterisco indica quelle ottenibili con macro SPSS scaricabili da internet
G. Rossi (Dip. Psicologia) ElemPsico a.a. 2019-20 64 / 64