Variabilità Le misure di tendenza centrale non sono
sufficienti alla comprensione dei fenomeni. Una sintesi appropriata deve tener conto del modo in cui si distribuiscono le diverse
modalità della variabile
VARIABILITA’
è l’attitudine del carattere a presentarsi con modalità fra loro diverse e distanti
Dalle misure di tipicità alle misure di variabilità (2)
caramelle
Xi
ni
0 9
10 1
N= 10
Osserviamo, ad esempio la distribuzione della variabile “caramelle” per N=10 consumatori: se sintetizzassimo con la media aritmetica (μ=1) diremmo che in media in U si mangia 1 caramella a testa dando una descrizione distorta della realtà.
Valore di sintesi con maggiore capacità informativa in questo caso sarebbe per es. la Moda=0 che ci dice che il 90% di U non consuma caramelle
Che cosa rende difficile la sintesi di questa variabile statistica? Qual è l’aspetto caratteristico di questa U che μ non riesce
a spiegare? Si tratta della variabilità di X
Dalle misure di tipicità alle misure di variabilità (2bis )
Xi Yi
18 3
20 6
20 9
20 16
21 20
23 30
25 63
147/7 147/7
Xi = 21 Yi = 21
Osserviamo le due distribuzioni della variabile “età”, possiamo notare che esse hanno la stessa media, pari a 21, ma notiamo anche che le modalità sono estremamente differenti.
Questa differenza viene colta attraverso gli indici di variabilità.
Come per le misure di tendenza centrale, indici di variabilità si differenziano a seconda del tipo di variabile sottoposta ad analisi.
Variabilità • Nella terminologia statistica la variabilità
fa riferimento a caratteri quantitativi, mentre per i caratteri qualitativi assume il nome di mutabilità
• La misura della variabilità del carattere deve sottostare a due importanti condizioni: 1. la variabilità deve risultare sempre nulla se tutti i termini osservati sono uguali; 2. la misura della variabilità deve crescere al crescere della differenza tra le modalità
Misure della variabilità
Per misurare la variabilità la metodologia statistica ricorre alle seguenti categorie di indici:
• Intervalli di variazione
• Indici di dispersione attraverso i quali si misura quanto le modalità di una distribuzione differiscono da un valore caratteristico della distribuzione stessa;
• Indici di disuguaglianza attraverso i quali si misura la distanza fra tutte le modalità della distribuzione stessa.
Variabilità
INDICI ASSOLUTI DI VARIABILITA’ sono espressi nella stessa unità di misura del fenomeno
INDICI DI VARIABILITA’ RELATIVI prescindono dall’unità di misura dei termini della distribuzione per cui sono più adeguati per eseguire il confronto tra fenomeni diversi
Misure della variabilità
A) INTERVALLI DI VARIAZIONE
Indici basati sulla differenza tra due valori posizionati significativamente
CAMPO DI VARIAZIONE
osservazione più grande –osservazione più piccola
W = xS – x1
DIFFERENZA INTERQUARTILICA
quartile superiore – quartile inferiore
Dq = Q3 – Q1
Consideriamo le valutazioni di una prova sostenuta da 4 studenti. Calcoliamo il campo di variazione
1a Prova
1° studente 3
2° studente 5
3° studente 8
4° studente 9
media 6,25
Xmax = 9;
Xmin = 3 Range W= 9 – 3 = 6
Esempio
Procediamo facendo la differenza tra il dato più grande e il dato più piccolo:
l’intervallo in cui sono compresi i valori del carattere è 6
Misure della variabilità:
SCARTO SEMPLICE MEDIO
SCARTO SEMPLICE MEDIO DALLA MEDIANA
SCARTO QUADRATICO MEDIO
VARIANZA
DEVIANZA
B) INDICI DI DISPERSIONE Indici basati sugli scarti dei singoli valori dalla media o dalla mediana
N
nMex
N
nMexnMexnMexS
n
iii
nnMe
12211 ...
Lo SCARTO SEMPLICE MEDIO è la media aritmetica dei valori assoluti degli scarti dalla media.
Misure della variabilità
N
nx
N
nxnxnxS
n
i
iinn
M
12211 ...
LO SCOSTAMENTO SEMPLICE MEDIO DALLA MEDIANA è la media aritmetica dei valori assoluti degli scarti dalla mediana.
Misure della variabilità
SCARTO SEMPLICE MEDIO
(nel caso di una serie)
(nel caso di una distribuzione)
N
N
i
i
1
N
ni
S
i
i
1
Misure della variabilità
SCARTO DALLA MEDIANA
(nel caso di una serie)
(nel caso di una distribuzione)
N
Me
Sme
N
i
i
1
N
nMe
Smei
S
i
i
1
Lo scarto quadratico medio è la media aritmetica dei quadrati degli scarti dalla media sotto radice
E’ anche uguale alla media quadratica degli scarti.
È uguale alla radice quadrata della varianza
N
xxxxxx n
22
2
2
1 ..... medio quadr. Scarto
Misure della variabilità
La varianza è la media aritmetica dei quadrati degli scarti dalla media
N
xxxxxx n
22
2
2
12 ..... Varianza
Misure della variabilità
SCARTO QUADRATICO MEDIO
(nel caso di una serie)
(nel caso di una distribuzione)
N
N
i
i
1
2
N
nS
i
ii
1
2
Misure della variabilità VARIANZA
(nel caso di una serie)
(nel caso di una distribuzione)
N
N
i
i
1
2
2
N
nS
i
ii
1
2
2
17
Esempio: calcolo variabilità (1) Si calcoli la varianza e lo scarto quadratico medio per la
variabile X che rappresenta il numero di posti letto presenti in 6 reparti ospedalieri.
Media=81/6= 13.5 X (xi-μ) (xi-μ)2
14 0.5 0.25
3 -10.5 110.25
2 -11.5 132.25
45 31.5 992.25
11 -2.5 6.25
6 -7.5 56.25
81 0 1297.5
25.216
6
5.1297 -∑
1
2
2
N
xn
i
i
71.1425.216
-∑1
2
N
xxn
i
i
Xi ni Xini (x-μ)^2*ni
18 1 18
10,89 =(18-21,30)2*1
19 5 95
26,45 =(19-21,30)2*5
20 3 60
5,07 =(20-21,30)2*3
21 2 42
0,18 =(21-21,30)2*2
22 3 66
1,47 =(22-21,30)2*3
23 1 23
2,89 =(23-21,30)2*1
24 3 72
21,87 =(24-21,30)2*3
25 2 50
27,38 =(25-21,30)2*2
TOT 20 Σ=426 Σ=96,20
Esempio: calcolo variabilità (2) Si calcoli la varianza e lo scarto quadratico medio per la variabile X nella distribuzione di voti per un collettivo di 20studenti
μ=426/20=21,30
81,420
20,96)(
1
2
2
N
nxk
i
ii
19,281,4
Misure della variabilità
DEVIANZA (numeratore della varianza)
(nel caso di una serie)
(nel caso di una distribuzione)
N
i
iDev1
2
S
i
ii nDev1
2
Var
N
Dev2
Calcolare la devianza dell’età, espressa in anni, di 6 bambini iscritti ad una scuola di pianoforte:
5; 6; 7; 7; 8; 10.
1) si deve calcolare prima la media:
16.76
43
6
1087765
2) in seguito la Somma dei Quadrati degli scarti di ogni valore dalla media: = (5 - 7.16)2+(6-7.16)2+(7-7.16)2+(7-7.16)2+(8-7.16)2+(10-7.16)2= =4.665 + 1.346 + 0.026 + 0.026 + 0.706 + 8.066 = 14.835
Esempio: calcolo devianza
La varianza: formula alternativa (1)
La varianza si può calcolare anche come differenza fra la media quadratica al quadrato e il quadrato della media aritmetica.
222 qM
1) Partiamo dalla 2 proprietà della media aritmetica
ovvero
La varianza: formula alternativa (2)
2) Dividendo tutto per N e semplificando si ricava:
N
Nd
N
nk
N
ns
i
iii
s
i
i 2
1
2
1
2
21
2
2 dN
nks
i
ii
3) Sapendo che d=μ – k si ricava
4) Ponendo K= 0
spostando Mq2 a primo membro, possiamo anche scrivere che Mq2=μ2+ σ2
ovvero
La varianza: formula alternativa (3)
La scelta delle misure di variabilità/dispersione
Le misure di variabilità/indici di dispersione (caratteri quantitativi) di uso più frequente nello studio dei fenomeni sociali sono: Il campo di variazione La differenza interquartile Lo scarto quadratico medio e la varianza
Come scegliere tra le diverse misure della dispersione?
Come scegliere tra le diverse misure della dispersione?
• Il Campo di Variazione non è una buona misura della variabilità sebbene sia di facile comprensione.
• Ha una bassa capacità informativa perché dipende soltanto dai valori estremi della distribuzione, non tiene conto dei valori intermedi che sono in generale i più numerosi.
• Poco robusta perché risente dei valori anomali della distribuzione (cioè quando Xmin è molto piccolo o X max è molto grande).
Campo di variazione(1)
Età Primo gruppo Secondo gruppo
Terzo gruppo
18 37 37 37
22 29 30 30
23 21 20 20
24 23 23 23
25 23 23 18
64 0 0 5
Totale 133 133 133
Campo di variazione 25-18=7 25-18=7 64-18=46
Distribuzioni di tre diversi gruppi secondo l’età
CAMPO DI VARIAZIONE: misura con scarsa capacità informativa e non robusta
27
Calcoliamo il campo di variazione (W) per tre prove sostenute da 4 studenti
1a Prova 2a Prova 3a Prova
1° studente 3 2 6
2° studente 5 7 7
3° studente 8 8 6
4° studente 9 8 6
media 6,25 6,25 6,25
range 6 6 1
Range (W) 1a prova = 6 dati più eterogenei
Range (W ) 3a prova = 1 dati più omogenei
Range (W) 2a prova = W 1a prova = 6 Stessa Distribuzione?
Campo di variazione(1bis)
Osservazioni:
1. Il campo di variazione fornisce informazioni sulla distribuzione dei dati :
• più W è piccolo più i dati sono omogenei; • più W è grande più i dati sono dispersi.
3. Tuttavia W tiene conto solo dei dati estremi della distribuzione, pertanto distribuzioni diverse ma con gli stessi valori estremi hanno range uguali Es. Range 1aprova = Range 2a prova. ma distribuzione 1a prova Distribuzione 2a prova
Campo di variazione(1bis)
Come scegliere tra le diverse misure della dispersione?
• La differenza interquartilica: • Misura che ha una bassa capacità
informativa perché non tiene conto di tutti i valori della distribuzione e molto robusta perché non risente dei valori anomali della distribuzione.
• È più adattabile come misura della
dispersione rispetto allo s.q.m. quando ci sono outlier o dati asimmetrici.
Differenza interquartile(2)
Età Primo gruppo (ni)
Ni Secondo gruppo (ni)
Ni
Terzo gruppo (ni)
Ni
18 37 37 37 37 37 37
22 29 66 30 67 30 67
23 21 87 20 87 20 87
24 23 110 23 110 23 110
25 23 133 23 133 18 128
64 0 - 0 - 5 133
Totale 133 133 133
Q1 Caso 33 X=18 Caso 33 X=18 Caso 33 X=18
Q3 Caso 100 X=24 Caso 100 X=24 Caso 100 X=24
Distribuzioni di tre diversi gruppi secondo l’età
DIFFERENZA INTERQUARTILE: misura robusta (non risente dei valori anomali presenti nella terza distribuzione) con scarsa capacità informativa (non tiene conto delle differenze presenti nelle distribuzioni)
Come scegliere tra le diverse misure della dispersione?
• Lo scarto quadratico medio (σ) si usa quando i dati non sono troppo asimmetrici o quando, come valore medio, si è usata la media aritmetica
Misura che ha un’elevata capacità informativa perché tiene conto di tutti i valori della distribuzione
Ha un basso grado di robustezza perché è influenzata dai valori anomali
Risente della grandezza della media della variabile
Scarto quadratico medio(3)
Età Primo gruppo
Secondo gruppo
Terzo gruppo
18 37 37 37
22 29 30 30
23 21 20 20
24 23 23 23
25 23 23 18
64 0 0 5
Totale 133 133 133
Scarto quadratico medio 2,617 2,615 8,424
Media 21,91 21,90 23,37
Distribuzioni di tre diversi gruppi secondo l’età
Scarto quadratico medio: misura con elevata capacità informativa e non robusta
33
Calcoliamo lo Scarto quadratico medio per tutte le prove
Scarto q. 1aprova = 2,38 dati più eterogenei
Scarto q. 3aprova = 0,43 dati più omogenei
Scarto q. 2a pr. Scarto q. 1a pr “Le Distribuzioni Differiscono”
1a Prova 2a Prova 3a Prova
1° studente 3 2 6
2° studente 5 7 7
3° studente 8 8 6
4° studente 9 8 6
media 6,25 6,25 6,25
scarto quadratico 2,38 2,49 0,43
Scarto quadratico medio(3bis)
Osservazioni:
1. Lo scarto quadratico medio e la varianza 2 danno
informazioni sulla distribuzione dei dati :
• più 2 e sono piccoli più i dati sono concentrati;
• più 2 e sono grandi più i dati sono dispersi.
2. Entrambi gli indici tengono conto di tutti i dati della distribuzione
3. La varianza è espressa mediante il quadrato dell’unità di misura dei dati
4. Lo scarto quadratico è espresso nella stessa unità di misura dei dati e pertanto viene preferito alla varianza
Scarto quadratico medio(3bis)
Misure della variabilità
LA DIFFERENZA MEDIA
è la media delle differenze tra ciascuna quantità e tutte le altre
misura la diseguaglianza media tra i termini della distribuzione
C) Indici basati sulle differenze tra i termini (MISURE DI DISEGUAGLIANZA)
Differenza media
La differenza media è calcolata utilizzando le differenze tra i termini della distribuzione in valore assoluto :
hiih xxd
Tali differenze possono essere:
• con ripetizione, quando si considerano tutte le differenze possibili, quindi anche quelle ripetute (le differenze tra ciascuno termine e se stesso );
• senza ripetizione, quando si considerano solo le differenze diverse.
Differenza media
)1(
1 1
NN
N
i
N
h
hi
DIFFERENZA SEMPLICE MEDIA (senza ripetizione)
)1(
1 1
NN
nnS
i
hi
S
h
hi
al denominatore si considera il numero di tutte le differenze ad eccezione di quelle nulle (ovvero si escludono le differenze con termini uguali)
Differenza media
DIFFERENZA MEDIA (con ripetizione)
al denominatore si considera il numero di tutte le differenze incluse quelle con termini uguali (si calcolano anche le differenze ripetute)
2
1 1
N
nnS
i
hi
S
h
hi
R
2
1 1
N
N
i
N
h
hi
R
Esempio calcolo: Differenze medie Calcolare il valore della differenza media con e senza
ripetizione sui seguenti dati: xi= 1; 2; 4; 7
La somma dei valori assoluti di tutte le differenze sarà quindi:1+3+6+1+2+5+3+2+3+6+5+3=40
La differenza media è 40/12=3,3 con ripetizione 40/16=2,5
)1(
1 1
NN
N
i
N
h
hi
)14(4
......14724212714121
Esempio calcolo: Differenze medie Calcolare il valore della differenza media con e senza
ripetizione sui seguenti dati:
xi= 1; 2; 4; 7
1 2 4 7 Tot righe
1 1-1=0 2-1=1 4-1=3 7-1=6 10
2 1-2=1 2-2=0 4-2=2 7-2=5 8
4 1-4=3 2-4=2 4-4=0 7-4=3 8
7 1-7=6 2-7=5 4-7=3 7-7=0 14
Tot.col 10 8 8 14 40
La differenza media senza ripetizione è :
2*(1+3+6+2+5+3)/12=40/12=3,3
La differenza media con ripetizione è 40/16=2,5
Esempio calcolo: Differenze medie Caso distribuzione: calcolare il valore della differenza
media sui seguenti dati:
Xh Xi
ni
1 4
2 6
3 2
4 5
17
Xi,h 1 2 3 4 TOT RIGA
1 --- 24 16 60 100
2 24 --- 12 60 96
3 16 12 --- 10 38
4 60 60 10 --- 130
TOT COL 100 96 38 130 364
11717
...243164214411
1617
...16240