+ All Categories
Home > Documents > LEZIONE A.8 Misurare la variabilità

LEZIONE A.8 Misurare la variabilità

Date post: 04-Feb-2016
Category:
Upload: aiden
View: 38 times
Download: 5 times
Share this document with a friend
Description:
TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli. LEZIONE A.8 Misurare la variabilità. In questa lezione. - PowerPoint PPT Presentation
22
LEZIONE A.8 Misurare la variabilità TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli
Transcript
Page 1: LEZIONE A.8 Misurare la variabilità

LEZIONE A.8

Misurare la variabilità

TQuArs – a.a. 2010/11Tecniche quantitative per l’analisi nella ricerca sociale

Giuseppe A. Micheli

Page 2: LEZIONE A.8 Misurare la variabilità

In questa lezione..

In questa lezione smettiamo di cercare misure ‘centrali’ di una variabile e passiamo a strumenti per misurare la dispersione in-torno a tali modalità. Poiché le variabili hanno gradi diversi di misurabilità individueremo una misura per ciascuno dei tre livelli:

Per variabili ordinali, intorno alla mediana abbiamo già fatto la conoscenza con il Range Interquartilico

Per variabili quantitative faremo la conoscenza della misura regina della Statistica, la Varianza

Per le variabili solo nominali cercheremo un concetto di variabilità assimilabile a quello di dispersione intorno a un polo, e proporremo la Eterogeneità.

L’eterogeneità (a differenza della varianza) ha un massimo implicito nella sua definizione, e può quindi essere ‘relativizzato’. Ma questo è un tema che riprenderemo presto..

Page 3: LEZIONE A.8 Misurare la variabilità

Range Il modo più naturale di cogliere la variabilità di un carattere è quello di vedere quanta è la differenza tra i ‘primi’ e ‘gli ultimi’, tra le unità di anali-si che stanno all’inizio e quelle che stanno alla fine della serie ordinata: X={x1,x2,x3,..,xN-2,xN-1,xN}. RangeRange è la differenza tra ultima e prima modalità della serie ordinata:

Ma il Range risente trovo di valori ‘anomali’valori ‘anomali’ sulle code della distri-buzione. Cosa succede al Range se, per esempio:

Di una classe scolastica di cui si studiano i redditi entra a far parte il nipote di Rockfeller?

Tra gli impiegati di Los Alamos su cui si valuta il Q.I. si inseriscono Fermi e von Neumann?

Nella serie delle vostre ‘pesate’ mattutine lasciate anche quella rile-vata quando vostro fratello ha appoggiato un’incudine sulla bilancia?

R= xR= xNN - x - x11

Page 4: LEZIONE A.8 Misurare la variabilità

Range interquantilicoMeglio allora premunirsi, prendendo come estremi su cui valutare il Range non proprio le osservazioni più piccola e più grande, ma quelle osser-vazioni (un po’ più ‘interne’ alla serie) che si situano a uguale distanza dal valore centrale della serie ordinata (cioè a pari distanza dalla mediana).

Se siamo molto prudenti (perché non ci fidiamo dei valori sulle code, o perché le code non sono nemmeno completate, come nel caso di serie statistiche troncate) prenderemo la differenza tra il terzo e il primo quartile: 3Q4(X)- 1Q4(X) = Range Interquartile (IQR o DIQ).

Se ci fidiamo dei valori assunti dalle osservazioni del primo decile (che la-sciano solo il 10% con valori più bassi) e al nono decile (lasciano solo un 10% più alto), prenderemo 9Q10(X)- 1Q10(X) = Range Interdecilico.

Differenza interquantilica

9Q10(X)- 1Q10(X)

4Q5(X)- 1Q5(X)

3Q4(X)- 1Q4(X)

D.i.Q Milano

4,341

2,176

1,585

D.i.Q Paesi

2,760

1,775

1,405

Il range interquartile a Milano e nei paesi è assai simile. Il range inter-decile è invece assai diverso. Segno che la differenza sta nella distri-buzione tra il 75° e il 90° percentile.

Page 5: LEZIONE A.8 Misurare la variabilità

Minima funzione quadratica di perdita

x1

2 m= SSE min

m

iii fx

Sappiamo che la media aritme-tica è la misura di posizione che rende minima una funzione qua-dratica di perdita di informazione

La varianza è la minima funzione quadratica di perdita La varianza è la minima funzione quadratica di perdita intorno alla media aritmeticaintorno alla media aritmetica

E’ quindi ragionevole usare come mi-sura di dispersione la funzione qua-dratica centrata sulla media aritme-tica. La chiamiamo varianza.varianza.

2x

1

2 )( X

m

iixi VXVarfmx

Per una variabile quantitativa come misurare la dispersione intorno al centro?

Page 6: LEZIONE A.8 Misurare la variabilità

Calcolo della varianza

xi fi xi fi

x1 f1 x1 f1

x2 f2 x2 f2

x3 f3 x3 f3

x4 f4 x4 f4

x5 f5 x5 f5

1 mX

xi–mx

x1-mx

x2-mx

x3-mx

x4-mx

x5-mx

Per calcolare una varianza useremo le colonne già imposta-te per il calcolo della media, cui aggiungerne tre:

le differenze semplici rispetto alla media (la loro somma ponderata per le frequenze è zero!),

le differenze al quadrato,

le differenze quadratiche ponderate con le frequenze.

Nota: se nella ultima colonna moltiplichere-mo gli scarti quadratici per le numerosità invece che per le frequenze assolute, nes-sun problema: basterà divi-dere il totale per N:

Var(X) =

(xi–m)ni/N

(xi–mx)2 fi

(x1–mx)2 f1

(x2–mx)2 f2

(x3–mx)2 f3

(x4–mx)2 f4

(x5–mx)2 f5

Var(X)

(xi–mx)2

(x1–mx)2

(x2–mx)2

(x3–mx)2

(x4–mx)2

(x5–mx)2

Page 7: LEZIONE A.8 Misurare la variabilità

Dalla varianza alla ‘deviazione standard’

010203040

xxii

nnii

xi ni xi nixi–mx (xi–mx)2 (xi–mx)2 ni

10 35 350 -11,74 137,8276 4823,9660

50 9 450 +28,26 798,6276 7187,6484

100 2 200 +78,26 6124,6276 12249,2552

46 1000 24260,8696

Torniamo ai 46 azionisti e loro azioni.

mX=xi ni/N=

=1000/46=21,74

VX=(xi–mx)2ni/N=24260,8696/46=527,41

m=21,7

La misura ottenuta è confrontabile con quel-la di altre variabili e ha molte belle proprietà (altre ne vedremo) ma è poco comprensibile. Essa (somma di quadrati di scarti) è di ordine quadratico rispetto alle modalità osservate.

La radice quadrata di V(X) si chiama Deviazione Standard o Scarto Quadratico Medio. La indichiamo con X=2

X. Essa misura l’unità standard di dispersione della v.s. intorno alla media.

X=527,41=22,96

m+ =44,7

m+2=67,7

Page 8: LEZIONE A.8 Misurare la variabilità

Come varia la varianza?

0 10

4K

K

assenza di variabilità

0

5

10

15

0 2 4 6 8

2 11611

86420X

X

0

2

4

6

8

10

0 2 4 6 8

Per valutare la capacità di misurare la variabilità di simuliamo quattro possibili distribuzioni di una v.s., tutte con media 4. Nel primo caso le 10 osservazioni sono uguali. In assenza di variabilità tutti gli scostamenti dalla media sono nulli: c’è corrispondenza biunivoca tra =0 e zero-variabilità.

Nel secondo caso invece le osservazioni iniziano ad aprirsi, sia pur limitatamente, intorno alla media: ne risente.

Page 9: LEZIONE A.8 Misurare la variabilità

La varianza cresce se cresce la polarizzazione

8.2 22222

86420Y

Y

0123456789

10

0 2 4 6 8

6.3 40204

86420Z

Z

0123456789

10

0 2 4 6 8

Nel terzo caso (distribuzione uniforme, amodale) il peso delle osservazioni addensate intorno alla media diminuisce notevolmente: cresce.

E cresce ancora quanto più aumenta il peso sulle code della distribuzione.

Dunque la varianza misura la dispersione intorno alla media, e assume valori positivi o nulli, valendo zero in caso di zero-variabilità.

Page 10: LEZIONE A.8 Misurare la variabilità

I due significati della deviazione standard

Sono dunque due i significati utili della deviazione standard:

Come misura sintetica della dispersionemisura sintetica della dispersione di una v.s. intorno alla media, per valutare complessivamente la variabile stessa,

Come unità di misura della dispersioneunità di misura della dispersione intorno alla media, per valutare lo scostamento di una singola osservazione dal polo centrale.

Pazienti anoressiche per età di insorgenza

xi-xi+1 fi(xi+xi+1)/2 xi x fi

(xi–mx)2 fi

9-11 0,077 10 0,770 2,4346

11-14 0,317 12,5 3,963 3,0917

14-19 0,444 16,5 7,326 0,3415

19-25 0,162 22 3,564 6,5879

N=142 15,623 12,4557

mmxx=15,6=15,6

Anche per la varianza come per la media il cal-colo per variabili per classi passa attraverso i va-lori centrali delle classi. VX=12,456 X=3,529

0

4

8

12

16

20

0 5 10 15 20 25 30

m-2=8,6

m-=12,1

m+2=22,6

m+=19,1

nnii

xxii

Page 11: LEZIONE A.8 Misurare la variabilità

Una formula operativa per il calcolo di V(X)

Come si era visto per la media, già l’uso di frazioni nel calcolo richiedeva di Come si era visto per la media, già l’uso di frazioni nel calcolo richiedeva di portarsi dietro un ‘congruo’ numero di decimali. La farraginosità della portarsi dietro un ‘congruo’ numero di decimali. La farraginosità della procedura di calcolo della varianza è accentuata dal passaggio attraverso procedura di calcolo della varianza è accentuata dal passaggio attraverso quadrati di scarti, scarti che non sono necessariamente in cifra tonda. Vale quadrati di scarti, scarti che non sono necessariamente in cifra tonda. Vale però l’equivalenza tra la definizione di V(X) e una sua utile scomposizione:però l’equivalenza tra la definizione di V(X) e una sua utile scomposizione:

22

22

2

11

2 )()()( xX

k

iii

k

iii mmXMXMfxfxXV

c.v.d. 2

122

2)(

2

1

222

1

2

2

1

2

1

2

11

2

1

22

1

2

x

k

iiixx

k

iii

xxx

k

iii

k

iix

k

iiix

k

iii

k

iixixi

k

iixi

mfxmmfx

mmmfxfmfxmfx

fmxmxfmxXV

Dimostrazione

Page 12: LEZIONE A.8 Misurare la variabilità

Media quadratica o momento secondo

m x f mi ii

p

x1 11

m x fi ii

p

2 22

1

Nella formula operativa la varianza è scomposta nella differenza di due misure sintetiche di X, che appartengono ad un'unica famiglia di misure di sintesi, dette momenti di ordine k:

 In particolare:

se k = 1

[momento primo]

se k = 2

[momento secondo]

Dunque la varianza è uguale alla differenza tra il momento la varianza è uguale alla differenza tra il momento secondo e il quadrato del momento primosecondo e il quadrato del momento primo:

V X m x m x( ) ( ) ( ) 2 12

m x fk k ik

ii

p

1

Page 13: LEZIONE A.8 Misurare la variabilità

Equivalenza della formula operativa

xi ni xi nixi

2 xi2 ni

10 35 350 100 3500

50 9 450 2500 22500

100 2 200 10000 20000

niente 46 1000 46000

Verifichiamo l’equivalenza tra formula definitoria e formula operativa della varianza, sui nostri 46 azionisti.

mX=xi ni/N=1000/46=21,739

m2X=xi2

ni/N= 46000/46 = 1000

VX= m2X-(mX)2=1000-(21,74)2=527,41

Attenzione: Attenzione: la varianza è una somma di quadrati: la varianza è una somma di quadrati:

quindi non potrà mai essere negativa!!!quindi non potrà mai essere negativa!!!

La formula operativa produce esattamente lo stesso risultato della formula ufficiale. Essa è però di più semplice applicazione, perché non richiede di calcolare “quadrati di scarti” dalla media: quadrati che possono trascinarsi dietro parecchi decimali e fastidiosi errori di arrotondamento.

Page 14: LEZIONE A.8 Misurare la variabilità

Un esempiofi

0,1146

0,3995

0,3148

0,1119

0,0337

0,0200

0,0055

1,0000

xi

10

30

50

70

90

130

230

xi x fi

1,146

11,985

15,740

7,833

3,033

2,600

1,265

43,602

0

4

8

12

16

20

24

0 20 40 60 80 100 120 140 160 180 200 220 240 260 280 300 320xi

hi

Famiglie lombarde per reddito annuo (in milioni di lire)

mx = 43,6

m2X=2608,24

Vx =2608,24-(43,6)2= 707,28

x = 26,6

mx=43,6

xi2 x fi

11,46

359,55

787,00

548,31

272,97

338,00

290,95

2608,24

m- m+

m+2

Come unità di dispersione, lo sd permette di analizzare i dati a livello micro: sappiamo per es. che i redditi sopra i 97 milioni sono superiori a m+2 e sono quindi nella fascia alta.

Come misura di sintesi invece sd e varianza sono di uso più problematico. Possiamo dare un senso al loro ordine di grandezza solo mettendo a confronto popolazioni differenti (e anche in questo caso con prudenza!!)

Page 15: LEZIONE A.8 Misurare la variabilità

Un secondo esempio ni

MI

4

1

7

10

9

23

11

15

8

6

3

3

3

8

3

114

xi

0,4

1,0

1,4

1,8

2,2

2,6

3,0

3,4

3,8

4,2

4,6

5,0

5,6

7,0

10,0

xiniMI

1,6

1,0

9,8

18,0

19,8

59,8

33,0

51,0

30,4

25,2

13,8

15,0

16,8

56,0

30,0

381,2

niPIC

7

9

55

103

88

123

68

50

30

41

15

11

12

13

3

628

xi

0,4

1,0

1,4

1,8

2,2

2,6

3,0

3,4

3,8

4,2

4,6

5,0

5,6

7,0

10,0

xiniPIC

2,8

9,0

77,0

185,4

193,6

319,8

204,0

170,0

114,0

172,2

69,0

55,0

67,2

91,0

30,0

1760,0

mxM=3,3438

mxP=2,8025

m2XM=14,6063

m2XP=9,4924

VxM=3,425

VxP=1,638

xM=1,85

xP=1,28

In città il reddi-to medio è più alto. Ma è an-che parecchio più alta la di-spersione intor-no alla media

xi2

niMI

0,64

1,00

13,72

32,40

43,56

155,48

99,00

173,40

115,52

105,84

63,48

75,00

94,08

392,00

300,00

1665,12

xi2

niPIC

1,12

9,00

107,80

333,72

425,92

831,48

612,00

578,00

433,20

723,24

317,40

275,00

376,32

637,00

300,00

5961,20

Page 16: LEZIONE A.8 Misurare la variabilità

L’utilità del confronto

0

5

10

15

20

25

30

35

40

45

50

55

0 10 20 30 40 50 60 70 80 90 100 110 120 130 140

0

5

10

15

20

25

30

35

40

45

50

55

0 10 20 30 40 50 60 70 80 90 100 110 120 130 140

Rosso = Milano

Blu = Paesi

Più redditi alti in città

Più poveri in città

In città più ricchi ma anche più poveri in valore assoluto: la

varianza (che a Milano è il doppio di quella dei paesi) conferma quello

che già ci diceva la lettura del grafico

A che soglia un reddito familiare è elevato? Prendiamo come para-metro il valore m+2: esso è pari a 53 milioni e mezzo (5,36) nei piccoli paesi, ed è invece pari a 70milioni (7,04) a Milano: più del 30% superiore.

Nei due contesti dunque le due soglie corrispondono a un’uguale condizione di ricchezza.

P.S.: per comodità avevamo diviso i

redditi per 10: ora torniamo a espri-mere m e nella misura originaria.

E’ lecito?

Page 17: LEZIONE A.8 Misurare la variabilità

Un terzo esempioAlto reddito sd p9/p1

Svezia 0,20 1,53

Olanda 0,22 1,62

Australia 0,24 1,80

Italia 0,27 1,76

Regno Unito 0,28 2,04

USA 0,34 2,31

Giappone 0,35 1,96

Germania 0,37 2,52

Basso reddito sd p9/p1

Sudan 0,42 2,28

Mozambico 0,45 3,19

Bangladesh 0,50 3,34

Thailandia 0,50 3,82

India 0,58 4,51

Camerun 0,71 6,72

Tchad 0,76 5,66

Rep.CentrAfr. 0,78 6,05

L’International Labour Review (2001) ha pubblicato un con-fronto dei differenziali salariali su un ampio ventaglio di occupa-zioni in 80 paesi.

Qui riportiamo solo 16 paesi, 8 ad alto reddito e 8 a basso.

Per questa analisi cross section sono state adottate due misure:

Lo sd dei (logaritmi dei) salari

Il rapporto interdecilico

Le due misure sono concordi nel de-scrivere una regola statistica: i divari nelle remunerazioni occupazionali salgo-no al calare del reddito procapite nazio-nale (ma questa è già analisi bivariata!)

P.S.:Come spieghereste il fatto che Giappone e Camerun infrangono la concordanza?P.S.:Come spieghereste il fatto che Giappone e Camerun infrangono la concordanza?

Page 18: LEZIONE A.8 Misurare la variabilità

La variabilità in caratteri qualitativi

xi ni fi

Sinistra 20 0,113

Centrosin. 45 0,254

Centro 39 0,220

Centrodes 59 0,290

Destra 20 0,113

Schieramento 177 1,000dxcdxcxcsxsx

06

121824303642485460

xi ni fi

Imprenditori 23 0,130

Docenti univers. 32 0,181

Manager 24 0,136

Avvocati 73 0,412

Commercianti 25 0,141

Professione 177 1,000

Con variabili ordinali (es. deputati per schieramento da sinistra a destra) sarebbe impossibile misurare la variabilità attraverso la varianza (le distan-ze tra modalità non hanno infatti valore assoluto). Altrettanto impossibile è applicare la varianza a variabili nominali (come la composizione della Came-ra per professioni).

Eppure in tutti questi casi avevamo trovato un modo per ‘misurare’ la modalità più rappresentativa (la moda) facendo uso delle sole frequenze (e non delle modalità). Possiamo inventarci qualcosa anche per la variabilità?

Page 19: LEZIONE A.8 Misurare la variabilità

Costruire una misura di eterogeneità

775,0 3,04,03,0

)7()6()5(X

X325,2 3,04,03,0

)9()6()3(Y

Y

Confrontiamo le due v.s. Y e X: la varianza della prima è molto maggiore. Ma supponiamo che le modalità siano soltanto le codifiche di risposte di-verse a una domanda di un questionario. In Y i numeri sono più dispersi, ma di fatto c’è lo stesso grado di uniformità o eterogeneità osservato in X: una risposta ha avuto il 40% delle osservazioni, altre due il 30% ciascuno.

Una misura di eterogeneità deve quindi basarsi esclusivamente sulle fre-quenze. Noi la costruiamo a tavolino in modo che soddisfi due condizioni:

000

)()()()(

N

DCBAZ

4/4/4/4/

)()()()(

NNNN

DCBAW

1. L’indice sia 0 e sia 0 in assenza di va-riabilità, quando tutte le N osservazioni corrispondano a una sola modalità

2. L’indice sia massimo quando la popo-lazione si distribuisce equamente tra m modalità con uguale frequenza 1/m.

Page 20: LEZIONE A.8 Misurare la variabilità

L’indice E di Gini

Tra gli indici che soddisfano le due proprietà uno è più semplice degli altri.

m

iii

m

ii fffE

1

2

1

1)1(

In caso di assenza di eterogeneità tutte le frequenze sono nulle, tranne quella della modalità osservata che sarà =1. Quindi E=1-1=0

In caso di massima eterogeneità tutte le m modalità hanno uguale frequenza 1/m, quindi:

Tre annotazioni:

mmmmmE

m

i

1/11/11 2

1

2max

1. Emax è sempre inferiore a 1, e tende a 1 se le modalità sono numerose

2. Se E ha un massimo che varia col numero delle modalità osservate conviene relativizzare E rapportandolo al suo massimo: E*=E/ Emax.

3. E ha un massimo, la varianza no. Ci avete fatto caso?

Page 21: LEZIONE A.8 Misurare la variabilità

Calcolo di E: un esempio

Nel settore dei tubi magici operavano 5 aziende. Tuc possedeva il 50% delle quote di mercato, Puc il 20%, le altre tre (Cuc, Muc, Gnuc) il 10% ciascuno. Ma a un certo punto Gnuc assorbe le altre due piccole e il mercato si semplifica a tre soli operatori. Come cambia E tra prima e dopo?

xiprima fi fi

2

Tuc 0,5 0,25

Puc 0,2 0,04

Cuc 0,1 0,01

Muc 0,1 0,01

Gnuc 0,1 0,01

1 0,32

yipoi fi fi

2

Tuc 0,5 0,25

Puc 0,2 0,04

Gnuc 0,3 0,09

1 0,38

E =1-0,32=0,68

Emax =(5-1)/5=0,80

E*=0,68/0,80=0,85

E =1-0,38=0,62

Emax =(3-1)/3=0,67

E*=0,62/0,67=0,93

Morale: il mercato si è ‘semplificato’ perché vi operano meno attori, e l’ete-rogeneità apparentemente è diminuita (da E=0,68 a E=0,62).

Ma se ‘relativizziamo’ (presto parleremo di ‘normalizzazione’) l’eterogeneità rispetto al numero delle modalità, troviamo che l’eterogeneità effettiva è nettamente cresciuta (da E*=0,85 a E*=0,93). In effetti, ora Tuc avrà più difficoltà a controllare il mercato.

Page 22: LEZIONE A.8 Misurare la variabilità

Tre annotazioni su E di Gini

yi fi fi2

10 0,60 0,36

20 0,20 0,04

50 0,20 0,04

1,00 0,44

Posso calcolare E an-che per v.s. quanti-tative ma ha scarso significato. In questo caso E=0,56 e E*= 0,84, sia che il pac-chetto azionario del 20% di operatori più importanti sia di sole 50 azioni l’uno, sia che sia di 500!

Vi siete accorti che la v.s. quantitativa Y qui accanto e la v.s. no-minale X della pagina prima sono conteggi di-versi degli stessi dati?

In X le quote di mer-cato erano frequenze relative di possesso da parte di diverse aziende.

In Y le quote di mercato sono rapporti statistici assunti come modalità e gli attori sono accorpati secondo la dimensione del ‘pacchetto’.

Nelle analisi economiche di settore, per studiare la concentrazione di un settore si utilizza l’indice di Herfindal-Hirschman, calcolato come somma dei quadrati delle quote di mercato di tutte le di-verse imprese: H= ixi

2

L’indice H è il comple-mento a 1 di E di Gini. E’ minimo se c’è max eterogeneità (polveriz-zazione delle quote di settore) e vale 1 nel ca-so di zero-variabilità, o max concentrazione.


Recommended