+ All Categories
Home > Documents > STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione.

STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione.

Date post: 01-May-2015
Category:
Upload: nilda-scotti
View: 219 times
Download: 1 times
Share this document with a friend
18
STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione
Transcript
Page 1: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione.

STATISTICA DESCRITTIVA BIVARIATAStudio simultaneo di due caratteri distinti della popolazione

Page 2: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione.

Consideriamo un gruppo di 9 studenti dei quali vengono raccolte informazioni su sesso e regione di provenienza.

Nome Sesso

Regione

P. Neri M Sardegna

G. Lanzarotti F Marche

A. Bianchi M Lombardia

V. Rossi M Lombardia

E. Mariononi F Marche

M. Driu F Sardegna

E. Erba F Sardegna

V. Arrigoni M Lombardia

M. Mauri M Sardegna

Popolazione statistica?

Variabili statistiche?

Sesso Regione

Tabella di distribuzione doppia disaggregata

Page 3: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione.

Una distribuzione doppia può essere:

* Quantitativa se entrambe le variabili sono quantitative

* Qualitativa se entrambe le variabili sono qualitative

* Mista negli altri casi

Page 4: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione.

Regione Sardegna Marche Lombardia

Sesso

M 2 0 3

F 2 2 0

TABELLA DELLA DISTRIBUZIONE CONGIUNTA

Vantaggio: facilità di lettura dati

FREQUENZA CONGIUNTAOgni casella contiene la

delle 2 variabili

Page 5: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione.

Regione Sardegna Marche Lombardia Totale

Sesso

M 2 0 3 5

F 2 2 0 4

Totale 4 2 3 9

Sesso Frequenza

M 5

F 4

Regione Frequenza

Sardegna 4

Marche 2

Lombardia 3

DISTRIBUZIONI MARGINALI

Sommando le frequenze per riga si ottengono le FREQUENZE MARGINALI per la VS sesso

Sommando le frequenze per colonna si ottengono le FREQUENZE MARGINALI per la VS regione

Page 6: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione.

Si dice distribuzione marginale ogni distribuzione di frequenza che si ottiene considerando le frequenze associate a una sola variabile, indipendentemente dall’altra.

Page 7: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione.

Ci si può domandare come si distribuisce la variabile sesso per gli studenti che provengono da una certa regione.

Ad esempio considerando la regione Lombardia

In questo caso si studia la variabile sesso CONDIZIONATA dalla variabile regione

Regione = Lombardia

Sesso Frequenze Relative Percentuali

M 3 1 100%

F 0 0 0%

Totale 3 1 100%

VS Sesso | Regione = Lombardia

Page 8: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione.

Data una distribuzione doppia (X,Y) si ottiene la distribuzione condizionata di Y rispetto a xi

osservando come si distribuisce Y solo per i soggetti della popolazione che hanno per la variabile X il valore fissato xi

In simboli Y|(X = xi )

N.B: Nelle frequenze condizionate si formano tante tabelle quante le modalità della variabile X

Page 9: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione.

Lo scopo dell’analisi di una distribuzione doppia è stabilire un legame tra le due variabili X e Y

E’ stata effettuata un’indagine sulla soddisfazione di 1316 utenti di una compagnia ferroviaria rispetto al tipo di treno su cui hanno viaggiato

Soddisfazione

Tipo di treno

AV IC R Totale

Si 203 118 178 499

No 122 167 528 817

Totale 325 285 706 1316

Page 10: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione.

Calcoliamo le frequenze condizionate della soddisfazione X al tipo di treno Y

Soddisfazione AV

Si 0,62

No 0,38

Soddisfazione

AV IC R Totale

Si 0,62 0,41 0,25 0,38

No 0,38 0,59 0,75 0,62

Totale 1 1 1

La soddisfazione dipende dal treno!

La variabile X dipende da Y

Page 11: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione.

Se la tabella delle frequenza condizionate fosse stata

Soddisfazione

AV IC R Totale

Si 0,38 0,38 0,38 0,38

No 0,62 0,62 0,62 0,62

Totale 1 1 1

La soddisfazione sarebbe stata indipendente dal tipo di treno

Soddisfazione

AV IC R Totale

Si 499 0 0 499

No 0 298 528 817

Totale 499 298 528 1316

La variabile soddisfazione dipende perfettamente dal tipo di treno

Page 12: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione.

Come misurare il grado di dipendenza tra 2 variabili?

Test del 2 Pearson 1900

Come si calcola questo indice?

Page 13: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione.

Frequenza teorica in caso di indipendenza

1) Si calcola la frequenza relativa dei soddisfatti

Soddisfatti dei treni AV

2) Si moltiplica la frequenza relativa per il numero di utenti del treno AV

499/1316

(499/1316 )*325FREQUENZA TEORICA IN CASO DI INDIPENDENZA

Page 14: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione.

Frequenza teorica in caso di indipendenza

1) Si calcola la frequenza relativa degli insoddisfatti

insoddisfatti dei treni AV

2) Si moltiplica la frequenza relativa per il numero di utenti del treno AV

817/1316

(817/1316 )*325FREQUENZA TEORICA IN CASO DI INDIPENDENZA

ECC. ECC.

Page 15: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione.

Calcolo della contingenza

Frequenzamisurata

Frequenza teorica

Contingenze

Quadrato delle contingenze

Si 203 123,23 79,77 6362,73

No 122 201,77 -79,77 6362,73

Contingenza = frequenza misurata – frequenza teorica in caso di indipendenza

Treno AV

Si ripete il calcolo delle contingenze per tutte le tipologie di treno

Page 16: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione.

AV IC R

51,63 0,80 30,06

31,54 0,49 18,36

Si dividono i quadrati delle contingenze per le frequenze teoriche

La somma degli elementi della tabella è l’indice 2

Qual è il suo significato?

Page 17: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione.

Se i 2 caratteri sono indipendenti, la somma delle contingenze è nulla

è uguale a zero

Se i 2 caratteri sono dipendenti, il valore di chi-quadro

aumenta all’aumentare della dipendenza

Page 18: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione.

NORMALIZZATO

C =

N (h-1)

N = numero di unità statistiche considerate

h = minore tra il numero delle righe e delle colonne

0 < C < 1


Recommended