Date post: | 01-May-2015 |
Category: |
Documents |
Upload: | arabella-salvi |
View: | 218 times |
Download: | 2 times |
1
Sintesi dei dati
La sintesi dei dati comporta una perdita di
informazioni, deve quindi essere privilegiato
l’indice di sintesi che minimizza la perdita e
rappresenta nel modo più corretto l’insieme dei
dati osservati
2
Indice di sintesi
deve essere compresa tra il dato più piccolo ed il dato più elevato della distribuzione
x1 ≤ sintesi ≤ xn
deve identificarsi con i valori più frequenti
sono localizzati al centro della distribuzione
indici di ““tendenza centrale”
3
Indici di sintesi:
medie analitiche: il calcolo richiede operazioni algebriche su tutti i valori del carattere
dati quantitativi
indici di posizione: il calcolo non considera tutti i valori ma solo la loro posizione
tutti i tipi di dati
4
MEDIA ARITMETICA
N
XN
ii
1
Calcolabile per dati quantitativi continui
Esempio sulla media aritmentica
5
Peso di un campione di n=60 casse di legno Peso di un campione di n=60 casse di legno presenti in porto da caricare su nave mercipresenti in porto da caricare su nave merci
19, 29, 15, 20, 20, 17, 25, 15, 26, 25, 17, 21, 22, 25, 26, 17, 19, 21, 22, 24, 23, 19, 20, 21, 26, 26, 24, 19, 20, 24, 24, 25, 26, 25, 19, 19, 25, 19, 26, 19, 20, 20, 25, 26, 24, 24, 20, 20, 26, 26, 20, 24, 20, 24, 24, 26, 24, 24, 26, 24
Somma delle x = 1341Media = 1341/60 = 22.35 Kg
N
XN
ii
1
6
INDICI DI POSIZIONE
forniscono indicazioni sulla tendenza centrale di una distribuzione, senza ricorrere all’elaborazione di tutti i dati
sono utilizzabili:
per i dati qualitativi ordinali
per i dati quantitativi
7
MODA
è quel valore che corrisponde alla massima frequenza del fenomeno
può essere utilizzata: per dati qualitativi per dati quantitativi discreti per dati quantitativi continui ma divisi in classi
non prende in considerazione i dati relativi ad un carattere, ma le frequenze con cui i dati del carattere osservato si presentano (nessuna operazione algebrica)
8
Esempio:
Numero di
viaggi negli
ultimi 5 anni
F
0 1
1 2
2 5
3 3
4 1
5 1
Totale 13
9
MEDIANA
utilizzata quando:
dati qualitativi, oppure quantitativi ordinati in senso crescente o decrescente
Valori anomali
valore che occupa la posizione centrale divide in due parti uguali la distribuzione
il 50% dei dati sono di valore superiore a quello della mediana ed il 50% di valore inferiore
10
Mediana
Calcolo:
Se N è dispariMediana = dato che occupa la posizione (N+1)/2
tale che la metà dei valori è rispettivamente maggiore e minore rispetto al valore della mediana
Se N è pariMediana = dati nella posizione N/2 ed ( N /2 ) + 1*
* nel caso in cui i dati siano quantitativi, la mediana è data dalla media dei due valori centrali della distribuzione
11
Esempio:
Autotrasportatori che alloggiano in albergo
Categoria n°autisti1 Stella 3912 Stelle 18753 Stelle 89224 Stelle 24435 Stelle 218Tot 13849
391
1875
8922
2443
2180
1000
20003000
4000
5000
6000
70008000
9000
10000
1 Stella 2 Stelle 3 Stelle 4 Stelle 5 Stelle
Posto mediano=(13849+1)/2= 6925Mediana=3 stelle
Moda= 3 stelle
12
Quantili
QUANTILI: valori che dividono la distribuzione in parti uguali
Assumono denominazioni diverse a seconda del numero di parti in cui suddividono l’insieme delle unità ordinate per grandezza
QUARTILI: valori per cui una distribuzione, ordinata in senso crescente, risulta
suddivisa in 4 parti ugualiIl primo quartile (Q1) è quel valore che lascia a sinistra il 25% della distribuzione ed il 75% a destraIl secondo quartile (Q2) corrisponde con la mediana e lascia destra ed a sinistra il 50% dei dati;Il terzo quartile (Q3), è quel valore che lascia a destra il 25% della distribuzione ed il 75% a sinistra
CENTILI: In una distribuzione si calcola la distribuzione cumulativa della frequenza relativa per una certa variabile X.
Il valore xi che separa l’1% delle osservazioni è chiamato primo centile, il valore xi che separa il 2% delle osservazioni è il secondo centile e così via. Il 500 centile corrisponde alla mediana della distribuzione
13
Box-Whisker plot
minimo massimo
75° percentile
25° percentile
mediana (50° percentile)
25 50 75 100
mesi
14
Distribuzione Simmetrica
μ = Me = Mo
15
Distribuzione con asimmetria positiva
Mo < Me < μ
16
Distribuzione con asimmetria negativa
μ < Me < Mo
17
Simmetria e Asimmetria
Se la distribuzione è simmetrica μ = Me = MoSe μ = Me = Mo la distribuzione è simmetrica
La condizione dell’uguaglianza delle tre misure è necessaria, ma non sufficiente, a garantire la simmetria di una distribuzione
infatti, data la seguente distribuzione:4, 16, 20, 20, 20, 30, 30
media = 20mediana = 20moda =20
la distribuzione è asimmetrica!!!0
5
10
15
20
25
30