Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Corso di Psicometria Progredito2.1 Statistica descrittiva (Richiami)
Prima Parte
Gianmarco AltoèDipartimento di Pedagogia, Psicologia e Filosofia
Università di Cagliari, Anno Accademico 2013 - 2014
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Sommario
1 Distribuzioni di frequenza
2 Indici di tendenza centrale
3 Indici di posizione
4 Indici di variabilità
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
L’importanza della statistica descrittiva!
La statistica descrittiva serve ascattare una prima fotografia aidati raccolti.
E’ utile per controllare,descrivere ed esplorare i dati.
Serve a riassumere i datiattraverso indici statistici,tabelle e grafici.
Non esiste una buona analisistatistica, senza una buonaanalisi descrittiva.
Tukey, 1977. Exploratory Data Analysis
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Il corso preparto
Si supponga di aver chiesto aun gruppo di mamme chepartecipano ad un corsopre-parto il numero di figli giàavuti
I dati raccolti sono presentatinella seguente tabella
Codice mamma Numero di figli1 02 03 14 05 26 07 18 39 010 111 212 213 114 315 216 0
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Alcune domande
Qual è l’unità statistica di riferimento?
Quante sono le unità statistiche rilevate?
Qual è la variabile rilevata?
Quali e quante sono le modalità della variabile rilevata?
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Notazioni fondamentali
Sia X la variabile numero di figli.
Sia Xj la modalità j − esima di X,dove j = 1 . . . 4.
Sia n il totale delle unità statistiche (n = 16).
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Le frequenze assolute semplici
La frequenza assoluta semplice di una modalità è il numeronaturale di unità statistiche che presentano tale modalità
La generica frequenza assoluta semplice associata allamodalità j si indica con il simbolo fj
Ad esempio nel nostro caso, f2 = 4, indica che 4 mammehanno già avuto un figlio
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Le frequenze assolute cumulate
La frequenza assoluta cumulata di una modalità è la sommadelle frequenze assolute semplici delle modalità precedentialla modalità data più la frequenza assoluta semplice dellamodalità data.
La generica frequenza assoluta cumulata associata allamodalità j si indica con il simbolo Fj
Ad esempio, F2 = 10, indica che 10 mamme hanno avuto unnumero di figli uguale o inferiore a 1
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Le frequenze relative semplici
La frequenza relativa semplice è data dal rapporto tra lafrequenza assoluta semplice di tale modalità e il numerototale di unità statistiche osservate.
La generica frequenza relativa semplice associata allamodalità j si indica con il simbolo pj
Ad esempio, p2 = .25, indica che il 25% delle mamme haavuto un figlio
NB. Una frequenza relativa semplice varia sempre tra 0 e 1
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Le frequenze relative cumulate
La frequenza relativa cumulata di una modalità è la sommadelle frequenze relative semplice delle modalità precedentialla modalità data più la frequenza relativa semplice dellamodalità data.
La generica frequenza relativa cumulata associata allamodalità j si indica con il simbolo Pj
Ad esempio, P2 = .625, indica che il 62.5% delle mamme haavuto un numero di figli uguale o inferiore a 1
NB. Una frequenza relativa cumulata varia sempre tra 0 e 1
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Aspetti computazionaliSupponiamo di aver rilevato su n unità statistiche la variabile Xavente k modalità: X1 , X2 . . . , XkPer la generica modalità j , dove j = 1, 2, . . . k avremo:
Frequenza assoluta semplice j
fj = numero di unità statistiche con modalità j
Frequenza assoluta cumulata j
Fj =∑i ≤ j
fi
Frequenza relativa semplice j
pj =fjn
Frequenza relativa cumulata j
Pj =∑i ≤ j
pi
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Aspetti computazionaliDa quanto detto segue che ...
1 La frequenza assoluta cumulata riferita all’ultima modalità èpari al numero totale delle unità statistiche:
Fk = n
2 La frequenza relativa cumulata riferita all’ultima modalità èpari 1:
Pk = 1
ESERCIZIODimostrare queste due semplici proprietà.
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Esempio: Il corso pre parto
Indice j Xj fj Fj pj Pj
1 0 6 6 .375 .3752 1 4 10 .250 .6253 2 4 14 .250 .8754 più di 2 2 16 .125 1
Distribuzione del numero di figli (X) per mamma
ESERCIZIOComprendere, interpretare e descrivere i risultati ottenuti.
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Esercizio: Un Maestro di clarinetto
Un maestro di clarinetto dopoaver ascoltato le performancedei suoi studenti, decide diriassumere le sue valutazioni inmaniera sintetica.
Il prospetto creato dal Maestroè presentato nella seguentetabella
Valutazione Numero di studentiinsufficiente 0sufficiente 8discreto 6buono 4ottimo 2
Individuare le unità statistiche e la variabile misurata.Costruire una tabella riassuntiva contenente le frequenza assolutesemplici e cumulate e le frequenze relative semplici e cumulate.Commentare i risultati.
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Introduzione agli indici di tendenza centrale
Un indice di tendenza centraleè un valore che descrive e riassumeil centro di una distribuzione di dati.
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
La Moda
La moda di una distribuzione di dati rilevati sulla variabile X,è la modalità che si presenta con la massima frequenza.
Ad esempio, rispetto ai dati relativi al “corso preparto”, lamoda è la modalità 0 (nessun figlio) a cui è associata unafrequenza di 6.
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
La Mediana (o “il dato di mezzo”)
La mediana di una distribuzione di dati ordinati rilevati sullavariabile X, è il dato che occupa la posizione centrale rispettoalla distribuzione dei dati.
La mediana si indica con il simbolo Mdn.
Il calcolo della mediana differisce a seconda se i dati sono onon sono raggruppati in classi di frequenza.
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Calcolo della mediana per dati non raggruppati:caso n dispari
Se n (la numerosità dei dati raccolti) è dispari il valorecentrale della serie ordinata dei dati è la mediana.
La posizione i del dato corrispondente alla mediana è datodalla seguente formula:
i =n + 1
2
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Calcolo della mediana per dati non raggruppati:caso n dispari
Esempio Calcolare la mediana dei seguenti dati cherappresentano il voto di 5 studenti all’esame di archeologia:
voto: 18 ; 28 ; 19 ; 18 ; 22
Ordiniamo i dati: 18 ; 18 ; 19 ; 22 ; 28
Calcoliamo la posizione i del dato corrispondente allamediana:
i =n + 1
2=5 + 1
2= 3
Posizione mediana = 3
Mdn = 19
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Calcolo della mediana per dati non raggruppati:caso n pari
Se n è pari non esiste un valore della serie di dati che possaessere definito centrale.
Si potrà unicamente dire che la mediana è compresa tra ivalori aventi le seguenti posizioni “centrali”
iinf =n
2e isup =
n
2+ 1
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Calcolo della mediana per dati non raggruppati:caso n dispari
Esempio Calcolare la mediana dei seguenti dati cherappresentano il voto di 6 studenti all’esame di storia del cinema:
voto: 24 ; 29 ; 30 ; 22 ; 22 ; 26
Ordiniamo i dati: 22 ; 22 ; 24 ; 26 ; 29 ; 30
Calcoliamo le posizioni centrali:
iinf =6
2= 3 isup =
6
2+ 1 = 4
Concluderemo che la mediana (Mdn) dei dati è compresa tra24 e 26.
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Nota sull’uso dell’interpolazione lineare
Nel caso in cui n è pari e i dati a disposizione oltre cheordinali sono anche continui è possibile stimare la medianaattraverso l’interpolazione lineare:
XMdn =Xiinf +Xisup
2
Con i dati dell’esempio sul voto all’esame di storia del cinemaavremo che:
XMdn =24 + 26
2= 25
In conclusione la mediana stimata è 25.
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Calcolo della mediana per dati raggruppati in classedi frequenze
Sei dati sono raggruppati in classi di frequenza ha sensoparlare di classe mediana più che di valore mediano.
Per determinare la classe mediana è necessario calcolare laposizione mediana:
i =n + 1
2
La classe che contiene il dato avente la posizione mediana,sarà denominata classe mediana
Anche in questo caso, se i dati oltre che ordinali sonocontinui, può essere stimato un valore mediano (la formula,che non vedremo, si trova in tutti i manuali di statistica dibase).
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Calcolo della mediana per dati raggruppati in classedi frequenze
EsempioCalcolare la classe mediana dei seguenti dati:
Indice j Xj fj Fj pj Pj
1 0 6 6 .375 .3752 1 4 10 .250 .6253 2 4 14 .250 .8754 più di 2 2 16 .125 1
Distribuzione del numero di figli (X) per mamma
Calcoliamo la posizione mediana: i = 16+12 = 8.5
La mediana ricade quindi tra l’ottavo e il nono dato ordinato.
Sulla base delle frequenze cumulate si può concludere che laclasse mediana è quella con numero di figli pari a 1.
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
La Media aritmetica
La media aritmetica di una distribuzione di dati rilevati sullavariabile X, è il data dalla somma dei dati divisa per il numero diunità statistiche:
X =
∑ni=1Xin
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
La Media aritmetica
EsempioCalcolare la media dei seguenti dati che rappresentano il voto di 5studenti all’esame di archeologia:
voto: 18 ; 28 ; 19 ; 18 ; 22
Svolgimento
X =
∑5i=1Xin
=18 + 28 + 19 + 18 + 22
5= 21
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
La Media aritmetica
EsercizioCalcolare la media dei seguenti dati che rappresentano il voto di 6studenti all’esame di storia del cinema:
voto: 24 ; 29 ; 30 ; 22 ; 22 ; 26
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
La Media aritmetica ponderata per dati in classi difrequenza
Se i dati sono raccolti in classi di frequenza, la mediaaritmetica si calcola associando a ciascun dato la frequenza(“il peso”) con cui si manifesta.
Per questo motivo si usa il termine: media aritmeticaponderata (“pesata”).
Dal punto di vista computazionale avremo:
X =
∑ki=1Xi fi∑ki fi
dove k è il numero di modalità della variabile X
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
La Media aritmetica ponderata
EsempioSulla base dei dati riportati nella seguente tabella calcolare lamedia dei voti ottenuti dai 22 studenti che hanno partecipatoall’ultimo appello di Statistica per l’Ambiente:
Indice i voto Xi frequenze fi1 20 112 24 73 30 4
Svolgimento
X =
∑3i=1Xi fi∑3i=1 fi
=20× 11 + 24× 7 + 30× 4
22= 23.09
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Alcune proprietà della media
Aggiungendo a ciascun dato originale una costante k siotterrà una media pari alla somma della media dei datioriginali e la costante k :
X =
∑(Xi + k)
n= Xdati originali + k
Moltiplicando ciascun dato per una costante k si otterrà unamedia pari alla moltiplicazione tra la media dei dati originali ela costante k:
X =
∑(kXi)
n= kXdati originali
La somma degli scarti tra i dati rilevati e la media è pari a 0:
X =∑(Xi −X) = 0
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Alcune note su moda, mediana e media
Può accadere che data una distribuzione di dati, esista più diuna modalità a cui è associata la massima frequenza. Inquesti casi non esiste un’unica Moda, e si parlerà a secondadel caso di distribuzione bi-modale (con due mode),tri-modale (con tre mode) ....
La mediana è poco influenzata (al contrario della media) davalori estremamente grandi o piccoli presenti nelladistribuzione dei dati. Per questo viene detta stimatore“robusto”
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Note su moda, mediana e media: Un esercizio
Costruire un prospetto riepilogativo contenente moda, mediana emedia della distribuzione del peso (espresso in kilogrammi) perciascuna delle seguenti squadre di calcetto:
Longobarda: {80, 80, 85, 90, 90}
Equality: {85, 85, 85, 85, 85}
I Cardi: {60, 60, 85, 90, 95}
I Bistecconi: {75, 80, 85, 120, 120}
I Classici: {75 ,80 ,85, 90, 95}
Ragionare sui risultati ottenuti.
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Indici di tendenza centrale e scale di misura
Variabile Variabile Variabilenominale Ordinale Quantitativa
Moda SI SI SIMediana NO SI SIMedia NO NO SI
Applicabilità degli indici a seconda della scala di misura
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
I quantili
Data una distribuzione di dati, si definisce come Quantile diindice p e si indica con Qp, il dato al di sotto del quale sisitua una percentuale p di dati.
Ad esempio, la mediana può essere considerata come ilquantile Q50, e cioè il dato al di sotto del quale si situa il50% dei dati.
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Le Diverse tipologie di quantili
Esistono diverse tipologie di quantili.
Rispetto all’utilizzo nelle applicazioni in psicologia, i piùimportanti sono i Quartili e i Percentili.
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
I quartiliI quartili dividono in 4 parti uguali la distribuzione dei dati. Essisono:
Il primo quartile Q25: il dato al di sotto del quale si situa il25% dei dati.
Il secondo quartile (o mediana) Q50: il dato al di sotto delquale si situa il 50% dei dati.
Il terzo quartile Q75: il dato al di sotto del quale si situa il75% dei dati.
I quartili vengono rappresentati all’interno di un grafico moltoutile per descrivere i dati detto diagramma a scatola (boxplot) ...che vedremo tra poco.
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
I percentili
I percentili, spesso indicati con la lettera maiuscola P, dividono incento parti la distribuzione dei dati.Alcuni percentili molto importanti, sia dal punto di vista statisticoche rispetto alle applicazioni in psicologia, sono:
P5
P25
P50
P75
P95
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Le abilità di calcolo
A 6 bambini di 8 anni è stato somministrato un teststandardizzato a livello nazionale sulle abilità di calcolo.Il numero di risposte corrette al test è presentato nella seguentetabella:
Codice Bambino 1 2 3 4 5 6Punteggio 40 50 30 80 23 42
Valutare le prestazioni dei 6 bambini alla luce dei valori normatividel test:
Percentile P5 P25 P50 P75 P95
Punteggio 31 42 51 68 78
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
I Ranghi percentili
Il Rango percentile indica la posizione di un dato all’internodi una distribuzione di dati.
Ad esempio, se ci riferiamo alla distribuzione del peso neimaschi adulti italiani, e sappiamo che il rango percentileassociato al valore 90 kg è pari a 80 ( Rp90 = 80) ...potremo affermare che l’80% dei maschi adulti italiani pesameno di 90 kg.
Naturalmente:
Rp90 = 80 =⇒ P80 = 90
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Introduzione agli indici di variabilità
“Variability is the reason whypeople have had to develop
sophisticated statistical methodsto filter out any messages
from the surrounding noise.”(Wild & Pfannkuch, 1999)
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
A cosa servono gli indici di variabilità
Una distribuzione di dati contiene un insieme di informazionicomplesse e di per se poco maneggevole.
Il ricorso ad un indice di tendenza centrale comporta unaforte semplificazione, e da solo non fornisce informazioniesaurienti sulla distribuzione.
E’ fondamentale capire quanto i dati siano dispersiintorno all’indice di tendenza centrale.
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Tizio, Caio o Sempronio?
Consideriamo i risultati dei compiti di Psicometria ottenuti daglistudenti di tre diversi Professori:
Professor Tizio = {18, 22, 24, 16, 19, 22 , 18, 21}
Professor Caio = {10, 10, 12, 10, 30, 28 , 30, 30}
Professor Sempronio = {20, 20, 20, 20, 20, 20 , 20, 20}
In ciascun gruppo di studenti la media dei voti è pari a 20, ma èevidente una diversa dispersione intorno a tale valore.
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Gli indici di variabilità
Gli indici che vedremo servono a misurare la variabilità (odispersione) di una distribuzione di dati.
Per questo motivo vengono definiti come indici di variabilità(o di dispersione).
Gli indici di variabilità possono assumere solo valori positivi(non ha senso parlare di dispersione negativa) o nulli(quando i dati osservati hanno tutti lo stesso valore).
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
La gamma
La gamma (o campo di variazione) di una distribuzione di dati èla differenza tra il valore massimo e il valore minimo osservato:
gamma = Xmassimo −Xminimo
EsempioCalcolare la gamma dei seguenti dati che rappresentano ipunteggi ad un test di abilità di 8 soggetti:
{90, 20, 50, 50, 50, 10, 40, 80}
Svolgimento
gamma = Xmassimo −Xminimo = 90− 10 = 80
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
La differenza interquartilica
La differenza interquartilica di una distribuzione è la differenzatra il terzo e il primo quartile (o equivalentemente tra il75− esimo e il 25− esimo percentile) dei dati:
Q = Q75 −Q25
La differenza interquartilica è un indice di variabilitàrobusto,risente cioè poco della presenza di valori anomali (outliers)nei dati.
La differenza interquartilica, viene rappresentata all’interno diun grafico molto utile per descrivere i dati detto diagrammaa scatola (boxplot) ... che vedremo tra poco.
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
La varianza
La varianza σ2 di un insieme di dati è la media degli scarti alquadrato tra i dati e la media dei dati stessi:
σ2 =
∑ni (Xi −X)2
n
Nota bene. La varianza assume valore minimo 0 quandotutti i dati sono uguali tra loro e aumenta all’aumentare delladispersione dei dati rispetto alla media:
σ2 ≥ 0
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Il calcolo della varianza: formula ridotta
La varianza può essere calcolata anche attraverso la seguenteformula, che consente un calcolo più agevole e veloce:
σ2 =
∑ni X2i
n−(∑n
i Xin
)2= X2 − (X)2
La varianza può essere quindi vista come:
la media dei quadrati meno il quadrato della media
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Il calcolo della varianza: un esempio
Un ricercatore ha valutato la capacità di memoria di 10 bambiniin età prescolare ottenendo i dati riportati in tabella.La capacità di memoria viene usualmente espressa dal digit span,cioè dal numero di cifre che un soggetto è in grado di ricordare(Keppel, 1992).
Soggetto Digit Span1 82 63 74 75 96 67 78 99 410 7
Calcolare la varianza dei dati.
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Il calcolo della varianza: formula generale
Per prima cosa calcoliamo la media dei dati:
X =
∑10i=1Xin
=8 + 6 + . . .+ 4 + 7
10=70
10= 7
Utilizziamo ora la formula generale per il calcolo dellavarianza:
σ2 =
∑ni (Xi −X)2
n
=(8− 7)2 + (6− 7)2 + . . .+ (4− 7)2 + (7− 7)2
10
=20
10= 2
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Il calcolo della varianza: formula ridotta
Per prima cosa calcoliamo la media dei quadrati:
X2 =82 + 62 + . . .+ 42 + 72
10=510
10= 51
Calcoliamo il quadrato della media:
(X)2 = 72 = 49
Utilizziamo la formula ridotta:
σ2 = X2 − (X)2 = 51− 49 = 2
... i conti tornano :-)
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Il calcolo della varianza: per dati raggruppati inclassi di frequenza
Se i dati sono raggruppati in classi di frequenza, per il calcolodella varianza, si utilizzerà la seguente formula:
σ2 =
∑ni (Xi −X)2fi
n
L’idea è quella di pesare i singolari scarti dalla media per lerelative frequenze associate.
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
La deviazione standard
La deviazione standard (o scarto quadratico medio) è la radicedella varianza:
σ =√σ2
La deviazione standard è molto utile in chiave interpretativaperché, a differenza della varianza, è espressa nella stessa unità dimisura del fenomeno studiato.
EsempioIn campione di 20 soggetti è stata rilevata la variabile peso.In tale campione la media è pari a 70 kg e la deviazione standardè pari a 10.7.
Si potrà affermare che i soggetti differiscono mediamente di10.7 kg dal peso medio di 70 kg.
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Il coefficiente di variazione
Il coefficiente di variazione è dato dal rapporto tra la deviazionestandard e il valore assoluto della media dei dati:
CV =σ∣∣X∣∣
Il CV è un indice di variabiltà relativa che tiene conto, oltreche della deviazione standard dei dati, anche della media.
Per questo motivo è molto utile per eseguire dei confronti intermini di variabilità tra fenomeni “diversi” tra loro.
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Neonati e papà
Nel reparto di ostetricia di un ospedale è stato rilevato il peso diun campione di 80 neonati maschi e contemporaneamente il pesodei rispettivi papà:
gruppo media deviazione standardneonati 3.4 Kg 0.8
papà 82 Kg 15
Esiste più variabilità nel peso dei neonati o in quello dei papà?
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Neonati e papà
Naturalmente confrontare le deviazioni standard non è digrande aiuto. Esse dipendono fortemente dalle media dei datisu cui sono state calcolate.
Per poter operare un confronto sulla variabilità dei due gruppiè opportuno calcolare i rispettivi coefficienti di variazione:
CVneonati =0.8
3.4= .24
CVpapà =15
82= .18
Osservando i risultati si può concludere che il gruppo deibambini presenta una maggiore variabilità rispetto a quellodei papà.
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità
Il consiglio del buon vecchio J. W. Tukey:The five number summary
Per avere una prima idea sulladistribuzione dei dati raccolti,Tukey suggeriva di utilizzare ilriassunto a 5 numeri :
Minimo
25-esimo percentile
Mediana
75-esimo percentile
MassimoTukey, 1977. Exploratory Data Analysis