2
Indice
1 Indroduzione: perche la statistica sociale 5
1.1 Perche la statistica serve a tutti . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 La statistica nella vita di tutti i giorni . . . . . . . . . . . . . . . . . . . . . 7
2 Rappresentare i dati e le loro distribuzioni 11
2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Prime definizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 Diversi dati diverse variabili . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4 Dati e tavole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.1 Frequenze assolute, relative e percentuali . . . . . . . . . . . . . . . 18
2.5 Distribuzioni di piu variabili congiuntamente . . . . . . . . . . . . . . . . . 21
2.5.1 Frequenze cumulate . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6 Dati e grafici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6.1 Distribuzioni per le variabili numeriche . . . . . . . . . . . . . . . . 31
2.6.2 L’istogramma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.7 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.7.1 Il geyser Old Faithful . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.7.2 Un caso di attribuzione letteraria . . . . . . . . . . . . . . . . . . . . 41
2.7.3 Il primo bacio non si scorda mai . . . . . . . . . . . . . . . . . . . . 44
2.8 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3 Valori medi 53
3.1 La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.2 La media aritmetica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2.1 Media aritmetica per i dati in classi . . . . . . . . . . . . . . . . . . 58
3.3 La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.3.1 Mediana per i dati in classi . . . . . . . . . . . . . . . . . . . . . . . 64
3.4 Simmetria e asimmetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.5 Quale media scegliere? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
1
2 INDICE
3.6 Quartili, percentili e quantili . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.7 Il box-plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4 La variabilita 73
4.1 Il range e lo scarto interquartile . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.2 Scarto quadratico medio e varianza . . . . . . . . . . . . . . . . . . . . . . . 76
5 Operazioni sui dati 79
5.1 Trasformazioni di scala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.2 Standardizzazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
6 Siamo tutti normali? 87
6.1 La curva e normale! . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.2 La normale standardizzata . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
6.3 Un po’ di formule matematiche e un po’ di storia . . . . . . . . . . . . . . . 98
7 Dal campione alla popolazione 101
7.1 Campionamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
7.2 Dalla popolazione al campione: il caso della media . . . . . . . . . . . . . . 104
8 Intervalli di confidenza 109
8.1 La media campionaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
8.2 Gli ingredienti e la ricetta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
8.3 Sintesi sugli Intervalli di confidenza . . . . . . . . . . . . . . . . . . . . . . . 115
8.3.1 Caso popolazione qualunque, σ noto n grande . . . . . . . . . . . . . 116
8.3.2 Caso popolazione qualunque, σ NON noto n grande . . . . . . . . . 116
8.3.3 Caso popolazione Normale, σ non noto n piccolo . . . . . . . . . . . 116
9 Test statistici 119
9.1 Verifica d’ipotesi: la teoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
9.2 Verifica d’ipotesi: la pratica . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
9.2.1 Test per la media di popolazione normale: σ nota . . . . . . . . . . 122
9.2.2 Test per la media di popolazione normale: σ non nota . . . . . . . . 125
9.3 Confronto tra test z e test t . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
9.4 Il livello di significativia del test: α . . . . . . . . . . . . . . . . . . . . . . . 131
9.5 Il p-value e il suo rapporto con α. . . . . . . . . . . . . . . . . . . . . . . . . 132
9.6 Intervalli di confidenza e test bilaterali . . . . . . . . . . . . . . . . . . . . . 134
9.7 Test con alternativa unilaterale . . . . . . . . . . . . . . . . . . . . . . . . . 135
9.8 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
INDICE 3
10 La proporzione 141
10.1 Il modello . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
10.2 Intervallo di confidenza per la proporzione π . . . . . . . . . . . . . . . . . . 143
10.3 Verifica d’ipotesi per la proporzione . . . . . . . . . . . . . . . . . . . . . . 145
11 Confronto di medie 149
11.1 Differenza delle medie per popolazioni normali . . . . . . . . . . . . . . . . 149
11.2 Differenza per due proporzioni . . . . . . . . . . . . . . . . . . . . . . . . . 153
11.3 Il p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
11.4 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
A Tavole Statistiche 159
B Soluzione di alcuni esercizi 167
C Esercizi ricapitolativi 173
4 INDICE
Capitolo 1
Indroduzione: perche la statisticasociale
1.1 Perche la statistica serve a tutti
Che ci pensiate o meno e che ci crediate o meno la vostra vita e piena degli embrioni dei
concetti che trovano la loro esatta formulazione nella statistica. Qualche esempio? Pensate
a quando la mattina prima di uscire di casa decidete se prendere o meno l’ombrello. Se
avrete successo o meno ad un incontro che vi interessa particolarmente. O al voto che
prevedete di prendere in questo esame. Quello che state facendo e elaborare un concetto
statistico sulla base dei dati che avete immagazzinato con la vostra esperienza.
La statistica non e altro che quella disciplina che si occupa di capire e che utilizza i
dati. I dati possono essere di qualunque tipo o natura. Qualche esempio? La serie storica
delle precipitazioni in una qualunque citta, la rilevazione del quoziente di intelligenza, il
numero di volte che uno scrittore usa un certo tipo di parole non contestuali ogni mille
parole (tipo: da, allora, quindi, . . . ), il numero di giorni che una persona passa in vacanza
in un anno.
Nel nostro corso ci occuperemo di due tipi di statistica. Il primo tipo e la statistica
descrittiva che consiste nei metodi per descrivere e sintetizzare le caratteristiche salienti
di un certo insieme di dati. Le caratteristiche salienti di un insieme di dati sono in genere
la loro distribuzione, il loro valore medio e la loro variabilita.
I metodi utilizzati per descrivere i dati che abbiamo a disposizione e per prepararli per
essere analizzati sono principalmente i grafici e le distribuzioni di frequenza, che vedremo
nel Capitolo 2, e poi metodi numerici (occorrera fare qualche calcolo) per dare informazioni
sulla media, che vedremo nel Capitolo 3, e sulla variabilita, introdotta nel Capitolo 4.
Osservazione importante: la variabilita e la caratteristica fondamentale della statistica.
Se non ci fosse variabilita non ci sarebbe la statistica e vivremmo in un mondo banale
tutto uguale ad una media!
5
6 CAPITOLO 1. INDRODUZIONE: PERCHE LA STATISTICA SOCIALE
Il secondo tipo di statistica e quella inferenziale, che si occupa di utilizzare quel poco di
cui siamo a conoscenza (e che abbiamo descritto con i metodi della statistica descrittiva)
per estenderlo, facendo una stima o delle previsioni, a tutto quello che non possiamo
conoscere.
Per questo tipo di statistica un ruolo importante riveste la teoria della probabilita. La
teoria della probabilita e infatti in grado di fornire un modello matematico per l’incertezza
dei possibili risultati di un fenomeno. In questo senso la probabilita puo essere vista
come una misura dell’incertezza. Possiamo dire che la statistica e capace di quantificare
l’incertezza, tramite la probabilita. Essa mette gli statistici in grado di fare affermazioni
categoriche, cioe in completa sicurezza, circa il loro grado di incertezza!
Ad esempio, l’istat conduce ogni anno le indagini sul benessere delle famiglie italiane.
Si registrano in ogni provincia il numero di famiglie monogenitoriali su un certo numero di
capifamiglia intervistati. La percentuale di famiglie monogenitoriali in una certa provin-
cia rilevata tra gli intervistati, puo essere usata come stima per la percentuale di famiglie
monogenitoriali in quella provincia, e sulla base di questa stima il governo locale puo pre-
vedere una serie di servizi legati al welfare. Con la teoria della probabilita potremo avere
un modello di questa percentuale e saremo in grado di dire ad esempio: la percentuale di
famiglie monogenitoriali in Italia non e uguale in tutte le province. La teoria della proba-
bilita ci permette di dire con certezza che questa affermazione potrebbe essere sbagliata
nel 5% dei casi. Cioe si fa un’affermazione certa sul grado di incertezza!
Naturalmente non saremo mai in grado di dire quante sono le famiglie monogenitoriali
in una certa provincia in un certo istante, ma saremo in grado di prevedere in maniera
verosimile la proporzione di tali famiglie.
La statistica e importante nella vita di tutti i giorni perche senza la vita reale non ci
sarebbe bisogno della statistica! Come si diceva sopra, se tutti la pensassero e agissero allo
stesso modo e se tutto fosse sempre uguale a se stesso, non avremmo bisogno di prevedere
nulla! E sarebbe un mondo senza statistica ma molto noioso!
Nella vita reale ogni cosa e diversa e ogni individuo pensa e agisce in modo diverso.
Nelle scienze sociali la statistica e utilizzata per spiegare le differenze tra gruppi di persone
o luoghi. Ad esempio possiamo essere interessati a come varia il numero di famiglie
monogenitoriali rispetto alle condizioni economiche e sociali di un gruppo di famiglie,
oppure rispetto alla posizione geografica.
Come potete rendervi conto se aprite un giornale o un sito web, la statistica viene uti-
lizzata pressoche ovunque, con grafici, opinioni basate su dati e previsioni su andamenti di
vari fenomeni. Spesso queste informazioni possono influenzare anche la vita delle persone
in modo rilevante. Questo corso cerchera di mostrarvi come utilizzare varie tecniche della
statistica, e anche se non le utilizzerete mai piu nella vita, come il detto, impara l’arte e
mettila da parte, sarete almeno in grado di capire come vengono fatte certe analisi e come
1.2. LA STATISTICA NELLA VITA DI TUTTI I GIORNI 7
Figura 1.1: Il grafico trasmesso da Fox News
vengono proposte certe previsioni e non vi farete ingannare da chi a volte usa i dati in
modo non appropriato per ingannare o attirare favori!
1.2 La statistica nella vita di tutti i giorni
Questo e un esercizio utile. Prendiamo un giornale qualunque e andiamo a vedere quanti
grafici vengono riportati e in che contesto. Cerchiamo di capire se ci sono descrizioni dei
dati o previsioni. Ci renderemo conto durante il corso come cambiera la nostra sensibilita
di fronte alle notizie che riportano questo tipo di informazioni. Come compito durante il
corso dovrete sempre prendere un giornale e analizzare questo tipo di informazioni.
Se lo farete sarete in grado una volta che lavorerete in una redazione di fermare la messa
in onda di un grafico di questo tipo. Nella Figura 1.1 appare il grafico a torta presentato
durante la trasmissione televisiva Fox News molto seguita negli Stati Uniti d’America.
A un certo numero di persone era stato chiesto quali candidati vedevano favorevolmente
per contrastare Obama. Casa c’e di sbagliato? Cosa puo avere indotto questo errore?
Proveremo a rispondere nella Sezione 2.6.
8 CAPITOLO 1. INDRODUZIONE: PERCHE LA STATISTICA SOCIALE
Come dicevamo nella sezione precedente l’Istat conduce ogni anno l’indagine campio-
naria ”Aspetti della vita quotidiana”, che fa parte di un sistema integrato di indagini
sociali (le Indagini Multiscopo sulle famiglie) che ha come scopo quello di rilevare le in-
formazioni fondamentali relative alla vita quotidiana degli individui e delle famiglie. A
partire dal 1993, l’indagine viene svolta ogni anno e le informazioni raccolte consentono
di conoscere le abitudini dei cittadini e i problemi che essi affrontano ogni giorno. Aree
tematiche variegate si susseguono nei questionari, permettendo di capire come vivono gli
individui e se sono soddisfatti del funzionamento di quei servizi di pubblica utilita che de-
vono contribuire al miglioramento della qualita della vita. Scuola, lavoro, vita familiare e
di relazione, abitazione e zona in cui si vive, tempo libero, partecipazione politica e sociale,
salute, stili di vita e rapporto con i servizi sono indagati in un’ottica in cui oggettivita dei
comportamenti e soggettivita delle aspettative, delle motivazioni, dei giudizi contribuisco-
no a definire l’informazione sociale. L’indagine rientra tra quelle comprese nel Programma
statistico nazionale, che raccoglie l’insieme delle rilevazioni statistiche necessarie al Pae-
se. (http://www.istat.it/it/archivio/91926). Si tratta di un indagine campionaria,
cioe viene intervistato un campione (la definizione viene data piu avanti, Definizione 2.2.2
della popolazione (Definizione 2.2.1) costituita da tutte le famiglie italiane. L’indagine e
eseguita su un campione di circa 24mila famiglie (per un totale di circa 54mila individui)
distribuite in circa 850 Comuni italiani di diversa ampiezza demografica. Ogni famiglia
che rientra nel campione viene estratta con un criterio di scelta casuale dalle liste anagra-
fiche comunali, secondo una strategia di campionamento volta a costituire un campione
statisticamente rappresentativo della popolazione residente in Italia. L’indagine si svolge
nel primo trimestre di ogni anno. Un rilevatore comunale si reca presso le abitazioni delle
famiglie munito di cartellino identificativo per rivolgere alcune domande ai componenti
del nucleo familiare. Le informazioni vengono raccolte tramite due questionari: uno che
rappresenta il questionario base della rilevazione, contiene i quesiti familiari e una scheda
individuale per ogni componente della famiglia e un questionario che deve essere compilato
da ogni componente in modo autonomo (autocompilazione). I principali risultati dell’in-
dagine vengono resi disponibili sul sito dell’Istat attraverso sia il Datawarehouse I.stat sia
le statistiche report pubblicate nei settori con argomento: Opinioni dei cittadini, Salute e
sanita, Cultura, comunicazione, tempo libero, Partecipazione sociale. Ogni anno, inoltre, i
dati raccolti vengono analizzati e pubblicati anche su volumi a carattere generale (Rappor-
to annuale, Annuario statistico italiano, Noi Italia, Italia in cifre) e, occasionalmente, nelle
collane di approfondimento o analisi del medesimo Istituto (Collana argomenti, Metodi
e norme). Inoltre, i dati elementari rilevati nel corso dell’indagine sono resi disponibili,
gratuitamente, per gli utenti e i ricercatori che ne facciano richiesta motivata per fini di
ricerca scientifica attraverso i file standard. I dati comunicati, in ogni caso, sono privi degli
elementi identificativi del soggetto al quale si riferiscono, nonche di ogni altro elemento
1.2. LA STATISTICA NELLA VITA DI TUTTI I GIORNI 9
che consenta, anche indirettamente, il collegamento con le famiglie o gli individui intervi-
stati. In questo corso utilizzeremo questi dati (eventualmente opportunamente modificati
a scopo didattico) per gli esempi e gli esercizi.
10 CAPITOLO 1. INDRODUZIONE: PERCHE LA STATISTICA SOCIALE
Capitolo 2
Rappresentare i dati e le lorodistribuzioni
In questo capitolo dopo aver dato alcune definizioni importanti e fondamentali per comin-
ciare a studiare e a capire la statistica, presenteremo i diversi tipi di dati con cui possiamo
avere a che fare in indagini statistiche, e quindi mostreremo come questi dati possano
essere rappresentati sia in forma di tabelle che in forma di grafici e disegni.
2.1 Introduzione
Cercheremo di capire il significato della parola distribuzione che e un concetto fondamen-
tale di tutta la statistica. Prima di cominciare ad analizzare i dati occorre introdurre
qualche termine specifico della statistica per capirci e capire di cosa stiamo parlando.
Ogni qualvolta si vuole studiare un fenomeno in cui e presente una certa variabilita della
risposta in presenza delle stesse condizioni entra in gioco la statistica. Proviamo a cercare
qualche esempio nella vita di tutti i giorni. Le famiglie della provincia di Bergamo aventi
un certo reddito e composte da un certo numero di componenti scelgono luoghi diversi e
tempi diversi per le loro vacanze. Se vogliamo studiare il fenomeno riguardante le vacanze
delle famiglie della provincia di Bergamo (fenomeno di interesse per gli enti pubblici, e
o privati e che interessa diversi tipi di studiosi, di sociologia o di economia ad esempio)
entra in gioco la statistica.
I tecnici incaricati di uno studio sulla fattibilita di un impianto in grado di trasformare
in energia elettrica l’energia scaturita durante le eruzioni di vapore acqueo di un geyser
registrano per ogni eruzione il tempo di pausa tra un’eruzione e la successiva e il tipo di
eruzione. Anche in questo caso per decidere sulla fattibilia (dal punto di vista economico,
di impatto ambientale e di gestione delle risorse) entra in gioco la statistica.
I metodi statistici si occupano principalmente
1. di raccogliere i dati;
11
12 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
2. della presentazione dei dati;
3. dell’analisi dei dati.
Sulla base delle informazioni fornite dai dati ed elaborate dagli statistici stara ai tecnici e
agli studiosi delle diverse discipline prendere decisioni sul fenomeno oggetto di studio, sia
esso un’indagine sulle famiglie monogenitoriali, sulle vacanze degli italiani o sulla fattibilia
di un impianto industriale, piuttosto che risolvere problemi concernenti il disegno e la
progettazione di prodotti e processi industriali. Sulla base delle stesse informazioni si puo
considerare anche l’impiego dei dati a fini previsivi e conoscitivi di un fenomeno.
In ultima analisi si puo dire che il primo scopo della statistica e la la comprensione
delle cause della variabilita. Per parafrasare e ricordare questo scopo citiamo la Legge di
Murphy (si veda [1]): “Anche sotto le condizioni piu rigorosamente controllate un sistema
si comporta come gli pare e piace”; e la sua trasposizione sul territorio coniata dal Prof.
Roberto Colombi come Legge bergamasca: “Non tutte le ciambelle riescono col buco!”
2.2 Prime definizioni
Supponiamo di aver fatto un indagine sulle abitudini e gli stili di vita delle donne nella fa-
scia di eta 40-50 anni. Il fenomeno studiato in questo caso e di tipo sociale. Si intervistano
20 donne e le loro risposte sono elencate nella Tavola 2.1.
Le 20 persone intervistate costituiscono un campione della popolazione di tutte le
famiglie. La popolazione in statistica non necessariamente sara riferita a persone. Si
tratta in generale di un concetto astratto che non puo essere osservato nella sua interezza
e completezza e per questo motivo se ne sceglie un campione. Ad esempio nell’esempio
sulla fattibilia dell’impianto per la generazione dell’energia dalle eruzioni del geyser, la
popolazione e costituita da tutte le possibili eruzioni passate, presenti e future del geyser.
Tornniamo ora all’ultimo esempio, per introdurre l’oggetto principale della statistica. I
quattro argomenti di cui viene richiesto il valore (tipo di dieta, giudizio sull’ultimo film
visto, numero di convivenze, spesa per massaggi nell’ultimo mese) sono chiamate variabili.
Ogni rispondente e detto unita statistica o caso. Le risposte che ogni unita statistica da,
ovvero i valori delle variabili osservati sulle unita statistiche, sono dette osservazioni. In
ogni insieme di dati (chiamato dataset) i casi o le unita statistiche sono gli individui o le
unita del campione. Le variabili sono invece le caratteristiche che assumono valori diversi
su ogni unita del campione o individuo. Poiche repetita iuvant vediamo di fissare questi
primi concetti.
Definizione 2.2.1. La popolazione e l’intera collezione di individui, oggetti, eventi,
astratta o concreta, sulla quale si ricercano informazioni.
2.2. PRIME DEFINIZIONI 13
u X Y Z W
unita tipo di giudizio su numero di spesa perstat. dieta ultimo film convivenze massaggi ¤
1 N L 0 72.502 S O 1 54.283 V A 3 50.024 V O 4 88.885 C L 1 62.306 N S 1 45.217 C S 0 57.508 C O 2 78.409 V L 3 75.13
10 N O 0 58.0011 N S 1 53.7012 N A 0 91.2913 S S 1 74.7014 C S 4 41.2215 N S 3 65.2016 C L 0 63.5817 V O 2 48.2718 S O 2 52.5219 C S 4 69.5020 C S 4 85.98
Tabella 2.1: Tipo di dieta X, giudizio sull’ultimo film visto Y , numero di convivenze Z,spesa per massaggi nell’ultimo mese W , di un campione di 20 donne intervistate per capirele abitudine e gli stili di vita delle donne.
14 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
Non e possibile osservare interamente la popolazione, per cui si ricorre ad un sottoin-
sieme di essa.
Definizione 2.2.2. Un sottoinsieme della popolazione e detto campione. Sono gli ele-
menti della popolazione che si osservano realmente.
Vale la pena osservare che un campione non garantisce di riflettere sempre le caratte-
ristiche della popolazione. A volte puo essere sostanzialmente diverso dalla popolazione
da cui viene estratto. Due campioni della stessa popolazione sono diversi uno dall’altro a
volte anche enormemente diversi.
Definizione 2.2.3. Unita statistica o caso e ogni elemento del campione.
Definizione 2.2.4. Variabile e ogni caratteristica di interesse che viene rilevata sugli
elementi del campione.
Definizione 2.2.5. Dataset e l’insieme di tutti i valori di ogni variabile che e rilevata
sugli elementi del campione.
2.3 Diversi dati diverse variabili
Le variabili possono essere di diverso tipo a seconda delle modalita con cui si manifestano
i diversi valori che assumono. I valori che assumono sulle unita del campione sono i nostri
dati. Le due grandi categorie sono le variabili quantitative (o numeriche) e le qualitative
(o categoriche). Tra le quantitative distinguiamo le variabili numeriche discrete (risultato
di un conteggio) e le continue (risultato in genere di una misura di qualunque tipo). Tra
le qualitative distinguiamo tra quelli ordinali (dove e possibile stabilire un ordine tra le
categorie) e nominali (dove questo ordine non e possibile). Il modo migliore per riconoscere
il tipo di variabile e pensare alle operazioni che si possono fare su di loro. La prima
domanda e sicuramente: sono numeri oppure no? Se sono numeri si tratta di variabili
quantitative altrimenti qualitative. Prestare attenzione che a volte nei risultati di un
indagine le qualita possono essere codificate con un codice numerico! Questo non significa
che ad esempio, se il sesso viene codificato con 1 (femmina) e 2 (maschio), il sesso sia una
variabile numerica! Se sono numeri la seconda domanda e: sono il risultato di un conteggio
o di una misurazione (con cronometro, bilancia, o qualsiasi altro strumento) espressa in
una certa unita di misura? Nel primo caso si tratta di variabili numeriche discrete nel
secondo caso di variabili continue. Tutte le variabili inerenti il denaro (reddito, prezzo
di un’azione ad esempio) sono in genere considerate come variabili continue (si misurano
nella unita di valuta corrente, ad esempio ¤). Se non si tratta di numeri la domanda e:
posso ordinare le categorie? Se la risposta e affermativa si tratta di variabili qualitative
ordinabili, altrimenti si tratta di una variabile nominale. Si noti che tutte le variabili
2.3. DIVERSI DATI DIVERSE VARIABILI 15
qualitative presentano al piu un numero finito di modalita, quindi anche loro a volte sono
chiamate discrete. Il seguente schema riassume quanto appena descritto per i diversi tipi
di dati o variabili con anche alcuni esempi.
• Numerici o quantitativi
– Risultato di una misura: continui (distanza, reddito, durata, peso)
– Risultato di un conteggio: discreti (numero di figli, numero di esami, numero
di giorni)
• Categorici o qualitativi (nominali o ordinali)
– Ordinali (titolo di studio, scala Mercalli per l’intensita di un terremoto)
– Nominali (genere, religione, trattamento)
Vediamo alcuni esempi.
Esempio 2.3.1. Su un campione di n = 20 donne sono state rilevate le seguenti variabili:
Tipo di dieta X, giudizio sull’ultimo film visto Y , numero di convivenze Z, spesa per
massaggi nell’ultimo mese W . Vediamo di che variabili si tratta.
• La variabile tipo di dieta presenta le seguenti modalita:
X =
N = Non importa mangia di tutto
C = Carne sempre
V = Vegana o vegetariana
S = Solo salumi
Si tratta di una variabile qualitativa nominale.
• La variabile giudizio dato all’ultimo film visto (Y ), presenta le seguenti modalia:
Y =
x1 = A = abominevole
x2 = O = osservabile
x3 = S = super
x4 = L = da 30 e lode
Si tratta di una variabile qualitativa ordinale (e possibile dire sempre quale modalita
viene prima di un’altra).
• La variabile numero di convivenze (Z) e una variabile numerica discreta.
• La variabile spesa per massaggi (W ) e una variabile numerica continua (misurata in
¤).
16 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
I risultati dell’indagine sono riportati nella Tabella 2.1, che rappresenta il nostro dataset.
Esempio 2.3.2. La Tabella 2.2 rappresenta i valori della scala Mercalli per misurare
l’intensita di un terremoto in base agli effetti prodotti. In questo caso non si tratta di un
dataset. Provate pero a descrivere un possibile campione e a capire chi e la popolazione.
Esempio 2.3.3. La Tabella 2.3 registra la durata (in minuti) del periodo dormiente
delle eruzioni e tipo dell’eruzione precedente del geyser Old Faithful (Wyoming, USA).
In questo caso la popolazione sono tutte le possibili eruzioni del geyser. Il campione e
costituito dalle n = 60 eruzioni analizzate. Per ciascuna eruzione viene registrato sia il
tempo di attesa (in minuti) prima di osservare l’eruzione, sia il tipo di pausa dell’eruzione
precedente (classificata semplicemente in Corta o Lunga). Si noti che le eruzioni non sono
prese sequenzialmente, ma scelte a caso tra tutte quelle a disposizione e per ognuna di esse
interessano le due variabili descritte. Le variabili considerate quindi sono due. La prima
nella tabella e indicata con Attesa. Si tratta di una variabile continua (durata dell’attesa,
viene misurata in minuti con un cronometro). La seconda e il Tipo di eruzione precedente
a quella considerata. Si tratta di una variabile qualitativa ordinale. Le eruzioni precedenti
sono classificate secondo questa variabile in due categorie (le modalita della variabile):
Corta o Lunga. E una variabile ordinale poiche si puo sempre dire che Corta viene prima
di Lunga. Obiettivo dello studio era capire se periodi di attesa lunghi per l’eruzione
tendessero a raggrupparsi.
Esercizio 2.3.4. Raccogliere da giornali e riviste esempi di indagini statistiche ed identi-
ficare il fenomeno, la popolazione, il campione, le unita statistiche, le variabili analizzate.
2.4 Dati e tavole
Quando si hanno i dati relativi ad una o piu variabili rilevate su un campione di n unita
statistiche la prima volonta dello statistico e quella di rappresentare i dati. Rappresentare
i dati significa in realta dare un immagine di come si distribuiscono questi dati, cioe dare
un’immagine della distribuzione dei dati. Le tavole di dati sono il primo esempio della
rappresentazione della distribuzione dei dati.
Da qui inseguito per indicare la generica variabile useremo la lettera maiuscola, as
esempio X o Y , mentre per indicare le modalita assunte dalle variabili useremo le lettere
minuscole, as esempio x o y. I valori delle modalita a seconda del tipo di variabili, potranno
essere: categorie (nel caso di variabili categoriche o qualitative), numeri interi (nel caso di
variabili numeriche discrete) oppure numeri reali (nel caso di variabili numeriche continue).
A questo punto e necessaria una precisazione. Esiste una distribuzione della variabile
che stiamo studiando sulla popolazione che non potremo mai sapere come e fatta. Prove-
remo a immaginarla e a fare qualche ipotesi su di essa. (Ricordiamoci che solo Dio, per
2.4. DATI E TAVOLE 17
Grado Denominazione Effetti
1 Strumentale E percepita solo dai sismografi.
2 Leggerissima E avvertita solo dalle persone ipersensibili inmomenti di quiete e ai piani piu elevati.
3 Leggera
Viene avvertita da un numero maggiore di per-sone, le quali non si allarmano perche gene-ralmente non si rendono conto che si trattaeffettivamente di scosse telluriche.
4 Mediocre
Le persone che sono in casa l’avvertono e qual-cuna anche tra quelle che si trovano all’aperto.I lampadari oscillano, i pavimenti possono daredegli scricchiolii.
5 Forte
Sentita tanto dalle persone che si trovano in casaquanto da quelle fuori casa. Gli oggetti sospe-si oscillano ampiamente, gli orologi a pendolo sifermano, si hanno tremiti dei vetri e delle sto-viglie. Si ha risveglio brusco dal sonno e puogenerare panico senza danni alle persone.
6 Molto forte
Gli oggetti cadono e cosı i calcinacci dei mu-ri in cui si possono formare lievi lesioni. Lapopolazione, presa dal panico, abbandona lecase.
7 FortissimaPossono cadere comignoli e tegole, mentre i muripresentano lesioni non molto gravi. Suono dicampane.
8 RovinosaLesioni gravi ai fabbricati, crollo di qual-che muro interno. Qualche ferito, raramentevittime.
9 DisastrosaAlcuni crolli di case, altri edifici gravementelesionati. Molti i feriti, non numerose le vittime.
10 DistruttriceCrolli di molti fabbricati. Parecchie le vittime,moltissimi i feriti.
11 Catastrofe Numerose vittime. Quasi tutti gli edifici crollati.
12 Grande catastrofeFormazione di crepacci e frane. Distruzione diqualsiasi opera umana.
Tabella 2.2: Descrizione delle diverse modalita della scala Mercalli che misura l’intensitadi un terremoto in base agli effetti sulla popolazione.
18 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
Attesa Tipo Attesa Tipo Attesa Tipo Attesa Tipo
76 Lunga 90 Lunga 45 Corta 84 Lunga80 Lunga 42 Corta 88 Lunga 70 Lunga84 Lunga 91 Lunga 51 Corta 79 Lunga50 Corta 51 Corta 80 Lunga 60 Lunga93 Lunga 79 Lunga 49 Corta 86 Lunga55 Corta 53 Corta 82 Lunga 71 Lunga76 Lunga 82 Lunga 75 Lunga 67 Corta58 Corta 51 Corta 73 Lunga 81 Lunga74 Lunga 76 Lunga 67 Lunga 76 Lunga75 Lunga 82 Lunga 68 Lunga 83 Lunga80 Lunga 84 Lunga 86 Lunga 76 Lunga56 Corta 53 Corta 72 Lunga 55 Corta80 Lunga 86 Lunga 75 Lunga 73 Lunga69 Lunga 51 Corta 75 Lunga 56 Corta57 Lunga 85 Lunga 66 Corta 83 Lunga
Tabella 2.3: Durata del periodo dormiente (Attesa) e tipo di eruzione precedente (Tipo)di un campione di 60 eruzioni del geyser Old Faithful (Wyoming, USA).
chi crede, conosce questa distribuzione). Noi mortali statistici possiamo solo ricavare la
distribuzione della variabile su un campione e descrivere questa distribuzione (statistica
descrittiva). Dopo questa descrizione, potremo mettere un modello sulla variabile e sulla
base dei dati ricavati sul campione potremo dire se il modello proposto e corretto oppure
no (statistica inferenziale).
Quindi veniamo alle tavole. Torniamo all’Esempio 2.3.1. Concorderete sul fatto che
mostrare la Tavola 2.1 dell’intero dataset non da molte informazioni al lettore. Questo
fatto e ancora piu evidente se guardiamo la Tavola 2.3 dei dati dell’Esempio 2.3.3.
Lo scopo delle tavole e quello di rappresentare un insieme di dati. Il tipo di tavole
e le informazioni contenute in essa naturalmente dipendono dal tipo di dati e di quante
variabili andiamo a descrivere la distribuzione.
Anche se si puo pensare che fare una tavola sia un operazione assai semplice, come
ci si puo rendere conto leggendo un giornale, non sempre sono di facile comprensione.
Dobbiamo tenere presente quando andiamo a fare una tavola che lo scopo principale di
una tavola e trasformare un insieme di dati in un formato che sia facile da capire e che
faccia capire le caratteristiche salienti della distribuzione che andiamo a rappresentare.
2.4.1 Frequenze assolute, relative e percentuali
Le frequenze assolute, relative e percentuali sono le prime quantita statistiche che in-
contriamo in questo corso e che sintetizzano le informazioni contenute in un data set.
2.4. DATI E TAVOLE 19
X ni fi = ni/n pi = fi · 100%
N 6 0.30 30C 7 0.35 35V 4 0.20 20S 3 0.15 15
Totale n = 20 1.00 100
Tabella 2.4: Tavola delle frequenze assolute (ni), relative (fi) e percentuali (pi) per lavariabile X tipo di dieta nel campione dell’esempio. X assume i seguenti valori: N=nonimporta mangia di tutto, C=carne sempre, V=vegana o vegetariana, S=solo salumi
Ricordiamo che in un data set possono essere riportate per ogni singola unita statistica
i valori di piu variabili. Per ciascuna di queste variabili prese singolarmente possiamo
calcolare la distribuzione di frequenza di interesse (assoluta, relativa o percentuale). Per
due o piu variabili prese contemporaneamente potremo invece calcolare le distribuzioni di
frequenza congiunte (assolute o relative) o le frequenze condizionate.
Torniamo per adesso al caso di una variabile. Le frequenze assolute, le frequenze
relative e le frequenze percentuali rispondono a domande del tipo: quante unita statistiche
presentano la modalita x per la variabile X? Esse si possono calcolare per ogni tipo di
variabile. In particolare per le variabili di tipo qualitativo nominali sono le prime e a volte
uniche quantita statistiche che possiamo calcolare.
Come dicevamo sopra il tipo di tavola e le informazioni che puo contenere dipendono
dal tipo di variabile i cui dati osservati andiamo a rappresentare. Cominciamo con i dati
dell’Esempio 2.3.1.
Consideriamo la variabile X=Tipo di dieta. Come abbiamo visto si tratta di una va-
riabile qualitativa non ordinale. Supponiamo di essere interessati a quante donne seguono
una dieta vegana o vegetariana, e alla loro percentuale. Possiamo rispondere a queste
domande calcolando le frequenze assolute, relative e percentuali della distribuzione della
variabile Tipo di dieta.
La Tabella 2.4 le riporta tutte e tre. Si tratta delle frequenze assolute, delle frequenze
relative e delle frequenze percentuali.
Come si calcolano? Le frequenze assolute si calcolano semplicemente contando
quante volte si presenta una certa modalita. Nel campione considerato ad esempio sono
presenti 6 donne che mangiano di tutto, 7 che mangiano carne sempre e cosı via. Le
frequenze assolute si indicano in genere con ni dove la i in basso e un indice che sta ad
indicare la generica modalita ovvero la i-esima modalita. Nel nostro esempio n1 (quindi
per i = 1) sta ad indicare la frequenza assoluta delle donne che mangiano di tutto, n2
sta ad indicare il numero delle donne che mangiano solo carne, n3 il numero delle donne
vegane o vegetariane ed n4 il numero di coloro che mangiano solo salumi. Abbiamo cosı
20 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
le quattro frequenze assolute n1, n2, n3 ed n4 che si possono anche scrivere ni con i da 1
a 4 ovvero ni, i = 1, . . . , 4. Naturalmente la somma delle frequenze assolute deve essere
uguale al numero delle osservazioni, nell’esempio abbiamo: 6 + 7 + 4 + 3 = 20 in formula
n1 +n2 +n3 +n4 = n, dove n = 20. In generale se ci sono k modalita avremo k frequenze
assolute (nell’esempio k = 4) e abbiamo la prima formula di questo testo:
k∑i=1
ni = n, ovvero n1 + n2 + · · ·+ nk = n
che si legge: la somma delle frequenze assolute e uguale al numero delle osservazioni.
Le frequenze relative sono invece calcolate dividendo ogni frequenza assoluta per
il numero totale di osservazioni. In sostanza fatto un intero la totalita delle osservazioni
(nell’esempio le venti osservazioni diventano l’intero) si va a vedere che parte di questo
intero si prende ciascuna modalita. Ad esempio la frequenza relativa delle donne che
mangiano di tutto e 0.30 e si ottiene da 620 = 0.30. In formula, indicate con fi le frequenze
relative esse si ottengono come
fi =nin, i = 1, . . . , k
La somma di tutte le frequenze relative e 1, ovvero abbiamo la seconda formula di questo
librok∑i=1
fi = f1 + f2 + . . .+ fk =n1
n+n2
n+ . . .+
nkn
=n
n= 1.
Le frequenze percentuali sono praticamente la stessa cosa delle frequenze relative,
ma l’intero si considera uguale a 100. Nell’esempio, il 30% del campione osservato e
costituito donne che mangiano di tutto. Indicate con pi le frequenze percentuali, il loro
calcolo avviene in questo modo
pi =nin· 100% = fi · 100%, i = 1, . . . , k
La somma delle frequenze percentuali e 100%.
k∑i=1
pi = 100%.
Le frequenze relative e quelle percentuali a differenza delle frequenze assolute permettono
un confronto immediato tra distribuzioni con numerosita diverse. Quindi quante donne
seguono una dieta vegana o vegetariana e che percentuale ricoprono? Dalla Tabella 2.4,
ricaviamo che ci sono 4 donne che seguono una dieta vegana o vegetariana e che sono il
20% del nostro campione.
Quando si calcolano le tabelle con le distribuzioni di frequenza occorre prestare par-
ticolare attenzione agli arrotondamenti e alle cifre decimali. In una tabella occorre che
2.5. DISTRIBUZIONI DI PIU VARIABILI CONGIUNTAMENTE 21
tutte le frequenze relative abbiano sempre lo stesso numero di decimali. Il problema e
quante cifre decimali? In genere non esiste una regola fissa, a volte puo dipendere anche
da esigenze grafiche. Una regola empirica e quella di utilizzare due cifre decimali in piu
rispetto a quelle dei numeri sui quali si compie l’operazione. Quindi se abbiamo numeri
interi, cioe numeri con zero cifre decimali, il rapporto puo essere espresso con due cifre.
L’importante e che tutti i numeri abbiano lo stesso numero di cifre decimali. Con le cifre
decimali abbiamo anche il problema dell’arrotondamento. Il numero π = 3.141593 arro-
tondato alla seconda cifra significativa decimale e 3.14, arrotondato a tre cifre decimali
e 3.142. Infatti arrotondiamo al numero con tre cifre decimali piu vicino al numero π.
Abbiamo che 4.141 < 3.141593 < 3.142 e π e piu vicino a 3.142. Quindi ogni volta che la
cifra che segue il decimale al quale si vuole arrotondare e maggiore o uguale a 5 si arro-
tonda al decimale successivo. Ogni volta che e minore di 5 si arrotonda al decimale stesso.
Quando si fanno gli arrotondamenti occorre prestare attenzione anche ad un altro fatto.
La somma totale delle frequenze relative deve essere uno. Puo capitare che in seguito agli
arrotondamenti la somma sia piu grande o piu piccola di uno. In questo caso occorre fare
degli aggiustamenti diversi per far si che la somma dia uno. La regola puo essere quella,
se ad esempio la somma delle frequenze relative e maggiore di 1, di arrotondare per difet-
to il numero decimale tra quelli arrotondati per eccesso che si discosta meno dal 5. Ad
esempio se abbiamo arrotondato a due cifre decimali le frequenze relative 0.1791, 0.1753,
0.1771, 0.4685 otteniamo 0.18, 0.18, 0.18, 0.47. La somma di dei numeri arrotondati e
1.01. osservando i 4 numeri tutti arrotondati per eccesso notiamo che quello che era piu
lontano dal suo arrotondamento e 0.1753 e quindi questo sara arrotondato a 0.17. Quindi
le frequenze relative sono 0.18, 0.17, 0.18, 0.47 e in questo caso la somma e uno. Lo stesso
ragionamento deve essere fatto se la somma e minore di 1, ma questa volta arrotondando
per eccesso il numero che arrotondato per difetto presenta il piu piccolo scarto.
2.5 Distribuzioni di piu variabili congiuntamente
In molti fenomeni interessa studiare la relazione, se sussiste, tra le variabili. Un caso tipico
e quello di capire se vi sia discriminazione di genere. Ad esempio ci possiamo chiedere se vi
sia una differenza tra uomini e donne nell’accesso al lavoro, nella retribuzione o anche solo
nella presa di posizione in determinate questioni politiche, sociali o economiche. In questo
caso le variabili di interesse sono almeno due, il Sesso e a seconda dell’interesse, il Reddito o
la Condizione lavorativa o altro ancora. Per studiare se esiste una qualche relazione tra le
variabili prima di tutto occorre costruire la tavola delle frequenze congiunte. Per introdurre
il concetto consideriamo di nuovo i dati della Tabella 2.1. In particolare consideriamo le
due variabili X=Tipo di dieta e Y=Giudizio sull’ultimo film. Per costruire la tabella
delle frequenze delle due variabili congiuntamente dobbiamo considerare ogni coppia di
22 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
Y
X A O S L
N 1 1 3 1 6C 0 1 4 2 7V 1 2 0 1 4S 0 2 1 0 3
Totali 2 6 8 4 20
Tabella 2.5: Tabella della distribuzione congiunta delle variabili X=Tipo di dieta eY=Giudizio sull’ultimo film visto. Frequenze assolute. Campione di n = 20 unita.
possibili valori delle due variabili. Dobbiamo contare ad esempio quanti sono le donne che
mangiano di tutto e hanno trovato l’ultimo film abominevole. E questo va fatto per ogni
modalita delle due variabili. Dalla Tabella 2.1 e facile contare quanti sono i le donne con
queste due caratteristiche: 2. Se lo facciamo per ogni coppia di modalita otteniamo la
Tabella 2.5. I valori all’interno della tabella costituiscono la distribuzione congiunta
delle frequenze assolute delle due variabili X e Y . Si noti che se si sommano le
frequenze assolute per riga (nella tabella sono riportate nell’ultima colonna dopo la barra,
si ottiene la distribuzione della variabile X cioe il tipo di dieta. In effetti la somma
delle frequenze della prima riga corrisponde al numero di donne che mangiano di tutto,
indipendentemente dal giudizio dato all’ultimo film visto. Analogamente se si sommano
le frequenze per colonna (nella tabella sono riportate nell’ultima riga dopo la barra) si
ottiene la distribuzione della variabile Y . Tali distribuzioni all’interno della tabella a
doppia entrato sono dette distribuzioni marginali, per distinguerle dalla distribuzione
congiunta delle due variabili considerate congiuntamente.
Da questa tabella si possono ricavare tutte le frequenze relative e percentuali di una
variabile dato il valore di un’altra. Ad esempio, la frequenza relativa di donne che come
dieta presentano carne sempre e il giudizio per l’ultimo film visto e 30 e lode la otteniamo
dividendo la frequenza congiunta 2 per la frequenza totale n = 20 quindi abbiamo fCL =220 = 0.10. Possiamo calcolare anche la frequenza relativa delle donne che presentano per
le due variabili rispettivament ele modalita:
• carne sempre e super, fCS = 420 = 0.20
• carne sempre e osservabile, fCO = 120 = 0.05
• carne sempre e abominevole, fCA = 0
Da queste si ricavano poi le frequenze percentuale nell’usuale modo. Si puo quindi costruire
la distribuzione congiunta con le frequenze relative. Essa e riportata nella Tabella 2.6.
Si noti che in questa tabella occorre dare l’informazione della numerosita campionaria,
2.5. DISTRIBUZIONI DI PIU VARIABILI CONGIUNTAMENTE 23
Y
X A O S L
N 0.05 0.05 0.15 0.05 0.30C 0 0.05 0.20 0.10 0.35V 0.05 0.10 0 0.05 0.20S 0 0.10 0.05 0 0.15
Totali 0.10 0.30 0.40 0.20 1
Tabella 2.6: Tabella della distribuzione congiunta delle variabili X=Tipo di dieta eY=Giudizio sull’ultimo film visto. Frequenze relative. Campione di n = 20 unita.
altrimenti non si e in grado di ricavarla dalla tabella delle frequenze relativa congiunte.
Dalla Tabella 2.5 possiamo ricavare anche le frequenze condizionate. Esse rispondono
a domande del tipo: tra le donne che hanno una dieta del tipo carne sempre, che parte o
che percentuale ha dato come giudizio all’ultimo fil visto da 30 e lode? Per calcolare questa
frequenza occorre considerare solo il gruppo delle donne che ha come tipo di dieta carne
sempre (che sono 7) e contare quante tra queste hanno espresso come giudizio all’ultimo
film visto da 30 e lode (che sono 2). La frequenza relativa condizionata delle donne che
hanno dato giudizio all’ultimo film da 30 e lode tra le donne che hanno come tipo di diete
carne sempre e 27 = 0.29. Ovvero il 29% delle donne che hanno come tipo di dieta carne
sempre hanno giudicato l’ultimo film visto da 30 e lode. Si noti che questa percentuale
e fatta rispetto al gruppo di donne che hanno come tipo di dieta carne sempre e non
rispetto a tutte le donne. E si noti come e diversa dalla percentuale di donne che hanno
come tipo di dieta carne sempre e hanno giudicato l’ultimo film visto come da 30 e lode.
Quest’ultima e infatti pari al 10%.
Vediamo adesso un esempio in cui occorre ricostruire le frequenze assolute di due
variabili da una tabella di frequenze percentuali.
Esempio 2.5.1. Un campione di 10000 iscritti ad una societa di lavoro interinale sono
analizzati in base al sesso e all’avviamento al lavoro. Lo studio ha come obiettivo quello di
capire se ci sia discriminazione di genere. I dati percentuali sono riportati in nella Tabella
2.7. La tabella ci dice che delle 10000 unita intervistate il 53.4% sono maschi e il 46.6% sono
femmine. Per quanto riguarda la condizione lavorativa la tabella ci dice solo che tra coloro
che sono inviati al lavoro dall’agenzia di lavoro, il 59% sono uomini, il 41% sono donne.
Non ci dice pero qual e, tra le donne che si e rivolta all’agenzia, la percentuale che e stata
avviata al lavoro. Per farlo dobbiamo risalire alla tabella delle frequenze assolute delle
due variabili. Le frequenze assolute si possono ricavare dalla Tabella 2.7 solo se forniamo
l’ulteriore informazione che gli avviati al lavoro sono 1700, cioe se sono date le numerosita
totali. In questo caso allora possiamo dedurre che ad esempio Il 59% di 1700 e 1003, quindi
sono 1003 gli uomini avviati al lavoro dei 5340 mentre il 41% di 1700 e 697 che sono le donne
24 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
Iscritti alla Societa Avviati al lavoro
Maschi 53.40 59.00Femmine 46.60 41.00
100 100
Tabella 2.7: Percentuali degli iscritti ad una societa di lavoro interinale in base al ses-so e alla condizione rispetto all’avviamento al lavoro. Campione di 10000 unita. Datidell’autore. Tra parentesi le numerosita assolute.
Avviato
Sesso SI NO
M 1003 4337 5340F 697 3963 4660
1700 8300 10000
Tabella 2.8: Tabella delle frequenze assolute degli iscritti ad una societa di lavoro interinalein base al sesso e alla condizione rispetto all’avviamento al lavoro. Campione di 10000unita. Dati dell’autore.
avviate al lavoro delle 46601. Le percentuali in questo caso ci forniscono un indicazione
del fenomeno nel suo complesso permettendo un confronto. Ricaviamo quindi la tabella
a doppia entrata delle due variabili rilevate. In questo esempio il campione e composto
da n = 10000 unita sulle quali sono state rilevate due variabili. La prima e il Sesso.
Variabile qualitativa nominale, con modalita M e F (maschio e femmina). La seconda
variabile e la Condizione lavorativa. Anche questa e una variabile qualitativa nominale, con
modalita SI e NO. La Tabella 2.8 riporta distribuzione congiunta delle due variabili. Con
la tabella della distribuzione congiunta possiamo calcolare diverse percentuali di interesse.
Occorre fare attenzione alla numerosia rispetto alla quale si basa la percentuale. Se non
fossero fornite le frequenze marginali delle due variabili Sesso e Condizione lavorativa
non potremmo risalire alle frequenze assolute e quindi, ad esempio, calcolare la frequenza
relativa di donne avviate al lavoro: 697/4660 = 0.15 cioe il 15% e la frequenza relativa
di uomini avviati al lavoro 1003/5340 = 0.19 cie il 19%. Si osservi che quando abbiamo
calcolato la frequenza relativa di donne avviate al lavoro: 697/4660 = 0.1495708 il risultato
e stato arrotondato a 0.15. Quindi in una tabella di frequenze relative o percentuali
occorre dare le informazioni che permettano di risalire ai dati originali, cioe occorre dare
la numerosita totale da cui si ricavano le percentuali.
1Per calcolare la quota q di un certo numero n relativa ad una percentuale p occorre risolvere laproporzione q : t = p : 100 da cui q = t·p
100. Nel primo esempio 1003 = 59·1700
100.
2.5. DISTRIBUZIONI DI PIU VARIABILI CONGIUNTAMENTE 25
2.5.1 Frequenze cumulate
Per le variabili qualitative ordinali si possono calcolare le frequenze cumulate, sia assolute
che relative che percentuali. Esse rispondono a domande del tipo: quante osservazioni vi
sono che si presentano con meno di un certo valore? Oppure: quante osservazioni vi sono
che si presentano con almeno un certo valore? Per ottenere la frequenza cumulata di una
modalita si sommano la frequenza di quella modalita e di tutte le precedenti. Per calcolare
le frequenze cumulate assolute si procede in questo modo. Siano k le modalita con
frequenze assolute n1, n2, . . . , nk tali che∑k
i=1 ni = n. La prima frequenza assoluta
cumulata e uguale al valore della frequenza assoluta della prima modalita, N1 = n1,
la seconda frequenza assoluta cumulata e data dalla somma delle prime due frequenze
assolute, N2 = n1 + n2. In generale la i-esima frequenza cumulata e ottenuta sommando
le prime i frequenze assolute Ni = n1 + n2 + · · · + ni =∑i
j=1 nj . L’ultima frequenza
cumulata, la k-esima si ottiene sommando tutte le frequenze assolute e quindi e uguale a
n, Nk =∑n
j=1 nj = n
Le frequenze cumulate relative si ottengono sommando le frequenze relative. Se
ci sono k modalita con frequenze relative f1, f2, . . . , fk tali che∑k
i=1 fi = 1, la pri-
ma frequenza relativa cumulata e uguale al valore della frequenza relativa della prima
modalita, F1 = f1, la seconda frequenza relativa cumulata F2 = f1 + f2. In gene-
rale la i-esima frequenza cumulato e ottenuta sommando le prime i frequenze relative
Fi = f1 + f2 + · · ·+ fi =∑i
j=1 fj , i = 1, . . . , k.
Torniamo ai dati dell’Esempio 2.3.1 e consideriamo la variabile Y Giudizio dato all’ul-
timo film visto. Si tratta di una variabile qualitativa ordinale perche le sue modalita hanno
un ordine naturale. Se chiedo quante sono le donne hanno dato all’ultimo film visto un
giudizio inferiore o uguale a super, e una domanda a cui sono in grado di rispondere. Per
calcolare le frequenze cumulate (assolute, relative o percentuali) occorre prima calcolare
le frequenze assolute, relative e percentuali. I risultati per questa variabile sono riportati
nella Tabella 2.9.
Si noti che nella riga finale, dove per le frequenze assolute, relative e percentuali,
si riportano i totali (n = 20, la numerosita campionaria, 1, e 100% rispettivamente),
per le frequenze cumulate non si riportano in quanto gia presenti come ultimo valore
in corrispondenza della modalita maggiore. Quindi il numero di donne che hanno dato
all’ultimo film visto un giudizio inferiore o uguale a super e data dalla frequenza assoluta
cumulata corrispondente alla modalita S. Si noti che inferiore o uguale e diverso di solo
inferiore.
Chiudiamo questa sezione con un altro esempio.
Esempio 2.5.2. E sto rilevato il rendimento su 350 studenti di una scuola superiore
americana. La variabile Rendimento e stata classificata secondo le seguenti modalita (I
26 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
Y ni fi = ni/n pi = fi · 100% Ni Fi Pi%
A 2 0.10 10 2 0.10 10%O 6 0.30 30 8 0.40 40%S 8 0.40 40 16 0.80 80%L 4 0.20 20 20 1 100%
Totale n = 20 1.00 100 - - -
Tabella 2.9: Tavola delle frequenze assolute (ni), relative (fi) e percentuali (pi) e fre-quenze cumulate assolute (Ni), relativa (Fi) e percentuali (Pi) per la variabile Y Giudiziodato all’ultimo film visto nel campione dell’esempio 2.3.1. Y assume i seguenti valori:A=abominevole, O=osservabile, S=super, L=da 30 e lode.
xi ni fi pi Ni Fi PiI 45 0.13 13% 45 0.13 13%S 23 0.07 7% 68 0.20 20%B 124 0.35 35% 192 0.55 55%O 158 0.45 45% 350 1 100%
Totale 350 1.00 100% 350 1.00 100%
Tabella 2.10: Tavola delle frequenze assolute, relative, percentuali, cumulate assolute,cumulate relative e cumulate percentuali per la variabile Rendimento, rilevata su 350studenti, I=insufficiente, S=sufficiente, B=buono, O=ottimo.
insufficiente, S = sufficiente, B = buono e O = ottimo). I dati sono i seguenti. S, S, O,
S, O, O, B, B, B, O, O, B, O, B, B, O, I, B, O, O, B, O, B, B, B, B, O, I, S, I, I, O, B,
O, O, B, O, O, B, S, O, B, O, B, O, I, B, O, I, I, O, O, O, I, B, S, B, B, B, O, B, I, O, I,
B, O, O, O, O, B, O, B, O, B, B, B, O, O, B, S, I, O, O, O, S, S, B, S, O, I, O, B, B, I,
B, O, I, O, O, S, I, O, O, O, B, I, O, O, I, O, B, O, S, I, B, I, O, I, B, B, B, O, O, B, I, S,
O, I, O, O, O, B, B, I, B, B, B, I, S, O, O, B, B, O, S, I, B, B, I, O, B, S, O, B, B, B, B,
O, S, O, O, O, O, O, O, B, B, O, O, O, I, B, B, O, O, O, B, O, B, B, O, B, B, O, B, I,
O, O, O, B, O, O, O, I, O, O, B, O, B, O, O, O, B, S, O, O, B, O, I, O, O, S, I, O, B, O,
I, B, O, B, B, O, O, O, I, B, O, O, S, O, B, O, O, O, B, B, B, O, B, I B, B, B, O, B, B,
O, O, O, I, O, O, O, B, I, O, O, B, O, B, O, O, O, B, I, B, B, B, O, I, O, I, B, B, O, O,
O, B, O, S, O, I, O, O, O, B, B, B, B, B, B, B, I, O, O, B, O, B, O, O, B, O, O, O, B, B,
O, B, O, O, B, O, S, B, B, I, O, B, B, B, O, I, B, B, I, B, O, O, B, O, S, O, O, I, O, O,
B, O, O, O, O, B, O, B, B, O, O, B, O, B
Come si puo facilmente immaginare se non vengono riassunti in una tabella questi dati
non ci forniscono nessuna informazione utile. La Tabella 2.10 riporta le frequenze assolute
ni, le frequenze relative fi, le frequenze percentuali pi, le frequenze cumulate assolute Ni, le
frequenze relative cumulate Fi e le frequenze cumulate percentuali Pi. Possiamo rispondere
2.5. DISTRIBUZIONI DI PIU VARIABILI CONGIUNTAMENTE 27
Corta Lunga Totale
ni 17 43 60fi 0.28 0.72 1Ni 17 60 –Fi 0.28 1 –
Tabella 2.11: Frequenze assolute, relative e cumulate della variabile tipo di eruzioneprecedente per dati dell’Esempio 2.3.3.
alle seguenti domande direttamente dalle frequenze cumulate. Che proporzione di studenti
hanno un rendimento superiore o uguale a sufficiente? Poice il 13% ha un rendimento
inferiore a sufficiente, il 100-13=87% ha un rendimento superiore a sufficiente. Quanti
studenti hanno un rendimento superiore o uguale a sufficiente? L’87% degli studenti ha
un rendimento superiore o uguale a sufficiente, prendendo la frequenza relativa 0.87 e
moltiplicandola per il numero di studenti 0.87*350=304.5! come e possibile? Il motivo e
legato agli arrotondamenti sulle frequenze relative. Se consideriamo le frequenze assolute il
numero di studenti con un rendimento superiore o uguale a sufficiente e 23+124+158=305!
Che proporzione di studenti hanno un rendimento inferiore a buono? Equivale a chiedere
la proporzione di studenti che hanno un rendimento inferiore o uguale a sufficiente e quindi
0.20. Che proporzione di studenti hanno un rendimento inferiore o uguale a buono? Questo
valore e dato direttamente dal valore 0.55.
Riassumendo per i dati qualitativi nominali si possono calcolare e rappresentare in una
tabella le seguenti frequenze
• frequenze assolute: n1, n2, . . . , ni, . . . , nk;∑k
i=1 ni = n
• frequenze relative: fi = nin ;∑k
i=1 fi = 1
• frequenze percentuali: pi = fi100%;∑k
i=1 pi = 100%
Se la variabile e ordinale si possono aggiungere le
• frequenze cumulate assolute: Ni =∑i
j=1 nj , i = 1, . . . , k.
• frequenze cumulate relative: Fi =∑i
j=1 fj , i = 1, . . . , k.
Chiudiamo questo paragrafo con un ultimo esempio
Esempio 2.5.3. Calcoalre le frequenze cumulate assolute e relative per la variabile tipo di
eruzione precedente nell’esempio dei dati del geyser Old Faithful. La Tabella 2.11 calcola
le tre frequenze per la variabile tipo di eruzione precedente. Si noti che essendoci solo due
modalita calcoliamo solo due frequenze assolute e relative e una sola cumulata, in quanto
la seconda e ultima e sempre 1.
28 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
Infine riassumiamo nel seguente elenco alcuni suggerimenti da tenere presente quando
si fornisce una tabella di frequenze:
1. Indicare sempre chiaramente cosa contiene la tabella. A chi o a cosa, dove e quando
sono stati rilevati i dati. Se necessario numerare la tavola.
2. Indicare sempre il nome ad ogni colonna e ad ogni riga. Se si usano acronimi indicare
sempre il significato.
3. Indicare sempre l’unita di misura.
4. Indicare i valori totali.
5. Incolonnare propriamente i numeri (i decimali devono stare allineati).
6. Utilizzare lo stesso numero di decimali.
7. Indicare la fonte dei dati.
Per i dati di tipo numerico discreto e continuo le tabelle di frequenza verranno presen-
tate nel prossimo paragrafo dove saranno di ausilio per la rappresentazione grafica ti tali
distribuzioni.
2.6 Dati e grafici
Produrre bei grafici permette di capire molto dei dataset con solo uno sguardo. Inoltre in
genere per le persone e molto meglio capire un grafico che una tavola piena di numeri.
Vi sono diversi grafici che e possibile utilizzare per rappresentare i dati. Il tipo di
grafico dipende dal tipo di dati.
Se i dati sono qualitativi nominali possono essere rappresentati graficamente in diversi
modi:
• tramite rettangoli
• grafici a torta
• rappresentazione tramite figure
Nella rappresentazione tramite rettangoli, o barre, le modalita x1, x2, . . . , xk del ca-
rattere si sistemano su un segmento orizzontale in qualsiasi ordine e in modo equispaziato.
In corrispondenza di ciascuna modalita si disegnano rettangoli di stessa base e altezza
proporzionale alle frequenze ni, fi o pi.
Se nello stesso grafico si rappresentano piu fenomeni occorre che l’altezza sia propor-
zionale alle frequenze fi o pi in modo da poterli confrontare.
2.6. DATI E GRAFICI 29
01
23
45
67
stato civile
freq
C N S V
Figura 2.1: Grafico delle frequenze assolute della variabile Stato civile nell’Esempio 2.3.1.
30 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
N
C
V
S
Tipo di dieta
Figura 2.2: Grafico a torta delle frequenze assolute della variabile Stato civile nell’Esempio2.3.1.
Nella rappresentazione tramite diagrammi a torta (detti anche grafici a torta) si disegna
un cerchio e si identificano dei settori circolari la cui ampiezza (o la cui area) e propor-
zionale alle frequenze relative fi o percentuali pi. L’intero cerchio rappresenta quindi la
totalita del fenomeno, cioe vale 1 o 100% a seconda delle frequenze rappresentate. Anche
in questo caso i settori vengono disegnati in un ordine qualsiasi e vengono colorati con
colori diversi a seconda della modalita del carattere. Tornando al grafico riportato in
Figura 1.1 risulta lampante come l’area dell’intero cerchio non possa essere pari al 100%
in quanto sommando le frequenze percentuali il valore 100 e superato abbondantemente.
L’errore nella rappresentazione e dovuta al fatto che ogni intervistato poteva esprimere
scelte multiple sui candidati possibili e quindi la somma delle frequenze relative non poteva
essere 1.
Nella rappresentazione tramite figure si sceglie una figura per rappresentare l’unita di
misura:��|^ = 1
Si rappresentano le modalita del carattere riportando un numero di figure proporziona-
2.6. DATI E GRAFICI 31
N ��|^
��|^
��|^
��|^
��|^
��|^
6C ��
|^
��|^
��|^
��|^
��|^
��|^
��|^
7S ��
|^
��|^
��|^
3V ��
|^
��|^
��|^
��|^
4
Tabella 2.12: Rappresentazione delle frequenze assolute della variabile Stato civilenell’Esempio 2.3.1.
xi ni fi pi Ni Fi
A 2 0.1 10 2 0.1O 6 0.3 30 8 0.4S 8 0.4 40 16 0.8L 4 0.2 20 20 1.0
Totali 20 1.0 100 20 1
Tabella 2.13: Frequenze assolute, relative, percentuali, cumulate assolute e cumulaterelative del livello di scolarita nell’Esempio 2.3.1.
le alla frequenza ni. Anche in questo caso le modalita vengono sistemate in un ordine
qualsiasi.
Se la variabile e di tipo qualitativo ordinale come ad esempio la variabile livello di
scolarita (Y ) nell’Esempio 2.3.1, il grafico da utilizzare e preferibilmente il grafico a barre
o a rettangoli dove occorre solo prestare attenzione all’ordine con cui si rappresentano le
modalita che deve andare dal piu basso a sinistra al piu alto a destra. Si possono anche
utilizzare i grafici a torta ma sono sconsigliati perche si perte l’informazione dell’ordine. I
grafici con i disegni si possono utilizzare con l’accortezza di ordinare anche qui le modalita.
Nel caso della variabile livello di scolarita nell’Esempio 2.3.1 le modalita con cui si presenta
il fenomeno sono k = 4
x1 = A x2 = O x3 = S x4 = L
La Tabella 2.6 riporta le frequenze, mentre nella Figura 2.3 vengono rappresentati tramite
rettangoli le frequenze assolute.
2.6.1 Distribuzioni per le variabili numeriche
Se la variabile e di tipo quantitativo numerico discreto (conteggio) la distribuzione di
frequenza si costruisce andando a contare quante volte si presentano le diverse modalita
numeriche.
32 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
A O S L
grado scolarita'
freq
02
46
8
Figura 2.3: Grafico delle frequenze assolute del livello di scolarita nell’Esempio 2.3.1.
2.6. DATI E GRAFICI 33
xi ni fi pi Ni Fi
0 5 0.25 25 5 0.251 5 0.25 25 10 0.502 3 0.15 15 13 0.653 3 0.15 15 16 0.804 4 0.20 20 20 1.00
20 1.00 100
Tabella 2.14: Frequenze assolute, relative, percentuali, cumulate assolute e cumulaterelative del numero di convivenze nell’Esempio 2.3.1.
La rappresentazione grafica deve essere di tipo a bastoncino o segmento e l’asse su cui
rappresentano i valori e di tipo numerico, per cui si deve prestare attenzione a come si
rappresentano i valori rispettando l’unita di misura dell’asse.
Nell’Esempio 2.3.1 la variabile numero di canvivenze (Z) e di tipo quantitativo discreto.
Le intensita con cui si presenta il fenomeno sono k = 5
x1 = 0 x2 = 1 x3 = 2 x4 = 3 x5 = 4.
Nella Tabella B sono riportate le frequenze, mentre nella Figura 2.4 sono rappresentate le
frequenze assolute.
Si possono anche rappresentare i grafici delle distribuzioni cumulate. Per i dati nume-
rici discreti si riporta ogni valore della distribuzione cumulata in corrispondenza di ogni
modalita numerica. Quindi si tracciano delle linea verticali dal valore della frequenza cu-
mulata all”asse delle ascisse e delle linee orizzontali dal valore della frequenza cumulata
di una modalita fino ad intersecare la linea verticale della modalita successiva. In questo
modo il grafico delle frequenze cumulate assume la forma di una scala che parte da zero e
fa un salto pari alla frequenza in corrispondenza di ogni modalita. La Figura 2.5 riporta
il grafico delle frequenze cumulate relative per la variabile Numero di convivenze dell’E
sempio 2.3.1.
2.6.2 L’istogramma
Se la variabile e di tipo quantitativo continuo, la frequenza con cui si ripete una qualunque
modalita e in genere uno. Quindi i tipi di grafici visti fino ad ora sarebbero privi di
informazione per dati di questo tipo. Occorre dividere i valori possibili per la variabile in
classi o intervalli e contare quanti valori cascano in ogni classe e quindi rappresentare i
dati tramite un istogramma.
Ad esempio la variabile Spesa per massaggi in euro (W ) dell’esempio 2.3.1 e una
variabile quantitativa continua
34 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
01
23
45
numero di figli
freq
. ass
olut
e
0 1 2 3 4
Figura 2.4: Frequenze assolute del numero di convivenze nell’Esempio 2.3.1.
2.6. DATI E GRAFICI 35
●
●
●
●
●
−1 0 1 2 3 4 5
0.0
0.2
0.4
0.6
0.8
1.0
Frequanze cumulate relative
figli
Fi
Figura 2.5: Frequenze cumulate relative del numero di convivenze nell’Esempio 2.3.1.
36 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
xi ni fi Ni ai li
40 a 50 3 0.15 3 10 0.3050 a 58 6 0.30 9 8 0.7558 a 70 4 0.20 13 12 0.3370 a 95 7 0.35 20 25 0.28
20 1.00 20
Tabella 2.15: Frequenze assolute, relative, percentuali, cumulate assolute ampiezza degliintervalli e densita assoluta del Spesa per massaggi in euro nell’Esempio 2.3.1. Gli estremidestri degli intervalli sono inclusi.
Le modalita o intensita con cui si presenta il fenomeno sono tutte distinte. Ricorriamo
allora al raggruppamento dei dati in classi. Introduciamo 4 classi e andiamo a contare i
valori che cascano in ogni classe e quindi calcoliamo le frequenze assolute relative e cumu-
late per ogni classe. Accanto a queste frequenze e importante anche riportare l’ampiezza
di ogni classe che denotiamo con ai e la densita di frequenza definita come il rapporto tra
la frequenza della classe e l’ampiezza della classe. Ha il significato di come le unita che
cascano in quella classe si distribuiscono nella classe. Piu e alta la densita piu le unita
sono dense nell’intervallo. La densita e denotata con li ed e definita come li = ni/ai. Si
possono anche definire le densita relative, come rapporto tra le frequenze relative di una
classe fi e l’ampiezza della classe, di = fi/ai. Il numero di classi e l’ampiezza delle classi
dipende dal numero di dati e dai valori. In genere meno sono i dati meno sono le classi
e l’ampiezza deve essere fissata in modo che in ciascun intervallo caschi almeno un certo
numero di unita. Anche la scelta degli estremi inferiore e superiore del primo e dell’ultimo
intervallo rispettivamente e arbitraria. Il calcolo delle frequenze e la determinazione delle
classi per la variabile Spesa per massaggi in euro dell’esempio 2.3.1 sono riportati nella
Tabella 2.15, mentre l’istogramma e rappresentato nella Figura 2.6.
Di solito si rappresentano gli istogrammi delle variabili continue con le frequenze
relative.
Per costruire un istogramma delle frequenze relative i passi da seguire sono i seguenti:
1. Si suddividono i valori osservati in r classi: si denota con ai l’ampiezza della i-esima
classe, i = 1, . . . , r
2. Si dispongono i valori degli estremi degli intervalli delle classi sull’asse delle ascisse
rispettando l’unita di misura dell’asse.
3. Si calcolano le frequenza assolute e le frequenze relative per ogni classe: ni e fi,
i = 1, . . . , r.
4. Si calcolano le densita di frequenza relativa per ogni classe: di = fiai
2.6. DATI E GRAFICI 37
Istrogramma corretto
w
Den
sity
40 50 60 70 80 90
0.0
0.2
0.4
0.6
Figura 2.6: Istogramma della variabile Spesa per massaggi in euro nell’Esempio 2.3.1. Gliestremi destri degli intervalli sono inclusi.
38 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
Istogramma sbagliato!
w
Fre
quen
cy
40 50 60 70 80 90
01
23
45
67
Figura 2.7: Istogramma NON CORRETTO della variabile Spesa per massaggi in euronell’Esempio 2.3.1 dove l’altezza dei rettangoli e la frequenza assoluta della classe.
5. Si tracciano dei rettangoli che hanno come base gli estremi dell’intervallo i-esimo e
come altezza la densita di frequenza relative di.
In questo modo l’area di ogni rettangolo dell’istogramma e uguale alla frequenza relativa
(l’altezza del rettangolo e di) della classe che costituisce la base. Infatti l’area del rettangolo
e data da di · ai = fi.
E molto importante che l’altezza dei rettangoli sia la densita (relativa o assoluta) e non
la frequenza assoluta o relativa della classe. In quest’ultimo caso si otterrebbero dei grafici
fuorvianti sul comportamento della variabile. Ad esempio si osservi come nell’istogramma
riportato nella Figura 2.7 si abbia la percezione che vi sia una grandissima parte di redditi
molto alti rispetto all’istogramma nella Figura 2.6.
2.7 Esempi
2.7.1 Il geyser Old Faithful
Per i dati considerati nell’Esempio 2.3.3 vogliamo:
2.7. ESEMPI 39
xi ni fi ai di
40 ` 45 1 0.017 5 0.003345 ` 50 2 0.033 5 0.006750 ` 55 7 0.117 5 0.023055 ` 60 6 0.100 5 0.020060 ` 65 1 0.017 5 0.003365 ` 70 5 0.083 5 0.017070 ` 75 6 0.100 5 0.020075 ` 80 11 0.183 5 0.037080 ` 85 13 0.217 5 0.043085 ` 90 5 0.083 5 0.017090 ` 95 3 0.050 5 0.0100
60 1
Tabella 2.16: Tavola dei vari tipi di frequenze della variabile Tempo di attesa tra dueeruzioni successive dai dati dell’esempio 2.3.3.
1. rappresentare la distribuzione dei tempi di attesa per tutte le eruzioni;
2. rappresentare la distribuzione dei tempi di attesa per le eruzioni che hanno l’eruzione
di tipo prcedente Corta;
3. rappresentare la distribuzione dei tempi di attesa per le eruzioni che hanno l’eruzione
di tipo prcedente Lunga;
4. calcolare la percentuale di eruzioni ha un tempo di attesa minore di 60 minuti;
5. calcolare la percentuale di eruzioni, tra quelle che hanno l’eruzione precedente di
tipo Corta, ha un tempo di attesa minore di 60 minuti;
6. calcolare la percentuale di eruzioni, tra quelle che hanno l’eruzione precedente di
tipo Lunga, ha un tempo di attesa minore di 60 minuti.
Per fare l’istogramma della distribuzione dei tempi di attesa per tutte le eruzioni
dobbiamo raccogliere i dati in classi. Costruiamo l’istogramma per la durata dei periodi
di attesa dopo ogni eruzione del geyser Old Faithful. Nella Tabella 2.16 riportiamo le
frequenze assolute ni le frequenze relative fi = nin l’ampiezza di ogni classe ai che in
questo caso e 5 per ogni classe, e la densita di frequenza relativa di = fiai
. Sono le quantita
necessarie per costruire l’istogramma richiesto. L’istogramma per tutti i dati e riportato
in Figura 2.8.
Consideriamo ora il sottocampione costituito dalle eruzioni con Eruzione precedente
Corta e costruiamo l’istogramma per questa distribuzione. La tabella delle frequenze e la
2.17. Le quantita che ci servono per costruire l’istogramma sono riportate nella Tavola
40 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
Istogramma delle durate per tutti i dati
Durata (minuti)
Den
sity
40 50 60 70 80 90 100
0.00
0.01
0.02
0.03
0.04
0.05
Figura 2.8: Istogramma della variabile Tempo di pausa. Il tempo e misurato in minuti.
2.7. ESEMPI 41
xi 42 45 49 50 51 53 55 56 58 66 67ni 1 1 1 1 4 2 2 2 1 1 1
Tabella 2.17: Frequenze assolute della variabile Tempo di pausa tra due eruzioni successivedai dati dell’esempio 2.3.3 solo per il sottocampione con eruzione precedente di tipo corto.
xi ni fi ai di
40 ` 45 1 0.06 5 0.0145 ` 50 2 0.12 5 0.0250 ` 55 7 0.41 5 0.0855 ` 60 5 0.29 5 0.0660 ` 65 0 0 5 065 ` 70 2 0.12 5 0.02
17 1
Tabella 2.18: Vari tipi di frequenze della variabile Tempo di pausa tra due eruzioni succes-sive dai dati dell’esempio 2.3.3 solo per il sottocampione con eruzione precedente di tipocorto.
2.18. L’istogramma e riportato nella Figura 2.9 mentre lasciamo come esercizio di costruire
una tavola analoga alla 2.18 per la variabile Durata del tempo di pausa per il sottocampione
relativo alle eruzioni con eruzione precedente lunga. L’istogramma e riportato nella Figura
2.10.
2.7.2 Un caso di attribuzione letteraria
Questo esempio riguarda gli 85 articoli sul federalismo che furono pubblicati negli Stati
Uniti per convincere i cittadini dello stato di New York a ratificare la costituzione. Gli
storici si diedero l’arduo compito di individuare chi erano gli autori di questi articoli. Per
73 di questi articoli non ci sono stati problemi di attribuzione, mentre per i restanti 12
gli storici non erano d’accordo se attribuire questi 12 scritti a Hamilton o a Madison,
entrambi due scrittori di testi politici molto famosi e attivi a quell’epoca. Il contenuto
politico non riesce a determinare quale dei due sia l’autore dei 12 scritti perche entrambi
avevano le stesse idee politiche. Gli istogrammi possono aiutare a dirimere la questione.
Gli autori tendono ad avere differenti stili di scrittura in particolare tendono ad usare
parole non contestuali con un tasso (numero di parole ogni mille) con una distribuzione
che li caratterizza. La Tabella 2.19 riporta il tasso della parola by rilevata ogni 1000
parole in 48 scritti di Hamilton (non solo quelli attribuiti a lui degli 85 sul federalismo) e
in 50 scritti di Madison (anche in questo caso non sono stati considerati solo gli scritti sul
federalismo). In un articolo del 1963, Mosteller e Wallace utilizzarono una metodologia
42 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
Durata del tempo di pausa per eruzione precedente corta
Durata (minuti)
Den
sity
40 50 60 70 80 90 100
0.00
0.02
0.04
0.06
0.08
0.10
Figura 2.9: Istogramma della variabile Durata del tempo di pausa per il sottocampionecon eruzione precedente di tipo Corta.
2.7. ESEMPI 43
Durata del tempo di pausa per eruzione precedente lunga
Durata (minuti)
Den
sity
40 50 60 70 80 90 100
0.00
0.02
0.04
0.06
0.08
0.10
Figura 2.10: Istogramma della variabile Durata del tempo di pausa per il sottocampionecon eruzione precedente di tipo Lunga.
44 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
Tasso by
H M
0 a 2 2 –2 a 4 7 –4 a 6 12 56 a 8 18 78 a 10 4 810 a 12 5 1612 a 14 – 614 a 16 – 516 a 18 – 3
Totali 48 50
Tabella 2.19: Tasso della parola by in 48 scritti di Hamilton (H) e in 50 scritti di Madison(M) (numero di ricorrenze ogni 1000 parole).
Rate 0 a 2 2 a 4 4 a 6 6 a 8 8 a 10 10 a 12 12 a 14 14 a 16 16 a 18ni – – 2 1 2 4 2 1 –
Tabella 2.20: Tasso della parola by nei 12 scritti contesi sul federalismo (numero diricorrenze ogni 1000 parole).
statistica per l’attribuzione dei 12 scritti ad uno dei due autori. Qui prendiamo i loro dati
e tracciamo gli istogrammi (anche per i dati numerici discreti possiamo farlo).
La Tabella 2.20 riporta invece il tasso della parola by nei 12 scritti contesi sul federa-
lismo.
Dopo aver tracciato gli istogrammi per la variabile tasso sia per gli scritti di Hamilton
che per quelli di Madison che per gli scritti contesi, il grafico riportato in Figura 2.11
sembra propendere per attribuire gli scritti contesi ad uno dei due autori senza molti
dubbi.
Si noti che per fare il confronto occorre prestare attenzione affinche in tutti i grafici
la scala sia la stessa e si utilizzano frequenze relative perche il numero di scritti e diverso
nelle tre distribuzioni.
2.7.3 Il primo bacio non si scorda mai
In questo esempio vediamo invece come le frequenze cumulate possono aiutare a capire
meglio un fenomeno. Nella Tabella 2.21 sono riportate le frequenze assolute ni, le frequenze
assolute cumulate Ni e le frequenze relative cumulate della variabile eta a cui e stato dato
il primo bacio a sfondo sessuale. Si tratta di una variabile continua (l’eta) ed e rilevata su
un campione di 42 giovani uomini (dati privati). Abbiamo calcolato la frequenza cumulata
2.7. ESEMPI 45
Scritti di Madison
Rate
De
nsity
0 5 10 15
0.0
00
.0
50
.1
00
.1
5
Scritti di Hamilton
Rate
De
nsity
0 5 10 15
0.0
00
.1
0
Scritti contesi
Rate
De
nsity
0 5 10 15
0.0
00
.0
50
.1
00
.1
5
Figura 2.11: Istogramma della variabile Tasso della parola by nei 50 scritti di Madison(M), nei 48 scritti di Hamilton (H) e nei 12 scritti contesi sul federalismo.
46 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
Eta ni Ni Fi7 1 1 0.0248 0 1 0.0249 1 2 0.04810 0 2 0.04811 3 5 0.11912 6 11 0.26213 5 16 0.38114 6 22 0.52415 12 34 0.81016 2 36 0.85717 4 40 0.95218 1 41 0.97619 0 41 0.97620 1 42 1.000
Totali 42 – –
Tabella 2.21: Eta del primo bacio a carattere sessuale di 42 giovani uomini. Frequenzeassolute, frequenze cumulate e frequenze cumulate relative.
relativa perche ci interessa confrontare questo fenomeno con quello riportato nella Tabella
2.22 in cui viene rilevata sullo stesso gruppo di giovani uomini l’eta in cui hanno avuto il
primo rapporto sessuale. La tabella riporta anche in questo caso le frequenze assolute ni,
le frequenze assolute cumulate Ni e le frequenze relative cumulate.
Dalla Tabella 2.21 ad esempio leggiamo che il piu alto numero di uomini ha dato il
primo bacio all’eta di 15 anni (frequenza assoluta 12). Ma il dato che descrive meglio il
fenomeno e il fatto che all’eta di 15 anni, 34 uomini dei 42 (ovvero l’81%) hanno gia dato
il primo bacio (frequenza cumulata 34, frequenza cumulate relativa 0.81). Si deduce anche
che almeno il 50% degli uomini ha dato il primo bacio ad un’eta inferiore o uguale ai 14
anni (frequenza cumulata relativa 0.52).
Dalla Tabella 2.22 invece leggiamo che che il primo rapporto sessuale e avvenuto dopo
il primo bacio (prima osservazione eta=11), che il piu alto numero di uomini ha avuto il
primo rapporto all’eta di 18 anni (frequenza assoluta 15). Anche in questo caso il dato che
descrive meglio il fenomeno e il fatto che all’eta di 18 anni, 36 uomini dei 42 (ovvero l’86%)
hanno gia avuto il primo rapporto sessuale (frequenza cumulata 36, frequenza cumulate
relativa 0.86). Si deduce anche che il 50% degli uomini ha avuto il primo rapporto sessuale
ad un’eta inferiore o uguale ai 17 anni (frequenza cumulata relativa 0.50). La tabella 2.23
riporta le due distribuzioni insieme. Per effettuare il confronto l’eta e stata fissata da 7 a 21
anni per entrambe le distribuzioni. Le frequenze cumulate relative sono state arrotondate
alla seconda cifra significativa.
2.7. ESEMPI 47
Eta ni Ni Fi11 1 1 0.0212 0 1 0.0213 1 2 0.0514 4 6 0.1415 4 10 0.2416 5 15 0.3617 6 21 0.5018 15 36 0.8619 4 40 0.9520 1 41 0.9821 1 42 1
Totali 42 – –
Tabella 2.22: Eta del primo rapporto sessuale di 42 giovani uomini. Frequenze assolute,frequenze cumulate e frequenze cumulate relative.
Eta nBi NBi FBi nRi NR
i FRi7 1 1 0.02 0 0 08 0 1 0.02 0 0 09 1 2 0.05 0 0 010 0 2 0.05 0 0 011 3 5 0.12 1 1 0.0212 6 11 0.26 0 1 0.0213 5 16 0.38 1 2 0.0514 6 22 0.52 4 6 0.1015 12 34 0.81 4 10 0.2416 2 36 0.86 5 15 0.3617 4 40 0.95 6 21 0.5018 1 41 0.98 15 36 0.8619 0 41 0.98 4 40 0.9520 1 42 1 1 41 0.9821 0 42 1 1 42 1
Totali 42 – – 42 – –
Tabella 2.23: Eta del primo bacio a carattere sessuale e del primo rapporto sessuale di42 giovani uomini. Frequenze assolute, frequenze cumulate e frequenze cumulate relative.(Apice B si riferiscono all’eta del primo bacio, apice R all’eta del primo rapporto).
48 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
10 15 20
0.0
0.2
0.4
0.6
0.8
1.0
Età al primo bacio e del primo rapporto sessuale
età
Fetà primo bacioetà primo rapporto
Figura 2.12: Grafico delle frequenze cumulate relative per l’eta al primo bacio e l’eta delprimo rapporto sessuale per 42 giovani uomini. La retta rappresenta F = 0.50.
Nella figura 2.12 le due distribuzioni sono messe a confronto. Come si puo osservare
il grafico delle frequenze cumulate relative della distribuzione dell’eta del primo rapporto
sessuale sta sempre sotto il grafico delle frequenze cumulate relative dell’eta del primo
bacio. Questo significa che la prima distribuzione e sempre maggiore della seconda. Cioe
l’eta del primo rapporto sessuale e maggiore dell’eta del primo bacio. La linea orizzontale
tracciata per F = 0.50 ci informa che l’eta in cui almeno il 50% del campione ha dato il
primo bacio e 14 anni, mentre l’eta in cui almeno il 50% del campione ha avuto il primo
rapporto sessuale e 17 anni. La lunghezza del segmento tra i due punti in cui la retta
F = 0.50 interseca le due linee delle frequenze cumulate relative ci informa sul fatto che
la meta della campione ha avuto il primo rapporto sessuale tre anni dopo che la meta del
campione ha dato il primo bacio.
2.8 Esercizi
Esercizio 2.8.1. Su un campione di 19 donne il risultato dell’indagine per le variabili
Titolo di studio e Essere fumatrice e stato
2.8. ESERCIZI 49
Fumatrice SI NO
Titolo di studio
Licenza elementare 1 1 2Scuola secondaria I grado 2 1 3
Scuola secondaria II grado 2 4 6Laurea 1 7 8
Totali 6 13 19
1. Qual e la proporzione di fumatrici?
2. Qual e la proporzione di non fumatrici?
3. Qual e la proporzione di laureate ?
4. Qual e la percentuale di donne laureate e fumatrici?
5. Tra le donne laureate qual e la percentuale delle fumatrici?
6. Tra le fumatrici, qual e la percentuale di donne con titolo di studio superiore o uguale
alla scuola secondaria di II grado?
7. Tra le donne con titolo di studio superiore o uguale alla scuola secondaria di II grado
qual e la percentuale di fumatrici?
Esercizio 2.8.2.
Si considerino le variabili tipo di dieta e numero di convivenze della tabella 2.1.
1. Si costruisca la tabella delle frequenze assolute congiunte delle due variabili.
2. Che percentuale di donne non ha avuto convivenze?
3. Che percentuale di donne ha come tipo di dieta carne sempre e non ha avuto convi-
venze?
4. Tra le donne che ha come tipo di dieta carne sempre, che percentuale non ha avuto
convivenze?
5. Tra le donne che non hanno avuto convivenze che percentuale ha come tipo di dieta
carne sempre?
6. Tra le donne che hanno avuto 2 o piu convivenze che percentuale ha come tipo di
dieta carne sempre?
7. Tra le donne che hanno avuto piu di 2 convivenze che percentuale ha come tipo di
dieta carne sempre?
50 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
Esercizio 2.8.3. Dal sito corriere.it, dal quale e stata tratta la foto riportata sotto in
Figura 2.13, sono stati tratti i dati riguardante un indagine sul lavoro durante la mater-
nita. Consideriamo solo le risposte alla domanda: Le e capitato di lavorare mentre era in
congedo di maternita? La domanda e stata rivolta a 4813 mamme lavoratrici dipendenti
e 1087 mamme lavoratrici autonome. Le percentuali delle risposte alla domanda per le
lavoratrici dipendenti sono state le seguenti:
Si e capitato e l’ho apprezzato: 8%
Si e capitato ma ne avrei fatto a meno: 11%
Si e capitato ma ho potuto decidere quando: 18%
No non e capitato: 63%
Le percentuali delle risposte alla domanda per le lavoratrici autonome son state le seguenti:
Si e capitato e l’ho apprezzato: 8%
Si e capitato ma ne avrei fatto a meno: 26%
Si e capitato ma ho potuto decidere quando: 32%
No non e capitato: 34%
1. Ricostruire la tabella delle frequenze assolute della distribuzione congiunta delle due
variabili rilevate sulle mamme: tipo di lavoro (dipendente o autonomo) e Stato
lavorativo mentre era in congedo di maternita rilevata con le 4 modalita date dalle
rispettive domante alla risposta.
2. Calcolare la distribuzione delle frequenze assolute, relative e percentuali della va-
riabile Stato lavorativo durante la gravidanza rilevata con le 4 modalita date dalle
rispettive domante alla risposta.
3. Tra le mamme che non hanno lavorato, qual e la percentuale di mamme che hanno
un lavoro dipendente? E quella delle mamme che hanno un lavoro autonomo?
Esercizio 2.8.4.
Si faccia riferimento ai dati del Gayser Old Faithful.
1. Costruire la tabella a doppia entrata per le frequenze relative delle due variabili. Per
la variabile tempo di pausa tra due eruzioni successive si mantenga la suddivisione
in classi riportata nella Tabella 2.16.
2.8. ESERCIZI 51
Lavoratrici dipendenti Il rientro
30 settembre 2015 | 21:58
© RIPRODUZIONE RISERVATA
!
!"
"0
#
#0
$
$0
%
%2
!
!
&
&
'
'(
( 100%TOTALE VOTI 1
Figura 2.13: Le e capitato di lavorare durante il periodo di maternita?
52 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
2. Che percentuale di eruzioni hanno una durata maggiore o uguale a 60 minuti e hanno
quella precedente breve?
3. Che percentuale di eruzioni hanno una durata maggiore o uguale a 60 minuti e hanno
quella precedente lunga?
4. Tra le eruzioni che hanno la precedente di tipo breve, che percentuale hanno una
durata inferiore ai 55 minuti?
5. Che percentuale di eruzioni lunghe dura meno di 65 minuti?
6. Che percentuale di eruzioni dura meno di 65 minuti?
Capitolo 3
Valori medi
Il titolo di questo capitolo e al plurale perche come vedremo ci sono diversi tipi di medie
per un certo tipo di dati e diverse medie per diversi tipi di dati (numerici o nominali).
In inglese il termine average puo indicare questo tipo di media mentre viene lasciato al
termine mean il significato di media (aritmetica) di un certo numero di valori numerici. In
italiano non abbiamo una tale ricchezza di vocaboli per cui dovremo prestare attenzione al
fatto se con il termine media ci riferiamo ad un concetto, cioe se indichiamo quel valore che
sintetizza l’intera distribuzione, oppure alla media aritmetica che e solo una delle medie
a cui si riferisce il titolo del capitolo. In genere dal contesto si capira a cosa ci stiamo
riferendo. Quello che si vuole fare in questo capitolo e condensare in un solo numero
(quando i dati sono di tipo numerico) o in una sola caratteristica (quando sono nominali)
un intero insieme di dati relativi ad una certa variabile. Questo unico numero (nel caso
delle variabili numeriche) viene chiamato, a seconda dei casi, moda, mediana o media
(aritmetica, ma in realta esiste anche la media armonica e altri tipi di media che non
studieremo)
3.1 La moda
La moda puo essere calcolata per qualunque tipo di variabile (o di dati).
Definizione 3.1.1. La moda e la modalita per le variabili nominali (o il numero per le
variabili numeriche) che si presenta con la frequenza maggiore.
Per trovare la moda di una distribuzione bisogna allora calcolare tutte le frequenze
(e indifferente se assolute o relative) e andare a vedere a quale modalita corrisponde la
frequenza maggiore. Tale modalita e la moda della distribuzione o la moda della variabile.
A volte puo capitare che due modalita abbiano la frequenza maggiore, in questo caso si
dice che la distribuzione e bi-modale. Anche quando rappresentando i dati graficamente si
osservano due picchi distanti per le frequenze si puo dire che la distribuzione e bi-modale.
53
54 CAPITOLO 3. VALORI MEDI
Ad esempio nel caso dei dati sui tempi di pausa del geyser Old Faithful dell’Esempio 2.3.3.
Nella Figura 2.8 si notano due frequenze distinte nettamente piu alte delle altre. In questo
caso sono presenti due nette distribuzioni come lo studio dividendo le osservazioni rispetto
alla variabile tipo di eruzione precedente mette in luce.
Esercizio 3.1.2. Calcolare la moda per i dati dell’Esempio 2.5.2 [Ris: Moda= ottimo]
Esercizio 3.1.3. Calcolare la moda per la variabile X, tipo di dieta, Y , giudizio sull’ul-
timo film visto e Z numero di convivenze, per i dati dell’Esempio 2.3.1
3.2 La media aritmetica
Riportiamo la poesia del poeta romano Trilussa (pseudonimo di Carlo Alberto Salustri,
nato nel 1871 e morto nel 1950) dal titolo che non ha bisogno di presentazioni in questo
volume e che presenta il valore medio sottolineando come questo debba essere considerato
con attenzione e non con leggerezza.
LA STATISTICA
Sai ched’e la statistica? E ’na cosa
che serve pe fa un conto in generale
de la gente che nasce, che sta male,
che more, che va in carcere e che sposa.
Ma pe me la statistica curiosa
e dove c’entra la percentuale,
pe via che, lı la media e sempre eguale
puro co’ la persona bisognosa.
Me spiego: da li conti che se fanno
seconno le statistiche d’adesso
risurta che te tocca un pollo all’anno:
e, se nun entra nelle spese tue,
t’entra ne la statistica lo stesso
perch’e c’e un antro che ne magna due.
Come vedremo introducendo la mediana, non sempre la media aritmetica di cui parla
Trilussa va bene per descrivere fenomeni come questo. Ma teniamo presente il testo della
poesia per capire il significato di media aritmetica.
3.2. LA MEDIA ARITMETICA 55
La media aritmetica si puo fare per le variabili numeriche. Se abbiamo la distribuzione
del numero dei figli possiamo calcolare la media (aritmetica) del numero di figli, se abbiamo
la distribuzione dei redditi possiamo calcolare la media (aritmetica) dei redditi.
La definizione di media aritmetica, che tra le righe della poesia possiamo cogliere e la
seguente:
Definizione 3.2.1. La media aritmetica di n valori e quel valore che se sostituito a tutti
i valori lascia inalterata la somma totale degli n valori.
Per rivederla con Trilussa, se io mangio due polli e tu zero, i due valori sono 2 e 0, il
totale dei polli in gioco, anzi meglio, mangiati e 2+0=2. La media aritmetica e 1, per la
statistica io mangio un pollo e anche tu un pollo, in totale sempre due polli si mangiano.
Se si sostituisce sia a 2 che a 0 la media, 1, la somma totale dei polli mangiati non cambia,
1+1=2.
Per calcolare operativamente la media aritmetica si procede in due passi:
1. Si sommano tutti i valori osservati
2. Si divide la somma ottenuta per il numero di valori osservati
Riprendiamo i dati dell’esempio 2.3.1 della variabile Z numero di convivenze. I 20
valori che la variabile assume sulle 20 unita del campione sono:
0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4, 4
Sommiamo tutti i valori della variabile
0 + 0 + 0 + 0 + 0 + 1 + 1 + 1 + 1 + 1 + 2 + 2 + 2 + 3 + 3 + 3 + 4 + 4 + 4 + 4 = 36
E quindi dividiamo per il numero di unita statistiche nel campione:
36
20= 1.8 ∼ 2
Il numero medio di convivenze e poco meno di 2, o circa 2 convivenze per donna. (Occorre
arrotondare al numero intero piu vicino, tenendo presente che il numero medio e piu piccolo
di 2). In genere si usa la notazione
x = 1.8 ∼ 2,
dove x, che si legge x-bar, o x barrato, denota universalmente la media aritmetica di n
valori. Tale scrittura viene dal fatto che se si indicano con xi gli n valori di una generica
variabile X la media aritmetica si puo scrivere con la formula
x =1
n
n∑i=1
xi.
56 CAPITOLO 3. VALORI MEDI
La somma dei venti valori della variabile numero di convivenze, poteva anche essere
ottenuta nel seguente modo:
0 ∗ 5 + 1 ∗ 5 + 2 ∗ 3 + 3 ∗ 3 + 4 ∗ 4 = 36
cioe facendo il prodotto di ogni modalita per il numero di volte in cui questa si presen-
ta, ovvero la sua frequenza assoluta. Quindi la media aritmetica si puo anche scrivere,
indicando con ni la frequenza assoluta in cui si presenta la modalita xi, nel seguente modo:
x =1
n
k∑i=1
ni ∗ xi.
dove k sono il numero di modalita in cui si presenta la variabile di cui stiamo calcolando
la media. Si noti che se fosse possibile avere 1.8 convivenze e se tutte le 20 donne avessero
avuto un numero di convivenze pari a 1.8, la somma totale delle convivenze sarebbe 36.
Esempio 3.2.2. Calcolare la media aritmetica della variabile Spesa per massaggi nell’E-
sempio 2.3.1.
I 20 importi vanno sommati:
72.50 + 54.28 + 50.02 + 88.88 + 62.30 + 45.21 + 57.50 + 78.40 + 75.13 + 58.00 + 53.70+
+ 91.29 + 74.70 + 41.22 + 65.20 + 63.58 + 48.27 + 52.52 + 69.50 + 85.98 = 1288.18
e quindi la somma divisa per il numero di unita statistiche (20):
1288.18
20= 64.4090
La spesa media e quindi
x = 64.4090.
In questo caso possiamo affermare che se tutti le donne avessero una spesa di 64.4090 euro,
la somma totale della spesa per massaggi sarebbe invariata e pari a 1288.18.
Non si puo calcolare la media aritmetica di un carattere nominale. Ad esempio se
abbiamo la seguente distribuzione
M 22F 12
Tot. 44
non possiamo fare la media tra M e F. Possiamo solo dire che in questo campione e
maggiore il numero di maschi, cioe la moda e il carattere o modalita maschio. Neppure se
fossero codificati
M=1 22F=2 12
Tot. 44
3.2. LA MEDIA ARITMETICA 57
non possiamo calcolare
1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1+
1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1+
2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 = 46
e quindi dire che la media e 46/44 = 1.05.
Esempio 3.2.3. Riprendiamo i dati relativi alla durata dei tempi di pausa nell’esempio
2.3.3. Consideriamo la variabile Durata del tempo di pausa nel caso l’eruzione precedente
sia di tipo corto. Sono 17 osservazioni del campione che per comodita riportiamo nella
seguente tabella.
xi 42 45 49 50 51 53 55 56 58 66 67ni 1 1 1 1 4 2 2 2 1 1 1
Calcoliamo la media aritmetica del tempo di pausa per questo sottocampione.
1. Prima si sommano tutti i valori tenendo presente che alcuni di essi si presentano piu
di una volta:
42 + 45 + 49 + 50 + 51 + 51 + 51 + 51 + 53 + 53 + 55 + 55 + 56 + 56 + 58 + 66 + 67=909
2. Si divide il risultato per il numero di valori, in questo caso n = 17:
909
17= 53.47
Si dice che la media aritmetica dei tempi di pausa tre due eruzioni successive quando
la precedente e di tipo Corto e di 53.47 minuti. La media aritmetica si denota quasi
universalmente con la x barrata. Ovvero si scrive
x = 53.47.
Dal punto di vista inferenziale si puo interpretare che se mi metto seduto accanto
al geyser che ha appena avuto un eruzione di tipo corto, mi aspetto di dover aspettare
(scusate il gioco di parole!) circa 53 minuti prima di vedere il geyser emettere il suo
spruzzo di vapore.
Tornando alla definizione, se si sostituisce ai 17 valori osservati il valore medio calcolato
x = 53.47 abbiamo che la somma totale dei tempi di attesa non cambia, infatti sommare
per 17 volte il valore 53.47 equivale a calcolare il prodotto 53.47 · 17 = 908.99 che e uguale
a 909 a meno degli arrotondamenti.
In modo analogo si puo calcolare la media aritmetica per il tempo di attesa tra due
eruzioni quando il tipo di pausa prcedente e di tipo lungo. Si ottiene x = 78.19. Mentre
il tempo medio di attesa calcolato per tutte le 60 eruzioni risulta: x = 71.183
58 CAPITOLO 3. VALORI MEDI
Sfruttando la definizione di media aritmetica la media totale di tutti i tempi di attesa
si puo anche ottenere come
17 ∗ 53.47 + 43 ∗ 78.19
60=
4271.16
60= 71.186
che a meno degli arrotondamenti e la media calcolata.
Esercizio 3.2.4. Si supponga che per un errore di registrazione dei dati, tutte le 20 donne
nell’Esempio 2.3.1. abbiano avuto un numero di convivenze maggiore di 1 rispetto al valore
registrato. Calcolare la media aritmetica della variabile Numero di convivenze in questo
caso.
3.2.1 Media aritmetica per i dati in classi
I dati che provengono da variabili continue di solito vengono forniti direttamente in classi.
Occorre verificare che essendo il dato la realizzazione di una variabile continua le classi
abbiano sempre la forma (a, b] oppure [a, b), dove con la parentesi tonda si intende che
il valore corrispondente non appartiene a quella classe, mentre con la parentesi quadra
si intende che il valore appartiene alla classe. Se le modalita nelle classi non dovessero
essere in questa forma dobbiamo sempre riscriverle in questo modo per facilitare i conti
che dovremo fare per calcolare i valori medi.
Riprendiamo l’esempio della variabile W la spesa per massaggi per i dati dell’Esempio
2.3.1. Supponiamo che i dati siano forniti in classi invece che i singoli valori originali.
Quando i dati sono raccolti in classi e non possiamo risalire ai dati originari da cui sono
state costruite le classi per calcolare la media aritmetica dobbiamo fare delle ipotesi. Nel
senso che dobbiamo ipotizzare un valore della classe che rappresenta tutti valori che rien-
trano in quella classe. La scelta piu naturale e scegliere il valore centrale della classe. Per
determinare i punti centrali abbiamo una formula: se l’intervallo e [a, b) oppure (a, b], il
punto centrale si ottiene sommano gli estremi e dividendo per due
Punto centrale =a+ b
2
Nella Tavola 3.1 sono riportati i valori centrali, che si ottengono facendo la semisomma
dei valori degli estremi della classe. Si noti che abbiamo cambiato, rispetto alla Tavola
2.15, l’estremo superiore dell’ultima classe per ottenere anche in questo caso un valore
intero. Per calcolare la media aritmetica occorre quindi moltiplicare ogni valore centrale
per la frequenza della classe, sommare tutti i valori ottenuti e dividere per il numero totale
di osservazioni:
x =1
n
k∑i=1
ci ∗ ni
3.2. LA MEDIA ARITMETICA 59
classi ni ci ci · ni40 a 50 3 45 13550 a 58 6 54 32458 a 70 4 64 25670 a 96 7 83 581
20 1296
Tabella 3.1: Frequenze assolute, relative della variabile Spesa per massaggi in euro nell’E-sempio 2.3.1. Gli estremi destri degli intervalli sono inclusi. Sono riportati i calcoli perottenere la media della spesa. ci valore centrale.
eta Uomini Donne totale
meno di 12 84 75 15913-24 282 297 57925-34 391 355 74635-44 281 168 44945-54 187 127 31455-64 168 137 30565-74 79 82 161
75 e piu 45 132 177
Totale 1517 1373 2890
Tabella 3.2: Persone pendolari verso un luogo diverso dalla propria abitazione per sesso eclasse di eta - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti sociali.
dove nella formula, ci e il valore centrale della classe i-esima, k sono il numero di classi
e ni e la frequenza assoluta di ogni classe. Per i dati della variabile W della Tavola 3.1
otteniamo quindi
x =1296
20= 64.8
Si noti come il valore ottenuto, che e una approssimazione della media aritmetica del
campione, e comunque molto simile al valore ottenuto quando i dati non sono raccolti in
classi.
Vediamo un altro esempio. Dall’indagine dell’ISTAT sulle famiglie e i soggetti sociali
sono presi i dati della Tabella 3.2. Si tratta di tre distribuzioni dell’eta dei pendolari
considerati in base al sesso. Vogliamo calcolare l’eta media dei pendolari e capire se c’e
differenza tra l’eta degli uomini e delle donne.
Poiche l’eta e un carattere continuo tutti i valori devono essere considerati. Nella
Tabella 3.3, abbiamo quindi modificato gli estremi dell’intervallo, perche chi ad esempio ha
24 anni e mezzo appartiene alla terza classe non alla seconda. In questa tabella l’intervallo
(a, b] e rappresentato con i simboli a a b. Si noti che per l’ultima classe non era dato
60 CAPITOLO 3. VALORI MEDI
eta valore centrale Uomini Donne totale
0 a 12 6 84 75 15912 a 24 18 282 297 57924 a 34 29 391 355 74634 a 44 39 281 168 44944 a 54 49 187 127 31454 a 64 59 168 137 30564 a 74 69 79 82 16174 a 84 79 45 132 177
Totale – 1517 1373 2890
Tabella 3.3: Persone pendolari verso un luogo diverso dalla propria abitazione per sesso eclasse di eta - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti sociali.
l’estremo superiore quindi abbiamo fatto l’ipotesi che fosse 84, per analogia alle classi
precedenti. Capita spesso che per la prima e l’ultima classe non siano dati gli estremi
inferiore e superiore rispettivamente.
Per la moda possiamo dire che la classe modale e sia per gli uomini che per le donne
(24, 34]. La moda pero non e molto informativa in questo caso. Di solito non si usa per i
dati raccolti in classi.
Per la media aritmetica dovremmo conoscere l’eta di ogni unita che casca in una classe.
Poiche non la conosciamo facciamo l’ipotesi che le unita siano distribuite uniformemente
all’interno della classe, che equivale a ipotizzare che tutti abbiano l’eta che casca nel punto
centrale dell’intervallo che determina la classe. Ad esempio il punto centrale della classe
(24, 34] e 29. Quindi per calcolare la media dobbiamo calcolare tutti i punti medi e quindi
calcolare la media della nuova distribuzione. Per calcolare la media dell’eta degli uomini,
i conti sono riportati nella Tavola 3.4 in cui l’eta 6 si presenta 84 volte, l’eta 18 si presenta
282 volte e cos via. La media dell’eta dei pendolari uomini e si calcola prima facendo il
prodotto di ogni eta per la frequenza con cui si presenta:
6 ∗ 84 + 18 ∗ 282 + 29 ∗ 391 + 39 ∗ 281 + 49 ∗ 187 + 59 ∗ 168 + 69 ∗ 79 + 79 ∗ 45 = 55959
e quindi si digita per il numero di osservazioni:
55959
1517= 36.89.
Si calcoli la media dell’eta per le donne e la media dell’eta per tutto il campione
costruendo le analoghe tabelle delle frequenze per il calcolo della media partendo dai
valori centrali delle classi. I risultati sono: media ete donne 38.62, media eta per tutto
il campione 37.71. Possiamo concludere che le donne che fanno le pendolari hanno quasi
due anni di piu degli uomini.
3.3. LA MEDIANA 61
eta ci ni ci ∗ ni0 a 12 6 84 50412 a 24 18 282 507624 a 34 29 391 1133934 a 44 39 281 1095944 a 54 49 187 916354 a 64 59 168 991264 a 74 69 79 545174 a 84 79 45 3555
Totale – 1517 55959
Tabella 3.4: Calcolo dell’eta media degli uomini pendolari verso un luogo diverso dallapropria abitazione - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggettisociali.
3.3 La mediana
La mediana e un modo alternativo di calcolare il valor medio di una distribuzione inteso
come quel valore che sintetizza al meglio la distribuzione dei dati (l’average inglese) e quindi
descrive meglio il fenomeno oggetto di studio. Forziamo la mano a Trilussa. Supponiamo
di avere 10 persone, una di essa che mangia 10 polli e le altre nove che non ne mangiano
neppure uno. Abbiamo 10 valori, x1 = 10 e gli altri valori xi = 0 per i = 2, 3, . . . , 10. La
media aritmetica del numero di polli mangiati a testa e ancora 1, cioe per dirla con Trilussa
il pollo di media t’entra ne la statistica lo stesso perch’e c’e un antro che ne magna dieci!.
Si capisce che in questo caso la media non descrive bene la distribuzione del numero di
polli che si mangiano questi 10 cristiani! La mediana e un modo alternativo di riassumere
la distribuzione che tiene conto di questa disparita.
Definizione 3.3.1. La mediana e la modalita, cioe quel valore tra quelli osservati, che
ha alla sua sinistra (cioe piu bassi o uguali a se) almeno la meta delle osservazioni e alle
sua destra, (cioe piu alti) l’altra meta delle osservazioni.
La mediana e quindi quel valore che divide divide in due parti uguali le osservazioni.
Vediamo le operazioni per calcolarla.
1. Si ordinano le n osservazioni dalla piu piccola alla piu grande.
2. Si calcola il valore n+12 .
(a) Se n e dispari l’osservazione che sta nella posizione n+12 -esima e la mediana.
(b) Se n e pari si prendono le due osservazioni centrali, quella che occupa la posi-
zione n2 -esima e quella che occupa la posizione n
2 + 1-esima e la mediana e data
dalla media aritmetica di queste due osservazioni.
62 CAPITOLO 3. VALORI MEDI
La mediana puo essere calcolata per tutte le variabili le cui modalita possono essere ordi-
nate, quindi per le variabili numeriche, sia discrete che continue, ma anche per le variabili
qualitative ordinali. Vediamo un esempio.
Esempio 3.3.2. Si considerino i dati relativi al titolo di studio osservato su n = 11
persone. Il titolo di studio e classificato secondo le modalita: Licenza Media=M, Diploma
di scuola Superiore=S, Laurea=L, Master o Dottorato=D. Le osservazioni sono
D L L M S M L S S M S
Cominciamo con ordinare le osservazioni:
Osservazioni : M M M S S S S L L L DPosizione : 1a 2a 2a 4a 5a 6a 7a 8a 9a 10a 11a
Calcoliamo la posizione mediana:
PosMe =n+ 1
2=
11 + 1
2= 6
La mediana e il valore dell’osservazione che occupa la 6a posizione cioe:
Me = S
La mediana e Diploma di scuola Superiore. Si noti che 7 osservazioni (quindi almeno la
meta) hanno un titolo di studio inferiore o uguale a quello mediano, mentre 4 osservazioni
(al piu la meta) hanno un titolo di studio superiore a quello mediano.
Si considerino ora i dati relativi al titolo di studio osservato su n = 10 persone. Le
osservazioni sono
D L L M S M L S S S
Rispetto al campione di prima abbiamo un’osservazione in meno. Ordiniamo le osserva-
zioni:Osservazioni : M M S S S S L L L DPosizione : 1a 2a 2a 4a 5a 6a 7a 8a 9a 10a
Calcoliamo la posizione mediana:
PosMe =n+ 1
2=
10 + 1
2= 5.5
Devo considerare i valori che occupano la 5a e la 6a posizione. In entrambi i casi il valore
e S per cui la mediana e:
Me = S.
Nel caso in cui le osservazioni fossero state (le riportiamo gia ordinate)
Osservazioni : M M M S S L L L L DPosizione : 1a 2a 2a 4a 5a 6a 7a 8a 9a 10a
Poiche le due posizioni centrali sono occupate da due modalita diverse la mediana non e
definita perche non si puo fare la media aritmetica di due valori nominali S e L.
3.3. LA MEDIANA 63
La mediana puo essere calcolata con la tabella delle frequenze relative cumulate. Infatti
poiche la mediana e quel valore che lascia alla propria sinistra almeno la meta delle os-
servazioni piu una, essa puo essere determinata come la modalita la cui frequenza relativa
cumulata supera per la prima volta il valore 0.50. Ad esempio per la prima distribuzione
la tabella delle frequenze relative cumulate e
Titolo ni fi FiM 3 0.27 0.27S 4 0.37 0.64L 3 0.27 0.91D 1 0.09 1
Totali 11 1 −
La prima frequenza relativa cumulate che supera 0.50 e 0.64 e la modalita corrispondente
e S. Per la seconda distribuzione la tabella per il calcolo delle frequenze cumulate relative
e:Titolo ni fi FiM 2 0.20 0.20S 4 0.40 0.60L 3 0.30 0.90D 1 0.10 1
Totali 10 1 −
La prima frequenza relativa cumulate che supera 0.50 e 0.60 e la modalita corrispondente
e S.
Consideriamo le n = 17 osservazioni nell’esempio 2.3.3 relative alla variabile Durata
del tempo di pausa nel caso l’eruzione precedente sia di tipo corto. Le 17 osservazioni
ordinate dalla piu piccola alla piu grande sono:
42, 45, 49, 50, 51, 51, 51, 51, 53, 53, 55, 55, 56, 56, 58, 66, 67
Poiche n e dispari, calcoliamo il valore n+12 = 9. La nona osservazione e il valore 53,
dunque la mediana e 53. Scriveremo Me = 53.
Consideriamo adesso le n = 60 osservazioni nell’esempio 2.3.3 relative alla variabile
Durata del tempo di pausa indipendentemente dal valore della variabile Tipo di pausa
precedente.
Questi sono i valori ordinati della durata della pausa dopo un eruzione del Gaiser Old
Faithful.
42 45 49 50 51 51 51 51 53 53 55 55 56 56 57 58 60 66 67 6768 69 70 71 72 73 73 74 75 75 75 75 76 76 76 76 76 79 79 8080 80 80 81 82 82 82 83 83 84 84 84 85 86 86 86 88 90 91 93
Per calcolare la mediana, poiche n e pari, 60+12 = 30.5, prendiamo i valori nella posizione
n2 = 30 e n
2 + 1 = 31, sono 75 e 75, per cui la mediana e Me = 75.
64 CAPITOLO 3. VALORI MEDI
Tornando all’esempio dei polli, se una persona mangia 10 polli e nove persone zero
polli, la distribuzione ordinata delle osservazioni e
0, 0, 0, 0, 0, 0, 0, 0, 0, 10
il valore (10+1)/2 = 5.5, i due valori che occupano la quinta e la sesta posizione sono 0 e 0,
per cui la mediana e zero. Quindi la mediana di questa distribuzione descrive molto meglio
il fenomeno: il numero medio (inteso come sintesi della distribuzione) di polli mangiati da
ciascuno e zero, non 1, con buona pace di Trilussa.
3.3.1 Mediana per i dati in classi
Per il calcolo della mediana quando i dati sono raccolti in classe il metodo migliore e il
metodo grafico. Vediamo i passi per ottenerla
1. Costruiamo il grafico delle frequenze cumulate relative.
2. Individuiamo sull’asse delle ordinate il valore F = 0.50.
3. Tracciamo la retta orizzontale in corrispondenza di F = 0.50 fino ad incontrare la
spezzata delle frequenze cumulate relative.
4. Tracciamo la retta verticale dal punto dove la retta F = 0.50 incontra la spezzata
delle frequenze cumulate relative fino all’incontro dell’asse.
5. La mediana e il punto dove questa retta incontra l’asse delle ascisse.
Questo metodo grafico e in realta dedotto da un metodo analitico, si individua la classe
mediana, come quella classe in cui la frequenza cumulata relativa e uguale o supera il valore
F = 0.50. Se la cumulata relativa e esattamente 0.50 la mediana e l’estremo superiore della
classe. Sia che sia incluso sia che non lo sia nell’intervallo. Se il valore della frequenza
cumulata supera 0.50, si cerca il valore sull’asse delle ascisse al quale corrisponde sulla
spezzata delle frequenze cumulate il valore sull’asse delle ordinate di 0.50. La formula
e la seguente. Indichiamo con F− e F+ i valori delle frequenze cumulate della classe
prima della classe mediana e della classe mediana rispettivamente. Indichiamo con xa e xb
l’estremo inferiore e l’estremo superiore della classe mediana, indipendentemente se siano
inclusi o esclusi dall’intervallo. La mediana e data da
Me = xa +xb − xaF+ − F−
(0.50− F−) (3.1)
Si noti che se la classe mediana ha come frequenza cumulata esattamente 0.50, allora
nella formula sopra F+ = 0.50 e la mediana e proprio xb, l’estremo superiore della classe
mediana. Vediamo un esempio con i dati dell’esempio dell’indagine dell’ISTAT sulle fa-
miglie e i soggetti sociali. Nella Tabella 3.5 sono calcolate le frequenze cumulate relative.
3.3. LA MEDIANA 65
eta Uomini Ni Fi0 a 12 84 84 0.0612 a 24 282 366 0.2424 a 34 391 757 0.5034 a 44 281 1038 0.6844 a 54 187 1225 0.8154 a 64 168 1393 0.9264 a 74 79 1472 0.9774 a 84 45 1517 1
Totale 1517 – –
Tabella 3.5: Uomini pendolari verso un luogo diverso dalla propria abitazione per sesso eclasse di eta - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti sociali.
xi ni fi Ni ai Fi
40 a 50 3 0.15 3 10 0.1550 a 58 6 0.30 9 8 0.4558 a 70 4 0.20 13 12 0.6570 a 95 7 0.35 20 25 1
20 1.00 20
Tabella 3.6: Spesa per massaggi di 20 donne.
Dalla colonna delle frequenze cumulate relative deduciamo che la classe (24, 34] e la classe
mediana. Notiamo poi che la frequenza relativa cumulata e proprio 0.50. La mediana
in questo caso e l’estremo superiore della classe mediana, 34 anni. Consideriamo ora la
Tabella 3.6, che riporta i dati della spesa per massaggi dell’Esempio 2.3.1.
La classe mediana e (58, 70]. Quindi xa = 58 xb = 70. La frequenza cumulata della
classe mediana e F+ = 0.65, la frequenza cumulata della classe prima della mediana e
0.45. Applicando la formula per la mediana otteniamo
Me = 58 +70− 58
0.65− 0.45(0.50− 0.45) = 61
La mediana del reddito e 61000 euro. (Ricordiamo che i dati del reddito erano in migliaia
di euro). Vediamo un ultimo esempio. L’eta mediana delle donne pendolari. La Tabella
3.7 contiene i dati per il calcolo della mediana. Dalla formula 3.1 abbiamo
Me = 24 +34− 24
0.53 +−0.27(0.50− 0.27) = 32.85
L’ete mediana delle donne pendolari e 33 anni.
Esercizio 3.3.3. Fare il grafico delle frequenze cumulate relative dei dati nelle Tabelle 3.5,
3.6 e 3.7. Dedurre con il metodo grafico il valore della mediana per le tre distribuzioni.
66 CAPITOLO 3. VALORI MEDI
eta Donne Ni Fi0 a 12 75 75 0.0512 a 24 297 372 0.2724 a 34 355 727 0.5334 a 44 168 895 0.6544 a 54 127 1022 0.7454 a 64 137 1159 0.8464 a 74 82 1254 0.9075 a 84 45 1373 1
Totale 1373 – –
Tabella 3.7: Donne pendolari verso un luogo diverso dalla propria abitazione per sesso eclasse di eta - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti sociali.
Esercizio 3.3.4. Calcolare la mediana dell’eta del primo bacio e dell’eta del primo rap-
porto sessuale per i dati nella Tabella 2.23. Dedurre con il metodo grafico il valore della
mediana per le due distribuzioni facendo riferimento alla Figura 2.12.
3.4 Simmetria e asimmetria
L’istogramma dei dati ci permette di capire se la distribuzione dei dati e di tipo asimmetri-
co o simmetrico. Possiamo tracciare seguendo la forma dell’istogramma una curva continua
che mostra la distribuzione dei dati. La Figura 3.1 si riferisce ai tempi di sopravvivenza di
128 pazienti operati per un tumore ai polmoni (dati personali). Quando la distribuzione,
come quella in figura, mostra la maggior parte dei dati nella parte sinistra o mostra valori
bassi, con pochi valori alti, si dice che la distribuzione presenta un’asimmetria positiva. In
questo caso la media assume un valore piu alto della mediana. Quando succede il contrario
(tanti valori alti e pochi bassi), e quindi la media aritmetica e minore della mediana si di-
ce che la distribuzione presenta un’asimmetria negativa. Quando invece la distribuzione e
simmetrica la media e la mediana hanno lo stesso valore. La piu importante distribuzione
simmetrica della statistica e la distribuzione Normale. Se i dati sono distribuiti in modo
simmetrico attorno ad una valore centrale e la loro distribuzione ha la cosiddetta forma a
campana, come nella Figura 3.2 dove abbiamo l’istogramma relativo a 1000 osservazioni
di una distribuzione simmetrica, si dice che i dati seguono una distribuzione Normale, che
qui e tracciata con una linea continua. Torneremo ancora molte volte a questa distribu-
zione perche e la distribuzione piu importante di tutta la statistica. I dati provenienti
da indagini sul peso e sull’altezza di una popolazione seguono spesso una distribuzione
Normale. Questo poiche la maggior parte dei pesi o delle altezze, si distribuiscono attorno
ad un valore centrale, in modo simmetrico a sinistra o a destra e di solito con pochi valori
3.5. QUALE MEDIA SCEGLIERE? 67
t
Den
sity
0 5 10 15
0.00
0.05
0.10
0.15
0.20
Figura 3.1: Tempi di sopravvivenza di 128 pazienti operati per un tumore ai polmoni. Lamedia aritmetica dei tempi e 10 anni. La mediana e 2.3 anni (2 anni e poco piu di 3 mesi).
particolarmente alti o bassi.
3.5 Quale media scegliere?
Il compito della media (average) o valore centrale e quello di sintetizzare un’intera distri-
buzione di dati, quindi l’informazione che ci fornisce deve essere il piu possibile vicino alla
distribuzione che li sintetizza. Diamo qui qualche suggerimento non esaustivo per la scelta
della media per una distribuzione di dati.
1. La moda va usata solo per i dati qualitativi. Quasi mai per i dati quantitativi a
meno che la distribuzione sia bimodale. In questo caso fornire il valore delle due
mode e piu indicativo che fornire la media o la mediana che farebbero scomparire
l’informazione sulle due sottopopolazioni probabilmente presenti.
2. Quando si e in presenza di distribuzioni asimmetriche e meglio utilizzare la Mediana,
perche la media aritmetica risente dei pochi valori particolarmente alti o bassi come
nel caso dell’Esempio rappresentato in Figura 3.1.
3. Se i dati hanno una distribuzione simmetrica e preferibile utilizzare la media arit-
metica.
68 CAPITOLO 3. VALORI MEDI
Distribuzione simmetrica, normale
x
Den
sity
−3 −2 −1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
Figura 3.2: Istogramma di 1000 osservazioni normale e distribuzione Normale (lineacontinua). La distribuzione e simmetrica.
4. Se i dati sono soggetti ad errori (ad esempio dovuti alla registrazione) e meglio
anche in questo caso utilizzare la Mediana, in quanto la media e molto influenzata
da osservazioni particolarmente diverse o inusuali. La mediana invece non risente di
questi valori.
3.6 Quartili, percentili e quantili
I quartili e i percentlli o piu in generale i quantili sono indici di posizione. Individuano
l’osservazione che lascia alla sua sinistra almeno il 25% delle osservazioni (primo quartile),
almeno il 75% delle osservazioni (terzo quartile), almeno una percentuale p di osservazioni
(p-esimo percentile).
Definizione 3.6.1 (Primo quartile). Quel valore che lascia alla sua sinistra il (o almeno
il) 25% delle osservazioni.
Definizione 3.6.2 (Terzo quartile). Quel valore che lascia alla sua sinistra il (o almeno
il) 75% delle osservazioni.
Definizione 3.6.3 (p-esimo percentile). Per p = 1, 2, . . . , 100 e quel valore che lascia alla
sua sinistra il (o almeno il) p% delle osservazioni.
3.6. QUARTILI, PERCENTILI E QUANTILI 69
Dalle definizioni appena date risulta evidente che il 25-esimo, il 50-esimo e il 75-esimo
percentile sono rispettivamente il primo quartile, la mediana e il terzo quartile. Inoltre il
secondo quartile e la mediana. La procedura per calcolare un’approssimazione dei quartili
o dei percentili si puo riassumere nei seguenti passi.
• Si ordinano i valori osservati dal piu piccolo al piu grande.
• Si calcolano i valori 0.25(n+ 1) (primo quartile), 0.75(n+ 1), (terzo quartile) ovvero
il valore p100(n+ 1) (p-percentile).
• Se e intero l’osservazione che occupa la posizione data dal valore calcolato e il primo
quartile o il terzo quartile o p-esimo percentile.
• Se non e intero si calcola la media (pesata) tra i due valori le cui posizioni precedono
e seguono il valore calcolato.
Si osservi che per semplicita si puo prendere il valore medio tra i valori nelle posizioni
indicate. Il valore del quantile corrispondente dovrebbe essere il valore proporzionale alla
parte decimale tra le due osservazioni nelle posizioni date dai due interi che precedono
e seguono il valore non intero calcolato. Se n e elevato conviene procedere calcolando le
frequenze relative cumulate, facendo il grafico di questa ultimo e procedendo trovando il
valore per cui la frequenza relativa cumulata vale quando il percentile che si deve calcolare.
Il valore dell’osservazione per la quale la frequenza relativa cumulata supera 0.25, 0.75,
ovvero p/100 dove p = 1, . . . , 99 e detto primo quartile, terzo quartile o p-esimo percentile.
Esempio 3.6.4. Calcoliamo i quartili e i percentili per i dati dei tempi di pausa prima
di un’eruzione del geyser Old Faithful. I valori ordinati della durata della pausa dopo un
eruzione sono
42 45 49 50 51 51 51 51 53 53 55 55 56 56 5758 60 66 67 67 68 69 70 71 72 73 73 74 75 7575 75 76 76 76 76 76 79 79 80 80 80 80 81 8282 82 83 83 84 84 84 85 86 86 86 88 90 91 93
• Mediana: 60+12 = 30.5. Posizioni 30 e 31, sono i valori 75 e 75, per cui la mediana e
Me = 75.
• Primo Quartile: 0.25(61) = 15.25. Posizioni 15 e 16: sono i valori 57 e 58. Il primo
quartile e Q1 = 57.5
• Terzo Quartile: 0.75(61) = 45.75. Posizioni 45 e 46: sono i valori 82 e 82. Il terzo
quartile e Q3 = 82
• Quinto percentile: 0.05(61) = 3.05. Posizioni 3 e 4: sono i valori 49 e 50. Il quinto
percentile e P5 = 49.5
70 CAPITOLO 3. VALORI MEDI
• 95-esimo percentile: 0.95(61) = 57.95. Posizioni 57 e 58: sono i valori 88 e 90. Il
novantacinquesimo percentile e P95 = 89
3.7 Il box-plot
Il box blot e un grafico che permette di dare una rappresentazione della distribuzione di
una variabile molto immediata tramite il calcolo dei quartili e della mediana. Il nome
deriva dal fatto che la distribuzione di una variabile statistica viene rappresentata come
una scatola. Per disegnare il box plot la procedura puo essere riassunta dai seguenti passi.
1. gli estremi della scatola sono Q1 e Q3
2. la scatola e tagliata dalla mediana
3. Si calcola il valore Q3 + 1.5 · (Q3−Q1). Il basso superiore coincide con la piu grande
osservazione minore o uguale a questo valore.
4. Si calcola il valore Q1 − 1.5 · (Q3 −Q1). Il baffo inferiore coincide con la piu piccola
osservazione maggiore o uguale a questo valore.
5. Tutti i valori fuori dai baffi si segnano come punti isolati.
Esempio 3.7.1. Consideriamo sempre i dati del geyser Old Faithful nei due gruppi ri-
spetto al tipo di eruzione precedente. Le 43 osservazioni con eruzione precedente di tipo
Lunga ordinate sono le seguenti.
57 60 67 68 69 70 71 72 73 7374 75 75 75 75 76 76 76 76 7679 79 80 80 80 80 81 82 82 8283 83 84 84 84 85 86 86 86 8890 91 93
Le 17 osservazioni con eruzione precedente di tipo Corta ordinate sono le seguenti.
42 45 49 50 51 51 51 51 53 5355 55 56 56 58 66 67
Per disegnare il box plot del primo gruppo calcoliamo prima le posizioni della mediana e
del primo e terzo quartile. Esse sono rispettivamente le posizioni
n+ 1
2=
44
2= 22,
n+ 1
4=
44
4= 11, 3
n+ 1
4= 3
44
4= 33,
Quindi la mediana occupa la 22-esima posizione, e il valore 79. Il primo quartile occupa
la 11-esima posizione, si tratta del valore 74. Il terzo quartile occupa la posizione 33, si
tratta del valore 84. Per calcolare i baffi valutiamo dapprima la distanza interquartile.
Q3 −Q1 = 10
3.7. IL BOX-PLOT 71
Quindi
Q3 + 1.5 · (Q3 −Q1) = 99, Q1 − 1.5 · (Q3 −Q1) = 59.
La piu grande delle osservazioni minori o uguali a 99 e 93. Quindi il baffo superiore viene
posto in corrispondenza a 93 poiche non ci sono altre osservazioni maggiori. Per il baffo
inferiore una osservazione e piu piccola di 60. Quindi il baffo inferiore viene posto in
corrispondenza del valore 60. Essendoci ancora un valore piu piccolo di 60, il 57, questo
viene rappresentato singolarmente. Analogamente per il secondo gruppo otteniamo
n+ 1
2=
18
2= 9,
n+ 1
4=
18
4= 4.5, 3
n+ 1
4= 3
18
4= 13.5,
Quindi la mediana e 53. Il primo quartile e la media tra i valori che occupano la quarta
e la quinta posizione, Q1 = 50.5. Il terzo quartile e la media tra valori che occupano
la tredicesima e la quattordicesima posizione indi ragion per cui Q3 = 56. Abbiamo che
Q1− 1.5(Q3−Q1) = 42.25 mentre Q3 + 1.5(Q3−Q1) = 64.25. Poiche c’e un’osservazione
piu piccola di 42.25, il 42, in questo gruppo il baffo viene posto in corrispondenza della
piu grande osservazione minore o uguale a 42.25 cioe 45. L’osservazione minore viene
disegnata singolarmente. Per quanto riguarda il baffo superiore abbiamo due osservazioni
maggiori di 64.25, precisamente 66 e 67 che vengono disegnate singolarmente, mentre il
baffo viene tracciato all’altezza della piu grande osservazione minore di 64.25 ovvero di 58.
Nella Figura 3.3 e riportato il box plot dei tempi di attesa per un’eruzione quando quella
precedente era di tipo lungo e quando era di tipo corto.
Esercizio 3.7.2. Per i dati dell’esempio nella Sezione 2.7.2 disegnare il boxplot per il
tasso dell’uso della parola by negli scritti di Hamilton, Madison e per gli scritti contesi.
72 CAPITOLO 3. VALORI MEDI
●
●
●●
Long Short
4050
6070
8090
Figura 3.3: Boxplot dei tempi di attesa per un’eruzione quando quella precedente era ditipo lungo (a sinistra) e quando era di tipo corto (a destra)
Capitolo 4
La variabilita
Come abbiamo sottolineato all’inizio di questa dispensa si puo affermare senza troppi dub-
bi che lo scopo principale della statistica e la comprensione delle cause della variabilita.
In questo capitolo presentiamo alcuni indici di variabilita che, insieme agli indici dati nel
capitolo precedente, che sintetizzano con un numero tutti i valori osservati sul campione
della variabile, questi ci danno invece informazioni su quanto e come i valori osservati si
distribuiscano attorno al valore centrale. Presenteremo tre di questi indici: il range, lo
scarto interquartile e lo scarto quadratico medio o standard deviation. Accanto a quest’ul-
timo daremo anche la definizione di varianza che tanta importanza avra nella parte di
statistica inferenziale. Prima di introdurre tali indici facciamo qualche considerazione di
carattere generale sulla variabilita. Prima di tutto cerchiamo di capire perche non basta
dare solo l’informazione sintetizzata da un valore medio. Osserviamo le due distribuzioni
nel grafico seguente.
Istogramma di x
x
Density
50 100 150
0.000
0.005
0.010
0.015
0.020
0.025
0.030
0.035
Istogramma di y
y
Density
50 100 150
0.000
0.005
0.010
0.015
0.020
0.025
0.030
0.035
Si tratta di due distribuzioni che hanno la stessa media e la stessa mediana, ma non
possiamo certo dire che fornendo solo l’informazione sul valor medio possiamo descrivere
73
74 CAPITOLO 4. LA VARIABILITA
due situazioni cosı diverse. D’altro canto anche senza conoscere il valor medio di due
distribuzioni, l’informazione che ricaviamo dalla variabilita osservando le due distribuzioni
nel grafico seguente e fondamentale. Il fenomeno nel grafico di sinistra e poco variabile
e molto concentrato attorno al suo valore centrale. Il fenomeno di destra e molto meno
concentrato e molto piu variabile attorno al suo valore medio.
Piccola variabilità
x
densità
0.00.1
0.20.3
0.4
Grande variabilità
x
densità
0.00.1
0.20.3
0.4
Il fenomeno rappresentato e l’eta al matrimonio di un campione di donne negli anni ’40 e di
un altro campione di donne negli anni 2000. Non sapendo quale che sia l’eta media in cui
queste donne si sposavano, (il valore della media delle eta x non e indicato) l’informazione
sulla variabilita e fondamentale per dire che negli anni 2000 l’eta del primo matrimonio e
molto piu variabile.
Consideriamo un altro esempio. La media delle temperature annuali ad Honolulu e
a Phoenix e per entrambe le citta 24oC. Le temperature medie nei dodici mesi nelle due
citta sono riportate nella seguente tabella:
Honolulu 21 22 23 24 25 25 27 26 25 24 24 22
Phoenix 2 8 18 27 28 35 36 38 35 27 22 12
Come si puo notare dai valori in tabella la temperatura ad Honolulu e molto meno variabile
che a Phoenix, quindi l’informazione solo sul valor medio e del tutto fuorviante ad esempio
per l’acquisto di un completo guardaroba in occasione di un trasferimento in ognuna delle
due citta. Se ci basassimo solo sul valor medio acquisteremmo solo camice leggere per
entrambe le citta. Ma nel caso di Phoenix soffriremmo assai i freddo nei mesi invernali e
le camice non ci servirebbero a molto neppure nei mesi della grande calura estiva!
4.1 Il range e lo scarto interquartile
Il range e lo scarto interquartile sono due misure della variabilita che di solito accom-
pagnano la mediana come misura del valor medio (inteso come valore centrale) di una
4.1. IL RANGE E LO SCARTO INTERQUARTILE 75
distribuzione. Vediamo la definizione di entrambi e poi calcoliamo entrambi gli indici per
i dati di un esempio. Il range (si utilizza il termine inglese che in italiano potrebbe essere
tradotto con campo di variazione) misura l’ampiezza totale del dataset o delle osservazioni.
Definizione 4.1.1 (Range). E definito come la differenza tra il valore piu grande osservato
e il valore piu piccolo osservato. In formula:
Range = max{x1, x2, . . . xn} −min{x1, x2, . . . xn}
Lo scarto interquartile a differenza del range non considera tutto il campo di variazione
delle osservazioni ma solo la parte centrale.
Definizione 4.1.2 (Scarto interquartile). Date n osservazioni x1, . . . , xn, siano Q1 e Q3
rispettivamente il primo e il terzo quartile. Lo scarto interquartile e dato da
IQ = Q3 −Q1.
Di solito lo scarto interquartile viale utilizzato quando le osservazioni hanno una
distribuzione asimmetrica e si e utilizzata la mediana come misura del valore centrale.
Esempio 4.1.3. Durante la visita dei servizi sociali ad un campo rom alla periferia di
Roma e stato chiesto alle 13 madri presenti al campo il peso dei loro 13 primogeniti alla
nascita. La seguente tabella riporta i pesi dei 13 neonati. Calcolare la mediana il range e
1 2 3 4 5 6 7 8 9 10 11 12 13
kg 2.5 4.0 3.5 3.0 3.1 3.0 4.0 2.5 3.5 3.0 2.8 3.0 4.7
Tabella 4.1: Peso in kg di 13 neonati in un campo rom.
lo scarto interquatile del peso dei tredici neonati. Prima di tutto ordiniamo le osservazioni
dalla piu piccola alla piu grande. La seguente tabella riporta i dati ordinati.
2.5 2.5 2.8 3.0 3.0 3.0 3.0 3.1 3.5 3.5 4.0 4.0 4.7
Il peso mediano e l’osservazione che occupa la settima posizione (ricordare: (n + 1)/2 =
14/2 = 7). Quindi Me = 3.0 kg. Il range e dato dalla differenza tra l’osservazione piu
grande e l’osservazione piu piccola:
Range = 4.7− 2.5 = 2.2
Mentre il primo e il terzo quartile occupano rispettivamente la posizione 0.25(n+ 1) = 3.5
e 0.75(n+ 1) = 10.5. Quindi
Q1 =2.8 + 3.0
2= 2.9, Q3 =
3.5 + 4.0
2= 3.75, IQ = Q3 −Q1 = 3.75− 2.9 = 0.85.
Possiamo quindi concludere che il il peso mediano dei neonati e 3 kg con un campo di
variazione di 2.2 kg. Oppure concludere che il il peso mediano dei neonati e 3 kg con una
variabilita (data dallo scarto interquartile) di 0.85 kg, ovvero di 850 g.
76 CAPITOLO 4. LA VARIABILITA
4.2 Scarto quadratico medio e varianza
Lo scarto quadratico medio (in inglese standard deviation) misura la variabilita come media
degli scarti al quadrato di ogni osservazione dalla media aritmetica. Di solito si utilizza
quando la media aritmetica viene usata come misura della tendenza centrale.
Definizione 4.2.1 (Scarto quadratico medio). Siano x1, . . . , xn, n osservazioni e sia x la
media aritmetica delle n osservazioni. La quantita
s =
√√√√ 1
n− 1
n∑i=1
(xi − x)2 (4.1)
si chiama scarto quadratico medio ovvero deviazione standard.
In pratica per calcolare lo scarto quadratico medio occorre calcolare nell’ordine:
1. la media aritmetica x = 1n
∑ni=1 xi;
2. gli n scarti (o residui) delle osservazioni della media: xi − x per ogni i = 1, 2, . . . , n;
3. elevare ogni scarto al quadrato: (xi − x)2 per ogni i = 1, 2, . . . , n;
4. sommare tutti i residui al quadrato:∑n
i=1(xi − x)2;
5. dividere la somma dei residui al quadrato per n− 1: 1n−1
∑ni=1(xi − x)2;
6. calcolare la radice quadrata:√
1n−1
∑ni=1(xi − x)2.
Il risultato ottenuto si denota con s.
Osservazione 4.2.2. La somma di tutti i residui e nulla. Infatti
n∑i=1
(xi − x) =n∑i=1
xi − nx
Dividendo entrambi i membri per n e ricordando la definizione di media aritmetica otte-
niamo1
n
n∑i=1
xi −n
nx = x− x = 0.
Da questa osservazione deriva il fatto che la somma di tutti i residui non puo essere
usata come indicatore della variabilita perche e sempre nulla. La varianza e semplice-
mente lo scarto quadratico medio elevato al quadrato, oppure possiamo dire che lo scarto
quadratico medio e la radice quadrata della varianza!
4.2. SCARTO QUADRATICO MEDIO E VARIANZA 77
Definizione 4.2.3 (Varianza). Date n osservazioni x1, . . . , xn, sia x la media aritmetica
delle n osservazioni. La quantita
s2 =1
n− 1
n∑i=1
(xi − x)2 (4.2)
si chiama varianza.
La varianza e una statistica che rivestira un ruolo molto importante nell’inferenza
statistica. Come indice di variabilita e invece poco usato perche non e espresso nella
stessa untia di misura delle osservazioni, bensı al quadrato.
Viene spontaneo chiedersi perche dividiamo per n− 1 invece che per n la somma degli
n residui al quadrato per ottenere la varianza e lo scarto quadratico medio. Dopotutto
abbiamo definito la media di n valori come la loro somma divisa per n. Il motivo e legato
al fatto che dividendo per n − 1 si ottiene una stima piu precisa della varianza di una
distribuzione. Osserviamo che quando si divide una quantita per n−1 si ottiene un valore
piu grande che se avessimo diviso per n. Cioe se avessimo diviso per n avremmo ottenuto
una stima troppo bassa per la varianza. Questo si puo giustificare con il fatto che le n
osservazioni si utilizzano gia una volta per ottenere la media (quindi per stimare il valore
centrale) e poi ancora una volta per calcolare la somma egli scarti. Con questa seconda
operazione si dice che si perde un grado di liberta. Ma torneremo piu avanti su questo
concetto.
Esempio 4.2.4. Riprendiamo i dati dell’Esempio 4.1.3. La tabella riporta i dati per il
calcolo della standard deviation. La media e x = 3.28 Quindi
xi (xi − x) (xi − x)2
1 2.50 -0.777 0.6042 4.00 0.723 0.5233 3.50 0.223 0.0504 3.00 -0.277 0.0775 3.10 -0.177 0.0316 3.00 -0.277 0.0777 4.00 0.723 0.5238 2.50 -0.777 0.6049 3.50 0.223 0.050
10 3.00 -0.277 0.07711 2.80 -0.477 0.22812 3.00 -0.277 0.07713 4.70 1.423 2.025
sum 42.6 0.000 4.946
s =
√1
124.946 =
√0.412 = 0.642.
78 CAPITOLO 4. LA VARIABILITA
Possiamo concludere che il peso medio dei neonati e di 3.28 kg con uno scarto quadratico
medio di 642 grammi. Si scrive x± s ovvero in questo esempio 3.28± 0.64.
Esercizio 4.2.5. Si calcoli la mediana, il range e lo scarto interquartile e quindi la media
aritmetica, la standard deviation e la varianza per i dati dell’Esempio 4.1.3 togliendo
l’ultima osservazione.
Esercizio 4.2.6. I dati nella seguente tabella rappresentano le altezze in cm di 11 giocatori
di una squadra di pallavolo. Calcolare la media aritmetica e lo scarto quadratico medio.
1 2 3 4 5 6 7 8 9 10 11
h (cm) 9 190 185 182 208 186 187 189 179 183 191 179
Fare il grafico dei residui. Calcolare la media e lo scarto quadratico medio quando viene
tolta la quarta osservazioni 208 cm.
Esercizio 4.2.7. La seguente tabella riporta il numero di partner maschili nell’ultimo
anno di 21 donne che hanno usufruito dei servizi offerti da un consultorio nel territorio di
Milano Calcolare la media aritmetica, lo scarto quadratico medio, la mediana e lo scarto
1 1 1 16 0 1 22 3 0 1 1 1 30 2 2 12 0 3 4
interquartile. Quale dei due gruppi di indici (uno per il valore centrale e uno per la
variabilita descrivono meglio il fenomeno? Perche?
Capitolo 5
Operazioni sui dati
Molto spesso i dati vengono trasformati. Trasformare i dati non significa manipolarli o
falsificarli ma semplicemente renderli piu comprensibili o piu facili da studiare e analizzare.
Le ragioni per cui trasformare i dati sono le piu diverse. Le principali sono dovute al
bisogno di confrontare distribuzioni registrate in diverse scale, per trovare errori nei dati
e per migliorare la qualita dei dati stessi. Ad esempio puo essere di interesse studiare
come e se e cambiato il PIL nei paesi della zona Euro prima e dopo l’avvento della moneta
unica. In questo caso dovremo convertire i dati degli anni precedenti il passaggio all’Euro
nella monete comunitaria. Oppure quando vogliamo sapere se un certo punteggio (score) e
sopra o sotto la media. Per quanto riguarda la qualita dei dati a volte alcune informazioni
sono inconsistenti, come ad esempio se l’eta del licenziamento avviene prima dell’eta del
primo impiego.
Le operazioni che presenteremo sui dati sono le trasformazioni di scala e la standar-
dizzazione.
5.1 Trasformazioni di scala
La seguente tabella riporta il peso di 5 donne prima di una dieta, gli scarti dalla media e gli
scarti al quadrato. Calcoliamo il peso medio x = 60 e la deviazione standard s =√
1005−1 =
i xi (xi − x) (xi − x)2
1 55 -5 252 67 7 493 56 -4 164 63 3 95 59 -1 1
300 0 100
5. Dopo 2 settimane di dieta il peso, gli scarti dalla media e gli scarti al quadrato sono
riportati nella seguente tabella. Tutte le donne sono calate di 4 kg. Il peso medio e x = 56
79
80 CAPITOLO 5. OPERAZIONI SUI DATI
i xi (xi − x) (xi − x)2
1 51 -5 252 63 7 493 52 -4 164 59 3 95 55 -1 1
280 0 100
mentre la deviazione standard e ancora s = 5. Si osservi infatti che nella seconda tabella
gli scarti e gli scarti al quadrato non sono cambiati per nessuna delle osservazioni. Questa
e una regola generale: aggiungendo o sottraendo una costante a tutte le osservazioni la
media cambia per il valore di quella costante mentre lo scarto quadratico medio rimane
inalterato. Abbiamo quindi piu formalmente la seguente proposizione.
Proposizione 5.1.1. Siano x1, x2, . . . , xn, n osservazioni. Indichiamo con x la media
campionaria e con sx la deviazione standard delle n osservazioni. Sia a una costante
qualunque (positiva o negativa). Consideriamo la trasformazione
yi = xi + a
Abbiamo
y = x+ a
Mentre la deviazione standard non cambia.
Dimostrazione. Poiche yi = xi + a per ogni i = 1, 2, , . . . , n abbiamo
y =1
n
n∑i=1
(xi + a) =1
n
n∑i=1
xi +1
nna = x+ a.
ovvero la media dei dati trasformati y e uguale alla media dei dati da cui siamo par-
titi x piu la costante a. Denotiamo ora con sx lo scarto quadratico medio delle osser-
vazioni x1, . . . , xn, e analogamente con sy lo scarto quadratico medio delle osservazioni
trasformate. Poiche abbiamo appena dimostrato che y = x+ a abbiamo
sy =
√√√√ 1
n− 1
n∑i=1
(yi − y)2 =
√√√√ 1
n− 1
n∑i=1
(xi + a− (x+ a))2
=
√√√√ 1
n− 1
n∑i=1
(xi − x)2 = sx
Lo scarto quadratico medio non cambia se si somma o se si sottrae una costante.
5.1. TRASFORMAZIONI DI SCALA 81
Supponiamo adesso che invece che essere tutte diminuite di 4 kg, tutte le donne abbiano
perso il 10% del loro peso. Indichiamo con zi il peso dopo la diminuzione del 10%. Si ha
zi = xi − 0.1 · xi ovvero zi = 0.9 · xi. La media del nuovo peso e z = 54 e la standard
deviation e sz =√
814 = 4.5. I conti per ottenere la media e lo scarto quadratico medio
sono riportati nella seguente tabella.
i zi (zi − z) (zi − z)2
1 49.5 -4.5 20.252 60.3 6.3 39.693 50.4 -3.6 12.964 56.7 2.7 7.295 53.1 -0.1 0.81
270 0 81
Osserviamo che 54 e il 10% meno di 60, e 4.5 e il 10% meno di 5. Quindi se si moltiplica
o si divide ogni osservazione per una costante sia la media che lo scarto quadratico medio
dei dati trasformati risultano moltiplicati o divisi per quella stessa costante. Abbiamo
quindi la seguente proposizione
Proposizione 5.1.2. Siano x1, x2, . . . , xn, n osservazioni. Indichiamo con x la media
campionaria e con sx la deviazione standard delle n osservazioni. Sia b una costante
qualunque (positiva). Consideriamo la trasformazione
yi = bxi
Abbiamo
y = bx sy = bsx
Dimostrazione. Poiche yi = bxi per ogni i = 1, 2, , . . . , n abbiamo
y =1
n
n∑i=1
(bxi) =1
nb
n∑i=1
xi = bx.
Si noti infatti che nella prima somma scritta per esteso abbiamo
1
n
n∑i=1
(bxi) =bx1 + bx2 + · · · bxn
n=b(x1 + x2 + · · ·+ xn)
n=
1
nb
n∑i=1
xi
ovvero la media dei dati trasformati y e uguale alla media dei dati da cui siamo partiti x
moltiplicati per la stessa costante b. Denotiamo ora con sx lo scarto quadratico medio delle
osservazioni x1, . . . , xn, e analogamente con sy lo scarto quadratico medio delle osservazioni
82 CAPITOLO 5. OPERAZIONI SUI DATI
trasformate. Poiche abbiamo appena dimostrato che y = bx abbiamo
sy =
√√√√ 1
n− 1
n∑i=1
(yi − y)2 =
√√√√ 1
n− 1
n∑i=1
(bxi − bx)2
=
√√√√ 1
n− 1b2
n∑i=1
(xi − x)2 = bsx
ovvero lo scarto quadratico medio dei dati trasformati sy e uguale allo scarto quadratico
medio dei dati da cui siamo partiti sx moltiplicati per la stessa costante b.
La Figura 5.1 rappresenta come la variabilita di una distribuzione aumenti se moltipli-
chiamo per una costante piu grande di uno, mentre diminuisce se moltiplichiamo per una
costante piu piccola di uno.
2*x
densità
0.00.1
0.20.3
0.4
x
densità
0.00.1
0.20.3
0.4
1/2*x
densità
0.00.1
0.20.3
0.4
Figura 5.1: La variabilita aumenta (a sinistra) o diminuisce (a destra) a seconda se simoltiplica per una costante minore o maggiore di uno una distribuzione qualunque (incentro).
Un vantaggio di questo tipo di trasformazioni e che se sappiamo con che tipo di tra-
sformazione di scala si passa da una osservazione all’altra possiamo calcolare la media e lo
scarto quadratico medio per i dati trasformati senza rifare i conti per i dati trasformati ma
semplicemente trasformando con la stessa trasformazione la media e lo scarto quadratico
medio dei dati trasformati.
5.2 Standardizzazione
L’operazione di standardizzazione di un dato e un’operazione che riveste un ruolo fonda-
mentale in gran parte di tutta la statistica. La standardizzazione ci permette di confrontare
5.2. STANDARDIZZAZIONE 83
e riportare ad una stessa scala dati provenienti da fonti, casi e unita diverse. Per capire
l’importanza partiamo da un esempio. Due studentesse Ada e Bea hanno superato una
l’esame di glottologia con voto 28, l’altra l’esame di filologia germanica con voto 27. Chi
ha ottenuto il miglior risultato? Se si guarda solo al voto si sarebbe tentati di rispondere
che ha ottenuto il miglior risultato Ada prendendo il voto piu alto rispetto al 27 di Bea. Il
confronto fatto in questo modo sarebbe corretto se entrambe avessero sostenuto lo stesso
esame. Essendo l’esame diverso non possiamo rispondere senza fare qualche considerazio-
ne. Nel corso di laurea seguito dalle due studentesse per l’esame di Glottologia la media
di tutti gli studenti che hanno superato l’esame e 26.5 mentre la deviazione standard e
1.5. Per il corso di Filologia germanica invece la media e 24.2 e la deviazione standard e 2.
Quindi sembra essere molto piu difficile prendere un voto alto a Filologia germanica che
a Glottologia. Calcoliamo gli score di entrambi i voti di Ada e Bea. Significa esprimere
quante volte lo scarto quadratico medio il loro voto si e discostato dal valor medio.
Ada:28− 26.5
1.5= 1 Bea:
27− 24.2
2= 1.4
Bea ha ottenuto il risultato migliore, il suo risultato e 1.4 volte la standard deviation
sopra la media, mentre il risultato di Ada e solo 1 volta la s.d. sopra la media. In sostanza
standardizzare un dato vuol dire esprimere la sua distanza dal valor medio come multipli
dello scarto quadratico medio. In pratica si calcola quante volte lo scarto quadratico medio
sta nella differenza tra valore osservato e media. Supponiamo che una terza studentessa
Clio, abbia preso in filologia germanica voto 23. In questo caso il suo voto e inferiore al
valor medio, quindi la differenza tra il voto riportato e la media dei voti in quella materia
e negativo. Lo score risulta
Clio:23− 24.2
2= −0.60.
Quindi Clio ha ottenuto un voto che e 6/10 lo scarto quadratico medio inferiore alla media.
In generale il valore standardizzato di una osservazione proveniente da una popolazione
con media µ e standard deviation σ si puo sempre scrivere come
z =x−Media
Standard Deviationovvero z =
x− µσ
Possiamo scrivere
z =x− µσ
⇒ x = µ+ z · σ
ovvero si puo sempre scrivere
x = Media + z · Standard Deviation ovvero x = µ+ z · σ
Definizione 5.2.1. Lo score o valore standardizzato di un’osservazione xi da una popo-
lazione con media µ e standard deviation σ e il multiplo, in termini di standard deviation,
di quanto l’osservazione si discosta dalla media. Viene calcolato come segue:
zi =xi − µσ
84 CAPITOLO 5. OPERAZIONI SUI DATI
Dalla definizione dello score zi di un osservazione xi come multiplo di σ dello scosta-
mento dalla media µ possiamo scrivere:
xi − µ = ziσ da cui xi = µ+ ziσ
Se µ e σ non sono note non e possibile ricavare il valore standardizzato di una osser-
vazione, allora lo score si puo calcolare come
zi =xi − xsx
dove x e la media calcolata su tutte le osservazioni e sx e la standard deviation calcolata
su tutte le osservazioni.
Lo score misura il numero di standard deviation che un’osservazione si allontana dal
valore medio.
• score positivo: l’osservazione e sopra la media di z volte la standard deviation.
• score negativo: l’osservazione e sotto la media di z volte la standard deviation.
• score nullo: l’osservazione e uguale alla media.
Gli score hanno uno proprieta molto utile. Cerchiamo di derivarla partendo da un
esempio. Per i valori del paso delle 5 donne considerate all’inzio della sezione precedente,
calcoliamo i valori standardizzati (gli score) dei 5 pesi e quindi calcoliamo la media e lo
scarto quadratico medio dei valori standardizzati per i pesi delle 5 donne. I conti sono
riportati nella seguente tabella. Ricordiamo che il peso medio delle 5 donne e x = 60 kg
con una standard deviation sx = 5 kg.
1 2 3 4 5 somma
Peso: xi 55 67 56 63 59 300Peso-media: xi − x -5 7 -4 3 -1 0score: zi = xi−x
sx-1.00 1.40 -0.80 0.60 -0.20 0
score2: z2i 1.00 1.96 0.64 0.36 0.04 4
Possiamo quindi calcolare la media e lo scarto quadratico medio dei pesi standardizzati
media score: z = 0, s.d. score sz =
√4
4= 1
Il fatto che la media degli score sia zero e lo scarto quadratico medio degli score sia 1, non
e un caso.
Proposizione 5.2.2. Siano x1, x2, . . . , xn, n osservazioni. Indichiamo con x la media
campionaria e con sx la deviazione standard delle n osservazioni. Indichiamo con zi i
valori standardizzati
zi =xi − xsx
.
5.2. STANDARDIZZAZIONE 85
Allora
z =1
n
n∑i=1
zi = 0 e sz =
√√√√ 1
n− 1
n∑i=1
(zi − z)2 = 1
Dimostrazione. Poiche sx e una costante e la somma di tutti gli scarti e nulla (ricordare
l’Osservazione 4.2.2), abbiamo
z =1
n
n∑i=1
zi =1
n
n∑i=1
(xi − xsx
)=
1
n
1
sx
n∑i=1
(xi − x) = 0
Passando al calcolo per la standard deviation, poiche z = 0 e per la definizione di sx,
abbiamo
sz =
√√√√ 1
n− 1
n∑i=1
(zi − z)2 =
√√√√ 1
n− 1
n∑i=1
z2i =
√√√√ 1
n− 1
n∑i=1
(xi − x)2
s2x
=
√s2x
s2x
= 1.
Esempio 5.2.3. Per 6 esami del corso di laurea in lettere le medie e gli scarti quadratici
medi sono riportati nella seguente tabella. Tre studentesse hanno sostenuto i seguenti
media sd
Inglese 24.3 1.3Tedesco 25.5 2.1Francese 23.8 1.4Giapponese 26.1 1.8Russo 25.6 2.2Statistica sociale 24.4 2.3
esami con le votazioni riportate:
• Ada: Inglese 25, Francese 25, Giapponese 27, Russo 28
• Bea: Tedesco 24, Francese 26, Russo 27, Stat. Sociale 28
• Clio: Inglese 23, Tedesco 26, Francese 22, Giapponese 27, Russo 24
Chi ha ottenuto il migliore risultato?
Esercizio 5.2.4. L’indice di deprivazione si basa su tre variabili rilevate in ogni comune:
la percentuale di persone che non possiede un auto, riportata in tabella nella colonna NO
Auto, la percentuale di persone che e affetto da una patologia debilitante grave, riportate
nella colonna Malattia e la percentuale di coloro che non sono proprietari della casa dove
abitano, nella colonna NO Casa. Nella seguente tabella sono riportate le percentuali di
86 CAPITOLO 5. OPERAZIONI SUI DATI
comuni NO Auto % Malattia % NO Casa %
Bergamo 25.4 11.3 29.9Trescore 56.9 16.1 56.4Dalmine 31.6 11.8 35.3Albino 32.6 12.5 32.9Clusone 25.6 12.2 34.7Osio 24.4 11.3 43.8
queste variabili rilevate in un campione non specificato in 6 comuni della provincia di
Bergamo. Determinare in quale comune della provincia l’indice di deprivazione e il piu
elevato.
Quale e il comune piu deprivato?
Capitolo 6
Siamo tutti normali?
In questo capitolo studiamo una distribuzione fondamentale per tutta la statistica: la di-
stribuzione normale. Supporre che un fenomeno sia Normale (cioe abbia una distribuzione
Normale) e abbastanza nomale in diversi settori della ricerca in particolare anche nello
studio dei fenomeni sociali. Ad esempio di qui in avanti supporremo che dal punto di vista
teorico tutti i fenomeni che abbiamo incontrato siano distribuiti con questa distribuzione:
la distribuzione normale. Quindi per rispondere alla domanda che da il titolo al capito-
lo: sı siamo tutti normali! A cominciare dalla forma della collina che compare nella foto
riportata in Figura 6.1 e dalla forma della campana riportata in Figura 6.2. Infatti la
distribuzione normale e conosciuta anche come la bell shaped distribution: la distribuzione
a forma di campana.
6.1 La curva e normale!
La distribuzione normale e una distribuzione teorica. Le distribuzioni teoriche si distin-
guono da quelle empiriche perche non sono determinate partendo dai dati (o almeno non
direttamente) ma perche sono date da una formula matematica che ne fornisce la forma
e le caratteristiche salienti come media e scarto quadratico medio. Fino ad ora abbiamo
avuto a che fare con distribuzioni empiriche: partendo dai dati osservati di una certa
distribuzione venivano costruite le forme delle distribuzioni attraverso l’istogramma e i
valori di sintesi come media (aritmetica) mediana, quartili, percentili, scarto quadratico
medio, varianza, range, scarto interquartile. La distribuzione teorica invece e data da una
formula matematica (che non riportiamo qui ma che riportiamo alla fine del capitolo per
i piu curiosi) le cui caratteristiche sono le seguenti:
1. La distribuzione normale e simmetrica attorno al suo valore centrale che coincide
con la media (aritmetica) la mediana e la moda della distribuzione.
87
88 CAPITOLO 6. SIAMO TUTTI NORMALI?
Figura 6.1: La collina normale.
2. La maggior parte dei valori si distribuisce attorno a questo valore centrale secondo
modalita che verrano specificate tra poco.
3. Pochi valori si distribuiscono lontano da questo valore centrale.
4. La curva man mano che si allontana dal valore centrale si avvicina sempre piu all’asse
delle ascisse senza pero mai toccarlo.
La Figura 6.3 riporta il grafico di tre curve normali per le quali il valore centrale e lo stesso.
Il valore centrale viene indicato con la lettera greca mi, µ. Quindi per le distribuzioni in
figura µ = 15.
Le curve delle distribuzioni normali in Figura 6.3 hanno tutte la stessa media, ma non
si puo negare che siano molto diverse tra loro: i fenomeni che rappresentano sono molto
diversi tra loro. Questa diversita e data dalla forma, da quanto i valori della distribuzione
si distribuiscono attorno alla media in termini di multipli dello scarto quadratico medio.
La distribuzione normale e molto comoda perche e caratterizzata oltre che dalla media
µ da solo un’altra grandezza che e lo scarto quadratico medio, che viene indicato con la
lettera greca sigma, che si scrive σ. Le distribuzioni in Figura 6.3 hanno rispettivamente
σ = 1 la blu, σ = 2 la nera e σ = 5 la rossa.
6.1. LA CURVA E NORMALE! 89
Figura 6.2: La campana normale. Foto Ditta Colaci.
Le curve in Figura 6.3 sono molto diverse tra loro, ma quello che hanno in comune sono
alcune caratteristiche. Queste sono date dall’area della curva sotto determinati intervalli
di valori. Precisamente valgono le seguenti proprieta per le aree sotto la curva normale.
Indichiamo con µ la media e con σ lo s.q.m di una Normale. Per ogni distribuzione normale
1. L’area sotto la curva e 1
2. L’area tra µ− σ e µ+ σ e 0.682 (il 68.2% delle osservazione sta tra µ− σ e µ+ σ)
3. L’area tra µ−2σ e µ+2σ e 0.954 (il 95.4% delle osservazione sta tra µ−2σ e µ+2σ)
4. L’area tra µ−3σ e µ+3σ e 0.998 (il 99.8% delle osservazione sta tra µ−3σ e µ+3σ)
La distribuzione Normale ammette, almeno in via teorica che la variabile di interesse
possa assumere valori sempre piu grandi e anche sempre piu piccoli del valore medio
µ. Il valore piu grande che non potra mai essere raggiunto e piu infinito, si indica col
simbolo +∞ e giace all’estremita destra dell’asse dove rappresentiamo il fenomeno (l’asse
delle ascisse). Il valore piu piccolo che non potra mai essere raggiunto e meno infinito,
si indica col simbolo −∞ e giace all’estremita sinistra dell’asse dove rappresentiamo il
fenomeno (l’asse delle ascisse). La curva della distribuzione nomale quindi e centrata in
µ e simmetrica rispetto a µ e tanto piu stretta e alta tanto piu il valore dello scarto
quadratico medio σ e piccolo (cioe c’e poca variabilita attorno al valor medio µ), mentre
e tanto piu larga e bassa tanto piu il valore dello scarto quadratico medio σ e grande
90 CAPITOLO 6. SIAMO TUTTI NORMALI?
0 5 10 15 20 25 30
0.0
0.1
0.2
0.3
0.4
Curva Normale
x
dens
ità
Figura 6.3: Distribuzioni normali con la stessa media ma diverso scarto quadratico medio.
(cioe c’e tanta variabilita attorno al valor medio µ). Per ogni valore di µ e σ la curva della
distribuzione Normale si avvicina all’asse delle ascisse da entrambi i lati senza mai toccarla
se non all’infinito (si dice che e asintotica all’asse delle ascisse). L’area complessiva tra la
curva Normale e l’asse delle ascisse vale sempre 1 e la maggior parte di quest’area si trova
tra i valori µ−3σ e µ+3σ. Solo per rendere un idea di cosa significa maggior parte, l’area
sotto la curva normale da µ − 4σ a −∞ e 0.00003, cioe in genere 3 casi ogni centomila
(105=100000) mentre l’area sotto la curva Normale da µ− 5σ a −∞ e 0.0000003, cioe in
genere 3 casi ogni 10 milioni (107 = 10000000).
Come abbiamo detto la distribuzione normale e una distribuzione teorica. Noi avremo
a che fare con distribuzioni empiriche. Il legame tra la distribuzione empirica e quella
teorica e pero molto stretto. Un fenomeno empirico e lecito ritenere che abbia una distri-
buzione Normale quando calcolati x e s su un campione abbastanza numeroso, e disegnato
l’istogramma delle frequenze relative si osserva che:
1. l’istogramma e simmetrico rispetto alla media aritmetica x;
2. circa il 68.2% delle osservazioni del campione sta tra x− s e x+ s;
3. circa il 95.4% delle osservazioni del campione sta tra x− 2s e x+ 2s;
4. circa il 99.8% delle osservazioni del campione sta tra x− 3s e x+ 3s;
5. praticamente nessun valore sta oltre x− 4s e x+ 4s
6.1. LA CURVA E NORMALE! 91
Se un fenomeno riteniamo si possa distribuire come una Normale, secondo quanto descritto
sopra, possiamo ritenere noti la media µ e lo scarto quadratico medio σ della distribuzione
(nella pratica saranno considerati µ = x e σ = s).
Esempio 6.1.1. La distribuzione empirica dei voti di 1200 studenti che hanno sostenuto
l’esame di statistica e riportato nella Figura Figura 6.4. Insieme all’istogramma dei voti
di 1200 studenti che hanno sostenuto l’esame di statistica abbiamo tracciato il grafico della
distribuzione Normale con µ pari alla media calcolata sul campione che e x = 24.002 e
deviazione standard σ pari a quella calciata sul campii che e s = 1.5. Come si vede la curva
teorica si sovrappone molto bene all’istogramma ricavato empiricamente e le porzioni di
frequenze relative descritte sopra vengono rispettate.
Distribuzione dei voti, normale
x
Den
sity
18 20 22 24 26 28 30
0.00
0.05
0.10
0.15
0.20
0.25
Figura 6.4: Distribuzione empirica e distribuzione teorica dei voti di 1200 studenti. Isto-gramma dei voti all’esame di statistica: Media=24.002, Mediana= 24, moda=24, sd= 1.5,curva normale con media 24 e sd=1.5
E importante notare che dati i valori di µ e σ caratterizziamo completamente la di-
stribuzione normale, cioe la identifichiamo e siamo in grado di disegnarla. Ad esempio se
sappiamo che una certa distribuzione di redditi e normale con media µ = 15000 e standard
deviation σ = 3000, il grafico e quello riportato in Figura 6.5.
Se sappiamo che l’eta a cui viene dato il primo bacio (esempio presentato nella Sezione
2.7.3) e distribuita come una normale con media µ = 14 anni e scarto quadratico medio
σ = 2.5 anni (due anni e mezzo) il grafico e riportato in Figura 6.6.
Ancora dall’esperienza personale basata su 1200 esami effettuati, posso ritenere che la
distribuzione del voto di statistica alla facolta di ingegneria sia normale con media µ = 24
e scarto quadratico medio σ = 1.5. Il grafico e riportato nella Figura 6.7
92 CAPITOLO 6. SIAMO TUTTI NORMALI?
0 5000 10000 15000 20000 25000 30000
0.00
000
0.00
004
0.00
008
0.00
012
Distribuzione dei redditi
x
dnor
m(x
, 150
00, 3
000)
Figura 6.5: Distribuzioni dei redditi normale con µ = 15000 euro σ = 3000 euro.
Possiamo ora rispondere alle seguenti domande e ad altre simili:
1. Che proporzione di popolazione di studenti ha preso un voto che sta tra µ e µ+ 2σ,
cioe un voto tra 24 e 27?
2. Che proporzione di popolazione di redditieri ha un reddito compreso tra µ− σ e µ,
ovvero un reddito comrpeso tra 12000 euro e 15000 euro?
3. Che proporzione di popolazione di redditieri ha un reddito minore di µ− σ, ovvero
un reddito minore di 12000 euro?
4. Che proporzione di popolazione di giovani uomini ha dato il primo bacio ad un eta
minore di µ − 2σ o maggiore di µ + 2σ, ovvero minore di 9 anni o maggiore di 19
anni?
Nell’ordine abbiamo
1. L’area sotto la curva normale tra µ e µ+2σ e 0.954/2, ovvero 0.477. La proporzione
richiesta e il 47.7%.
2. L’area sotto la curva normale tra µ− σ e µ e 0.682/2, ovvero 0.341. La proporzione
richiesta e il 34.1%.
3. L’area sotto la curva normale dal limite inferiore a µ− σ e 0.50− 0.341 = 0.159. La
proporzione cercata e quindi il 15.9 %
6.2. LA NORMALE STANDARDIZZATA 93
0 5 10 15 20 25 30
0.00
0.05
0.10
0.15
Distribuzione dell'età al primo bacio
x
dnor
m(x
, 14,
2.5
)
Figura 6.6: Distribuzioni dell’eta al primo bacio con µ = 14 anni σ = 2.5 anni.
4. L’area sotto la curva normale dal limite inferiore a µ− 2σ e l’area da µ+ 2σ e data
da 1− 0.954 = 0.046. La proporzione richiesta e il 4.6%.
Per ogni distribuzione Normale con valore medio µ e scarto quadratico medio σ pos-
siamo dividere l’area tra la curva e l’asse delle ascisse in settori simmetrici per multipli di
σ e l’area di questi settori e riassunta in questa tabella:
Settore (−∞, µ− 3σ) (µ− 3σ, µ− 2σ) (µ− 2σ, µ− σ) (µ− σ, µ)Area 0.001 0.022 0.136 0.341
Settore (µ, µ+ σ) (µ+ σ, µ+ 2σ) (µ+ 2σ, µ+ 3σ) (µ+ 3σ,+∞, )Area 0.341 0.136 0.022 0.001
6.2 La normale standardizzata
Esistono quindi un’infinita di distribuzioni normali, una per ogni valore della media µ e
ogni valore dello scarto quadratico o medio σ. Tra tutte le normali c’e n’e una un po’
piu normale delle altre. Si tratta della normale standardizzata che e una distribuzione
normale con media µ = 0 e scarto quadratico medio σ = 1. Questa distribuzione riveste
un ruolo particolare perche e la distribuzione degli Z-scores di ogni distribuzione normale.
Prendiamo uno dei tre esempi della sezione precedente. La distribuzione dei redditi.
Indichiamo con x un reddito generico. La distribuzione di tutti i possibili redditi e una
distribuzione normale con media µ = 15000 e standard deviation σ = 3000. Consideriamo
adesso per un reddito generico x il suo z-score. Lo score del reddito e definito come
z =x− 15000
3000
94 CAPITOLO 6. SIAMO TUTTI NORMALI?
18 20 22 24 26 28 30
0.00
0.05
0.10
0.15
0.20
0.25
Distribuzione dei voti normale teorica
x
dnor
m(x
, 24,
1.5
)
Figura 6.7: Distribuzioni dei voti all’esame di statistica µ = 24 trentesimi σ = 1.5trentesimi.
per ogni reddito x. La distribuzione di tutti i possibili z-scores dei redditi segue una
distribuzione normale standardizzata, ovvero con media µ = 0 e scarto quadratico medio
σ = 1. Se consideriamo la distribuzione dei voti all’esame di statistica, si tratta di una
distribuzione normale con media µ = 24 e scarto quadratico medio σ = 1.5. Se indico con
x il voto generico, lo z-score del voto e
z =x− 24
1.5
Anche in questo caso la distribuzione di tutti i possibili z-scores dei voti segue una distri-
buzione normale standardizzata, ovvero con media µ = 0 e scarto quadratico medio σ = 1.
Si puo generalizzare per ogni tipo di distribuzione normale. Abbiamo infatti il seguente
risultato.
Proposizione 6.2.1. Sia X un fenomeno con una distribuzione Normale con media µ e
scarto quadratico medio σ. Sia x uno dei possibili valori assunti da X. La distribuzione
di tutti i possibili score per ogni valore possibile x,
z =x− µσ
segue una distribuzione normale standardizzata.
Gli z-score sono importanti nella pratica perche riconducono ogni problema ad un
problema relativo a una sola distribuzione. Facendo riferimento agli esempi precedenti,
se si vuole conoscere la proporzione di studenti che ha un voto compreso tra 24 − 1.5 e
6.2. LA NORMALE STANDARDIZZATA 95
Distribuzione dei voti, normale empirica
x
Den
sity
18 20 22 24 26 28 30
0.00
0.05
0.10
0.15
0.20
0.25
Figura 6.8: Distribuzione empirica dei voti di 1200 studenti. Istogramma dei voti all’esamedi statistica: Media=24.002, Mediana= 24, moda=24, sd= 1.5
24 + 1.5, questa e pari alla proporzione di studenti che ha uno z-score del voto compreso
tra −1 e 1. Se si vuole conoscere la proporzione di redditieri che ha un reddito compreso
tra 15000 − 3000 e 15000 + 3000, questa e pari alla proporzione di redditieri che ha uno
z-score del reddito compreso tra −1 e 1. In entrambi i casi trattandosi dell’area sotto una
curva normale di media µ = 0 e s.q.m. σ = 1, so che tale proporzione e pari al 68.26%. Se
voglio sapere la proporzione di redditieri con uno z-score tra −2 e 2, questa e equivalente
alla proporzione di redditieri che hanno un reddito compreso tra il valor medio e piu o
meno due standard deviation del reddito, ancora so che tale proporzione e il 95.46%. Ma la
distribuzione degli z score permette di rispondere a domande piu interessanti come quelle
nel seguente esempio.
Esempio 6.2.2. La distribuzione dei voti all’esame di statistica e normale con media
µ = 24 e s.q.m. σ = 1.5.
1. Prendete 28. Che proporzione di studenti hanno preso un voto maggiore del vostro?
2. Prendete 23. Che proporzione di studenti ha preso un voto minore del vostro?
3. Qual e il voto minimo che dovete prendere per essere tra il 60% degli studenti piu
bravi?
Per la rispondere alla prima domanda occorre calcolare l’area sotto la curva nomale
con media µ = 24 e σ = 1.5 dal valore 28 fino a piu infinito. Si noti che 28 non e esprimibile
96 CAPITOLO 6. SIAMO TUTTI NORMALI?
come µ+kσ per k pari a 1, 2 o 3. Infatti 28 ha uno z score di (28−24)/1.5 = 2.67. Quindi
non e esprimibile come multiplo intero di σ, ma invertendo la definizione di z-score,
x = µ+ zσ
possiamo scrivere 28 = 24+2.67 ·1.5. L’area da 28 a +∞ sotto la curva normale con media
µ = 24 e s.q.m. σ = 1.5 e uguale all’area sotto la curva nomale standardizzata da 2.67 a
+∞. Si noti che 23 ha uno z score di (23 − 24)/1.5 = −0.67. Quindi non e esprimibile
come multiplo intero di σ. Io devo poter calcolare la proporzione di studenti che hanno
lo z score minore di −0.67. In questo modo conoscero la proporzione di studenti di cui
sono stato piu bravo, ovvero con uno z score minore del mio. Per rispondere alla terza
domanda, devo trovare quel voto per cui la proporzione di voti maggiori di quel voto sia
il 60%. Devo trovare lo z score tale per cui l’area sotto la curva normale standardizzata
dal valore z in poi sia pari a 0.60.
Prima di rispondere a queste domande dobbiamo introdurre la tavola dei valori della
normale standardizzata. Tali tavole riportano i valori dell’area sotto la curva Normale
standardizzata per diversi valori degli z score. Ne riportiamo alcune nell’Appendice A.
Esse sono tutte equivalenti, nel senso che i valori di una tavola possono essere dedotti da
una qualunque delle altre con semplici considerazioni geometriche basate sulla simmetria
della distribuzione Normale. Prendiamo ad esempio la Tabella A.1. I valori nella prima
colonna sono i valori degli z score fino alla prima cifra decimale. Sono i valori da 0.0
a 3.5. La seconda cifra decimale la troviamo invece nella prima riga, sono i valori 0.00,
fino a 0.09. I valori interni alla tavola corrispondono all’area sotto la curva normale da
0 fino al valore dello z score come mostra il grafico sopra la tavola. Per calcolare l’area
sotto la curva per l’intervallo (0, 1.51) si cerca il valore all’incrocio della riga 1.5 e della
colonna 0.01, cioe l’area e 0.434. Quest’area corrisponde alla probabilita che lo z score
assuma valori tra 0 e 1.51. Per capire come le tavole sono tutte equivalenti e chiaro che se
volessimo calcolare la probabilita che lo z score sia maggiore di 1.51, questa probabilita e
data dall’area sotto la curva da 1.51 all’infinito e tale area la ricaviamo da quella da 0 a
piu infinito che e 0.5 togliendo l’area da 0 a 1.51 che abbiamo ricavato dalla tavola, cioe
0.500− 0.434 = 0.066. Il valore 0.066 puo essere ricavato direttamente dalla Tabella A.2.
Questa tavola fornisce i valori delle aree da un qualunque z score positivo a piu infinito.
In corrispondenza dell’incrocio tra 1.5 e 0.01 di questa tavola troviamo infatti 0.066.
Quindi per rispondere alla prima domanda devo cercare nella Tabella A.2 lo z-score
2.67 e trovare il valore dell’area corrispondente. Il valore lo trovo all’incrocio tra la riga
di 2.6 e la colonna di 0.07: si tratta del valore 0.004. Quindi solo lo 0.4% di studenti
prendera un voto maggiore di 28. Si noti che tale valore poteva anche essere ricavato
da una qualunque delle altre tavole. Ad esempio dalla Tabella A.4 cercando il valore
corrispondente a 2.67, che e 0.996. L’area cercata e 1 − 0.994 = 0.004. Oppure dalla
6.2. LA NORMALE STANDARDIZZATA 97
Tavola A.3 cercando il valore corrispondente a -2.67, che e 0.496. L’area cercata in questo
caro e 0.500− 0.496 = 0.004.
Per quanto riguarda il secondo punto devo calcolare l’area da −∞ al valore −0.67.
Posso cercare il valore -0.67 nella Tabella A.3. Lo trovo in corrispondenza della riga con
−0.6 e della colonna con −0.07. Il valore all’incrocio tra questa riga e questa colonna
riporta il valore: 0.249. L’area cercata e quindi 0.500 − 0.249 = 0.251. Posso concludere
che la percentuale cercata e il 25.1%. Lo stesso valore poteva essere ricavato direttamente
osservando che l’area cercata e la stessa calcolata da 0.67 a +∞ e quindi dalla Tabella A.2
incorrispondenza di 0.67, troviamo 0.251.
Per rispondere all’ultima domanda devo utilizzare le tavole in maniera inversa. In
questo caso conosco il valore di un area (trasformo la proporzione 60% in 0.60) e devo
trovare il valore dello z score che lascia alla sua destra sotto la curva normale un’area pari
a 0.60 ovvero alla sua sinistra un’area di 0.40. Cerco quindi tale valore ad esempio nella
Tabella A.4 e noto che nella tavola ci sono i valori 0.599 che lo approssima per difetto e che
corrisponde allo z score 0.25 e il valore 0.603 che lo approssima per eccesso e che corrisponde
allo z score 0.26. Il valore z che cerco puo essere scelto un due modi: o prendo il valore
tra i due z score con l’errore piu basso, in questo caso 0.25, perche 0.600− 0.599 = 0.001 e
minore di 0.603− 0.600 = 0.003. Oppure prendo il punto intermedio 0.255 tra 0.25 e 0.26.
z 0
Φ(z) = P(Z ≤ z) = ⌠⌡−∞
zf(x)dx
Figura 6.9: Area sotto la curva normale standardizzata della regione di valori minori delgenerico z score.
98 CAPITOLO 6. SIAMO TUTTI NORMALI?
Esercizio 6.2.3. Il QI nella popolazione e noto che si distribuisce come una normale con
µ = 100 e standard deviation σ = 15.
1. Tra quali valori di QI sta il 68.26% della popolazione centrale?
2. Quale proporzione di popolazione ha un QI minore di 75?
3. Quale proporzione di popolazione ha un QI minore di 105?
4. Quale proporzione di popolazione ha un QI maggiore di 105?
5. Quale proporzione di popolazione ha un QI maggiore di 130?
6. Quale proporzione di popolazione ha un QI compreso tra 90 e 115?
7. Quale proporzione di popolazione ha un QI compreso tra 95 e 105?
8. A che QI corrisponde il 10% della popolazione con QI piu alto?
Esercizio 6.2.4.
Si assuma che l’indice di alienazione tra gli stranieri di origine asiatica sia distribuito
come una normale con media µ = 22 e standard deviation σ = 2.5 (alti punteggi riflettono
un alto sentimento di alienazione).
1. Calcolare sulla base di questa distribuzione la probabilita per uno straniero di origine
asiatica di avere un indice di alienazione tra 22 e 25.
2. Calcolare sulla base di questa distribuzione la probabilita per uno straniero di origine
asiatica di avere un indice di alienazione maggiore di 25.
3. Quale indice di alienazione corrisponde al 5% di popolazione che possiede indici di
alienazione piu elevati?
6.3 Un po’ di formule matematiche e un po’ di storia
La formula matematica della curva della distribuzione normale con generica media µ e
generico scarto quadratico medio σ > 0 e la seguente:
f(x) =1√
2πσ2e−
(x−µ)2
2σ2 , x ∈ R
Nella formula oltre ai parametri µ e σ compaiono anche π il numero noto come pi greco il
cui valore approssimato alla seconda cifra decimale e 3.14 e la x. La x e la variabile. Per
ogni valore di x ∈ R, dove R e l’insieme dei numeri reali, tutti quanti, f(x) ci da il valore in
6.3. UN PO’ DI FORMULE MATEMATICHE E UN PO’ DI STORIA 99
z 0.00 -0.01 -0.02 -0.03 -0.04 -0.05 -0.06 -0.07 -0.08 -0.090.0 0.50000 0.49601 0.49202 0.48803 0.48405 0.48006 0.47608 0.47210 0.46812 0.46414-0.1 0.46017 0.45620 0.45224 0.44828 0.44433 0.44038 0.43644 0.43251 0.42858 0.42465-0.2 0.42074 0.41683 0.41294 0.40905 0.40517 0.40129 0.39743 0.39358 0.38974 0.38591-0.3 0.38209 0.37828 0.37448 0.37070 0.36693 0.36317 0.35942 0.35569 0.35197 0.34827-0.4 0.34458 0.34090 0.33724 0.33360 0.32997 0.32636 0.32276 0.31918 0.31561 0.31207-0.5 0.30854 0.30503 0.30153 0.29806 0.29460 0.29116 0.28774 0.28434 0.28096 0.27760-0.6 0.27425 0.27093 0.26763 0.26435 0.26109 0.25785 0.25463 0.25143 0.24825 0.24510-0.7 0.24196 0.23885 0.23576 0.23270 0.22965 0.22663 0.22363 0.22065 0.21770 0.21476-0.8 0.21186 0.20897 0.20611 0.20327 0.20045 0.19766 0.19489 0.19215 0.18943 0.18673-0.9 0.18406 0.18141 0.17879 0.17619 0.17361 0.17106 0.16853 0.16602 0.16354 0.16109-1.0 0.15866 0.15625 0.15386 0.15151 0.14917 0.14686 0.14457 0.14231 0.14007 0.13786-1.1 0.13567 0.13350 0.13136 0.12924 0.12714 0.12507 0.12302 0.12100 0.11900 0.11702-1.2 0.11507 0.11314 0.11123 0.10935 0.10749 0.10565 0.10383 0.10204 0.10027 0.09853-1.3 0.09680 0.09510 0.09342 0.09176 0.09012 0.08851 0.08691 0.08534 0.08379 0.08226-1.4 0.08076 0.07927 0.07780 0.07636 0.07493 0.07353 0.07215 0.07078 0.06944 0.06811-1.5 0.06681 0.06552 0.06426 0.06301 0.06178 0.06057 0.05938 0.05821 0.05705 0.05592-1.6 0.05480 0.05370 0.05262 0.05155 0.05050 0.04947 0.04846 0.04746 0.04648 0.04551-1.7 0.04457 0.04363 0.04272 0.04182 0.04093 0.04006 0.03920 0.03836 0.03754 0.03673-1.8 0.03593 0.03515 0.03438 0.03362 0.03288 0.03216 0.03144 0.03074 0.03005 0.02938-1.9 0.02872 0.02807 0.02743 0.02680 0.02619 0.02559 0.02500 0.02442 0.02385 0.02330-2.0 0.02275 0.02222 0.02169 0.02118 0.02068 0.02018 0.01970 0.01923 0.01876 0.01831-2.1 0.01786 0.01743 0.01700 0.01659 0.01618 0.01578 0.01539 0.01500 0.01463 0.01426-2.2 0.01390 0.01355 0.01321 0.01287 0.01255 0.01222 0.01191 0.01160 0.01130 0.01101-2.3 0.01072 0.01044 0.01017 0.00990 0.00964 0.00939 0.00914 0.00889 0.00866 0.00842-2.4 0.00820 0.00798 0.00776 0.00755 0.00734 0.00714 0.00695 0.00676 0.00657 0.00639-2.5 0.00621 0.00604 0.00587 0.00570 0.00554 0.00539 0.00523 0.00508 0.00494 0.00480-2.6 0.00466 0.00453 0.00440 0.00427 0.00415 0.00402 0.00391 0.00379 0.00368 0.00357-2.7 0.00347 0.00336 0.00326 0.00317 0.00307 0.00298 0.00289 0.00280 0.00272 0.00264-2.8 0.00256 0.00248 0.00240 0.00233 0.00226 0.00219 0.00212 0.00205 0.00199 0.00193-2.9 0.00187 0.00181 0.00175 0.00169 0.00164 0.00159 0.00154 0.00149 0.00144 0.00139-3.0 0.00135 0.00131 0.00126 0.00122 0.00118 0.00114 0.00111 0.00107 0.00104 0.00100
Tabella 6.1: Tavola della Normale standard. Valori di Φ(z) = P (Z < z) per z negativi. Percalcolare P (Z < −1.51) = Φ(−1.51) si cerca il valore all’incrocio della riga −1.5 e della colonna−0.01, cioe Φ(−1.51) = 0.06552.
ordinata della curva normale. Si noti che al crescere di x verso valori sempre piu grandi o
al diminuire di x verso valori sempre piu piccoli, ma grandi in valore assoluto, ad esempio
per x = −100 o x = 100, il valore di f(x) per µ = 10 e σ = 4 vale 0.0 . . . 110zeri0117.
Questo e praticamente 0 ma non lo e di fatto! Si noti che l’esponente del numero e (altra
costante universale della matematica, il numero di Nepero, la base dei logaritmi naturali,
che approssimata alla seconda cifra decimale vale 2.27) e negativo, il che significa che al
crescere dell’esponente, diventa sempre piu vicino allo zero, ma non lo raggiunge mai. Solo
al limite e−∞ = 0. Il simbolo ∞ e il simbolo matematico che denota il valore infinito,
che non e un valore vero e proprio ma solo una quantita molto molto molto grande. La
distribuzione della normale standard, la distribuzione di tutti gli z-scores e invece data
dalla formula:
f(z) =1√2πe−
12z2 , z ∈ R.
Si tratta delle stessa formula dove abbiamo sostituito a µ il valore zero e a σ abbiamo
sostituito il valore 1 (nella distribuzione normale standardizzata abbiamo µ = 0 e σ = 1).
Abbiamo utilizzato la lettera z invece della lettera x ma questo non ha nessuna importanza.
Avremmo potuto utilizzare ancora la lettera x per indicare un valore qualunque dello z
score. La distribuzione normale prende anche il nome di distribuzione Gaussiana, dal
nome del matematico tedesco Carl F. Gauss (1777-1855) che per primo dedusse il teorema
centrale del limite, o il teorema di normalita asintotica, che studieremo nel prossimo
100 CAPITOLO 6. SIAMO TUTTI NORMALI?
capitolo e che vide apparire per la prima volta la distribuzione gaussiana. Per una biografia
di Gauss consiglio la lettura del libro La misura del mondo di Daniel Kehlmann (Feltrinelli)
dove la personalita e il carattere molto particolari di Gauss sono descritti in modo sublime
insieme alla personalita di un altro grande scienziato tedesco: Alexander von Humboldt.
Capitolo 7
Dal campione alla popolazione
Nelle scienze sociali, come in ogni altra scienza, l’interesse e in genere rivolto ad un par-
ticolare gruppo (di persone o di altro tipo). Ad esempio siamo interessati a sapere qual
e la percentuale di giovani che sono disoccupati in Italia. Per trovare questa percentuale
potremmo domandare a tutti i giovani d’Italia se siano o meno disoccupati e quindi cal-
colarla come numero dei disoccupati diviso numero totale dei giovani in Italia. Si capisce
bene che tale procedura e di fatto irrealizzabile.
Fortunatamente non occorre fare questo per sapere qual e la percentuale dei giovani
senza lavoro. Se lo domandiamo solo ad un campione, purche questo sia scelto in maniera
appropriata, il calcolo della percentuale di giovani disoccupati nel campione potra essere
esteso a tutta la popolazione dei giovani. La percentuale dei disoccupati valutata sul
campione costituisce una stima della percentuale dei disoccupati nell’intera popolazione.
7.1 Campionamento
Ci sono due concetti molto importanti alla base del campionamento, il concetto di popo-
lazione e quello di campione. La popolazione e il gruppo sul quale vogliamo conoscere
qualche cosa (nell’esempio di prima: la popolazione sono i giovani italiani, l’oggetto di
nostro interesse e la percentuale di disoccupati). Non sempre la popolazione e tangibile
o reale, come in questo caso, dove per forza di cose e finita. A volte la popolazione e
concettuale e non tangibile. Questo e tipico degli esperimenti fisici o dove interessa misu-
rare una quantita e vengono eseguiti un certo numero di esperimenti per ottenere questa
misura. Ogni misura ottenuta in ognuno degli esperimenti e il campione ma la popolazione
e costituita da tutte le possibili misurazioni che si sarebbero potute avere. In genere nelle
scienze sociali la popolazione e costituita da un gruppo ben specificato di persone, quindi
sara sempre tangibile e costituita da un numero finito di unita.
Definizione 7.1.1 (Popolazione). L’intera collezione di oggetti o persone o eventi sui
quali si ricerca l’informazione di interesse.
101
102 CAPITOLO 7. DAL CAMPIONE ALLA POPOLAZIONE
Prima di tutto la popolazione deve essere ben definita. Se ad esempio si vuole condurre
un’indagine per sapere se gli adulti sono favorevoli alla liberalizzazione della cannabis,
occorre ben definire la categoria degli adulti. Anche la variabile di interesse deve essere
ben definita. Se vogliamo conoscere il reddito medio, dobbiamo specificare cosa intendiamo
per reddito medio. La media aritmetica o la mediana? Il secondo concetto e invece quello
di campione.
Definizione 7.1.2 (Campione). E un sottoinsieme della popolazione che contiene gli
oggetti o le persone o gli eventi sui quali si osserva la quantite di interesse.
La caratteristica fondamentale di un campione e che deve essere rappresentativo della
popolazione dalle quale e stato scelto. Ad esempio se torniamo al problema di conoscere
la percentuale di disoccupati, per stimare questa percentuale non possiamo scegliere come
campione 100 giovani laureati da tre anni all’universita di Milano. Quello che stimeremmo
in questo caso sarebbe la percentuale di disoccupati tra i giovani laureati da tre anni
all’universita di Milano, non la percentuale dei disoccupati tra i giovani in Italia.
Vi sono molte ragioni per cui la caratteristica valutata sulle unita del campione non e
in genere uguale alla caratteristica della popolazione. Si tenga presente che noi non saremo
mai in grado di dire quanto e la percentuale dei disoccupati in Italia! Le quantita sulla
popolazione sono di solito chiamate parametri. I parametri possono assumere determinati
valori, uno solo e il vero valore del parametro e noi non lo conosceremo mai: il lavoro dello
statistico e molto triste! Studia per qualcosa che non sara mai in grado di conoscere!
Quello che pero si puo fare e fare una stima di questo parametro (la percentuale
dei disoccupati ad esempio) sulla base di un campione scelto bene, e dire quanto si puo
sbagliare.
I tipi di errore nel campionamento possono essere di diverso tipo e occorre scegliere il
campione in modo appropriato in modo da minimizzare questi errori. Vediamo alcuni di
questi errori di campionamento.
1. Variabilita del campione. Questo errore e detto anche errore casuale ed e dovuto
al fatto che scegliendo diversi campioni la quantita di interesse calcolata su diversi
campioni sara diversa. Ad esempio se scegliamo in modo appropriato 1000 campioni
di cento giovani per stimare la percentuale di disoccupati, non osserveremo sempre
la stessa percentuale di disoccupati in ogni campione.
2. Errore di campionamento. Questo tipo di errore detto anche sistematico e piu
difficile da individuare e produce in genere stime distorte cioe con un bias. Ad esem-
pio se si sceglie un campione da un elenco telefonico, si escludono automaticamente
tutti coloro che non possiedono un telefono producendo una stima distorta. Errori
di questo tipo sono legati al modo sbagliato con cui viene scelto il campione.
7.1. CAMPIONAMENTO 103
3. Errori non dovuti al campionamento. Questi sono errori che non sono dovuti
al modo con cui e selezionato il campione. Ad esempio: le domande possono es-
sere poste in modo scorretto e che possono essere interpretate in modo sbagliato
dai rispondenti. Oppure gli intervistati possono di proposito rispondere in maniera
diversa da cio che pensano. Questo ad esempio succede spesso nelle elezioni in cui
i voti ai partiti di estrema destra sono spesso sottostimati negli exit pool perche
all’uscita del seggio colui che ha votato un tale partito non lo rileva agli intervista-
tori. Altri errori di questo tipo sono ad esempio quelli dovuti alla codificazione o
digitalizzazione delle risposte.
Per ridurre questo tipo di errori vi sono corsi interi nei corsi di laurea di statistica per
cui non possiamo pretendere di essere esaustivi qui. Ci basta pero dare due regole di base
che devono sempre essere applicate. Per tutto il resto si supporra di avere dei campioni
scelti in modo appropriato. La prima regola e che ogni elemento della popolazione deve
avere la stessa probabilita di essere selezionato come elemento del campione. Si deve
percio immaginare tutte le unita di una popolazione come delle palline inserite in una
grande urna e la scelta del campione consiste nell’estrarre un certo numero di palline da
quest’urna. In questo caso ogni pallina ha la stessa probabilita di essere selezionata. Un
campione ottenuto in questo modo si chiama campione casuale semplice.
L’altra regola e che il campione deve essere stratificato. Questo tipo di campionamento
deve essere utilizzato quando si sa che vi sono diversi gruppi in una popolazione diversi
tra loro. Ad esempio la stratificazione puo avvenire per eta o per regione di residenza o
per genere.
Una questione di cui non abbiamo ancora parlato ma che e fondamentale in tutta la
teoria e la grandezza del campionaria: quando deve essere grande un campione? La scelta
dell’ampiezza del campione dipende in generale dai seguenti fattori:
1. La variabilita tra i membri della popolazione. Se in una popolazione e presente
una grande variabilita allora il campione deve essere grande. Per capire questo fatto
pensiamo invece ad una popolazione dove la variabile di interesse non varia affatto
sugli elementi della popolazione, cioe e costante. In questo caso per stimare questa
caratteristica basterebbe solo osservarla su un elemento. Basterebbe un campione
di ampiezza campionaria n = 1, e la stima sarebbe perfetta.
2. Il livello di precisione necessario alla stima. Piu abbiamo bisogno di stime
precise piu il campione deve essere numeroso. Vedremo che il miglioramento nella
precisione della stima non varia uniformemente con l’aumentare della numerosita del
campione su cui si basa la stima.
104 CAPITOLO 7. DAL CAMPIONE ALLA POPOLAZIONE
3. Costi di campionamento. Intervistare tante persone costa in generale molto non
solo in termini di costo vero e proprio ma anche di tempo. Occorre valutare bene i
benefici che se ne ricavano prima di selezionare campioni troppo grandi con un costo
non sostenibile.
7.2 Dalla popolazione al campione: il caso della media
Il titolo della sezione costituisce il viaggio di andata del titolo del capitolo. Vedremo come
e fatta la distribuzione della media campionaria. Consideriamo la popolazione femminile
in eta fertile. Siamo interessati al numero medio di figli che una donna ha in questa
popolazione. Supponiamo di aver estratto diversi campioni di numerosita 5 da questa
popolazione. I campioni sono riportati nella tabella seguente
Campione numero di figli x s
1 0 2 2 1 1 1.2 0.832 0 3 0 2 1 1.2 1.303 1 2 0 2 2 1.4 0.894 0 2 4 1 0 1.4 1.675 3 1 2 0 2 1.6 1.14
La penultima colonna della tabella riporta la media del numero di figli calcolato in ogni
campione. Le medie di questi diversi campioni sono le medie campionarie. Se i campioni
sono stati scelti in modo corretto la maggior parte delle medie campionarie sara molto
vicina alla media della popolazione (il parametro incognito) ma comunque qualcuna di
queste medie avra un valore che si discosta dalla media della popolazione. Se calcoliamo
la media delle medie otteniamo
¯x =1.2 + 1.2 + 1.4 + 1.4 + 1.6
5= 1.36.
Si noti che abbiamo indicato con ¯x la media delle medie (quante medie!) Questo numero
possiamo dire che e la migliore stima che possiamo dare della media della popolazione.
consideriamo adesso lo scarto quadratico medio delle medie osservate sui 5 campioni
sx =
√(1.2− 1.36)2 + (1.2− 1.36)2 + (1.4− 1.36)2 + (1.4− 1.36)2 + (1.6− 1.36)2
4
= 0.167
Si noti che questa variabilita e molto piu piccola della variabilita della popolazione che puo
essere stimata calcolando la media delle standard deviation in ogni campione (riportata
nell’ultima colonna della tabella) che e pari a 1.17. Questo non e dovuto al caso ma e una
proprieta della media campionaria che si puo riassumere nei due seguenti fatti:
1. La media della media campionaria e uguale alla media della popolazione.
7.2. DALLA POPOLAZIONE AL CAMPIONE: IL CASO DELLA MEDIA 105
2. Lo scarto quadratico medio della media campionaria e uguale allo scarto quadratico
medio della popolazione diviso per la radice quadrata della numerosita campionaria.
In formula la seconda proprieta si puo scrivere, se denotiamo con sigma lo s.q.m. della
popolazione e con n la numerosita campionaria, come
σx =σ√n.
Accanto a questi due fatti abbiamo un risultato ancora piu interessante, al punto da
essere noto come teorema fondamentale della statistica. Tale teorema ci assicura che se il
campione e scelto in maniera appropriata non solo valgono i due fatti appena detti ma la
distribuzione della media campionaria e normale.
Teorema 7.2.1 (Fondamentale della statistica). Se abbiamo un campione casuale di am-
piezza n estratto da una popolazione con media µ e scarto quadratico medio σ allora la
media campionaria ha una distribuzione che per n elevato e approssimativamente una
normale con la media µ e lo scarto quadratico medio pari a σ√n
.
Il teorema fondamentale della statistica in sostanza ci dice che quando stimiamo il
valore medio di una quantita che ci interessa con la media campionaria, quella stima ha
una distribuzione Nomale sempre, qualunque sia la popolazione di riferimento. Questo ci
permettera di valutare gli errori che commettiamo usando quella stima. Inoltre si capisce
il ruolo fondamentale della distribuzione Normale.
Il valore osservato sugli n elementi del campione della media campionaria x, e solo uno
dei possibili valori che la media campionaria avrebbe potuto assumere, se avessimo estratto
un altro campione. Se pensiamo alla distribuzione di tutti i possibili valori della media
campionaria, questa distribuzione e normale con media µ e scarto quadratico medio σ/√n.
Allora possiamo calcolare lo z-score, il valore standardizzato della media campionaria
z =x− µσ√n
Gli z- score della media campionaria hanno una distribuzione normale standardizzata.
Vediamo un’applicazione nel seguente esempio
Esempio 7.2.2. Si consideri la popolazione costituita da tutti i lavoratori di imprese di
pulizia. Si supponga che per tale popolazione valgano i seguenti fatti:
• Valore medio paga oraria netta: 4.60 euro
• Deviazione standard: 0.40 centesimi di euro
Tenendo presente il teorema fondamentale della statistica rispondere alle domande seguen-
ti.
106 CAPITOLO 7. DAL CAMPIONE ALLA POPOLAZIONE
1. Qual e la probabilita che un singolo lavoratore scelto a caso guadagni meno di 4.50
euro all’ora?
2. Qual e la probabilita che la media della paga oraria di un campione casuale di 20
lavoratori scelti a caso sia meno di 4.50 euro all’ora?
3. Qual e la probabilita che la media della paga oraria di un campione casuale di 50
lavoratori scelti a caso sia meno di 4.50 euro all’ora?
4. Perche le risposte ai quesiti precedenti sono diverse?
Per rispondere alla prima domanda dobbiamo sapere la distribuzione della paga oraria
per un lavoratore. Denotiamo con X la paga oraria per un lavoratore. Sappiamo dal
testo che X ha una distribuzione normale con media µ = 4.60 e scarto quadratico medio
σ = 0.40. Per calcolare la probabilita richiesta dobbiamo calcolare l’area sotto la curva
normale con media µ = 4.60 e scarto quadratico medio σ = 0.40 da −∞ a 4.50. Ovvero
dobbiamo calcolare l’area sotto la curva normale standardizzata da −∞ allo z score di
4.50. Lo z-score cercato e dato da
z =4.50− 4.60
0.40= −0.25.
L’area cercata e uguale all’area da 0.25 a +∞ e quindi dalla Tavola A.2 ricaviamo in
corrispondenza di 0.25 un area pari a 0.401. Concludiamo quindi che la probabilita che un
lavoratore abbia una paga inferiore a 4.50 euro e del 40.1%, ovvero se pensiamo all’intera
popolazione dei lavoratori delle imprese di pulizie, il 40.1% di essi ha una paga inferiore
ai 4.50 euro all’ora.
Per rispondere alla seconda domanda il teorema fondamentale della statistica ci dice
che la media delle paghe di n = 20 lavoratori ha una distribuzione normale con media
mu = 4.60 e scarto quadratico medio σ = 0.40√20
= 0.089. La probbilita cercata e quindi
data dall’area sotto la curva nomale con media mu = 4.60 e scarto quadratico medio
σ = 0.089 da −∞ a 4.50, ovvero l’area l’area sotto la curva normale standardizzata da
−∞ allo z score di 4.50. Lo z-score cercato e dato da
z =4.50− 4.60
0.40√20
=−0.10
0.089= −1.12.
L’area cercata e uguale all’area da 1.12 a +∞ e quindi dalla Tavola A.2 ricaviamo in
corrispondenza di 1.12 un area pari a 0.131. Concludiamo quindi che la probabilita che la
paga media di 20 lavoratori sia inferiore a 4.50 euro e del 13.1%.
In modo analogo si risponde alla terza domanda. In questo caso lo z-score va calcolato
rispetto allo scarto quadratico medio della media fatta su n = 50 lavoratori. Abbiamo
z =4.50− 4.60
0.40√50
=−0.10
0.0566= −1.77.
7.2. DALLA POPOLAZIONE AL CAMPIONE: IL CASO DELLA MEDIA 107
L’area cercata e 0.038. Concludiamo quindi che la probabilita che la paga media di 50
lavoratori sia inferiore a 4.50 euro e del 3.8%.
Le risposte ai quesiti sono diverse perche diverso e lo scarto quadratico medio delle
grandezze considerate. La media campionaria ha lo scarto quadratico medio che diventa
sempre minore al crescere di n.
108 CAPITOLO 7. DAL CAMPIONE ALLA POPOLAZIONE
Capitolo 8
Intervalli di confidenza
Possiamo riassumere quanto detto nel capitolo precedente. Abbiamo una popolazione ed
una informazione da ricercare su questa popolazione. L’informazione da ricercare suppo-
niamo sia la media di una certa variabile di interesse (ad esempio ci interessa il numero
medio di figli di una donna italiana). La vera media che ricerchiamo e il parametro di in-
teresse che non e noto. Non potendo conoscere il vero valore del parametro (qual e il vero
valore del numero medio di figli che ha una donna italiana? non lo potremo mai conoscere)
ne facciamo una stima. Scelto propriamente un campione dalla popolazione, rileviamo per
ogni elemento del campione il valore della variabile di interesse e ne calcoliamo la media
aritmetica. Questo valore della media aritmetica ottenuta dai valori rilevati su ogni ele-
mento del campione e la nostra stima del parametro incognito. Quello descritto sopra e
come usualmente si procede alla stima puntuale della media incognita della variabile di
interesse in una popolazione. Per un momento pensiamo pero di poter agire in un altro
modo e di poter effettuare la scelta di quanti campioni voglio dalla mia popolazione.
Abbiamo infatti osservato che se avessimo scelto un altro campione dalla popolazione
e avessimo rilevato su ogni elemento di questo campione la variabile di interesse e avessimo
calcolato la media, avremmo osservato un altro valore per la media aritmetica e quindi
avremmo ottenuto un’altra stima per il parametro incognito. Possiamo immaginare di
scegliere tantissimi campioni e calcolare la media aritmetica dei valori osservati in ogni
campione e otterremo tantissime stime per il nostro valore osservato.
Quello che abbiamo concluso nel precedente capitolo e che questi tantissimi valori
hanno una distribuzione normale con media la stessa media della variabile di interesse
sulla popolazione (e quindi non nota) ma uno scarto quadratico medio molto minore, pari
allo scarto quadratico medio della variabile di interessa nella popolazione diviso per radice
quadrata di n, il numero di osservazioni nel campione.
109
110 CAPITOLO 8. INTERVALLI DI CONFIDENZA
8.1 La media campionaria
Ricordiamo come abbiamo denotato la media e lo scarto quadratico medio di una normale
standardizzata nella Sezione 6.2. Abbiamo denotato la media con µ e lo scarto quadratico
medio con σ. Possiamo immaginare che la media della nostra variabile di interesse sia µ
nella popolazione e lo s.q.m sia σ entrambi incogniti. Ora pensiamo alla variabile media
campionaria e a tutti i possibili valori che puo assumere nei diversi campioni tutti di
numerosita n. Il teorema fondamentale della statistica ci dice che questa variabile media
campionaria, se n e grande, ha una distribuzione normale, con media che e ancora µ e
scarto quadratico medio che e invece pari a σ√n
.
Per tornare all’esempio del numero di figli medio per una donna italiana tale numero
non lo conosciamo e lo indichiamo con µ la media incognita della popolazione. Prendiamo
adesso un campione di n = 5 donne (il primo dell’esempio) e stimiamo il valore incognito
con la media del numero di figli calcolato per questo campione x = 1.2. Quindi abbiamo
una stima per il parametro µ e tale stima e 1.2. Un altro risultato molto importante della
statistica ci dice che tale stima e la migliore che possiamo ottenere per la media.
Chiunque di voi potra obbiettare che se avessimo preso un altro campione e avessi-
mo osservato un altro valore per la media (ad esempio il terzo campione) allora anche
quest’altro valore e la stima migliore che potevamo dare per la media. Ad esempio per
il terzo campione abbiamo x = 1.4. Questo fatto potrebbe sembrare assurdo perche ho
due stime diverse per la media incognita µ e tutte e due sono la migliore stima possibile!
Questo fatto non e un paradosso se pensiamo che nella realta la media campionaria ha
una distribuzione normale e quindi se ne osservo piu di una esse saranno diverse secondo
la distribuzione normale. La media campionaria e il migliore stimatore puntuale per la
media, cioe e la migliore stima costituita da un solo numero.
Teorema 8.1.1. La media campionaria e la migliore stima puntuale per la media di una
popolazione.
Quello che invece studiamo nella prossima sezione e come dare un intervallo di valori
possibili per la media incognita della popolazione.
8.2 Gli ingredienti e la ricetta
Come dicevamo a volte invece che dare un solo numero e meglio dare un intervallo di valori
per la media incognita di una popolazione. Se vogliamo stimare la percentuale di votanti
per un partito in un sistema bipolare, un conto e dire, stimo la percentuale di votanti per
il partito SX con il 48%, oppure dire che la percentuale di votanti per il partito SX e un
valore nell’intervallo (45%, 51%).
8.2. GLI INGREDIENTI E LA RICETTA 111
Per il Teorema 8.1.1 l’intervallo di confidenza sara costruito attorno alla media cam-
pionaria. Quindi il primo ingrediente e la media campionaria. L’ingrediente fondamentale
per gli intervalli di confidenza e invece dedotto dal livello di confidenza. Questo livello
esprime il grado di confidenza col quale confido che il vero valore del parametro stia nel-
l’intervallo che fornisco. Si possono costruire intervalli di confidenza a qualunque livello
di confidenza, qui considereremo i livelli 95% e 99% che sono i piu utilizzati nei fenomeni
sociali, ma credo che tutti saranno in grado di dedurre poi come costruire un intervallo di
confidenza a livello 98% o al 99.9%.
Per dedurre questo ingrediente fondamentale torniamo un attimo al teorema fonda-
mentale della statistica e supponiamo che lo scarto quadratico medio σ sia noto. Sappiamo
che la media campionaria ha distribuzione normale con media µ e scarto quadratico medioσ√n
, e quindi gli score della media campionaria z = x−µσ/√n
hanno una distribuzione normale
standardizzata. Allora se cerchiamo quei valori sotto una curva normale standardizzata
per cui l’area della parte centrale della distribuzione tra quei valori sia il 95% del totale
(area tratteggiata nella Figura 8.1), dalle tavole troviamo che questi valori sono −1.96
quello a sinistra, e 1.96 quello a destra. Allora possiamo spingerci a sinistra della media
Area 0.95
−1.96 0 1.96
Figura 8.1: L’area tratteggiata vale 0.95. Entrambe le aree non tratteggiate sono 0.025.
campionaria per il fattore −1.96 moltiplicato per la standard deviation divisa per radice
quadrata di n e a destra della stessa quantita positiva. In formula avremo che
Intervallo di confidenza al 95% =
(x− 1.96
σ√n, x+ 1.96
σ√n
).
Possiamo cioe dire che
µ ∈(x− 1.96
σ√n, x+ 1.96
σ√n
)
112 CAPITOLO 8. INTERVALLI DI CONFIDENZA
con un livello di confidenza (o livello di fiducia) pari al 95%. Se lo scarto quadratico medio
non e noto, lo si puo stimare con s e se n e sufficientemente grande (in genere maggiore
di 30) possiamo ancora scrivere l’intervallo di confidenza come
Intervallo di confidenza al 95% =
(x− 1.96
s√n, x+ 1.96
s√n
).
Esempio 8.2.1. Consideriamo l’eta del primo bacio dell’esempio considerato nella Sezione
2.7.3. L’eta media del primo bacio in un campione di numerosita n = 42 e x = 14. Lo
scarto quadratico medio e s = 2.41. La formula per l’intervallo di confidenza al 95% e
I.C. al 95% =
(14− 1.96 · 2.41√
42, 14 + 1.96 · 2.41√
42
)Facendo i conti abbiamo 2.41√
42= 0.37 questa e la stima dello scarto quadratico medio della
media campionaria. Poi ricaviamo 1.96 · 0.37 = 0.73. Questa e l’ampiezza (o meglio la
semi ampiezza) dell’intervallo di confidenza. Quindi possiamo concludere che
I.C. al 95% = (14− 0.73, 14 + 0.73) = (13.27, 14.73)
Si noti che in termini di anni 0.73 sono circa 9 mesi, e quindi l’intervallo di confidenza e
ampio 18 mesi. Il primo bacio viene dato tra i 13 anni e 3 mesi e i 14 anni e 9 mesi con
una confidenza del 95%.
Torniamo ancora un attimo sul significato del livello di confidenza. 95% significa che se
fosse possibile ripetere questo esperimento un numero grande di volte saremmo confidenti
nel credere che tra gli intervalli calcolati circa il 95% contiene il vero valore del parametro
e solo 5 su cento, ovvero uno su venti non lo contiene.
Ricapitolando possiamo dire che per calcolare l’intervallo di confidenza al 95% servono
questi ingredienti:
1. La numerosita campionaria n.
2. La media campionaria x.
3. Lo scarto quadratico medio σ.
4. Il valore 1.96.
Con questi ingredienti ricaviamo l’intervallo di confidenza per la media incognita della
popolazione come
I.C. al 95% =
(x− 1.96
σ√n, x+ 1.96
σ√n
).
Se σ non e noto e n e sufficientemente grande possiamo sostituire a σ la sua stimas.
8.2. GLI INGREDIENTI E LA RICETTA 113
Se invece che al 95% volessimo l’intervallo di confidenza al 99%, dobbiamo trovare
quei valori sotto una curva normale standardizzata per cui l’area della parte centrale della
distribuzione tra quei valori sia il 99% del totale (area tratteggiata nella Figura 8.2). Dalle
tavole troviamo che questi valori sono −2.575 quello a sinistra, e 2.575 quello a destra.
Area 0.99
−2.575 0 2.575
Figura 8.2: L’area tratteggiata vale 0.99. Entrambe le aree non tratteggiate sono 0.005.
Quindi ripetendo i ragionamenti sopra l’intervallo di confidenza al 99% per la media
incognita di una popolazione e
I.C. al 99% =
(x− 2.575
s√n, x+ 2.575
s√n
).
Gli ingredienti per ottenere questo intervallo sono
1. La numerosita campionaria n.
2. La media campionaria x.
3. Lo scarto quadratico medio σ.
4. Il valore 2.575.
Come si puo notare sono gli stessi ingredienti per l’intervallo di confidenza al 95% tranne
l’ultimo valore. Da questo deduciamo che l’intervallo di confidenza al 99% se gli altri
ingredienti sono uguali (in particolare se il campione e lo stesso) sara piu ampio di quello
al 95%. Anche in questo caso se σ non e noto e n e sufficientemente elevato possiamo
sostituire a sigma la sua stima s.
114 CAPITOLO 8. INTERVALLI DI CONFIDENZA
Ad esempio tornando all’esempio precedente l’intervallo di confidenza al 99% per l’eta
media in cui gli uomini danno il primo bacio e
I.C. al 95% =
(14− 2.575 · 2.41√
42, 14 + 2.575 · 2.41√
42
)= (14− 0.96, 14 + 0.96)
= (13.04, 14.96).
Siamo confidenti al 99% che l’eta in cui un ragazzo da il primo bacio e compreso tra 13
anni e 15 anni. In questo caso siamo piu confidenti ma l’ampiezza dell’intervallo e piu
grande: quasi due anni (abbiamo approssimato 0.96 di un anno con 1).
A parita di tute le condizioni (n, campione, quindi stessi valori per la media x e per lo
s.q.m. s calcolati sul campione) se si cambia il livello di confidenza prendendone uno piu
grande (voglio essere piu confidente che il vero valore sia nell’intervallo che fornisco, quindi
ad esempio passo dal 95% con la possibilita di sbagliare del 5% al 99% con la possibilita
di sbagliare solo dell1%) l’intervallo che fornisco non puo che essere piu grande. Poiche
l’ampiezza dell’intervallo dipende dal fattore√n a denominatore, per avere intervalli piu
precisi (cioe piu stretti) a parita di livello di confidenza dobbiamo aumentare la numerosita
campionaria. Lo vediamo in questo esempio.
Esercizio 8.2.2. Ad un campione di 40 studenti e stato chiesto di dare un voto da 1 a 20
all’operato del primo ministro Letta nei primi 6 mesi del suo mandato su una scala da 1
a 20. La media e stata 12.1 con standard deviation di 3.5.
1. Stimare il voto dato a Letta da tutti gli studenti con un intervallo di confidenza del
95%.
2. Stimare il voto dato a Letta da tutti gli studenti con un intervallo di confidenza del
99%. Questo intervallo come e rispetto al precedente? Piu ampio o piu stretto?
Perche?
3. Supponete che la stessa medio e lo stesso s.q.m. sono stati osservati su un campione
di 100 studenti. Stimare il voto dato a Letta da tutti gli studenti con un intervallo
di confidenza del 95%. Questo intervallo come e rispetto al primo intervallo? Piu
ampio o piu stretto? Perche?
Esercizio 8.2.3. Con riferimento ai dati dell’esempio della sezione 2.7.3, calcolare Inter-
vallo di confidenza al 95% per l’eta del primo rapporto e confrontarla con quella calcolata
per il primo bacio. Quale dei due intervalli e piu ampio? I due intervalli si sovrappongono?
Esercizio 8.2.4. Calcolare l’intervallo di confidenza al 95% del tasso dell’uso della parola
by sia negli scritti di Hamilton che in quelli di Madison. Verificare se il valore del tasso
dell’uso della stessa parola negli scritti contesi sta in uno degli intervalli o in entrambi.
8.3. SINTESI SUGLI INTERVALLI DI CONFIDENZA 115
8.3 Sintesi sugli Intervalli di confidenza
Consideriamo una popolazione o un fenomeno X caratterizzato da una distribuzione
teorica e da due parametri: la media µ e lo scarto quadratico medio teorico σ.
In generale nell’inferenza statistica l’intervallo di confidenza e sempre calcolato per un
parametro incognito di una popolazione ed e sempre accompagnato da un grado di fiducia.
Se fosse noto il parametro non ci sarebbe bisogno di dare l’intervallo di confidenza. Senza
grado di fiducia non e un intervallo di confidenza. Quindi prima di calcolare un intervallo
di confidenza occorre sapere:
• Per quale parametro voglio calcolare l’intervallo di confidenza?
• Con che grado di fiducia voglio calcolare il mio intervallo di fiducia?
In questo corso siamo interessati solo agli intervalli di confidenza per la media (µ)
incognita di una popolazione. Il grado di fiducia viene scelto in base a fattori di interesse
particolari. Nel nostro corso l’intervallo di fiducia verra sempre assegnato.
Definizione 8.3.1. Per intervallo di confidenza a livello di fiducia (1− α)% della media
µ di una popolazione si intende un intervallo del tipo µ ∈ (a, b) con i significato che
confidiamo che con un grado di fiducia del (1−α)% il vero valore della media µ stia tra i
valori a e b.
Si osservi che in questa definizione a e b devono essere numeri noti e α deve essere
un valore dato compreso tra 0 e 1. In genere i valori di α piu utilizzati sono 0.10, 0.05 e
0.01, che forniscono intervalli con grado di fiducia del 90%, 95% e 99% rispettivamente.
A livello teorico si possono calcolare intervalli di confidenza con qualsiasi grado di fiducia
compresi lo 0% e il 100%.
Ha senso un affermazione del tipo µ ∈ (3.5, 4.5) con livello 95%. In questo caso a = 3.5,
b = 4.5 e 1− α = 0.95, quindi α = 0.05.
Il nostro compito e fornire gli estremi dell’intervallo di fiducia per il parametro µ ad
un assegnato livello di fiducia (1− α)%.
Tre sono i fattori che occorre verificare per scegliere e calcolare il corretto intervallo di
confidenza per µ.
1. Il tipo di popolazione: puo essere Normale o NON Normale
2. Lo scarto quadratico medio della popolazione σ: puo essere noto o NON noto.
3. La numerosita campionaria n: puo essere piccola (minore di 30) o grande (maggiore
o uguale a 30).
116 CAPITOLO 8. INTERVALLI DI CONFIDENZA
A seconda delle situazione in cui ci troviamo l’intervallo di confidenza per la media µ
della popolazione si costruisce in una maniera opportuna in base ad un risultato teorico.
Qui di seguito elenchiamo i casi in cui sappiamo calcolare l’intervallo di confidenza e il
risultato teorico che ci permette di costruirlo.
8.3.1 Caso popolazione qualunque, σ noto n grande
Se una popolazione e qualunque (Normale ma anche NON Normale) e X1, . . . Xn e un
campione estratto da questa popolazione allora
Xn − µσ√n
ha una distribuzione Normale standardizzata, asintoticamente, per n che tende all’infinito.
L’intervallo di confidenza ha la forma
xn ± zα/2σ√n
8.3.2 Caso popolazione qualunque, σ NON noto n grande
Se una popolazione e qualunque (Normale ma anche NON Normale) e X1, . . . Xn e un
campione estratto da questa popolazione allora
Xn − µS√n
ha una distribuzione Normale standardizzata, asintoticamente, per n che tende all’infinito.
In questo caso S e lo stimatore ottimale per σ:
S =
√√√√ 1
n− 1
n∑k=1
(Xi − Xn)2
L’intervallo di confidenza ha la forma
xn ± zα/2s√n
8.3.3 Caso popolazione Normale, σ non noto n piccolo
Se una popolazione e Normale e X1, . . . Xn e un campione estratto da questa popolazione
allora
T =Xn − µ
S√n
8.3. SINTESI SUGLI INTERVALLI DI CONFIDENZA 117
ha una distribuzione, che per ogni n finito, si chiama t-Student con n− 1 gradi di liberta.
I gradi di liberta sono un parametro di questa distribuzione che dipende dal numero di
osservazioni con cui si calcolano sia Xn che S.
La distribuzione di questa statistica T non e normale standardizzata ma dipende dal
numero di osservazioni. In particolare se abbiamo n osservazioni allora la statistica t di
Student si dice che ha n−1 gradi di liberta. Il grafico della distribuzione della t di Student
e simmetrico, assomiglia alla distribuzione normale standardizzata, ma ha le code piu alte
e la campana piu bassa, cioe ha una maggior variabilita rispetto alla normale standard, nel
senso che ci si aspetta di osservare una percentuale di valori oltre 3 valori della deviazione
standard maggiori di quelli di una normale standardizzata.
La Figura 8.3 riporta il grafico della distribuzione t di Student al variare dei gradi di
liberta. Come si puo notare al crescere dei gradi di liberta la distribuzione della t di Student
assomiglia sempre piu alla distribuzione normale standard. Per n che tende ad infinito,
−4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
N(0,1) e t−Student
x
f(x)
−5 −4 −3 −2 −1 0 1 2 3 4 5
N(0,1)t(1)t(2)t(10)t(30)
Figura 8.3: Distribuzione t di Student al variare dei gradi di liberta e distribuzione normalestandard.
ha distribuzione Normale standardizzata e questo giustifica i due risultati precedenti. La
distribuzione t di Student deve il suo nome allo statistico William Sealy Gosset che dedusse
la distribuzione t di Student mentre lavorava come statistico alla famosa birreria irlandese
Guinness. La ditta non gli permise di utilizzare il suo vero nome e lui pubblico i risultati
ottenuti lavorando presso la Guinness con lo pseudonimo di Student.
Quindi in questo caso l’intervallo di confidenza ha la forma
xn ± tn−1,α/2s√n
118 CAPITOLO 8. INTERVALLI DI CONFIDENZA
Il valore tn−1,α/2 e analogo al valore zα/2, ma va cercato nella tavole della t di Student. Le
tavole della t di Student restituiscono nella parte centrale i valori tg,p in corrispondenza
di una determinata area p e dei gradi di liberta g. Si noti che a differenza della tavola
della Normale, si entra nella tavola con l’area che si vuole lasciare sotto la curva da un
valori in poi (quindi occorre entrare con p = α/2) e i gradi di liberta g = n.1 e si ottiene
il valore tg,p = tn−1,α/2. Si noti che nella Tabella A.5 l’area p e l’area a sinistra del valore
tg,p. Quindi se dobbiamo calcolare l’intervallo di confidenza a livello (1 − α)%, e ci sono
n osservazioni, dobbiamo entrare nella Tavola non con α/2 ma con 1− α/2. Ad esempio
se l’intervallo e al 95% allora α = 0.05, α/2 = 0.025 e 1− α/2 = 0.975. Quindi dobbiamo
cercare i valori nella colonna dove p = 0, 975, in corrispondenza dei gradi di liberta.
Capitolo 9
Test statistici
I test statistici (detti anche verifica di ipotesi) occupano un posto di rilievo in tutta l’infe-
renza statistica. Insieme alla stima costituiscono il fulcro di tutta l’inferenza statistica. Se
nel problema della stima si stratta di trovare un valore plausibile per i parametri incogni-
ti di una popolazione (o meglio del modello sulla popolazione), nella verifica d’ipotesi si
tratta di formulare una affermazione sul parametro incognito. La statistica ci fornisce gli
strumenti per arrivare ad una scelta riguardo a questa ipotesi sul parametro (se accettarla
o rifiutarla) quantificando il rischio connesso a questa scelta.
9.1 Verifica d’ipotesi: la teoria
Supponiamo di avere un modello su una popolazione d’interesse e che questo modello
dipenda da un parametro generico θ che e il nostro interesse. (Ad esempio un modello
normale con il parametro di interesse la media µ). Il nostro interesse per il parametro e
costituito da un’affermazione sul possibile valore di questo parametro che noi riteniamo
plausibile. Questo valore dichiarato per il parametro e sottoposto ad una verifica basata
sulle osservazioni sperimentali di un campione scelto dalla popolazione sulla quale e stata
fatta l’affermazione riguardante il valore del parametro.
Definizione 9.1.1. Una ipotesi statistica e una affermazione su θ.
L’ipotesi sottoposta a verifica sperimentale viene di solito chiamata ipotesi nulla ed
indicata con H0. Di solito H0 specifica il valore di un parametro della popolazione indicato
genericamente con θ. Quindi
H0 : θ = θ0
dove θ0 e un valore fissato. Ad esempio se il parametro della popolazione da sottoporre a
verifica e la media µ scriveremo
H0 : µ = µ0
dove µ0 e un valore della media specificato e noto.
119
120 CAPITOLO 9. TEST STATISTICI
Definizione 9.1.2. Un test statistico e una regola per decidere sulla compatibilita dei dati
con l’affermazione definita dall’ipotesi nulla.
Un test statistico e come un sistema d’allarme che suona in presenza di dati non
compatibili con l’ipotesi nulla. Come tutti i sistemi di allarme il test statistico puo produrre
falsi allarmi o dar luogo a mancati allarmi.
Un test conduce sempre a due sole alternative:
• rifiutiamo l’ipotesi nulla H0
• non rifiutiamo l’ipotesi nulla H0
Tale decisione viene presa sulla base delle osservazioni x1, . . . , xn, di un campione casuale
di ampiezza n proveniente dalla popolazione. Sulla base di queste osservazioni prenderemo
la nostra decisione tramite il valore assunto da quella che e chiamata statistica test e che
sara diversa per ogni verifica d’ipotesi. La statistica test ci definisce una regola per cui
se la statistica test assume certi valori, che appartengono ad una regione detta regione
di rifiuto si rifiutera l’ipotesi nulla, se invece assume valori che non appartengono a tale
regione, non si potra rifiutare l’ipotesi nulla. Si tenga pero presente che accettare l’ipotesi
nulla non significa che questa sia vera. Significa che la riteniamo plausibile sulla base delle
nostre osservazioni. Noi non potremo mai sapere qual e il vero valore del parametro.
Trattandosi di un problema di decisione ogni decisione porta con se la possibilita di
commettere un errore facendo la scelta sbagliata. Se i dati portano a rifiutare un’ipotesi
nulla che e vera si commette un errore chiamato di primo tipo.
La probabilita di commettere questo errore viene indicata con α:
α = P (rifiutare H0|H0 e vera).
L’errore di primo tipo α e chiamato anche livello di significativita del test.
Nella pratica si deve scegliere la regione di rifiuto in modo da garantire un pre-assegnato
livello di significativita α e in modo da minimizzare la probabilita dell’altro tipo di errore
che si puo commettere: l’errore di secondo tipo indicato con β.
Se i dati portano ad accettare una ipotesi nulla che e falsa si commette un errore di
secondo tipo. La probabilita di questo errore viene indicata con β:
β = P (non rifiutare H0|H0 e falsa).
I due tipi di errore che si possono commettere in relazione alla realta sono riassunti nella
seguente tabella
9.1. VERIFICA D’IPOTESI: LA TEORIA 121
Decisione→Realta↓ Rifiuto H0 Non Rifuto H0
H0 vera errore Io tipo nessun errore (OK)α 1− α
H0 falsa nessun errore (OK) errore di IIo tipo1− β β
I test che presenteremo nella prossima sezione sono tali da fissare ad un livello che si
ritiene soddisfacente l’errore di primo tipo (nei fenomeni di tipo sociale di solito α = 0.05
o α = 0.01) e hanno il piu piccolo errore di secondo tipo.
Il nome errore di primo tipo ha origine storica perche rappresenta l’errore piu grave
che si possa commettere dal punto di vista di chi sottoporne il parametro alla verifica.
Ad esempio nell’ottica dell’allarme l’errore piu grave e quello del mancato allarme, perche
stanno rubando la macchina (qui H0 vera significa che il ladro sta agendo) ma l’allarme
non suona (rifiuto H0, i dati mi portano a non credere all’ipotesi H0).
Un altro modo di interpretare i test consiste nel considerare un test come un processo
fatto ad un imputato. L’imputato e considerato innocente (ipotesi nulla). Se le prove
portate sono tali da far emettere alla giuria un verdetto di colpevolezza, l’imputato viene
condannato. (si rifiuta l’ipotesi nulla). Si noti che nel caso le prove non siano schiaccianti,
e quindi non si possa condannare l’imputato (non si puo rifiutare l’ipotesi nulla) questo
non significa che l’imputato sia innocente. Accettare l’ipotesi nulla, o non rifiutarla, non
significa che questa sia vera.
La decisione se accettare o rifiutare l’ipotesi nulla viene fatta sulla base della determi-
nazione di una regione di rifiuto nella quale puo rientrare la statistica test basata sui dati.
La regione di rifiuto viene determinata in base all’errore di primo tipo α e in base a quella
che viene chiamata ipotesi alternativa e indicata con HA. A volte l’ipotesi alternativa
viene indicata anche con H1. Se H0 e data da θ = θ0 l’ipotesi alternativa potra essere di
tre tipi.
• HA : θ 6= θ0, detta ipotesi alternativa bilaterale;
• HA : θ > θ0, detta ipotesi alternativa unilaterale destra;
• HA : θ < θ0, e detta ipotesi alternativa unilaterale sinistra.
A parita di ipotesi nulla diverse ipotesi alternative producono diversi modi di utilizzare
i dati sperimentali per verificare l’ipotesi nulla.
Nella prossima sezione vedremo come si costruisce la regione di rifiuto per il primo
tipo di ipotesi alternativa, che e in un certo senso la piu sicura. Per gli altri due tipi di
ipotesi occorre prestare piu attenzione perche per applicarli occorre essere ben certi della
direzione in cui si e convinti si sia modificato il parametro.
Riassumendo per i test statistici occorre:
122 CAPITOLO 9. TEST STATISTICI
1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA.
2. Trovare la statistica test per il sistema d’ipotesi.
3. Trovare la regione di rifiuto per il sistema d’ipotesi.
4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o
rifiutare H0.
Nelle prossime sezioni vedremo come si applicheranno questi passi a vari problemi di
verifica d’ipotesi.
9.2 Verifica d’ipotesi: la pratica
Nella pratica la verifica di ipotesi si basa sulla ricerca di statistiche test, che saranno
diverse a seconda dei diversi modelli sulla popolazione e dei diversi parametri da sottoporre
a verifica. Noi prenderemo in considerazione popolazione con distribuzione normale e
saremo interessati a verifiche di ipotesi sulla media nel caso in cui la standard deviation σ
sia nota e nel caso in cui non lo sia. L’altro caso che tratteremo sara la verifica d’ipotesi
per la proporzione del successo di un certo evento.
9.2.1 Test per la media di popolazione normale: σ nota
Supponiamo di avere un modello normale su una popolazione d’interesse. Ad esempio
un’azienda per la ricerca del personale dichiara che i suoi candidati sono dotati di un
quoziente intellettivo di 120 con una standard deviation di 10. Quello che in sostanza sta
dichiarando l’azienda e che la media µ della sua popolazione normale e 120 e la standard
deviation e σ = 10. Si tratta di dichiarazioni sui parametri di una popolazione. Suppo-
niamo ancora che voi vogliate verificare l’affermazione dell’azienda sul fatto che fornisca
candidati con un quoziente intellettivo di 120. Quello che dovete fare e impostare un test
d’ipotesi per la media della popolazione. In questo caso la popolazione e costituita dai
candidati dell’azienda e la media dichiarata e µ0 = 120. In questo caso siamo interessati
ad una verifica d’ipotesi sul parametro µ, mentre il parametro σ e considerato un para-
metro di disturbo che in questo caso e noto. Il primo passo consiste nel scrivere il sistema
d’ipotesi: {H0 : µ = 120HA : µ 6= 120
Il secondo passo consiste nel trovare la statistica test. Se dobbiamo verificare la veridicita
di una affermazione sul valore di una media sembra abbastanza sensato testarla sul va-
lore della media campionaria calcolata su un campione scelto della popolazione. Quindi
dobbiamo avere i dati relativi al quoziente intellettivo di un certo numero n di aspiranti
9.2. VERIFICA D’IPOTESI: LA PRATICA 123
candidati selezionati dall’azienda in questione. I dati sono i seguenti: il quoziente intel-
lettivo medio di n = 36 candidati e stato calcolato e risulta x = 114. L’idea e quella di
rifiutare l’ipotesi nulla se lo z score del valore calcolato della media sul campione risulta
troppo lontano dal valore zero. Perche se lo z score assume valori troppo grandi positivi
o troppo piccoli negativi vuol dire che riteniamo poco plausibile l’ipotesi nulla. Quindi la
statistica test richiesta dal secondo punto e lo z score
z =x− µ0
σ√n
.
Nel caso in considerazione esso vale
z =114− 120
10√36
= −3.6.
A questo punto per determinare la regione di rifiuto (terzo passo) occorre scegliere una
soglia tale per cui se lo z score e oltre tale soglia rifiutiamo l’ipotesi nulla, se non supera
tale soglia accettiamo l’ipotesi nulla. Tale soglia che determinera la regione di rifiuto viene
calcolata sulla base dell’errore di primo tipo, o livello del test α. Supponiamo che α = 0.05.
Sappiamo che se la popolazione normale ha media 120 solo il 2.5% della popolazione ha
uno z score maggiore di 1.96 e solo il 2.5% della popolazione ha uno z score minore di
-1.96. Allora se la regione di rifiuto e definita come:
R = {z < −1.96 o z > 1.96} ,
in questo caso la probabilita di rifiutare H0 quando H0 e vera e del 5%. Essa corrisponde
all’area tratteggiata nella Figura 9.1.
Poiche −3.6 e minore di −1.96, il valore z calcolato appartiene alla regione di rifiuto R e
siamo portati a credere che l’ipotesi nulla non sia vera e quindi la conclusione e: rifiutiamo
l’ipotesi nulla. E anche il quarto e ultimo punto e stato eseguito. Quindi riassumendo in
questo specifico problema i quattro passi sono i seguenti:
1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA:{H0 : µ = 120HA : µ 6= 120
2. Trovare la statistica test per il sistema d’ipotesi:
z =x− µ0
σ√n
=114− 120
10√36
= −3.6.
3. Trovare la regione di rifiuto per il sistema d’ipotesi:
R = {z < −1.96 o z > 1.96}
124 CAPITOLO 9. TEST STATISTICI
Regione di rifiuto
−3.6 −1.96 0 1.96
α 2 = 0.025 α 2 = 0.025
Figura 9.1: Entrambe le aree tratteggiate sono 0.025. z = −3.6 cade nella regione dirifiuto di sinistra.
4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o
rifiutare H0: Poiche −3.6 e minore di −1.96, rifiutiamo l’ipotesi nulla H0 : µ = 120.
Un modo equivalente per verificare il sistema d’ipotesi{H0 : µ = 120HA : µ 6= 120
consiste nel metodo dell’intervallo di confidenza. Esso si puo riassumere in questi passi:
1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA:{H0 : µ = 120HA : µ 6= 120
2. Calcolare l’intervallo di confidenza al 95% (si noti che il livello di confidenza e l’(1−α)%) per la media µ della popolazione:
Intervallo di confidenza al 95% =
(x− 1.96
σ√n, x+ 1.96
σ√n
)= (111, 117)
3. Decidere se accettare o rifiutare H0 sulla base dell’appartenenza all’intervallo cal-
colato del valore della media definito dall’ipotesi nulla. Poiche 120 non appartiene
all’intervallo calcolato, rifiutiamo l’ipotesi nulla H0 : µ = 120.
I due metodi sono equivalenti per costruzione. Infatti il valore specificato dall’ipotesi nulla
µ = µ0 appartiene all’intervallo di confidenza all’(1 − α)% se e solo se la statistica test z
score cade nella regione di rifiuto del test con livello α.
9.2. VERIFICA D’IPOTESI: LA PRATICA 125
9.2.2 Test per la media di popolazione normale: σ non nota
Se lo scarto quadratico medio di una popolazione σ non e noto, possiamo ancora utilizzare
il metodo della statistica test z score, purche la numerosita campionaria sia grande (in
genere maggiore di n = 30). In questo caso occorre sostituire al parametro σ la stima
s ottenuta dai dati rilevati sul campione. In questo caso l’unico punto che cambia e il
secondo dove lo z score e calcolato come
z =x− µ0
s√n
.
Per il resto se il livello del test e α = 0.05 la regione di rifiuto e la stessa
R = {z < −1.96 o z > 1.96} ,
e la decisione e quella di rifiutare H0 se z appartiene alla regione di rifiuto.
Se invece la numerosita n del campione e piu piccola di di 30 occorre ricorrere ad
un altra statistica, chiamata t di Student. La distribuzione di questa statistica non e
normale standardizzata ma dipende dal numero di osservazioni. In particolare se abbiamo
n osservazioni allora la statistica t di Student si dice che ha n−1 gradi di liberta. Per il resto
il grafico della distribuzione della t di Student e simmetrico, assomiglia alla distribuzione
normale standardizzata, ma ha le code piu alte e la campana piu bassa, cioe ha una
maggior variabilita rispetto alla normale standard, nel senso che ci si aspetta di osservare
una percentuale di valori oltre 3 valori della deviazione standard maggiori di quelli di una
normale standardizzata.
La Figura 9.2 riporta il grafico della distribuzione t di Student al variare dei gradi
di liberta. Come si puo notare al crescere dei gradi di liberta la distribuzione della t di
Student assomiglia sempre piu alla distribuzione normale standard. La distribuzione t di
Student deve il suo nome allo statistico William Sealy Gosset che dedusse la distribuzione
t di Student mentre lavorava come statistico alla famosa birreria irlandese Guinness. La
ditta non gli permise di utilizzare il suo vero nome e lui pubblico i risultati ottenuti
lavorando presso la Guinness con lo pseudonimo di Student. Vediamo la procedura per
un test t con livello α = 0.05 (viene chiamato in questo modo il test per verificare il valore
di una media di una popolazione normale con σ non noto e numerosita campionaria n
piccola, cioe minore di 30).
1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA. Anche
in questo scriveremo: {H0 : µ = µ0
HA : µ 6= µ0
126 CAPITOLO 9. TEST STATISTICI
−4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
N(0,1) e t−Student
x
f(x)
−5 −4 −3 −2 −1 0 1 2 3 4 5
N(0,1)t(1)t(2)t(10)t(30)
Figura 9.2: Distribuzione t di Student al variare dei gradi di liberta e distribuzione normalestandard.
2. Calcolare la statistica test t. Osservati i valori del campione x1, x2, . . . , xn, questa e
data da
t =x− µ0
s√n
3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la
soglia occorre cercare nella tavola della t di Student con n− 1 gradi di liberta, quei
valori che lasciano a destra un’area pari a 0.025, indichiamo tale valore con tn−10.025,
e il valore che lascia alla sua sinistra un’area di 0.025 sara per simmetria il valore
−tn−10.025. La regione di rifiuto e riportata nella Figura 9.3 e si scrive:
R ={t < −tn−1
0.025 o t > tn−10.025
}Il valore tn−1
0.025 si deve cercare nella tavola A.5 come spiegato nell’esempio.
4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o
rifiutare H0. Se t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, altrimenti
l’accettiamo.
Esempio 9.2.1. La distribuzione del consumo di alcool tra le donne di eta compresa tra
15 e 25 anni in Italia si puo considerare normale con media pari 9.5 unita per settimana.
Per capire se il consumo di alcool tra le studentesse dell’universita si possa considerare con
la stessa distribuzione si osserva il consumo di alcool di un campione di 14 studentesse.
La media e lo scarto quadratico medio dei valori osservati sono risultati rispettivamente
9.2. VERIFICA D’IPOTESI: LA PRATICA 127
Regione di rifiuto
− t0.025(n−1)
−1 0 1 t0.025(n−1)
α 2 = 0.025 α 2 = 0.025
Figura 9.3: Regione di rifiuto per il test t. L’area tratteggiata sotto la distribuzione t diStudent con n− 1 gradi di liberta e 0.05.
x = 10.64 e s = 7.26. Sulla base di questi dati si puo accettare l’ipotesi che il consumo di
alcool delle studentesse sia lo stesso di quello delle donne italiane?
Il sistema di ipotesi e il seguente{H0 : µ = 9.5HA : µ 6= 9.5
La statistica test e:
t =x− µ0
s√n
=10.64− 9.5
7.26√14
= 0.59
Il valore soglia per costruire la regione di rifiuto lo cerchiamo nella Tabella A.5 della t di
Student. In questa tabella p indica la probabilita sotto la curva della distribuzione di una
t di Student con g gradi di liberta. Tale probabilita e data dall’area tratteggiata in Figura
9.4. Quindi il valore che noi cerchiamo e in corrispondenza della colonna con p = 0.975 in
quanto questo valore lascera alla sua destra un’area sotto la curva pari a 0.025. Essendo
le osservazioni n = 14 i gradi di liberta sono 13, per cui dobbiamo incrociare la colonna
con p = 0.975 con la riga avente g = 13. Il valore corrispondente e 2.16. Quindi la regione
di rifiuto puo essere scritta come
R = {t < −2.16 o t > 2.16} .
Poiche la statistica test t = 0.59 non appartiene a questa regione accettiamo l’ipotesi nulla.
Il consumo delle studentesse si puo ritenere in linea con il consumo delle donne italiane.
128 CAPITOLO 9. TEST STATISTICI
Area sotto la distribuzione t di Student
−5 −3 −1 0 1 tpg
3 5
Figura 9.4: Area sotto la curva di una distribuzione t di Student al variare dei gradi diliberta e di p come riportati in Tabella A.5.
Esempio 9.2.2. Un gruppo di n = 9 studenti laureati in sociologia si sottopone ad un test
psicometrico prima di essere assunti da una compagnia. La performance in questo test di
tutti partecipanti ha una distribuzione normale con media µ0 = 62. La media aritmetica
ottenuta dai 9 studenti nel test e x = 66.33, mentre la standard deviation misurata sui 9
studenti e stata s = 4.04. Si puo ritenere, a livello α = 0.05, che gli studenti laureati in
sociologia che hanno partecipato al test hanno una performance diversa da quella di tutti
gli altri studenti?
Svolgiamo l’esercizio passo per passo.
1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA.{H0 : µ = 62HA : µ 6= 62
2. Calcolare la statistica test t. I valori del campione x1, x2, . . . , x9 non li conosciamo
ma conosciamo la media x e s. La statistica test e
t =x− µ0
s√n
=66.33− 62
4.04√9
= 3.22
3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la
soglia occorre cercare nella tavola della t di Student con n− 1 = 8 gradi di liberta,
quei valori che lasciano a destra un’area pari a 0.025, indichiamo tale valore con
9.3. CONFRONTO TRA TEST Z E TEST T 129
t80.025, e il valore che lascia alla sua sinistra un’area di 0.025 sara per simmetria il
valore −t80.025. Il valore cercato lo troviamo nella tavola all’incrocio con i gradi di
liberta g = 8 e probabilita p = 0.975 ed e t80.025 = 2.306. La regione di rifiuto e
R = {t < −2.306 o t > 2.306}
4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o
rifiutare H0. Poiche t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, infatti
3.22 e maggiore di 2.306.
9.3 Confronto tra test z e test t
Nell’esempio che segue si mostra come varia la regione di rifiuto nel caso di popolazione
normale quando σ non e noto e quando σ si suppone noto.
Si supponga di dover verificare l’ipotesi
H0 : µ = 0.5
dove µ0 = 0.5 rappresenta il valor medio del tasso alcolemico che e tollerato dal codice
della strada. Supponiamo quindi che il tasso alcolemico sia la variabile X e che abbia
distribuzione normale. L’ipotesi alternativa puo essere definita come
HA : µ 6= 0.5
In un primo caso supponiamo che lo scarto quadratico medio della popolazione sia noto e
valga σ = 0.1.
Fissiamo il livello di significativita del test: α = 0.05. Supponiamo di andare a misurare
per n volte il tasso alcolemico di una persona e di calcolare la media degli n valori,
otteniamo quindi il valore xn.
Per quanto descritto nella Sezione 9.2.1 il test da utilizzare e il test z e la regione di
rifiuto e data da
|z| =∣∣∣∣ xn − µ0
σ/√n
∣∣∣∣ > zα/2
Quindi, poiche zα/2 = 1.96 rifiutiamo l’ipotesi nulla se il valore calcolato |z| > 1.96.
Ovviamente la quantita z dipende da tanti fattori: n, il valore calcolato e osservato sul
campione xn e σ. Nella tabella che segue si riportano i valori della statistica |z| e la
corrispondente decisione, al variare di n nel caso in cui si supponga di osservare comunque
sempre lo stesso valore xn = 0.60 per n diversi.
n xn σ |z| decisione
3 0.6 0.1 1.73 Non rifiuto H0
5 0.6 0.1 2.23 rifiuto H0
10 0.6 0.1 3.16 rifiuto H0
20 0.6 0.1 4.47 rifiuto H0
130 CAPITOLO 9. TEST STATISTICI
Si noti come a parita di tutte le condizioni, il valore della statistica test cresce al crescere
di n. Piu il campione e grande, pu il valore 0.60 osservato come media di n osservazioni,
viene considerato inusuale per una popolazione con media vera µ = 0.50. La probabilita
di osservare un valore oltre il valore della statistica osservato, risulta quindi sempre piu
piccolo. L’area sotto la curva normale standardizzata oltre 4.47 e maggiore dell’area oltre
3.16 che e maggiore dell’area oltre 2.23. Il valore dell’area e una quantita importante nella
teoria dei test statistici, perche nel caso in cui si rifiuta l’ipotesi nulla, da una misura di
quanto e plausibile l’ipotesi nulla. Piu osserviamo un valore alto della statistica, meno e
plausibile l’ipotesi nulla. torneremo su questo concetto nel paragrafo sul p-value.
Continuiamo nel nostro esempio, e supponiamo ora di non conoscere σ e quindi di
stimarlo con s sui dati osservati. Supponiamo di osservare anche in questo caso, sempre
gli stessi valori di nn e sn per diversi valori di n. Precisamente, supponiamo che nn = 0.60
e sn = 0.1. In questo caso il test e il test t e la statistica test da considerare per quanto
visto nel Paragrafo 9.2.2 `e la t di Student e la regione di rifiuto risulta
|t| =∣∣∣∣ xn − µ0
sn/√n
∣∣∣∣ > tn−10.025
Nella tabella che segue riportiamo i valori della statistica t, i valori soglia e la decisione
per i diversi valori di n.
n xn σ |t| tn−10.025 decisione
3 0.6 0.1 1.73 4.30 Non rifiuto H0
5 0.6 0.1 2.23 2.78 Non rifiuto H0
10 0.6 0.1 3.16 2.26 rifiuto H0
20 0.6 0.1 4.47 2.09 rifiuto H0
Si noti come il valore della statistica test t e lo stesso di z. Infatti le quantita in gioco
sono le stesse numericamente. Quello che cambia sono le condizioni sotto le quali stiamo
verificando l’ipotesi nulla. Nel primo caso lo s.q.m. era supposto noto, nel secondo non
noto.
Si supponga ora che l’osservazione della media sia xn = 0.55 sempre lo stesso anche
in questo caso per diversi valori di n. Consideriamo il caso in cui σ sia noto. I valori
della statistica test z sono riportati nella seguente tabella e vanno sempre confrontati con
il valore soglia zα/2 = 1.96.
n xn σ |z| decisione
3 0.55 0.1 0.87 Non rifiuto H0
5 0.55 0.1 1.12 Non rifiuto H0
10 0.55 0.1 1.58 Non rifiuto H0
20 0.55 0.1 2.23 rifiuto H0
9.4. IL LIVELLO DI SIGNIFICATIVIA DEL TEST: α 131
Si noti come in questo caso, avendo osservato un valore medio piu vicino al valore specifi-
cato dall’ipotesi nulla, si riesce a rifiutare solo se il valore medio x = 5.5 e ottenuto come
media di 20 osservazioni.
Nel caso in cui σ non sia noto e viene stimato con s = 0.1 si riportano nella seguente
tabella i valori della statistica t e i valori soglia che variano al variare di n.
n xn σ |t| tn−10.025 decisione
3 0.55 0.1 0.87 4.30 Non rifiuto H0
5 0.55 0.1 1.12 2.78 Non rifiuto H0
10 0.55 0.1 1.58 2.26 Non rifiuto H0
20 0.55 0.1 2.23 2.09 rifiuto H0
Anche in questo caso si rifiuta solo per per n = 20. si noti come comunque il valore
osservato della statistica, 2.23, in questo caso sia piu vicino al valore soglia che in questo
caso e 2.09, mentre nel caso precedente il valore soglia e 1.96.
9.4 Il livello di significativia del test: α
Abbiamo visto nelle sezioni precedenti le regioni di rifiuto per verifiche d’ipotesi con errore
di primo tipo α uguale a 0.05. Se il livello di significativia del test varia, anche la regione
di rifiuto cambia. Ad esempio se il livello diventa α = 0.01 la regione di rifiuto per il primo
caso pratico trattato e
R = {z < −2.575 o z > 2.575}
Il valore −2.575 e quel valore che lascia alla sua sinistra sotto la curva della distribuzione
normale standardizzata un’area pari a 0.005. Mentre per simmetria il valore 2.575 lascia
alla sua destra sotto la curva della distribuzione normale standardizzata un’area pari
a 0.005. Adottiamo un po’ di notazioni. Se indichiamo con α2 la meta del livello di
significativita, siamo in grado di calcolare la regione di rifiuto per qualunque valore di
significativia α. Infatti se indichiamo con zα2
il valore sotto la curva normale che lascia
alla sua destra un’area pari a α2 la generica regione di rifiuto puo essere scritta come
R ={z < −zα
2o z > zα
2
}Si noti che se α = 0.05, α2 = 0.025 e zα
2= 1.96 mentre se α = 0.01, α2 = 0.005 e zα
2= 2.575.
Risulta percio evidente che se vogliamo calcolare la regione di rifiuto a livello α = 0.02
poiche α2 = 0.01 il valore nelle tavole della Normale standardizzata che lascia alla sua
destra un’area di 0.01 e 2.325. Quindi la regione di rifiuto e
R = {z < −2.325 o z > 2.3255}
Nel caso della verifica d’ipotesi per la proporzione le regioni di rifiuto sono le stesse. Nel
caso invece in cui la verifica d’ipotesi sia per la media della popolazione normale nel caso
132 CAPITOLO 9. TEST STATISTICI
in cui σ non sia noto e l’ampiezza campionaria n sia bassa, occorre ricorrere alla tavola
della t di Student per diversi valori di α. Nella tavola fornita occorrera cercare il valore
per p = 1− α2 in corrispondenza ai gradi di liberta g = n− 1.
9.5 Il p-value e il suo rapporto con α.
Quando si rifiuta l’ipotesi nulla di solito nella pratica si decide di compiere un’azione, in
quanto i dati ci hanno dato conferma che l’ipotesi nulla non e molto plausibile e rifiutandola
siamo propensi a credere che sia piu plausibile l’ipotesi alternativa. Nel rifiutare l’ipotesi
nulla sappiamo che possiamo commettere un errore ma l’errore e controllato dal livello
del test α: la probabilita di commettere un errore rifiutando l’ipotesi nulla e inferiore all’
α100%. Risulta evidente che piu e grande il valore della statistica test (in valore assoluto)
piu siamo sicuri nella scelta di rifiutare l’ipotesi nulla. Il p-value misura esattamente
questo livello di sicurezza. Piu e piccolo il p-vale piu siamo sicuri della nostra scelta di
rifiutare l’ipotesi nulla. Per il test z, sia z il valore della statistica test. Sappiamo che se
|z| > zα/2 rifiutiamo l’ipotesi nulla. Se andiamo a calcolare l’area sotto la curva normale
dal valore della statistica test |z| a +∞, poiche abbiamo rifiutato l’ipotesi nulla, tale area
sara minore di α/2. Tanto piu tale area e piccola, tanto piu il valore della statistica test
|z| e grande. Il p-value e esattamente il valore di questa area. In formula
p−value = P (Z > |z|).
In generale e sempre meglio fornire anche il valore del p-value per il test. La relazione tra
il livello di significativita e il p-value e la seguente:
• Rifiutiamo l’ipotesi nulla se p-value < α2
• Accettiamo l’ipotesi nulla se p-value ≥ α2
Riprendiamo l’esempio del paragrafo 9.3. Andiamo a calcolare utilizzando le tabelle
della distribuzione Normale, l’area della regione sotto la curva Normale dal valore osservato
della statistica in poi. Riportiamo i valori osservati e aggiungiamo una colonna per il valore
del p-value.
n xn σ |z| p-value decisione
3 0.6 0.1 1.73 0.042 Non rifiuto H0
5 0.6 0.1 2.23 0.013 rifiuto H0
10 0.6 0.1 3.16 0.001 rifiuto H0
20 0.6 0.1 4.47 0.000 rifiuto H0
Si noti come il primo valore e maggiore di 0.025 e quindi non si rifiuta H0. Negli atri tre
casi si rifiuta sempre H0 ma al crescere di n il p-value e sempre piu piccolo e quindi si
9.5. IL P -VALUE E IL SUO RAPPORTO CON α. 133
rifiuta sempre con maggior convinzione. Si noti che il valore del p-value per n = 20 e l’area
della regione sotto la distribuzione normale oltre il valore 4.47 e tale valore e 3.9 · 10−6
che corrisponde al numero piccolissimo 0.0000039. Il significato di questo numero e che se
fosse vera H0, cioe il vero valore di µ fosse 0.5, allora la probabilita di osservare una media
di 0.6 su 20 osservazioni sarebbe minore di 0.0000039, e quindi e veramente poco credibile
che l’ipotesi nulla sia vera, e quindi la rifiutiamo.
Per il test t sia t il valore della statistica calcolato. In questo caso il p-value misura
l’area sotto la curva della distribuzione t con i corrispondenti gradi di liberta. Se ad
esempio sono g i gradi di liberta dobbiamo andare a cercare i valori dell’area dal valore
|t| calcolato fino a +∞ sotto la curva della distribuzione normale con g gradi di liberta.
Poiche a volte le tavole della t di student forniscono solo alcuni valori delle aree, a volte
possiamo solo dare dei valori approssimati del p-value. La decisione per il test t sara la
stessa che per il test z. L’unica accortezza e che il valore del p-value va cercato nelle tavole
della t di Student con i corretti gradi di liberta.
• Rifiutiamo l’ipotesi nulla se p-value < α2
• Accettiamo l’ipotesi nulla se p-value ≥ α2
Ad esempio riprendiamo l’esempio del paragrafo 9.3 nel caso in cui σ non sia noto.
Andiamo a calcolare utilizzando le tabelle della distribuzione t di Student, l’area della
regione sotto la curva corrispondente dal valore osservato della statistica in poi. Riportia-
mo i valori osservati e aggiungiamo una colonna per il valore del p-value. In questo caso
possiamo solo dalla tabella dare un valore approssimato.
n xn σ |t| tn−10.025 p-value decisione
3 0.6 0.1 1.73 4.30 0.10 < p > 0.25 Non rifiuto H0
5 0.6 0.1 2.23 2.78 0.025 < p < 0.05 Non rifiuto H0
10 0.6 0.1 3.16 2.26 0.005 < p < 0.01 rifiuto H0
20 0.6 0.1 4.47 2.09 p < 0.0005 rifiuto H0
I valori che approssimano il p-value si trovano andando a cercare in corrispondenza della
riga dei gradi di liberta, i valori della statistica minore e maggiore di quello osservato. Ad
esempio per t = 1.73 per g = 2 gradi di liverta abbiamo nella tavola i valori 0.81650 e
1.88562 per cui 0.81650 < t < 1.88562. Quindi l’area da t = 1.73 in poi e compresa tra
0.10 e 0.25. (Occorre osservare che nella tavola in dotazione sono considerate le aree a
sinistra del valore dato. I valori riportati sono 0.90 per 1.88562 e 0.75 per 0.81650, ma
noi dobbiamo considerare le aree a destra e quindi passare ai complementi a 1 dei valori
riportati nella tavola).
134 CAPITOLO 9. TEST STATISTICI
9.6 Intervalli di confidenza e test bilaterali
Come si sara certamente notato il livello di confidenza 1− α per l’intervallo di confidenza
per la media di una popolazione, deve essere collegato al livello di significativita per il
test per la verifica dell’ipotesi nulla sulla media di una popolazione contro l’alternativa
bilaterale. In effetti sia per per il test z che per il test t la verifica d’ipotesi puo essere
effettuata costruendo l’intervallo di confidenza per la media a livello di fiducia 1− α dove
α e il livello di significativita del test e la decisione per il test e la seguente:
• Si rifiuta l’ipotesi nulla H0 : µ = µ0 se µ0 non appartiene all’intervallo di confidenza
costruito per la media della popolazione e livello 1− α
• Non si rifiuta l’ipotesi nulla H0 : µ = µ0 se µ0 appartiene all’intervallo di confidenza
costruito per la media della popolazione e livello 1− α
Abbiamo gia visto come si costruisce l’intervallo di confidenza per la media di una popo-
lazione quando lo scarto quadratico medio σ e noto o quando la numerosita campionaria e
abbastanza elevata e quindi possiamo utilizzare i valori zα/2 della distribuzione normale.
Ad esempio se l’intervallo di confidenza a livello 1− α = 0.95 per la media µ con σ noto,
risulta
I.C. = (x− 1.96σ√n, x+ 1.96
σ√n
)
Se il valore µ0 specificato dell’ipotesi nulla del test a livello di significativita α = 0.05 per
la media della popolazione, appartiene all’intervallo calcolato, non si rifiuta l’ipotesi nulla,
se µ0 non appartiene all’intervallo calcolato, si rifiuta l’ipotesi nulla.
Supponiamo invece di aver calcolato l’intervallo di confidenza a livello 1 − α = 0.95
per la media µ con σ non noto e quindi stimato con s, per una numerosita campionaria n
elevata (maggiore di 30, meglio se maggiore di 50). Esso e dato da
I.C. = (x− 1.96s√n, x+ 1.96
s√n
)
Anche in questo caso, se il valore µ0 specificato dell’ipotesi nulla del test a livello di
significativita α = 0.05 per la media della popolazione, appartiene all’intervallo calcolato,
non si rifiuta l’ipotesi nulla, se µ0 non appartiene all’intervallo calcolato, si rifiuta l’ipotesi
nulla.
Per quanto riguarda il test t, quando cioe σ non e noto, la numerosita campionaria e
bassa e possiamo ritenere il fenomeno distribuito come una normale, dobbiamo costruire
l’intervallo di confidenza per la media dela popolazione µ in questo caso. Per fare questo
la procedura e la stessa che nel caso di popolazione Normale con sigma noto o nel caso di
popolazione qualunque ma numerosita elevata, con la sola differenza che dobbiamo calcolar
ein ogni caso s e cercare il valore che determina l’ampiezza dell’intervallo nelle tavole della
t di student, con i gradi di liberta pari a n− 1. Vediamo con ordine gli ingredienti:
9.7. TEST CON ALTERNATIVA UNILATERALE 135
• Calcolare x = 1n
∑nk=1 xi
• Calcolare s =√
1n−1
∑nk=1(xi − x)2
• Calcolare i gradi di liberta n− 1
• Cercare il valore corrispondente sulla tavola della t di Student in corrispondenza di
p = 1− α/2 e gradi di liberta n− 1.
Ad esempio il valore per n = 12 e quindi n−1 = 11 per un livello di fiducia di 1−α = 0.95
e dato dal valore t110.025 = 2.0099. Tale valore lo troviamo nella Tavola A.5 in appendice
per g = 11 e p = 0.975 in quanto la tavola riporta l’area da −∞ al valore prefissato.
L’intervallo di confidenza risulta quindi
I.C. = (x− tn−1α/2
s√n, x+ tn−1
α/2
s√n
)
Anche in questo caso, se il valore µ0 specificato dell’ipotesi nulla del test a livello di
significativita α = 0.05 per la media della popolazione, appartiene all’intervallo calcolato,
non si rifiuta l’ipotesi nulla, se µ0 non appartiene all’intervallo calcolato, si rifiuta l’ipotesi
nulla.
9.7 Test con alternativa unilaterale
A volte si e praticamente sicuri della direzione in cui si e spostato il valore della media,
per cui invece di verificare l’ipotesi se la media e un certo valore contro l’alternativa che
sia diversa (test bilaterale) si verifica se la media e un certo valore contro l’alternativa che
sia maggiore (oppure minore) del valore specificato con l’ipotesi nulla. Si tratta del test
ad una coda ovvero del test con alternativa unilaterale. Per questo tipo di test l’ipotesi
nulla e la stessa
H0 : µ = µ0
mentre l’alternativa puo essere di tipo unilaterale destra
HA : µ > µ0
quando siamo convinti che il valore della media sia cresciuto rispetto al valore dichiarato.
Oppure l’alternativa puo essere di tipo unilaterale sinistra
HA : µ < µ0
quando siamo convinti che il valore della media sia diminuito rispetto al valore dichiarato.
A questo punto fissato il livello del test α = 0.05 occorre determinare la regione di
rifiuto ed e a questo punto che sta la grossa differenza tra test unilaterali e quelli bilaterali.
136 CAPITOLO 9. TEST STATISTICI
In questi ultimi abbiamo visto che l’errore α veniva spezzato in due parti (una a sinistra
e una a destra) della distribuzione della statistica test. Nei test unilaterali questo errore e
invece tutto da una parte. Tale parte ovviamente dipende dal tipo di alternativa unilaterale
che stiamo verificando. Se ad esempio abbiamo l’ipotesi unilaterale destra µ > µ0 la regione
di rifiuto a livello α = 0.05 e
R = {z > 1.645}
dove 1.645 e il valore sotto la curva normale standardizzata che lascia alla sua destra
un’area pari a 0.05. La regione di rifiuto e riportata in Figura 9.5. Se invece il tet consiste
Regione di rifiuto
0 1.645
α = 0.05
Figura 9.5: Regione di rifiuto per il test unilaterale con alternava destra a livello α = 0.05.
nel verificare l’ipotesi nulla µ = µ0 contro l’alternativa unilaterale sinistra µ < µ0, la
regione di rifiuto a livello α = 0.05 e
R = {z < −1.645}
dove −1.645 e il valore sotto la curva normale standardizzata che lascia alla sua sinistra
un’area pari a 0.05. La regione di rifiuto e riportata in Figura 9.6.
Se cambia il livello del test cambia solo il valore soglia da ricavare dalla tavola in
corrispondenza del valore α specificato.
Per il test per la media di una popolazione normale quando lo scarto quadratico medio
non e noto e la numerosita del campione minore di 30 si procede con la statistica t e si
utilizza la tavola della t di Student per determinare la regione di rifiuto quando l’alternativa
e una delle due unilaterale destra o sinistra. Vediamo i passi per questo test nei due casi.
Fissato α = 0.05 consideriamo l’ipotesi alternativa unilaterale destra.
9.7. TEST CON ALTERNATIVA UNILATERALE 137
Regione di rifiuto
−1.645 0
α = 0.05
Figura 9.6: Regione di rifiuto per il test unilaterale con alternava sinistra a livello α = 0.05.
1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA.{H0 : µ = µ0
HA : µ > µ0
2. Calcolare la statistica test t. Osservati i valori del campione x1, x2, . . . , xn, questa e
data da
t =x− µ0
s√n
3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la
soglia occorre cercare nella tavola della t di Student con n− 1 gradi di liberta, quel
valore che lascia a destra un’area pari a 0.05, indichiamo tale valore con tn−10.05 . La
regione e:
R ={t > tn−1
0.05
}4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o
rifiutare H0. Se t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, altrimenti
l’accettiamo.
Consideriamo ora l’ipotesi alternativa unilaterale sinistra
1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA.{H0 : µ = µ0
HA : µ < µ0
138 CAPITOLO 9. TEST STATISTICI
2. Calcolare la statistica test t. Osservati i valori del campione x1, x2, . . . , xn, questa e
data da
t =x− µ0
s√n
3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la
soglia occorre cercare nella tavola della t di Student con n− 1 gradi di liberta, quel
valore che lascia a sinistra un’area pari a 0.05, indichiamo tale valore con −tn−10.05 . La
regione e:
R ={t < −tn−1
0.05
}4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o
rifiutare H0. Se t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, altrimenti
l’accettiamo.
Si noti che rispetto ai test bilaterali quello che cambia e unicamente il valore soglia a
parita di statistica test e livello del test in quanto tutto l’errore di prima specie viene
scaricato nella direzione dell’ipotesi alternativa. Se l’ipotesi nulla e vera si sbaglia sono in
una direzione. A parita di livello α la soglia della regione di rifiuto per un test unilaterale
e sempre minore del corrispondente test bilaterale e quindi si rifiutera l’ipotesi nulla con
piu facilita.
Vediamo un esempio
Esempio 9.7.1. Riprendiamo l’Esercizio 9.2.2 Gli studenti laureati in sociologia sono
convinti di essere nettamente sopra la media della performance in questo test. Impostare
una verifica d’ipotesi per stabilire se tale affermazione e credibile.
Svolgiamo l’esercizio passo per passo, anche se con le considerazioni fatte se abbiamo
rifiutato l’ipotesi nulla nel caso di test bilaterale, questa allo stesso livello sara rifiutata
anche per il test unilaterale destra. Vediamo cosa accade.
1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA.{H0 : µ = 62HA : µ > 62
2. Calcolare la statistica test t. I valori del campione x1, x2, . . . , x9 non li conosciamo
ma conosciamo la media x e s. La statistica test e
t =x− µ0
s√n
=66.33− 62
4.04√9
= 3.22
Come si vede il valore della statistica test non cambia.
9.8. ESERCIZI 139
3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la
soglia occorre cercare nella tavola della t di Student con n− 1 = 8 gradi di liberta,
quel valori che lascia a destra un’area pari a 0.05, indichiamo tale valore con t80.05.Il
valore cercato lo troviamo nella tavola all’incrocio con i gradi di liberta g = 8 e
probabilita p = 0.95 ed e t80.05 = 1.86. La regione di rifiuto e
R = {t > 1.86}
Come si vede la regione di rifiuto a destra e piu grande della parte destra nel caso
di alternativa bilaterale.
4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o
rifiutare H0. Poiche t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, infatti
3.22 e maggiore di 1.86 come lo era di 2.306.
9.8 Esercizi
1. Una ricerca vuole stabilire l’ete media a cui le donne iniziano a fumare. Una ri-
cercatrice intervista 25 fumatrici e chiede loro l’eta in cui hanno fumato la prima
sigaretta. La media campionaria sulle 25 intervistate e stata x = 16.8 anni e lo
scarto quadratico medio s = 1.5 anni.
(a) Verificare, con un livello di significativita α = 0.05 se la media dell’eta in cui si
fuma la prima sigaretta possa considerarsi 16 anni contro l’alternativa che sia
diversa. (Utilizzare il test t).
(b) Calcolare un intervallo di confidenza per la media dell’eta in cui si inizia a
fumare per l’intera popolazione. Fissare il livello di confidenza 1−alpha = 0.95.
(c) Sulla base dell’intervallo calcolato l’esito del test e confermato?
2. Per determinare il grado di tolleranza verso gli stranieri in un campus universitario
agli studenti viene sottoposto un questionario i cui punteggi sono classificati da 1
a 10 dove un punteggio alto indica maggiore tolleranza e un punteggio basso minor
tolleranza. Su 40 questionari riconsegnati e stata calcolata la media x = 6 e lo scarto
quadratico medio s = 1.5.
(a) Verificare l’ipotesi che la media dell’indice di tolleranza nel campus sia µ = 7
contro l’alternativa che sia diverso. Fissare il livello del test α = 0.01.
(b) Il p value per questo test quanto vale?
(c) Costruire l’intervallo di confidenza a livello di fiducia 1− α = 0.99 e sulla base
dell’intervallo calcolato traete la conclusione per la verifica d’ipotesi precedente.
140 CAPITOLO 9. TEST STATISTICI
Capitolo 10
La proporzione
Fino ad ora abbiamo considerato variabili continue dove la statistica considerata per lo
studio era la media campionaria. In questo capitolo consideriamo invece la proporzione di
un certo evento di interesse valutata su un campione rappresentativo di una popolazione.
Ad esempio possiamo essere interessati alla proporzione di studenti maschi nella facolta di
lettere e letterature straniere, o alla proporzione di fumatori nella popolazione italiana o
ancora alla proporzione di lavoratori della provincia di Bergamo con un reddito inferiore
a 20000 euro all’anno.
10.1 Il modello
In tutti e tre gli esempi di prima possiamo immaginare la popolazione in cui l’interesse e
per una caratteristica (che viene codificata come successo: il fatto di essere maschi nella
popolazione degli studenti di lettere e letterature straniere, il fatto di essere fumatori nella
popolazione degli italiani, il fatto di essere un lavoratore bergamasco con un reddito di
meno di 20000 euro all’anno).
Indichiamo con π, la lettera pi greca, la vera proporzione di successo nella popolazione
in oggetto. Se vogliamo avere qualche informazione su questo valore incognito π possiamo
scegliere in modo rappresentativo un campione di n elementi nella popolazione e vedere
(contare) quante volte si realizza il successo. Ad esempio possiamo scegliere un campione
di 40 studenti e studentesse dell’Universita di Bergamo e contare i maschi. Oppure un
campione di 6000 italiani e contare i fumatori, oppure ancora un campione di 500 lavoratori
della provincia di Bergamo e contare quelli che hanno un reddito inferiore ai 20000 euro.
In tutti questi casi scegliamo un campione di ampiezza n e codifichiamo con 1 il successo
e con 0 l’insuccesso. Registriamo quindi 1 ogni volta che sull’unita del campione osserviamo
il successo e 0 ogni volta che registriamo insuccesso. Se indichiamo con k il numero di
successi avremo che la proporzione di successi nel campione e data dal rapporto tra il
141
142 CAPITOLO 10. LA PROPORZIONE
numero dei successi e il numero delle unita nel campione
p =
1 + 1 + . . .+ 1︸ ︷︷ ︸k volte
+0 + . . .+ 0︸ ︷︷ ︸n−k volte
n=k
n.
La quantita p = kn e detta proporzione campionaria e costituisce la grandezza fondamentale
per l’inferenza sulla proporzione vera π.
In particolare vale il seguente risultato, analogo a quello della media campionaria per
la media incognita µ.
Teorema 10.1.1. p e la migliore stima puntuale per π basata su un campione di nume-
rosita n.
In effetti se si guarda a come e definita p, essa e una media campionaria di n grandezze
x1, x2, . . . , xn, che possono solo assumere il valore 1 o il valore 0.
Quindi, ad esempio, stimeremo la proporzione vera di studenti maschi alla facolta di
lettere con la proporzione campionaria valutata sul campione di 40 studenti. Naturalmente
sara preferibile fornire un intervallo come stima fornendo anche l’informazione su quanto
siamo confidenti che il vero valore stia nell’intervallo fornito come stima. Per costruire
quindi l’intervallo di confidenza con un certo grado di fiducia abbiamo il seguente risultato
che deriva dal teorema fondamentale della statistica.
Teorema 10.1.2. Se n e grande la distribuzione di p e approssimativamente normale con
media π e scarto quadratico medio
√π(1−π)
n .
L’importanza di questo risultato e evidente. Se abbiamo qualche informazione sulla
proporzione di una evento di interesse in una popolazione e osserviamo su un campione di
numerosita n una certa proporzione campionaria p, possiamo, dopo aver calcolato lo score
di questa proporzione campionaria, valutare se e un valore attendibile per la popolazione
che stiamo considerando. Prima quindi di vedere come costruire l’intervallo di confidenza
per la proporzione incognita π, vediamo questo esempio.
Esempio 10.1.3. Nell’esame di statistica la proporzione di promossi ad un generico ap-
pello e stata comunicata dalla docente ed e del 70%. Durante l’appello per gli studenti
fuori corso si presentano 17 studenti e 10 passano l’esame di statistica. Possiamo dire che
gli studenti che si sono presentati all’appello per i fuori corso sono particolarmente non
bravi? Al primo appello utile dopo la fine del corso si presentano 92 studenti e 80 passano
l’esame. Cosa possiamo concludere per questi studenti?
La percentuale di studenti che passa l’esame all’appello riservato agli studenti fuori
corso e p = 1017 = 0.59. Lo score di questa proporzione lo ottengo calcolando prima lo
10.2. INTERVALLO DI CONFIDENZA PER LA PROPORZIONE π 143
standard error per la proporzione di studenti che passano l’esame di statistica in questo
appello. Questo e dato da√
0.70∗0.3017 = 0.11. Quindi lo score e
z =0.59− 0.70
0.11= −1
Calcolando l’area sotto la distribuzione normale standardizzata prima di -1 ho un’indica-
zione relativa alla probabilita con cui avrei potuto osservare un numero di studenti che
ha passato l’esame inferiore a quello che ho realmente osservato. Dalle tavole ricavo che
il valore della propabilita cercata e circa 0.16. Quindi con una probabilita di circa il 16 %
avrei potuto osservare un numero inferiore di successi. Quindi concludo che gli studenti
fuori corso non sono particolarmente non bravi.
Veniamo al primo appello utile dopo aver seguito il corso. La proporzione di studenti
che ha passato l’esame e p = 0.87. Lo standard error e√
0.70∗0.3092 = 0.05 La probabilita
di osservare piu di 80 studenti che passano l’esame su 92 e 0.0003 cioe solo in 3 appelli
su 10000 avrei osservato una simile percentuale di successi, quindi sono particolarmente
preparati gli studenti che sostengono il primo appello utile.
Esercizio 10.1.4. Due sondaggi rappresentativi a livello nazionale sono stati condotti nel
2011 e 2012 su un campione totale di 6167 adulti. La percentuale dei fumatori in Italia
diminuisce, passando dal 22.7% nel 2011 al 20.8% nel 2012. Gli uomini fumano piu delle
donne: 25.3% contro il 18.4%.
Su un campione di 50 studenti presenti oggi in aula osserviamo p = 650 = 0.12.
1. Calcolare la probabilita che un campione abbia la proporzione piu bassa di quella
osservata.
10.2 Intervallo di confidenza per la proporzione π
Quando non si possiede nessuna informazione sulla popolazione e vogliamo stimare la
proporzione incognita di un certo evento che rappresenta il successo, possiamo invece che
fornire solo la stima puntuale, valutata come la proporzione campionaria p del numero di
successi in n osservazioni, fornire un intervallo di confidenza per la proporzione incognita
π. L’intervallo di confidenza al 95% di fiducia e dato dalla seguente formula:
I.C al 95% =
(p− 1.96
√p(1− p)
n; p+ 1.96
√p(1− p)
n
).
Si osservi che nello standar error (o scarto quadratico medio di p) non compare il valore
incognito π (e come potrebbe: non ne conosciamo il valore, ne stiamo cercando una stima
con un intervallo di confidenza!), ma compare invece la miglior stima di π dove nella
formula dello standard error compariva π. Si tenga poi presente che tale intervallo e
144 CAPITOLO 10. LA PROPORZIONE
un intervallo che e tanto migliore tanto piu e grande n. In modo analogo l’intervallo di
confidenza al 99% di fiducia e dato dalla seguente formula:
I.C al 99% =
(p− 2.575
√p(1− p)
n; p+ 2.575
√p(1− p)
n
). (10.1)
Esercizio 10.2.1. Supponendo che il campione osservato nell’ Esercizio 10.1.4, sia rap-
presentativo della popolazione italiana, sulla base del risultato campionario rilevato, cal-
colare l’intervallo di confidenza a livello 95% per la proporzione di fumatori in Italia. Tale
intervallo contiene la proporzione fornita dallo studio per il 2012?
Esercizio 10.2.2. La seguente tabella riporta i risultati pubblicati sui quotidiani The
Indipendent e The Daily Telegraph nel 1992 sulle intenzioni di voto dei britannici.
Fonte Intenzione di voto (in %)n Consevatori Laburisti
The Indipendent 1746 39.0 42.0The Daily Telegraph 2478 38.5 38.0
1. Calcolare l’intervallo di confidenza per le quattro proporzioni.
2. Gli intervalli per la proporzione di votanti per i conservatori e per i laburisti dei due
quotidiani si sovrappongono?
3. Potete concludere da questi dati chi sara il vincitore delle elezioni e con che distacco?
4. Fare una ricerca per trovare il vincitore e il distacco.
L’esercizio non fornisce il livello di confidenza. In questi casi si assume il livello 95%.
Applicando la formula (10.1) otteniamo i seguenti intervalli per i dati forniti dai due
quotidiani:
1. Partito conservatore dati da The Indipendent :
I.C al 95% = (0.367, 0.413) = (36.7%; 41.3%)
2. Partito laburista dati da The Indipendent :
I.C al 95% = (0.397, 0.443) = (39.7%; 44.3%)
3. Partito conservatore dati da The Daily Telegraph:
I.C al 95% = (0.366, 0.404) = (36.6%; 40.4%)
10.3. VERIFICA D’IPOTESI PER LA PROPORZIONE 145
4. Partito laburista dati da The Daily Telegraph:
I.C al 95% = (0.361, 0.399) = (36.1%; 39.9%)
Si noti come gli intervalli calcolati per il The Daily Telegraph siano piu precisi, cioe piu
stretti, hanno un’ampiezza di 0.038, cioe 3.8 punti percentuali, rispetto a quelli calcolati
per il The Indipendent, che hanno un’ampiezza di 0.046, cioe di 4.6 punti percentuali.
Questo e dovuto alla maggiore numerosita del campione. Il distacco stimato dal The Indi-
pendent si ottiene facendo la differenza delle due stime, e quindi e di tre punti percentuali,
mentre la stima data dal The Daily Telegraph e praticamente i due partiti con la stessa
percentuale di voti, stimando la differenza con solo mezzo punto percentuale.
I due intervalli calcolati per il giornale The Indipendent non si intersecano e danno la
vittoria al partito laburista. I due intervalli calcolati per il giornale The Daily Telegraph
si intersecano e sembrerebbe in leggero vantaggio il partito conservatore.
I risultati delle elezioni smentirono quasi tutti i sondaggi pre elettorali, soprattutto per
il distacco tra le percentuali dei due partiti.
Esercizio 10.2.3. Con riferimento ai dati riportati nella Sezione 2.7.3, calcolare l’inter-
vallo di confidenza al 95% per la percentuale di giovani uomini che danno il primo bacio
a carattere sessuale prima dei 15 anni.
Occorre prima di tutto stimare la percentuale di giovani uomini che danno il bacio
prima dei 15 anni. Sono 22 i ragazzi che hanno dato il primo bacio prima dei 15 anni,
quindi p = 2242 = 0.52. L’intervallo richiesto risulta (0.52± 0.15) ovvero (0.37; 0.67). Posso
concludere che con un grado di fiducia del 95% la percentuale di ragazzini che da il primo
bacio prima dei 15 anni e compresa tra il 37% e il 67%.
Esercizio 10.2.4. Con riferimento ai dati riportati nella Sezione 2.7.3, calcolare l’inter-
vallo di confidenza al 95% per la percentuale di giovani uomini che danno il primo bacio
a carattere sessuale dopo i 15 anni.
Occorre prima di tutto stimare la percentuale di giovani uomini che danno il bacio
dopo i 15 anni. Sono 8 i ragazzi che hanno dato il primo bacio prima dei 15 anni, quindi
p = 842 = 0.19. L’intervallo richiesto risulta (0.19 ± 0.12) ovvero (0.07; 0.31). Posso
concludere che con un grado di fiducia del 95% la percentuale di ragazzini che da il primo
bacio dopo i 15 anni e compresa tra il 7% e il 31%.
10.3 Verifica d’ipotesi per la proporzione
La procedura per la verifica d’ipotesi puo essere applicata anche al caso in cui si vo-
glia sottoporre a verifica il valore della proporzione di un certo evento d’interesse su una
popolazione. Vediamo in questo caso i 4 passi.
146 CAPITOLO 10. LA PROPORZIONE
1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA. Ab-
biamo un’affermazione sul parametro π:{H0 : π = π0
HA : π 6= π0
2. Per il teorema 10.1.2 calcoliamo lo z score della proporzione campionaria calcolata
sull’osservazione di un campione di ampiezza n. Indicata con p tale proporzione
abbiamo:
z =p− π0√π0(1−π0)
n
3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la
soglia sempre il Teorema 10.1.2 garantisce che se n e abbastanza grande la distri-
buzione degli score e normale standardizzata. Quindi la regione di rifiuto a livello
α = 0.05 e ancora
R = {z < −1.96 o z > 1.96}
4. Decidere sulla base del valore z. Se z appartiene a R rifiutiamo l’ipotesi nulla,
altrimenti accettiamo l’ipotesi nulla.
Esempio 10.3.1. Un magazzino dichiara di non commettere discriminazione sulla base
dell’etnia dei suoi dipendenti. Meta di essi appartengono infatti a una minoranza etnica.
Osservando i dati dei licenziati nell’ultimo anno i dati dicono che di 28 persone licenziate
23 appartengono alla minoranza etnica. Il magazzino commette il reato di discriminazione
della minoranza?
Se l’affemazione del magazzino fosse vera, cioe se non ci fosse discriminazione il valore
di p = 2328 = 0.82 dovrebbe essere tale da non far rifiutare l’ipotesi nulla. Applichiamo i
passi per la verifica di ipotesi per la proporzione a questo problema. Il sistema di ipotesi e{H0 : π = 0.50HA : π 6= 0.50
Calcoliamo quindi lo z score della proporzione osservata p = 0.82:
z =p− π0√π0(1−π0)
n
=0.82− 0.50√
0.50(1−0.50)28
= 3.39.
Poiche il valore 3.39 appartiene alla regione di rifiuto R = {z < −1.96 o z > 1.96}, rifiutia-
mo l’ipotesi nulla. Quindi non possiamo credere all’affermazione del magazzino riguardo
alla mancanza di discriminazione.
Esercizio 10.3.2. Determinare il numero massimo di licenziati appartenenti alla mino-
ranza etnica affiche l’ipotesi nulla non sia rifiutata.
10.3. VERIFICA D’IPOTESI PER LA PROPORZIONE 147
Esercizio 10.3.3. Un indagine vuole determinare se tra i tifosi viene visto favorevolmente
il fatto che ai giocatori di calcio venga fatto il test anti-doping dopo ogni partita. Si
intervistano 400 tifosi per i quali risulta che il 64% e favorevole a tale procedura.
1. Verificare se la vera proporzione di favorevoli a tale procedura possa ritenersi pari a
π0 = 0.60 contro l’alternativa che sia diversa. Fissare il livello del test a α = 0.05.
2. quale sarebbe stata la conclusione del test se lo stesso risultato p = 0.64 fosse stato
ottenuto intervistando n = 1000 tifosi?
148 CAPITOLO 10. LA PROPORZIONE
Capitolo 11
Confronto di medie
Nei capitoli precedenti abbiamo considerato una sola variabile di interesse, cioe un solo
fenomeno e su di esso abbiamo calcolato gli intervalli di confidenza per la media incognita e
abbiamo fatto delle ipotesi sul valore di questa media incognita (il parametro µ) basandoci
sui risultati del fenomeno osservati su un campione della stessa popolazione. Nei fenomeni
di carattere sociale e invece importante considerare e verificare se sono presenti delle
differenze, ad esempio se il tasso di disoccupazione dei giovani sia diverso tra uomini
e donne o se si possa ritenere uguale e quindi non dipendere dal genere. Oppure se
ad esempio cattolici o protestanti abbiano tendenze diverse sull’essere o meno favorevoli
all’aborto. E importante osservare che nella ricerca (anche in campo sociale) si e interessati
a trovare e studiare differenze piuttosto che a stabilire che queste differenze non esistono.
Dalla constatazione di una differenza nasce spesso lo spunto per intraprendere un nuovo
studio e partire con una nuova ricerca.
11.1 Differenza delle medie per popolazioni normali
Per introdurre le necessarie notazioni, partiamo da un esempio. Supponiamo di voler capire
quale tra due metodi e piu efficace per sviluppare la memoria nei giovani che studiano a
livello universitario. Si scelgono a caso tra i giovani, 5 soggetti che verranno sottoposti
al metodo A e altri 5 che verranno sottoposti al metodo B. Dopo il trattamento viene
effettuato un test per valutare l’effetto dei due metodi. I risultati del test sono riportati
nella Tabella 11.1. Se vogliamo valutare i risultati dei due metodi confrontando la media
nei due gruppi, come si vede dai risultati riportati nella Tabella 11.1, nel gruppo sottoposto
al metodo A la media ottenuta e 16 e i valori si attestano attorno al questo valore, mentre
nel gruppo che e stato sottoposto al metodo B i valori si attestano attorno al valore 20 che
e la media. Saremmo propensi a credere che ci sia differenza tra i due metodi osservando
i risultati sui due gruppi. Ora si supponga che i risultati nei due gruppi abbiano sempre
dato la stessa media, ma le osservazioni sui singoli soggetti siano diverse. Le riportiamo
149
150 CAPITOLO 11. CONFRONTO DI MEDIE
Metodo A Metodo B
16 2015 1917 2115 2017 20
xA = 16 xB = 20
Tabella 11.1: Risultati primo esperimento test sulla memoria.
Metodo A Metodo B
20 1516 1612 2413 2019 25
xA = 16 xB = 20
Tabella 11.2: Risultati secondo esperimento test sulla memoria.
nella Tabella 11.2. Come si vede le singole osservazioni nei due gruppi sono molto instabili
attorno ai valori medi. In questa situazione siamo piu restii a considerare una differenza
effettiva tra i due gruppi. Cercheremo ora di fornire un metodo quantitativo per stabilire
sulla base delle osservazioni se ci sia una differenza tra i due gruppi.
Denotiamo con X1 e X2 le due popolazioni che hanno subito il trattamento A (nel-
l’esempio il gruppo sottoposto al metodo A) e il trattamento B. Supponiamo che le due
popolazioni siano Normali, ciascuna caratterizzata dai propri parametri incogniti media e
scarto quadratico medio.
Sia µ1 il parametro che rappresenta la media incognita nella prima popolazione e sia µ2
il parametro che rappresenta la media incognita nella seconda popolazione. Supponiamo
che la variabilita nella due popolazioni sia la stessa e denotiamo lo scarto quadratico medio
di entrambe le popolazioni con σ.
Vogliamo verificare l’ipotesi nulla
H0 : µ1 = µ2
contro l’alternativa bilaterale
HA : µ1 6= µ2
Per verificare questa ipotesi consideriamo per ciascuna delle due popolazioni un cam-
pione casuale e andiamo a calcolare la media campionaria nei due campioni. Precisamente
sia x(1) = {x1, x2, . . . , xn1} le osservazioni sul campione dalla prima popolazione e siano
11.1. DIFFERENZA DELLE MEDIE PER POPOLAZIONI NORMALI 151
x(2) = {x1, x2, . . . , xn2} le osservazioni sul campione dalla seconda popolazione. Abbiamo
usato lo stesso simbolo per non appesantire le notazioni. Si noti che i campioni possono
anche avere numerosita diverse, qui indicate con n1 e n2 rispettivamente.
La statistica sulla quale si basa il test e data da
t =x1 − x2
sp
√n1+n2n1n2
(11.1)
dove x1 e x2 sono le medie calcolate nei due campioni di ampiezza n1 ed n2 rispettivamente.
La quantita sp e una stima, calcolata come una media pesata secondo le numerosita
dei due campioni, dello scarto quadratico medio σ comune in entrambe le popolazioni ed
e definita come segue:
sp =
√(n1 − 1)s2
1 + (n2 − 1)s22
n1 + n2 − 2
dove con s1 e s2 si sono indicate gli scarti quadratici medi calcolati rispettivamente nei due
campioni. Si noti che nella formula sono elevate al quadrato prima di essere moltiplicate
per (n1 − 1) e (n2 − 1) rispettivamente.
Fissato il livello di significativita del test α, in genere α = 0.05 o α = 0.01, ovvero
fissato il rischio che siamo disposti ad assumerci nel caso si rifiutasse H0 e questa fosse
in realta vera, il test consiste nel confrontare il valore di t calcolato con la formula (11.1)
con il valore di una t di Student con g = n1 + n2 − 2 gradi di liberta per il corrispondente
valore di α. Indicato con tgα2
il valore per cui l’area dal valore in poi, sotto la distribuzione
di una t si Student con g gradi di liberta e pari ad α2 , la regola di decisione del test a
livello α corrisponde a rifiutare H0 : µ1 = µ2 se |t| > tgα2. Si noti che si prende il valore
assoluto della statistica t. Se la differenza delle medie nella formula (11.1) fosse negativa,
si considera il valore assoluto.
Vediamo un esempio di applicazione del test. Un sociologo ha effettuato un indagine
per per capire se la recente riforma sanitaria introdotta dal governo e vista di buon grado
dai sostenitori dei partiti di centro destra e dai partiti di centro sinistra. A tal proposito
effettua un indagine tra 12 elettori di centro sinistra e 18 elettori di centro destra. A
ciascuno di essi viene sottoposto un questionario il cui risultato e sintetizzato da un valore
numerico su una scala da 1 a 100 dove piu e alto il valore ottenuto piu l’individuo e a
favore della riforma. Il sociologo calcola i seguenti valori: media dei valori riportati tra i
12 elettori di centro sinistra: x1 = 60; scarto quadratico medio riportato tra gli elettori
di centro sinistra: s1 = 12. Media dei valori riportati tra i 18 elettori di centro destra:
x1 = 49; scarto quadratico medio riportato tra gli elettori di centro destra: s2 = 14.
Verificare se il sostegno alla riforma sanitaria possa essere considerato lo stesso tra gli
elettori dei due partiti considerati o se vi e una differenza.
152 CAPITOLO 11. CONFRONTO DI MEDIE
Se indichiamo con µ1 e µ2 i valori medi incogniti nelle due popolazioni del valore del
sostegno dato alla riforma valutabile con il test, si tratta di verificare l’ipotesi
H0 : µ1 = µ2
contro l’alternativa che i due valori siano diversi.
Fissiamo α = 0.05. I gradi di liberta sono 12 + 18− 2 = 28. Il valore t280.025 lo troviamo
sulle tavole della t di Student. Poiche la Tavola A.5 riporta i valori delle aree da −∞ al
valore che cerchiamo, l’area che interessa la troviamo come 1− α2 = 1− 0.025 = 0.975. Il
valore corrispondente alla colonna 0.975 e alla riga 28 e 2.048. Si noti che se da −∞ a
2.048 l’area e 0.975, ne consegue che da 2.048 a +∞ l’area `e 0.025. Quindi t280.025 = 2.048.
Ora calcoliamo il valore della statistica test sui dati osservati. Abbiamo
sp =
√11 · 122 + ·17 ∗ 142
12 + 18− 2=√
175.57 = 13.25
Quindi
t =60− 49
13.25 ·√
12+1812·18
= 2.23
Quindi possiamo rifiutare l’ipotesi nulla, e concludiamo che c’e evidenza che gli elettori di
centro sinistra la pensino in maniera diversa rispetto agli elettori di centro destra riguardo
alla nuova riforma sanitaria.
Se il valore della deviazione standard calcolata sui due campioni fosse stata rispettiva-
mente s1 = 15 ed s2 = 16 avremmo avuto (si verifichi il conto)
sp =√
261 = 15.61,
da cui
t = 1.89.
A parita della stessa differenza in media (x1 − x2 non e cambiata) abbiamo un valore
della statistica test piu basso che non ci porta a rifiutare l’ipotesi nulla. Questo e dovuto
alla piu alta variabilita nelle risposte nei due gruppi che e sintetizzato dai due valori s1 e
s2. Naturalmente se le medie osservate fossero state x1 = 62 e x2 = 47 (quindi con una
differenza maggiore) e avessimo sempre s1 = 15 e s2 = 16 allora in questo caso il valore
della statistica test (si verifichi il conto) sarebbe stato
t = 2.57
e avremmo rifiutato anche in questo caso l’ipotesi nulla. Ad ogni modo e evidente che con
variabilita alte occorre una differenza in media elevata per poter rifiutare.
11.2. DIFFERENZA PER DUE PROPORZIONI 153
Esercizio 11.1.1. In uno studio di marketing per valutare la soddisfazione dei clienti che
hanno effettuato l’acquisto di umidificatori ad ultrasuoni sono state poste alcune domande
ad un gruppo che ha acquistato la marca che ha effettuato la ricerca di mercato e ad un
altro gruppo che ha acquistato una marca concorrente. Gli acquirenti della marca che ha
commissionato lo studio ha dato come risultati del test per valutare il grado di soddisfazione
i seguenti valori: 14.0, 14.3, 12.2, 15.1. Per la seconda marca di umidificatori i risultati
al test sono stati 12.1, 13.6, 11.9, 11.2, 12.2.
Si puo accettare l’ipotesi nulla che la soddisfazione in entrambi i gruppi sia la stessa a
livello di significativita 0.05?
11.2 Differenza per due proporzioni
Come si e interessati a verificare se c’e una differenza tra le medie di due popolazioni nor-
mali si puo essere interessati a capire se vi e una differenza tra due proporzioni, ad esempio
se vi e differenza tra la percentuale di fumatori tra le donne e gli uomini, se la percen-
tuale di disoccupati e diversa tra sud e nord e tra uomini e donne. Nelle scienze sociali si
utilizzano spesso le proporzioni per misurare determinate caratteristiche in diversi gruppi
e si capisce come sia importante stabilire se le differenze osservate siano statisticamente
significative.
Siano quindi π1 e π2 le vere proporzioni di una certa caratteristica di interesse sue due
gruppi distinti.
Siano n1 e n2 le numerosita campionarie nei due gruppi di interesse e siano k1 e k2
il numero degli individui nei rispettivi gruppi che soddisfano la caratteristica di interesse
che si sta studiando (ad esempio i fumatori o i disoccupati).
Vogliamo verificare l’ipotesi nulla
H0 : π1 = π2
contro l’alternativa
HA : π1 6= π2
sulla base dei risultati dell’indagine sui campioni nelle due popolazioni considerate (uomini
e donne o residenti al nord e residenti al sud) e del livello di significativita fissato α.
La statistica test ha la forma
z =p1 − p2
sddove
p1 =k1
n1, p2 =
k2
n2
lo scarto quadratico medio e dato da
sd =
√p∗(1− p∗)
(n1 + n2
n1 · n2
)
154 CAPITOLO 11. CONFRONTO DI MEDIE
e
p∗ =k1 + k2
n1 + n2.
e la proporzione totale di successi calcolata come se i due gruppi fossero un unico gruppo
indistinto. La regola di decisione consiste nel rifiutare H0 se il valore della statistica test
z in valore assoluto e maggiore del valore zα/2 che troviamo sulle tavole della Normale
standardizzata.
Vediamo il seguente esempio. Da un insieme di 22071 medici volontari vennero formati
due gruppi: il gruppo di trattamento e quello di controllo. Gli individui del gruppo
di trattamento ricevevano una dose quotidiana di aspirina mentre quelli di controllo un
farmaco senza il principio attivo, cioe un placebo. Lo studio venne condotto per un periodo
di 5 anni osservando il numero di decessi per infarto. Si ottennero i seguenti risultati:
Esito Infartuati Non Infartuati TotaliFarmaco
Placebo 239 10795 11034Aspirina 139 10898 11037
378 21693 22071
Vogliamo verificare l’ipotesi nulla che la proporzione dei colpiti da infarto sia uguale nei
due gruppi (quello trattato col farmaco e quello col placebo) contro l’alternativa che sia
diversa. Sia 1 il gruppo di controllo e 2 il gruppo dei trattati. Abbiamo
p1 =239
11034= 0.0217 e p2 =
139
11037= 0.0126
E quindi
p∗ =x1 + x2
n1 + n2=
378
22071= 0.0171
Il valore della statistica z e
z =p1 − p2√
p∗(1− p∗)(
1n1
+ 1n2
)=
0.0217− 0.0126√0.0171 · (1− 0.0171)
(1
11034 + 111037
) =0.0091
0.00175= 5.2
Se il livello del test e α = 010 e confrontiamo z = 5.2 con il valore della tavola della normale
zα2
= z0.05 = 1.64. Poiche z > 1.64 il test rifiuta l’ipotesi nulla e gli sperimentatori
concluderanno che vi e un effetto protettivo del principio attivo contenuto nell’aspirina
rispetto al rischio di infarto cardiaco. Come si puo notare il valore osservato della statistica
test e molto alto, e la conclusione del test sarebbe la stessa anche per α = 0.05, α = 0.01,
fino al livello α = 0.000001. Il p-value associato a 5.2 e infatti piu piccolo di quest’ultimo
valore.
11.3. IL P -VALUE 155
11.3 Il p-value
In tutti i test statistici e importante sapere, quando si rifiuta l’ipotesi nulla, quanta convin-
zione in termini di probabilita c’e in questo rifiuto. Prendiamo i due esempi dei paragrafi
precedenti. Nel primo caso per il confornto di due medie da due popolazioni normali abbia-
mo calcolato la statistica t = 2.15 e abbiamo rifiutato perche il valore soglia e t28α/2 = 2.048.
Sempre nello stesso esempio nell’ultimo caso considerato, abbiamo calcolato la statisitca
test che in questo caso vale t = 2.49 e anche in questo caso si rifiuta l’ipotesi nulla perche
il valore della statistica e maggiore del valore soglia. Il grado di convinzione della scelta di
rifiutare e chiaro che sara tanto maggiore tanto piu e grande il valore della statistica test,
rispetto al valore soglia. La misura di questa convinzione ci e data dal p-value. Poiche
l’area sotto la curva della distribuzione della statistica test (nel caso considerato una t
di Student con 28 gradi di liberta) dal valore soglia a +∞ vale α2 e poiche il valore della
statisitca test sta a destra del valore soglia, risulta evidente che l’area sotto la curva della
distribuzione della statistica dal valore osservato t a +∞ sara minore di α2 . Ora tanto piu e
piccola questa area tanto piu il rifiuto dell’ipotesi nulla e fatto con convinzione. Ebbene il
valore di quest’area e il p-value. Cioe il p-value e un’area, e rappresenta la probabilita che
la statistica test assuma un valore piu grande di quello che abbiamo trovato. Se andiamo
sullaTavola A.5 della t di student in corrispondenza della riga con 28 per i gradi di liberta
dobbiamo trovare i due valori tra cui e compreso il valore calcolato: si osserva che
2.048 < 2.15 < 2.467
quindi il p-value in questo caso e tra 0.025 e 0.01. Nel secondo caso
2.467 < 2.49 < 2.763
quindi il p-value e compreso tra 0.01 e 0.005. I valori esatti del p-value si possono ottenere
con un software statistico e sono rispettivamente: 0.02 e 0.009. In entrambi i casi, sono
valori piu piccoli di α2 , e in entrambi i casi rifiutiamo l’ipotesi nulla, ma nel secondo
caso la rifiutiamo con piu convinzione rispetto al primo caso. Consideriamo anche il caso
nell’esempio sulla verifica dell’uguaglianza tra due proporzioni. La statistica test vale 5.2
e l’area sotto la curva di una distribuzione Normale da 5.2 a +∞ e praticamente 0. In
effetti le tavole in appendice calcolano l’area solo fino al valore 3, e 5 e ben oltre il valore
3. Sempre con un software statistico il p-value per questo caso e 1.99 · 10−7 quindi un
numero veramente piccolo (abbiamo visto che e minore di 0.000001). In quest’ultimo caso
l’evidenza della differenza tra i due gruppi e grandissima.
156 CAPITOLO 11. CONFRONTO DI MEDIE
11.4 Esercizi
1. Si vuole stabilire se le donne sorridono di piu degli uomini. Per questo motivo
vengono videoregistrati alcuni uomini e alcune donne in situazioni particolari e si
contano il numero di sorrisi effettuati. I dati sono riportati nella seguente tabella.
Maschi Femmine
8 152 1811 134 1913 11
(a) Calcolare la media e lo scarto quadratico medio nei due gruppi degli uomini e
delle donne.
(b) Scrivere l’ipotesi nulla per verificare se le medie incognita del numero di sorrisi
siano le stesse nei due gruppi.
(c) Calcolare il valore della statistica test.
(d) Trovare il valore soglia fissato il livello del test α = 0.05.
(e) Qual e la decisione a livello α = 0.05.
(f) Calcolare il valore approssimato del p-value.
2. Un sociologo e interessato a studiare se esiste qualche differenza dovuta al genere
riguardo alla socialita delle persone. Come misura del grado di socialita di una
persona viene considerato il numero di amici molto cari che ogni persona possiede.
I dati relativi al numero di amici in un gruppo di 8 donne e 7 uomini sono riportati
nella seguente tabella:
Femmine Maschi
5 57 18 83 17 36 28 21
(a) Calcolare la media e lo scarto quadratico medio nei due gruppi degli uomini e
delle donne.
(b) Scrivere l’ipotesi nulla per verificare se le medie incognita del numero di amici
siano le stesse nei due gruppi.
11.4. ESERCIZI 157
(c) Calcolare il valore della statistica test.
(d) Trovare il valore soglia fissato il livello del test α = 0.05.
(e) Qual e la decisione a livello α = 0.05.
(f) Calcolare il valore approssimato del p-value.
3. E stata svolta un indagine per capire se le persone sopra i 18 anni sono favorevoli
ad una maggior restrizione per il possesso di un’arma da fuoco. I risultati divisi per
genere sono raccolti nella seguente tabella:
Maschi Femmine
Favorevoli 92 120Contrari 74 85
N 166 205
(a) Calcolare la proporzione di favorevoli ad una maggiore restrizione nei due gruppi
degli uomini e delle donne.
(b) Scrivere l’ipotesi nulla per verificare se le proporzioni incognite dei favorevoli
ad una maggiore restrizione siano uguali nei due gruppi.
(c) Calcolare il valore della statistica test.
(d) Trovare il valore soglia fissato il livello del test α = 0.05.
(e) Qual e la decisione a livello α = 0.05.
(f) Calcolare il valore approssimato del p-value.
158 CAPITOLO 11. CONFRONTO DI MEDIE
Appendice A
Tavole Statistiche
In questa appendice sono riportate le tavole statistiche utilizzate nel testo e che potranno
essere utili per risolvere gli esercizi. La Tavola A.1 riporta i valori dell’area sotto la curva
Normale da 0 a un qualunque valore z positivo. Quest’area e riportata nella Figura A.1.
Si noti come per valori di z maggiori di 3.3 il valore dell’area e approssimato con 0.50 che
N(0,1)
z
−3 −2 −1 0 1 z 2 3
0.00.1
0.20.3
0.4
Figura A.1: Area sotto la curva normale standardizzata della regione da 0 fino al genericoz score.
e invece l’area sotto la curva fino a + infinito. Si ricordi l’osservazione fatta nel Capitolo
6, dove si e sottolineato che la curva Normale e asintotica all’asse delle ascisse, quindi la
curva si avvicina all’asse delle ascisse senza mai toccarlo.
159
160 APPENDICE A. TAVOLE STATISTICHE
Area
N(0,1)
z
−3 −2 −1 0 1 z 2 3
0.00.1
0.20.3
0.4
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.000 0.004 0.008 0.012 0.016 0.020 0.024 0.028 0.032 0.0360.1 0.040 0.044 0.048 0.052 0.056 0.060 0.064 0.067 0.071 0.0750.2 0.079 0.083 0.087 0.091 0.095 0.099 0.103 0.106 0.110 0.1140.3 0.118 0.122 0.126 0.129 0.133 0.137 0.141 0.144 0.148 0.1520.4 0.155 0.159 0.163 0.166 0.170 0.174 0.177 0.181 0.184 0.1880.5 0.191 0.195 0.198 0.202 0.205 0.209 0.212 0.216 0.219 0.2220.6 0.226 0.229 0.232 0.236 0.239 0.242 0.245 0.249 0.252 0.2550.7 0.258 0.261 0.264 0.267 0.270 0.273 0.276 0.279 0.282 0.2850.8 0.288 0.291 0.294 0.297 0.300 0.302 0.305 0.308 0.311 0.3130.9 0.316 0.319 0.321 0.324 0.326 0.329 0.331 0.334 0.336 0.3391.0 0.341 0.344 0.346 0.348 0.351 0.353 0.355 0.358 0.360 0.3621.1 0.364 0.367 0.369 0.371 0.373 0.375 0.377 0.379 0.381 0.3831.2 0.385 0.387 0.389 0.391 0.393 0.394 0.396 0.398 0.400 0.4011.3 0.403 0.405 0.407 0.408 0.410 0.411 0.413 0.415 0.416 0.4181.4 0.419 0.421 0.422 0.424 0.425 0.426 0.428 0.429 0.431 0.4321.5 0.433 0.434 0.436 0.437 0.438 0.439 0.441 0.442 0.443 0.4441.6 0.445 0.446 0.447 0.448 0.449 0.451 0.452 0.453 0.454 0.4541.7 0.455 0.456 0.457 0.458 0.459 0.460 0.461 0.462 0.462 0.4631.8 0.464 0.465 0.466 0.466 0.467 0.468 0.469 0.469 0.470 0.4711.9 0.471 0.472 0.473 0.473 0.474 0.474 0.475 0.476 0.476 0.4772.0 0.477 0.478 0.478 0.479 0.479 0.480 0.480 0.481 0.481 0.4822.1 0.482 0.483 0.483 0.483 0.484 0.484 0.485 0.485 0.485 0.4862.2 0.486 0.486 0.487 0.487 0.487 0.488 0.488 0.488 0.489 0.4892.3 0.489 0.490 0.490 0.490 0.490 0.491 0.491 0.491 0.491 0.4922.4 0.492 0.492 0.492 0.492 0.493 0.493 0.493 0.493 0.493 0.4942.5 0.494 0.494 0.494 0.494 0.494 0.495 0.495 0.495 0.495 0.4952.6 0.495 0.495 0.496 0.496 0.496 0.496 0.496 0.496 0.496 0.4962.7 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.4972.8 0.497 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.4982.9 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.499 0.499 0.4993.0 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.4993.1 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.4993.2 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.4993.3 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.5003.4 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.5003.5 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500
Tabella A.1: Tavola della Normale standard. Valori dell’area sotto la curva Normale da zpositivo a +∞. Per calcolare l’area sotto la curva per l’intervallo (0, 1.51) si cerca il valoreall’incrocio della riga 1.5 e della colonna 0.01, cioe l’area e 0.434.
161
Area
N(0,1)
z
−3 −2 −1 0 1 z 2 3
0.00.1
0.20.3
0.4z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.500 0.496 0.492 0.488 0.484 0.480 0.476 0.472 0.468 0.4640.1 0.460 0.456 0.452 0.448 0.444 0.440 0.436 0.433 0.429 0.4250.2 0.421 0.417 0.413 0.409 0.405 0.401 0.397 0.394 0.390 0.3860.3 0.382 0.378 0.374 0.371 0.367 0.363 0.359 0.356 0.352 0.3480.4 0.345 0.341 0.337 0.334 0.330 0.326 0.323 0.319 0.316 0.3120.5 0.309 0.305 0.302 0.298 0.295 0.291 0.288 0.284 0.281 0.2780.6 0.274 0.271 0.268 0.264 0.261 0.258 0.255 0.251 0.248 0.2450.7 0.242 0.239 0.236 0.233 0.230 0.227 0.224 0.221 0.218 0.2150.8 0.212 0.209 0.206 0.203 0.200 0.198 0.195 0.192 0.189 0.1870.9 0.184 0.181 0.179 0.176 0.174 0.171 0.169 0.166 0.164 0.1611.0 0.159 0.156 0.154 0.152 0.149 0.147 0.145 0.142 0.140 0.1381.1 0.136 0.133 0.131 0.129 0.127 0.125 0.123 0.121 0.119 0.1171.2 0.115 0.113 0.111 0.109 0.107 0.106 0.104 0.102 0.100 0.0991.3 0.097 0.095 0.093 0.092 0.090 0.089 0.087 0.085 0.084 0.0821.4 0.081 0.079 0.078 0.076 0.075 0.074 0.072 0.071 0.069 0.0681.5 0.067 0.066 0.064 0.063 0.062 0.061 0.059 0.058 0.057 0.0561.6 0.055 0.054 0.053 0.052 0.051 0.049 0.048 0.047 0.046 0.0461.7 0.045 0.044 0.043 0.042 0.041 0.040 0.039 0.038 0.038 0.0371.8 0.036 0.035 0.034 0.034 0.033 0.032 0.031 0.031 0.030 0.0291.9 0.029 0.028 0.027 0.027 0.026 0.026 0.025 0.024 0.024 0.0232.0 0.023 0.022 0.022 0.021 0.021 0.020 0.020 0.019 0.019 0.0182.1 0.018 0.017 0.017 0.017 0.016 0.016 0.015 0.015 0.015 0.0142.2 0.014 0.014 0.013 0.013 0.013 0.012 0.012 0.012 0.011 0.0112.3 0.011 0.010 0.010 0.010 0.010 0.009 0.009 0.009 0.009 0.0082.4 0.008 0.008 0.008 0.008 0.007 0.007 0.007 0.007 0.007 0.0062.5 0.006 0.006 0.006 0.006 0.006 0.005 0.005 0.005 0.005 0.0052.6 0.005 0.005 0.004 0.004 0.004 0.004 0.004 0.004 0.004 0.0042.7 0.003 0.003 0.003 0.003 0.003 0.003 0.003 0.003 0.003 0.0032.8 0.003 0.002 0.002 0.002 0.002 0.002 0.002 0.002 0.002 0.0022.9 0.002 0.002 0.002 0.002 0.002 0.002 0.002 0.001 0.001 0.0013.0 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.0013.1 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.0013.2 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.0013.3 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.0003.4 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.0003.5 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
Tabella A.2: Tavola della Normale standard. Valori dell’area sotto la curva Normale daz positivo a +∞. Per calcolare l’area sotto la curva per l’intervallo (1.51,+∞) si cerca ilvalore all’incrocio della riga 1.5 e della colonna 0.01, cioe l’area e 0.066.
162 APPENDICE A. TAVOLE STATISTICHE
Area
N(0,1)
z
−3 −2 z −1 0 1 2 3
0.00.1
0.20.3
0.4
z 0.00 -0.01 -0.02 -0.03 -0.04 -0.05 -0.06 -0.07 -0.08 -0.09
0.0 0.000 0.004 0.008 0.012 0.016 0.020 0.024 0.028 0.032 0.036-0.1 0.040 0.044 0.048 0.052 0.056 0.060 0.064 0.067 0.071 0.075-0.2 0.079 0.083 0.087 0.091 0.095 0.099 0.103 0.106 0.110 0.114-0.3 0.118 0.122 0.126 0.129 0.133 0.137 0.141 0.144 0.148 0.152-0.4 0.155 0.159 0.163 0.166 0.170 0.174 0.177 0.181 0.184 0.188-0.5 0.191 0.195 0.198 0.202 0.205 0.209 0.212 0.216 0.219 0.222-0.6 0.226 0.229 0.232 0.236 0.239 0.242 0.245 0.249 0.252 0.255-0.7 0.258 0.261 0.264 0.267 0.270 0.273 0.276 0.279 0.282 0.285-0.8 0.288 0.291 0.294 0.297 0.300 0.302 0.305 0.308 0.311 0.313-0.9 0.316 0.319 0.321 0.324 0.326 0.329 0.331 0.334 0.336 0.339-1.0 0.341 0.344 0.346 0.348 0.351 0.353 0.355 0.358 0.360 0.362-1.1 0.364 0.367 0.369 0.371 0.373 0.375 0.377 0.379 0.381 0.383-1.2 0.385 0.387 0.389 0.391 0.393 0.394 0.396 0.398 0.400 0.401-1.3 0.403 0.405 0.407 0.408 0.410 0.411 0.413 0.415 0.416 0.418-1.4 0.419 0.421 0.422 0.424 0.425 0.426 0.428 0.429 0.431 0.432-1.5 0.433 0.434 0.436 0.437 0.438 0.439 0.441 0.442 0.443 0.444-1.6 0.445 0.446 0.447 0.448 0.449 0.451 0.452 0.453 0.454 0.454-1.7 0.455 0.456 0.457 0.458 0.459 0.460 0.461 0.462 0.462 0.463-1.8 0.464 0.465 0.466 0.466 0.467 0.468 0.469 0.469 0.470 0.471-1.9 0.471 0.472 0.473 0.473 0.474 0.474 0.475 0.476 0.476 0.477-2.0 0.477 0.478 0.478 0.479 0.479 0.480 0.480 0.481 0.481 0.482-2.1 0.482 0.483 0.483 0.483 0.484 0.484 0.485 0.485 0.485 0.486-2.2 0.486 0.486 0.487 0.487 0.487 0.488 0.488 0.488 0.489 0.489-2.3 0.489 0.490 0.490 0.490 0.490 0.491 0.491 0.491 0.491 0.492-2.4 0.492 0.492 0.492 0.492 0.493 0.493 0.493 0.493 0.493 0.494-2.5 0.494 0.494 0.494 0.494 0.494 0.495 0.495 0.495 0.495 0.495-2.6 0.495 0.495 0.496 0.496 0.496 0.496 0.496 0.496 0.496 0.496-2.7 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.497-2.8 0.497 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.498-2.9 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.499 0.499 0.499-3.0 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499-3.1 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499-3.2 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499-3.3 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500-3.4 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500-3.5 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500
Tabella A.3: Tavola della Normale standard. Valori dell’area sotto la curva Normale da znegativo a 0. Per calcolare l’area sotto la curva per l’intervallo (−1.51, 0) si cerca il valoreall’incrocio della riga −1.5 e della colonna −0.01, cioe l’area e 0.434.
163
Area
N(0,1)
z
−3 −2 −1 0 1 z 2 3
0.00.1
0.20.3
0.4z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.500 0.504 0.508 0.512 0.516 0.520 0.524 0.528 0.532 0.5360.1 0.540 0.544 0.548 0.552 0.556 0.560 0.564 0.567 0.571 0.5750.2 0.579 0.583 0.587 0.591 0.595 0.599 0.603 0.606 0.610 0.6140.3 0.618 0.622 0.626 0.629 0.633 0.637 0.641 0.644 0.648 0.6520.4 0.655 0.659 0.663 0.666 0.670 0.674 0.677 0.681 0.684 0.6880.5 0.691 0.695 0.698 0.702 0.705 0.709 0.712 0.716 0.719 0.7220.6 0.726 0.729 0.732 0.736 0.739 0.742 0.745 0.749 0.752 0.7550.7 0.758 0.761 0.764 0.767 0.770 0.773 0.776 0.779 0.782 0.7850.8 0.788 0.791 0.794 0.797 0.800 0.802 0.805 0.808 0.811 0.8130.9 0.816 0.819 0.821 0.824 0.826 0.829 0.831 0.834 0.836 0.8391.0 0.841 0.844 0.846 0.848 0.851 0.853 0.855 0.858 0.860 0.8621.1 0.864 0.867 0.869 0.871 0.873 0.875 0.877 0.879 0.881 0.8831.2 0.885 0.887 0.889 0.891 0.893 0.894 0.896 0.898 0.900 0.9011.3 0.903 0.905 0.907 0.908 0.910 0.911 0.913 0.915 0.916 0.9181.4 0.919 0.921 0.922 0.924 0.925 0.926 0.928 0.929 0.931 0.9321.5 0.933 0.934 0.936 0.937 0.938 0.939 0.941 0.942 0.943 0.9441.6 0.945 0.946 0.947 0.948 0.949 0.951 0.952 0.953 0.954 0.9541.7 0.955 0.956 0.957 0.958 0.959 0.960 0.961 0.962 0.962 0.9631.8 0.964 0.965 0.966 0.966 0.967 0.968 0.969 0.969 0.970 0.9711.9 0.971 0.972 0.973 0.973 0.974 0.974 0.975 0.976 0.976 0.9772.0 0.977 0.978 0.978 0.979 0.979 0.980 0.980 0.981 0.981 0.9822.1 0.982 0.983 0.983 0.983 0.984 0.984 0.985 0.985 0.985 0.9862.2 0.986 0.986 0.987 0.987 0.987 0.988 0.988 0.988 0.989 0.9892.3 0.989 0.990 0.990 0.990 0.990 0.991 0.991 0.991 0.991 0.9922.4 0.992 0.992 0.992 0.992 0.993 0.993 0.993 0.993 0.993 0.9942.5 0.994 0.994 0.994 0.994 0.994 0.995 0.995 0.995 0.995 0.9952.6 0.995 0.995 0.996 0.996 0.996 0.996 0.996 0.996 0.996 0.9962.7 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.9972.8 0.997 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.9982.9 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.999 0.999 0.9993.0 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.9993.1 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.9993.2 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.9993.3 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.0003.4 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.0003.5 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
Tabella A.4: Tavola della Normale standard. Valori dell’area sotto la curva Normale daz positivo a +∞. Per calcolare l’area sotto la curva per l’intervallo (−∞, 1.51) si cerca ilvalore all’incrocio della riga 1.5 e della colonna 0.01, cioe l’area e 0.934.
164 APPENDICE A. TAVOLE STATISTICHE
Area
Area sotto la distribuzione t di Student
−5 −3 −1 0 1 tpg
3 5
p 0.75 0.90 0.95 0.975 0.99 0.995 0.9995g1 1.00000 3.07768 6.31375 12.70620 31.82052 63.65674 636.619252 0.81650 1.88562 2.91999 4.30265 6.96456 9.92484 31.599053 0.76489 1.63775 2.35338 3.18245 4.54070 5.84091 12.923984 0.74070 1.53321 2.13185 2.77645 3.74695 4.60410 8.610305 0.72669 1.47588 2.01505 2.57058 3.36493 4.03216 6.868836 0.71756 1.43976 1.94318 2.44691 3.14267 3.70743 5.958827 0.71114 1.41492 1.89458 2.36462 2.99795 3.49948 5.407908 0.70639 1.39682 1.85955 2.30600 2.89646 3.35539 5.041319 0.70272 1.38303 1.83311 2.26216 2.82144 3.24984 4.78091
10 0.69981 1.37218 1.81246 2.22814 2.76377 3.16927 4.5868911 0.69745 1.36343 1.79588 2.20099 2.71808 3.10581 4.4369812 0.69548 1.35622 1.78229 2.17881 2.68100 3.05454 4.3177913 0.69383 1.35017 1.77093 2.16037 2.65031 3.01228 4.2208314 0.69242 1.34503 1.76131 2.14479 2.62449 2.97684 4.1404515 0.69120 1.34061 1.75305 2.13145 2.60248 2.94671 4.0727716 0.69013 1.33676 1.74588 2.11991 2.58349 2.92078 4.0150017 0.68920 1.33338 1.73961 2.10982 2.56693 2.89823 3.9651318 0.68836 1.33039 1.73406 2.10092 2.55238 2.87844 3.9216519 0.68762 1.32773 1.72913 2.09302 2.53948 2.86093 3.8834120 0.68695 1.32534 1.72472 2.08596 2.52798 2.84534 3.8495221 0.68635 1.32319 1.72074 2.07961 2.51765 2.83136 3.8192822 0.68581 1.32124 1.71714 2.07387 2.50832 2.81876 3.7921323 0.68531 1.31946 1.71387 2.06866 2.49987 2.80734 3.7676324 0.68485 1.31784 1.71088 2.06390 2.49216 2.79694 3.7454025 0.68443 1.31635 1.70814 2.05954 2.48511 2.78744 3.7251426 0.68404 1.31497 1.70562 2.05553 2.47863 2.77871 3.7066127 0.68368 1.31370 1.70329 2.05183 2.47266 2.77068 3.6895928 0.68335 1.31253 1.70113 2.04841 2.46714 2.76326 3.6739129 0.68304 1.31143 1.69913 2.04523 2.46202 2.75639 3.6594130 0.68276 1.31042 1.69726 2.04227 2.45726 2.75000 3.6459640 0.68067 1.30308 1.68385 2.02108 2.42326 2.70446 3.5509760 0.67860 1.29582 1.67065 2.00030 2.39012 2.66028 3.46020
120 0.67654 1.28865 1.65765 1.97993 2.35782 2.61742 3.37345∞ 0.67449 1.28155 1.64485 1.95996 2.32635 2.57583 3.29053
Tabella A.5: Tavola della t di Student. La tavola restituisce i valori di tgp dove g sono i gradi diliberta. Si tenga sempre conto della relazione tgp = −tg1−p.
165
p 0.750 0.900 0.950 0.975 0.990 0.995 0.9995g1 1.32330 2.70554 3.84146 5.02389 6.63490 7.87944 12.115672 2.77259 4.60517 5.99146 7.37776 9.21034 10.59663 15.201803 4.10834 6.25139 7.81473 9.34840 11.34487 12.83816 17.730004 5.38527 7.77944 9.48773 11.14329 13.27670 14.86026 19.997355 6.62568 9.23636 11.07050 12.83250 15.08627 16.74960 22.105336 7.84080 10.64464 12.59159 14.44938 16.81189 18.54758 24.102807 9.03715 12.01704 14.06714 16.01276 18.47531 20.27774 26.017778 10.21885 13.36157 15.50731 17.53455 20.09024 21.95495 27.868059 11.38875 14.68366 16.91898 19.02277 21.66599 23.58935 29.66581
10 12.54886 15.98718 18.30704 20.48318 23.20925 25.18818 31.4198111 13.70069 17.27501 19.67514 21.92005 24.72497 26.75685 33.1366212 14.84540 18.54935 21.02607 23.33666 26.21697 28.29952 34.8212713 15.98391 19.81193 22.36203 24.73560 27.68825 29.81947 36.4777914 17.11693 21.06414 23.68479 26.11895 29.14124 31.31935 38.1094015 18.24509 22.30713 24.99579 27.48839 30.57791 32.80132 39.7187616 19.36886 23.54183 26.29623 28.84535 31.99993 34.26719 41.3080717 20.48868 24.76904 27.58711 30.19101 33.40866 35.71847 42.8792118 21.60489 25.98942 28.86930 31.52638 34.80531 37.15645 44.4337719 22.71781 27.20357 30.14353 32.85233 36.19087 38.58226 45.9731220 23.82769 28.41198 31.41043 34.16961 37.56623 39.99685 47.4984521 24.93478 29.61509 32.67057 35.47888 38.93217 41.40106 49.0108122 26.03927 30.81328 33.92444 36.78071 40.28936 42.79565 50.5111223 27.14134 32.00690 35.17246 38.07563 41.63840 44.18128 52.0001924 28.24115 33.19624 36.41503 39.36408 42.97982 45.55851 53.4787525 29.33885 34.38159 37.65248 40.64647 44.31410 46.92789 54.9474626 30.43457 35.56317 38.88514 41.92317 45.64168 48.28988 56.4068927 31.52841 36.74122 40.11327 43.19451 46.96294 49.64492 57.8575928 32.62049 37.91592 41.33714 44.46079 48.27824 50.99338 59.3000329 33.71091 39.08747 42.55697 45.72229 49.58788 52.33562 60.7346530 34.79974 40.25602 43.77297 46.97924 50.89218 53.67196 62.16185
Tabella A.6: Tavola del χ2 . La tavola restituisce i valori di χgp dove g sono i gradi di liberta.
.
166 APPENDICE A. TAVOLE STATISTICHE
Appendice B
Soluzione di alcuni esercizi
Soluzione dell’Esercizio 2.8.1
1. Qual e la proporzione (e la percentuale) di fumatrici? 619 = 0.3158 = 0.32 = 32%
2. Qual e la proporzione di non fumatrici? 0.68 = 68%
3. Qual e la proporzione (e la percentuale) di laureate ? 819 = 0.4211 = 0.42 = 42%
4. Qual e la percentuale di donne laureate e fumatrici? 119 = 0.0526 = 0.05 = 5%
5. Tra le donne laureate qual e la percentuale delle fumatrici? 18 = 0.125 = 0.13 = 13%
6. Tra le fumatrici, qual e la percentuale di donne con titolo di studio superiore o uguale
alla scuola secondaria di II grado? 36 = 0.5 = 50%
7. Tra le donne con titolo di studio superiore o uguale alla scuola secondaria di II grado
qual e la percentuale di fumatrici? 314 = 0.2143 = 0.21 = 21%
Soluzione dell’Esercizio 2.8.2
1. La Tabella congiunta delle variabili X e Z e data da
X Z
0 1 2 3 4
N 3 2 0 1 0 6C 2 1 1 0 3 7V 0 0 1 2 1 4S 0 2 1 0 0 3
5 5 3 3 4 20
2. 5/20=0.25. Il 25%.
167
168 APPENDICE B. SOLUZIONE DI ALCUNI ESERCIZI
Tipo lavoro
Stato lavorativo Dipendente Autonomo
Si e capitato e l’ho apprezzato 385 87 472Si e capitato ma ne avrei fatto a meno 530 283 813Si e capitato ma ho potuto decidere quando 866 348 1214No non e capitato 3032 369 3401
4813 1087 5900
Tabella B.1: Tabella delle frequenze assolute delle mamme in base al tipo di lavoro (Di-pendente o Autonomo) e allo stato lavorativo durante la gravidanza, catalogato con le 4modalita riportate. Campione di 5900 unita. Dati dal sito corriere.it.
3. 2/20=0.10. Il 10%.
4. 2/7=0.29. Il 29%.
5. 2/5=0.40. Il 40%.
6. (1+0+3)/(3+3+4)=4/10=0.40. Il 40%.
7. (0+3)/(3+4)=3/7=0.43. Il 43%.
Soluzione dell’Esercizio 2.8.3
1. La Tabella B.1 riporta le frequenze assolute. A solo titolo d’esempio per ottenere i
il valore 385 che rappresenta il numero di mamme con lavoro autonomo e alle quali
e capitato di lavorare e lo hanno apprezzato, occorre partire dalla percentuale 8%
che rappresenta la percentuale di mamme che hanno lavorato e lo hanno apprezzato
tra le mamme con lavoro autonomo. La proporzione e la seguente:
8 : 100 = x : 4813
Dove x e il valore che cerchiamo e si ricava come x = 8∗4813/100, da cui x = 385.04
che arrotondiamo a 385. Allo stesso modo si ottengono le altre frequenze assolute
all’interno della tabella.
2. La distribuzione delle frequenze assolute della variabile Stato lavorativo durante la
gravidanza la si legge a margine della tabella, nell’ultima colonna. Nella Tabella ??
si riportano le frequenze richieste.
Soluzione dell’Esercizio 3.1.2
Si cerca la modalita con la frequenza maggiore. Dalla Tabella 2.10 risulta che la Moda=
ottimo.
169
Stato lavorativo ni fi piSi e capitato e l’ho apprezzato 472 0.08 8%Si e capitato ma ne avrei fatto a meno 813 0.14 14%Si e capitato ma ho potuto decidere quando 1214 0.20 20%No non e capitato 3401 0.58 58%
5900 1.00 100%
Tabella B.2: Tabella delle frequenze assolute relative e percentuali della variabile Statolavorativo durante la gravidanza, catalogato con le 4 modalita riportate. Campione di 5900unita. Dati dal sito corriere.it.
Soluzione dell’Esercizio 3.1.3
La moda per la variabile X e la modalita Carne sempre. Si veda la Tabella 2.4. La moda
per la variabile Y e la modalita abominevole, si veda la Tabella 2.9. Infine la variabile Z
e bimodale. Infatti la frequanza maggiore e 5 ed e osservata sia per il numero 0 che per il
numero 1 di convivenze. Si veda la Tabella .
Soluzione dell’Esercizio 3.2.4
La media e 2.8.
Soluzione dell’Esercizio 3.3.3
La classe mediana per la distribuzione dell’eta degli uomini e la classe (24, 34]. Poiche 0.50
viene raggiunto esattamente alla fine di questa classe la Mediana dell’eta e 34 anni. Del
resto anche dalla formula 3.1 si deduce Me = 34. La classe mediana per la distribuzione
dei redditi e 58 a 70. Ci sono 4 unita dalla decima alla tredicesima. Quella che corrisponde
alla mediana e la 10.5 che sta tra la decima e la undicesima. La mediana e 61. La formula
per ottenerla e
Me = 58 +70− 58
0.65− 0.45(0.50− 0.45) = 61.
Per la distribuzione dell’eta delle pendolari donne, la classe mediana a 24 a 34. La mediana
e 33 anni, infatti
Me = 24 +34− 24
0.53 +−0.27(0.50− 0.27) = 32.85.
La Figura seguente riporta il grafico delle frequenze cumulate relative per l’eta delle pen-
dolari donne e dei pendolari uomini. Abbiamo tracciato le rette F = 0.50 e dove queste
intersecano la curva delle frequenze relative abbiamo tracciato la corrispondente retta
verticale.
170 APPENDICE B. SOLUZIONE DI ALCUNI ESERCIZI
0 20 40 60 80
0.00.2
0.40.6
0.81.0
Frequenze cumulate donne
età
F F=50
età=32.85
0 20 40 60 80
0.00.2
0.40.6
0.81.0
Frequenze cumulate uomini
età
F F=50
età=34
Soluzione dell’Esercizio 3.3.4 L’eta del primo bacio e 14 anni. Lo scarto quadratico
medio e 2.41 che possiamo arrotondare a due anni e mezzo. L’eta media del primo rapporto
risulta 16.88 che possiamo arrotondare a 17 anni, con un errore quadratico medio di 2 anni.
Soluzione dell’Esercizio 3.7.2 I valori per disegnare i boxplot sono riportati nella
seguente tabella
Q1 Me Q3 Q3−Q1 1.5(Q3−Q1) Baffo inf Baffo sup
H 5 7 7 2 3 3 9
M 9 11 13 4 6 5 17
C 8 11 12 3 4.5 5 15
I tre box plot sono riportati nella seguente figura.
●●
●●●●●
Contesi Hamilton Madison
510
15
Tasso
171
Soluzione dell’Esercizio 5.2.4
Per risolvere l’esercizio occorre:
1. Calcolare il valore medio e lo scarto quadratico medio per le tre variabili
2. Calcolare i valori standardizzati di ogni variabile per ogni comune
3. Calcolare la media dei tre valori standardizzati per ogni comune
4. Il comune piu deprivato e il comune per cui la media dei valori standardizzati e piu
alto.
I risultati per il primo punto sono riportati nella seguente tabella:
No auto Malattia No casa
media x 32.75 12.53 38.83s.q.m s 12.32 1.81 9.78
I valori standardizzati per ogni comune di ogni variabile e la media dei tre valori standar-
dizzati sono riportati invece in questa tabella:
comune NO Auto Malattia NO Casa Media
1 -0.60 -0.68 -0.91 -0.732 1.96 1.97 1.80 1.913 -0.09 -0.40 -0.36 -0.294 -0.01 -0.02 -0.61 -0.215 -0.58 -0.18 -0.42 -0.406 -0.68 -0.68 0.51 -0.28
La tabella contiene quindi tutti i valori standardizzati, calcolati per ogni colonna rispetto
al valor medio e allo scarto quadratico medio di ogni variabile. Per trovare il comune
piu deprivato occorre fare la media dei valori standardizzati per riga (per ogni comune la
media dei tre valori standardizzati, il valore e riportato nell’ultima colonna). Il comune
con la media piu alta risulta il secondo.
Soluzione dell’Esercizio 6.2.3.
1. (µ− σ;µ+ σ) = (85; 115).
2. (75− 100)/15 = −1.67. Il 4.7%.
3. (105− 100)/15 = 0.33 Il 37%.
4. Il 63%.
5. (130− 100)/15 = 2. Il 2.3%.
6. (115− 100)/15 = 1. Area prima di 1: 1-0.159=0.841. (90− 100)/15 = −0.67. Area
prima di -067: 0.251. Area regione richiesta: 0.841-0.251=0.590. Il 59%.
172 APPENDICE B. SOLUZIONE DI ALCUNI ESERCIZI
7. (105− 100)/15 = 0.33. Area prima di 0.33: 1-0.370=0.630. (95− 100)/15 = −0.33.
Area prima di -033: 0.370. Area regione richiesta: 0.630-0.370=0.260. Il 26%.
8. Dalle tavole a 0.10 corrisponde il valore z = 1.28. (valore positivo perche ci interessa
il 10% superiore. Il valore cercato e dato da x = 100 + 1.28 ∗ 15 = 119.2. Quindi il
QI cercato e 119.
E stata utilizzata la tavola 6.1 nel Capitolo 6.
Soluzione dell’Esercizio 6.2.4.
1. (µ;µ + 2σ) = (22; 25). Il valore trovato nella tavole e 0.477. Quindi la probabilita
richiesta e 0.477. Corrisponde al 47.7%.
2. La probabilita richiesta e 0.977. Corrisponde al 97.7%.
3. Il 95-esimo percentile di una popolazione normale lo troviamo dalle tavole in corri-
spondenza di un’area a sinistra pari a 0.950, ovvero di un’area a destra di 0.05. Il
valore e z=1.64. Quindi x = 22 + 1.64 ∗ 2.5 = 26.1. L’indice di alienazione cercato e
26.
Soluzione dell’Esercizio 8.2.4
La media per gli scritti di Hamilton e xH = 6.25 la media per gli scritti di Hamilton e
xH = 10.52, la media per gli scritti contesi e xC = 10. Lo scarto quadratico medio per
gli scritti di Hamilton e sH = 2.53, per Madison sM = 3.27. L’intervallo di confidenza
con livello di fiducia 95% per Hamilton e (5.53, 6.97) l’intervallo analogo per Madison e
(9.61, 11.43). Il valore 10 sta in quest’ultimo.
Soluzione dell’Esercizio 10.1.4.
z =0.120− 0.208√
0.208·(1−0.208)50
=−0.088
0.057= −1.53
La probabilita richiesta e 0.06.
Soluzione dell’Esercizio 10.2.1
L’estremo inferiore e dato da:
0.120− 1.96 ·√
0.120 · (1− 0.120)
50= 0.120− 1.96 · 0.046 = 0.120− 0.090 = 0.120− 0.09
L’estremo superiore e dato da:
0.120 + 1.96 ·√
0.120 · (1− 0.120)
50= 0.120 + 1.96 · 0.046 = 0.120 + 0.090 = 0.120− 0.21
Appendice C
Esercizi ricapitolativi
In questa appendice si riportano i 5 esercizi assegnati durante il corso. Nelle pagine
seguenti viene riportato il testo. Vengono fornite anche le soluzioni nel paragrafo finale.
173
174 APPENDICE C. ESERCIZI RICAPITOLATIVI
1. Dal sito corriere.it, dal quale e stata tratta la foto riportata sotto, sono stati
tratti i dati riguardante un indagine sul lavoro durante la maternita. Consideriamo
solo le risposte alla domanda: Le e capitato di lavorare mentre era in congedo di
maternita? La domanda e stata rivolta a 4813 mamme lavoratrici dipendenti e 1087
mamme lavoratrici autonome. Le percentuali delle risposte alla domanda per le
lavoratrici dipendenti sono state le seguenti:
Si e capitato e l’ho apprezzato: 8%
Si e capitato ma ne avrei fatto a meno: 11%
Si e capitato ma ho potuto decidere quando: 18%
No non e capitato: 63%
Le percentuali delle risposte alla domanda per le lavoratrici autonome son state le
seguenti:
Si e capitato e l’ho apprezzato: 8%
Si e capitato ma ne avrei fatto a meno: 26%
Si e capitato ma ho potuto decidere quando: 32%
No non e capitato: 34%
(a) Ricostruire la tabella delle frequenze assolute della distribuzione congiunta delle
due variabili rilevate sulle mamme: tipo di lavoro (dipendente o autonomo) e
Stato lavorativo mentre era in congedo di maternita rilevata con le 4 modalita
date dalle rispettive domante alla risposta.
(b) Calcolare la distribuzione delle frequenze assolute, relative e percentuali della
variabile Stato lavorativo mentre era in congedo di maternita rilevata con le 4
modalita date dalle rispettive domante alla risposta.
(c) Tra le mamme che non hanno lavorato, qual e la percentuale di mamme che
hanno un lavoro dipendente? E quella delle mamme che hanno un lavoro
autonomo?
(d) Il 48% delle lavoratrici dipendenti che non hanno mai lavorato sono dirigenti o
quadri. Quante sono queste donne?
(e) Il 25% delle lavoratrici dipendenti che hanno lavorato, ma hanno potuto deci-
dere quando, sono dirigenti o quadri. Quante sono queste donne?
(f) Come e stata calcolata la percentuale che compare nel titolo?
175
Lavoratrici dipendenti Il rientro
30 settembre 2015 | 21:58
© RIPRODUZIONE RISERVATA
!
!"
"0
#
#0
$
$0
%
%2
!
!
&
&
'
'(
( 100%TOTALE VOTI 1
176 APPENDICE C. ESERCIZI RICAPITOLATIVI
2. Si riprendano i dati dell’esercizio precedente sulla condizione lavorativa delle donne
in matrnita. La tabella a doppia entrata del fenomeno e riportata di seguito.
Dipendenti Autonome Totali
SI + 385 87 472SI − 530 283 813SI = 866 348 1214NO 3032 369 3401
Totali 4813 1087 5900
Le variabili considerate sono:
• Condizione lavorativa mentre era in congedo di maternita con 4 modalita:SI + : Si e capitato e l’ho apprezzatoSI − : Si e capitato ma ne avrei fatto a menoSI = : Si e capitato ma ho potuto decidere quandoNo : No non e capitato
• Tipo di lavoro con 2 modalita:
– Lavoratrici dipendenti
– Lavoratrici autonome
(a) Ricostruire la distribuzione delle frequenze relative della variabile Condizione
lavorativa mentre era in congedo di maternita per il sottogruppo delle lavoratrici
dipendenti.
(b) Ricostruire la distribuzione delle frequenze relative della variabile Condizione
lavorativa mentre era in congedo di maternita per il sottogruppo delle lavoratrici
autonome.
(c) Confrontare con un opportuna rappresentazione grafica le due distribuzioni e
azzardare una risposta alla domanda: Tendono a lavorare di piu le lavoratrici
dipendenti o le autonome durante la maternita?
(d) Ricostruire una tabella delle distribuzioni congiunte dove le tre modalita del-
la variabile Condizione lavorativa mentre era in congedo di maternita dove
compare il SI, (SI+, SI−, e SI=) collassano in un’unica modalita SI.
(e) Calcolare la distribuzione della variabile Condizione lavorativa mentre era in
congedo di maternita, che presenta ora solo le modalita SI e NO per il sottogrup-
po delle lavoratrici dipendenti e per il sottogruppo delle lavoratrici autonome.
(f) Confrontare con un opportuna rappresentazione grafica le due distribuzioni e
azzardare una risposta alla domanda: Tendono a lavorare di pie le lavora-
trici dipendenti o le autonome durante la maternita?. Conferma, rafforza o
diminuisce l’idea ricavata dal precedente grafico?
177
(g) Tra le lavoratrici che percentuale ha lavorato ed ha un lavoro autonomo? Tra
le lavoratrici autonome, che percentuale ha lavorato? Tra le donne che hanno
lavorato, che percentuale ha un lavoro autonomo? Cosa cambia in ciascuna
delle percentuali richieste?
178 APPENDICE C. ESERCIZI RICAPITOLATIVI
3. L’articolo Inference in an authorship problem di F. Mosteller e D. Wallace, riguarda
uno studio statistico su un problema di attribuzione letteraria. 85 articoli sul federa-
lismo furono pubblicati negli Stati Uniti per convincere i cittadini dello stato di New
York a ratificare la costituzione. Per 73 di questi articoli non ci sono stati problemi
di attribuzione, mentre per i restanti 12 si era indecisi se attribuire questi 12 scritti
a Hamilton o a Madison. L’attribuzione si basa sulla frequenza di particolari parole
(filler words) come an, of, upon, by, che generalmente ogni autore utilizza con diver-
sa frequenza. Si riportano nella seguente tabella il tasso (numero di ricorrenze ogni
1000 parole) della parola by in 48 scritti di Hamilton (H), in 50 scritti di Madison
(M) nei 12 scritti contesi (C) sul federalismo:
Tasso by
H M C
0 a 2 2 – –2 a 4 7 – –4 a 6 12 5 26 a 8 18 7 18 a 10 4 8 210 a 12 5 16 412 a 14 – 6 214 a 16 – 5 116 a 18 – 3 –
Totali 48 50 12
(a) Determinare la tabella delle frequenze relative e delle frequenze cumulate rela-
tive per le tre distribuzioni. (Fare tre tabelle)
(b) Rappresentare le tre distribuzioni con tre istogrammi. (Disegnare tre istogram-
mi con le stesse unita di misura)
(c) Quali istogrammi si somigliano di piu?
(d) Calcolare il tasso medio dell’utilizzo della parola by nei tre gruppi: H, M, e C.
(Utilizzare il valore centrale della classe).
(e) Confrontare i valori medi ottenuti nei tre gruppi.
(f) Rappresentare graficamente le frequenze cumulate per le tre variabili in uno
stesso grafico con tre colori differenti e calcolare la mediana del tasso della
parola by nei tre gruppi. (Stabilire prima in che classe cade il valore mediano e
quindi dedurne il valore graficamente o applicando la formula data nel testo)
(g) Confrontare la media con la mediana in ognuno dei tre gruppi osservando se la
media e minore maggiore o uguale alla mediana.
(h) Confrontare la mediana dei tre gruppi.
179
(i) Calcolare il 25-esimo e il 50-esimo percentile (primo e terzo quartile) per le tre
distribuzioni.
(j) Dopo queste analisi di chi pensate siano gli scritti contesi?
180 APPENDICE C. ESERCIZI RICAPITOLATIVI
4. L’eta a cui viene dato il primo bacio a carattere sessuale (snog) e l’eta del primo
rapporto sessuale e stata rilevata su 42 giovani uomini. La tabella seguente riporta
le frequenze assolute, le frequenze cumulate e le frequenze cumulate relative. Con
apice B si riferiscono all’eta del primo bacio, apice R all’eta del primo rapporto.
Eta nBi NBi FB
i nRi NRi FR
i
7 1 1 0.02 0 0 08 0 1 0.02 0 0 09 1 2 0.05 0 0 010 0 2 0.05 0 0 011 3 5 0.12 1 1 0.0212 6 11 0.26 0 1 0.0213 5 16 0.38 1 2 0.0514 6 22 0.52 4 6 0.1015 12 34 0.81 4 10 0.2416 2 36 0.86 5 15 0.3617 4 40 0.95 6 21 0.5018 1 41 0.98 15 36 0.8619 0 41 0.98 4 40 0.9520 1 42 1 1 41 0.9821 0 42 1 1 42 1
Totali 42 – – 42 – –
(a) Calcolare la media e lo scarto quadratico medio per l’eta in cui viene dato
il primo bacio e l’eta a cui avviene il primo rapporto sessuale per i dati del
campione.
(b) Calcolare l’eta mediana, il primo e il terzo quartile, per l’eta in cui viene dato
il primo bacio e l’eta a cui avviene il primo rapporto sessuale per i dati del
campione.
(c) Ricavare le frequenze relative per l’eta a cui viene dato il primo bacio e l’eta
a cui avviene il primo rapporto sessuale. (Si possono dedurre dalle frequenze
cumulate?).
(d) Disegnare l’istogramma delle frequenza relative per le due eta. Considerare il
fenomeno come continuo con le classi di eta ampie 1 e chiuse a sinistra. Ad
esempio [7, 8) e [8, 9), fino all’ultima [21, 22).
(e) Disegnare i grafici delle frequenze cumulate relative per le due eta. Considerare
il fenomeno come continuo con le classi di eta ampie 1 e chiuse a sinistra. Ad
esempio [7, 8) e [8, 9), fino all’ultima [21, 22).
(f) Che percentuale di uomini da il primo bacio dopo (aver compiuto) i 16 anni.
(g) Che percentuale di uomini ha il primo rapporto sessuale prima di (aver com-
piuto) 17 anni?
(h) Disegnare il box plot delle due distribuzioni.
181
(i) Determinare il quinto e il 95-esimo prcentile per le due eta.
(j) Ipotizzando una distribuzione normale per l’eta in cui viene dato il primo bacio,
calcolare, in base al modello ipotizzato, la percentuale di uomini che da il primo
bacio dopo i 16 anni. (Utilizzare i valori dei parametri µ = 14 e σ = 2.4)
(k) Ipotizzando una distribuzione normale per l’eta in cui avviene il primo rapporto
sessuale, calcolare, in base al modello ipotizzato, la percentuale di uomini che
ha il primo rapporto sessuale prima di (aver compiuto) 17 anni. (Utilizzare
µ = 17 e σ = 2)
(l) Che eta costituisce il quinto percentile dell’eta a cui viene dato il primo bacio,
se si ipotizza la distribuzione normale?
182 APPENDICE C. ESERCIZI RICAPITOLATIVI
5. L’eta a del primo rapporto sessuale e stata rilevata su 42 giovani uomini e su 38
giovani donne. La tabella seguente riporta le frequenze assolute per i due gruppi.
Con apice M si riferiscono all’eta degli uomini e con apice F all’eta delle donne.
Eta nMi nFi11 1 112 0 113 1 214 4 715 4 1216 5 617 6 418 15 219 4 220 1 121 1 0
Totali 42 38
Nei punti che seguono si arrotondino tutti i valori con 2 cifre decimali a meno che
non sia diversamente richiesto.
(a) Calcolare la media e lo scarto quadratico medio dell’eta in cui sia ha il primo
rapporto sessuale nei due gruppi.
(b) Calcolare l’intervallo di confidenza al 95% di fiducia dell’eta media in cui si ha
il primo rapporto sessuale nel gruppo degli uomini.
(c) Calcolare l’intervallo di confidenza al 95% di fiducia dell’eta media in cui si ha
il primo rapporto sessuale nel gruppo delle donne.
(d) Qual e l’ampiezza dei due intervalli? Da cosa dipende l’ampiezza dei due in-
tervalli? Riportare i due intervalli di confidenza calcolati arrotondando l’eta al
valore intero.
(e) Calcolare l’intervallo di confidenza al 95% di fiducia per la proporzione di uomini
che ha il primo rapporto prima dei 16 anni.
(f) Calcolare l’intervallo di confidenza al 95% di fiducia per la proporzione di donne
che ha il primo rapporto prima dei 16 anni.
(g) Si consideri il gruppo di 11 donne che ha avuto il primo rapporto ad un’eta
precoce (minore o uguale a 14 anni). Calcolare l’intervallo di confidenza con
livello di fiducia al 95% per l’eta precoce.
(h) Verificare l’ipotesi che l’eta media del primo rapporto per gli uomini sia 16 anni
contro l’alternativa che sia diversa. Si ponga come livello del test α = 0.05.
Quanto vale il p-value per questo test?
183
(i) Verificare l’ipotesi che l’eta media del primo rapporto per le donne sia 16 anni
contro l’alternativa che sia diversa. Si ponga come livello del test α = 0.05.
Quanto vale il p-value per questo test?
(j) Verificare l’ipotesi che la proporzione degli uomini che hanno il primo rapporto
prima dei 16 anni sia il 20% contro l’alternativa che sia diversa. Si ponga come
livello del test α = 0.05.
(k) Verificare l’ipotesi che l’eta media del primo rapporto sia uguale nei due gruppi
nel caso in cui lo scarto quadratico medio si possa ritenere uguale nei due gruppi
ma non sia noto. Si ponga come livello del test α = 0.05.
184 APPENDICE C. ESERCIZI RICAPITOLATIVI
Soluzioni
1. (a) La tabella delle frequenze assolute congiunte e
Dipendenti Autonome Totali
SI + 385 87 472SI − 530 283 813SI = 866 348 1214NO 3032 369 3401
Totali 4813 1087 5900
(b) I valori richiesti sono riportati nella Tabella seguente:
ni fi piSI + 472 0.08 8%SI − 813 0.14 14%SI = 1214 0.20 20%NO 3401 0.58 58%
Totali 5900 1 100%
(c) 3032/3401=0.89 e 369/3401=0.11. Quindi rispettivamente l’89% e l’11%.
(d) 3032 ∗ 0.48 = 1455.36. Quindi 1455 donne.
(e) 866 ∗ 0.25 = 216.5. Quindi 217 donne.
(f) Sommando le prime tre percentuali per ogni colonna.
Per le dipendenti 8+11+18= 37.
Per le autonome 8+26+32=66.
185
2. (a) La distribuzione e riportata nella Tabella seguente:
ni fiSI + 385 0.08SI − 530 0.11SI = 866 0.18NO 3032 0.63
Totali 4813 1
(b) La distribuzione e riportata nella Tabella seguente:
ni fiSI + 87 0.08SI − 283 0.26SI = 348 0.32NO 369 0.34
Totali 1087 1
(c) Si riportano i due grafici a torta per le due distribuzioni.
SI+
SI−
SI=
NO
Lavoratrici dipendenti
SI+
SI−
SI=
NO
Lavoratrici autonome
(d) La Tabella e la seguente:
Dipendenti Autonome Totali
SI 1781 718 2499NO 3032 369 3401
Totali 4813 1087 5900
(e) Per le lavoratrici dipendenti
ni fiSI 1781 0.37NO 3032 0.63
Totali 4813 1
Per le lavoratrici autonome
ni fiSI 718 0.66NO 369 0.34
Totali 1087 1
186 APPENDICE C. ESERCIZI RICAPITOLATIVI
(f) Si riportano i due grafici a torta per le due distribuzioni.
SI
NO
Lavoratrici dipendenti
SI
NO
Lavoratrici autonome
(g) 718/5900=0.12; 718/1087=0.66; 718/2499=0.29. Le percentuali richieste sono
rispettivamente: il 12%, il 66% e il 29%.
187
3. (a) Le tre distribuzioni sono riportate nelle tre tabelle seguenti:
Hamilton Madison Contesi
ni fi Fi ni fi Fi ni fi Fi0 a 2 2 0.04 0.04 0 0.00 0.00 0 0.00 0.002 a 4 7 0.15 0.19 0 0.00 0.00 0 0.00 0.004 a 6 12 0.25 0.44 5 0.10 0.10 2 0.17 0.176 a 8 18 0.38 0.82 7 0.14 0.24 1 0.08 0.25
8 a 10 4 0.08 0.90 8 0.16 0.40 2 0.17 0.4210a12 5 0.10 1 16 0.32 0.72 4 0.33 0.7512a14 0 0.00 1 6 0.12 0.84 2 0.17 0.9214a16 0 0.00 1 5 0.10 0.94 1 0.08 116a18 0 0.00 1 3 0.06 1 0 0.00 1
Totali 48 50 12 1 1 1 – – –
(b) I valori della densita per le tre distribuzioni sono riportate nella seguente
Tabella:
diH M Con
0 a 2 0.02 0.00 0.002 a 4 0.07 0.00 0.004 a 6 0.12 0.05 0.096 a 8 0.19 0.07 0.04
8 a 10 0.04 0.08 0.0910 a 12 0.05 0.16 0.1712 a 14 0.00 0.06 0.0914 a 16 0.00 0.05 0.0416 a 18 0.00 0.03 0.00
I tre istogrammi sono riportati nella seguente figura.
Scritti di Madison
Rate
Densi
ty
0 5 10 15
0.00
0.05
0.10
0.15
Scritti di Hamilton
Rate
Densi
ty
0 5 10 15
0.00
0.10
Scritti contesi
Rate
Densi
ty
0 5 10 15
0.00
0.05
0.10
0.15
188 APPENDICE C. ESERCIZI RICAPITOLATIVI
(c) Osservare i tre istogrammi.
(d) Utilizzando i valori centrali per ogni classe, i tassi medi richiesti sono: 6.25,
10.52, 10, rispettivemnte per Hamilton, Madison e i Contesi.
(e) Confrontare i valori e dire quali si assomigliano.
(f) Il grfico dele frequenze cumulate e il seguente:
0 5 10 15
0.0
0.2
0.4
0.6
0.8
1.0
tasso
Fre
quen
ze c
umul
ate
rela
tive
HamiltonMadisonContesi
(g) Le mediane sono 7, 11, 11, rispettivamente per Hamilton, Madison e per gli
scritti Contesi.
(h) Osservare i valori.
(i) Utilizzando i valori centrali. Per Hamilton: Q1 = 5, Q3 = 7. Per Madison:
Q1 = 7, Q3 = 13. Per gli scritti Contesi: Q1 = 8, Q3 = 12. Per gli scritti
contesi si prendono gli estremi superiori della classi corrispondenti a 0.25 e 0.72
per la frequenza relativa cumulata.
189
4. (a) Si veda tabella punto successivo.
(b) I risultati sono nella seguente tabella.
Media SQM Mediana Q1 Q3
Primo bacio 14 2.4 14 12 15
Primo Rapporto 17 2.0 17 16 18
(c) Le frequenze relative si possono dedurre dalle cumulate per sottrazioni succes-
sive. Si presti attenzione agli arrotondamenti.
(d) Essendo le classi di ampiezza 1, le densita coincidono con le frequanze relative.
L’istogramma e riportato nella seguente figura
Età primo bacio
bacio
Densi
ty
0 5 10 15 20
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
Età primo rapporto
rap
Densi
ty
0 5 10 15 20
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
(e) Il grafico delle frequenze cumulate e riportato nella seguente Figura:
10 15 20
0.0
0.2
0.4
0.6
0.8
1.0
Età al primo bacio e del primo rapporto sessuale
età
F
età primo bacioetà primo rapporto
(f) Il 19%.
190 APPENDICE C. ESERCIZI RICAPITOLATIVI
(g) Il 36%.
(h) I due boxplot sono riportati nella seguente Figura.
●
●
●
bacio rap
810
1214
1618
20
(i) Per l’eta del primo bacio il quinto percentile e 9 anni, il 95-esimo e 17 anni. Per
il l’eta del primo rapporto il quinto percentile e 13 anni, il 95-esimo e 19 anni.
(j) z = 16−142.4 = 0.83. Dalle tavole l’area sotto la curva da 0.83 in poi e 0.20. Quindi
il 20%. Si osservi che la percentuale empirica osservata sui dati e il 19%.
(k) z = 16−172 = 0.50. Dalle tavole l’area sotto la curva prima di 0.50 e 0.31. Quindi
il 31%. Si osservi che la percentuale empirica osservata sui dati e il 36%.
(l) Dalle tavole della normale standardizzata il valore per cui l’area prima di quel
valore e pari a 0.05 e il valore z = −1.64. Quindi il quinto percentile teorico per
l’eta in cui viene dato il primo bacio e 14− 1.64 · 2.4 = 10.064. Arrotondando
il quindi percentile e 10 anni.
191
5. (a) Per gli uomini l’eta media del primo rapporto e 16.88 anni (arrotondato all’eta
intera 17 anni) per le donne e 15.39 (ovvero 15 anni). Lo scarto quadratico
medio e 2.00 per gli uomini e 1.88 per le donne.
(b) L’intervallo di confidenza dell’eta media per il primo rapporto nel gruppo degli
uomini e:
µ ∈(
16.88− 1.96 ∗ 2.00
6.48; 16.88 + 1.96 ∗ 2.00
6.48
)= (16.88− 0.60; 16.88 + 0.60)
da cui µ ∈ (16.28; 17.48).
(c) L’intervallo di confidenza dell’eta media per il primo rapporto nel gruppo delle
donne e:
µ ∈(
15.39− 1.96 ∗ 1.88
6.16; 15.39 + 1.96 ∗ 1.88
6.16
)= (15.39− 0.60; 15.39 + 0.60)
da cui µ ∈ (14.79; 15.99).
(d) L’ampiezza dell’intervallo per gli uomini e: 17.48 − 16.28 = 1.20 quindi circa
un anno e 2 mesi e mezzo (1/5 di anno); l’ampiezza dell’intervallo per le don-
ne e 15.98 − 14.79 = 1.19. L’ampiezza e pressoche la stessa e dipende dallo
scarto quadratico medio, dal grado di fiducia dell’intervallo e dalla numerosita
campionaria. Arrotondando all’eta intera occorre ricalcolare l’intervallo cen-
trandolo sul valor medio arrotondato al valore intero. Dunque per gli uomini:
(17− 0.60; 17 + 0.60) = (16.40, 17.60) = (16, 18) per le donne in modo analogo
si ottiene (14, 16). in questo caso l’ampiezza di entrambi gli intervalli e due
anni. Possiamo dire che arrossimativamente almeno il 95% dei ragazzi maschi
ha il primo rapporto sessuale tre i 16 e i 18 anni.
(e) La proporzione osservata di uomini che ha il primo rapporto prima di 16 anni
e p = 10/42 = 0.24. L’intervallo per la vera proporzione π e:
π ∈
(0.24− 1.96
√0.24 ∗ 0.76
42; 0.24 + 1.96
√0.24 ∗ 0.76
42
)
da cui (0.24− 0.13; 0.24 + 0.13)equindi l’intervallo e π ∈ (0.11, 0.39)
(f) La proporzione osservata di donne che ha il primo rapporto prima di 16 anni e
p = 23/38 = 0.61. L’intervallo per la vera proporzione π e:
π ∈
(0.61− 1.96
√0.61 ∗ 0.39
38; 0.61 + 1.96
√0.61 ∗ 0.39
38
)
da cui (0.61− 0.16; 0.61 + 0.16)equindi l’intervallo e π ∈ (0.45, 0.77).
192 APPENDICE C. ESERCIZI RICAPITOLATIVI
(g) L’eta media in questo caso e calcolata sulle 11 donne che hanno un rapporto
prima dei 15 anni e risulta: xP = 13.36 dove P sta per precoce. Lo scarto
quadratico medio per questo gruppo risulta: sP = 1.03. Poiche la numerosita e
piccola utilizziamo la t di Student per calcolare l’intevallo di confidenza al 5%.
Il valore e: t100.975 = 2.23. L’intervallo risulta quindi: µP ∈ (12.63, 14.09).
(h) H0 : µ = 16. HA : µ 6= 16. z = 16.88−162.00/sqrt42 = 2.85. Poiche |z| > 1.96, si rifiuta
l’ipotesi nulla. L’eta media del primo rapporto e diversa da 16, a livello 5%.
Per trovare il p-value si entra nella tavola della Normale con 2.85. Il valore
corrispondente all’area e 0.002 quindi il p-value e 0.004.
(i) H0 : µ = 16. HA : µ 6= 16. z = 15.39−161.88/sqrt38 = −2.00. Poiche |z| > 1.96, si
rifiuta l’ipotesi nulla. L’eta media del primo rapporto e diversa da 16, a livello
5%. Per trovare il p-value si entra nella tavola della Normale con 2.00. Il valore
corrispondente all’area e 0.023 quindi il p-value e 0.046.
(j) H0 : π = 0.20. HA : π 6= 0.20. p = 0.24. z = 0.24−0.20√0.24∗0.76
42
= 0.61. Poiche
|z| < 1.96, non si rifiuta l’ipotesi nulla. La proporzione di uomini che hanno il
primo rapporto prima di sedici anni non si puo considerare diversa dal 20%.
(k) sp = 1.95. t = 3.41. I gradi di liberta sono 78. Il valore soglia e t780.975 ≈ t60
0.975 =
2.00. Poiche |t| > 2.00, si rifiuta l’ipotesi nulla. L’eta del primo rapporto e da
considerare diverso nei due gruppi, a livello 5%.
Bibliografia
[1] Bloch, A., (1988). La legge di Murphy, E altri motivi per cui le cose vanno a rovescio,
Longanesi.
[2] Diamond, I., Jefferies J. (2014). Introduzione alla statistica per le scienze sociali
2/ed, McGraw-Hill Education Italy.
193