Appunti di Statistica sociale (Draft) · 2018-12-21 · statistica, e anche se non le utilizzerete...

Appunti di Statistica sociale

(Draft)

Ilia [email protected]

21 dicembre 2018

2

Indice

1 Indroduzione: perche la statistica sociale 5

1.1 Perche la statistica serve a tutti . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2 La statistica nella vita di tutti i giorni . . . . . . . . . . . . . . . . . . . . . 7

2 Rappresentare i dati e le loro distribuzioni 11

2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2 Prime definizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3 Diversi dati diverse variabili . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.4 Dati e tavole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.4.1 Frequenze assolute, relative e percentuali . . . . . . . . . . . . . . . 18

2.5 Distribuzioni di piu variabili congiuntamente . . . . . . . . . . . . . . . . . 21

2.5.1 Frequenze cumulate . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.6 Dati e grafici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.6.1 Distribuzioni per le variabili numeriche . . . . . . . . . . . . . . . . 31

2.6.2 L’istogramma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.7 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.7.1 Il geyser Old Faithful . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.7.2 Un caso di attribuzione letteraria . . . . . . . . . . . . . . . . . . . . 41

2.7.3 Il primo bacio non si scorda mai . . . . . . . . . . . . . . . . . . . . 44

2.8 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3 Valori medi 53

3.1 La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.2 La media aritmetica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.2.1 Media aritmetica per i dati in classi . . . . . . . . . . . . . . . . . . 58

3.3 La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

3.3.1 Mediana per i dati in classi . . . . . . . . . . . . . . . . . . . . . . . 64

3.4 Simmetria e asimmetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

3.5 Quale media scegliere? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

1

2 INDICE

3.6 Quartili, percentili e quantili . . . . . . . . . . . . . . . . . . . . . . . . . . 68

3.7 Il box-plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4 La variabilita 73

4.1 Il range e lo scarto interquartile . . . . . . . . . . . . . . . . . . . . . . . . . 74

4.2 Scarto quadratico medio e varianza . . . . . . . . . . . . . . . . . . . . . . . 76

5 Operazioni sui dati 79

5.1 Trasformazioni di scala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

5.2 Standardizzazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

6 Siamo tutti normali? 87

6.1 La curva e normale! . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

6.2 La normale standardizzata . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

6.3 Un po’ di formule matematiche e un po’ di storia . . . . . . . . . . . . . . . 98

7 Dal campione alla popolazione 101

7.1 Campionamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

7.2 Dalla popolazione al campione: il caso della media . . . . . . . . . . . . . . 104

8 Intervalli di confidenza 109

8.1 La media campionaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

8.2 Gli ingredienti e la ricetta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

8.3 Sintesi sugli Intervalli di confidenza . . . . . . . . . . . . . . . . . . . . . . . 115

8.3.1 Caso popolazione qualunque, σ noto n grande . . . . . . . . . . . . . 116

8.3.2 Caso popolazione qualunque, σ NON noto n grande . . . . . . . . . 116

8.3.3 Caso popolazione Normale, σ non noto n piccolo . . . . . . . . . . . 116

9 Test statistici 119

9.1 Verifica d’ipotesi: la teoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

9.2 Verifica d’ipotesi: la pratica . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

9.2.1 Test per la media di popolazione normale: σ nota . . . . . . . . . . 122

9.2.2 Test per la media di popolazione normale: σ non nota . . . . . . . . 125

9.3 Confronto tra test z e test t . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

9.4 Il livello di significativia del test: α . . . . . . . . . . . . . . . . . . . . . . . 131

9.5 Il p-value e il suo rapporto con α. . . . . . . . . . . . . . . . . . . . . . . . . 132

9.6 Intervalli di confidenza e test bilaterali . . . . . . . . . . . . . . . . . . . . . 134

9.7 Test con alternativa unilaterale . . . . . . . . . . . . . . . . . . . . . . . . . 135

9.8 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

INDICE 3

10 La proporzione 141

10.1 Il modello . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

10.2 Intervallo di confidenza per la proporzione π . . . . . . . . . . . . . . . . . . 143

10.3 Verifica d’ipotesi per la proporzione . . . . . . . . . . . . . . . . . . . . . . 145

11 Confronto di medie 149

11.1 Differenza delle medie per popolazioni normali . . . . . . . . . . . . . . . . 149

11.2 Differenza per due proporzioni . . . . . . . . . . . . . . . . . . . . . . . . . 153

11.3 Il p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

11.4 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

A Tavole Statistiche 159

B Soluzione di alcuni esercizi 167

C Esercizi ricapitolativi 173

4 INDICE

Capitolo 1

Indroduzione: perche la statisticasociale

1.1 Perche la statistica serve a tutti

Che ci pensiate o meno e che ci crediate o meno la vostra vita e piena degli embrioni dei

concetti che trovano la loro esatta formulazione nella statistica. Qualche esempio? Pensate

a quando la mattina prima di uscire di casa decidete se prendere o meno l’ombrello. Se

avrete successo o meno ad un incontro che vi interessa particolarmente. O al voto che

prevedete di prendere in questo esame. Quello che state facendo e elaborare un concetto

statistico sulla base dei dati che avete immagazzinato con la vostra esperienza.

La statistica non e altro che quella disciplina che si occupa di capire e che utilizza i

dati. I dati possono essere di qualunque tipo o natura. Qualche esempio? La serie storica

delle precipitazioni in una qualunque citta, la rilevazione del quoziente di intelligenza, il

numero di volte che uno scrittore usa un certo tipo di parole non contestuali ogni mille

parole (tipo: da, allora, quindi, . . . ), il numero di giorni che una persona passa in vacanza

in un anno.

Nel nostro corso ci occuperemo di due tipi di statistica. Il primo tipo e la statistica

descrittiva che consiste nei metodi per descrivere e sintetizzare le caratteristiche salienti

di un certo insieme di dati. Le caratteristiche salienti di un insieme di dati sono in genere

la loro distribuzione, il loro valore medio e la loro variabilita.

I metodi utilizzati per descrivere i dati che abbiamo a disposizione e per prepararli per

essere analizzati sono principalmente i grafici e le distribuzioni di frequenza, che vedremo

nel Capitolo 2, e poi metodi numerici (occorrera fare qualche calcolo) per dare informazioni

sulla media, che vedremo nel Capitolo 3, e sulla variabilita, introdotta nel Capitolo 4.

Osservazione importante: la variabilita e la caratteristica fondamentale della statistica.

Se non ci fosse variabilita non ci sarebbe la statistica e vivremmo in un mondo banale

tutto uguale ad una media!

5

6 CAPITOLO 1. INDRODUZIONE: PERCHE LA STATISTICA SOCIALE

Il secondo tipo di statistica e quella inferenziale, che si occupa di utilizzare quel poco di

cui siamo a conoscenza (e che abbiamo descritto con i metodi della statistica descrittiva)

per estenderlo, facendo una stima o delle previsioni, a tutto quello che non possiamo

conoscere.

Per questo tipo di statistica un ruolo importante riveste la teoria della probabilita. La

teoria della probabilita e infatti in grado di fornire un modello matematico per l’incertezza

dei possibili risultati di un fenomeno. In questo senso la probabilita puo essere vista

come una misura dell’incertezza. Possiamo dire che la statistica e capace di quantificare

l’incertezza, tramite la probabilita. Essa mette gli statistici in grado di fare affermazioni

categoriche, cioe in completa sicurezza, circa il loro grado di incertezza!

Ad esempio, l’istat conduce ogni anno le indagini sul benessere delle famiglie italiane.

Si registrano in ogni provincia il numero di famiglie monogenitoriali su un certo numero di

capifamiglia intervistati. La percentuale di famiglie monogenitoriali in una certa provin-

cia rilevata tra gli intervistati, puo essere usata come stima per la percentuale di famiglie

monogenitoriali in quella provincia, e sulla base di questa stima il governo locale puo pre-

vedere una serie di servizi legati al welfare. Con la teoria della probabilita potremo avere

un modello di questa percentuale e saremo in grado di dire ad esempio: la percentuale di

famiglie monogenitoriali in Italia non e uguale in tutte le province. La teoria della proba-

bilita ci permette di dire con certezza che questa affermazione potrebbe essere sbagliata

nel 5% dei casi. Cioe si fa un’affermazione certa sul grado di incertezza!

Naturalmente non saremo mai in grado di dire quante sono le famiglie monogenitoriali

in una certa provincia in un certo istante, ma saremo in grado di prevedere in maniera

verosimile la proporzione di tali famiglie.

La statistica e importante nella vita di tutti i giorni perche senza la vita reale non ci

sarebbe bisogno della statistica! Come si diceva sopra, se tutti la pensassero e agissero allo

stesso modo e se tutto fosse sempre uguale a se stesso, non avremmo bisogno di prevedere

nulla! E sarebbe un mondo senza statistica ma molto noioso!

Nella vita reale ogni cosa e diversa e ogni individuo pensa e agisce in modo diverso.

Nelle scienze sociali la statistica e utilizzata per spiegare le differenze tra gruppi di persone

o luoghi. Ad esempio possiamo essere interessati a come varia il numero di famiglie

monogenitoriali rispetto alle condizioni economiche e sociali di un gruppo di famiglie,

oppure rispetto alla posizione geografica.

Come potete rendervi conto se aprite un giornale o un sito web, la statistica viene uti-

lizzata pressoche ovunque, con grafici, opinioni basate su dati e previsioni su andamenti di

vari fenomeni. Spesso queste informazioni possono influenzare anche la vita delle persone

in modo rilevante. Questo corso cerchera di mostrarvi come utilizzare varie tecniche della

statistica, e anche se non le utilizzerete mai piu nella vita, come il detto, impara l’arte e

mettila da parte, sarete almeno in grado di capire come vengono fatte certe analisi e come

1.2. LA STATISTICA NELLA VITA DI TUTTI I GIORNI 7

Figura 1.1: Il grafico trasmesso da Fox News

vengono proposte certe previsioni e non vi farete ingannare da chi a volte usa i dati in

modo non appropriato per ingannare o attirare favori!

1.2 La statistica nella vita di tutti i giorni

Questo e un esercizio utile. Prendiamo un giornale qualunque e andiamo a vedere quanti

grafici vengono riportati e in che contesto. Cerchiamo di capire se ci sono descrizioni dei

dati o previsioni. Ci renderemo conto durante il corso come cambiera la nostra sensibilita

di fronte alle notizie che riportano questo tipo di informazioni. Come compito durante il

corso dovrete sempre prendere un giornale e analizzare questo tipo di informazioni.

Se lo farete sarete in grado una volta che lavorerete in una redazione di fermare la messa

in onda di un grafico di questo tipo. Nella Figura 1.1 appare il grafico a torta presentato

durante la trasmissione televisiva Fox News molto seguita negli Stati Uniti d’America.

A un certo numero di persone era stato chiesto quali candidati vedevano favorevolmente

per contrastare Obama. Casa c’e di sbagliato? Cosa puo avere indotto questo errore?

Proveremo a rispondere nella Sezione 2.6.


Come dicevamo nella sezione precedente l’Istat conduce ogni anno l’indagine campio-

naria ”Aspetti della vita quotidiana”, che fa parte di un sistema integrato di indagini

sociali (le Indagini Multiscopo sulle famiglie) che ha come scopo quello di rilevare le in-

formazioni fondamentali relative alla vita quotidiana degli individui e delle famiglie. A

partire dal 1993, l’indagine viene svolta ogni anno e le informazioni raccolte consentono

di conoscere le abitudini dei cittadini e i problemi che essi affrontano ogni giorno. Aree

tematiche variegate si susseguono nei questionari, permettendo di capire come vivono gli

individui e se sono soddisfatti del funzionamento di quei servizi di pubblica utilita che de-

vono contribuire al miglioramento della qualita della vita. Scuola, lavoro, vita familiare e

di relazione, abitazione e zona in cui si vive, tempo libero, partecipazione politica e sociale,

salute, stili di vita e rapporto con i servizi sono indagati in un’ottica in cui oggettivita dei

comportamenti e soggettivita delle aspettative, delle motivazioni, dei giudizi contribuisco-

no a definire l’informazione sociale. L’indagine rientra tra quelle comprese nel Programma

statistico nazionale, che raccoglie l’insieme delle rilevazioni statistiche necessarie al Pae-

se. (http://www.istat.it/it/archivio/91926). Si tratta di un indagine campionaria,

cioe viene intervistato un campione (la definizione viene data piu avanti, Definizione 2.2.2

della popolazione (Definizione 2.2.1) costituita da tutte le famiglie italiane. L’indagine e

eseguita su un campione di circa 24mila famiglie (per un totale di circa 54mila individui)

distribuite in circa 850 Comuni italiani di diversa ampiezza demografica. Ogni famiglia

che rientra nel campione viene estratta con un criterio di scelta casuale dalle liste anagra-

fiche comunali, secondo una strategia di campionamento volta a costituire un campione

statisticamente rappresentativo della popolazione residente in Italia. L’indagine si svolge

nel primo trimestre di ogni anno. Un rilevatore comunale si reca presso le abitazioni delle

famiglie munito di cartellino identificativo per rivolgere alcune domande ai componenti

del nucleo familiare. Le informazioni vengono raccolte tramite due questionari: uno che

rappresenta il questionario base della rilevazione, contiene i quesiti familiari e una scheda

individuale per ogni componente della famiglia e un questionario che deve essere compilato

da ogni componente in modo autonomo (autocompilazione). I principali risultati dell’in-

dagine vengono resi disponibili sul sito dell’Istat attraverso sia il Datawarehouse I.stat sia

le statistiche report pubblicate nei settori con argomento: Opinioni dei cittadini, Salute e

sanita, Cultura, comunicazione, tempo libero, Partecipazione sociale. Ogni anno, inoltre, i

dati raccolti vengono analizzati e pubblicati anche su volumi a carattere generale (Rappor-

to annuale, Annuario statistico italiano, Noi Italia, Italia in cifre) e, occasionalmente, nelle

collane di approfondimento o analisi del medesimo Istituto (Collana argomenti, Metodi

e norme). Inoltre, i dati elementari rilevati nel corso dell’indagine sono resi disponibili,

gratuitamente, per gli utenti e i ricercatori che ne facciano richiesta motivata per fini di

ricerca scientifica attraverso i file standard. I dati comunicati, in ogni caso, sono privi degli

elementi identificativi del soggetto al quale si riferiscono, nonche di ogni altro elemento

1.2. LA STATISTICA NELLA VITA DI TUTTI I GIORNI 9

che consenta, anche indirettamente, il collegamento con le famiglie o gli individui intervi-

stati. In questo corso utilizzeremo questi dati (eventualmente opportunamente modificati

a scopo didattico) per gli esempi e gli esercizi.


Capitolo 2

Rappresentare i dati e le lorodistribuzioni

In questo capitolo dopo aver dato alcune definizioni importanti e fondamentali per comin-

ciare a studiare e a capire la statistica, presenteremo i diversi tipi di dati con cui possiamo

avere a che fare in indagini statistiche, e quindi mostreremo come questi dati possano

essere rappresentati sia in forma di tabelle che in forma di grafici e disegni.

2.1 Introduzione

Cercheremo di capire il significato della parola distribuzione che e un concetto fondamen-

tale di tutta la statistica. Prima di cominciare ad analizzare i dati occorre introdurre

qualche termine specifico della statistica per capirci e capire di cosa stiamo parlando.

Ogni qualvolta si vuole studiare un fenomeno in cui e presente una certa variabilita della

risposta in presenza delle stesse condizioni entra in gioco la statistica. Proviamo a cercare

qualche esempio nella vita di tutti i giorni. Le famiglie della provincia di Bergamo aventi

un certo reddito e composte da un certo numero di componenti scelgono luoghi diversi e

tempi diversi per le loro vacanze. Se vogliamo studiare il fenomeno riguardante le vacanze

delle famiglie della provincia di Bergamo (fenomeno di interesse per gli enti pubblici, e

o privati e che interessa diversi tipi di studiosi, di sociologia o di economia ad esempio)

entra in gioco la statistica.

I tecnici incaricati di uno studio sulla fattibilita di un impianto in grado di trasformare

in energia elettrica l’energia scaturita durante le eruzioni di vapore acqueo di un geyser

registrano per ogni eruzione il tempo di pausa tra un’eruzione e la successiva e il tipo di

eruzione. Anche in questo caso per decidere sulla fattibilia (dal punto di vista economico,

di impatto ambientale e di gestione delle risorse) entra in gioco la statistica.

I metodi statistici si occupano principalmente

1. di raccogliere i dati;

11

12 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI

2. della presentazione dei dati;

3. dell’analisi dei dati.

Sulla base delle informazioni fornite dai dati ed elaborate dagli statistici stara ai tecnici e

agli studiosi delle diverse discipline prendere decisioni sul fenomeno oggetto di studio, sia

esso un’indagine sulle famiglie monogenitoriali, sulle vacanze degli italiani o sulla fattibilia

di un impianto industriale, piuttosto che risolvere problemi concernenti il disegno e la

progettazione di prodotti e processi industriali. Sulla base delle stesse informazioni si puo

considerare anche l’impiego dei dati a fini previsivi e conoscitivi di un fenomeno.

In ultima analisi si puo dire che il primo scopo della statistica e la la comprensione

delle cause della variabilita. Per parafrasare e ricordare questo scopo citiamo la Legge di

Murphy (si veda [1]): “Anche sotto le condizioni piu rigorosamente controllate un sistema

si comporta come gli pare e piace”; e la sua trasposizione sul territorio coniata dal Prof.

Roberto Colombi come Legge bergamasca: “Non tutte le ciambelle riescono col buco!”

2.2 Prime definizioni

Supponiamo di aver fatto un indagine sulle abitudini e gli stili di vita delle donne nella fa-

scia di eta 40-50 anni. Il fenomeno studiato in questo caso e di tipo sociale. Si intervistano

20 donne e le loro risposte sono elencate nella Tavola 2.1.

Le 20 persone intervistate costituiscono un campione della popolazione di tutte le

famiglie. La popolazione in statistica non necessariamente sara riferita a persone. Si

tratta in generale di un concetto astratto che non puo essere osservato nella sua interezza

e completezza e per questo motivo se ne sceglie un campione. Ad esempio nell’esempio

sulla fattibilia dell’impianto per la generazione dell’energia dalle eruzioni del geyser, la

popolazione e costituita da tutte le possibili eruzioni passate, presenti e future del geyser.

Tornniamo ora all’ultimo esempio, per introdurre l’oggetto principale della statistica. I

quattro argomenti di cui viene richiesto il valore (tipo di dieta, giudizio sull’ultimo film

visto, numero di convivenze, spesa per massaggi nell’ultimo mese) sono chiamate variabili.

Ogni rispondente e detto unita statistica o caso. Le risposte che ogni unita statistica da,

ovvero i valori delle variabili osservati sulle unita statistiche, sono dette osservazioni. In

ogni insieme di dati (chiamato dataset) i casi o le unita statistiche sono gli individui o le

unita del campione. Le variabili sono invece le caratteristiche che assumono valori diversi

su ogni unita del campione o individuo. Poiche repetita iuvant vediamo di fissare questi

primi concetti.

Definizione 2.2.1. La popolazione e l’intera collezione di individui, oggetti, eventi,

astratta o concreta, sulla quale si ricercano informazioni.

2.2. PRIME DEFINIZIONI 13

u X Y Z W

unita tipo di giudizio su numero di spesa perstat. dieta ultimo film convivenze massaggi ¤

1 N L 0 72.502 S O 1 54.283 V A 3 50.024 V O 4 88.885 C L 1 62.306 N S 1 45.217 C S 0 57.508 C O 2 78.409 V L 3 75.13

10 N O 0 58.0011 N S 1 53.7012 N A 0 91.2913 S S 1 74.7014 C S 4 41.2215 N S 3 65.2016 C L 0 63.5817 V O 2 48.2718 S O 2 52.5219 C S 4 69.5020 C S 4 85.98

Tabella 2.1: Tipo di dieta X, giudizio sull’ultimo film visto Y , numero di convivenze Z,spesa per massaggi nell’ultimo mese W , di un campione di 20 donne intervistate per capirele abitudine e gli stili di vita delle donne.


Non e possibile osservare interamente la popolazione, per cui si ricorre ad un sottoin-

sieme di essa.

Definizione 2.2.2. Un sottoinsieme della popolazione e detto campione. Sono gli ele-

menti della popolazione che si osservano realmente.

Vale la pena osservare che un campione non garantisce di riflettere sempre le caratte-

ristiche della popolazione. A volte puo essere sostanzialmente diverso dalla popolazione

da cui viene estratto. Due campioni della stessa popolazione sono diversi uno dall’altro a

volte anche enormemente diversi.

Definizione 2.2.3. Unita statistica o caso e ogni elemento del campione.

Definizione 2.2.4. Variabile e ogni caratteristica di interesse che viene rilevata sugli

elementi del campione.

Definizione 2.2.5. Dataset e l’insieme di tutti i valori di ogni variabile che e rilevata

sugli elementi del campione.

2.3 Diversi dati diverse variabili

Le variabili possono essere di diverso tipo a seconda delle modalita con cui si manifestano

i diversi valori che assumono. I valori che assumono sulle unita del campione sono i nostri

dati. Le due grandi categorie sono le variabili quantitative (o numeriche) e le qualitative

(o categoriche). Tra le quantitative distinguiamo le variabili numeriche discrete (risultato

di un conteggio) e le continue (risultato in genere di una misura di qualunque tipo). Tra

le qualitative distinguiamo tra quelli ordinali (dove e possibile stabilire un ordine tra le

categorie) e nominali (dove questo ordine non e possibile). Il modo migliore per riconoscere

il tipo di variabile e pensare alle operazioni che si possono fare su di loro. La prima

domanda e sicuramente: sono numeri oppure no? Se sono numeri si tratta di variabili

quantitative altrimenti qualitative. Prestare attenzione che a volte nei risultati di un

indagine le qualita possono essere codificate con un codice numerico! Questo non significa

che ad esempio, se il sesso viene codificato con 1 (femmina) e 2 (maschio), il sesso sia una

variabile numerica! Se sono numeri la seconda domanda e: sono il risultato di un conteggio

o di una misurazione (con cronometro, bilancia, o qualsiasi altro strumento) espressa in

una certa unita di misura? Nel primo caso si tratta di variabili numeriche discrete nel

secondo caso di variabili continue. Tutte le variabili inerenti il denaro (reddito, prezzo

di un’azione ad esempio) sono in genere considerate come variabili continue (si misurano

nella unita di valuta corrente, ad esempio ¤). Se non si tratta di numeri la domanda e:

posso ordinare le categorie? Se la risposta e affermativa si tratta di variabili qualitative

ordinabili, altrimenti si tratta di una variabile nominale. Si noti che tutte le variabili

2.3. DIVERSI DATI DIVERSE VARIABILI 15

qualitative presentano al piu un numero finito di modalita, quindi anche loro a volte sono

chiamate discrete. Il seguente schema riassume quanto appena descritto per i diversi tipi

di dati o variabili con anche alcuni esempi.

• Numerici o quantitativi

– Risultato di una misura: continui (distanza, reddito, durata, peso)

– Risultato di un conteggio: discreti (numero di figli, numero di esami, numero

di giorni)

• Categorici o qualitativi (nominali o ordinali)

– Ordinali (titolo di studio, scala Mercalli per l’intensita di un terremoto)

– Nominali (genere, religione, trattamento)

Vediamo alcuni esempi.

Esempio 2.3.1. Su un campione di n = 20 donne sono state rilevate le seguenti variabili:

Tipo di dieta X, giudizio sull’ultimo film visto Y , numero di convivenze Z, spesa per

massaggi nell’ultimo mese W . Vediamo di che variabili si tratta.

• La variabile tipo di dieta presenta le seguenti modalita:

X =

N = Non importa mangia di tutto

C = Carne sempre

V = Vegana o vegetariana

S = Solo salumi

Si tratta di una variabile qualitativa nominale.

• La variabile giudizio dato all’ultimo film visto (Y ), presenta le seguenti modalia:

Y =

x1 = A = abominevole

x2 = O = osservabile

x3 = S = super

x4 = L = da 30 e lode

Si tratta di una variabile qualitativa ordinale (e possibile dire sempre quale modalita

viene prima di un’altra).

• La variabile numero di convivenze (Z) e una variabile numerica discreta.

• La variabile spesa per massaggi (W ) e una variabile numerica continua (misurata in

¤).


I risultati dell’indagine sono riportati nella Tabella 2.1, che rappresenta il nostro dataset.

Esempio 2.3.2. La Tabella 2.2 rappresenta i valori della scala Mercalli per misurare

l’intensita di un terremoto in base agli effetti prodotti. In questo caso non si tratta di un

dataset. Provate pero a descrivere un possibile campione e a capire chi e la popolazione.

Esempio 2.3.3. La Tabella 2.3 registra la durata (in minuti) del periodo dormiente

delle eruzioni e tipo dell’eruzione precedente del geyser Old Faithful (Wyoming, USA).

In questo caso la popolazione sono tutte le possibili eruzioni del geyser. Il campione e

costituito dalle n = 60 eruzioni analizzate. Per ciascuna eruzione viene registrato sia il

tempo di attesa (in minuti) prima di osservare l’eruzione, sia il tipo di pausa dell’eruzione

precedente (classificata semplicemente in Corta o Lunga). Si noti che le eruzioni non sono

prese sequenzialmente, ma scelte a caso tra tutte quelle a disposizione e per ognuna di esse

interessano le due variabili descritte. Le variabili considerate quindi sono due. La prima

nella tabella e indicata con Attesa. Si tratta di una variabile continua (durata dell’attesa,

viene misurata in minuti con un cronometro). La seconda e il Tipo di eruzione precedente

a quella considerata. Si tratta di una variabile qualitativa ordinale. Le eruzioni precedenti

sono classificate secondo questa variabile in due categorie (le modalita della variabile):

Corta o Lunga. E una variabile ordinale poiche si puo sempre dire che Corta viene prima

di Lunga. Obiettivo dello studio era capire se periodi di attesa lunghi per l’eruzione

tendessero a raggrupparsi.

Esercizio 2.3.4. Raccogliere da giornali e riviste esempi di indagini statistiche ed identi-

ficare il fenomeno, la popolazione, il campione, le unita statistiche, le variabili analizzate.

2.4 Dati e tavole

Quando si hanno i dati relativi ad una o piu variabili rilevate su un campione di n unita

statistiche la prima volonta dello statistico e quella di rappresentare i dati. Rappresentare

i dati significa in realta dare un immagine di come si distribuiscono questi dati, cioe dare

un’immagine della distribuzione dei dati. Le tavole di dati sono il primo esempio della

rappresentazione della distribuzione dei dati.

Da qui inseguito per indicare la generica variabile useremo la lettera maiuscola, as

esempio X o Y , mentre per indicare le modalita assunte dalle variabili useremo le lettere

minuscole, as esempio x o y. I valori delle modalita a seconda del tipo di variabili, potranno

essere: categorie (nel caso di variabili categoriche o qualitative), numeri interi (nel caso di

variabili numeriche discrete) oppure numeri reali (nel caso di variabili numeriche continue).

A questo punto e necessaria una precisazione. Esiste una distribuzione della variabile

che stiamo studiando sulla popolazione che non potremo mai sapere come e fatta. Prove-

remo a immaginarla e a fare qualche ipotesi su di essa. (Ricordiamoci che solo Dio, per

2.4. DATI E TAVOLE 17

Grado Denominazione Effetti

1 Strumentale E percepita solo dai sismografi.

2 Leggerissima E avvertita solo dalle persone ipersensibili inmomenti di quiete e ai piani piu elevati.

3 Leggera

Viene avvertita da un numero maggiore di per-sone, le quali non si allarmano perche gene-ralmente non si rendono conto che si trattaeffettivamente di scosse telluriche.

4 Mediocre

Le persone che sono in casa l’avvertono e qual-cuna anche tra quelle che si trovano all’aperto.I lampadari oscillano, i pavimenti possono daredegli scricchiolii.

5 Forte

Sentita tanto dalle persone che si trovano in casaquanto da quelle fuori casa. Gli oggetti sospe-si oscillano ampiamente, gli orologi a pendolo sifermano, si hanno tremiti dei vetri e delle sto-viglie. Si ha risveglio brusco dal sonno e puogenerare panico senza danni alle persone.

6 Molto forte

Gli oggetti cadono e cosı i calcinacci dei mu-ri in cui si possono formare lievi lesioni. Lapopolazione, presa dal panico, abbandona lecase.

7 FortissimaPossono cadere comignoli e tegole, mentre i muripresentano lesioni non molto gravi. Suono dicampane.

8 RovinosaLesioni gravi ai fabbricati, crollo di qual-che muro interno. Qualche ferito, raramentevittime.

9 DisastrosaAlcuni crolli di case, altri edifici gravementelesionati. Molti i feriti, non numerose le vittime.

10 DistruttriceCrolli di molti fabbricati. Parecchie le vittime,moltissimi i feriti.

11 Catastrofe Numerose vittime. Quasi tutti gli edifici crollati.

12 Grande catastrofeFormazione di crepacci e frane. Distruzione diqualsiasi opera umana.

Tabella 2.2: Descrizione delle diverse modalita della scala Mercalli che misura l’intensitadi un terremoto in base agli effetti sulla popolazione.


Attesa Tipo Attesa Tipo Attesa Tipo Attesa Tipo

76 Lunga 90 Lunga 45 Corta 84 Lunga80 Lunga 42 Corta 88 Lunga 70 Lunga84 Lunga 91 Lunga 51 Corta 79 Lunga50 Corta 51 Corta 80 Lunga 60 Lunga93 Lunga 79 Lunga 49 Corta 86 Lunga55 Corta 53 Corta 82 Lunga 71 Lunga76 Lunga 82 Lunga 75 Lunga 67 Corta58 Corta 51 Corta 73 Lunga 81 Lunga74 Lunga 76 Lunga 67 Lunga 76 Lunga75 Lunga 82 Lunga 68 Lunga 83 Lunga80 Lunga 84 Lunga 86 Lunga 76 Lunga56 Corta 53 Corta 72 Lunga 55 Corta80 Lunga 86 Lunga 75 Lunga 73 Lunga69 Lunga 51 Corta 75 Lunga 56 Corta57 Lunga 85 Lunga 66 Corta 83 Lunga

Tabella 2.3: Durata del periodo dormiente (Attesa) e tipo di eruzione precedente (Tipo)di un campione di 60 eruzioni del geyser Old Faithful (Wyoming, USA).

chi crede, conosce questa distribuzione). Noi mortali statistici possiamo solo ricavare la

distribuzione della variabile su un campione e descrivere questa distribuzione (statistica

descrittiva). Dopo questa descrizione, potremo mettere un modello sulla variabile e sulla

base dei dati ricavati sul campione potremo dire se il modello proposto e corretto oppure

no (statistica inferenziale).

Quindi veniamo alle tavole. Torniamo all’Esempio 2.3.1. Concorderete sul fatto che

mostrare la Tavola 2.1 dell’intero dataset non da molte informazioni al lettore. Questo

fatto e ancora piu evidente se guardiamo la Tavola 2.3 dei dati dell’Esempio 2.3.3.

Lo scopo delle tavole e quello di rappresentare un insieme di dati. Il tipo di tavole

e le informazioni contenute in essa naturalmente dipendono dal tipo di dati e di quante

variabili andiamo a descrivere la distribuzione.

Anche se si puo pensare che fare una tavola sia un operazione assai semplice, come

ci si puo rendere conto leggendo un giornale, non sempre sono di facile comprensione.

Dobbiamo tenere presente quando andiamo a fare una tavola che lo scopo principale di

una tavola e trasformare un insieme di dati in un formato che sia facile da capire e che

faccia capire le caratteristiche salienti della distribuzione che andiamo a rappresentare.

2.4.1 Frequenze assolute, relative e percentuali

Le frequenze assolute, relative e percentuali sono le prime quantita statistiche che in-

contriamo in questo corso e che sintetizzano le informazioni contenute in un data set.

2.4. DATI E TAVOLE 19

X ni fi = ni/n pi = fi · 100%

N 6 0.30 30C 7 0.35 35V 4 0.20 20S 3 0.15 15

Totale n = 20 1.00 100

Tabella 2.4: Tavola delle frequenze assolute (ni), relative (fi) e percentuali (pi) per lavariabile X tipo di dieta nel campione dell’esempio. X assume i seguenti valori: N=nonimporta mangia di tutto, C=carne sempre, V=vegana o vegetariana, S=solo salumi

Ricordiamo che in un data set possono essere riportate per ogni singola unita statistica

i valori di piu variabili. Per ciascuna di queste variabili prese singolarmente possiamo

calcolare la distribuzione di frequenza di interesse (assoluta, relativa o percentuale). Per

due o piu variabili prese contemporaneamente potremo invece calcolare le distribuzioni di

frequenza congiunte (assolute o relative) o le frequenze condizionate.

Torniamo per adesso al caso di una variabile. Le frequenze assolute, le frequenze

relative e le frequenze percentuali rispondono a domande del tipo: quante unita statistiche

presentano la modalita x per la variabile X? Esse si possono calcolare per ogni tipo di

variabile. In particolare per le variabili di tipo qualitativo nominali sono le prime e a volte

uniche quantita statistiche che possiamo calcolare.

Come dicevamo sopra il tipo di tavola e le informazioni che puo contenere dipendono

dal tipo di variabile i cui dati osservati andiamo a rappresentare. Cominciamo con i dati

dell’Esempio 2.3.1.

Consideriamo la variabile X=Tipo di dieta. Come abbiamo visto si tratta di una va-

riabile qualitativa non ordinale. Supponiamo di essere interessati a quante donne seguono

una dieta vegana o vegetariana, e alla loro percentuale. Possiamo rispondere a queste

domande calcolando le frequenze assolute, relative e percentuali della distribuzione della

variabile Tipo di dieta.

La Tabella 2.4 le riporta tutte e tre. Si tratta delle frequenze assolute, delle frequenze

relative e delle frequenze percentuali.

Come si calcolano? Le frequenze assolute si calcolano semplicemente contando

quante volte si presenta una certa modalita. Nel campione considerato ad esempio sono

presenti 6 donne che mangiano di tutto, 7 che mangiano carne sempre e cosı via. Le

frequenze assolute si indicano in genere con ni dove la i in basso e un indice che sta ad

indicare la generica modalita ovvero la i-esima modalita. Nel nostro esempio n1 (quindi

per i = 1) sta ad indicare la frequenza assoluta delle donne che mangiano di tutto, n2

sta ad indicare il numero delle donne che mangiano solo carne, n3 il numero delle donne

vegane o vegetariane ed n4 il numero di coloro che mangiano solo salumi. Abbiamo cosı


le quattro frequenze assolute n1, n2, n3 ed n4 che si possono anche scrivere ni con i da 1

a 4 ovvero ni, i = 1, . . . , 4. Naturalmente la somma delle frequenze assolute deve essere

uguale al numero delle osservazioni, nell’esempio abbiamo: 6 + 7 + 4 + 3 = 20 in formula

n1 +n2 +n3 +n4 = n, dove n = 20. In generale se ci sono k modalita avremo k frequenze

assolute (nell’esempio k = 4) e abbiamo la prima formula di questo testo:

k∑i=1

ni = n, ovvero n1 + n2 + · · ·+ nk = n

che si legge: la somma delle frequenze assolute e uguale al numero delle osservazioni.

Le frequenze relative sono invece calcolate dividendo ogni frequenza assoluta per

il numero totale di osservazioni. In sostanza fatto un intero la totalita delle osservazioni

(nell’esempio le venti osservazioni diventano l’intero) si va a vedere che parte di questo

intero si prende ciascuna modalita. Ad esempio la frequenza relativa delle donne che

mangiano di tutto e 0.30 e si ottiene da 620 = 0.30. In formula, indicate con fi le frequenze

relative esse si ottengono come

fi =nin, i = 1, . . . , k

La somma di tutte le frequenze relative e 1, ovvero abbiamo la seconda formula di questo

librok∑i=1

fi = f1 + f2 + . . .+ fk =n1

n+n2

n+ . . .+

nkn

=n

n= 1.

Le frequenze percentuali sono praticamente la stessa cosa delle frequenze relative,

ma l’intero si considera uguale a 100. Nell’esempio, il 30% del campione osservato e

costituito donne che mangiano di tutto. Indicate con pi le frequenze percentuali, il loro

calcolo avviene in questo modo

pi =nin· 100% = fi · 100%, i = 1, . . . , k

La somma delle frequenze percentuali e 100%.

k∑i=1

pi = 100%.

Le frequenze relative e quelle percentuali a differenza delle frequenze assolute permettono

un confronto immediato tra distribuzioni con numerosita diverse. Quindi quante donne

seguono una dieta vegana o vegetariana e che percentuale ricoprono? Dalla Tabella 2.4,

ricaviamo che ci sono 4 donne che seguono una dieta vegana o vegetariana e che sono il

20% del nostro campione.

Quando si calcolano le tabelle con le distribuzioni di frequenza occorre prestare par-

ticolare attenzione agli arrotondamenti e alle cifre decimali. In una tabella occorre che

2.5. DISTRIBUZIONI DI PIU VARIABILI CONGIUNTAMENTE 21

tutte le frequenze relative abbiano sempre lo stesso numero di decimali. Il problema e

quante cifre decimali? In genere non esiste una regola fissa, a volte puo dipendere anche

da esigenze grafiche. Una regola empirica e quella di utilizzare due cifre decimali in piu

rispetto a quelle dei numeri sui quali si compie l’operazione. Quindi se abbiamo numeri

interi, cioe numeri con zero cifre decimali, il rapporto puo essere espresso con due cifre.

L’importante e che tutti i numeri abbiano lo stesso numero di cifre decimali. Con le cifre

decimali abbiamo anche il problema dell’arrotondamento. Il numero π = 3.141593 arro-

tondato alla seconda cifra significativa decimale e 3.14, arrotondato a tre cifre decimali

e 3.142. Infatti arrotondiamo al numero con tre cifre decimali piu vicino al numero π.

Abbiamo che 4.141 < 3.141593 < 3.142 e π e piu vicino a 3.142. Quindi ogni volta che la

cifra che segue il decimale al quale si vuole arrotondare e maggiore o uguale a 5 si arro-

tonda al decimale successivo. Ogni volta che e minore di 5 si arrotonda al decimale stesso.

Quando si fanno gli arrotondamenti occorre prestare attenzione anche ad un altro fatto.

La somma totale delle frequenze relative deve essere uno. Puo capitare che in seguito agli

arrotondamenti la somma sia piu grande o piu piccola di uno. In questo caso occorre fare

degli aggiustamenti diversi per far si che la somma dia uno. La regola puo essere quella,

se ad esempio la somma delle frequenze relative e maggiore di 1, di arrotondare per difet-

to il numero decimale tra quelli arrotondati per eccesso che si discosta meno dal 5. Ad

esempio se abbiamo arrotondato a due cifre decimali le frequenze relative 0.1791, 0.1753,

0.1771, 0.4685 otteniamo 0.18, 0.18, 0.18, 0.47. La somma di dei numeri arrotondati e

1.01. osservando i 4 numeri tutti arrotondati per eccesso notiamo che quello che era piu

lontano dal suo arrotondamento e 0.1753 e quindi questo sara arrotondato a 0.17. Quindi

le frequenze relative sono 0.18, 0.17, 0.18, 0.47 e in questo caso la somma e uno. Lo stesso

ragionamento deve essere fatto se la somma e minore di 1, ma questa volta arrotondando

per eccesso il numero che arrotondato per difetto presenta il piu piccolo scarto.

2.5 Distribuzioni di piu variabili congiuntamente

In molti fenomeni interessa studiare la relazione, se sussiste, tra le variabili. Un caso tipico

e quello di capire se vi sia discriminazione di genere. Ad esempio ci possiamo chiedere se vi

sia una differenza tra uomini e donne nell’accesso al lavoro, nella retribuzione o anche solo

nella presa di posizione in determinate questioni politiche, sociali o economiche. In questo

caso le variabili di interesse sono almeno due, il Sesso e a seconda dell’interesse, il Reddito o

la Condizione lavorativa o altro ancora. Per studiare se esiste una qualche relazione tra le

variabili prima di tutto occorre costruire la tavola delle frequenze congiunte. Per introdurre

il concetto consideriamo di nuovo i dati della Tabella 2.1. In particolare consideriamo le

due variabili X=Tipo di dieta e Y=Giudizio sull’ultimo film. Per costruire la tabella

delle frequenze delle due variabili congiuntamente dobbiamo considerare ogni coppia di


Y

X A O S L

N 1 1 3 1 6C 0 1 4 2 7V 1 2 0 1 4S 0 2 1 0 3

Totali 2 6 8 4 20

Tabella 2.5: Tabella della distribuzione congiunta delle variabili X=Tipo di dieta eY=Giudizio sull’ultimo film visto. Frequenze assolute. Campione di n = 20 unita.

possibili valori delle due variabili. Dobbiamo contare ad esempio quanti sono le donne che

mangiano di tutto e hanno trovato l’ultimo film abominevole. E questo va fatto per ogni

modalita delle due variabili. Dalla Tabella 2.1 e facile contare quanti sono i le donne con

queste due caratteristiche: 2. Se lo facciamo per ogni coppia di modalita otteniamo la

Tabella 2.5. I valori all’interno della tabella costituiscono la distribuzione congiunta

delle frequenze assolute delle due variabili X e Y . Si noti che se si sommano le

frequenze assolute per riga (nella tabella sono riportate nell’ultima colonna dopo la barra,

si ottiene la distribuzione della variabile X cioe il tipo di dieta. In effetti la somma

delle frequenze della prima riga corrisponde al numero di donne che mangiano di tutto,

indipendentemente dal giudizio dato all’ultimo film visto. Analogamente se si sommano

le frequenze per colonna (nella tabella sono riportate nell’ultima riga dopo la barra) si

ottiene la distribuzione della variabile Y . Tali distribuzioni all’interno della tabella a

doppia entrato sono dette distribuzioni marginali, per distinguerle dalla distribuzione

congiunta delle due variabili considerate congiuntamente.

Da questa tabella si possono ricavare tutte le frequenze relative e percentuali di una

variabile dato il valore di un’altra. Ad esempio, la frequenza relativa di donne che come

dieta presentano carne sempre e il giudizio per l’ultimo film visto e 30 e lode la otteniamo

dividendo la frequenza congiunta 2 per la frequenza totale n = 20 quindi abbiamo fCL =220 = 0.10. Possiamo calcolare anche la frequenza relativa delle donne che presentano per

le due variabili rispettivament ele modalita:

• carne sempre e super, fCS = 420 = 0.20

• carne sempre e osservabile, fCO = 120 = 0.05

• carne sempre e abominevole, fCA = 0

Da queste si ricavano poi le frequenze percentuale nell’usuale modo. Si puo quindi costruire

la distribuzione congiunta con le frequenze relative. Essa e riportata nella Tabella 2.6.

Si noti che in questa tabella occorre dare l’informazione della numerosita campionaria,


Y

X A O S L

N 0.05 0.05 0.15 0.05 0.30C 0 0.05 0.20 0.10 0.35V 0.05 0.10 0 0.05 0.20S 0 0.10 0.05 0 0.15

Totali 0.10 0.30 0.40 0.20 1

Tabella 2.6: Tabella della distribuzione congiunta delle variabili X=Tipo di dieta eY=Giudizio sull’ultimo film visto. Frequenze relative. Campione di n = 20 unita.

altrimenti non si e in grado di ricavarla dalla tabella delle frequenze relativa congiunte.

Dalla Tabella 2.5 possiamo ricavare anche le frequenze condizionate. Esse rispondono

a domande del tipo: tra le donne che hanno una dieta del tipo carne sempre, che parte o

che percentuale ha dato come giudizio all’ultimo fil visto da 30 e lode? Per calcolare questa

frequenza occorre considerare solo il gruppo delle donne che ha come tipo di dieta carne

sempre (che sono 7) e contare quante tra queste hanno espresso come giudizio all’ultimo

film visto da 30 e lode (che sono 2). La frequenza relativa condizionata delle donne che

hanno dato giudizio all’ultimo film da 30 e lode tra le donne che hanno come tipo di diete

carne sempre e 27 = 0.29. Ovvero il 29% delle donne che hanno come tipo di dieta carne

sempre hanno giudicato l’ultimo film visto da 30 e lode. Si noti che questa percentuale

e fatta rispetto al gruppo di donne che hanno come tipo di dieta carne sempre e non

rispetto a tutte le donne. E si noti come e diversa dalla percentuale di donne che hanno

come tipo di dieta carne sempre e hanno giudicato l’ultimo film visto come da 30 e lode.

Quest’ultima e infatti pari al 10%.

Vediamo adesso un esempio in cui occorre ricostruire le frequenze assolute di due

variabili da una tabella di frequenze percentuali.

Esempio 2.5.1. Un campione di 10000 iscritti ad una societa di lavoro interinale sono

analizzati in base al sesso e all’avviamento al lavoro. Lo studio ha come obiettivo quello di

capire se ci sia discriminazione di genere. I dati percentuali sono riportati in nella Tabella

2.7. La tabella ci dice che delle 10000 unita intervistate il 53.4% sono maschi e il 46.6% sono

femmine. Per quanto riguarda la condizione lavorativa la tabella ci dice solo che tra coloro

che sono inviati al lavoro dall’agenzia di lavoro, il 59% sono uomini, il 41% sono donne.

Non ci dice pero qual e, tra le donne che si e rivolta all’agenzia, la percentuale che e stata

avviata al lavoro. Per farlo dobbiamo risalire alla tabella delle frequenze assolute delle

due variabili. Le frequenze assolute si possono ricavare dalla Tabella 2.7 solo se forniamo

l’ulteriore informazione che gli avviati al lavoro sono 1700, cioe se sono date le numerosita

totali. In questo caso allora possiamo dedurre che ad esempio Il 59% di 1700 e 1003, quindi

sono 1003 gli uomini avviati al lavoro dei 5340 mentre il 41% di 1700 e 697 che sono le donne


Iscritti alla Societa Avviati al lavoro

Maschi 53.40 59.00Femmine 46.60 41.00

100 100

Tabella 2.7: Percentuali degli iscritti ad una societa di lavoro interinale in base al ses-so e alla condizione rispetto all’avviamento al lavoro. Campione di 10000 unita. Datidell’autore. Tra parentesi le numerosita assolute.

Avviato

Sesso SI NO

M 1003 4337 5340F 697 3963 4660

1700 8300 10000

Tabella 2.8: Tabella delle frequenze assolute degli iscritti ad una societa di lavoro interinalein base al sesso e alla condizione rispetto all’avviamento al lavoro. Campione di 10000unita. Dati dell’autore.

avviate al lavoro delle 46601. Le percentuali in questo caso ci forniscono un indicazione

del fenomeno nel suo complesso permettendo un confronto. Ricaviamo quindi la tabella

a doppia entrata delle due variabili rilevate. In questo esempio il campione e composto

da n = 10000 unita sulle quali sono state rilevate due variabili. La prima e il Sesso.

Variabile qualitativa nominale, con modalita M e F (maschio e femmina). La seconda

variabile e la Condizione lavorativa. Anche questa e una variabile qualitativa nominale, con

modalita SI e NO. La Tabella 2.8 riporta distribuzione congiunta delle due variabili. Con

la tabella della distribuzione congiunta possiamo calcolare diverse percentuali di interesse.

Occorre fare attenzione alla numerosia rispetto alla quale si basa la percentuale. Se non

fossero fornite le frequenze marginali delle due variabili Sesso e Condizione lavorativa

non potremmo risalire alle frequenze assolute e quindi, ad esempio, calcolare la frequenza

relativa di donne avviate al lavoro: 697/4660 = 0.15 cioe il 15% e la frequenza relativa

di uomini avviati al lavoro 1003/5340 = 0.19 cie il 19%. Si osservi che quando abbiamo

calcolato la frequenza relativa di donne avviate al lavoro: 697/4660 = 0.1495708 il risultato

e stato arrotondato a 0.15. Quindi in una tabella di frequenze relative o percentuali

occorre dare le informazioni che permettano di risalire ai dati originali, cioe occorre dare

la numerosita totale da cui si ricavano le percentuali.

1Per calcolare la quota q di un certo numero n relativa ad una percentuale p occorre risolvere laproporzione q : t = p : 100 da cui q = t·p

100. Nel primo esempio 1003 = 59·1700

100.


2.5.1 Frequenze cumulate

Per le variabili qualitative ordinali si possono calcolare le frequenze cumulate, sia assolute

che relative che percentuali. Esse rispondono a domande del tipo: quante osservazioni vi

sono che si presentano con meno di un certo valore? Oppure: quante osservazioni vi sono

che si presentano con almeno un certo valore? Per ottenere la frequenza cumulata di una

modalita si sommano la frequenza di quella modalita e di tutte le precedenti. Per calcolare

le frequenze cumulate assolute si procede in questo modo. Siano k le modalita con

frequenze assolute n1, n2, . . . , nk tali che∑k

i=1 ni = n. La prima frequenza assoluta

cumulata e uguale al valore della frequenza assoluta della prima modalita, N1 = n1,

la seconda frequenza assoluta cumulata e data dalla somma delle prime due frequenze

assolute, N2 = n1 + n2. In generale la i-esima frequenza cumulata e ottenuta sommando

le prime i frequenze assolute Ni = n1 + n2 + · · · + ni =∑i

j=1 nj . L’ultima frequenza

cumulata, la k-esima si ottiene sommando tutte le frequenze assolute e quindi e uguale a

n, Nk =∑n

j=1 nj = n

Le frequenze cumulate relative si ottengono sommando le frequenze relative. Se

ci sono k modalita con frequenze relative f1, f2, . . . , fk tali che∑k

i=1 fi = 1, la pri-

ma frequenza relativa cumulata e uguale al valore della frequenza relativa della prima

modalita, F1 = f1, la seconda frequenza relativa cumulata F2 = f1 + f2. In gene-

rale la i-esima frequenza cumulato e ottenuta sommando le prime i frequenze relative

Fi = f1 + f2 + · · ·+ fi =∑i

j=1 fj , i = 1, . . . , k.

Torniamo ai dati dell’Esempio 2.3.1 e consideriamo la variabile Y Giudizio dato all’ul-

timo film visto. Si tratta di una variabile qualitativa ordinale perche le sue modalita hanno

un ordine naturale. Se chiedo quante sono le donne hanno dato all’ultimo film visto un

giudizio inferiore o uguale a super, e una domanda a cui sono in grado di rispondere. Per

calcolare le frequenze cumulate (assolute, relative o percentuali) occorre prima calcolare

le frequenze assolute, relative e percentuali. I risultati per questa variabile sono riportati

nella Tabella 2.9.

Si noti che nella riga finale, dove per le frequenze assolute, relative e percentuali,

si riportano i totali (n = 20, la numerosita campionaria, 1, e 100% rispettivamente),

per le frequenze cumulate non si riportano in quanto gia presenti come ultimo valore

in corrispondenza della modalita maggiore. Quindi il numero di donne che hanno dato

all’ultimo film visto un giudizio inferiore o uguale a super e data dalla frequenza assoluta

cumulata corrispondente alla modalita S. Si noti che inferiore o uguale e diverso di solo

inferiore.

Chiudiamo questa sezione con un altro esempio.

Esempio 2.5.2. E sto rilevato il rendimento su 350 studenti di una scuola superiore

americana. La variabile Rendimento e stata classificata secondo le seguenti modalita (I


Y ni fi = ni/n pi = fi · 100% Ni Fi Pi%

A 2 0.10 10 2 0.10 10%O 6 0.30 30 8 0.40 40%S 8 0.40 40 16 0.80 80%L 4 0.20 20 20 1 100%

Totale n = 20 1.00 100 - - -

Tabella 2.9: Tavola delle frequenze assolute (ni), relative (fi) e percentuali (pi) e fre-quenze cumulate assolute (Ni), relativa (Fi) e percentuali (Pi) per la variabile Y Giudiziodato all’ultimo film visto nel campione dell’esempio 2.3.1. Y assume i seguenti valori:A=abominevole, O=osservabile, S=super, L=da 30 e lode.

xi ni fi pi Ni Fi PiI 45 0.13 13% 45 0.13 13%S 23 0.07 7% 68 0.20 20%B 124 0.35 35% 192 0.55 55%O 158 0.45 45% 350 1 100%

Totale 350 1.00 100% 350 1.00 100%

Tabella 2.10: Tavola delle frequenze assolute, relative, percentuali, cumulate assolute,cumulate relative e cumulate percentuali per la variabile Rendimento, rilevata su 350studenti, I=insufficiente, S=sufficiente, B=buono, O=ottimo.

insufficiente, S = sufficiente, B = buono e O = ottimo). I dati sono i seguenti. S, S, O,

S, O, O, B, B, B, O, O, B, O, B, B, O, I, B, O, O, B, O, B, B, B, B, O, I, S, I, I, O, B,

O, O, B, O, O, B, S, O, B, O, B, O, I, B, O, I, I, O, O, O, I, B, S, B, B, B, O, B, I, O, I,

B, O, O, O, O, B, O, B, O, B, B, B, O, O, B, S, I, O, O, O, S, S, B, S, O, I, O, B, B, I,

B, O, I, O, O, S, I, O, O, O, B, I, O, O, I, O, B, O, S, I, B, I, O, I, B, B, B, O, O, B, I, S,

O, I, O, O, O, B, B, I, B, B, B, I, S, O, O, B, B, O, S, I, B, B, I, O, B, S, O, B, B, B, B,

O, S, O, O, O, O, O, O, B, B, O, O, O, I, B, B, O, O, O, B, O, B, B, O, B, B, O, B, I,

O, O, O, B, O, O, O, I, O, O, B, O, B, O, O, O, B, S, O, O, B, O, I, O, O, S, I, O, B, O,

I, B, O, B, B, O, O, O, I, B, O, O, S, O, B, O, O, O, B, B, B, O, B, I B, B, B, O, B, B,

O, O, O, I, O, O, O, B, I, O, O, B, O, B, O, O, O, B, I, B, B, B, O, I, O, I, B, B, O, O,

O, B, O, S, O, I, O, O, O, B, B, B, B, B, B, B, I, O, O, B, O, B, O, O, B, O, O, O, B, B,

O, B, O, O, B, O, S, B, B, I, O, B, B, B, O, I, B, B, I, B, O, O, B, O, S, O, O, I, O, O,

B, O, O, O, O, B, O, B, B, O, O, B, O, B

Come si puo facilmente immaginare se non vengono riassunti in una tabella questi dati

non ci forniscono nessuna informazione utile. La Tabella 2.10 riporta le frequenze assolute

ni, le frequenze relative fi, le frequenze percentuali pi, le frequenze cumulate assolute Ni, le

frequenze relative cumulate Fi e le frequenze cumulate percentuali Pi. Possiamo rispondere


Corta Lunga Totale

ni 17 43 60fi 0.28 0.72 1Ni 17 60 –Fi 0.28 1 –

Tabella 2.11: Frequenze assolute, relative e cumulate della variabile tipo di eruzioneprecedente per dati dell’Esempio 2.3.3.

alle seguenti domande direttamente dalle frequenze cumulate. Che proporzione di studenti

hanno un rendimento superiore o uguale a sufficiente? Poice il 13% ha un rendimento

inferiore a sufficiente, il 100-13=87% ha un rendimento superiore a sufficiente. Quanti

studenti hanno un rendimento superiore o uguale a sufficiente? L’87% degli studenti ha

un rendimento superiore o uguale a sufficiente, prendendo la frequenza relativa 0.87 e

moltiplicandola per il numero di studenti 0.87*350=304.5! come e possibile? Il motivo e

legato agli arrotondamenti sulle frequenze relative. Se consideriamo le frequenze assolute il

numero di studenti con un rendimento superiore o uguale a sufficiente e 23+124+158=305!

Che proporzione di studenti hanno un rendimento inferiore a buono? Equivale a chiedere

la proporzione di studenti che hanno un rendimento inferiore o uguale a sufficiente e quindi

0.20. Che proporzione di studenti hanno un rendimento inferiore o uguale a buono? Questo

valore e dato direttamente dal valore 0.55.

Riassumendo per i dati qualitativi nominali si possono calcolare e rappresentare in una

tabella le seguenti frequenze

• frequenze assolute: n1, n2, . . . , ni, . . . , nk;∑k

i=1 ni = n

• frequenze relative: fi = nin ;∑k

i=1 fi = 1

• frequenze percentuali: pi = fi100%;∑k

i=1 pi = 100%

Se la variabile e ordinale si possono aggiungere le

• frequenze cumulate assolute: Ni =∑i

j=1 nj , i = 1, . . . , k.

• frequenze cumulate relative: Fi =∑i

j=1 fj , i = 1, . . . , k.

Chiudiamo questo paragrafo con un ultimo esempio

Esempio 2.5.3. Calcoalre le frequenze cumulate assolute e relative per la variabile tipo di

eruzione precedente nell’esempio dei dati del geyser Old Faithful. La Tabella 2.11 calcola

le tre frequenze per la variabile tipo di eruzione precedente. Si noti che essendoci solo due

modalita calcoliamo solo due frequenze assolute e relative e una sola cumulata, in quanto

la seconda e ultima e sempre 1.


Infine riassumiamo nel seguente elenco alcuni suggerimenti da tenere presente quando

si fornisce una tabella di frequenze:

1. Indicare sempre chiaramente cosa contiene la tabella. A chi o a cosa, dove e quando

sono stati rilevati i dati. Se necessario numerare la tavola.

2. Indicare sempre il nome ad ogni colonna e ad ogni riga. Se si usano acronimi indicare

sempre il significato.

3. Indicare sempre l’unita di misura.

4. Indicare i valori totali.

5. Incolonnare propriamente i numeri (i decimali devono stare allineati).

6. Utilizzare lo stesso numero di decimali.

7. Indicare la fonte dei dati.

Per i dati di tipo numerico discreto e continuo le tabelle di frequenza verranno presen-

tate nel prossimo paragrafo dove saranno di ausilio per la rappresentazione grafica ti tali

distribuzioni.

2.6 Dati e grafici

Produrre bei grafici permette di capire molto dei dataset con solo uno sguardo. Inoltre in

genere per le persone e molto meglio capire un grafico che una tavola piena di numeri.

Vi sono diversi grafici che e possibile utilizzare per rappresentare i dati. Il tipo di

grafico dipende dal tipo di dati.

Se i dati sono qualitativi nominali possono essere rappresentati graficamente in diversi

modi:

• tramite rettangoli

• grafici a torta

• rappresentazione tramite figure

Nella rappresentazione tramite rettangoli, o barre, le modalita x1, x2, . . . , xk del ca-

rattere si sistemano su un segmento orizzontale in qualsiasi ordine e in modo equispaziato.

In corrispondenza di ciascuna modalita si disegnano rettangoli di stessa base e altezza

proporzionale alle frequenze ni, fi o pi.

Se nello stesso grafico si rappresentano piu fenomeni occorre che l’altezza sia propor-

zionale alle frequenze fi o pi in modo da poterli confrontare.

2.6. DATI E GRAFICI 29

01

23

45

67

stato civile

freq

C N S V

Figura 2.1: Grafico delle frequenze assolute della variabile Stato civile nell’Esempio 2.3.1.


N

C

V

S

Tipo di dieta

Figura 2.2: Grafico a torta delle frequenze assolute della variabile Stato civile nell’Esempio2.3.1.

Nella rappresentazione tramite diagrammi a torta (detti anche grafici a torta) si disegna

un cerchio e si identificano dei settori circolari la cui ampiezza (o la cui area) e propor-

zionale alle frequenze relative fi o percentuali pi. L’intero cerchio rappresenta quindi la

totalita del fenomeno, cioe vale 1 o 100% a seconda delle frequenze rappresentate. Anche

in questo caso i settori vengono disegnati in un ordine qualsiasi e vengono colorati con

colori diversi a seconda della modalita del carattere. Tornando al grafico riportato in

Figura 1.1 risulta lampante come l’area dell’intero cerchio non possa essere pari al 100%

in quanto sommando le frequenze percentuali il valore 100 e superato abbondantemente.

L’errore nella rappresentazione e dovuta al fatto che ogni intervistato poteva esprimere

scelte multiple sui candidati possibili e quindi la somma delle frequenze relative non poteva

essere 1.

Nella rappresentazione tramite figure si sceglie una figura per rappresentare l’unita di

misura:��|^ = 1

Si rappresentano le modalita del carattere riportando un numero di figure proporziona-


N ��|^

��|^

��|^

��|^

��|^

��|^

6C ��

|^

��|^

��|^

��|^

��|^

��|^

��|^

7S ��

|^

��|^

��|^

3V ��

|^

��|^

��|^

��|^

4

Tabella 2.12: Rappresentazione delle frequenze assolute della variabile Stato civilenell’Esempio 2.3.1.

xi ni fi pi Ni Fi

A 2 0.1 10 2 0.1O 6 0.3 30 8 0.4S 8 0.4 40 16 0.8L 4 0.2 20 20 1.0

Totali 20 1.0 100 20 1

Tabella 2.13: Frequenze assolute, relative, percentuali, cumulate assolute e cumulaterelative del livello di scolarita nell’Esempio 2.3.1.

le alla frequenza ni. Anche in questo caso le modalita vengono sistemate in un ordine

qualsiasi.

Se la variabile e di tipo qualitativo ordinale come ad esempio la variabile livello di

scolarita (Y ) nell’Esempio 2.3.1, il grafico da utilizzare e preferibilmente il grafico a barre

o a rettangoli dove occorre solo prestare attenzione all’ordine con cui si rappresentano le

modalita che deve andare dal piu basso a sinistra al piu alto a destra. Si possono anche

utilizzare i grafici a torta ma sono sconsigliati perche si perte l’informazione dell’ordine. I

grafici con i disegni si possono utilizzare con l’accortezza di ordinare anche qui le modalita.

Nel caso della variabile livello di scolarita nell’Esempio 2.3.1 le modalita con cui si presenta

il fenomeno sono k = 4

x1 = A x2 = O x3 = S x4 = L

La Tabella 2.6 riporta le frequenze, mentre nella Figura 2.3 vengono rappresentati tramite

rettangoli le frequenze assolute.

2.6.1 Distribuzioni per le variabili numeriche

Se la variabile e di tipo quantitativo numerico discreto (conteggio) la distribuzione di

frequenza si costruisce andando a contare quante volte si presentano le diverse modalita

numeriche.


A O S L

grado scolarita'

freq

02

46

8

Figura 2.3: Grafico delle frequenze assolute del livello di scolarita nell’Esempio 2.3.1.


xi ni fi pi Ni Fi

0 5 0.25 25 5 0.251 5 0.25 25 10 0.502 3 0.15 15 13 0.653 3 0.15 15 16 0.804 4 0.20 20 20 1.00

20 1.00 100

Tabella 2.14: Frequenze assolute, relative, percentuali, cumulate assolute e cumulaterelative del numero di convivenze nell’Esempio 2.3.1.

La rappresentazione grafica deve essere di tipo a bastoncino o segmento e l’asse su cui

rappresentano i valori e di tipo numerico, per cui si deve prestare attenzione a come si

rappresentano i valori rispettando l’unita di misura dell’asse.

Nell’Esempio 2.3.1 la variabile numero di canvivenze (Z) e di tipo quantitativo discreto.

Le intensita con cui si presenta il fenomeno sono k = 5

x1 = 0 x2 = 1 x3 = 2 x4 = 3 x5 = 4.

Nella Tabella B sono riportate le frequenze, mentre nella Figura 2.4 sono rappresentate le

frequenze assolute.

Si possono anche rappresentare i grafici delle distribuzioni cumulate. Per i dati nume-

rici discreti si riporta ogni valore della distribuzione cumulata in corrispondenza di ogni

modalita numerica. Quindi si tracciano delle linea verticali dal valore della frequenza cu-

mulata all”asse delle ascisse e delle linee orizzontali dal valore della frequenza cumulata

di una modalita fino ad intersecare la linea verticale della modalita successiva. In questo

modo il grafico delle frequenze cumulate assume la forma di una scala che parte da zero e

fa un salto pari alla frequenza in corrispondenza di ogni modalita. La Figura 2.5 riporta

il grafico delle frequenze cumulate relative per la variabile Numero di convivenze dell’E

sempio 2.3.1.

2.6.2 L’istogramma

Se la variabile e di tipo quantitativo continuo, la frequenza con cui si ripete una qualunque

modalita e in genere uno. Quindi i tipi di grafici visti fino ad ora sarebbero privi di

informazione per dati di questo tipo. Occorre dividere i valori possibili per la variabile in

classi o intervalli e contare quanti valori cascano in ogni classe e quindi rappresentare i

dati tramite un istogramma.

Ad esempio la variabile Spesa per massaggi in euro (W ) dell’esempio 2.3.1 e una

variabile quantitativa continua


01

23

45

numero di figli

freq

. ass

olut

e

0 1 2 3 4

Figura 2.4: Frequenze assolute del numero di convivenze nell’Esempio 2.3.1.


●

●

●

●

●

−1 0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

Frequanze cumulate relative

figli

Fi

Figura 2.5: Frequenze cumulate relative del numero di convivenze nell’Esempio 2.3.1.


xi ni fi Ni ai li

40 a 50 3 0.15 3 10 0.3050 a 58 6 0.30 9 8 0.7558 a 70 4 0.20 13 12 0.3370 a 95 7 0.35 20 25 0.28

20 1.00 20

Tabella 2.15: Frequenze assolute, relative, percentuali, cumulate assolute ampiezza degliintervalli e densita assoluta del Spesa per massaggi in euro nell’Esempio 2.3.1. Gli estremidestri degli intervalli sono inclusi.

Le modalita o intensita con cui si presenta il fenomeno sono tutte distinte. Ricorriamo

allora al raggruppamento dei dati in classi. Introduciamo 4 classi e andiamo a contare i

valori che cascano in ogni classe e quindi calcoliamo le frequenze assolute relative e cumu-

late per ogni classe. Accanto a queste frequenze e importante anche riportare l’ampiezza

di ogni classe che denotiamo con ai e la densita di frequenza definita come il rapporto tra

la frequenza della classe e l’ampiezza della classe. Ha il significato di come le unita che

cascano in quella classe si distribuiscono nella classe. Piu e alta la densita piu le unita

sono dense nell’intervallo. La densita e denotata con li ed e definita come li = ni/ai. Si

possono anche definire le densita relative, come rapporto tra le frequenze relative di una

classe fi e l’ampiezza della classe, di = fi/ai. Il numero di classi e l’ampiezza delle classi

dipende dal numero di dati e dai valori. In genere meno sono i dati meno sono le classi

e l’ampiezza deve essere fissata in modo che in ciascun intervallo caschi almeno un certo

numero di unita. Anche la scelta degli estremi inferiore e superiore del primo e dell’ultimo

intervallo rispettivamente e arbitraria. Il calcolo delle frequenze e la determinazione delle

classi per la variabile Spesa per massaggi in euro dell’esempio 2.3.1 sono riportati nella

Tabella 2.15, mentre l’istogramma e rappresentato nella Figura 2.6.

Di solito si rappresentano gli istogrammi delle variabili continue con le frequenze

relative.

Per costruire un istogramma delle frequenze relative i passi da seguire sono i seguenti:

1. Si suddividono i valori osservati in r classi: si denota con ai l’ampiezza della i-esima

classe, i = 1, . . . , r

2. Si dispongono i valori degli estremi degli intervalli delle classi sull’asse delle ascisse

rispettando l’unita di misura dell’asse.

3. Si calcolano le frequenza assolute e le frequenze relative per ogni classe: ni e fi,

i = 1, . . . , r.

4. Si calcolano le densita di frequenza relativa per ogni classe: di = fiai


Istrogramma corretto

w

Den

sity

40 50 60 70 80 90

0.0

0.2

0.4

0.6

Figura 2.6: Istogramma della variabile Spesa per massaggi in euro nell’Esempio 2.3.1. Gliestremi destri degli intervalli sono inclusi.


Istogramma sbagliato!

w

Fre

quen

cy

40 50 60 70 80 90

01

23

45

67

Figura 2.7: Istogramma NON CORRETTO della variabile Spesa per massaggi in euronell’Esempio 2.3.1 dove l’altezza dei rettangoli e la frequenza assoluta della classe.

5. Si tracciano dei rettangoli che hanno come base gli estremi dell’intervallo i-esimo e

come altezza la densita di frequenza relative di.

In questo modo l’area di ogni rettangolo dell’istogramma e uguale alla frequenza relativa

(l’altezza del rettangolo e di) della classe che costituisce la base. Infatti l’area del rettangolo

e data da di · ai = fi.

E molto importante che l’altezza dei rettangoli sia la densita (relativa o assoluta) e non

la frequenza assoluta o relativa della classe. In quest’ultimo caso si otterrebbero dei grafici

fuorvianti sul comportamento della variabile. Ad esempio si osservi come nell’istogramma

riportato nella Figura 2.7 si abbia la percezione che vi sia una grandissima parte di redditi

molto alti rispetto all’istogramma nella Figura 2.6.

2.7 Esempi

2.7.1 Il geyser Old Faithful

Per i dati considerati nell’Esempio 2.3.3 vogliamo:

2.7. ESEMPI 39

xi ni fi ai di

40 ` 45 1 0.017 5 0.003345 ` 50 2 0.033 5 0.006750 ` 55 7 0.117 5 0.023055 ` 60 6 0.100 5 0.020060 ` 65 1 0.017 5 0.003365 ` 70 5 0.083 5 0.017070 ` 75 6 0.100 5 0.020075 ` 80 11 0.183 5 0.037080 ` 85 13 0.217 5 0.043085 ` 90 5 0.083 5 0.017090 ` 95 3 0.050 5 0.0100

60 1

Tabella 2.16: Tavola dei vari tipi di frequenze della variabile Tempo di attesa tra dueeruzioni successive dai dati dell’esempio 2.3.3.

1. rappresentare la distribuzione dei tempi di attesa per tutte le eruzioni;

2. rappresentare la distribuzione dei tempi di attesa per le eruzioni che hanno l’eruzione

di tipo prcedente Corta;

3. rappresentare la distribuzione dei tempi di attesa per le eruzioni che hanno l’eruzione

di tipo prcedente Lunga;

4. calcolare la percentuale di eruzioni ha un tempo di attesa minore di 60 minuti;

5. calcolare la percentuale di eruzioni, tra quelle che hanno l’eruzione precedente di

tipo Corta, ha un tempo di attesa minore di 60 minuti;

6. calcolare la percentuale di eruzioni, tra quelle che hanno l’eruzione precedente di

tipo Lunga, ha un tempo di attesa minore di 60 minuti.

Per fare l’istogramma della distribuzione dei tempi di attesa per tutte le eruzioni

dobbiamo raccogliere i dati in classi. Costruiamo l’istogramma per la durata dei periodi

di attesa dopo ogni eruzione del geyser Old Faithful. Nella Tabella 2.16 riportiamo le

frequenze assolute ni le frequenze relative fi = nin l’ampiezza di ogni classe ai che in

questo caso e 5 per ogni classe, e la densita di frequenza relativa di = fiai

. Sono le quantita

necessarie per costruire l’istogramma richiesto. L’istogramma per tutti i dati e riportato

in Figura 2.8.

Consideriamo ora il sottocampione costituito dalle eruzioni con Eruzione precedente

Corta e costruiamo l’istogramma per questa distribuzione. La tabella delle frequenze e la

2.17. Le quantita che ci servono per costruire l’istogramma sono riportate nella Tavola


Istogramma delle durate per tutti i dati

Durata (minuti)

Den

sity

40 50 60 70 80 90 100

0.00

0.01

0.02

0.03

0.04

0.05

Figura 2.8: Istogramma della variabile Tempo di pausa. Il tempo e misurato in minuti.

2.7. ESEMPI 41

xi 42 45 49 50 51 53 55 56 58 66 67ni 1 1 1 1 4 2 2 2 1 1 1

Tabella 2.17: Frequenze assolute della variabile Tempo di pausa tra due eruzioni successivedai dati dell’esempio 2.3.3 solo per il sottocampione con eruzione precedente di tipo corto.

xi ni fi ai di

40 ` 45 1 0.06 5 0.0145 ` 50 2 0.12 5 0.0250 ` 55 7 0.41 5 0.0855 ` 60 5 0.29 5 0.0660 ` 65 0 0 5 065 ` 70 2 0.12 5 0.02

17 1

Tabella 2.18: Vari tipi di frequenze della variabile Tempo di pausa tra due eruzioni succes-sive dai dati dell’esempio 2.3.3 solo per il sottocampione con eruzione precedente di tipocorto.

2.18. L’istogramma e riportato nella Figura 2.9 mentre lasciamo come esercizio di costruire

una tavola analoga alla 2.18 per la variabile Durata del tempo di pausa per il sottocampione

relativo alle eruzioni con eruzione precedente lunga. L’istogramma e riportato nella Figura

2.10.

2.7.2 Un caso di attribuzione letteraria

Questo esempio riguarda gli 85 articoli sul federalismo che furono pubblicati negli Stati

Uniti per convincere i cittadini dello stato di New York a ratificare la costituzione. Gli

storici si diedero l’arduo compito di individuare chi erano gli autori di questi articoli. Per

73 di questi articoli non ci sono stati problemi di attribuzione, mentre per i restanti 12

gli storici non erano d’accordo se attribuire questi 12 scritti a Hamilton o a Madison,

entrambi due scrittori di testi politici molto famosi e attivi a quell’epoca. Il contenuto

politico non riesce a determinare quale dei due sia l’autore dei 12 scritti perche entrambi

avevano le stesse idee politiche. Gli istogrammi possono aiutare a dirimere la questione.

Gli autori tendono ad avere differenti stili di scrittura in particolare tendono ad usare

parole non contestuali con un tasso (numero di parole ogni mille) con una distribuzione

che li caratterizza. La Tabella 2.19 riporta il tasso della parola by rilevata ogni 1000

parole in 48 scritti di Hamilton (non solo quelli attribuiti a lui degli 85 sul federalismo) e

in 50 scritti di Madison (anche in questo caso non sono stati considerati solo gli scritti sul

federalismo). In un articolo del 1963, Mosteller e Wallace utilizzarono una metodologia


Durata del tempo di pausa per eruzione precedente corta

Durata (minuti)

Den

sity

40 50 60 70 80 90 100

0.00

0.02

0.04

0.06

0.08

0.10

Figura 2.9: Istogramma della variabile Durata del tempo di pausa per il sottocampionecon eruzione precedente di tipo Corta.

2.7. ESEMPI 43

Durata del tempo di pausa per eruzione precedente lunga

Durata (minuti)

Den

sity

40 50 60 70 80 90 100

0.00

0.02

0.04

0.06

0.08

0.10

Figura 2.10: Istogramma della variabile Durata del tempo di pausa per il sottocampionecon eruzione precedente di tipo Lunga.


Tasso by

H M

0 a 2 2 –2 a 4 7 –4 a 6 12 56 a 8 18 78 a 10 4 810 a 12 5 1612 a 14 – 614 a 16 – 516 a 18 – 3

Totali 48 50

Tabella 2.19: Tasso della parola by in 48 scritti di Hamilton (H) e in 50 scritti di Madison(M) (numero di ricorrenze ogni 1000 parole).

Rate 0 a 2 2 a 4 4 a 6 6 a 8 8 a 10 10 a 12 12 a 14 14 a 16 16 a 18ni – – 2 1 2 4 2 1 –

Tabella 2.20: Tasso della parola by nei 12 scritti contesi sul federalismo (numero diricorrenze ogni 1000 parole).

statistica per l’attribuzione dei 12 scritti ad uno dei due autori. Qui prendiamo i loro dati

e tracciamo gli istogrammi (anche per i dati numerici discreti possiamo farlo).

La Tabella 2.20 riporta invece il tasso della parola by nei 12 scritti contesi sul federa-

lismo.

Dopo aver tracciato gli istogrammi per la variabile tasso sia per gli scritti di Hamilton

che per quelli di Madison che per gli scritti contesi, il grafico riportato in Figura 2.11

sembra propendere per attribuire gli scritti contesi ad uno dei due autori senza molti

dubbi.

Si noti che per fare il confronto occorre prestare attenzione affinche in tutti i grafici

la scala sia la stessa e si utilizzano frequenze relative perche il numero di scritti e diverso

nelle tre distribuzioni.

2.7.3 Il primo bacio non si scorda mai

In questo esempio vediamo invece come le frequenze cumulate possono aiutare a capire

meglio un fenomeno. Nella Tabella 2.21 sono riportate le frequenze assolute ni, le frequenze

assolute cumulate Ni e le frequenze relative cumulate della variabile eta a cui e stato dato

il primo bacio a sfondo sessuale. Si tratta di una variabile continua (l’eta) ed e rilevata su

un campione di 42 giovani uomini (dati privati). Abbiamo calcolato la frequenza cumulata

2.7. ESEMPI 45

Scritti di Madison

Rate

De

nsity

0 5 10 15

0.0

00

.0

50

.1

00

.1

5

Scritti di Hamilton

Rate

De

nsity

0 5 10 15

0.0

00

.1

0

Scritti contesi

Rate

De

nsity

0 5 10 15

0.0

00

.0

50

.1

00

.1

5

Figura 2.11: Istogramma della variabile Tasso della parola by nei 50 scritti di Madison(M), nei 48 scritti di Hamilton (H) e nei 12 scritti contesi sul federalismo.


Eta ni Ni Fi7 1 1 0.0248 0 1 0.0249 1 2 0.04810 0 2 0.04811 3 5 0.11912 6 11 0.26213 5 16 0.38114 6 22 0.52415 12 34 0.81016 2 36 0.85717 4 40 0.95218 1 41 0.97619 0 41 0.97620 1 42 1.000

Totali 42 – –

Tabella 2.21: Eta del primo bacio a carattere sessuale di 42 giovani uomini. Frequenzeassolute, frequenze cumulate e frequenze cumulate relative.

relativa perche ci interessa confrontare questo fenomeno con quello riportato nella Tabella

2.22 in cui viene rilevata sullo stesso gruppo di giovani uomini l’eta in cui hanno avuto il

primo rapporto sessuale. La tabella riporta anche in questo caso le frequenze assolute ni,

le frequenze assolute cumulate Ni e le frequenze relative cumulate.

Dalla Tabella 2.21 ad esempio leggiamo che il piu alto numero di uomini ha dato il

primo bacio all’eta di 15 anni (frequenza assoluta 12). Ma il dato che descrive meglio il

fenomeno e il fatto che all’eta di 15 anni, 34 uomini dei 42 (ovvero l’81%) hanno gia dato

il primo bacio (frequenza cumulata 34, frequenza cumulate relativa 0.81). Si deduce anche

che almeno il 50% degli uomini ha dato il primo bacio ad un’eta inferiore o uguale ai 14

anni (frequenza cumulata relativa 0.52).

Dalla Tabella 2.22 invece leggiamo che che il primo rapporto sessuale e avvenuto dopo

il primo bacio (prima osservazione eta=11), che il piu alto numero di uomini ha avuto il

primo rapporto all’eta di 18 anni (frequenza assoluta 15). Anche in questo caso il dato che

descrive meglio il fenomeno e il fatto che all’eta di 18 anni, 36 uomini dei 42 (ovvero l’86%)

hanno gia avuto il primo rapporto sessuale (frequenza cumulata 36, frequenza cumulate

relativa 0.86). Si deduce anche che il 50% degli uomini ha avuto il primo rapporto sessuale

ad un’eta inferiore o uguale ai 17 anni (frequenza cumulata relativa 0.50). La tabella 2.23

riporta le due distribuzioni insieme. Per effettuare il confronto l’eta e stata fissata da 7 a 21

anni per entrambe le distribuzioni. Le frequenze cumulate relative sono state arrotondate

alla seconda cifra significativa.

2.7. ESEMPI 47

Eta ni Ni Fi11 1 1 0.0212 0 1 0.0213 1 2 0.0514 4 6 0.1415 4 10 0.2416 5 15 0.3617 6 21 0.5018 15 36 0.8619 4 40 0.9520 1 41 0.9821 1 42 1

Totali 42 – –

Tabella 2.22: Eta del primo rapporto sessuale di 42 giovani uomini. Frequenze assolute,frequenze cumulate e frequenze cumulate relative.

Eta nBi NBi FBi nRi NR

i FRi7 1 1 0.02 0 0 08 0 1 0.02 0 0 09 1 2 0.05 0 0 010 0 2 0.05 0 0 011 3 5 0.12 1 1 0.0212 6 11 0.26 0 1 0.0213 5 16 0.38 1 2 0.0514 6 22 0.52 4 6 0.1015 12 34 0.81 4 10 0.2416 2 36 0.86 5 15 0.3617 4 40 0.95 6 21 0.5018 1 41 0.98 15 36 0.8619 0 41 0.98 4 40 0.9520 1 42 1 1 41 0.9821 0 42 1 1 42 1

Totali 42 – – 42 – –

Tabella 2.23: Eta del primo bacio a carattere sessuale e del primo rapporto sessuale di42 giovani uomini. Frequenze assolute, frequenze cumulate e frequenze cumulate relative.(Apice B si riferiscono all’eta del primo bacio, apice R all’eta del primo rapporto).


10 15 20

0.0

0.2

0.4

0.6

0.8

1.0

Età al primo bacio e del primo rapporto sessuale

età

Fetà primo bacioetà primo rapporto

Figura 2.12: Grafico delle frequenze cumulate relative per l’eta al primo bacio e l’eta delprimo rapporto sessuale per 42 giovani uomini. La retta rappresenta F = 0.50.

Nella figura 2.12 le due distribuzioni sono messe a confronto. Come si puo osservare

il grafico delle frequenze cumulate relative della distribuzione dell’eta del primo rapporto

sessuale sta sempre sotto il grafico delle frequenze cumulate relative dell’eta del primo

bacio. Questo significa che la prima distribuzione e sempre maggiore della seconda. Cioe

l’eta del primo rapporto sessuale e maggiore dell’eta del primo bacio. La linea orizzontale

tracciata per F = 0.50 ci informa che l’eta in cui almeno il 50% del campione ha dato il

primo bacio e 14 anni, mentre l’eta in cui almeno il 50% del campione ha avuto il primo

rapporto sessuale e 17 anni. La lunghezza del segmento tra i due punti in cui la retta

F = 0.50 interseca le due linee delle frequenze cumulate relative ci informa sul fatto che

la meta della campione ha avuto il primo rapporto sessuale tre anni dopo che la meta del

campione ha dato il primo bacio.

2.8 Esercizi

Esercizio 2.8.1. Su un campione di 19 donne il risultato dell’indagine per le variabili

Titolo di studio e Essere fumatrice e stato

2.8. ESERCIZI 49

Fumatrice SI NO

Titolo di studio

Licenza elementare 1 1 2Scuola secondaria I grado 2 1 3

Scuola secondaria II grado 2 4 6Laurea 1 7 8

Totali 6 13 19

1. Qual e la proporzione di fumatrici?

2. Qual e la proporzione di non fumatrici?

3. Qual e la proporzione di laureate ?

4. Qual e la percentuale di donne laureate e fumatrici?

5. Tra le donne laureate qual e la percentuale delle fumatrici?

6. Tra le fumatrici, qual e la percentuale di donne con titolo di studio superiore o uguale

alla scuola secondaria di II grado?

7. Tra le donne con titolo di studio superiore o uguale alla scuola secondaria di II grado

qual e la percentuale di fumatrici?

Esercizio 2.8.2.

Si considerino le variabili tipo di dieta e numero di convivenze della tabella 2.1.

1. Si costruisca la tabella delle frequenze assolute congiunte delle due variabili.

2. Che percentuale di donne non ha avuto convivenze?

3. Che percentuale di donne ha come tipo di dieta carne sempre e non ha avuto convi-

venze?

4. Tra le donne che ha come tipo di dieta carne sempre, che percentuale non ha avuto

convivenze?

5. Tra le donne che non hanno avuto convivenze che percentuale ha come tipo di dieta

carne sempre?

6. Tra le donne che hanno avuto 2 o piu convivenze che percentuale ha come tipo di

dieta carne sempre?

7. Tra le donne che hanno avuto piu di 2 convivenze che percentuale ha come tipo di

dieta carne sempre?


Esercizio 2.8.3. Dal sito corriere.it, dal quale e stata tratta la foto riportata sotto in

Figura 2.13, sono stati tratti i dati riguardante un indagine sul lavoro durante la mater-

nita. Consideriamo solo le risposte alla domanda: Le e capitato di lavorare mentre era in

congedo di maternita? La domanda e stata rivolta a 4813 mamme lavoratrici dipendenti

e 1087 mamme lavoratrici autonome. Le percentuali delle risposte alla domanda per le

lavoratrici dipendenti sono state le seguenti:

Si e capitato e l’ho apprezzato: 8%

Si e capitato ma ne avrei fatto a meno: 11%

Si e capitato ma ho potuto decidere quando: 18%

No non e capitato: 63%

Le percentuali delle risposte alla domanda per le lavoratrici autonome son state le seguenti:





1. Ricostruire la tabella delle frequenze assolute della distribuzione congiunta delle due

variabili rilevate sulle mamme: tipo di lavoro (dipendente o autonomo) e Stato

lavorativo mentre era in congedo di maternita rilevata con le 4 modalita date dalle

rispettive domante alla risposta.

2. Calcolare la distribuzione delle frequenze assolute, relative e percentuali della va-

riabile Stato lavorativo durante la gravidanza rilevata con le 4 modalita date dalle

rispettive domante alla risposta.

3. Tra le mamme che non hanno lavorato, qual e la percentuale di mamme che hanno

un lavoro dipendente? E quella delle mamme che hanno un lavoro autonomo?

Esercizio 2.8.4.

Si faccia riferimento ai dati del Gayser Old Faithful.

1. Costruire la tabella a doppia entrata per le frequenze relative delle due variabili. Per

la variabile tempo di pausa tra due eruzioni successive si mantenga la suddivisione

in classi riportata nella Tabella 2.16.

2.8. ESERCIZI 51

Lavoratrici dipendenti Il rientro

30 settembre 2015 | 21:58

© RIPRODUZIONE RISERVATA

!

!"

"0

#

#0

$

$0

%

%2

!

!

&

&

'

'(

( 100%TOTALE VOTI 1

Figura 2.13: Le e capitato di lavorare durante il periodo di maternita?


2. Che percentuale di eruzioni hanno una durata maggiore o uguale a 60 minuti e hanno

quella precedente breve?

3. Che percentuale di eruzioni hanno una durata maggiore o uguale a 60 minuti e hanno

quella precedente lunga?

4. Tra le eruzioni che hanno la precedente di tipo breve, che percentuale hanno una

durata inferiore ai 55 minuti?

5. Che percentuale di eruzioni lunghe dura meno di 65 minuti?

6. Che percentuale di eruzioni dura meno di 65 minuti?

Capitolo 3

Valori medi

Il titolo di questo capitolo e al plurale perche come vedremo ci sono diversi tipi di medie

per un certo tipo di dati e diverse medie per diversi tipi di dati (numerici o nominali).

In inglese il termine average puo indicare questo tipo di media mentre viene lasciato al

termine mean il significato di media (aritmetica) di un certo numero di valori numerici. In

italiano non abbiamo una tale ricchezza di vocaboli per cui dovremo prestare attenzione al

fatto se con il termine media ci riferiamo ad un concetto, cioe se indichiamo quel valore che

sintetizza l’intera distribuzione, oppure alla media aritmetica che e solo una delle medie

a cui si riferisce il titolo del capitolo. In genere dal contesto si capira a cosa ci stiamo

riferendo. Quello che si vuole fare in questo capitolo e condensare in un solo numero

(quando i dati sono di tipo numerico) o in una sola caratteristica (quando sono nominali)

un intero insieme di dati relativi ad una certa variabile. Questo unico numero (nel caso

delle variabili numeriche) viene chiamato, a seconda dei casi, moda, mediana o media

(aritmetica, ma in realta esiste anche la media armonica e altri tipi di media che non

studieremo)

3.1 La moda

La moda puo essere calcolata per qualunque tipo di variabile (o di dati).

Definizione 3.1.1. La moda e la modalita per le variabili nominali (o il numero per le

variabili numeriche) che si presenta con la frequenza maggiore.

Per trovare la moda di una distribuzione bisogna allora calcolare tutte le frequenze

(e indifferente se assolute o relative) e andare a vedere a quale modalita corrisponde la

frequenza maggiore. Tale modalita e la moda della distribuzione o la moda della variabile.

A volte puo capitare che due modalita abbiano la frequenza maggiore, in questo caso si

dice che la distribuzione e bi-modale. Anche quando rappresentando i dati graficamente si

osservano due picchi distanti per le frequenze si puo dire che la distribuzione e bi-modale.

53

54 CAPITOLO 3. VALORI MEDI

Ad esempio nel caso dei dati sui tempi di pausa del geyser Old Faithful dell’Esempio 2.3.3.

Nella Figura 2.8 si notano due frequenze distinte nettamente piu alte delle altre. In questo

caso sono presenti due nette distribuzioni come lo studio dividendo le osservazioni rispetto

alla variabile tipo di eruzione precedente mette in luce.

Esercizio 3.1.2. Calcolare la moda per i dati dell’Esempio 2.5.2 [Ris: Moda= ottimo]

Esercizio 3.1.3. Calcolare la moda per la variabile X, tipo di dieta, Y , giudizio sull’ul-

timo film visto e Z numero di convivenze, per i dati dell’Esempio 2.3.1

3.2 La media aritmetica

Riportiamo la poesia del poeta romano Trilussa (pseudonimo di Carlo Alberto Salustri,

nato nel 1871 e morto nel 1950) dal titolo che non ha bisogno di presentazioni in questo

volume e che presenta il valore medio sottolineando come questo debba essere considerato

con attenzione e non con leggerezza.

LA STATISTICA

Sai ched’e la statistica? E ’na cosa

che serve pe fa un conto in generale

de la gente che nasce, che sta male,

che more, che va in carcere e che sposa.

Ma pe me la statistica curiosa

e dove c’entra la percentuale,

pe via che, lı la media e sempre eguale

puro co’ la persona bisognosa.

Me spiego: da li conti che se fanno

seconno le statistiche d’adesso

risurta che te tocca un pollo all’anno:

e, se nun entra nelle spese tue,

t’entra ne la statistica lo stesso

perch’e c’e un antro che ne magna due.

Come vedremo introducendo la mediana, non sempre la media aritmetica di cui parla

Trilussa va bene per descrivere fenomeni come questo. Ma teniamo presente il testo della

poesia per capire il significato di media aritmetica.

3.2. LA MEDIA ARITMETICA 55

La media aritmetica si puo fare per le variabili numeriche. Se abbiamo la distribuzione

del numero dei figli possiamo calcolare la media (aritmetica) del numero di figli, se abbiamo

la distribuzione dei redditi possiamo calcolare la media (aritmetica) dei redditi.

La definizione di media aritmetica, che tra le righe della poesia possiamo cogliere e la

seguente:

Definizione 3.2.1. La media aritmetica di n valori e quel valore che se sostituito a tutti

i valori lascia inalterata la somma totale degli n valori.

Per rivederla con Trilussa, se io mangio due polli e tu zero, i due valori sono 2 e 0, il

totale dei polli in gioco, anzi meglio, mangiati e 2+0=2. La media aritmetica e 1, per la

statistica io mangio un pollo e anche tu un pollo, in totale sempre due polli si mangiano.

Se si sostituisce sia a 2 che a 0 la media, 1, la somma totale dei polli mangiati non cambia,

1+1=2.

Per calcolare operativamente la media aritmetica si procede in due passi:

1. Si sommano tutti i valori osservati

2. Si divide la somma ottenuta per il numero di valori osservati

Riprendiamo i dati dell’esempio 2.3.1 della variabile Z numero di convivenze. I 20

valori che la variabile assume sulle 20 unita del campione sono:

0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4, 4

Sommiamo tutti i valori della variabile

0 + 0 + 0 + 0 + 0 + 1 + 1 + 1 + 1 + 1 + 2 + 2 + 2 + 3 + 3 + 3 + 4 + 4 + 4 + 4 = 36

E quindi dividiamo per il numero di unita statistiche nel campione:

36

20= 1.8 ∼ 2

Il numero medio di convivenze e poco meno di 2, o circa 2 convivenze per donna. (Occorre

arrotondare al numero intero piu vicino, tenendo presente che il numero medio e piu piccolo

di 2). In genere si usa la notazione

x = 1.8 ∼ 2,

dove x, che si legge x-bar, o x barrato, denota universalmente la media aritmetica di n

valori. Tale scrittura viene dal fatto che se si indicano con xi gli n valori di una generica

variabile X la media aritmetica si puo scrivere con la formula

x =1

n

n∑i=1

xi.


La somma dei venti valori della variabile numero di convivenze, poteva anche essere

ottenuta nel seguente modo:

0 ∗ 5 + 1 ∗ 5 + 2 ∗ 3 + 3 ∗ 3 + 4 ∗ 4 = 36

cioe facendo il prodotto di ogni modalita per il numero di volte in cui questa si presen-

ta, ovvero la sua frequenza assoluta. Quindi la media aritmetica si puo anche scrivere,

indicando con ni la frequenza assoluta in cui si presenta la modalita xi, nel seguente modo:

x =1

n

k∑i=1

ni ∗ xi.

dove k sono il numero di modalita in cui si presenta la variabile di cui stiamo calcolando

la media. Si noti che se fosse possibile avere 1.8 convivenze e se tutte le 20 donne avessero

avuto un numero di convivenze pari a 1.8, la somma totale delle convivenze sarebbe 36.

Esempio 3.2.2. Calcolare la media aritmetica della variabile Spesa per massaggi nell’E-

sempio 2.3.1.

I 20 importi vanno sommati:

72.50 + 54.28 + 50.02 + 88.88 + 62.30 + 45.21 + 57.50 + 78.40 + 75.13 + 58.00 + 53.70+

+ 91.29 + 74.70 + 41.22 + 65.20 + 63.58 + 48.27 + 52.52 + 69.50 + 85.98 = 1288.18

e quindi la somma divisa per il numero di unita statistiche (20):

1288.18

20= 64.4090

La spesa media e quindi

x = 64.4090.

In questo caso possiamo affermare che se tutti le donne avessero una spesa di 64.4090 euro,

la somma totale della spesa per massaggi sarebbe invariata e pari a 1288.18.

Non si puo calcolare la media aritmetica di un carattere nominale. Ad esempio se

abbiamo la seguente distribuzione

M 22F 12

Tot. 44

non possiamo fare la media tra M e F. Possiamo solo dire che in questo campione e

maggiore il numero di maschi, cioe la moda e il carattere o modalita maschio. Neppure se

fossero codificati

M=1 22F=2 12

Tot. 44


non possiamo calcolare

1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1+

1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1+

2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 = 46

e quindi dire che la media e 46/44 = 1.05.

Esempio 3.2.3. Riprendiamo i dati relativi alla durata dei tempi di pausa nell’esempio

2.3.3. Consideriamo la variabile Durata del tempo di pausa nel caso l’eruzione precedente

sia di tipo corto. Sono 17 osservazioni del campione che per comodita riportiamo nella

seguente tabella.

xi 42 45 49 50 51 53 55 56 58 66 67ni 1 1 1 1 4 2 2 2 1 1 1

Calcoliamo la media aritmetica del tempo di pausa per questo sottocampione.

1. Prima si sommano tutti i valori tenendo presente che alcuni di essi si presentano piu

di una volta:

42 + 45 + 49 + 50 + 51 + 51 + 51 + 51 + 53 + 53 + 55 + 55 + 56 + 56 + 58 + 66 + 67=909

2. Si divide il risultato per il numero di valori, in questo caso n = 17:

909

17= 53.47

Si dice che la media aritmetica dei tempi di pausa tre due eruzioni successive quando

la precedente e di tipo Corto e di 53.47 minuti. La media aritmetica si denota quasi

universalmente con la x barrata. Ovvero si scrive

x = 53.47.

Dal punto di vista inferenziale si puo interpretare che se mi metto seduto accanto

al geyser che ha appena avuto un eruzione di tipo corto, mi aspetto di dover aspettare

(scusate il gioco di parole!) circa 53 minuti prima di vedere il geyser emettere il suo

spruzzo di vapore.

Tornando alla definizione, se si sostituisce ai 17 valori osservati il valore medio calcolato

x = 53.47 abbiamo che la somma totale dei tempi di attesa non cambia, infatti sommare

per 17 volte il valore 53.47 equivale a calcolare il prodotto 53.47 · 17 = 908.99 che e uguale

a 909 a meno degli arrotondamenti.

In modo analogo si puo calcolare la media aritmetica per il tempo di attesa tra due

eruzioni quando il tipo di pausa prcedente e di tipo lungo. Si ottiene x = 78.19. Mentre

il tempo medio di attesa calcolato per tutte le 60 eruzioni risulta: x = 71.183


Sfruttando la definizione di media aritmetica la media totale di tutti i tempi di attesa

si puo anche ottenere come

17 ∗ 53.47 + 43 ∗ 78.19

60=

4271.16

60= 71.186

che a meno degli arrotondamenti e la media calcolata.

Esercizio 3.2.4. Si supponga che per un errore di registrazione dei dati, tutte le 20 donne

nell’Esempio 2.3.1. abbiano avuto un numero di convivenze maggiore di 1 rispetto al valore

registrato. Calcolare la media aritmetica della variabile Numero di convivenze in questo

caso.

3.2.1 Media aritmetica per i dati in classi

I dati che provengono da variabili continue di solito vengono forniti direttamente in classi.

Occorre verificare che essendo il dato la realizzazione di una variabile continua le classi

abbiano sempre la forma (a, b] oppure [a, b), dove con la parentesi tonda si intende che

il valore corrispondente non appartiene a quella classe, mentre con la parentesi quadra

si intende che il valore appartiene alla classe. Se le modalita nelle classi non dovessero

essere in questa forma dobbiamo sempre riscriverle in questo modo per facilitare i conti

che dovremo fare per calcolare i valori medi.

Riprendiamo l’esempio della variabile W la spesa per massaggi per i dati dell’Esempio

2.3.1. Supponiamo che i dati siano forniti in classi invece che i singoli valori originali.

Quando i dati sono raccolti in classi e non possiamo risalire ai dati originari da cui sono

state costruite le classi per calcolare la media aritmetica dobbiamo fare delle ipotesi. Nel

senso che dobbiamo ipotizzare un valore della classe che rappresenta tutti valori che rien-

trano in quella classe. La scelta piu naturale e scegliere il valore centrale della classe. Per

determinare i punti centrali abbiamo una formula: se l’intervallo e [a, b) oppure (a, b], il

punto centrale si ottiene sommano gli estremi e dividendo per due

Punto centrale =a+ b

2

Nella Tavola 3.1 sono riportati i valori centrali, che si ottengono facendo la semisomma

dei valori degli estremi della classe. Si noti che abbiamo cambiato, rispetto alla Tavola

2.15, l’estremo superiore dell’ultima classe per ottenere anche in questo caso un valore

intero. Per calcolare la media aritmetica occorre quindi moltiplicare ogni valore centrale

per la frequenza della classe, sommare tutti i valori ottenuti e dividere per il numero totale

di osservazioni:

x =1

n

k∑i=1

ci ∗ ni


classi ni ci ci · ni40 a 50 3 45 13550 a 58 6 54 32458 a 70 4 64 25670 a 96 7 83 581

20 1296

Tabella 3.1: Frequenze assolute, relative della variabile Spesa per massaggi in euro nell’E-sempio 2.3.1. Gli estremi destri degli intervalli sono inclusi. Sono riportati i calcoli perottenere la media della spesa. ci valore centrale.

eta Uomini Donne totale

meno di 12 84 75 15913-24 282 297 57925-34 391 355 74635-44 281 168 44945-54 187 127 31455-64 168 137 30565-74 79 82 161

75 e piu 45 132 177

Totale 1517 1373 2890

Tabella 3.2: Persone pendolari verso un luogo diverso dalla propria abitazione per sesso eclasse di eta - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti sociali.

dove nella formula, ci e il valore centrale della classe i-esima, k sono il numero di classi

e ni e la frequenza assoluta di ogni classe. Per i dati della variabile W della Tavola 3.1

otteniamo quindi

x =1296

20= 64.8

Si noti come il valore ottenuto, che e una approssimazione della media aritmetica del

campione, e comunque molto simile al valore ottenuto quando i dati non sono raccolti in

classi.

Vediamo un altro esempio. Dall’indagine dell’ISTAT sulle famiglie e i soggetti sociali

sono presi i dati della Tabella 3.2. Si tratta di tre distribuzioni dell’eta dei pendolari

considerati in base al sesso. Vogliamo calcolare l’eta media dei pendolari e capire se c’e

differenza tra l’eta degli uomini e delle donne.

Poiche l’eta e un carattere continuo tutti i valori devono essere considerati. Nella

Tabella 3.3, abbiamo quindi modificato gli estremi dell’intervallo, perche chi ad esempio ha

24 anni e mezzo appartiene alla terza classe non alla seconda. In questa tabella l’intervallo

(a, b] e rappresentato con i simboli a a b. Si noti che per l’ultima classe non era dato


eta valore centrale Uomini Donne totale

0 a 12 6 84 75 15912 a 24 18 282 297 57924 a 34 29 391 355 74634 a 44 39 281 168 44944 a 54 49 187 127 31454 a 64 59 168 137 30564 a 74 69 79 82 16174 a 84 79 45 132 177

Totale – 1517 1373 2890

Tabella 3.3: Persone pendolari verso un luogo diverso dalla propria abitazione per sesso eclasse di eta - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti sociali.

l’estremo superiore quindi abbiamo fatto l’ipotesi che fosse 84, per analogia alle classi

precedenti. Capita spesso che per la prima e l’ultima classe non siano dati gli estremi

inferiore e superiore rispettivamente.

Per la moda possiamo dire che la classe modale e sia per gli uomini che per le donne

(24, 34]. La moda pero non e molto informativa in questo caso. Di solito non si usa per i

dati raccolti in classi.

Per la media aritmetica dovremmo conoscere l’eta di ogni unita che casca in una classe.

Poiche non la conosciamo facciamo l’ipotesi che le unita siano distribuite uniformemente

all’interno della classe, che equivale a ipotizzare che tutti abbiano l’eta che casca nel punto

centrale dell’intervallo che determina la classe. Ad esempio il punto centrale della classe

(24, 34] e 29. Quindi per calcolare la media dobbiamo calcolare tutti i punti medi e quindi

calcolare la media della nuova distribuzione. Per calcolare la media dell’eta degli uomini,

i conti sono riportati nella Tavola 3.4 in cui l’eta 6 si presenta 84 volte, l’eta 18 si presenta

282 volte e cos via. La media dell’eta dei pendolari uomini e si calcola prima facendo il

prodotto di ogni eta per la frequenza con cui si presenta:

6 ∗ 84 + 18 ∗ 282 + 29 ∗ 391 + 39 ∗ 281 + 49 ∗ 187 + 59 ∗ 168 + 69 ∗ 79 + 79 ∗ 45 = 55959

e quindi si digita per il numero di osservazioni:

55959

1517= 36.89.

Si calcoli la media dell’eta per le donne e la media dell’eta per tutto il campione

costruendo le analoghe tabelle delle frequenze per il calcolo della media partendo dai

valori centrali delle classi. I risultati sono: media ete donne 38.62, media eta per tutto

il campione 37.71. Possiamo concludere che le donne che fanno le pendolari hanno quasi

due anni di piu degli uomini.

3.3. LA MEDIANA 61

eta ci ni ci ∗ ni0 a 12 6 84 50412 a 24 18 282 507624 a 34 29 391 1133934 a 44 39 281 1095944 a 54 49 187 916354 a 64 59 168 991264 a 74 69 79 545174 a 84 79 45 3555

Totale – 1517 55959

Tabella 3.4: Calcolo dell’eta media degli uomini pendolari verso un luogo diverso dallapropria abitazione - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggettisociali.

3.3 La mediana

La mediana e un modo alternativo di calcolare il valor medio di una distribuzione inteso

come quel valore che sintetizza al meglio la distribuzione dei dati (l’average inglese) e quindi

descrive meglio il fenomeno oggetto di studio. Forziamo la mano a Trilussa. Supponiamo

di avere 10 persone, una di essa che mangia 10 polli e le altre nove che non ne mangiano

neppure uno. Abbiamo 10 valori, x1 = 10 e gli altri valori xi = 0 per i = 2, 3, . . . , 10. La

media aritmetica del numero di polli mangiati a testa e ancora 1, cioe per dirla con Trilussa

il pollo di media t’entra ne la statistica lo stesso perch’e c’e un antro che ne magna dieci!.

Si capisce che in questo caso la media non descrive bene la distribuzione del numero di

polli che si mangiano questi 10 cristiani! La mediana e un modo alternativo di riassumere

la distribuzione che tiene conto di questa disparita.

Definizione 3.3.1. La mediana e la modalita, cioe quel valore tra quelli osservati, che

ha alla sua sinistra (cioe piu bassi o uguali a se) almeno la meta delle osservazioni e alle

sua destra, (cioe piu alti) l’altra meta delle osservazioni.

La mediana e quindi quel valore che divide divide in due parti uguali le osservazioni.

Vediamo le operazioni per calcolarla.

1. Si ordinano le n osservazioni dalla piu piccola alla piu grande.

2. Si calcola il valore n+12 .

(a) Se n e dispari l’osservazione che sta nella posizione n+12 -esima e la mediana.

(b) Se n e pari si prendono le due osservazioni centrali, quella che occupa la posi-

zione n2 -esima e quella che occupa la posizione n

2 + 1-esima e la mediana e data

dalla media aritmetica di queste due osservazioni.


La mediana puo essere calcolata per tutte le variabili le cui modalita possono essere ordi-

nate, quindi per le variabili numeriche, sia discrete che continue, ma anche per le variabili

qualitative ordinali. Vediamo un esempio.

Esempio 3.3.2. Si considerino i dati relativi al titolo di studio osservato su n = 11

persone. Il titolo di studio e classificato secondo le modalita: Licenza Media=M, Diploma

di scuola Superiore=S, Laurea=L, Master o Dottorato=D. Le osservazioni sono

D L L M S M L S S M S

Cominciamo con ordinare le osservazioni:

Osservazioni : M M M S S S S L L L DPosizione : 1a 2a 2a 4a 5a 6a 7a 8a 9a 10a 11a

Calcoliamo la posizione mediana:

PosMe =n+ 1

2=

11 + 1

2= 6

La mediana e il valore dell’osservazione che occupa la 6a posizione cioe:

Me = S

La mediana e Diploma di scuola Superiore. Si noti che 7 osservazioni (quindi almeno la

meta) hanno un titolo di studio inferiore o uguale a quello mediano, mentre 4 osservazioni

(al piu la meta) hanno un titolo di studio superiore a quello mediano.

Si considerino ora i dati relativi al titolo di studio osservato su n = 10 persone. Le

osservazioni sono

D L L M S M L S S S

Rispetto al campione di prima abbiamo un’osservazione in meno. Ordiniamo le osserva-

zioni:Osservazioni : M M S S S S L L L DPosizione : 1a 2a 2a 4a 5a 6a 7a 8a 9a 10a

Calcoliamo la posizione mediana:

PosMe =n+ 1

2=

10 + 1

2= 5.5

Devo considerare i valori che occupano la 5a e la 6a posizione. In entrambi i casi il valore

e S per cui la mediana e:

Me = S.

Nel caso in cui le osservazioni fossero state (le riportiamo gia ordinate)

Osservazioni : M M M S S L L L L DPosizione : 1a 2a 2a 4a 5a 6a 7a 8a 9a 10a

Poiche le due posizioni centrali sono occupate da due modalita diverse la mediana non e

definita perche non si puo fare la media aritmetica di due valori nominali S e L.

3.3. LA MEDIANA 63

La mediana puo essere calcolata con la tabella delle frequenze relative cumulate. Infatti

poiche la mediana e quel valore che lascia alla propria sinistra almeno la meta delle os-

servazioni piu una, essa puo essere determinata come la modalita la cui frequenza relativa

cumulata supera per la prima volta il valore 0.50. Ad esempio per la prima distribuzione

la tabella delle frequenze relative cumulate e

Titolo ni fi FiM 3 0.27 0.27S 4 0.37 0.64L 3 0.27 0.91D 1 0.09 1

Totali 11 1 −

La prima frequenza relativa cumulate che supera 0.50 e 0.64 e la modalita corrispondente

e S. Per la seconda distribuzione la tabella per il calcolo delle frequenze cumulate relative

e:Titolo ni fi FiM 2 0.20 0.20S 4 0.40 0.60L 3 0.30 0.90D 1 0.10 1

Totali 10 1 −

La prima frequenza relativa cumulate che supera 0.50 e 0.60 e la modalita corrispondente

e S.

Consideriamo le n = 17 osservazioni nell’esempio 2.3.3 relative alla variabile Durata

del tempo di pausa nel caso l’eruzione precedente sia di tipo corto. Le 17 osservazioni

ordinate dalla piu piccola alla piu grande sono:

42, 45, 49, 50, 51, 51, 51, 51, 53, 53, 55, 55, 56, 56, 58, 66, 67

Poiche n e dispari, calcoliamo il valore n+12 = 9. La nona osservazione e il valore 53,

dunque la mediana e 53. Scriveremo Me = 53.

Consideriamo adesso le n = 60 osservazioni nell’esempio 2.3.3 relative alla variabile

Durata del tempo di pausa indipendentemente dal valore della variabile Tipo di pausa

precedente.

Questi sono i valori ordinati della durata della pausa dopo un eruzione del Gaiser Old

Faithful.

42 45 49 50 51 51 51 51 53 53 55 55 56 56 57 58 60 66 67 6768 69 70 71 72 73 73 74 75 75 75 75 76 76 76 76 76 79 79 8080 80 80 81 82 82 82 83 83 84 84 84 85 86 86 86 88 90 91 93

Per calcolare la mediana, poiche n e pari, 60+12 = 30.5, prendiamo i valori nella posizione

n2 = 30 e n

2 + 1 = 31, sono 75 e 75, per cui la mediana e Me = 75.


Tornando all’esempio dei polli, se una persona mangia 10 polli e nove persone zero

polli, la distribuzione ordinata delle osservazioni e

0, 0, 0, 0, 0, 0, 0, 0, 0, 10

il valore (10+1)/2 = 5.5, i due valori che occupano la quinta e la sesta posizione sono 0 e 0,

per cui la mediana e zero. Quindi la mediana di questa distribuzione descrive molto meglio

il fenomeno: il numero medio (inteso come sintesi della distribuzione) di polli mangiati da

ciascuno e zero, non 1, con buona pace di Trilussa.

3.3.1 Mediana per i dati in classi

Per il calcolo della mediana quando i dati sono raccolti in classe il metodo migliore e il

metodo grafico. Vediamo i passi per ottenerla

1. Costruiamo il grafico delle frequenze cumulate relative.

2. Individuiamo sull’asse delle ordinate il valore F = 0.50.

3. Tracciamo la retta orizzontale in corrispondenza di F = 0.50 fino ad incontrare la

spezzata delle frequenze cumulate relative.

4. Tracciamo la retta verticale dal punto dove la retta F = 0.50 incontra la spezzata

delle frequenze cumulate relative fino all’incontro dell’asse.

5. La mediana e il punto dove questa retta incontra l’asse delle ascisse.

Questo metodo grafico e in realta dedotto da un metodo analitico, si individua la classe

mediana, come quella classe in cui la frequenza cumulata relativa e uguale o supera il valore

F = 0.50. Se la cumulata relativa e esattamente 0.50 la mediana e l’estremo superiore della

classe. Sia che sia incluso sia che non lo sia nell’intervallo. Se il valore della frequenza

cumulata supera 0.50, si cerca il valore sull’asse delle ascisse al quale corrisponde sulla

spezzata delle frequenze cumulate il valore sull’asse delle ordinate di 0.50. La formula

e la seguente. Indichiamo con F− e F+ i valori delle frequenze cumulate della classe

prima della classe mediana e della classe mediana rispettivamente. Indichiamo con xa e xb

l’estremo inferiore e l’estremo superiore della classe mediana, indipendentemente se siano

inclusi o esclusi dall’intervallo. La mediana e data da

Me = xa +xb − xaF+ − F−

(0.50− F−) (3.1)

Si noti che se la classe mediana ha come frequenza cumulata esattamente 0.50, allora

nella formula sopra F+ = 0.50 e la mediana e proprio xb, l’estremo superiore della classe

mediana. Vediamo un esempio con i dati dell’esempio dell’indagine dell’ISTAT sulle fa-

miglie e i soggetti sociali. Nella Tabella 3.5 sono calcolate le frequenze cumulate relative.

3.3. LA MEDIANA 65

eta Uomini Ni Fi0 a 12 84 84 0.0612 a 24 282 366 0.2424 a 34 391 757 0.5034 a 44 281 1038 0.6844 a 54 187 1225 0.8154 a 64 168 1393 0.9264 a 74 79 1472 0.9774 a 84 45 1517 1

Totale 1517 – –

Tabella 3.5: Uomini pendolari verso un luogo diverso dalla propria abitazione per sesso eclasse di eta - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti sociali.

xi ni fi Ni ai Fi

40 a 50 3 0.15 3 10 0.1550 a 58 6 0.30 9 8 0.4558 a 70 4 0.20 13 12 0.6570 a 95 7 0.35 20 25 1

20 1.00 20

Tabella 3.6: Spesa per massaggi di 20 donne.

Dalla colonna delle frequenze cumulate relative deduciamo che la classe (24, 34] e la classe

mediana. Notiamo poi che la frequenza relativa cumulata e proprio 0.50. La mediana

in questo caso e l’estremo superiore della classe mediana, 34 anni. Consideriamo ora la

Tabella 3.6, che riporta i dati della spesa per massaggi dell’Esempio 2.3.1.

La classe mediana e (58, 70]. Quindi xa = 58 xb = 70. La frequenza cumulata della

classe mediana e F+ = 0.65, la frequenza cumulata della classe prima della mediana e

0.45. Applicando la formula per la mediana otteniamo

Me = 58 +70− 58

0.65− 0.45(0.50− 0.45) = 61

La mediana del reddito e 61000 euro. (Ricordiamo che i dati del reddito erano in migliaia

di euro). Vediamo un ultimo esempio. L’eta mediana delle donne pendolari. La Tabella

3.7 contiene i dati per il calcolo della mediana. Dalla formula 3.1 abbiamo

Me = 24 +34− 24

0.53 +−0.27(0.50− 0.27) = 32.85

L’ete mediana delle donne pendolari e 33 anni.

Esercizio 3.3.3. Fare il grafico delle frequenze cumulate relative dei dati nelle Tabelle 3.5,

3.6 e 3.7. Dedurre con il metodo grafico il valore della mediana per le tre distribuzioni.


eta Donne Ni Fi0 a 12 75 75 0.0512 a 24 297 372 0.2724 a 34 355 727 0.5334 a 44 168 895 0.6544 a 54 127 1022 0.7454 a 64 137 1159 0.8464 a 74 82 1254 0.9075 a 84 45 1373 1

Totale 1373 – –

Tabella 3.7: Donne pendolari verso un luogo diverso dalla propria abitazione per sesso eclasse di eta - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti sociali.

Esercizio 3.3.4. Calcolare la mediana dell’eta del primo bacio e dell’eta del primo rap-

porto sessuale per i dati nella Tabella 2.23. Dedurre con il metodo grafico il valore della

mediana per le due distribuzioni facendo riferimento alla Figura 2.12.

3.4 Simmetria e asimmetria

L’istogramma dei dati ci permette di capire se la distribuzione dei dati e di tipo asimmetri-

co o simmetrico. Possiamo tracciare seguendo la forma dell’istogramma una curva continua

che mostra la distribuzione dei dati. La Figura 3.1 si riferisce ai tempi di sopravvivenza di

128 pazienti operati per un tumore ai polmoni (dati personali). Quando la distribuzione,

come quella in figura, mostra la maggior parte dei dati nella parte sinistra o mostra valori

bassi, con pochi valori alti, si dice che la distribuzione presenta un’asimmetria positiva. In

questo caso la media assume un valore piu alto della mediana. Quando succede il contrario

(tanti valori alti e pochi bassi), e quindi la media aritmetica e minore della mediana si di-

ce che la distribuzione presenta un’asimmetria negativa. Quando invece la distribuzione e

simmetrica la media e la mediana hanno lo stesso valore. La piu importante distribuzione

simmetrica della statistica e la distribuzione Normale. Se i dati sono distribuiti in modo

simmetrico attorno ad una valore centrale e la loro distribuzione ha la cosiddetta forma a

campana, come nella Figura 3.2 dove abbiamo l’istogramma relativo a 1000 osservazioni

di una distribuzione simmetrica, si dice che i dati seguono una distribuzione Normale, che

qui e tracciata con una linea continua. Torneremo ancora molte volte a questa distribu-

zione perche e la distribuzione piu importante di tutta la statistica. I dati provenienti

da indagini sul peso e sull’altezza di una popolazione seguono spesso una distribuzione

Normale. Questo poiche la maggior parte dei pesi o delle altezze, si distribuiscono attorno

ad un valore centrale, in modo simmetrico a sinistra o a destra e di solito con pochi valori

3.5. QUALE MEDIA SCEGLIERE? 67

t

Den

sity

0 5 10 15

0.00

0.05

0.10

0.15

0.20

Figura 3.1: Tempi di sopravvivenza di 128 pazienti operati per un tumore ai polmoni. Lamedia aritmetica dei tempi e 10 anni. La mediana e 2.3 anni (2 anni e poco piu di 3 mesi).

particolarmente alti o bassi.

3.5 Quale media scegliere?

Il compito della media (average) o valore centrale e quello di sintetizzare un’intera distri-

buzione di dati, quindi l’informazione che ci fornisce deve essere il piu possibile vicino alla

distribuzione che li sintetizza. Diamo qui qualche suggerimento non esaustivo per la scelta

della media per una distribuzione di dati.

1. La moda va usata solo per i dati qualitativi. Quasi mai per i dati quantitativi a

meno che la distribuzione sia bimodale. In questo caso fornire il valore delle due

mode e piu indicativo che fornire la media o la mediana che farebbero scomparire

l’informazione sulle due sottopopolazioni probabilmente presenti.

2. Quando si e in presenza di distribuzioni asimmetriche e meglio utilizzare la Mediana,

perche la media aritmetica risente dei pochi valori particolarmente alti o bassi come

nel caso dell’Esempio rappresentato in Figura 3.1.

3. Se i dati hanno una distribuzione simmetrica e preferibile utilizzare la media arit-

metica.


Distribuzione simmetrica, normale

x

Den

sity

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Figura 3.2: Istogramma di 1000 osservazioni normale e distribuzione Normale (lineacontinua). La distribuzione e simmetrica.

4. Se i dati sono soggetti ad errori (ad esempio dovuti alla registrazione) e meglio

anche in questo caso utilizzare la Mediana, in quanto la media e molto influenzata

da osservazioni particolarmente diverse o inusuali. La mediana invece non risente di

questi valori.

3.6 Quartili, percentili e quantili

I quartili e i percentlli o piu in generale i quantili sono indici di posizione. Individuano

l’osservazione che lascia alla sua sinistra almeno il 25% delle osservazioni (primo quartile),

almeno il 75% delle osservazioni (terzo quartile), almeno una percentuale p di osservazioni

(p-esimo percentile).

Definizione 3.6.1 (Primo quartile). Quel valore che lascia alla sua sinistra il (o almeno

il) 25% delle osservazioni.

Definizione 3.6.2 (Terzo quartile). Quel valore che lascia alla sua sinistra il (o almeno

il) 75% delle osservazioni.

Definizione 3.6.3 (p-esimo percentile). Per p = 1, 2, . . . , 100 e quel valore che lascia alla

sua sinistra il (o almeno il) p% delle osservazioni.

3.6. QUARTILI, PERCENTILI E QUANTILI 69

Dalle definizioni appena date risulta evidente che il 25-esimo, il 50-esimo e il 75-esimo

percentile sono rispettivamente il primo quartile, la mediana e il terzo quartile. Inoltre il

secondo quartile e la mediana. La procedura per calcolare un’approssimazione dei quartili

o dei percentili si puo riassumere nei seguenti passi.

• Si ordinano i valori osservati dal piu piccolo al piu grande.

• Si calcolano i valori 0.25(n+ 1) (primo quartile), 0.75(n+ 1), (terzo quartile) ovvero

il valore p100(n+ 1) (p-percentile).

• Se e intero l’osservazione che occupa la posizione data dal valore calcolato e il primo

quartile o il terzo quartile o p-esimo percentile.

• Se non e intero si calcola la media (pesata) tra i due valori le cui posizioni precedono

e seguono il valore calcolato.

Si osservi che per semplicita si puo prendere il valore medio tra i valori nelle posizioni

indicate. Il valore del quantile corrispondente dovrebbe essere il valore proporzionale alla

parte decimale tra le due osservazioni nelle posizioni date dai due interi che precedono

e seguono il valore non intero calcolato. Se n e elevato conviene procedere calcolando le

frequenze relative cumulate, facendo il grafico di questa ultimo e procedendo trovando il

valore per cui la frequenza relativa cumulata vale quando il percentile che si deve calcolare.

Il valore dell’osservazione per la quale la frequenza relativa cumulata supera 0.25, 0.75,

ovvero p/100 dove p = 1, . . . , 99 e detto primo quartile, terzo quartile o p-esimo percentile.

Esempio 3.6.4. Calcoliamo i quartili e i percentili per i dati dei tempi di pausa prima

di un’eruzione del geyser Old Faithful. I valori ordinati della durata della pausa dopo un

eruzione sono

42 45 49 50 51 51 51 51 53 53 55 55 56 56 5758 60 66 67 67 68 69 70 71 72 73 73 74 75 7575 75 76 76 76 76 76 79 79 80 80 80 80 81 8282 82 83 83 84 84 84 85 86 86 86 88 90 91 93

• Mediana: 60+12 = 30.5. Posizioni 30 e 31, sono i valori 75 e 75, per cui la mediana e

Me = 75.

• Primo Quartile: 0.25(61) = 15.25. Posizioni 15 e 16: sono i valori 57 e 58. Il primo

quartile e Q1 = 57.5

• Terzo Quartile: 0.75(61) = 45.75. Posizioni 45 e 46: sono i valori 82 e 82. Il terzo

quartile e Q3 = 82

• Quinto percentile: 0.05(61) = 3.05. Posizioni 3 e 4: sono i valori 49 e 50. Il quinto

percentile e P5 = 49.5


• 95-esimo percentile: 0.95(61) = 57.95. Posizioni 57 e 58: sono i valori 88 e 90. Il

novantacinquesimo percentile e P95 = 89

3.7 Il box-plot

Il box blot e un grafico che permette di dare una rappresentazione della distribuzione di

una variabile molto immediata tramite il calcolo dei quartili e della mediana. Il nome

deriva dal fatto che la distribuzione di una variabile statistica viene rappresentata come

una scatola. Per disegnare il box plot la procedura puo essere riassunta dai seguenti passi.

1. gli estremi della scatola sono Q1 e Q3

2. la scatola e tagliata dalla mediana

3. Si calcola il valore Q3 + 1.5 · (Q3−Q1). Il basso superiore coincide con la piu grande

osservazione minore o uguale a questo valore.

4. Si calcola il valore Q1 − 1.5 · (Q3 −Q1). Il baffo inferiore coincide con la piu piccola

osservazione maggiore o uguale a questo valore.

5. Tutti i valori fuori dai baffi si segnano come punti isolati.

Esempio 3.7.1. Consideriamo sempre i dati del geyser Old Faithful nei due gruppi ri-

spetto al tipo di eruzione precedente. Le 43 osservazioni con eruzione precedente di tipo

Lunga ordinate sono le seguenti.

57 60 67 68 69 70 71 72 73 7374 75 75 75 75 76 76 76 76 7679 79 80 80 80 80 81 82 82 8283 83 84 84 84 85 86 86 86 8890 91 93

Le 17 osservazioni con eruzione precedente di tipo Corta ordinate sono le seguenti.

42 45 49 50 51 51 51 51 53 5355 55 56 56 58 66 67

Per disegnare il box plot del primo gruppo calcoliamo prima le posizioni della mediana e

del primo e terzo quartile. Esse sono rispettivamente le posizioni

n+ 1

2=

44

2= 22,

n+ 1

4=

44

4= 11, 3

n+ 1

4= 3

44

4= 33,

Quindi la mediana occupa la 22-esima posizione, e il valore 79. Il primo quartile occupa

la 11-esima posizione, si tratta del valore 74. Il terzo quartile occupa la posizione 33, si

tratta del valore 84. Per calcolare i baffi valutiamo dapprima la distanza interquartile.

Q3 −Q1 = 10

3.7. IL BOX-PLOT 71

Quindi

Q3 + 1.5 · (Q3 −Q1) = 99, Q1 − 1.5 · (Q3 −Q1) = 59.

La piu grande delle osservazioni minori o uguali a 99 e 93. Quindi il baffo superiore viene

posto in corrispondenza a 93 poiche non ci sono altre osservazioni maggiori. Per il baffo

inferiore una osservazione e piu piccola di 60. Quindi il baffo inferiore viene posto in

corrispondenza del valore 60. Essendoci ancora un valore piu piccolo di 60, il 57, questo

viene rappresentato singolarmente. Analogamente per il secondo gruppo otteniamo

n+ 1

2=

18

2= 9,

n+ 1

4=

18

4= 4.5, 3

n+ 1

4= 3

18

4= 13.5,

Quindi la mediana e 53. Il primo quartile e la media tra i valori che occupano la quarta

e la quinta posizione, Q1 = 50.5. Il terzo quartile e la media tra valori che occupano

la tredicesima e la quattordicesima posizione indi ragion per cui Q3 = 56. Abbiamo che

Q1− 1.5(Q3−Q1) = 42.25 mentre Q3 + 1.5(Q3−Q1) = 64.25. Poiche c’e un’osservazione

piu piccola di 42.25, il 42, in questo gruppo il baffo viene posto in corrispondenza della

piu grande osservazione minore o uguale a 42.25 cioe 45. L’osservazione minore viene

disegnata singolarmente. Per quanto riguarda il baffo superiore abbiamo due osservazioni

maggiori di 64.25, precisamente 66 e 67 che vengono disegnate singolarmente, mentre il

baffo viene tracciato all’altezza della piu grande osservazione minore di 64.25 ovvero di 58.

Nella Figura 3.3 e riportato il box plot dei tempi di attesa per un’eruzione quando quella

precedente era di tipo lungo e quando era di tipo corto.

Esercizio 3.7.2. Per i dati dell’esempio nella Sezione 2.7.2 disegnare il boxplot per il

tasso dell’uso della parola by negli scritti di Hamilton, Madison e per gli scritti contesi.


●

●

●●

Long Short

4050

6070

8090

Figura 3.3: Boxplot dei tempi di attesa per un’eruzione quando quella precedente era ditipo lungo (a sinistra) e quando era di tipo corto (a destra)

Capitolo 4

La variabilita

Come abbiamo sottolineato all’inizio di questa dispensa si puo affermare senza troppi dub-

bi che lo scopo principale della statistica e la comprensione delle cause della variabilita.

In questo capitolo presentiamo alcuni indici di variabilita che, insieme agli indici dati nel

capitolo precedente, che sintetizzano con un numero tutti i valori osservati sul campione

della variabile, questi ci danno invece informazioni su quanto e come i valori osservati si

distribuiscano attorno al valore centrale. Presenteremo tre di questi indici: il range, lo

scarto interquartile e lo scarto quadratico medio o standard deviation. Accanto a quest’ul-

timo daremo anche la definizione di varianza che tanta importanza avra nella parte di

statistica inferenziale. Prima di introdurre tali indici facciamo qualche considerazione di

carattere generale sulla variabilita. Prima di tutto cerchiamo di capire perche non basta

dare solo l’informazione sintetizzata da un valore medio. Osserviamo le due distribuzioni

nel grafico seguente.

Istogramma di x

x

Density

50 100 150

0.000

0.005

0.010

0.015

0.020

0.025

0.030

0.035

Istogramma di y

y

Density

50 100 150

0.000

0.005

0.010

0.015

0.020

0.025

0.030

0.035

Si tratta di due distribuzioni che hanno la stessa media e la stessa mediana, ma non

possiamo certo dire che fornendo solo l’informazione sul valor medio possiamo descrivere

73

74 CAPITOLO 4. LA VARIABILITA

due situazioni cosı diverse. D’altro canto anche senza conoscere il valor medio di due

distribuzioni, l’informazione che ricaviamo dalla variabilita osservando le due distribuzioni

nel grafico seguente e fondamentale. Il fenomeno nel grafico di sinistra e poco variabile

e molto concentrato attorno al suo valore centrale. Il fenomeno di destra e molto meno

concentrato e molto piu variabile attorno al suo valore medio.

Piccola variabilità

x

densità

0.00.1

0.20.3

0.4

Grande variabilità

x

densità

0.00.1

0.20.3

0.4

Il fenomeno rappresentato e l’eta al matrimonio di un campione di donne negli anni ’40 e di

un altro campione di donne negli anni 2000. Non sapendo quale che sia l’eta media in cui

queste donne si sposavano, (il valore della media delle eta x non e indicato) l’informazione

sulla variabilita e fondamentale per dire che negli anni 2000 l’eta del primo matrimonio e

molto piu variabile.

Consideriamo un altro esempio. La media delle temperature annuali ad Honolulu e

a Phoenix e per entrambe le citta 24oC. Le temperature medie nei dodici mesi nelle due

citta sono riportate nella seguente tabella:

Honolulu 21 22 23 24 25 25 27 26 25 24 24 22

Phoenix 2 8 18 27 28 35 36 38 35 27 22 12

Come si puo notare dai valori in tabella la temperatura ad Honolulu e molto meno variabile

che a Phoenix, quindi l’informazione solo sul valor medio e del tutto fuorviante ad esempio

per l’acquisto di un completo guardaroba in occasione di un trasferimento in ognuna delle

due citta. Se ci basassimo solo sul valor medio acquisteremmo solo camice leggere per

entrambe le citta. Ma nel caso di Phoenix soffriremmo assai i freddo nei mesi invernali e

le camice non ci servirebbero a molto neppure nei mesi della grande calura estiva!

4.1 Il range e lo scarto interquartile

Il range e lo scarto interquartile sono due misure della variabilita che di solito accom-

pagnano la mediana come misura del valor medio (inteso come valore centrale) di una

4.1. IL RANGE E LO SCARTO INTERQUARTILE 75

distribuzione. Vediamo la definizione di entrambi e poi calcoliamo entrambi gli indici per

i dati di un esempio. Il range (si utilizza il termine inglese che in italiano potrebbe essere

tradotto con campo di variazione) misura l’ampiezza totale del dataset o delle osservazioni.

Definizione 4.1.1 (Range). E definito come la differenza tra il valore piu grande osservato

e il valore piu piccolo osservato. In formula:

Range = max{x1, x2, . . . xn} −min{x1, x2, . . . xn}

Lo scarto interquartile a differenza del range non considera tutto il campo di variazione

delle osservazioni ma solo la parte centrale.

Definizione 4.1.2 (Scarto interquartile). Date n osservazioni x1, . . . , xn, siano Q1 e Q3

rispettivamente il primo e il terzo quartile. Lo scarto interquartile e dato da

IQ = Q3 −Q1.

Di solito lo scarto interquartile viale utilizzato quando le osservazioni hanno una

distribuzione asimmetrica e si e utilizzata la mediana come misura del valore centrale.

Esempio 4.1.3. Durante la visita dei servizi sociali ad un campo rom alla periferia di

Roma e stato chiesto alle 13 madri presenti al campo il peso dei loro 13 primogeniti alla

nascita. La seguente tabella riporta i pesi dei 13 neonati. Calcolare la mediana il range e

1 2 3 4 5 6 7 8 9 10 11 12 13

kg 2.5 4.0 3.5 3.0 3.1 3.0 4.0 2.5 3.5 3.0 2.8 3.0 4.7

Tabella 4.1: Peso in kg di 13 neonati in un campo rom.

lo scarto interquatile del peso dei tredici neonati. Prima di tutto ordiniamo le osservazioni

dalla piu piccola alla piu grande. La seguente tabella riporta i dati ordinati.

2.5 2.5 2.8 3.0 3.0 3.0 3.0 3.1 3.5 3.5 4.0 4.0 4.7

Il peso mediano e l’osservazione che occupa la settima posizione (ricordare: (n + 1)/2 =

14/2 = 7). Quindi Me = 3.0 kg. Il range e dato dalla differenza tra l’osservazione piu

grande e l’osservazione piu piccola:

Range = 4.7− 2.5 = 2.2

Mentre il primo e il terzo quartile occupano rispettivamente la posizione 0.25(n+ 1) = 3.5

e 0.75(n+ 1) = 10.5. Quindi

Q1 =2.8 + 3.0

2= 2.9, Q3 =

3.5 + 4.0

2= 3.75, IQ = Q3 −Q1 = 3.75− 2.9 = 0.85.

Possiamo quindi concludere che il il peso mediano dei neonati e 3 kg con un campo di

variazione di 2.2 kg. Oppure concludere che il il peso mediano dei neonati e 3 kg con una

variabilita (data dallo scarto interquartile) di 0.85 kg, ovvero di 850 g.


4.2 Scarto quadratico medio e varianza

Lo scarto quadratico medio (in inglese standard deviation) misura la variabilita come media

degli scarti al quadrato di ogni osservazione dalla media aritmetica. Di solito si utilizza

quando la media aritmetica viene usata come misura della tendenza centrale.

Definizione 4.2.1 (Scarto quadratico medio). Siano x1, . . . , xn, n osservazioni e sia x la

media aritmetica delle n osservazioni. La quantita

s =

√√√√ 1

n− 1

n∑i=1

(xi − x)2 (4.1)

si chiama scarto quadratico medio ovvero deviazione standard.

In pratica per calcolare lo scarto quadratico medio occorre calcolare nell’ordine:

1. la media aritmetica x = 1n

∑ni=1 xi;

2. gli n scarti (o residui) delle osservazioni della media: xi − x per ogni i = 1, 2, . . . , n;

3. elevare ogni scarto al quadrato: (xi − x)2 per ogni i = 1, 2, . . . , n;

4. sommare tutti i residui al quadrato:∑n

i=1(xi − x)2;

5. dividere la somma dei residui al quadrato per n− 1: 1n−1

∑ni=1(xi − x)2;

6. calcolare la radice quadrata:√

1n−1

∑ni=1(xi − x)2.

Il risultato ottenuto si denota con s.

Osservazione 4.2.2. La somma di tutti i residui e nulla. Infatti

n∑i=1

(xi − x) =n∑i=1

xi − nx

Dividendo entrambi i membri per n e ricordando la definizione di media aritmetica otte-

niamo1

n

n∑i=1

xi −n

nx = x− x = 0.

Da questa osservazione deriva il fatto che la somma di tutti i residui non puo essere

usata come indicatore della variabilita perche e sempre nulla. La varianza e semplice-

mente lo scarto quadratico medio elevato al quadrato, oppure possiamo dire che lo scarto

quadratico medio e la radice quadrata della varianza!

4.2. SCARTO QUADRATICO MEDIO E VARIANZA 77

Definizione 4.2.3 (Varianza). Date n osservazioni x1, . . . , xn, sia x la media aritmetica

delle n osservazioni. La quantita

s2 =1

n− 1

n∑i=1

(xi − x)2 (4.2)

si chiama varianza.

La varianza e una statistica che rivestira un ruolo molto importante nell’inferenza

statistica. Come indice di variabilita e invece poco usato perche non e espresso nella

stessa untia di misura delle osservazioni, bensı al quadrato.

Viene spontaneo chiedersi perche dividiamo per n− 1 invece che per n la somma degli

n residui al quadrato per ottenere la varianza e lo scarto quadratico medio. Dopotutto

abbiamo definito la media di n valori come la loro somma divisa per n. Il motivo e legato

al fatto che dividendo per n − 1 si ottiene una stima piu precisa della varianza di una

distribuzione. Osserviamo che quando si divide una quantita per n−1 si ottiene un valore

piu grande che se avessimo diviso per n. Cioe se avessimo diviso per n avremmo ottenuto

una stima troppo bassa per la varianza. Questo si puo giustificare con il fatto che le n

osservazioni si utilizzano gia una volta per ottenere la media (quindi per stimare il valore

centrale) e poi ancora una volta per calcolare la somma egli scarti. Con questa seconda

operazione si dice che si perde un grado di liberta. Ma torneremo piu avanti su questo

concetto.

Esempio 4.2.4. Riprendiamo i dati dell’Esempio 4.1.3. La tabella riporta i dati per il

calcolo della standard deviation. La media e x = 3.28 Quindi

xi (xi − x) (xi − x)2

1 2.50 -0.777 0.6042 4.00 0.723 0.5233 3.50 0.223 0.0504 3.00 -0.277 0.0775 3.10 -0.177 0.0316 3.00 -0.277 0.0777 4.00 0.723 0.5238 2.50 -0.777 0.6049 3.50 0.223 0.050

10 3.00 -0.277 0.07711 2.80 -0.477 0.22812 3.00 -0.277 0.07713 4.70 1.423 2.025

sum 42.6 0.000 4.946

s =

√1

124.946 =

√0.412 = 0.642.


Possiamo concludere che il peso medio dei neonati e di 3.28 kg con uno scarto quadratico

medio di 642 grammi. Si scrive x± s ovvero in questo esempio 3.28± 0.64.

Esercizio 4.2.5. Si calcoli la mediana, il range e lo scarto interquartile e quindi la media

aritmetica, la standard deviation e la varianza per i dati dell’Esempio 4.1.3 togliendo

l’ultima osservazione.

Esercizio 4.2.6. I dati nella seguente tabella rappresentano le altezze in cm di 11 giocatori

di una squadra di pallavolo. Calcolare la media aritmetica e lo scarto quadratico medio.

1 2 3 4 5 6 7 8 9 10 11

h (cm) 9 190 185 182 208 186 187 189 179 183 191 179

Fare il grafico dei residui. Calcolare la media e lo scarto quadratico medio quando viene

tolta la quarta osservazioni 208 cm.

Esercizio 4.2.7. La seguente tabella riporta il numero di partner maschili nell’ultimo

anno di 21 donne che hanno usufruito dei servizi offerti da un consultorio nel territorio di

Milano Calcolare la media aritmetica, lo scarto quadratico medio, la mediana e lo scarto

1 1 1 16 0 1 22 3 0 1 1 1 30 2 2 12 0 3 4

interquartile. Quale dei due gruppi di indici (uno per il valore centrale e uno per la

variabilita descrivono meglio il fenomeno? Perche?

Capitolo 5

Operazioni sui dati

Molto spesso i dati vengono trasformati. Trasformare i dati non significa manipolarli o

falsificarli ma semplicemente renderli piu comprensibili o piu facili da studiare e analizzare.

Le ragioni per cui trasformare i dati sono le piu diverse. Le principali sono dovute al

bisogno di confrontare distribuzioni registrate in diverse scale, per trovare errori nei dati

e per migliorare la qualita dei dati stessi. Ad esempio puo essere di interesse studiare

come e se e cambiato il PIL nei paesi della zona Euro prima e dopo l’avvento della moneta

unica. In questo caso dovremo convertire i dati degli anni precedenti il passaggio all’Euro

nella monete comunitaria. Oppure quando vogliamo sapere se un certo punteggio (score) e

sopra o sotto la media. Per quanto riguarda la qualita dei dati a volte alcune informazioni

sono inconsistenti, come ad esempio se l’eta del licenziamento avviene prima dell’eta del

primo impiego.

Le operazioni che presenteremo sui dati sono le trasformazioni di scala e la standar-

dizzazione.

5.1 Trasformazioni di scala

La seguente tabella riporta il peso di 5 donne prima di una dieta, gli scarti dalla media e gli

scarti al quadrato. Calcoliamo il peso medio x = 60 e la deviazione standard s =√

1005−1 =

i xi (xi − x) (xi − x)2

1 55 -5 252 67 7 493 56 -4 164 63 3 95 59 -1 1

300 0 100

5. Dopo 2 settimane di dieta il peso, gli scarti dalla media e gli scarti al quadrato sono

riportati nella seguente tabella. Tutte le donne sono calate di 4 kg. Il peso medio e x = 56

79

80 CAPITOLO 5. OPERAZIONI SUI DATI

i xi (xi − x) (xi − x)2

1 51 -5 252 63 7 493 52 -4 164 59 3 95 55 -1 1

280 0 100

mentre la deviazione standard e ancora s = 5. Si osservi infatti che nella seconda tabella

gli scarti e gli scarti al quadrato non sono cambiati per nessuna delle osservazioni. Questa

e una regola generale: aggiungendo o sottraendo una costante a tutte le osservazioni la

media cambia per il valore di quella costante mentre lo scarto quadratico medio rimane

inalterato. Abbiamo quindi piu formalmente la seguente proposizione.

Proposizione 5.1.1. Siano x1, x2, . . . , xn, n osservazioni. Indichiamo con x la media

campionaria e con sx la deviazione standard delle n osservazioni. Sia a una costante

qualunque (positiva o negativa). Consideriamo la trasformazione

yi = xi + a

Abbiamo

y = x+ a

Mentre la deviazione standard non cambia.

Dimostrazione. Poiche yi = xi + a per ogni i = 1, 2, , . . . , n abbiamo

y =1

n

n∑i=1

(xi + a) =1

n

n∑i=1

xi +1

nna = x+ a.

ovvero la media dei dati trasformati y e uguale alla media dei dati da cui siamo par-

titi x piu la costante a. Denotiamo ora con sx lo scarto quadratico medio delle osser-

vazioni x1, . . . , xn, e analogamente con sy lo scarto quadratico medio delle osservazioni

trasformate. Poiche abbiamo appena dimostrato che y = x+ a abbiamo

sy =

√√√√ 1

n− 1

n∑i=1

(yi − y)2 =

√√√√ 1

n− 1

n∑i=1

(xi + a− (x+ a))2

=

√√√√ 1

n− 1

n∑i=1

(xi − x)2 = sx

Lo scarto quadratico medio non cambia se si somma o se si sottrae una costante.

5.1. TRASFORMAZIONI DI SCALA 81

Supponiamo adesso che invece che essere tutte diminuite di 4 kg, tutte le donne abbiano

perso il 10% del loro peso. Indichiamo con zi il peso dopo la diminuzione del 10%. Si ha

zi = xi − 0.1 · xi ovvero zi = 0.9 · xi. La media del nuovo peso e z = 54 e la standard

deviation e sz =√

814 = 4.5. I conti per ottenere la media e lo scarto quadratico medio

sono riportati nella seguente tabella.

i zi (zi − z) (zi − z)2

1 49.5 -4.5 20.252 60.3 6.3 39.693 50.4 -3.6 12.964 56.7 2.7 7.295 53.1 -0.1 0.81

270 0 81

Osserviamo che 54 e il 10% meno di 60, e 4.5 e il 10% meno di 5. Quindi se si moltiplica

o si divide ogni osservazione per una costante sia la media che lo scarto quadratico medio

dei dati trasformati risultano moltiplicati o divisi per quella stessa costante. Abbiamo

quindi la seguente proposizione


campionaria e con sx la deviazione standard delle n osservazioni. Sia b una costante

qualunque (positiva). Consideriamo la trasformazione

yi = bxi

Abbiamo

y = bx sy = bsx

Dimostrazione. Poiche yi = bxi per ogni i = 1, 2, , . . . , n abbiamo

y =1

n

n∑i=1

(bxi) =1

nb

n∑i=1

xi = bx.

Si noti infatti che nella prima somma scritta per esteso abbiamo

1

n

n∑i=1

(bxi) =bx1 + bx2 + · · · bxn

n=b(x1 + x2 + · · ·+ xn)

n=

1

nb

n∑i=1

xi

ovvero la media dei dati trasformati y e uguale alla media dei dati da cui siamo partiti x

moltiplicati per la stessa costante b. Denotiamo ora con sx lo scarto quadratico medio delle

osservazioni x1, . . . , xn, e analogamente con sy lo scarto quadratico medio delle osservazioni


trasformate. Poiche abbiamo appena dimostrato che y = bx abbiamo

sy =

√√√√ 1

n− 1

n∑i=1

(yi − y)2 =

√√√√ 1

n− 1

n∑i=1

(bxi − bx)2

=

√√√√ 1

n− 1b2

n∑i=1

(xi − x)2 = bsx

ovvero lo scarto quadratico medio dei dati trasformati sy e uguale allo scarto quadratico

medio dei dati da cui siamo partiti sx moltiplicati per la stessa costante b.

La Figura 5.1 rappresenta come la variabilita di una distribuzione aumenti se moltipli-

chiamo per una costante piu grande di uno, mentre diminuisce se moltiplichiamo per una

costante piu piccola di uno.

2*x

densità

0.00.1

0.20.3

0.4

x

densità

0.00.1

0.20.3

0.4

1/2*x

densità

0.00.1

0.20.3

0.4

Figura 5.1: La variabilita aumenta (a sinistra) o diminuisce (a destra) a seconda se simoltiplica per una costante minore o maggiore di uno una distribuzione qualunque (incentro).

Un vantaggio di questo tipo di trasformazioni e che se sappiamo con che tipo di tra-

sformazione di scala si passa da una osservazione all’altra possiamo calcolare la media e lo

scarto quadratico medio per i dati trasformati senza rifare i conti per i dati trasformati ma

semplicemente trasformando con la stessa trasformazione la media e lo scarto quadratico

medio dei dati trasformati.

5.2 Standardizzazione

L’operazione di standardizzazione di un dato e un’operazione che riveste un ruolo fonda-

mentale in gran parte di tutta la statistica. La standardizzazione ci permette di confrontare

5.2. STANDARDIZZAZIONE 83

e riportare ad una stessa scala dati provenienti da fonti, casi e unita diverse. Per capire

l’importanza partiamo da un esempio. Due studentesse Ada e Bea hanno superato una

l’esame di glottologia con voto 28, l’altra l’esame di filologia germanica con voto 27. Chi

ha ottenuto il miglior risultato? Se si guarda solo al voto si sarebbe tentati di rispondere

che ha ottenuto il miglior risultato Ada prendendo il voto piu alto rispetto al 27 di Bea. Il

confronto fatto in questo modo sarebbe corretto se entrambe avessero sostenuto lo stesso

esame. Essendo l’esame diverso non possiamo rispondere senza fare qualche considerazio-

ne. Nel corso di laurea seguito dalle due studentesse per l’esame di Glottologia la media

di tutti gli studenti che hanno superato l’esame e 26.5 mentre la deviazione standard e

1.5. Per il corso di Filologia germanica invece la media e 24.2 e la deviazione standard e 2.

Quindi sembra essere molto piu difficile prendere un voto alto a Filologia germanica che

a Glottologia. Calcoliamo gli score di entrambi i voti di Ada e Bea. Significa esprimere

quante volte lo scarto quadratico medio il loro voto si e discostato dal valor medio.

Ada:28− 26.5

1.5= 1 Bea:

27− 24.2

2= 1.4

Bea ha ottenuto il risultato migliore, il suo risultato e 1.4 volte la standard deviation

sopra la media, mentre il risultato di Ada e solo 1 volta la s.d. sopra la media. In sostanza

standardizzare un dato vuol dire esprimere la sua distanza dal valor medio come multipli

dello scarto quadratico medio. In pratica si calcola quante volte lo scarto quadratico medio

sta nella differenza tra valore osservato e media. Supponiamo che una terza studentessa

Clio, abbia preso in filologia germanica voto 23. In questo caso il suo voto e inferiore al

valor medio, quindi la differenza tra il voto riportato e la media dei voti in quella materia

e negativo. Lo score risulta

Clio:23− 24.2

2= −0.60.

Quindi Clio ha ottenuto un voto che e 6/10 lo scarto quadratico medio inferiore alla media.

In generale il valore standardizzato di una osservazione proveniente da una popolazione

con media µ e standard deviation σ si puo sempre scrivere come

z =x−Media

Standard Deviationovvero z =

x− µσ

Possiamo scrivere

z =x− µσ

⇒ x = µ+ z · σ

ovvero si puo sempre scrivere

x = Media + z · Standard Deviation ovvero x = µ+ z · σ

Definizione 5.2.1. Lo score o valore standardizzato di un’osservazione xi da una popo-

lazione con media µ e standard deviation σ e il multiplo, in termini di standard deviation,

di quanto l’osservazione si discosta dalla media. Viene calcolato come segue:

zi =xi − µσ


Dalla definizione dello score zi di un osservazione xi come multiplo di σ dello scosta-

mento dalla media µ possiamo scrivere:

xi − µ = ziσ da cui xi = µ+ ziσ

Se µ e σ non sono note non e possibile ricavare il valore standardizzato di una osser-

vazione, allora lo score si puo calcolare come

zi =xi − xsx

dove x e la media calcolata su tutte le osservazioni e sx e la standard deviation calcolata

su tutte le osservazioni.

Lo score misura il numero di standard deviation che un’osservazione si allontana dal

valore medio.

• score positivo: l’osservazione e sopra la media di z volte la standard deviation.

• score negativo: l’osservazione e sotto la media di z volte la standard deviation.

• score nullo: l’osservazione e uguale alla media.

Gli score hanno uno proprieta molto utile. Cerchiamo di derivarla partendo da un

esempio. Per i valori del paso delle 5 donne considerate all’inzio della sezione precedente,

calcoliamo i valori standardizzati (gli score) dei 5 pesi e quindi calcoliamo la media e lo

scarto quadratico medio dei valori standardizzati per i pesi delle 5 donne. I conti sono

riportati nella seguente tabella. Ricordiamo che il peso medio delle 5 donne e x = 60 kg

con una standard deviation sx = 5 kg.

1 2 3 4 5 somma

Peso: xi 55 67 56 63 59 300Peso-media: xi − x -5 7 -4 3 -1 0score: zi = xi−x

sx-1.00 1.40 -0.80 0.60 -0.20 0

score2: z2i 1.00 1.96 0.64 0.36 0.04 4

Possiamo quindi calcolare la media e lo scarto quadratico medio dei pesi standardizzati

media score: z = 0, s.d. score sz =

√4

4= 1

Il fatto che la media degli score sia zero e lo scarto quadratico medio degli score sia 1, non

e un caso.


campionaria e con sx la deviazione standard delle n osservazioni. Indichiamo con zi i

valori standardizzati

zi =xi − xsx

.

5.2. STANDARDIZZAZIONE 85

Allora

z =1

n

n∑i=1

zi = 0 e sz =

√√√√ 1

n− 1

n∑i=1

(zi − z)2 = 1

Dimostrazione. Poiche sx e una costante e la somma di tutti gli scarti e nulla (ricordare

l’Osservazione 4.2.2), abbiamo

z =1

n

n∑i=1

zi =1

n

n∑i=1

(xi − xsx

)=

1

n

1

sx

n∑i=1

(xi − x) = 0

Passando al calcolo per la standard deviation, poiche z = 0 e per la definizione di sx,

abbiamo

sz =

√√√√ 1

n− 1

n∑i=1

(zi − z)2 =

√√√√ 1

n− 1

n∑i=1

z2i =

√√√√ 1

n− 1

n∑i=1

(xi − x)2

s2x

=

√s2x

s2x

= 1.

Esempio 5.2.3. Per 6 esami del corso di laurea in lettere le medie e gli scarti quadratici

medi sono riportati nella seguente tabella. Tre studentesse hanno sostenuto i seguenti

media sd

Inglese 24.3 1.3Tedesco 25.5 2.1Francese 23.8 1.4Giapponese 26.1 1.8Russo 25.6 2.2Statistica sociale 24.4 2.3

esami con le votazioni riportate:

• Ada: Inglese 25, Francese 25, Giapponese 27, Russo 28

• Bea: Tedesco 24, Francese 26, Russo 27, Stat. Sociale 28

• Clio: Inglese 23, Tedesco 26, Francese 22, Giapponese 27, Russo 24

Chi ha ottenuto il migliore risultato?

Esercizio 5.2.4. L’indice di deprivazione si basa su tre variabili rilevate in ogni comune:

la percentuale di persone che non possiede un auto, riportata in tabella nella colonna NO

Auto, la percentuale di persone che e affetto da una patologia debilitante grave, riportate

nella colonna Malattia e la percentuale di coloro che non sono proprietari della casa dove

abitano, nella colonna NO Casa. Nella seguente tabella sono riportate le percentuali di


comuni NO Auto % Malattia % NO Casa %

Bergamo 25.4 11.3 29.9Trescore 56.9 16.1 56.4Dalmine 31.6 11.8 35.3Albino 32.6 12.5 32.9Clusone 25.6 12.2 34.7Osio 24.4 11.3 43.8

queste variabili rilevate in un campione non specificato in 6 comuni della provincia di

Bergamo. Determinare in quale comune della provincia l’indice di deprivazione e il piu

elevato.

Quale e il comune piu deprivato?

Capitolo 6

Siamo tutti normali?

In questo capitolo studiamo una distribuzione fondamentale per tutta la statistica: la di-

stribuzione normale. Supporre che un fenomeno sia Normale (cioe abbia una distribuzione

Normale) e abbastanza nomale in diversi settori della ricerca in particolare anche nello

studio dei fenomeni sociali. Ad esempio di qui in avanti supporremo che dal punto di vista

teorico tutti i fenomeni che abbiamo incontrato siano distribuiti con questa distribuzione:

la distribuzione normale. Quindi per rispondere alla domanda che da il titolo al capito-

lo: sı siamo tutti normali! A cominciare dalla forma della collina che compare nella foto

riportata in Figura 6.1 e dalla forma della campana riportata in Figura 6.2. Infatti la

distribuzione normale e conosciuta anche come la bell shaped distribution: la distribuzione

a forma di campana.

6.1 La curva e normale!

La distribuzione normale e una distribuzione teorica. Le distribuzioni teoriche si distin-

guono da quelle empiriche perche non sono determinate partendo dai dati (o almeno non

direttamente) ma perche sono date da una formula matematica che ne fornisce la forma

e le caratteristiche salienti come media e scarto quadratico medio. Fino ad ora abbiamo

avuto a che fare con distribuzioni empiriche: partendo dai dati osservati di una certa

distribuzione venivano costruite le forme delle distribuzioni attraverso l’istogramma e i

valori di sintesi come media (aritmetica) mediana, quartili, percentili, scarto quadratico

medio, varianza, range, scarto interquartile. La distribuzione teorica invece e data da una

formula matematica (che non riportiamo qui ma che riportiamo alla fine del capitolo per

i piu curiosi) le cui caratteristiche sono le seguenti:

1. La distribuzione normale e simmetrica attorno al suo valore centrale che coincide

con la media (aritmetica) la mediana e la moda della distribuzione.

87

88 CAPITOLO 6. SIAMO TUTTI NORMALI?

Figura 6.1: La collina normale.

2. La maggior parte dei valori si distribuisce attorno a questo valore centrale secondo

modalita che verrano specificate tra poco.

3. Pochi valori si distribuiscono lontano da questo valore centrale.

4. La curva man mano che si allontana dal valore centrale si avvicina sempre piu all’asse

delle ascisse senza pero mai toccarlo.

La Figura 6.3 riporta il grafico di tre curve normali per le quali il valore centrale e lo stesso.

Il valore centrale viene indicato con la lettera greca mi, µ. Quindi per le distribuzioni in

figura µ = 15.

Le curve delle distribuzioni normali in Figura 6.3 hanno tutte la stessa media, ma non

si puo negare che siano molto diverse tra loro: i fenomeni che rappresentano sono molto

diversi tra loro. Questa diversita e data dalla forma, da quanto i valori della distribuzione

si distribuiscono attorno alla media in termini di multipli dello scarto quadratico medio.

La distribuzione normale e molto comoda perche e caratterizzata oltre che dalla media

µ da solo un’altra grandezza che e lo scarto quadratico medio, che viene indicato con la

lettera greca sigma, che si scrive σ. Le distribuzioni in Figura 6.3 hanno rispettivamente

σ = 1 la blu, σ = 2 la nera e σ = 5 la rossa.

6.1. LA CURVA E NORMALE! 89

Figura 6.2: La campana normale. Foto Ditta Colaci.

Le curve in Figura 6.3 sono molto diverse tra loro, ma quello che hanno in comune sono

alcune caratteristiche. Queste sono date dall’area della curva sotto determinati intervalli

di valori. Precisamente valgono le seguenti proprieta per le aree sotto la curva normale.

Indichiamo con µ la media e con σ lo s.q.m di una Normale. Per ogni distribuzione normale

1. L’area sotto la curva e 1

2. L’area tra µ− σ e µ+ σ e 0.682 (il 68.2% delle osservazione sta tra µ− σ e µ+ σ)

3. L’area tra µ−2σ e µ+2σ e 0.954 (il 95.4% delle osservazione sta tra µ−2σ e µ+2σ)

4. L’area tra µ−3σ e µ+3σ e 0.998 (il 99.8% delle osservazione sta tra µ−3σ e µ+3σ)

La distribuzione Normale ammette, almeno in via teorica che la variabile di interesse

possa assumere valori sempre piu grandi e anche sempre piu piccoli del valore medio

µ. Il valore piu grande che non potra mai essere raggiunto e piu infinito, si indica col

simbolo +∞ e giace all’estremita destra dell’asse dove rappresentiamo il fenomeno (l’asse

delle ascisse). Il valore piu piccolo che non potra mai essere raggiunto e meno infinito,

si indica col simbolo −∞ e giace all’estremita sinistra dell’asse dove rappresentiamo il

fenomeno (l’asse delle ascisse). La curva della distribuzione nomale quindi e centrata in

µ e simmetrica rispetto a µ e tanto piu stretta e alta tanto piu il valore dello scarto

quadratico medio σ e piccolo (cioe c’e poca variabilita attorno al valor medio µ), mentre

e tanto piu larga e bassa tanto piu il valore dello scarto quadratico medio σ e grande


0 5 10 15 20 25 30

0.0

0.1

0.2

0.3

0.4

Curva Normale

x

dens

ità

Figura 6.3: Distribuzioni normali con la stessa media ma diverso scarto quadratico medio.

(cioe c’e tanta variabilita attorno al valor medio µ). Per ogni valore di µ e σ la curva della

distribuzione Normale si avvicina all’asse delle ascisse da entrambi i lati senza mai toccarla

se non all’infinito (si dice che e asintotica all’asse delle ascisse). L’area complessiva tra la

curva Normale e l’asse delle ascisse vale sempre 1 e la maggior parte di quest’area si trova

tra i valori µ−3σ e µ+3σ. Solo per rendere un idea di cosa significa maggior parte, l’area

sotto la curva normale da µ − 4σ a −∞ e 0.00003, cioe in genere 3 casi ogni centomila

(105=100000) mentre l’area sotto la curva Normale da µ− 5σ a −∞ e 0.0000003, cioe in

genere 3 casi ogni 10 milioni (107 = 10000000).

Come abbiamo detto la distribuzione normale e una distribuzione teorica. Noi avremo

a che fare con distribuzioni empiriche. Il legame tra la distribuzione empirica e quella

teorica e pero molto stretto. Un fenomeno empirico e lecito ritenere che abbia una distri-

buzione Normale quando calcolati x e s su un campione abbastanza numeroso, e disegnato

l’istogramma delle frequenze relative si osserva che:

1. l’istogramma e simmetrico rispetto alla media aritmetica x;

2. circa il 68.2% delle osservazioni del campione sta tra x− s e x+ s;

3. circa il 95.4% delle osservazioni del campione sta tra x− 2s e x+ 2s;

4. circa il 99.8% delle osservazioni del campione sta tra x− 3s e x+ 3s;

5. praticamente nessun valore sta oltre x− 4s e x+ 4s

6.1. LA CURVA E NORMALE! 91

Se un fenomeno riteniamo si possa distribuire come una Normale, secondo quanto descritto

sopra, possiamo ritenere noti la media µ e lo scarto quadratico medio σ della distribuzione

(nella pratica saranno considerati µ = x e σ = s).

Esempio 6.1.1. La distribuzione empirica dei voti di 1200 studenti che hanno sostenuto

l’esame di statistica e riportato nella Figura Figura 6.4. Insieme all’istogramma dei voti

di 1200 studenti che hanno sostenuto l’esame di statistica abbiamo tracciato il grafico della

distribuzione Normale con µ pari alla media calcolata sul campione che e x = 24.002 e

deviazione standard σ pari a quella calciata sul campii che e s = 1.5. Come si vede la curva

teorica si sovrappone molto bene all’istogramma ricavato empiricamente e le porzioni di

frequenze relative descritte sopra vengono rispettate.

Distribuzione dei voti, normale

x

Den

sity

18 20 22 24 26 28 30

0.00

0.05

0.10

0.15

0.20

0.25

Figura 6.4: Distribuzione empirica e distribuzione teorica dei voti di 1200 studenti. Isto-gramma dei voti all’esame di statistica: Media=24.002, Mediana= 24, moda=24, sd= 1.5,curva normale con media 24 e sd=1.5

E importante notare che dati i valori di µ e σ caratterizziamo completamente la di-

stribuzione normale, cioe la identifichiamo e siamo in grado di disegnarla. Ad esempio se

sappiamo che una certa distribuzione di redditi e normale con media µ = 15000 e standard

deviation σ = 3000, il grafico e quello riportato in Figura 6.5.

Se sappiamo che l’eta a cui viene dato il primo bacio (esempio presentato nella Sezione

2.7.3) e distribuita come una normale con media µ = 14 anni e scarto quadratico medio

σ = 2.5 anni (due anni e mezzo) il grafico e riportato in Figura 6.6.

Ancora dall’esperienza personale basata su 1200 esami effettuati, posso ritenere che la

distribuzione del voto di statistica alla facolta di ingegneria sia normale con media µ = 24

e scarto quadratico medio σ = 1.5. Il grafico e riportato nella Figura 6.7


0 5000 10000 15000 20000 25000 30000

0.00

000

0.00

004

0.00

008

0.00

012

Distribuzione dei redditi

x

dnor

m(x

, 150

00, 3

000)

Figura 6.5: Distribuzioni dei redditi normale con µ = 15000 euro σ = 3000 euro.

Possiamo ora rispondere alle seguenti domande e ad altre simili:

1. Che proporzione di popolazione di studenti ha preso un voto che sta tra µ e µ+ 2σ,

cioe un voto tra 24 e 27?

2. Che proporzione di popolazione di redditieri ha un reddito compreso tra µ− σ e µ,

ovvero un reddito comrpeso tra 12000 euro e 15000 euro?

3. Che proporzione di popolazione di redditieri ha un reddito minore di µ− σ, ovvero

un reddito minore di 12000 euro?

4. Che proporzione di popolazione di giovani uomini ha dato il primo bacio ad un eta

minore di µ − 2σ o maggiore di µ + 2σ, ovvero minore di 9 anni o maggiore di 19

anni?

Nell’ordine abbiamo

1. L’area sotto la curva normale tra µ e µ+2σ e 0.954/2, ovvero 0.477. La proporzione

richiesta e il 47.7%.

2. L’area sotto la curva normale tra µ− σ e µ e 0.682/2, ovvero 0.341. La proporzione

richiesta e il 34.1%.

3. L’area sotto la curva normale dal limite inferiore a µ− σ e 0.50− 0.341 = 0.159. La

proporzione cercata e quindi il 15.9 %

6.2. LA NORMALE STANDARDIZZATA 93

0 5 10 15 20 25 30

0.00

0.05

0.10

0.15

Distribuzione dell'età al primo bacio

x

dnor

m(x

, 14,

2.5

)

Figura 6.6: Distribuzioni dell’eta al primo bacio con µ = 14 anni σ = 2.5 anni.

4. L’area sotto la curva normale dal limite inferiore a µ− 2σ e l’area da µ+ 2σ e data

da 1− 0.954 = 0.046. La proporzione richiesta e il 4.6%.

Per ogni distribuzione Normale con valore medio µ e scarto quadratico medio σ pos-

siamo dividere l’area tra la curva e l’asse delle ascisse in settori simmetrici per multipli di

σ e l’area di questi settori e riassunta in questa tabella:

Settore (−∞, µ− 3σ) (µ− 3σ, µ− 2σ) (µ− 2σ, µ− σ) (µ− σ, µ)Area 0.001 0.022 0.136 0.341

Settore (µ, µ+ σ) (µ+ σ, µ+ 2σ) (µ+ 2σ, µ+ 3σ) (µ+ 3σ,+∞, )Area 0.341 0.136 0.022 0.001

6.2 La normale standardizzata

Esistono quindi un’infinita di distribuzioni normali, una per ogni valore della media µ e

ogni valore dello scarto quadratico o medio σ. Tra tutte le normali c’e n’e una un po’

piu normale delle altre. Si tratta della normale standardizzata che e una distribuzione

normale con media µ = 0 e scarto quadratico medio σ = 1. Questa distribuzione riveste

un ruolo particolare perche e la distribuzione degli Z-scores di ogni distribuzione normale.

Prendiamo uno dei tre esempi della sezione precedente. La distribuzione dei redditi.

Indichiamo con x un reddito generico. La distribuzione di tutti i possibili redditi e una

distribuzione normale con media µ = 15000 e standard deviation σ = 3000. Consideriamo

adesso per un reddito generico x il suo z-score. Lo score del reddito e definito come

z =x− 15000

3000


18 20 22 24 26 28 30

0.00

0.05

0.10

0.15

0.20

0.25

Distribuzione dei voti normale teorica

x

dnor

m(x

, 24,

1.5

)

Figura 6.7: Distribuzioni dei voti all’esame di statistica µ = 24 trentesimi σ = 1.5trentesimi.

per ogni reddito x. La distribuzione di tutti i possibili z-scores dei redditi segue una

distribuzione normale standardizzata, ovvero con media µ = 0 e scarto quadratico medio

σ = 1. Se consideriamo la distribuzione dei voti all’esame di statistica, si tratta di una

distribuzione normale con media µ = 24 e scarto quadratico medio σ = 1.5. Se indico con

x il voto generico, lo z-score del voto e

z =x− 24

1.5

Anche in questo caso la distribuzione di tutti i possibili z-scores dei voti segue una distri-

buzione normale standardizzata, ovvero con media µ = 0 e scarto quadratico medio σ = 1.

Si puo generalizzare per ogni tipo di distribuzione normale. Abbiamo infatti il seguente

risultato.

Proposizione 6.2.1. Sia X un fenomeno con una distribuzione Normale con media µ e

scarto quadratico medio σ. Sia x uno dei possibili valori assunti da X. La distribuzione

di tutti i possibili score per ogni valore possibile x,

z =x− µσ

segue una distribuzione normale standardizzata.

Gli z-score sono importanti nella pratica perche riconducono ogni problema ad un

problema relativo a una sola distribuzione. Facendo riferimento agli esempi precedenti,

se si vuole conoscere la proporzione di studenti che ha un voto compreso tra 24 − 1.5 e


Distribuzione dei voti, normale empirica

x

Den

sity

18 20 22 24 26 28 30

0.00

0.05

0.10

0.15

0.20

0.25

Figura 6.8: Distribuzione empirica dei voti di 1200 studenti. Istogramma dei voti all’esamedi statistica: Media=24.002, Mediana= 24, moda=24, sd= 1.5

24 + 1.5, questa e pari alla proporzione di studenti che ha uno z-score del voto compreso

tra −1 e 1. Se si vuole conoscere la proporzione di redditieri che ha un reddito compreso

tra 15000 − 3000 e 15000 + 3000, questa e pari alla proporzione di redditieri che ha uno

z-score del reddito compreso tra −1 e 1. In entrambi i casi trattandosi dell’area sotto una

curva normale di media µ = 0 e s.q.m. σ = 1, so che tale proporzione e pari al 68.26%. Se

voglio sapere la proporzione di redditieri con uno z-score tra −2 e 2, questa e equivalente

alla proporzione di redditieri che hanno un reddito compreso tra il valor medio e piu o

meno due standard deviation del reddito, ancora so che tale proporzione e il 95.46%. Ma la

distribuzione degli z score permette di rispondere a domande piu interessanti come quelle

nel seguente esempio.

Esempio 6.2.2. La distribuzione dei voti all’esame di statistica e normale con media

µ = 24 e s.q.m. σ = 1.5.

1. Prendete 28. Che proporzione di studenti hanno preso un voto maggiore del vostro?

2. Prendete 23. Che proporzione di studenti ha preso un voto minore del vostro?

3. Qual e il voto minimo che dovete prendere per essere tra il 60% degli studenti piu

bravi?

Per la rispondere alla prima domanda occorre calcolare l’area sotto la curva nomale

con media µ = 24 e σ = 1.5 dal valore 28 fino a piu infinito. Si noti che 28 non e esprimibile


come µ+kσ per k pari a 1, 2 o 3. Infatti 28 ha uno z score di (28−24)/1.5 = 2.67. Quindi

non e esprimibile come multiplo intero di σ, ma invertendo la definizione di z-score,

x = µ+ zσ

possiamo scrivere 28 = 24+2.67 ·1.5. L’area da 28 a +∞ sotto la curva normale con media

µ = 24 e s.q.m. σ = 1.5 e uguale all’area sotto la curva nomale standardizzata da 2.67 a

+∞. Si noti che 23 ha uno z score di (23 − 24)/1.5 = −0.67. Quindi non e esprimibile

come multiplo intero di σ. Io devo poter calcolare la proporzione di studenti che hanno

lo z score minore di −0.67. In questo modo conoscero la proporzione di studenti di cui

sono stato piu bravo, ovvero con uno z score minore del mio. Per rispondere alla terza

domanda, devo trovare quel voto per cui la proporzione di voti maggiori di quel voto sia

il 60%. Devo trovare lo z score tale per cui l’area sotto la curva normale standardizzata

dal valore z in poi sia pari a 0.60.

Prima di rispondere a queste domande dobbiamo introdurre la tavola dei valori della

normale standardizzata. Tali tavole riportano i valori dell’area sotto la curva Normale

standardizzata per diversi valori degli z score. Ne riportiamo alcune nell’Appendice A.

Esse sono tutte equivalenti, nel senso che i valori di una tavola possono essere dedotti da

una qualunque delle altre con semplici considerazioni geometriche basate sulla simmetria

della distribuzione Normale. Prendiamo ad esempio la Tabella A.1. I valori nella prima

colonna sono i valori degli z score fino alla prima cifra decimale. Sono i valori da 0.0

a 3.5. La seconda cifra decimale la troviamo invece nella prima riga, sono i valori 0.00,

fino a 0.09. I valori interni alla tavola corrispondono all’area sotto la curva normale da

0 fino al valore dello z score come mostra il grafico sopra la tavola. Per calcolare l’area

sotto la curva per l’intervallo (0, 1.51) si cerca il valore all’incrocio della riga 1.5 e della

colonna 0.01, cioe l’area e 0.434. Quest’area corrisponde alla probabilita che lo z score

assuma valori tra 0 e 1.51. Per capire come le tavole sono tutte equivalenti e chiaro che se

volessimo calcolare la probabilita che lo z score sia maggiore di 1.51, questa probabilita e

data dall’area sotto la curva da 1.51 all’infinito e tale area la ricaviamo da quella da 0 a

piu infinito che e 0.5 togliendo l’area da 0 a 1.51 che abbiamo ricavato dalla tavola, cioe

0.500− 0.434 = 0.066. Il valore 0.066 puo essere ricavato direttamente dalla Tabella A.2.

Questa tavola fornisce i valori delle aree da un qualunque z score positivo a piu infinito.

In corrispondenza dell’incrocio tra 1.5 e 0.01 di questa tavola troviamo infatti 0.066.

Quindi per rispondere alla prima domanda devo cercare nella Tabella A.2 lo z-score

2.67 e trovare il valore dell’area corrispondente. Il valore lo trovo all’incrocio tra la riga

di 2.6 e la colonna di 0.07: si tratta del valore 0.004. Quindi solo lo 0.4% di studenti

prendera un voto maggiore di 28. Si noti che tale valore poteva anche essere ricavato

da una qualunque delle altre tavole. Ad esempio dalla Tabella A.4 cercando il valore

corrispondente a 2.67, che e 0.996. L’area cercata e 1 − 0.994 = 0.004. Oppure dalla


Tavola A.3 cercando il valore corrispondente a -2.67, che e 0.496. L’area cercata in questo

caro e 0.500− 0.496 = 0.004.

Per quanto riguarda il secondo punto devo calcolare l’area da −∞ al valore −0.67.

Posso cercare il valore -0.67 nella Tabella A.3. Lo trovo in corrispondenza della riga con

−0.6 e della colonna con −0.07. Il valore all’incrocio tra questa riga e questa colonna

riporta il valore: 0.249. L’area cercata e quindi 0.500 − 0.249 = 0.251. Posso concludere

che la percentuale cercata e il 25.1%. Lo stesso valore poteva essere ricavato direttamente

osservando che l’area cercata e la stessa calcolata da 0.67 a +∞ e quindi dalla Tabella A.2

incorrispondenza di 0.67, troviamo 0.251.

Per rispondere all’ultima domanda devo utilizzare le tavole in maniera inversa. In

questo caso conosco il valore di un area (trasformo la proporzione 60% in 0.60) e devo

trovare il valore dello z score che lascia alla sua destra sotto la curva normale un’area pari

a 0.60 ovvero alla sua sinistra un’area di 0.40. Cerco quindi tale valore ad esempio nella

Tabella A.4 e noto che nella tavola ci sono i valori 0.599 che lo approssima per difetto e che

corrisponde allo z score 0.25 e il valore 0.603 che lo approssima per eccesso e che corrisponde

allo z score 0.26. Il valore z che cerco puo essere scelto un due modi: o prendo il valore

tra i due z score con l’errore piu basso, in questo caso 0.25, perche 0.600− 0.599 = 0.001 e

minore di 0.603− 0.600 = 0.003. Oppure prendo il punto intermedio 0.255 tra 0.25 e 0.26.

z 0

Φ(z) = P(Z ≤ z) = ⌠⌡−∞

zf(x)dx

Figura 6.9: Area sotto la curva normale standardizzata della regione di valori minori delgenerico z score.


Esercizio 6.2.3. Il QI nella popolazione e noto che si distribuisce come una normale con

µ = 100 e standard deviation σ = 15.

1. Tra quali valori di QI sta il 68.26% della popolazione centrale?

2. Quale proporzione di popolazione ha un QI minore di 75?

3. Quale proporzione di popolazione ha un QI minore di 105?

4. Quale proporzione di popolazione ha un QI maggiore di 105?

5. Quale proporzione di popolazione ha un QI maggiore di 130?

6. Quale proporzione di popolazione ha un QI compreso tra 90 e 115?

7. Quale proporzione di popolazione ha un QI compreso tra 95 e 105?

8. A che QI corrisponde il 10% della popolazione con QI piu alto?

Esercizio 6.2.4.

Si assuma che l’indice di alienazione tra gli stranieri di origine asiatica sia distribuito

come una normale con media µ = 22 e standard deviation σ = 2.5 (alti punteggi riflettono

un alto sentimento di alienazione).

1. Calcolare sulla base di questa distribuzione la probabilita per uno straniero di origine

asiatica di avere un indice di alienazione tra 22 e 25.

2. Calcolare sulla base di questa distribuzione la probabilita per uno straniero di origine

asiatica di avere un indice di alienazione maggiore di 25.

3. Quale indice di alienazione corrisponde al 5% di popolazione che possiede indici di

alienazione piu elevati?

6.3 Un po’ di formule matematiche e un po’ di storia

La formula matematica della curva della distribuzione normale con generica media µ e

generico scarto quadratico medio σ > 0 e la seguente:

f(x) =1√

2πσ2e−

(x−µ)2

2σ2 , x ∈ R

Nella formula oltre ai parametri µ e σ compaiono anche π il numero noto come pi greco il

cui valore approssimato alla seconda cifra decimale e 3.14 e la x. La x e la variabile. Per

ogni valore di x ∈ R, dove R e l’insieme dei numeri reali, tutti quanti, f(x) ci da il valore in

6.3. UN PO’ DI FORMULE MATEMATICHE E UN PO’ DI STORIA 99

z 0.00 -0.01 -0.02 -0.03 -0.04 -0.05 -0.06 -0.07 -0.08 -0.090.0 0.50000 0.49601 0.49202 0.48803 0.48405 0.48006 0.47608 0.47210 0.46812 0.46414-0.1 0.46017 0.45620 0.45224 0.44828 0.44433 0.44038 0.43644 0.43251 0.42858 0.42465-0.2 0.42074 0.41683 0.41294 0.40905 0.40517 0.40129 0.39743 0.39358 0.38974 0.38591-0.3 0.38209 0.37828 0.37448 0.37070 0.36693 0.36317 0.35942 0.35569 0.35197 0.34827-0.4 0.34458 0.34090 0.33724 0.33360 0.32997 0.32636 0.32276 0.31918 0.31561 0.31207-0.5 0.30854 0.30503 0.30153 0.29806 0.29460 0.29116 0.28774 0.28434 0.28096 0.27760-0.6 0.27425 0.27093 0.26763 0.26435 0.26109 0.25785 0.25463 0.25143 0.24825 0.24510-0.7 0.24196 0.23885 0.23576 0.23270 0.22965 0.22663 0.22363 0.22065 0.21770 0.21476-0.8 0.21186 0.20897 0.20611 0.20327 0.20045 0.19766 0.19489 0.19215 0.18943 0.18673-0.9 0.18406 0.18141 0.17879 0.17619 0.17361 0.17106 0.16853 0.16602 0.16354 0.16109-1.0 0.15866 0.15625 0.15386 0.15151 0.14917 0.14686 0.14457 0.14231 0.14007 0.13786-1.1 0.13567 0.13350 0.13136 0.12924 0.12714 0.12507 0.12302 0.12100 0.11900 0.11702-1.2 0.11507 0.11314 0.11123 0.10935 0.10749 0.10565 0.10383 0.10204 0.10027 0.09853-1.3 0.09680 0.09510 0.09342 0.09176 0.09012 0.08851 0.08691 0.08534 0.08379 0.08226-1.4 0.08076 0.07927 0.07780 0.07636 0.07493 0.07353 0.07215 0.07078 0.06944 0.06811-1.5 0.06681 0.06552 0.06426 0.06301 0.06178 0.06057 0.05938 0.05821 0.05705 0.05592-1.6 0.05480 0.05370 0.05262 0.05155 0.05050 0.04947 0.04846 0.04746 0.04648 0.04551-1.7 0.04457 0.04363 0.04272 0.04182 0.04093 0.04006 0.03920 0.03836 0.03754 0.03673-1.8 0.03593 0.03515 0.03438 0.03362 0.03288 0.03216 0.03144 0.03074 0.03005 0.02938-1.9 0.02872 0.02807 0.02743 0.02680 0.02619 0.02559 0.02500 0.02442 0.02385 0.02330-2.0 0.02275 0.02222 0.02169 0.02118 0.02068 0.02018 0.01970 0.01923 0.01876 0.01831-2.1 0.01786 0.01743 0.01700 0.01659 0.01618 0.01578 0.01539 0.01500 0.01463 0.01426-2.2 0.01390 0.01355 0.01321 0.01287 0.01255 0.01222 0.01191 0.01160 0.01130 0.01101-2.3 0.01072 0.01044 0.01017 0.00990 0.00964 0.00939 0.00914 0.00889 0.00866 0.00842-2.4 0.00820 0.00798 0.00776 0.00755 0.00734 0.00714 0.00695 0.00676 0.00657 0.00639-2.5 0.00621 0.00604 0.00587 0.00570 0.00554 0.00539 0.00523 0.00508 0.00494 0.00480-2.6 0.00466 0.00453 0.00440 0.00427 0.00415 0.00402 0.00391 0.00379 0.00368 0.00357-2.7 0.00347 0.00336 0.00326 0.00317 0.00307 0.00298 0.00289 0.00280 0.00272 0.00264-2.8 0.00256 0.00248 0.00240 0.00233 0.00226 0.00219 0.00212 0.00205 0.00199 0.00193-2.9 0.00187 0.00181 0.00175 0.00169 0.00164 0.00159 0.00154 0.00149 0.00144 0.00139-3.0 0.00135 0.00131 0.00126 0.00122 0.00118 0.00114 0.00111 0.00107 0.00104 0.00100

Tabella 6.1: Tavola della Normale standard. Valori di Φ(z) = P (Z < z) per z negativi. Percalcolare P (Z < −1.51) = Φ(−1.51) si cerca il valore all’incrocio della riga −1.5 e della colonna−0.01, cioe Φ(−1.51) = 0.06552.

ordinata della curva normale. Si noti che al crescere di x verso valori sempre piu grandi o

al diminuire di x verso valori sempre piu piccoli, ma grandi in valore assoluto, ad esempio

per x = −100 o x = 100, il valore di f(x) per µ = 10 e σ = 4 vale 0.0 . . . 110zeri0117.

Questo e praticamente 0 ma non lo e di fatto! Si noti che l’esponente del numero e (altra

costante universale della matematica, il numero di Nepero, la base dei logaritmi naturali,

che approssimata alla seconda cifra decimale vale 2.27) e negativo, il che significa che al

crescere dell’esponente, diventa sempre piu vicino allo zero, ma non lo raggiunge mai. Solo

al limite e−∞ = 0. Il simbolo ∞ e il simbolo matematico che denota il valore infinito,

che non e un valore vero e proprio ma solo una quantita molto molto molto grande. La

distribuzione della normale standard, la distribuzione di tutti gli z-scores e invece data

dalla formula:

f(z) =1√2πe−

12z2 , z ∈ R.

Si tratta delle stessa formula dove abbiamo sostituito a µ il valore zero e a σ abbiamo

sostituito il valore 1 (nella distribuzione normale standardizzata abbiamo µ = 0 e σ = 1).

Abbiamo utilizzato la lettera z invece della lettera x ma questo non ha nessuna importanza.

Avremmo potuto utilizzare ancora la lettera x per indicare un valore qualunque dello z

score. La distribuzione normale prende anche il nome di distribuzione Gaussiana, dal

nome del matematico tedesco Carl F. Gauss (1777-1855) che per primo dedusse il teorema

centrale del limite, o il teorema di normalita asintotica, che studieremo nel prossimo


capitolo e che vide apparire per la prima volta la distribuzione gaussiana. Per una biografia

di Gauss consiglio la lettura del libro La misura del mondo di Daniel Kehlmann (Feltrinelli)

dove la personalita e il carattere molto particolari di Gauss sono descritti in modo sublime

insieme alla personalita di un altro grande scienziato tedesco: Alexander von Humboldt.

Capitolo 7

Dal campione alla popolazione

Nelle scienze sociali, come in ogni altra scienza, l’interesse e in genere rivolto ad un par-

ticolare gruppo (di persone o di altro tipo). Ad esempio siamo interessati a sapere qual

e la percentuale di giovani che sono disoccupati in Italia. Per trovare questa percentuale

potremmo domandare a tutti i giovani d’Italia se siano o meno disoccupati e quindi cal-

colarla come numero dei disoccupati diviso numero totale dei giovani in Italia. Si capisce

bene che tale procedura e di fatto irrealizzabile.

Fortunatamente non occorre fare questo per sapere qual e la percentuale dei giovani

senza lavoro. Se lo domandiamo solo ad un campione, purche questo sia scelto in maniera

appropriata, il calcolo della percentuale di giovani disoccupati nel campione potra essere

esteso a tutta la popolazione dei giovani. La percentuale dei disoccupati valutata sul

campione costituisce una stima della percentuale dei disoccupati nell’intera popolazione.

7.1 Campionamento

Ci sono due concetti molto importanti alla base del campionamento, il concetto di popo-

lazione e quello di campione. La popolazione e il gruppo sul quale vogliamo conoscere

qualche cosa (nell’esempio di prima: la popolazione sono i giovani italiani, l’oggetto di

nostro interesse e la percentuale di disoccupati). Non sempre la popolazione e tangibile

o reale, come in questo caso, dove per forza di cose e finita. A volte la popolazione e

concettuale e non tangibile. Questo e tipico degli esperimenti fisici o dove interessa misu-

rare una quantita e vengono eseguiti un certo numero di esperimenti per ottenere questa

misura. Ogni misura ottenuta in ognuno degli esperimenti e il campione ma la popolazione

e costituita da tutte le possibili misurazioni che si sarebbero potute avere. In genere nelle

scienze sociali la popolazione e costituita da un gruppo ben specificato di persone, quindi

sara sempre tangibile e costituita da un numero finito di unita.

Definizione 7.1.1 (Popolazione). L’intera collezione di oggetti o persone o eventi sui

quali si ricerca l’informazione di interesse.

101

102 CAPITOLO 7. DAL CAMPIONE ALLA POPOLAZIONE

Prima di tutto la popolazione deve essere ben definita. Se ad esempio si vuole condurre

un’indagine per sapere se gli adulti sono favorevoli alla liberalizzazione della cannabis,

occorre ben definire la categoria degli adulti. Anche la variabile di interesse deve essere

ben definita. Se vogliamo conoscere il reddito medio, dobbiamo specificare cosa intendiamo

per reddito medio. La media aritmetica o la mediana? Il secondo concetto e invece quello

di campione.

Definizione 7.1.2 (Campione). E un sottoinsieme della popolazione che contiene gli

oggetti o le persone o gli eventi sui quali si osserva la quantite di interesse.

La caratteristica fondamentale di un campione e che deve essere rappresentativo della

popolazione dalle quale e stato scelto. Ad esempio se torniamo al problema di conoscere

la percentuale di disoccupati, per stimare questa percentuale non possiamo scegliere come

campione 100 giovani laureati da tre anni all’universita di Milano. Quello che stimeremmo

in questo caso sarebbe la percentuale di disoccupati tra i giovani laureati da tre anni

all’universita di Milano, non la percentuale dei disoccupati tra i giovani in Italia.

Vi sono molte ragioni per cui la caratteristica valutata sulle unita del campione non e

in genere uguale alla caratteristica della popolazione. Si tenga presente che noi non saremo

mai in grado di dire quanto e la percentuale dei disoccupati in Italia! Le quantita sulla

popolazione sono di solito chiamate parametri. I parametri possono assumere determinati

valori, uno solo e il vero valore del parametro e noi non lo conosceremo mai: il lavoro dello

statistico e molto triste! Studia per qualcosa che non sara mai in grado di conoscere!

Quello che pero si puo fare e fare una stima di questo parametro (la percentuale

dei disoccupati ad esempio) sulla base di un campione scelto bene, e dire quanto si puo

sbagliare.

I tipi di errore nel campionamento possono essere di diverso tipo e occorre scegliere il

campione in modo appropriato in modo da minimizzare questi errori. Vediamo alcuni di

questi errori di campionamento.

1. Variabilita del campione. Questo errore e detto anche errore casuale ed e dovuto

al fatto che scegliendo diversi campioni la quantita di interesse calcolata su diversi

campioni sara diversa. Ad esempio se scegliamo in modo appropriato 1000 campioni

di cento giovani per stimare la percentuale di disoccupati, non osserveremo sempre

la stessa percentuale di disoccupati in ogni campione.

2. Errore di campionamento. Questo tipo di errore detto anche sistematico e piu

difficile da individuare e produce in genere stime distorte cioe con un bias. Ad esem-

pio se si sceglie un campione da un elenco telefonico, si escludono automaticamente

tutti coloro che non possiedono un telefono producendo una stima distorta. Errori

di questo tipo sono legati al modo sbagliato con cui viene scelto il campione.

7.1. CAMPIONAMENTO 103

3. Errori non dovuti al campionamento. Questi sono errori che non sono dovuti

al modo con cui e selezionato il campione. Ad esempio: le domande possono es-

sere poste in modo scorretto e che possono essere interpretate in modo sbagliato

dai rispondenti. Oppure gli intervistati possono di proposito rispondere in maniera

diversa da cio che pensano. Questo ad esempio succede spesso nelle elezioni in cui

i voti ai partiti di estrema destra sono spesso sottostimati negli exit pool perche

all’uscita del seggio colui che ha votato un tale partito non lo rileva agli intervista-

tori. Altri errori di questo tipo sono ad esempio quelli dovuti alla codificazione o

digitalizzazione delle risposte.

Per ridurre questo tipo di errori vi sono corsi interi nei corsi di laurea di statistica per

cui non possiamo pretendere di essere esaustivi qui. Ci basta pero dare due regole di base

che devono sempre essere applicate. Per tutto il resto si supporra di avere dei campioni

scelti in modo appropriato. La prima regola e che ogni elemento della popolazione deve

avere la stessa probabilita di essere selezionato come elemento del campione. Si deve

percio immaginare tutte le unita di una popolazione come delle palline inserite in una

grande urna e la scelta del campione consiste nell’estrarre un certo numero di palline da

quest’urna. In questo caso ogni pallina ha la stessa probabilita di essere selezionata. Un

campione ottenuto in questo modo si chiama campione casuale semplice.

L’altra regola e che il campione deve essere stratificato. Questo tipo di campionamento

deve essere utilizzato quando si sa che vi sono diversi gruppi in una popolazione diversi

tra loro. Ad esempio la stratificazione puo avvenire per eta o per regione di residenza o

per genere.

Una questione di cui non abbiamo ancora parlato ma che e fondamentale in tutta la

teoria e la grandezza del campionaria: quando deve essere grande un campione? La scelta

dell’ampiezza del campione dipende in generale dai seguenti fattori:

1. La variabilita tra i membri della popolazione. Se in una popolazione e presente

una grande variabilita allora il campione deve essere grande. Per capire questo fatto

pensiamo invece ad una popolazione dove la variabile di interesse non varia affatto

sugli elementi della popolazione, cioe e costante. In questo caso per stimare questa

caratteristica basterebbe solo osservarla su un elemento. Basterebbe un campione

di ampiezza campionaria n = 1, e la stima sarebbe perfetta.

2. Il livello di precisione necessario alla stima. Piu abbiamo bisogno di stime

precise piu il campione deve essere numeroso. Vedremo che il miglioramento nella

precisione della stima non varia uniformemente con l’aumentare della numerosita del

campione su cui si basa la stima.


3. Costi di campionamento. Intervistare tante persone costa in generale molto non

solo in termini di costo vero e proprio ma anche di tempo. Occorre valutare bene i

benefici che se ne ricavano prima di selezionare campioni troppo grandi con un costo

non sostenibile.

7.2 Dalla popolazione al campione: il caso della media

Il titolo della sezione costituisce il viaggio di andata del titolo del capitolo. Vedremo come

e fatta la distribuzione della media campionaria. Consideriamo la popolazione femminile

in eta fertile. Siamo interessati al numero medio di figli che una donna ha in questa

popolazione. Supponiamo di aver estratto diversi campioni di numerosita 5 da questa

popolazione. I campioni sono riportati nella tabella seguente

Campione numero di figli x s

1 0 2 2 1 1 1.2 0.832 0 3 0 2 1 1.2 1.303 1 2 0 2 2 1.4 0.894 0 2 4 1 0 1.4 1.675 3 1 2 0 2 1.6 1.14

La penultima colonna della tabella riporta la media del numero di figli calcolato in ogni

campione. Le medie di questi diversi campioni sono le medie campionarie. Se i campioni

sono stati scelti in modo corretto la maggior parte delle medie campionarie sara molto

vicina alla media della popolazione (il parametro incognito) ma comunque qualcuna di

queste medie avra un valore che si discosta dalla media della popolazione. Se calcoliamo

la media delle medie otteniamo

¯x =1.2 + 1.2 + 1.4 + 1.4 + 1.6

5= 1.36.

Si noti che abbiamo indicato con ¯x la media delle medie (quante medie!) Questo numero

possiamo dire che e la migliore stima che possiamo dare della media della popolazione.

consideriamo adesso lo scarto quadratico medio delle medie osservate sui 5 campioni

sx =

√(1.2− 1.36)2 + (1.2− 1.36)2 + (1.4− 1.36)2 + (1.4− 1.36)2 + (1.6− 1.36)2

4

= 0.167

Si noti che questa variabilita e molto piu piccola della variabilita della popolazione che puo

essere stimata calcolando la media delle standard deviation in ogni campione (riportata

nell’ultima colonna della tabella) che e pari a 1.17. Questo non e dovuto al caso ma e una

proprieta della media campionaria che si puo riassumere nei due seguenti fatti:

1. La media della media campionaria e uguale alla media della popolazione.

7.2. DALLA POPOLAZIONE AL CAMPIONE: IL CASO DELLA MEDIA 105

2. Lo scarto quadratico medio della media campionaria e uguale allo scarto quadratico

medio della popolazione diviso per la radice quadrata della numerosita campionaria.

In formula la seconda proprieta si puo scrivere, se denotiamo con sigma lo s.q.m. della

popolazione e con n la numerosita campionaria, come

σx =σ√n.

Accanto a questi due fatti abbiamo un risultato ancora piu interessante, al punto da

essere noto come teorema fondamentale della statistica. Tale teorema ci assicura che se il

campione e scelto in maniera appropriata non solo valgono i due fatti appena detti ma la

distribuzione della media campionaria e normale.

Teorema 7.2.1 (Fondamentale della statistica). Se abbiamo un campione casuale di am-

piezza n estratto da una popolazione con media µ e scarto quadratico medio σ allora la

media campionaria ha una distribuzione che per n elevato e approssimativamente una

normale con la media µ e lo scarto quadratico medio pari a σ√n

.

Il teorema fondamentale della statistica in sostanza ci dice che quando stimiamo il

valore medio di una quantita che ci interessa con la media campionaria, quella stima ha

una distribuzione Nomale sempre, qualunque sia la popolazione di riferimento. Questo ci

permettera di valutare gli errori che commettiamo usando quella stima. Inoltre si capisce

il ruolo fondamentale della distribuzione Normale.

Il valore osservato sugli n elementi del campione della media campionaria x, e solo uno

dei possibili valori che la media campionaria avrebbe potuto assumere, se avessimo estratto

un altro campione. Se pensiamo alla distribuzione di tutti i possibili valori della media

campionaria, questa distribuzione e normale con media µ e scarto quadratico medio σ/√n.

Allora possiamo calcolare lo z-score, il valore standardizzato della media campionaria

z =x− µσ√n

Gli z- score della media campionaria hanno una distribuzione normale standardizzata.

Vediamo un’applicazione nel seguente esempio

Esempio 7.2.2. Si consideri la popolazione costituita da tutti i lavoratori di imprese di

pulizia. Si supponga che per tale popolazione valgano i seguenti fatti:

• Valore medio paga oraria netta: 4.60 euro

• Deviazione standard: 0.40 centesimi di euro

Tenendo presente il teorema fondamentale della statistica rispondere alle domande seguen-

ti.


1. Qual e la probabilita che un singolo lavoratore scelto a caso guadagni meno di 4.50

euro all’ora?

2. Qual e la probabilita che la media della paga oraria di un campione casuale di 20

lavoratori scelti a caso sia meno di 4.50 euro all’ora?

3. Qual e la probabilita che la media della paga oraria di un campione casuale di 50

lavoratori scelti a caso sia meno di 4.50 euro all’ora?

4. Perche le risposte ai quesiti precedenti sono diverse?

Per rispondere alla prima domanda dobbiamo sapere la distribuzione della paga oraria

per un lavoratore. Denotiamo con X la paga oraria per un lavoratore. Sappiamo dal

testo che X ha una distribuzione normale con media µ = 4.60 e scarto quadratico medio

σ = 0.40. Per calcolare la probabilita richiesta dobbiamo calcolare l’area sotto la curva

normale con media µ = 4.60 e scarto quadratico medio σ = 0.40 da −∞ a 4.50. Ovvero

dobbiamo calcolare l’area sotto la curva normale standardizzata da −∞ allo z score di

4.50. Lo z-score cercato e dato da

z =4.50− 4.60

0.40= −0.25.

L’area cercata e uguale all’area da 0.25 a +∞ e quindi dalla Tavola A.2 ricaviamo in

corrispondenza di 0.25 un area pari a 0.401. Concludiamo quindi che la probabilita che un

lavoratore abbia una paga inferiore a 4.50 euro e del 40.1%, ovvero se pensiamo all’intera

popolazione dei lavoratori delle imprese di pulizie, il 40.1% di essi ha una paga inferiore

ai 4.50 euro all’ora.

Per rispondere alla seconda domanda il teorema fondamentale della statistica ci dice

che la media delle paghe di n = 20 lavoratori ha una distribuzione normale con media

mu = 4.60 e scarto quadratico medio σ = 0.40√20

= 0.089. La probbilita cercata e quindi

data dall’area sotto la curva nomale con media mu = 4.60 e scarto quadratico medio

σ = 0.089 da −∞ a 4.50, ovvero l’area l’area sotto la curva normale standardizzata da

−∞ allo z score di 4.50. Lo z-score cercato e dato da

z =4.50− 4.60

0.40√20

=−0.10

0.089= −1.12.

L’area cercata e uguale all’area da 1.12 a +∞ e quindi dalla Tavola A.2 ricaviamo in

corrispondenza di 1.12 un area pari a 0.131. Concludiamo quindi che la probabilita che la

paga media di 20 lavoratori sia inferiore a 4.50 euro e del 13.1%.

In modo analogo si risponde alla terza domanda. In questo caso lo z-score va calcolato

rispetto allo scarto quadratico medio della media fatta su n = 50 lavoratori. Abbiamo

z =4.50− 4.60

0.40√50

=−0.10

0.0566= −1.77.

7.2. DALLA POPOLAZIONE AL CAMPIONE: IL CASO DELLA MEDIA 107

L’area cercata e 0.038. Concludiamo quindi che la probabilita che la paga media di 50

lavoratori sia inferiore a 4.50 euro e del 3.8%.

Le risposte ai quesiti sono diverse perche diverso e lo scarto quadratico medio delle

grandezze considerate. La media campionaria ha lo scarto quadratico medio che diventa

sempre minore al crescere di n.


Capitolo 8

Intervalli di confidenza

Possiamo riassumere quanto detto nel capitolo precedente. Abbiamo una popolazione ed

una informazione da ricercare su questa popolazione. L’informazione da ricercare suppo-

niamo sia la media di una certa variabile di interesse (ad esempio ci interessa il numero

medio di figli di una donna italiana). La vera media che ricerchiamo e il parametro di in-

teresse che non e noto. Non potendo conoscere il vero valore del parametro (qual e il vero

valore del numero medio di figli che ha una donna italiana? non lo potremo mai conoscere)

ne facciamo una stima. Scelto propriamente un campione dalla popolazione, rileviamo per

ogni elemento del campione il valore della variabile di interesse e ne calcoliamo la media

aritmetica. Questo valore della media aritmetica ottenuta dai valori rilevati su ogni ele-

mento del campione e la nostra stima del parametro incognito. Quello descritto sopra e

come usualmente si procede alla stima puntuale della media incognita della variabile di

interesse in una popolazione. Per un momento pensiamo pero di poter agire in un altro

modo e di poter effettuare la scelta di quanti campioni voglio dalla mia popolazione.

Abbiamo infatti osservato che se avessimo scelto un altro campione dalla popolazione

e avessimo rilevato su ogni elemento di questo campione la variabile di interesse e avessimo

calcolato la media, avremmo osservato un altro valore per la media aritmetica e quindi

avremmo ottenuto un’altra stima per il parametro incognito. Possiamo immaginare di

scegliere tantissimi campioni e calcolare la media aritmetica dei valori osservati in ogni

campione e otterremo tantissime stime per il nostro valore osservato.

Quello che abbiamo concluso nel precedente capitolo e che questi tantissimi valori

hanno una distribuzione normale con media la stessa media della variabile di interesse

sulla popolazione (e quindi non nota) ma uno scarto quadratico medio molto minore, pari

allo scarto quadratico medio della variabile di interessa nella popolazione diviso per radice

quadrata di n, il numero di osservazioni nel campione.

109

110 CAPITOLO 8. INTERVALLI DI CONFIDENZA

8.1 La media campionaria

Ricordiamo come abbiamo denotato la media e lo scarto quadratico medio di una normale

standardizzata nella Sezione 6.2. Abbiamo denotato la media con µ e lo scarto quadratico

medio con σ. Possiamo immaginare che la media della nostra variabile di interesse sia µ

nella popolazione e lo s.q.m sia σ entrambi incogniti. Ora pensiamo alla variabile media

campionaria e a tutti i possibili valori che puo assumere nei diversi campioni tutti di

numerosita n. Il teorema fondamentale della statistica ci dice che questa variabile media

campionaria, se n e grande, ha una distribuzione normale, con media che e ancora µ e

scarto quadratico medio che e invece pari a σ√n

.

Per tornare all’esempio del numero di figli medio per una donna italiana tale numero

non lo conosciamo e lo indichiamo con µ la media incognita della popolazione. Prendiamo

adesso un campione di n = 5 donne (il primo dell’esempio) e stimiamo il valore incognito

con la media del numero di figli calcolato per questo campione x = 1.2. Quindi abbiamo

una stima per il parametro µ e tale stima e 1.2. Un altro risultato molto importante della

statistica ci dice che tale stima e la migliore che possiamo ottenere per la media.

Chiunque di voi potra obbiettare che se avessimo preso un altro campione e avessi-

mo osservato un altro valore per la media (ad esempio il terzo campione) allora anche

quest’altro valore e la stima migliore che potevamo dare per la media. Ad esempio per

il terzo campione abbiamo x = 1.4. Questo fatto potrebbe sembrare assurdo perche ho

due stime diverse per la media incognita µ e tutte e due sono la migliore stima possibile!

Questo fatto non e un paradosso se pensiamo che nella realta la media campionaria ha

una distribuzione normale e quindi se ne osservo piu di una esse saranno diverse secondo

la distribuzione normale. La media campionaria e il migliore stimatore puntuale per la

media, cioe e la migliore stima costituita da un solo numero.

Teorema 8.1.1. La media campionaria e la migliore stima puntuale per la media di una

popolazione.

Quello che invece studiamo nella prossima sezione e come dare un intervallo di valori

possibili per la media incognita della popolazione.

8.2 Gli ingredienti e la ricetta

Come dicevamo a volte invece che dare un solo numero e meglio dare un intervallo di valori

per la media incognita di una popolazione. Se vogliamo stimare la percentuale di votanti

per un partito in un sistema bipolare, un conto e dire, stimo la percentuale di votanti per

il partito SX con il 48%, oppure dire che la percentuale di votanti per il partito SX e un

valore nell’intervallo (45%, 51%).

8.2. GLI INGREDIENTI E LA RICETTA 111

Per il Teorema 8.1.1 l’intervallo di confidenza sara costruito attorno alla media cam-

pionaria. Quindi il primo ingrediente e la media campionaria. L’ingrediente fondamentale

per gli intervalli di confidenza e invece dedotto dal livello di confidenza. Questo livello

esprime il grado di confidenza col quale confido che il vero valore del parametro stia nel-

l’intervallo che fornisco. Si possono costruire intervalli di confidenza a qualunque livello

di confidenza, qui considereremo i livelli 95% e 99% che sono i piu utilizzati nei fenomeni

sociali, ma credo che tutti saranno in grado di dedurre poi come costruire un intervallo di

confidenza a livello 98% o al 99.9%.

Per dedurre questo ingrediente fondamentale torniamo un attimo al teorema fonda-

mentale della statistica e supponiamo che lo scarto quadratico medio σ sia noto. Sappiamo

che la media campionaria ha distribuzione normale con media µ e scarto quadratico medioσ√n

, e quindi gli score della media campionaria z = x−µσ/√n

hanno una distribuzione normale

standardizzata. Allora se cerchiamo quei valori sotto una curva normale standardizzata

per cui l’area della parte centrale della distribuzione tra quei valori sia il 95% del totale

(area tratteggiata nella Figura 8.1), dalle tavole troviamo che questi valori sono −1.96

quello a sinistra, e 1.96 quello a destra. Allora possiamo spingerci a sinistra della media

Area 0.95

−1.96 0 1.96

Figura 8.1: L’area tratteggiata vale 0.95. Entrambe le aree non tratteggiate sono 0.025.

campionaria per il fattore −1.96 moltiplicato per la standard deviation divisa per radice

quadrata di n e a destra della stessa quantita positiva. In formula avremo che

Intervallo di confidenza al 95% =

(x− 1.96

σ√n, x+ 1.96

σ√n

).

Possiamo cioe dire che

µ ∈(x− 1.96

σ√n, x+ 1.96

σ√n

)


con un livello di confidenza (o livello di fiducia) pari al 95%. Se lo scarto quadratico medio

non e noto, lo si puo stimare con s e se n e sufficientemente grande (in genere maggiore

di 30) possiamo ancora scrivere l’intervallo di confidenza come


(x− 1.96

s√n, x+ 1.96

s√n

).

Esempio 8.2.1. Consideriamo l’eta del primo bacio dell’esempio considerato nella Sezione

2.7.3. L’eta media del primo bacio in un campione di numerosita n = 42 e x = 14. Lo

scarto quadratico medio e s = 2.41. La formula per l’intervallo di confidenza al 95% e

I.C. al 95% =

(14− 1.96 · 2.41√

42, 14 + 1.96 · 2.41√

42

)Facendo i conti abbiamo 2.41√

42= 0.37 questa e la stima dello scarto quadratico medio della

media campionaria. Poi ricaviamo 1.96 · 0.37 = 0.73. Questa e l’ampiezza (o meglio la

semi ampiezza) dell’intervallo di confidenza. Quindi possiamo concludere che

I.C. al 95% = (14− 0.73, 14 + 0.73) = (13.27, 14.73)

Si noti che in termini di anni 0.73 sono circa 9 mesi, e quindi l’intervallo di confidenza e

ampio 18 mesi. Il primo bacio viene dato tra i 13 anni e 3 mesi e i 14 anni e 9 mesi con

una confidenza del 95%.

Torniamo ancora un attimo sul significato del livello di confidenza. 95% significa che se

fosse possibile ripetere questo esperimento un numero grande di volte saremmo confidenti

nel credere che tra gli intervalli calcolati circa il 95% contiene il vero valore del parametro

e solo 5 su cento, ovvero uno su venti non lo contiene.

Ricapitolando possiamo dire che per calcolare l’intervallo di confidenza al 95% servono

questi ingredienti:

1. La numerosita campionaria n.

2. La media campionaria x.

3. Lo scarto quadratico medio σ.

4. Il valore 1.96.

Con questi ingredienti ricaviamo l’intervallo di confidenza per la media incognita della

popolazione come

I.C. al 95% =

(x− 1.96

σ√n, x+ 1.96

σ√n

).

Se σ non e noto e n e sufficientemente grande possiamo sostituire a σ la sua stimas.

8.2. GLI INGREDIENTI E LA RICETTA 113

Se invece che al 95% volessimo l’intervallo di confidenza al 99%, dobbiamo trovare

quei valori sotto una curva normale standardizzata per cui l’area della parte centrale della

distribuzione tra quei valori sia il 99% del totale (area tratteggiata nella Figura 8.2). Dalle

tavole troviamo che questi valori sono −2.575 quello a sinistra, e 2.575 quello a destra.

Area 0.99

−2.575 0 2.575

Figura 8.2: L’area tratteggiata vale 0.99. Entrambe le aree non tratteggiate sono 0.005.

Quindi ripetendo i ragionamenti sopra l’intervallo di confidenza al 99% per la media

incognita di una popolazione e

I.C. al 99% =

(x− 2.575

s√n, x+ 2.575

s√n

).

Gli ingredienti per ottenere questo intervallo sono

1. La numerosita campionaria n.

2. La media campionaria x.

3. Lo scarto quadratico medio σ.

4. Il valore 2.575.

Come si puo notare sono gli stessi ingredienti per l’intervallo di confidenza al 95% tranne

l’ultimo valore. Da questo deduciamo che l’intervallo di confidenza al 99% se gli altri

ingredienti sono uguali (in particolare se il campione e lo stesso) sara piu ampio di quello

al 95%. Anche in questo caso se σ non e noto e n e sufficientemente elevato possiamo

sostituire a sigma la sua stima s.


Ad esempio tornando all’esempio precedente l’intervallo di confidenza al 99% per l’eta

media in cui gli uomini danno il primo bacio e

I.C. al 95% =

(14− 2.575 · 2.41√

42, 14 + 2.575 · 2.41√

42

)= (14− 0.96, 14 + 0.96)

= (13.04, 14.96).

Siamo confidenti al 99% che l’eta in cui un ragazzo da il primo bacio e compreso tra 13

anni e 15 anni. In questo caso siamo piu confidenti ma l’ampiezza dell’intervallo e piu

grande: quasi due anni (abbiamo approssimato 0.96 di un anno con 1).

A parita di tute le condizioni (n, campione, quindi stessi valori per la media x e per lo

s.q.m. s calcolati sul campione) se si cambia il livello di confidenza prendendone uno piu

grande (voglio essere piu confidente che il vero valore sia nell’intervallo che fornisco, quindi

ad esempio passo dal 95% con la possibilita di sbagliare del 5% al 99% con la possibilita

di sbagliare solo dell1%) l’intervallo che fornisco non puo che essere piu grande. Poiche

l’ampiezza dell’intervallo dipende dal fattore√n a denominatore, per avere intervalli piu

precisi (cioe piu stretti) a parita di livello di confidenza dobbiamo aumentare la numerosita

campionaria. Lo vediamo in questo esempio.

Esercizio 8.2.2. Ad un campione di 40 studenti e stato chiesto di dare un voto da 1 a 20

all’operato del primo ministro Letta nei primi 6 mesi del suo mandato su una scala da 1

a 20. La media e stata 12.1 con standard deviation di 3.5.

1. Stimare il voto dato a Letta da tutti gli studenti con un intervallo di confidenza del

95%.

2. Stimare il voto dato a Letta da tutti gli studenti con un intervallo di confidenza del

99%. Questo intervallo come e rispetto al precedente? Piu ampio o piu stretto?

Perche?

3. Supponete che la stessa medio e lo stesso s.q.m. sono stati osservati su un campione

di 100 studenti. Stimare il voto dato a Letta da tutti gli studenti con un intervallo

di confidenza del 95%. Questo intervallo come e rispetto al primo intervallo? Piu

ampio o piu stretto? Perche?

Esercizio 8.2.3. Con riferimento ai dati dell’esempio della sezione 2.7.3, calcolare Inter-

vallo di confidenza al 95% per l’eta del primo rapporto e confrontarla con quella calcolata

per il primo bacio. Quale dei due intervalli e piu ampio? I due intervalli si sovrappongono?

Esercizio 8.2.4. Calcolare l’intervallo di confidenza al 95% del tasso dell’uso della parola

by sia negli scritti di Hamilton che in quelli di Madison. Verificare se il valore del tasso

dell’uso della stessa parola negli scritti contesi sta in uno degli intervalli o in entrambi.

8.3. SINTESI SUGLI INTERVALLI DI CONFIDENZA 115

8.3 Sintesi sugli Intervalli di confidenza

Consideriamo una popolazione o un fenomeno X caratterizzato da una distribuzione

teorica e da due parametri: la media µ e lo scarto quadratico medio teorico σ.

In generale nell’inferenza statistica l’intervallo di confidenza e sempre calcolato per un

parametro incognito di una popolazione ed e sempre accompagnato da un grado di fiducia.

Se fosse noto il parametro non ci sarebbe bisogno di dare l’intervallo di confidenza. Senza

grado di fiducia non e un intervallo di confidenza. Quindi prima di calcolare un intervallo

di confidenza occorre sapere:

• Per quale parametro voglio calcolare l’intervallo di confidenza?

• Con che grado di fiducia voglio calcolare il mio intervallo di fiducia?

In questo corso siamo interessati solo agli intervalli di confidenza per la media (µ)

incognita di una popolazione. Il grado di fiducia viene scelto in base a fattori di interesse

particolari. Nel nostro corso l’intervallo di fiducia verra sempre assegnato.

Definizione 8.3.1. Per intervallo di confidenza a livello di fiducia (1− α)% della media

µ di una popolazione si intende un intervallo del tipo µ ∈ (a, b) con i significato che

confidiamo che con un grado di fiducia del (1−α)% il vero valore della media µ stia tra i

valori a e b.

Si osservi che in questa definizione a e b devono essere numeri noti e α deve essere

un valore dato compreso tra 0 e 1. In genere i valori di α piu utilizzati sono 0.10, 0.05 e

0.01, che forniscono intervalli con grado di fiducia del 90%, 95% e 99% rispettivamente.

A livello teorico si possono calcolare intervalli di confidenza con qualsiasi grado di fiducia

compresi lo 0% e il 100%.

Ha senso un affermazione del tipo µ ∈ (3.5, 4.5) con livello 95%. In questo caso a = 3.5,

b = 4.5 e 1− α = 0.95, quindi α = 0.05.

Il nostro compito e fornire gli estremi dell’intervallo di fiducia per il parametro µ ad

un assegnato livello di fiducia (1− α)%.

Tre sono i fattori che occorre verificare per scegliere e calcolare il corretto intervallo di

confidenza per µ.

1. Il tipo di popolazione: puo essere Normale o NON Normale

2. Lo scarto quadratico medio della popolazione σ: puo essere noto o NON noto.

3. La numerosita campionaria n: puo essere piccola (minore di 30) o grande (maggiore

o uguale a 30).


A seconda delle situazione in cui ci troviamo l’intervallo di confidenza per la media µ

della popolazione si costruisce in una maniera opportuna in base ad un risultato teorico.

Qui di seguito elenchiamo i casi in cui sappiamo calcolare l’intervallo di confidenza e il

risultato teorico che ci permette di costruirlo.

8.3.1 Caso popolazione qualunque, σ noto n grande

Se una popolazione e qualunque (Normale ma anche NON Normale) e X1, . . . Xn e un

campione estratto da questa popolazione allora

Xn − µσ√n

ha una distribuzione Normale standardizzata, asintoticamente, per n che tende all’infinito.

L’intervallo di confidenza ha la forma

xn ± zα/2σ√n

8.3.2 Caso popolazione qualunque, σ NON noto n grande

Se una popolazione e qualunque (Normale ma anche NON Normale) e X1, . . . Xn e un

campione estratto da questa popolazione allora

Xn − µS√n

ha una distribuzione Normale standardizzata, asintoticamente, per n che tende all’infinito.

In questo caso S e lo stimatore ottimale per σ:

S =

√√√√ 1

n− 1

n∑k=1

(Xi − Xn)2

L’intervallo di confidenza ha la forma

xn ± zα/2s√n

8.3.3 Caso popolazione Normale, σ non noto n piccolo

Se una popolazione e Normale e X1, . . . Xn e un campione estratto da questa popolazione

allora

T =Xn − µ

S√n

8.3. SINTESI SUGLI INTERVALLI DI CONFIDENZA 117

ha una distribuzione, che per ogni n finito, si chiama t-Student con n− 1 gradi di liberta.

I gradi di liberta sono un parametro di questa distribuzione che dipende dal numero di

osservazioni con cui si calcolano sia Xn che S.

La distribuzione di questa statistica T non e normale standardizzata ma dipende dal

numero di osservazioni. In particolare se abbiamo n osservazioni allora la statistica t di

Student si dice che ha n−1 gradi di liberta. Il grafico della distribuzione della t di Student

e simmetrico, assomiglia alla distribuzione normale standardizzata, ma ha le code piu alte

e la campana piu bassa, cioe ha una maggior variabilita rispetto alla normale standard, nel

senso che ci si aspetta di osservare una percentuale di valori oltre 3 valori della deviazione

standard maggiori di quelli di una normale standardizzata.

La Figura 8.3 riporta il grafico della distribuzione t di Student al variare dei gradi di

liberta. Come si puo notare al crescere dei gradi di liberta la distribuzione della t di Student

assomiglia sempre piu alla distribuzione normale standard. Per n che tende ad infinito,

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

N(0,1) e t−Student

x

f(x)

−5 −4 −3 −2 −1 0 1 2 3 4 5

N(0,1)t(1)t(2)t(10)t(30)

Figura 8.3: Distribuzione t di Student al variare dei gradi di liberta e distribuzione normalestandard.

ha distribuzione Normale standardizzata e questo giustifica i due risultati precedenti. La

distribuzione t di Student deve il suo nome allo statistico William Sealy Gosset che dedusse

la distribuzione t di Student mentre lavorava come statistico alla famosa birreria irlandese

Guinness. La ditta non gli permise di utilizzare il suo vero nome e lui pubblico i risultati

ottenuti lavorando presso la Guinness con lo pseudonimo di Student.

Quindi in questo caso l’intervallo di confidenza ha la forma

xn ± tn−1,α/2s√n


Il valore tn−1,α/2 e analogo al valore zα/2, ma va cercato nella tavole della t di Student. Le

tavole della t di Student restituiscono nella parte centrale i valori tg,p in corrispondenza

di una determinata area p e dei gradi di liberta g. Si noti che a differenza della tavola

della Normale, si entra nella tavola con l’area che si vuole lasciare sotto la curva da un

valori in poi (quindi occorre entrare con p = α/2) e i gradi di liberta g = n.1 e si ottiene

il valore tg,p = tn−1,α/2. Si noti che nella Tabella A.5 l’area p e l’area a sinistra del valore

tg,p. Quindi se dobbiamo calcolare l’intervallo di confidenza a livello (1 − α)%, e ci sono

n osservazioni, dobbiamo entrare nella Tavola non con α/2 ma con 1− α/2. Ad esempio

se l’intervallo e al 95% allora α = 0.05, α/2 = 0.025 e 1− α/2 = 0.975. Quindi dobbiamo

cercare i valori nella colonna dove p = 0, 975, in corrispondenza dei gradi di liberta.

Capitolo 9

Test statistici

I test statistici (detti anche verifica di ipotesi) occupano un posto di rilievo in tutta l’infe-

renza statistica. Insieme alla stima costituiscono il fulcro di tutta l’inferenza statistica. Se

nel problema della stima si stratta di trovare un valore plausibile per i parametri incogni-

ti di una popolazione (o meglio del modello sulla popolazione), nella verifica d’ipotesi si

tratta di formulare una affermazione sul parametro incognito. La statistica ci fornisce gli

strumenti per arrivare ad una scelta riguardo a questa ipotesi sul parametro (se accettarla

o rifiutarla) quantificando il rischio connesso a questa scelta.

9.1 Verifica d’ipotesi: la teoria

Supponiamo di avere un modello su una popolazione d’interesse e che questo modello

dipenda da un parametro generico θ che e il nostro interesse. (Ad esempio un modello

normale con il parametro di interesse la media µ). Il nostro interesse per il parametro e

costituito da un’affermazione sul possibile valore di questo parametro che noi riteniamo

plausibile. Questo valore dichiarato per il parametro e sottoposto ad una verifica basata

sulle osservazioni sperimentali di un campione scelto dalla popolazione sulla quale e stata

fatta l’affermazione riguardante il valore del parametro.

Definizione 9.1.1. Una ipotesi statistica e una affermazione su θ.

L’ipotesi sottoposta a verifica sperimentale viene di solito chiamata ipotesi nulla ed

indicata con H0. Di solito H0 specifica il valore di un parametro della popolazione indicato

genericamente con θ. Quindi

H0 : θ = θ0

dove θ0 e un valore fissato. Ad esempio se il parametro della popolazione da sottoporre a

verifica e la media µ scriveremo

H0 : µ = µ0

dove µ0 e un valore della media specificato e noto.

119

120 CAPITOLO 9. TEST STATISTICI

Definizione 9.1.2. Un test statistico e una regola per decidere sulla compatibilita dei dati

con l’affermazione definita dall’ipotesi nulla.

Un test statistico e come un sistema d’allarme che suona in presenza di dati non

compatibili con l’ipotesi nulla. Come tutti i sistemi di allarme il test statistico puo produrre

falsi allarmi o dar luogo a mancati allarmi.

Un test conduce sempre a due sole alternative:

• rifiutiamo l’ipotesi nulla H0

• non rifiutiamo l’ipotesi nulla H0

Tale decisione viene presa sulla base delle osservazioni x1, . . . , xn, di un campione casuale

di ampiezza n proveniente dalla popolazione. Sulla base di queste osservazioni prenderemo

la nostra decisione tramite il valore assunto da quella che e chiamata statistica test e che

sara diversa per ogni verifica d’ipotesi. La statistica test ci definisce una regola per cui

se la statistica test assume certi valori, che appartengono ad una regione detta regione

di rifiuto si rifiutera l’ipotesi nulla, se invece assume valori che non appartengono a tale

regione, non si potra rifiutare l’ipotesi nulla. Si tenga pero presente che accettare l’ipotesi

nulla non significa che questa sia vera. Significa che la riteniamo plausibile sulla base delle

nostre osservazioni. Noi non potremo mai sapere qual e il vero valore del parametro.

Trattandosi di un problema di decisione ogni decisione porta con se la possibilita di

commettere un errore facendo la scelta sbagliata. Se i dati portano a rifiutare un’ipotesi

nulla che e vera si commette un errore chiamato di primo tipo.

La probabilita di commettere questo errore viene indicata con α:

α = P (rifiutare H0|H0 e vera).

L’errore di primo tipo α e chiamato anche livello di significativita del test.

Nella pratica si deve scegliere la regione di rifiuto in modo da garantire un pre-assegnato

livello di significativita α e in modo da minimizzare la probabilita dell’altro tipo di errore

che si puo commettere: l’errore di secondo tipo indicato con β.

Se i dati portano ad accettare una ipotesi nulla che e falsa si commette un errore di

secondo tipo. La probabilita di questo errore viene indicata con β:

β = P (non rifiutare H0|H0 e falsa).

I due tipi di errore che si possono commettere in relazione alla realta sono riassunti nella

seguente tabella

9.1. VERIFICA D’IPOTESI: LA TEORIA 121

Decisione→Realta↓ Rifiuto H0 Non Rifuto H0

H0 vera errore Io tipo nessun errore (OK)α 1− α

H0 falsa nessun errore (OK) errore di IIo tipo1− β β

I test che presenteremo nella prossima sezione sono tali da fissare ad un livello che si

ritiene soddisfacente l’errore di primo tipo (nei fenomeni di tipo sociale di solito α = 0.05

o α = 0.01) e hanno il piu piccolo errore di secondo tipo.

Il nome errore di primo tipo ha origine storica perche rappresenta l’errore piu grave

che si possa commettere dal punto di vista di chi sottoporne il parametro alla verifica.

Ad esempio nell’ottica dell’allarme l’errore piu grave e quello del mancato allarme, perche

stanno rubando la macchina (qui H0 vera significa che il ladro sta agendo) ma l’allarme

non suona (rifiuto H0, i dati mi portano a non credere all’ipotesi H0).

Un altro modo di interpretare i test consiste nel considerare un test come un processo

fatto ad un imputato. L’imputato e considerato innocente (ipotesi nulla). Se le prove

portate sono tali da far emettere alla giuria un verdetto di colpevolezza, l’imputato viene

condannato. (si rifiuta l’ipotesi nulla). Si noti che nel caso le prove non siano schiaccianti,

e quindi non si possa condannare l’imputato (non si puo rifiutare l’ipotesi nulla) questo

non significa che l’imputato sia innocente. Accettare l’ipotesi nulla, o non rifiutarla, non

significa che questa sia vera.

La decisione se accettare o rifiutare l’ipotesi nulla viene fatta sulla base della determi-

nazione di una regione di rifiuto nella quale puo rientrare la statistica test basata sui dati.

La regione di rifiuto viene determinata in base all’errore di primo tipo α e in base a quella

che viene chiamata ipotesi alternativa e indicata con HA. A volte l’ipotesi alternativa

viene indicata anche con H1. Se H0 e data da θ = θ0 l’ipotesi alternativa potra essere di

tre tipi.

• HA : θ 6= θ0, detta ipotesi alternativa bilaterale;

• HA : θ > θ0, detta ipotesi alternativa unilaterale destra;

• HA : θ < θ0, e detta ipotesi alternativa unilaterale sinistra.

A parita di ipotesi nulla diverse ipotesi alternative producono diversi modi di utilizzare

i dati sperimentali per verificare l’ipotesi nulla.

Nella prossima sezione vedremo come si costruisce la regione di rifiuto per il primo

tipo di ipotesi alternativa, che e in un certo senso la piu sicura. Per gli altri due tipi di

ipotesi occorre prestare piu attenzione perche per applicarli occorre essere ben certi della

direzione in cui si e convinti si sia modificato il parametro.

Riassumendo per i test statistici occorre:


1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA.

2. Trovare la statistica test per il sistema d’ipotesi.

3. Trovare la regione di rifiuto per il sistema d’ipotesi.

4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o

rifiutare H0.

Nelle prossime sezioni vedremo come si applicheranno questi passi a vari problemi di

verifica d’ipotesi.

9.2 Verifica d’ipotesi: la pratica

Nella pratica la verifica di ipotesi si basa sulla ricerca di statistiche test, che saranno

diverse a seconda dei diversi modelli sulla popolazione e dei diversi parametri da sottoporre

a verifica. Noi prenderemo in considerazione popolazione con distribuzione normale e

saremo interessati a verifiche di ipotesi sulla media nel caso in cui la standard deviation σ

sia nota e nel caso in cui non lo sia. L’altro caso che tratteremo sara la verifica d’ipotesi

per la proporzione del successo di un certo evento.

9.2.1 Test per la media di popolazione normale: σ nota

Supponiamo di avere un modello normale su una popolazione d’interesse. Ad esempio

un’azienda per la ricerca del personale dichiara che i suoi candidati sono dotati di un

quoziente intellettivo di 120 con una standard deviation di 10. Quello che in sostanza sta

dichiarando l’azienda e che la media µ della sua popolazione normale e 120 e la standard

deviation e σ = 10. Si tratta di dichiarazioni sui parametri di una popolazione. Suppo-

niamo ancora che voi vogliate verificare l’affermazione dell’azienda sul fatto che fornisca

candidati con un quoziente intellettivo di 120. Quello che dovete fare e impostare un test

d’ipotesi per la media della popolazione. In questo caso la popolazione e costituita dai

candidati dell’azienda e la media dichiarata e µ0 = 120. In questo caso siamo interessati

ad una verifica d’ipotesi sul parametro µ, mentre il parametro σ e considerato un para-

metro di disturbo che in questo caso e noto. Il primo passo consiste nel scrivere il sistema

d’ipotesi: {H0 : µ = 120HA : µ 6= 120

Il secondo passo consiste nel trovare la statistica test. Se dobbiamo verificare la veridicita

di una affermazione sul valore di una media sembra abbastanza sensato testarla sul va-

lore della media campionaria calcolata su un campione scelto della popolazione. Quindi

dobbiamo avere i dati relativi al quoziente intellettivo di un certo numero n di aspiranti

9.2. VERIFICA D’IPOTESI: LA PRATICA 123

candidati selezionati dall’azienda in questione. I dati sono i seguenti: il quoziente intel-

lettivo medio di n = 36 candidati e stato calcolato e risulta x = 114. L’idea e quella di

rifiutare l’ipotesi nulla se lo z score del valore calcolato della media sul campione risulta

troppo lontano dal valore zero. Perche se lo z score assume valori troppo grandi positivi

o troppo piccoli negativi vuol dire che riteniamo poco plausibile l’ipotesi nulla. Quindi la

statistica test richiesta dal secondo punto e lo z score

z =x− µ0

σ√n

.

Nel caso in considerazione esso vale

z =114− 120

10√36

= −3.6.

A questo punto per determinare la regione di rifiuto (terzo passo) occorre scegliere una

soglia tale per cui se lo z score e oltre tale soglia rifiutiamo l’ipotesi nulla, se non supera

tale soglia accettiamo l’ipotesi nulla. Tale soglia che determinera la regione di rifiuto viene

calcolata sulla base dell’errore di primo tipo, o livello del test α. Supponiamo che α = 0.05.

Sappiamo che se la popolazione normale ha media 120 solo il 2.5% della popolazione ha

uno z score maggiore di 1.96 e solo il 2.5% della popolazione ha uno z score minore di

-1.96. Allora se la regione di rifiuto e definita come:

R = {z < −1.96 o z > 1.96} ,

in questo caso la probabilita di rifiutare H0 quando H0 e vera e del 5%. Essa corrisponde

all’area tratteggiata nella Figura 9.1.

Poiche −3.6 e minore di −1.96, il valore z calcolato appartiene alla regione di rifiuto R e

siamo portati a credere che l’ipotesi nulla non sia vera e quindi la conclusione e: rifiutiamo

l’ipotesi nulla. E anche il quarto e ultimo punto e stato eseguito. Quindi riassumendo in

questo specifico problema i quattro passi sono i seguenti:

1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA:{H0 : µ = 120HA : µ 6= 120

2. Trovare la statistica test per il sistema d’ipotesi:

z =x− µ0

σ√n

=114− 120

10√36

= −3.6.

3. Trovare la regione di rifiuto per il sistema d’ipotesi:

R = {z < −1.96 o z > 1.96}


Regione di rifiuto

−3.6 −1.96 0 1.96

α 2 = 0.025 α 2 = 0.025

Figura 9.1: Entrambe le aree tratteggiate sono 0.025. z = −3.6 cade nella regione dirifiuto di sinistra.


rifiutare H0: Poiche −3.6 e minore di −1.96, rifiutiamo l’ipotesi nulla H0 : µ = 120.

Un modo equivalente per verificare il sistema d’ipotesi{H0 : µ = 120HA : µ 6= 120

consiste nel metodo dell’intervallo di confidenza. Esso si puo riassumere in questi passi:

1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA:{H0 : µ = 120HA : µ 6= 120

2. Calcolare l’intervallo di confidenza al 95% (si noti che il livello di confidenza e l’(1−α)%) per la media µ della popolazione:


(x− 1.96

σ√n, x+ 1.96

σ√n

)= (111, 117)

3. Decidere se accettare o rifiutare H0 sulla base dell’appartenenza all’intervallo cal-

colato del valore della media definito dall’ipotesi nulla. Poiche 120 non appartiene

all’intervallo calcolato, rifiutiamo l’ipotesi nulla H0 : µ = 120.

I due metodi sono equivalenti per costruzione. Infatti il valore specificato dall’ipotesi nulla

µ = µ0 appartiene all’intervallo di confidenza all’(1 − α)% se e solo se la statistica test z

score cade nella regione di rifiuto del test con livello α.


9.2.2 Test per la media di popolazione normale: σ non nota

Se lo scarto quadratico medio di una popolazione σ non e noto, possiamo ancora utilizzare

il metodo della statistica test z score, purche la numerosita campionaria sia grande (in

genere maggiore di n = 30). In questo caso occorre sostituire al parametro σ la stima

s ottenuta dai dati rilevati sul campione. In questo caso l’unico punto che cambia e il

secondo dove lo z score e calcolato come

z =x− µ0

s√n

.

Per il resto se il livello del test e α = 0.05 la regione di rifiuto e la stessa

R = {z < −1.96 o z > 1.96} ,

e la decisione e quella di rifiutare H0 se z appartiene alla regione di rifiuto.

Se invece la numerosita n del campione e piu piccola di di 30 occorre ricorrere ad

un altra statistica, chiamata t di Student. La distribuzione di questa statistica non e

normale standardizzata ma dipende dal numero di osservazioni. In particolare se abbiamo

n osservazioni allora la statistica t di Student si dice che ha n−1 gradi di liberta. Per il resto

il grafico della distribuzione della t di Student e simmetrico, assomiglia alla distribuzione

normale standardizzata, ma ha le code piu alte e la campana piu bassa, cioe ha una

maggior variabilita rispetto alla normale standard, nel senso che ci si aspetta di osservare

una percentuale di valori oltre 3 valori della deviazione standard maggiori di quelli di una

normale standardizzata.

La Figura 9.2 riporta il grafico della distribuzione t di Student al variare dei gradi

di liberta. Come si puo notare al crescere dei gradi di liberta la distribuzione della t di

Student assomiglia sempre piu alla distribuzione normale standard. La distribuzione t di

Student deve il suo nome allo statistico William Sealy Gosset che dedusse la distribuzione

t di Student mentre lavorava come statistico alla famosa birreria irlandese Guinness. La

ditta non gli permise di utilizzare il suo vero nome e lui pubblico i risultati ottenuti

lavorando presso la Guinness con lo pseudonimo di Student. Vediamo la procedura per

un test t con livello α = 0.05 (viene chiamato in questo modo il test per verificare il valore

di una media di una popolazione normale con σ non noto e numerosita campionaria n

piccola, cioe minore di 30).

1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA. Anche

in questo scriveremo: {H0 : µ = µ0

HA : µ 6= µ0


−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

N(0,1) e t−Student

x

f(x)

−5 −4 −3 −2 −1 0 1 2 3 4 5

N(0,1)t(1)t(2)t(10)t(30)

Figura 9.2: Distribuzione t di Student al variare dei gradi di liberta e distribuzione normalestandard.

2. Calcolare la statistica test t. Osservati i valori del campione x1, x2, . . . , xn, questa e

data da

t =x− µ0

s√n

3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la

soglia occorre cercare nella tavola della t di Student con n− 1 gradi di liberta, quei

valori che lasciano a destra un’area pari a 0.025, indichiamo tale valore con tn−10.025,

e il valore che lascia alla sua sinistra un’area di 0.025 sara per simmetria il valore

−tn−10.025. La regione di rifiuto e riportata nella Figura 9.3 e si scrive:

R ={t < −tn−1

0.025 o t > tn−10.025

}Il valore tn−1

0.025 si deve cercare nella tavola A.5 come spiegato nell’esempio.


rifiutare H0. Se t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, altrimenti

l’accettiamo.

Esempio 9.2.1. La distribuzione del consumo di alcool tra le donne di eta compresa tra

15 e 25 anni in Italia si puo considerare normale con media pari 9.5 unita per settimana.

Per capire se il consumo di alcool tra le studentesse dell’universita si possa considerare con

la stessa distribuzione si osserva il consumo di alcool di un campione di 14 studentesse.

La media e lo scarto quadratico medio dei valori osservati sono risultati rispettivamente


Regione di rifiuto

− t0.025(n−1)

−1 0 1 t0.025(n−1)

α 2 = 0.025 α 2 = 0.025

Figura 9.3: Regione di rifiuto per il test t. L’area tratteggiata sotto la distribuzione t diStudent con n− 1 gradi di liberta e 0.05.

x = 10.64 e s = 7.26. Sulla base di questi dati si puo accettare l’ipotesi che il consumo di

alcool delle studentesse sia lo stesso di quello delle donne italiane?

Il sistema di ipotesi e il seguente{H0 : µ = 9.5HA : µ 6= 9.5

La statistica test e:

t =x− µ0

s√n

=10.64− 9.5

7.26√14

= 0.59

Il valore soglia per costruire la regione di rifiuto lo cerchiamo nella Tabella A.5 della t di

Student. In questa tabella p indica la probabilita sotto la curva della distribuzione di una

t di Student con g gradi di liberta. Tale probabilita e data dall’area tratteggiata in Figura

9.4. Quindi il valore che noi cerchiamo e in corrispondenza della colonna con p = 0.975 in

quanto questo valore lascera alla sua destra un’area sotto la curva pari a 0.025. Essendo

le osservazioni n = 14 i gradi di liberta sono 13, per cui dobbiamo incrociare la colonna

con p = 0.975 con la riga avente g = 13. Il valore corrispondente e 2.16. Quindi la regione

di rifiuto puo essere scritta come

R = {t < −2.16 o t > 2.16} .

Poiche la statistica test t = 0.59 non appartiene a questa regione accettiamo l’ipotesi nulla.

Il consumo delle studentesse si puo ritenere in linea con il consumo delle donne italiane.


Area sotto la distribuzione t di Student

−5 −3 −1 0 1 tpg

3 5

Figura 9.4: Area sotto la curva di una distribuzione t di Student al variare dei gradi diliberta e di p come riportati in Tabella A.5.

Esempio 9.2.2. Un gruppo di n = 9 studenti laureati in sociologia si sottopone ad un test

psicometrico prima di essere assunti da una compagnia. La performance in questo test di

tutti partecipanti ha una distribuzione normale con media µ0 = 62. La media aritmetica

ottenuta dai 9 studenti nel test e x = 66.33, mentre la standard deviation misurata sui 9

studenti e stata s = 4.04. Si puo ritenere, a livello α = 0.05, che gli studenti laureati in

sociologia che hanno partecipato al test hanno una performance diversa da quella di tutti

gli altri studenti?

Svolgiamo l’esercizio passo per passo.

1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA.{H0 : µ = 62HA : µ 6= 62

2. Calcolare la statistica test t. I valori del campione x1, x2, . . . , x9 non li conosciamo

ma conosciamo la media x e s. La statistica test e

t =x− µ0

s√n

=66.33− 62

4.04√9

= 3.22


soglia occorre cercare nella tavola della t di Student con n− 1 = 8 gradi di liberta,

quei valori che lasciano a destra un’area pari a 0.025, indichiamo tale valore con

9.3. CONFRONTO TRA TEST Z E TEST T 129

t80.025, e il valore che lascia alla sua sinistra un’area di 0.025 sara per simmetria il

valore −t80.025. Il valore cercato lo troviamo nella tavola all’incrocio con i gradi di

liberta g = 8 e probabilita p = 0.975 ed e t80.025 = 2.306. La regione di rifiuto e

R = {t < −2.306 o t > 2.306}


rifiutare H0. Poiche t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, infatti

3.22 e maggiore di 2.306.

9.3 Confronto tra test z e test t

Nell’esempio che segue si mostra come varia la regione di rifiuto nel caso di popolazione

normale quando σ non e noto e quando σ si suppone noto.

Si supponga di dover verificare l’ipotesi

H0 : µ = 0.5

dove µ0 = 0.5 rappresenta il valor medio del tasso alcolemico che e tollerato dal codice

della strada. Supponiamo quindi che il tasso alcolemico sia la variabile X e che abbia

distribuzione normale. L’ipotesi alternativa puo essere definita come

HA : µ 6= 0.5

In un primo caso supponiamo che lo scarto quadratico medio della popolazione sia noto e

valga σ = 0.1.

Fissiamo il livello di significativita del test: α = 0.05. Supponiamo di andare a misurare

per n volte il tasso alcolemico di una persona e di calcolare la media degli n valori,

otteniamo quindi il valore xn.

Per quanto descritto nella Sezione 9.2.1 il test da utilizzare e il test z e la regione di

rifiuto e data da

|z| =∣∣∣∣ xn − µ0

σ/√n

∣∣∣∣ > zα/2

Quindi, poiche zα/2 = 1.96 rifiutiamo l’ipotesi nulla se il valore calcolato |z| > 1.96.

Ovviamente la quantita z dipende da tanti fattori: n, il valore calcolato e osservato sul

campione xn e σ. Nella tabella che segue si riportano i valori della statistica |z| e la

corrispondente decisione, al variare di n nel caso in cui si supponga di osservare comunque

sempre lo stesso valore xn = 0.60 per n diversi.

n xn σ |z| decisione

3 0.6 0.1 1.73 Non rifiuto H0

5 0.6 0.1 2.23 rifiuto H0

10 0.6 0.1 3.16 rifiuto H0

20 0.6 0.1 4.47 rifiuto H0


Si noti come a parita di tutte le condizioni, il valore della statistica test cresce al crescere

di n. Piu il campione e grande, pu il valore 0.60 osservato come media di n osservazioni,

viene considerato inusuale per una popolazione con media vera µ = 0.50. La probabilita

di osservare un valore oltre il valore della statistica osservato, risulta quindi sempre piu

piccolo. L’area sotto la curva normale standardizzata oltre 4.47 e maggiore dell’area oltre

3.16 che e maggiore dell’area oltre 2.23. Il valore dell’area e una quantita importante nella

teoria dei test statistici, perche nel caso in cui si rifiuta l’ipotesi nulla, da una misura di

quanto e plausibile l’ipotesi nulla. Piu osserviamo un valore alto della statistica, meno e

plausibile l’ipotesi nulla. torneremo su questo concetto nel paragrafo sul p-value.

Continuiamo nel nostro esempio, e supponiamo ora di non conoscere σ e quindi di

stimarlo con s sui dati osservati. Supponiamo di osservare anche in questo caso, sempre

gli stessi valori di nn e sn per diversi valori di n. Precisamente, supponiamo che nn = 0.60

e sn = 0.1. In questo caso il test e il test t e la statistica test da considerare per quanto

visto nel Paragrafo 9.2.2 `e la t di Student e la regione di rifiuto risulta

|t| =∣∣∣∣ xn − µ0

sn/√n

∣∣∣∣ > tn−10.025

Nella tabella che segue riportiamo i valori della statistica t, i valori soglia e la decisione

per i diversi valori di n.

n xn σ |t| tn−10.025 decisione

3 0.6 0.1 1.73 4.30 Non rifiuto H0

5 0.6 0.1 2.23 2.78 Non rifiuto H0

10 0.6 0.1 3.16 2.26 rifiuto H0

20 0.6 0.1 4.47 2.09 rifiuto H0

Si noti come il valore della statistica test t e lo stesso di z. Infatti le quantita in gioco

sono le stesse numericamente. Quello che cambia sono le condizioni sotto le quali stiamo

verificando l’ipotesi nulla. Nel primo caso lo s.q.m. era supposto noto, nel secondo non

noto.

Si supponga ora che l’osservazione della media sia xn = 0.55 sempre lo stesso anche

in questo caso per diversi valori di n. Consideriamo il caso in cui σ sia noto. I valori

della statistica test z sono riportati nella seguente tabella e vanno sempre confrontati con

il valore soglia zα/2 = 1.96.

n xn σ |z| decisione

3 0.55 0.1 0.87 Non rifiuto H0

5 0.55 0.1 1.12 Non rifiuto H0

10 0.55 0.1 1.58 Non rifiuto H0

20 0.55 0.1 2.23 rifiuto H0

9.4. IL LIVELLO DI SIGNIFICATIVIA DEL TEST: α 131

Si noti come in questo caso, avendo osservato un valore medio piu vicino al valore specifi-

cato dall’ipotesi nulla, si riesce a rifiutare solo se il valore medio x = 5.5 e ottenuto come

media di 20 osservazioni.

Nel caso in cui σ non sia noto e viene stimato con s = 0.1 si riportano nella seguente

tabella i valori della statistica t e i valori soglia che variano al variare di n.

n xn σ |t| tn−10.025 decisione

3 0.55 0.1 0.87 4.30 Non rifiuto H0

5 0.55 0.1 1.12 2.78 Non rifiuto H0

10 0.55 0.1 1.58 2.26 Non rifiuto H0

20 0.55 0.1 2.23 2.09 rifiuto H0

Anche in questo caso si rifiuta solo per per n = 20. si noti come comunque il valore

osservato della statistica, 2.23, in questo caso sia piu vicino al valore soglia che in questo

caso e 2.09, mentre nel caso precedente il valore soglia e 1.96.

9.4 Il livello di significativia del test: α

Abbiamo visto nelle sezioni precedenti le regioni di rifiuto per verifiche d’ipotesi con errore

di primo tipo α uguale a 0.05. Se il livello di significativia del test varia, anche la regione

di rifiuto cambia. Ad esempio se il livello diventa α = 0.01 la regione di rifiuto per il primo

caso pratico trattato e

R = {z < −2.575 o z > 2.575}

Il valore −2.575 e quel valore che lascia alla sua sinistra sotto la curva della distribuzione

normale standardizzata un’area pari a 0.005. Mentre per simmetria il valore 2.575 lascia

alla sua destra sotto la curva della distribuzione normale standardizzata un’area pari

a 0.005. Adottiamo un po’ di notazioni. Se indichiamo con α2 la meta del livello di

significativita, siamo in grado di calcolare la regione di rifiuto per qualunque valore di

significativia α. Infatti se indichiamo con zα2

il valore sotto la curva normale che lascia

alla sua destra un’area pari a α2 la generica regione di rifiuto puo essere scritta come

R ={z < −zα

2o z > zα

2

}Si noti che se α = 0.05, α2 = 0.025 e zα

2= 1.96 mentre se α = 0.01, α2 = 0.005 e zα

2= 2.575.

Risulta percio evidente che se vogliamo calcolare la regione di rifiuto a livello α = 0.02

poiche α2 = 0.01 il valore nelle tavole della Normale standardizzata che lascia alla sua

destra un’area di 0.01 e 2.325. Quindi la regione di rifiuto e

R = {z < −2.325 o z > 2.3255}

Nel caso della verifica d’ipotesi per la proporzione le regioni di rifiuto sono le stesse. Nel

caso invece in cui la verifica d’ipotesi sia per la media della popolazione normale nel caso


in cui σ non sia noto e l’ampiezza campionaria n sia bassa, occorre ricorrere alla tavola

della t di Student per diversi valori di α. Nella tavola fornita occorrera cercare il valore

per p = 1− α2 in corrispondenza ai gradi di liberta g = n− 1.

9.5 Il p-value e il suo rapporto con α.

Quando si rifiuta l’ipotesi nulla di solito nella pratica si decide di compiere un’azione, in

quanto i dati ci hanno dato conferma che l’ipotesi nulla non e molto plausibile e rifiutandola

siamo propensi a credere che sia piu plausibile l’ipotesi alternativa. Nel rifiutare l’ipotesi

nulla sappiamo che possiamo commettere un errore ma l’errore e controllato dal livello

del test α: la probabilita di commettere un errore rifiutando l’ipotesi nulla e inferiore all’

α100%. Risulta evidente che piu e grande il valore della statistica test (in valore assoluto)

piu siamo sicuri nella scelta di rifiutare l’ipotesi nulla. Il p-value misura esattamente

questo livello di sicurezza. Piu e piccolo il p-vale piu siamo sicuri della nostra scelta di

rifiutare l’ipotesi nulla. Per il test z, sia z il valore della statistica test. Sappiamo che se

|z| > zα/2 rifiutiamo l’ipotesi nulla. Se andiamo a calcolare l’area sotto la curva normale

dal valore della statistica test |z| a +∞, poiche abbiamo rifiutato l’ipotesi nulla, tale area

sara minore di α/2. Tanto piu tale area e piccola, tanto piu il valore della statistica test

|z| e grande. Il p-value e esattamente il valore di questa area. In formula

p−value = P (Z > |z|).

In generale e sempre meglio fornire anche il valore del p-value per il test. La relazione tra

il livello di significativita e il p-value e la seguente:

• Rifiutiamo l’ipotesi nulla se p-value < α2

• Accettiamo l’ipotesi nulla se p-value ≥ α2

Riprendiamo l’esempio del paragrafo 9.3. Andiamo a calcolare utilizzando le tabelle

della distribuzione Normale, l’area della regione sotto la curva Normale dal valore osservato

della statistica in poi. Riportiamo i valori osservati e aggiungiamo una colonna per il valore

del p-value.

n xn σ |z| p-value decisione

3 0.6 0.1 1.73 0.042 Non rifiuto H0

5 0.6 0.1 2.23 0.013 rifiuto H0

10 0.6 0.1 3.16 0.001 rifiuto H0

20 0.6 0.1 4.47 0.000 rifiuto H0

Si noti come il primo valore e maggiore di 0.025 e quindi non si rifiuta H0. Negli atri tre

casi si rifiuta sempre H0 ma al crescere di n il p-value e sempre piu piccolo e quindi si

9.5. IL P -VALUE E IL SUO RAPPORTO CON α. 133

rifiuta sempre con maggior convinzione. Si noti che il valore del p-value per n = 20 e l’area

della regione sotto la distribuzione normale oltre il valore 4.47 e tale valore e 3.9 · 10−6

che corrisponde al numero piccolissimo 0.0000039. Il significato di questo numero e che se

fosse vera H0, cioe il vero valore di µ fosse 0.5, allora la probabilita di osservare una media

di 0.6 su 20 osservazioni sarebbe minore di 0.0000039, e quindi e veramente poco credibile

che l’ipotesi nulla sia vera, e quindi la rifiutiamo.

Per il test t sia t il valore della statistica calcolato. In questo caso il p-value misura

l’area sotto la curva della distribuzione t con i corrispondenti gradi di liberta. Se ad

esempio sono g i gradi di liberta dobbiamo andare a cercare i valori dell’area dal valore

|t| calcolato fino a +∞ sotto la curva della distribuzione normale con g gradi di liberta.

Poiche a volte le tavole della t di student forniscono solo alcuni valori delle aree, a volte

possiamo solo dare dei valori approssimati del p-value. La decisione per il test t sara la

stessa che per il test z. L’unica accortezza e che il valore del p-value va cercato nelle tavole

della t di Student con i corretti gradi di liberta.

• Rifiutiamo l’ipotesi nulla se p-value < α2

• Accettiamo l’ipotesi nulla se p-value ≥ α2

Ad esempio riprendiamo l’esempio del paragrafo 9.3 nel caso in cui σ non sia noto.

Andiamo a calcolare utilizzando le tabelle della distribuzione t di Student, l’area della

regione sotto la curva corrispondente dal valore osservato della statistica in poi. Riportia-

mo i valori osservati e aggiungiamo una colonna per il valore del p-value. In questo caso

possiamo solo dalla tabella dare un valore approssimato.

n xn σ |t| tn−10.025 p-value decisione

3 0.6 0.1 1.73 4.30 0.10 < p > 0.25 Non rifiuto H0

5 0.6 0.1 2.23 2.78 0.025 < p < 0.05 Non rifiuto H0

10 0.6 0.1 3.16 2.26 0.005 < p < 0.01 rifiuto H0

20 0.6 0.1 4.47 2.09 p < 0.0005 rifiuto H0

I valori che approssimano il p-value si trovano andando a cercare in corrispondenza della

riga dei gradi di liberta, i valori della statistica minore e maggiore di quello osservato. Ad

esempio per t = 1.73 per g = 2 gradi di liverta abbiamo nella tavola i valori 0.81650 e

1.88562 per cui 0.81650 < t < 1.88562. Quindi l’area da t = 1.73 in poi e compresa tra

0.10 e 0.25. (Occorre osservare che nella tavola in dotazione sono considerate le aree a

sinistra del valore dato. I valori riportati sono 0.90 per 1.88562 e 0.75 per 0.81650, ma

noi dobbiamo considerare le aree a destra e quindi passare ai complementi a 1 dei valori

riportati nella tavola).


9.6 Intervalli di confidenza e test bilaterali

Come si sara certamente notato il livello di confidenza 1− α per l’intervallo di confidenza

per la media di una popolazione, deve essere collegato al livello di significativita per il

test per la verifica dell’ipotesi nulla sulla media di una popolazione contro l’alternativa

bilaterale. In effetti sia per per il test z che per il test t la verifica d’ipotesi puo essere

effettuata costruendo l’intervallo di confidenza per la media a livello di fiducia 1− α dove

α e il livello di significativita del test e la decisione per il test e la seguente:

• Si rifiuta l’ipotesi nulla H0 : µ = µ0 se µ0 non appartiene all’intervallo di confidenza

costruito per la media della popolazione e livello 1− α

• Non si rifiuta l’ipotesi nulla H0 : µ = µ0 se µ0 appartiene all’intervallo di confidenza

costruito per la media della popolazione e livello 1− α

Abbiamo gia visto come si costruisce l’intervallo di confidenza per la media di una popo-

lazione quando lo scarto quadratico medio σ e noto o quando la numerosita campionaria e

abbastanza elevata e quindi possiamo utilizzare i valori zα/2 della distribuzione normale.

Ad esempio se l’intervallo di confidenza a livello 1− α = 0.95 per la media µ con σ noto,

risulta

I.C. = (x− 1.96σ√n, x+ 1.96

σ√n

)

Se il valore µ0 specificato dell’ipotesi nulla del test a livello di significativita α = 0.05 per

la media della popolazione, appartiene all’intervallo calcolato, non si rifiuta l’ipotesi nulla,

se µ0 non appartiene all’intervallo calcolato, si rifiuta l’ipotesi nulla.

Supponiamo invece di aver calcolato l’intervallo di confidenza a livello 1 − α = 0.95

per la media µ con σ non noto e quindi stimato con s, per una numerosita campionaria n

elevata (maggiore di 30, meglio se maggiore di 50). Esso e dato da

I.C. = (x− 1.96s√n, x+ 1.96

s√n

)

Anche in questo caso, se il valore µ0 specificato dell’ipotesi nulla del test a livello di

significativita α = 0.05 per la media della popolazione, appartiene all’intervallo calcolato,

non si rifiuta l’ipotesi nulla, se µ0 non appartiene all’intervallo calcolato, si rifiuta l’ipotesi

nulla.

Per quanto riguarda il test t, quando cioe σ non e noto, la numerosita campionaria e

bassa e possiamo ritenere il fenomeno distribuito come una normale, dobbiamo costruire

l’intervallo di confidenza per la media dela popolazione µ in questo caso. Per fare questo

la procedura e la stessa che nel caso di popolazione Normale con sigma noto o nel caso di

popolazione qualunque ma numerosita elevata, con la sola differenza che dobbiamo calcolar

ein ogni caso s e cercare il valore che determina l’ampiezza dell’intervallo nelle tavole della

t di student, con i gradi di liberta pari a n− 1. Vediamo con ordine gli ingredienti:

9.7. TEST CON ALTERNATIVA UNILATERALE 135

• Calcolare x = 1n

∑nk=1 xi

• Calcolare s =√

1n−1

∑nk=1(xi − x)2

• Calcolare i gradi di liberta n− 1

• Cercare il valore corrispondente sulla tavola della t di Student in corrispondenza di

p = 1− α/2 e gradi di liberta n− 1.

Ad esempio il valore per n = 12 e quindi n−1 = 11 per un livello di fiducia di 1−α = 0.95

e dato dal valore t110.025 = 2.0099. Tale valore lo troviamo nella Tavola A.5 in appendice

per g = 11 e p = 0.975 in quanto la tavola riporta l’area da −∞ al valore prefissato.

L’intervallo di confidenza risulta quindi

I.C. = (x− tn−1α/2

s√n, x+ tn−1

α/2

s√n

)

Anche in questo caso, se il valore µ0 specificato dell’ipotesi nulla del test a livello di

significativita α = 0.05 per la media della popolazione, appartiene all’intervallo calcolato,

non si rifiuta l’ipotesi nulla, se µ0 non appartiene all’intervallo calcolato, si rifiuta l’ipotesi

nulla.

9.7 Test con alternativa unilaterale

A volte si e praticamente sicuri della direzione in cui si e spostato il valore della media,

per cui invece di verificare l’ipotesi se la media e un certo valore contro l’alternativa che

sia diversa (test bilaterale) si verifica se la media e un certo valore contro l’alternativa che

sia maggiore (oppure minore) del valore specificato con l’ipotesi nulla. Si tratta del test

ad una coda ovvero del test con alternativa unilaterale. Per questo tipo di test l’ipotesi

nulla e la stessa

H0 : µ = µ0

mentre l’alternativa puo essere di tipo unilaterale destra

HA : µ > µ0

quando siamo convinti che il valore della media sia cresciuto rispetto al valore dichiarato.

Oppure l’alternativa puo essere di tipo unilaterale sinistra

HA : µ < µ0

quando siamo convinti che il valore della media sia diminuito rispetto al valore dichiarato.

A questo punto fissato il livello del test α = 0.05 occorre determinare la regione di

rifiuto ed e a questo punto che sta la grossa differenza tra test unilaterali e quelli bilaterali.


In questi ultimi abbiamo visto che l’errore α veniva spezzato in due parti (una a sinistra

e una a destra) della distribuzione della statistica test. Nei test unilaterali questo errore e

invece tutto da una parte. Tale parte ovviamente dipende dal tipo di alternativa unilaterale

che stiamo verificando. Se ad esempio abbiamo l’ipotesi unilaterale destra µ > µ0 la regione

di rifiuto a livello α = 0.05 e

R = {z > 1.645}

dove 1.645 e il valore sotto la curva normale standardizzata che lascia alla sua destra

un’area pari a 0.05. La regione di rifiuto e riportata in Figura 9.5. Se invece il tet consiste

Regione di rifiuto

0 1.645

α = 0.05

Figura 9.5: Regione di rifiuto per il test unilaterale con alternava destra a livello α = 0.05.

nel verificare l’ipotesi nulla µ = µ0 contro l’alternativa unilaterale sinistra µ < µ0, la

regione di rifiuto a livello α = 0.05 e

R = {z < −1.645}

dove −1.645 e il valore sotto la curva normale standardizzata che lascia alla sua sinistra

un’area pari a 0.05. La regione di rifiuto e riportata in Figura 9.6.

Se cambia il livello del test cambia solo il valore soglia da ricavare dalla tavola in

corrispondenza del valore α specificato.

Per il test per la media di una popolazione normale quando lo scarto quadratico medio

non e noto e la numerosita del campione minore di 30 si procede con la statistica t e si

utilizza la tavola della t di Student per determinare la regione di rifiuto quando l’alternativa

e una delle due unilaterale destra o sinistra. Vediamo i passi per questo test nei due casi.

Fissato α = 0.05 consideriamo l’ipotesi alternativa unilaterale destra.

9.7. TEST CON ALTERNATIVA UNILATERALE 137

Regione di rifiuto

−1.645 0

α = 0.05

Figura 9.6: Regione di rifiuto per il test unilaterale con alternava sinistra a livello α = 0.05.

1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA.{H0 : µ = µ0

HA : µ > µ0


data da

t =x− µ0

s√n


soglia occorre cercare nella tavola della t di Student con n− 1 gradi di liberta, quel

valore che lascia a destra un’area pari a 0.05, indichiamo tale valore con tn−10.05 . La

regione e:

R ={t > tn−1

0.05

}4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o


l’accettiamo.

Consideriamo ora l’ipotesi alternativa unilaterale sinistra

1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA.{H0 : µ = µ0

HA : µ < µ0



data da

t =x− µ0

s√n


soglia occorre cercare nella tavola della t di Student con n− 1 gradi di liberta, quel

valore che lascia a sinistra un’area pari a 0.05, indichiamo tale valore con −tn−10.05 . La

regione e:

R ={t < −tn−1

0.05

}4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o


l’accettiamo.

Si noti che rispetto ai test bilaterali quello che cambia e unicamente il valore soglia a

parita di statistica test e livello del test in quanto tutto l’errore di prima specie viene

scaricato nella direzione dell’ipotesi alternativa. Se l’ipotesi nulla e vera si sbaglia sono in

una direzione. A parita di livello α la soglia della regione di rifiuto per un test unilaterale

e sempre minore del corrispondente test bilaterale e quindi si rifiutera l’ipotesi nulla con

piu facilita.

Vediamo un esempio

Esempio 9.7.1. Riprendiamo l’Esercizio 9.2.2 Gli studenti laureati in sociologia sono

convinti di essere nettamente sopra la media della performance in questo test. Impostare

una verifica d’ipotesi per stabilire se tale affermazione e credibile.

Svolgiamo l’esercizio passo per passo, anche se con le considerazioni fatte se abbiamo

rifiutato l’ipotesi nulla nel caso di test bilaterale, questa allo stesso livello sara rifiutata

anche per il test unilaterale destra. Vediamo cosa accade.

1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA.{H0 : µ = 62HA : µ > 62

2. Calcolare la statistica test t. I valori del campione x1, x2, . . . , x9 non li conosciamo

ma conosciamo la media x e s. La statistica test e

t =x− µ0

s√n

=66.33− 62

4.04√9

= 3.22

Come si vede il valore della statistica test non cambia.

9.8. ESERCIZI 139


soglia occorre cercare nella tavola della t di Student con n− 1 = 8 gradi di liberta,

quel valori che lascia a destra un’area pari a 0.05, indichiamo tale valore con t80.05.Il

valore cercato lo troviamo nella tavola all’incrocio con i gradi di liberta g = 8 e

probabilita p = 0.95 ed e t80.05 = 1.86. La regione di rifiuto e

R = {t > 1.86}

Come si vede la regione di rifiuto a destra e piu grande della parte destra nel caso

di alternativa bilaterale.


rifiutare H0. Poiche t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, infatti

3.22 e maggiore di 1.86 come lo era di 2.306.

9.8 Esercizi

1. Una ricerca vuole stabilire l’ete media a cui le donne iniziano a fumare. Una ri-

cercatrice intervista 25 fumatrici e chiede loro l’eta in cui hanno fumato la prima

sigaretta. La media campionaria sulle 25 intervistate e stata x = 16.8 anni e lo

scarto quadratico medio s = 1.5 anni.

(a) Verificare, con un livello di significativita α = 0.05 se la media dell’eta in cui si

fuma la prima sigaretta possa considerarsi 16 anni contro l’alternativa che sia

diversa. (Utilizzare il test t).

(b) Calcolare un intervallo di confidenza per la media dell’eta in cui si inizia a

fumare per l’intera popolazione. Fissare il livello di confidenza 1−alpha = 0.95.

(c) Sulla base dell’intervallo calcolato l’esito del test e confermato?

2. Per determinare il grado di tolleranza verso gli stranieri in un campus universitario

agli studenti viene sottoposto un questionario i cui punteggi sono classificati da 1

a 10 dove un punteggio alto indica maggiore tolleranza e un punteggio basso minor

tolleranza. Su 40 questionari riconsegnati e stata calcolata la media x = 6 e lo scarto

quadratico medio s = 1.5.

(a) Verificare l’ipotesi che la media dell’indice di tolleranza nel campus sia µ = 7

contro l’alternativa che sia diverso. Fissare il livello del test α = 0.01.

(b) Il p value per questo test quanto vale?

(c) Costruire l’intervallo di confidenza a livello di fiducia 1− α = 0.99 e sulla base

dell’intervallo calcolato traete la conclusione per la verifica d’ipotesi precedente.


Capitolo 10

La proporzione

Fino ad ora abbiamo considerato variabili continue dove la statistica considerata per lo

studio era la media campionaria. In questo capitolo consideriamo invece la proporzione di

un certo evento di interesse valutata su un campione rappresentativo di una popolazione.

Ad esempio possiamo essere interessati alla proporzione di studenti maschi nella facolta di

lettere e letterature straniere, o alla proporzione di fumatori nella popolazione italiana o

ancora alla proporzione di lavoratori della provincia di Bergamo con un reddito inferiore

a 20000 euro all’anno.

10.1 Il modello

In tutti e tre gli esempi di prima possiamo immaginare la popolazione in cui l’interesse e

per una caratteristica (che viene codificata come successo: il fatto di essere maschi nella

popolazione degli studenti di lettere e letterature straniere, il fatto di essere fumatori nella

popolazione degli italiani, il fatto di essere un lavoratore bergamasco con un reddito di

meno di 20000 euro all’anno).

Indichiamo con π, la lettera pi greca, la vera proporzione di successo nella popolazione

in oggetto. Se vogliamo avere qualche informazione su questo valore incognito π possiamo

scegliere in modo rappresentativo un campione di n elementi nella popolazione e vedere

(contare) quante volte si realizza il successo. Ad esempio possiamo scegliere un campione

di 40 studenti e studentesse dell’Universita di Bergamo e contare i maschi. Oppure un

campione di 6000 italiani e contare i fumatori, oppure ancora un campione di 500 lavoratori

della provincia di Bergamo e contare quelli che hanno un reddito inferiore ai 20000 euro.

In tutti questi casi scegliamo un campione di ampiezza n e codifichiamo con 1 il successo

e con 0 l’insuccesso. Registriamo quindi 1 ogni volta che sull’unita del campione osserviamo

il successo e 0 ogni volta che registriamo insuccesso. Se indichiamo con k il numero di

successi avremo che la proporzione di successi nel campione e data dal rapporto tra il

141

142 CAPITOLO 10. LA PROPORZIONE

numero dei successi e il numero delle unita nel campione

p =

1 + 1 + . . .+ 1︸︷︷︸k volte

+0 + . . .+ 0︸︷︷︸n−k volte

n=k

n.

La quantita p = kn e detta proporzione campionaria e costituisce la grandezza fondamentale

per l’inferenza sulla proporzione vera π.

In particolare vale il seguente risultato, analogo a quello della media campionaria per

la media incognita µ.

Teorema 10.1.1. p e la migliore stima puntuale per π basata su un campione di nume-

rosita n.

In effetti se si guarda a come e definita p, essa e una media campionaria di n grandezze

x1, x2, . . . , xn, che possono solo assumere il valore 1 o il valore 0.

Quindi, ad esempio, stimeremo la proporzione vera di studenti maschi alla facolta di

lettere con la proporzione campionaria valutata sul campione di 40 studenti. Naturalmente

sara preferibile fornire un intervallo come stima fornendo anche l’informazione su quanto

siamo confidenti che il vero valore stia nell’intervallo fornito come stima. Per costruire

quindi l’intervallo di confidenza con un certo grado di fiducia abbiamo il seguente risultato

che deriva dal teorema fondamentale della statistica.

Teorema 10.1.2. Se n e grande la distribuzione di p e approssimativamente normale con

media π e scarto quadratico medio

√π(1−π)

n .

L’importanza di questo risultato e evidente. Se abbiamo qualche informazione sulla

proporzione di una evento di interesse in una popolazione e osserviamo su un campione di

numerosita n una certa proporzione campionaria p, possiamo, dopo aver calcolato lo score

di questa proporzione campionaria, valutare se e un valore attendibile per la popolazione

che stiamo considerando. Prima quindi di vedere come costruire l’intervallo di confidenza

per la proporzione incognita π, vediamo questo esempio.

Esempio 10.1.3. Nell’esame di statistica la proporzione di promossi ad un generico ap-

pello e stata comunicata dalla docente ed e del 70%. Durante l’appello per gli studenti

fuori corso si presentano 17 studenti e 10 passano l’esame di statistica. Possiamo dire che

gli studenti che si sono presentati all’appello per i fuori corso sono particolarmente non

bravi? Al primo appello utile dopo la fine del corso si presentano 92 studenti e 80 passano

l’esame. Cosa possiamo concludere per questi studenti?

La percentuale di studenti che passa l’esame all’appello riservato agli studenti fuori

corso e p = 1017 = 0.59. Lo score di questa proporzione lo ottengo calcolando prima lo

10.2. INTERVALLO DI CONFIDENZA PER LA PROPORZIONE π 143

standard error per la proporzione di studenti che passano l’esame di statistica in questo

appello. Questo e dato da√

0.70∗0.3017 = 0.11. Quindi lo score e

z =0.59− 0.70

0.11= −1

Calcolando l’area sotto la distribuzione normale standardizzata prima di -1 ho un’indica-

zione relativa alla probabilita con cui avrei potuto osservare un numero di studenti che

ha passato l’esame inferiore a quello che ho realmente osservato. Dalle tavole ricavo che

il valore della propabilita cercata e circa 0.16. Quindi con una probabilita di circa il 16 %

avrei potuto osservare un numero inferiore di successi. Quindi concludo che gli studenti

fuori corso non sono particolarmente non bravi.

Veniamo al primo appello utile dopo aver seguito il corso. La proporzione di studenti

che ha passato l’esame e p = 0.87. Lo standard error e√

0.70∗0.3092 = 0.05 La probabilita

di osservare piu di 80 studenti che passano l’esame su 92 e 0.0003 cioe solo in 3 appelli

su 10000 avrei osservato una simile percentuale di successi, quindi sono particolarmente

preparati gli studenti che sostengono il primo appello utile.

Esercizio 10.1.4. Due sondaggi rappresentativi a livello nazionale sono stati condotti nel

2011 e 2012 su un campione totale di 6167 adulti. La percentuale dei fumatori in Italia

diminuisce, passando dal 22.7% nel 2011 al 20.8% nel 2012. Gli uomini fumano piu delle

donne: 25.3% contro il 18.4%.

Su un campione di 50 studenti presenti oggi in aula osserviamo p = 650 = 0.12.

1. Calcolare la probabilita che un campione abbia la proporzione piu bassa di quella

osservata.

10.2 Intervallo di confidenza per la proporzione π

Quando non si possiede nessuna informazione sulla popolazione e vogliamo stimare la

proporzione incognita di un certo evento che rappresenta il successo, possiamo invece che

fornire solo la stima puntuale, valutata come la proporzione campionaria p del numero di

successi in n osservazioni, fornire un intervallo di confidenza per la proporzione incognita

π. L’intervallo di confidenza al 95% di fiducia e dato dalla seguente formula:

I.C al 95% =

(p− 1.96

√p(1− p)

n; p+ 1.96

√p(1− p)

n

).

Si osservi che nello standar error (o scarto quadratico medio di p) non compare il valore

incognito π (e come potrebbe: non ne conosciamo il valore, ne stiamo cercando una stima

con un intervallo di confidenza!), ma compare invece la miglior stima di π dove nella

formula dello standard error compariva π. Si tenga poi presente che tale intervallo e


un intervallo che e tanto migliore tanto piu e grande n. In modo analogo l’intervallo di

confidenza al 99% di fiducia e dato dalla seguente formula:

I.C al 99% =

(p− 2.575

√p(1− p)

n; p+ 2.575

√p(1− p)

n

). (10.1)

Esercizio 10.2.1. Supponendo che il campione osservato nell’ Esercizio 10.1.4, sia rap-

presentativo della popolazione italiana, sulla base del risultato campionario rilevato, cal-

colare l’intervallo di confidenza a livello 95% per la proporzione di fumatori in Italia. Tale

intervallo contiene la proporzione fornita dallo studio per il 2012?

Esercizio 10.2.2. La seguente tabella riporta i risultati pubblicati sui quotidiani The

Indipendent e The Daily Telegraph nel 1992 sulle intenzioni di voto dei britannici.

Fonte Intenzione di voto (in %)n Consevatori Laburisti

The Indipendent 1746 39.0 42.0The Daily Telegraph 2478 38.5 38.0

1. Calcolare l’intervallo di confidenza per le quattro proporzioni.

2. Gli intervalli per la proporzione di votanti per i conservatori e per i laburisti dei due

quotidiani si sovrappongono?

3. Potete concludere da questi dati chi sara il vincitore delle elezioni e con che distacco?

4. Fare una ricerca per trovare il vincitore e il distacco.

L’esercizio non fornisce il livello di confidenza. In questi casi si assume il livello 95%.

Applicando la formula (10.1) otteniamo i seguenti intervalli per i dati forniti dai due

quotidiani:

1. Partito conservatore dati da The Indipendent :

I.C al 95% = (0.367, 0.413) = (36.7%; 41.3%)

2. Partito laburista dati da The Indipendent :

I.C al 95% = (0.397, 0.443) = (39.7%; 44.3%)

3. Partito conservatore dati da The Daily Telegraph:

I.C al 95% = (0.366, 0.404) = (36.6%; 40.4%)

10.3. VERIFICA D’IPOTESI PER LA PROPORZIONE 145

4. Partito laburista dati da The Daily Telegraph:

I.C al 95% = (0.361, 0.399) = (36.1%; 39.9%)

Si noti come gli intervalli calcolati per il The Daily Telegraph siano piu precisi, cioe piu

stretti, hanno un’ampiezza di 0.038, cioe 3.8 punti percentuali, rispetto a quelli calcolati

per il The Indipendent, che hanno un’ampiezza di 0.046, cioe di 4.6 punti percentuali.

Questo e dovuto alla maggiore numerosita del campione. Il distacco stimato dal The Indi-

pendent si ottiene facendo la differenza delle due stime, e quindi e di tre punti percentuali,

mentre la stima data dal The Daily Telegraph e praticamente i due partiti con la stessa

percentuale di voti, stimando la differenza con solo mezzo punto percentuale.

I due intervalli calcolati per il giornale The Indipendent non si intersecano e danno la

vittoria al partito laburista. I due intervalli calcolati per il giornale The Daily Telegraph

si intersecano e sembrerebbe in leggero vantaggio il partito conservatore.

I risultati delle elezioni smentirono quasi tutti i sondaggi pre elettorali, soprattutto per

il distacco tra le percentuali dei due partiti.

Esercizio 10.2.3. Con riferimento ai dati riportati nella Sezione 2.7.3, calcolare l’inter-

vallo di confidenza al 95% per la percentuale di giovani uomini che danno il primo bacio

a carattere sessuale prima dei 15 anni.

Occorre prima di tutto stimare la percentuale di giovani uomini che danno il bacio

prima dei 15 anni. Sono 22 i ragazzi che hanno dato il primo bacio prima dei 15 anni,

quindi p = 2242 = 0.52. L’intervallo richiesto risulta (0.52± 0.15) ovvero (0.37; 0.67). Posso

concludere che con un grado di fiducia del 95% la percentuale di ragazzini che da il primo

bacio prima dei 15 anni e compresa tra il 37% e il 67%.

Esercizio 10.2.4. Con riferimento ai dati riportati nella Sezione 2.7.3, calcolare l’inter-

vallo di confidenza al 95% per la percentuale di giovani uomini che danno il primo bacio

a carattere sessuale dopo i 15 anni.

Occorre prima di tutto stimare la percentuale di giovani uomini che danno il bacio

dopo i 15 anni. Sono 8 i ragazzi che hanno dato il primo bacio prima dei 15 anni, quindi

p = 842 = 0.19. L’intervallo richiesto risulta (0.19 ± 0.12) ovvero (0.07; 0.31). Posso

concludere che con un grado di fiducia del 95% la percentuale di ragazzini che da il primo

bacio dopo i 15 anni e compresa tra il 7% e il 31%.

10.3 Verifica d’ipotesi per la proporzione

La procedura per la verifica d’ipotesi puo essere applicata anche al caso in cui si vo-

glia sottoporre a verifica il valore della proporzione di un certo evento d’interesse su una

popolazione. Vediamo in questo caso i 4 passi.


1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA. Ab-

biamo un’affermazione sul parametro π:{H0 : π = π0

HA : π 6= π0

2. Per il teorema 10.1.2 calcoliamo lo z score della proporzione campionaria calcolata

sull’osservazione di un campione di ampiezza n. Indicata con p tale proporzione

abbiamo:

z =p− π0√π0(1−π0)

n


soglia sempre il Teorema 10.1.2 garantisce che se n e abbastanza grande la distri-

buzione degli score e normale standardizzata. Quindi la regione di rifiuto a livello

α = 0.05 e ancora

R = {z < −1.96 o z > 1.96}

4. Decidere sulla base del valore z. Se z appartiene a R rifiutiamo l’ipotesi nulla,

altrimenti accettiamo l’ipotesi nulla.

Esempio 10.3.1. Un magazzino dichiara di non commettere discriminazione sulla base

dell’etnia dei suoi dipendenti. Meta di essi appartengono infatti a una minoranza etnica.

Osservando i dati dei licenziati nell’ultimo anno i dati dicono che di 28 persone licenziate

23 appartengono alla minoranza etnica. Il magazzino commette il reato di discriminazione

della minoranza?

Se l’affemazione del magazzino fosse vera, cioe se non ci fosse discriminazione il valore

di p = 2328 = 0.82 dovrebbe essere tale da non far rifiutare l’ipotesi nulla. Applichiamo i

passi per la verifica di ipotesi per la proporzione a questo problema. Il sistema di ipotesi e{H0 : π = 0.50HA : π 6= 0.50

Calcoliamo quindi lo z score della proporzione osservata p = 0.82:

z =p− π0√π0(1−π0)

n

=0.82− 0.50√

0.50(1−0.50)28

= 3.39.

Poiche il valore 3.39 appartiene alla regione di rifiuto R = {z < −1.96 o z > 1.96}, rifiutia-

mo l’ipotesi nulla. Quindi non possiamo credere all’affermazione del magazzino riguardo

alla mancanza di discriminazione.

Esercizio 10.3.2. Determinare il numero massimo di licenziati appartenenti alla mino-

ranza etnica affiche l’ipotesi nulla non sia rifiutata.

10.3. VERIFICA D’IPOTESI PER LA PROPORZIONE 147

Esercizio 10.3.3. Un indagine vuole determinare se tra i tifosi viene visto favorevolmente

il fatto che ai giocatori di calcio venga fatto il test anti-doping dopo ogni partita. Si

intervistano 400 tifosi per i quali risulta che il 64% e favorevole a tale procedura.

1. Verificare se la vera proporzione di favorevoli a tale procedura possa ritenersi pari a

π0 = 0.60 contro l’alternativa che sia diversa. Fissare il livello del test a α = 0.05.

2. quale sarebbe stata la conclusione del test se lo stesso risultato p = 0.64 fosse stato

ottenuto intervistando n = 1000 tifosi?


Capitolo 11

Confronto di medie

Nei capitoli precedenti abbiamo considerato una sola variabile di interesse, cioe un solo

fenomeno e su di esso abbiamo calcolato gli intervalli di confidenza per la media incognita e

abbiamo fatto delle ipotesi sul valore di questa media incognita (il parametro µ) basandoci

sui risultati del fenomeno osservati su un campione della stessa popolazione. Nei fenomeni

di carattere sociale e invece importante considerare e verificare se sono presenti delle

differenze, ad esempio se il tasso di disoccupazione dei giovani sia diverso tra uomini

e donne o se si possa ritenere uguale e quindi non dipendere dal genere. Oppure se

ad esempio cattolici o protestanti abbiano tendenze diverse sull’essere o meno favorevoli

all’aborto. E importante osservare che nella ricerca (anche in campo sociale) si e interessati

a trovare e studiare differenze piuttosto che a stabilire che queste differenze non esistono.

Dalla constatazione di una differenza nasce spesso lo spunto per intraprendere un nuovo

studio e partire con una nuova ricerca.

11.1 Differenza delle medie per popolazioni normali

Per introdurre le necessarie notazioni, partiamo da un esempio. Supponiamo di voler capire

quale tra due metodi e piu efficace per sviluppare la memoria nei giovani che studiano a

livello universitario. Si scelgono a caso tra i giovani, 5 soggetti che verranno sottoposti

al metodo A e altri 5 che verranno sottoposti al metodo B. Dopo il trattamento viene

effettuato un test per valutare l’effetto dei due metodi. I risultati del test sono riportati

nella Tabella 11.1. Se vogliamo valutare i risultati dei due metodi confrontando la media

nei due gruppi, come si vede dai risultati riportati nella Tabella 11.1, nel gruppo sottoposto

al metodo A la media ottenuta e 16 e i valori si attestano attorno al questo valore, mentre

nel gruppo che e stato sottoposto al metodo B i valori si attestano attorno al valore 20 che

e la media. Saremmo propensi a credere che ci sia differenza tra i due metodi osservando

i risultati sui due gruppi. Ora si supponga che i risultati nei due gruppi abbiano sempre

dato la stessa media, ma le osservazioni sui singoli soggetti siano diverse. Le riportiamo

149

150 CAPITOLO 11. CONFRONTO DI MEDIE

Metodo A Metodo B

16 2015 1917 2115 2017 20

xA = 16 xB = 20

Tabella 11.1: Risultati primo esperimento test sulla memoria.

Metodo A Metodo B

20 1516 1612 2413 2019 25

xA = 16 xB = 20

Tabella 11.2: Risultati secondo esperimento test sulla memoria.

nella Tabella 11.2. Come si vede le singole osservazioni nei due gruppi sono molto instabili

attorno ai valori medi. In questa situazione siamo piu restii a considerare una differenza

effettiva tra i due gruppi. Cercheremo ora di fornire un metodo quantitativo per stabilire

sulla base delle osservazioni se ci sia una differenza tra i due gruppi.

Denotiamo con X1 e X2 le due popolazioni che hanno subito il trattamento A (nel-

l’esempio il gruppo sottoposto al metodo A) e il trattamento B. Supponiamo che le due

popolazioni siano Normali, ciascuna caratterizzata dai propri parametri incogniti media e

scarto quadratico medio.

Sia µ1 il parametro che rappresenta la media incognita nella prima popolazione e sia µ2

il parametro che rappresenta la media incognita nella seconda popolazione. Supponiamo

che la variabilita nella due popolazioni sia la stessa e denotiamo lo scarto quadratico medio

di entrambe le popolazioni con σ.

Vogliamo verificare l’ipotesi nulla

H0 : µ1 = µ2

contro l’alternativa bilaterale

HA : µ1 6= µ2

Per verificare questa ipotesi consideriamo per ciascuna delle due popolazioni un cam-

pione casuale e andiamo a calcolare la media campionaria nei due campioni. Precisamente

sia x(1) = {x1, x2, . . . , xn1} le osservazioni sul campione dalla prima popolazione e siano

11.1. DIFFERENZA DELLE MEDIE PER POPOLAZIONI NORMALI 151

x(2) = {x1, x2, . . . , xn2} le osservazioni sul campione dalla seconda popolazione. Abbiamo

usato lo stesso simbolo per non appesantire le notazioni. Si noti che i campioni possono

anche avere numerosita diverse, qui indicate con n1 e n2 rispettivamente.

La statistica sulla quale si basa il test e data da

t =x1 − x2

sp

√n1+n2n1n2

(11.1)

dove x1 e x2 sono le medie calcolate nei due campioni di ampiezza n1 ed n2 rispettivamente.

La quantita sp e una stima, calcolata come una media pesata secondo le numerosita

dei due campioni, dello scarto quadratico medio σ comune in entrambe le popolazioni ed

e definita come segue:

sp =

√(n1 − 1)s2

1 + (n2 − 1)s22

n1 + n2 − 2

dove con s1 e s2 si sono indicate gli scarti quadratici medi calcolati rispettivamente nei due

campioni. Si noti che nella formula sono elevate al quadrato prima di essere moltiplicate

per (n1 − 1) e (n2 − 1) rispettivamente.

Fissato il livello di significativita del test α, in genere α = 0.05 o α = 0.01, ovvero

fissato il rischio che siamo disposti ad assumerci nel caso si rifiutasse H0 e questa fosse

in realta vera, il test consiste nel confrontare il valore di t calcolato con la formula (11.1)

con il valore di una t di Student con g = n1 + n2 − 2 gradi di liberta per il corrispondente

valore di α. Indicato con tgα2

il valore per cui l’area dal valore in poi, sotto la distribuzione

di una t si Student con g gradi di liberta e pari ad α2 , la regola di decisione del test a

livello α corrisponde a rifiutare H0 : µ1 = µ2 se |t| > tgα2. Si noti che si prende il valore

assoluto della statistica t. Se la differenza delle medie nella formula (11.1) fosse negativa,

si considera il valore assoluto.

Vediamo un esempio di applicazione del test. Un sociologo ha effettuato un indagine

per per capire se la recente riforma sanitaria introdotta dal governo e vista di buon grado

dai sostenitori dei partiti di centro destra e dai partiti di centro sinistra. A tal proposito

effettua un indagine tra 12 elettori di centro sinistra e 18 elettori di centro destra. A

ciascuno di essi viene sottoposto un questionario il cui risultato e sintetizzato da un valore

numerico su una scala da 1 a 100 dove piu e alto il valore ottenuto piu l’individuo e a

favore della riforma. Il sociologo calcola i seguenti valori: media dei valori riportati tra i

12 elettori di centro sinistra: x1 = 60; scarto quadratico medio riportato tra gli elettori

di centro sinistra: s1 = 12. Media dei valori riportati tra i 18 elettori di centro destra:

x1 = 49; scarto quadratico medio riportato tra gli elettori di centro destra: s2 = 14.

Verificare se il sostegno alla riforma sanitaria possa essere considerato lo stesso tra gli

elettori dei due partiti considerati o se vi e una differenza.


Se indichiamo con µ1 e µ2 i valori medi incogniti nelle due popolazioni del valore del

sostegno dato alla riforma valutabile con il test, si tratta di verificare l’ipotesi

H0 : µ1 = µ2

contro l’alternativa che i due valori siano diversi.

Fissiamo α = 0.05. I gradi di liberta sono 12 + 18− 2 = 28. Il valore t280.025 lo troviamo

sulle tavole della t di Student. Poiche la Tavola A.5 riporta i valori delle aree da −∞ al

valore che cerchiamo, l’area che interessa la troviamo come 1− α2 = 1− 0.025 = 0.975. Il

valore corrispondente alla colonna 0.975 e alla riga 28 e 2.048. Si noti che se da −∞ a

2.048 l’area e 0.975, ne consegue che da 2.048 a +∞ l’area `e 0.025. Quindi t280.025 = 2.048.

Ora calcoliamo il valore della statistica test sui dati osservati. Abbiamo

sp =

√11 · 122 + ·17 ∗ 142

12 + 18− 2=√

175.57 = 13.25

Quindi

t =60− 49

13.25 ·√

12+1812·18

= 2.23

Quindi possiamo rifiutare l’ipotesi nulla, e concludiamo che c’e evidenza che gli elettori di

centro sinistra la pensino in maniera diversa rispetto agli elettori di centro destra riguardo

alla nuova riforma sanitaria.

Se il valore della deviazione standard calcolata sui due campioni fosse stata rispettiva-

mente s1 = 15 ed s2 = 16 avremmo avuto (si verifichi il conto)

sp =√

261 = 15.61,

da cui

t = 1.89.

A parita della stessa differenza in media (x1 − x2 non e cambiata) abbiamo un valore

della statistica test piu basso che non ci porta a rifiutare l’ipotesi nulla. Questo e dovuto

alla piu alta variabilita nelle risposte nei due gruppi che e sintetizzato dai due valori s1 e

s2. Naturalmente se le medie osservate fossero state x1 = 62 e x2 = 47 (quindi con una

differenza maggiore) e avessimo sempre s1 = 15 e s2 = 16 allora in questo caso il valore

della statistica test (si verifichi il conto) sarebbe stato

t = 2.57

e avremmo rifiutato anche in questo caso l’ipotesi nulla. Ad ogni modo e evidente che con

variabilita alte occorre una differenza in media elevata per poter rifiutare.

11.2. DIFFERENZA PER DUE PROPORZIONI 153

Esercizio 11.1.1. In uno studio di marketing per valutare la soddisfazione dei clienti che

hanno effettuato l’acquisto di umidificatori ad ultrasuoni sono state poste alcune domande

ad un gruppo che ha acquistato la marca che ha effettuato la ricerca di mercato e ad un

altro gruppo che ha acquistato una marca concorrente. Gli acquirenti della marca che ha

commissionato lo studio ha dato come risultati del test per valutare il grado di soddisfazione

i seguenti valori: 14.0, 14.3, 12.2, 15.1. Per la seconda marca di umidificatori i risultati

al test sono stati 12.1, 13.6, 11.9, 11.2, 12.2.

Si puo accettare l’ipotesi nulla che la soddisfazione in entrambi i gruppi sia la stessa a

livello di significativita 0.05?

11.2 Differenza per due proporzioni

Come si e interessati a verificare se c’e una differenza tra le medie di due popolazioni nor-

mali si puo essere interessati a capire se vi e una differenza tra due proporzioni, ad esempio

se vi e differenza tra la percentuale di fumatori tra le donne e gli uomini, se la percen-

tuale di disoccupati e diversa tra sud e nord e tra uomini e donne. Nelle scienze sociali si

utilizzano spesso le proporzioni per misurare determinate caratteristiche in diversi gruppi

e si capisce come sia importante stabilire se le differenze osservate siano statisticamente

significative.

Siano quindi π1 e π2 le vere proporzioni di una certa caratteristica di interesse sue due

gruppi distinti.

Siano n1 e n2 le numerosita campionarie nei due gruppi di interesse e siano k1 e k2

il numero degli individui nei rispettivi gruppi che soddisfano la caratteristica di interesse

che si sta studiando (ad esempio i fumatori o i disoccupati).

Vogliamo verificare l’ipotesi nulla

H0 : π1 = π2

contro l’alternativa

HA : π1 6= π2

sulla base dei risultati dell’indagine sui campioni nelle due popolazioni considerate (uomini

e donne o residenti al nord e residenti al sud) e del livello di significativita fissato α.

La statistica test ha la forma

z =p1 − p2

sddove

p1 =k1

n1, p2 =

k2

n2

lo scarto quadratico medio e dato da

sd =

√p∗(1− p∗)

(n1 + n2

n1 · n2

)


e

p∗ =k1 + k2

n1 + n2.

e la proporzione totale di successi calcolata come se i due gruppi fossero un unico gruppo

indistinto. La regola di decisione consiste nel rifiutare H0 se il valore della statistica test

z in valore assoluto e maggiore del valore zα/2 che troviamo sulle tavole della Normale

standardizzata.

Vediamo il seguente esempio. Da un insieme di 22071 medici volontari vennero formati

due gruppi: il gruppo di trattamento e quello di controllo. Gli individui del gruppo

di trattamento ricevevano una dose quotidiana di aspirina mentre quelli di controllo un

farmaco senza il principio attivo, cioe un placebo. Lo studio venne condotto per un periodo

di 5 anni osservando il numero di decessi per infarto. Si ottennero i seguenti risultati:

Esito Infartuati Non Infartuati TotaliFarmaco

Placebo 239 10795 11034Aspirina 139 10898 11037

378 21693 22071

Vogliamo verificare l’ipotesi nulla che la proporzione dei colpiti da infarto sia uguale nei

due gruppi (quello trattato col farmaco e quello col placebo) contro l’alternativa che sia

diversa. Sia 1 il gruppo di controllo e 2 il gruppo dei trattati. Abbiamo

p1 =239

11034= 0.0217 e p2 =

139

11037= 0.0126

E quindi

p∗ =x1 + x2

n1 + n2=

378

22071= 0.0171

Il valore della statistica z e

z =p1 − p2√

p∗(1− p∗)(

1n1

+ 1n2

)=

0.0217− 0.0126√0.0171 · (1− 0.0171)

(1

11034 + 111037

) =0.0091

0.00175= 5.2

Se il livello del test e α = 010 e confrontiamo z = 5.2 con il valore della tavola della normale

zα2

= z0.05 = 1.64. Poiche z > 1.64 il test rifiuta l’ipotesi nulla e gli sperimentatori

concluderanno che vi e un effetto protettivo del principio attivo contenuto nell’aspirina

rispetto al rischio di infarto cardiaco. Come si puo notare il valore osservato della statistica

test e molto alto, e la conclusione del test sarebbe la stessa anche per α = 0.05, α = 0.01,

fino al livello α = 0.000001. Il p-value associato a 5.2 e infatti piu piccolo di quest’ultimo

valore.

11.3. IL P -VALUE 155

11.3 Il p-value

In tutti i test statistici e importante sapere, quando si rifiuta l’ipotesi nulla, quanta convin-

zione in termini di probabilita c’e in questo rifiuto. Prendiamo i due esempi dei paragrafi

precedenti. Nel primo caso per il confornto di due medie da due popolazioni normali abbia-

mo calcolato la statistica t = 2.15 e abbiamo rifiutato perche il valore soglia e t28α/2 = 2.048.

Sempre nello stesso esempio nell’ultimo caso considerato, abbiamo calcolato la statisitca

test che in questo caso vale t = 2.49 e anche in questo caso si rifiuta l’ipotesi nulla perche

il valore della statistica e maggiore del valore soglia. Il grado di convinzione della scelta di

rifiutare e chiaro che sara tanto maggiore tanto piu e grande il valore della statistica test,

rispetto al valore soglia. La misura di questa convinzione ci e data dal p-value. Poiche

l’area sotto la curva della distribuzione della statistica test (nel caso considerato una t

di Student con 28 gradi di liberta) dal valore soglia a +∞ vale α2 e poiche il valore della

statisitca test sta a destra del valore soglia, risulta evidente che l’area sotto la curva della

distribuzione della statistica dal valore osservato t a +∞ sara minore di α2 . Ora tanto piu e

piccola questa area tanto piu il rifiuto dell’ipotesi nulla e fatto con convinzione. Ebbene il

valore di quest’area e il p-value. Cioe il p-value e un’area, e rappresenta la probabilita che

la statistica test assuma un valore piu grande di quello che abbiamo trovato. Se andiamo

sullaTavola A.5 della t di student in corrispondenza della riga con 28 per i gradi di liberta

dobbiamo trovare i due valori tra cui e compreso il valore calcolato: si osserva che

2.048 < 2.15 < 2.467

quindi il p-value in questo caso e tra 0.025 e 0.01. Nel secondo caso

2.467 < 2.49 < 2.763

quindi il p-value e compreso tra 0.01 e 0.005. I valori esatti del p-value si possono ottenere

con un software statistico e sono rispettivamente: 0.02 e 0.009. In entrambi i casi, sono

valori piu piccoli di α2 , e in entrambi i casi rifiutiamo l’ipotesi nulla, ma nel secondo

caso la rifiutiamo con piu convinzione rispetto al primo caso. Consideriamo anche il caso

nell’esempio sulla verifica dell’uguaglianza tra due proporzioni. La statistica test vale 5.2

e l’area sotto la curva di una distribuzione Normale da 5.2 a +∞ e praticamente 0. In

effetti le tavole in appendice calcolano l’area solo fino al valore 3, e 5 e ben oltre il valore

3. Sempre con un software statistico il p-value per questo caso e 1.99 · 10−7 quindi un

numero veramente piccolo (abbiamo visto che e minore di 0.000001). In quest’ultimo caso

l’evidenza della differenza tra i due gruppi e grandissima.


11.4 Esercizi

1. Si vuole stabilire se le donne sorridono di piu degli uomini. Per questo motivo

vengono videoregistrati alcuni uomini e alcune donne in situazioni particolari e si

contano il numero di sorrisi effettuati. I dati sono riportati nella seguente tabella.

Maschi Femmine

8 152 1811 134 1913 11

(a) Calcolare la media e lo scarto quadratico medio nei due gruppi degli uomini e

delle donne.

(b) Scrivere l’ipotesi nulla per verificare se le medie incognita del numero di sorrisi

siano le stesse nei due gruppi.

(c) Calcolare il valore della statistica test.

(d) Trovare il valore soglia fissato il livello del test α = 0.05.

(e) Qual e la decisione a livello α = 0.05.

(f) Calcolare il valore approssimato del p-value.

2. Un sociologo e interessato a studiare se esiste qualche differenza dovuta al genere

riguardo alla socialita delle persone. Come misura del grado di socialita di una

persona viene considerato il numero di amici molto cari che ogni persona possiede.

I dati relativi al numero di amici in un gruppo di 8 donne e 7 uomini sono riportati

nella seguente tabella:

Femmine Maschi

5 57 18 83 17 36 28 21

(a) Calcolare la media e lo scarto quadratico medio nei due gruppi degli uomini e

delle donne.

(b) Scrivere l’ipotesi nulla per verificare se le medie incognita del numero di amici

siano le stesse nei due gruppi.

11.4. ESERCIZI 157





3. E stata svolta un indagine per capire se le persone sopra i 18 anni sono favorevoli

ad una maggior restrizione per il possesso di un’arma da fuoco. I risultati divisi per

genere sono raccolti nella seguente tabella:

Maschi Femmine

Favorevoli 92 120Contrari 74 85

N 166 205

(a) Calcolare la proporzione di favorevoli ad una maggiore restrizione nei due gruppi

degli uomini e delle donne.

(b) Scrivere l’ipotesi nulla per verificare se le proporzioni incognite dei favorevoli

ad una maggiore restrizione siano uguali nei due gruppi.






Appendice A

Tavole Statistiche

In questa appendice sono riportate le tavole statistiche utilizzate nel testo e che potranno

essere utili per risolvere gli esercizi. La Tavola A.1 riporta i valori dell’area sotto la curva

Normale da 0 a un qualunque valore z positivo. Quest’area e riportata nella Figura A.1.

Si noti come per valori di z maggiori di 3.3 il valore dell’area e approssimato con 0.50 che

N(0,1)

z

−3 −2 −1 0 1 z 2 3

0.00.1

0.20.3

0.4

Figura A.1: Area sotto la curva normale standardizzata della regione da 0 fino al genericoz score.

e invece l’area sotto la curva fino a + infinito. Si ricordi l’osservazione fatta nel Capitolo

6, dove si e sottolineato che la curva Normale e asintotica all’asse delle ascisse, quindi la

curva si avvicina all’asse delle ascisse senza mai toccarlo.

159

160 APPENDICE A. TAVOLE STATISTICHE

Area

N(0,1)

z

−3 −2 −1 0 1 z 2 3

0.00.1

0.20.3

0.4

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.0 0.000 0.004 0.008 0.012 0.016 0.020 0.024 0.028 0.032 0.0360.1 0.040 0.044 0.048 0.052 0.056 0.060 0.064 0.067 0.071 0.0750.2 0.079 0.083 0.087 0.091 0.095 0.099 0.103 0.106 0.110 0.1140.3 0.118 0.122 0.126 0.129 0.133 0.137 0.141 0.144 0.148 0.1520.4 0.155 0.159 0.163 0.166 0.170 0.174 0.177 0.181 0.184 0.1880.5 0.191 0.195 0.198 0.202 0.205 0.209 0.212 0.216 0.219 0.2220.6 0.226 0.229 0.232 0.236 0.239 0.242 0.245 0.249 0.252 0.2550.7 0.258 0.261 0.264 0.267 0.270 0.273 0.276 0.279 0.282 0.2850.8 0.288 0.291 0.294 0.297 0.300 0.302 0.305 0.308 0.311 0.3130.9 0.316 0.319 0.321 0.324 0.326 0.329 0.331 0.334 0.336 0.3391.0 0.341 0.344 0.346 0.348 0.351 0.353 0.355 0.358 0.360 0.3621.1 0.364 0.367 0.369 0.371 0.373 0.375 0.377 0.379 0.381 0.3831.2 0.385 0.387 0.389 0.391 0.393 0.394 0.396 0.398 0.400 0.4011.3 0.403 0.405 0.407 0.408 0.410 0.411 0.413 0.415 0.416 0.4181.4 0.419 0.421 0.422 0.424 0.425 0.426 0.428 0.429 0.431 0.4321.5 0.433 0.434 0.436 0.437 0.438 0.439 0.441 0.442 0.443 0.4441.6 0.445 0.446 0.447 0.448 0.449 0.451 0.452 0.453 0.454 0.4541.7 0.455 0.456 0.457 0.458 0.459 0.460 0.461 0.462 0.462 0.4631.8 0.464 0.465 0.466 0.466 0.467 0.468 0.469 0.469 0.470 0.4711.9 0.471 0.472 0.473 0.473 0.474 0.474 0.475 0.476 0.476 0.4772.0 0.477 0.478 0.478 0.479 0.479 0.480 0.480 0.481 0.481 0.4822.1 0.482 0.483 0.483 0.483 0.484 0.484 0.485 0.485 0.485 0.4862.2 0.486 0.486 0.487 0.487 0.487 0.488 0.488 0.488 0.489 0.4892.3 0.489 0.490 0.490 0.490 0.490 0.491 0.491 0.491 0.491 0.4922.4 0.492 0.492 0.492 0.492 0.493 0.493 0.493 0.493 0.493 0.4942.5 0.494 0.494 0.494 0.494 0.494 0.495 0.495 0.495 0.495 0.4952.6 0.495 0.495 0.496 0.496 0.496 0.496 0.496 0.496 0.496 0.4962.7 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.4972.8 0.497 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.4982.9 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.499 0.499 0.4993.0 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.4993.1 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.4993.2 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.4993.3 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.5003.4 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.5003.5 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500

Tabella A.1: Tavola della Normale standard. Valori dell’area sotto la curva Normale da zpositivo a +∞. Per calcolare l’area sotto la curva per l’intervallo (0, 1.51) si cerca il valoreall’incrocio della riga 1.5 e della colonna 0.01, cioe l’area e 0.434.

161

Area

N(0,1)

z

−3 −2 −1 0 1 z 2 3

0.00.1

0.20.3

0.4z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.0 0.500 0.496 0.492 0.488 0.484 0.480 0.476 0.472 0.468 0.4640.1 0.460 0.456 0.452 0.448 0.444 0.440 0.436 0.433 0.429 0.4250.2 0.421 0.417 0.413 0.409 0.405 0.401 0.397 0.394 0.390 0.3860.3 0.382 0.378 0.374 0.371 0.367 0.363 0.359 0.356 0.352 0.3480.4 0.345 0.341 0.337 0.334 0.330 0.326 0.323 0.319 0.316 0.3120.5 0.309 0.305 0.302 0.298 0.295 0.291 0.288 0.284 0.281 0.2780.6 0.274 0.271 0.268 0.264 0.261 0.258 0.255 0.251 0.248 0.2450.7 0.242 0.239 0.236 0.233 0.230 0.227 0.224 0.221 0.218 0.2150.8 0.212 0.209 0.206 0.203 0.200 0.198 0.195 0.192 0.189 0.1870.9 0.184 0.181 0.179 0.176 0.174 0.171 0.169 0.166 0.164 0.1611.0 0.159 0.156 0.154 0.152 0.149 0.147 0.145 0.142 0.140 0.1381.1 0.136 0.133 0.131 0.129 0.127 0.125 0.123 0.121 0.119 0.1171.2 0.115 0.113 0.111 0.109 0.107 0.106 0.104 0.102 0.100 0.0991.3 0.097 0.095 0.093 0.092 0.090 0.089 0.087 0.085 0.084 0.0821.4 0.081 0.079 0.078 0.076 0.075 0.074 0.072 0.071 0.069 0.0681.5 0.067 0.066 0.064 0.063 0.062 0.061 0.059 0.058 0.057 0.0561.6 0.055 0.054 0.053 0.052 0.051 0.049 0.048 0.047 0.046 0.0461.7 0.045 0.044 0.043 0.042 0.041 0.040 0.039 0.038 0.038 0.0371.8 0.036 0.035 0.034 0.034 0.033 0.032 0.031 0.031 0.030 0.0291.9 0.029 0.028 0.027 0.027 0.026 0.026 0.025 0.024 0.024 0.0232.0 0.023 0.022 0.022 0.021 0.021 0.020 0.020 0.019 0.019 0.0182.1 0.018 0.017 0.017 0.017 0.016 0.016 0.015 0.015 0.015 0.0142.2 0.014 0.014 0.013 0.013 0.013 0.012 0.012 0.012 0.011 0.0112.3 0.011 0.010 0.010 0.010 0.010 0.009 0.009 0.009 0.009 0.0082.4 0.008 0.008 0.008 0.008 0.007 0.007 0.007 0.007 0.007 0.0062.5 0.006 0.006 0.006 0.006 0.006 0.005 0.005 0.005 0.005 0.0052.6 0.005 0.005 0.004 0.004 0.004 0.004 0.004 0.004 0.004 0.0042.7 0.003 0.003 0.003 0.003 0.003 0.003 0.003 0.003 0.003 0.0032.8 0.003 0.002 0.002 0.002 0.002 0.002 0.002 0.002 0.002 0.0022.9 0.002 0.002 0.002 0.002 0.002 0.002 0.002 0.001 0.001 0.0013.0 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.0013.1 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.0013.2 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.0013.3 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.0003.4 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.0003.5 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000

Tabella A.2: Tavola della Normale standard. Valori dell’area sotto la curva Normale daz positivo a +∞. Per calcolare l’area sotto la curva per l’intervallo (1.51,+∞) si cerca ilvalore all’incrocio della riga 1.5 e della colonna 0.01, cioe l’area e 0.066.


Area

N(0,1)

z

−3 −2 z −1 0 1 2 3

0.00.1

0.20.3

0.4

z 0.00 -0.01 -0.02 -0.03 -0.04 -0.05 -0.06 -0.07 -0.08 -0.09

0.0 0.000 0.004 0.008 0.012 0.016 0.020 0.024 0.028 0.032 0.036-0.1 0.040 0.044 0.048 0.052 0.056 0.060 0.064 0.067 0.071 0.075-0.2 0.079 0.083 0.087 0.091 0.095 0.099 0.103 0.106 0.110 0.114-0.3 0.118 0.122 0.126 0.129 0.133 0.137 0.141 0.144 0.148 0.152-0.4 0.155 0.159 0.163 0.166 0.170 0.174 0.177 0.181 0.184 0.188-0.5 0.191 0.195 0.198 0.202 0.205 0.209 0.212 0.216 0.219 0.222-0.6 0.226 0.229 0.232 0.236 0.239 0.242 0.245 0.249 0.252 0.255-0.7 0.258 0.261 0.264 0.267 0.270 0.273 0.276 0.279 0.282 0.285-0.8 0.288 0.291 0.294 0.297 0.300 0.302 0.305 0.308 0.311 0.313-0.9 0.316 0.319 0.321 0.324 0.326 0.329 0.331 0.334 0.336 0.339-1.0 0.341 0.344 0.346 0.348 0.351 0.353 0.355 0.358 0.360 0.362-1.1 0.364 0.367 0.369 0.371 0.373 0.375 0.377 0.379 0.381 0.383-1.2 0.385 0.387 0.389 0.391 0.393 0.394 0.396 0.398 0.400 0.401-1.3 0.403 0.405 0.407 0.408 0.410 0.411 0.413 0.415 0.416 0.418-1.4 0.419 0.421 0.422 0.424 0.425 0.426 0.428 0.429 0.431 0.432-1.5 0.433 0.434 0.436 0.437 0.438 0.439 0.441 0.442 0.443 0.444-1.6 0.445 0.446 0.447 0.448 0.449 0.451 0.452 0.453 0.454 0.454-1.7 0.455 0.456 0.457 0.458 0.459 0.460 0.461 0.462 0.462 0.463-1.8 0.464 0.465 0.466 0.466 0.467 0.468 0.469 0.469 0.470 0.471-1.9 0.471 0.472 0.473 0.473 0.474 0.474 0.475 0.476 0.476 0.477-2.0 0.477 0.478 0.478 0.479 0.479 0.480 0.480 0.481 0.481 0.482-2.1 0.482 0.483 0.483 0.483 0.484 0.484 0.485 0.485 0.485 0.486-2.2 0.486 0.486 0.487 0.487 0.487 0.488 0.488 0.488 0.489 0.489-2.3 0.489 0.490 0.490 0.490 0.490 0.491 0.491 0.491 0.491 0.492-2.4 0.492 0.492 0.492 0.492 0.493 0.493 0.493 0.493 0.493 0.494-2.5 0.494 0.494 0.494 0.494 0.494 0.495 0.495 0.495 0.495 0.495-2.6 0.495 0.495 0.496 0.496 0.496 0.496 0.496 0.496 0.496 0.496-2.7 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.497-2.8 0.497 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.498-2.9 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.499 0.499 0.499-3.0 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499-3.1 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499-3.2 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499-3.3 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500-3.4 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500-3.5 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500

Tabella A.3: Tavola della Normale standard. Valori dell’area sotto la curva Normale da znegativo a 0. Per calcolare l’area sotto la curva per l’intervallo (−1.51, 0) si cerca il valoreall’incrocio della riga −1.5 e della colonna −0.01, cioe l’area e 0.434.

163

Area

N(0,1)

z

−3 −2 −1 0 1 z 2 3

0.00.1

0.20.3

0.4z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.0 0.500 0.504 0.508 0.512 0.516 0.520 0.524 0.528 0.532 0.5360.1 0.540 0.544 0.548 0.552 0.556 0.560 0.564 0.567 0.571 0.5750.2 0.579 0.583 0.587 0.591 0.595 0.599 0.603 0.606 0.610 0.6140.3 0.618 0.622 0.626 0.629 0.633 0.637 0.641 0.644 0.648 0.6520.4 0.655 0.659 0.663 0.666 0.670 0.674 0.677 0.681 0.684 0.6880.5 0.691 0.695 0.698 0.702 0.705 0.709 0.712 0.716 0.719 0.7220.6 0.726 0.729 0.732 0.736 0.739 0.742 0.745 0.749 0.752 0.7550.7 0.758 0.761 0.764 0.767 0.770 0.773 0.776 0.779 0.782 0.7850.8 0.788 0.791 0.794 0.797 0.800 0.802 0.805 0.808 0.811 0.8130.9 0.816 0.819 0.821 0.824 0.826 0.829 0.831 0.834 0.836 0.8391.0 0.841 0.844 0.846 0.848 0.851 0.853 0.855 0.858 0.860 0.8621.1 0.864 0.867 0.869 0.871 0.873 0.875 0.877 0.879 0.881 0.8831.2 0.885 0.887 0.889 0.891 0.893 0.894 0.896 0.898 0.900 0.9011.3 0.903 0.905 0.907 0.908 0.910 0.911 0.913 0.915 0.916 0.9181.4 0.919 0.921 0.922 0.924 0.925 0.926 0.928 0.929 0.931 0.9321.5 0.933 0.934 0.936 0.937 0.938 0.939 0.941 0.942 0.943 0.9441.6 0.945 0.946 0.947 0.948 0.949 0.951 0.952 0.953 0.954 0.9541.7 0.955 0.956 0.957 0.958 0.959 0.960 0.961 0.962 0.962 0.9631.8 0.964 0.965 0.966 0.966 0.967 0.968 0.969 0.969 0.970 0.9711.9 0.971 0.972 0.973 0.973 0.974 0.974 0.975 0.976 0.976 0.9772.0 0.977 0.978 0.978 0.979 0.979 0.980 0.980 0.981 0.981 0.9822.1 0.982 0.983 0.983 0.983 0.984 0.984 0.985 0.985 0.985 0.9862.2 0.986 0.986 0.987 0.987 0.987 0.988 0.988 0.988 0.989 0.9892.3 0.989 0.990 0.990 0.990 0.990 0.991 0.991 0.991 0.991 0.9922.4 0.992 0.992 0.992 0.992 0.993 0.993 0.993 0.993 0.993 0.9942.5 0.994 0.994 0.994 0.994 0.994 0.995 0.995 0.995 0.995 0.9952.6 0.995 0.995 0.996 0.996 0.996 0.996 0.996 0.996 0.996 0.9962.7 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.9972.8 0.997 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.9982.9 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.999 0.999 0.9993.0 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.9993.1 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.9993.2 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.9993.3 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.0003.4 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.0003.5 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000

Tabella A.4: Tavola della Normale standard. Valori dell’area sotto la curva Normale daz positivo a +∞. Per calcolare l’area sotto la curva per l’intervallo (−∞, 1.51) si cerca ilvalore all’incrocio della riga 1.5 e della colonna 0.01, cioe l’area e 0.934.


Area

Area sotto la distribuzione t di Student

−5 −3 −1 0 1 tpg

3 5

p 0.75 0.90 0.95 0.975 0.99 0.995 0.9995g1 1.00000 3.07768 6.31375 12.70620 31.82052 63.65674 636.619252 0.81650 1.88562 2.91999 4.30265 6.96456 9.92484 31.599053 0.76489 1.63775 2.35338 3.18245 4.54070 5.84091 12.923984 0.74070 1.53321 2.13185 2.77645 3.74695 4.60410 8.610305 0.72669 1.47588 2.01505 2.57058 3.36493 4.03216 6.868836 0.71756 1.43976 1.94318 2.44691 3.14267 3.70743 5.958827 0.71114 1.41492 1.89458 2.36462 2.99795 3.49948 5.407908 0.70639 1.39682 1.85955 2.30600 2.89646 3.35539 5.041319 0.70272 1.38303 1.83311 2.26216 2.82144 3.24984 4.78091

10 0.69981 1.37218 1.81246 2.22814 2.76377 3.16927 4.5868911 0.69745 1.36343 1.79588 2.20099 2.71808 3.10581 4.4369812 0.69548 1.35622 1.78229 2.17881 2.68100 3.05454 4.3177913 0.69383 1.35017 1.77093 2.16037 2.65031 3.01228 4.2208314 0.69242 1.34503 1.76131 2.14479 2.62449 2.97684 4.1404515 0.69120 1.34061 1.75305 2.13145 2.60248 2.94671 4.0727716 0.69013 1.33676 1.74588 2.11991 2.58349 2.92078 4.0150017 0.68920 1.33338 1.73961 2.10982 2.56693 2.89823 3.9651318 0.68836 1.33039 1.73406 2.10092 2.55238 2.87844 3.9216519 0.68762 1.32773 1.72913 2.09302 2.53948 2.86093 3.8834120 0.68695 1.32534 1.72472 2.08596 2.52798 2.84534 3.8495221 0.68635 1.32319 1.72074 2.07961 2.51765 2.83136 3.8192822 0.68581 1.32124 1.71714 2.07387 2.50832 2.81876 3.7921323 0.68531 1.31946 1.71387 2.06866 2.49987 2.80734 3.7676324 0.68485 1.31784 1.71088 2.06390 2.49216 2.79694 3.7454025 0.68443 1.31635 1.70814 2.05954 2.48511 2.78744 3.7251426 0.68404 1.31497 1.70562 2.05553 2.47863 2.77871 3.7066127 0.68368 1.31370 1.70329 2.05183 2.47266 2.77068 3.6895928 0.68335 1.31253 1.70113 2.04841 2.46714 2.76326 3.6739129 0.68304 1.31143 1.69913 2.04523 2.46202 2.75639 3.6594130 0.68276 1.31042 1.69726 2.04227 2.45726 2.75000 3.6459640 0.68067 1.30308 1.68385 2.02108 2.42326 2.70446 3.5509760 0.67860 1.29582 1.67065 2.00030 2.39012 2.66028 3.46020

120 0.67654 1.28865 1.65765 1.97993 2.35782 2.61742 3.37345∞ 0.67449 1.28155 1.64485 1.95996 2.32635 2.57583 3.29053

Tabella A.5: Tavola della t di Student. La tavola restituisce i valori di tgp dove g sono i gradi diliberta. Si tenga sempre conto della relazione tgp = −tg1−p.

165

p 0.750 0.900 0.950 0.975 0.990 0.995 0.9995g1 1.32330 2.70554 3.84146 5.02389 6.63490 7.87944 12.115672 2.77259 4.60517 5.99146 7.37776 9.21034 10.59663 15.201803 4.10834 6.25139 7.81473 9.34840 11.34487 12.83816 17.730004 5.38527 7.77944 9.48773 11.14329 13.27670 14.86026 19.997355 6.62568 9.23636 11.07050 12.83250 15.08627 16.74960 22.105336 7.84080 10.64464 12.59159 14.44938 16.81189 18.54758 24.102807 9.03715 12.01704 14.06714 16.01276 18.47531 20.27774 26.017778 10.21885 13.36157 15.50731 17.53455 20.09024 21.95495 27.868059 11.38875 14.68366 16.91898 19.02277 21.66599 23.58935 29.66581

10 12.54886 15.98718 18.30704 20.48318 23.20925 25.18818 31.4198111 13.70069 17.27501 19.67514 21.92005 24.72497 26.75685 33.1366212 14.84540 18.54935 21.02607 23.33666 26.21697 28.29952 34.8212713 15.98391 19.81193 22.36203 24.73560 27.68825 29.81947 36.4777914 17.11693 21.06414 23.68479 26.11895 29.14124 31.31935 38.1094015 18.24509 22.30713 24.99579 27.48839 30.57791 32.80132 39.7187616 19.36886 23.54183 26.29623 28.84535 31.99993 34.26719 41.3080717 20.48868 24.76904 27.58711 30.19101 33.40866 35.71847 42.8792118 21.60489 25.98942 28.86930 31.52638 34.80531 37.15645 44.4337719 22.71781 27.20357 30.14353 32.85233 36.19087 38.58226 45.9731220 23.82769 28.41198 31.41043 34.16961 37.56623 39.99685 47.4984521 24.93478 29.61509 32.67057 35.47888 38.93217 41.40106 49.0108122 26.03927 30.81328 33.92444 36.78071 40.28936 42.79565 50.5111223 27.14134 32.00690 35.17246 38.07563 41.63840 44.18128 52.0001924 28.24115 33.19624 36.41503 39.36408 42.97982 45.55851 53.4787525 29.33885 34.38159 37.65248 40.64647 44.31410 46.92789 54.9474626 30.43457 35.56317 38.88514 41.92317 45.64168 48.28988 56.4068927 31.52841 36.74122 40.11327 43.19451 46.96294 49.64492 57.8575928 32.62049 37.91592 41.33714 44.46079 48.27824 50.99338 59.3000329 33.71091 39.08747 42.55697 45.72229 49.58788 52.33562 60.7346530 34.79974 40.25602 43.77297 46.97924 50.89218 53.67196 62.16185

Tabella A.6: Tavola del χ2 . La tavola restituisce i valori di χgp dove g sono i gradi di liberta.

.


Appendice B

Soluzione di alcuni esercizi

Soluzione dell’Esercizio 2.8.1

1. Qual e la proporzione (e la percentuale) di fumatrici? 619 = 0.3158 = 0.32 = 32%

2. Qual e la proporzione di non fumatrici? 0.68 = 68%

3. Qual e la proporzione (e la percentuale) di laureate ? 819 = 0.4211 = 0.42 = 42%

4. Qual e la percentuale di donne laureate e fumatrici? 119 = 0.0526 = 0.05 = 5%

5. Tra le donne laureate qual e la percentuale delle fumatrici? 18 = 0.125 = 0.13 = 13%

6. Tra le fumatrici, qual e la percentuale di donne con titolo di studio superiore o uguale

alla scuola secondaria di II grado? 36 = 0.5 = 50%

7. Tra le donne con titolo di studio superiore o uguale alla scuola secondaria di II grado

qual e la percentuale di fumatrici? 314 = 0.2143 = 0.21 = 21%


1. La Tabella congiunta delle variabili X e Z e data da

X Z

0 1 2 3 4

N 3 2 0 1 0 6C 2 1 1 0 3 7V 0 0 1 2 1 4S 0 2 1 0 0 3

5 5 3 3 4 20

2. 5/20=0.25. Il 25%.

167

168 APPENDICE B. SOLUZIONE DI ALCUNI ESERCIZI

Tipo lavoro

Stato lavorativo Dipendente Autonomo

Si e capitato e l’ho apprezzato 385 87 472Si e capitato ma ne avrei fatto a meno 530 283 813Si e capitato ma ho potuto decidere quando 866 348 1214No non e capitato 3032 369 3401

4813 1087 5900

Tabella B.1: Tabella delle frequenze assolute delle mamme in base al tipo di lavoro (Di-pendente o Autonomo) e allo stato lavorativo durante la gravidanza, catalogato con le 4modalita riportate. Campione di 5900 unita. Dati dal sito corriere.it.

3. 2/20=0.10. Il 10%.

4. 2/7=0.29. Il 29%.

5. 2/5=0.40. Il 40%.

6. (1+0+3)/(3+3+4)=4/10=0.40. Il 40%.

7. (0+3)/(3+4)=3/7=0.43. Il 43%.


1. La Tabella B.1 riporta le frequenze assolute. A solo titolo d’esempio per ottenere i

il valore 385 che rappresenta il numero di mamme con lavoro autonomo e alle quali

e capitato di lavorare e lo hanno apprezzato, occorre partire dalla percentuale 8%

che rappresenta la percentuale di mamme che hanno lavorato e lo hanno apprezzato

tra le mamme con lavoro autonomo. La proporzione e la seguente:

8 : 100 = x : 4813

Dove x e il valore che cerchiamo e si ricava come x = 8∗4813/100, da cui x = 385.04

che arrotondiamo a 385. Allo stesso modo si ottengono le altre frequenze assolute

all’interno della tabella.

2. La distribuzione delle frequenze assolute della variabile Stato lavorativo durante la

gravidanza la si legge a margine della tabella, nell’ultima colonna. Nella Tabella ??

si riportano le frequenze richieste.


Si cerca la modalita con la frequenza maggiore. Dalla Tabella 2.10 risulta che la Moda=

ottimo.

169

Stato lavorativo ni fi piSi e capitato e l’ho apprezzato 472 0.08 8%Si e capitato ma ne avrei fatto a meno 813 0.14 14%Si e capitato ma ho potuto decidere quando 1214 0.20 20%No non e capitato 3401 0.58 58%

5900 1.00 100%

Tabella B.2: Tabella delle frequenze assolute relative e percentuali della variabile Statolavorativo durante la gravidanza, catalogato con le 4 modalita riportate. Campione di 5900unita. Dati dal sito corriere.it.


La moda per la variabile X e la modalita Carne sempre. Si veda la Tabella 2.4. La moda

per la variabile Y e la modalita abominevole, si veda la Tabella 2.9. Infine la variabile Z

e bimodale. Infatti la frequanza maggiore e 5 ed e osservata sia per il numero 0 che per il

numero 1 di convivenze. Si veda la Tabella .


La media e 2.8.


La classe mediana per la distribuzione dell’eta degli uomini e la classe (24, 34]. Poiche 0.50

viene raggiunto esattamente alla fine di questa classe la Mediana dell’eta e 34 anni. Del

resto anche dalla formula 3.1 si deduce Me = 34. La classe mediana per la distribuzione

dei redditi e 58 a 70. Ci sono 4 unita dalla decima alla tredicesima. Quella che corrisponde

alla mediana e la 10.5 che sta tra la decima e la undicesima. La mediana e 61. La formula

per ottenerla e

Me = 58 +70− 58

0.65− 0.45(0.50− 0.45) = 61.

Per la distribuzione dell’eta delle pendolari donne, la classe mediana a 24 a 34. La mediana

e 33 anni, infatti

Me = 24 +34− 24

0.53 +−0.27(0.50− 0.27) = 32.85.

La Figura seguente riporta il grafico delle frequenze cumulate relative per l’eta delle pen-

dolari donne e dei pendolari uomini. Abbiamo tracciato le rette F = 0.50 e dove queste

intersecano la curva delle frequenze relative abbiamo tracciato la corrispondente retta

verticale.


0 20 40 60 80

0.00.2

0.40.6

0.81.0

Frequenze cumulate donne

età

F F=50

età=32.85

0 20 40 60 80

0.00.2

0.40.6

0.81.0

Frequenze cumulate uomini

età

F F=50

età=34

Soluzione dell’Esercizio 3.3.4 L’eta del primo bacio e 14 anni. Lo scarto quadratico

medio e 2.41 che possiamo arrotondare a due anni e mezzo. L’eta media del primo rapporto

risulta 16.88 che possiamo arrotondare a 17 anni, con un errore quadratico medio di 2 anni.

Soluzione dell’Esercizio 3.7.2 I valori per disegnare i boxplot sono riportati nella

seguente tabella

Q1 Me Q3 Q3−Q1 1.5(Q3−Q1) Baffo inf Baffo sup

H 5 7 7 2 3 3 9

M 9 11 13 4 6 5 17

C 8 11 12 3 4.5 5 15

I tre box plot sono riportati nella seguente figura.

●●

●●●●●

Contesi Hamilton Madison

510

15

Tasso

171


Per risolvere l’esercizio occorre:

1. Calcolare il valore medio e lo scarto quadratico medio per le tre variabili

2. Calcolare i valori standardizzati di ogni variabile per ogni comune

3. Calcolare la media dei tre valori standardizzati per ogni comune

4. Il comune piu deprivato e il comune per cui la media dei valori standardizzati e piu

alto.

I risultati per il primo punto sono riportati nella seguente tabella:

No auto Malattia No casa

media x 32.75 12.53 38.83s.q.m s 12.32 1.81 9.78

I valori standardizzati per ogni comune di ogni variabile e la media dei tre valori standar-

dizzati sono riportati invece in questa tabella:

comune NO Auto Malattia NO Casa Media

1 -0.60 -0.68 -0.91 -0.732 1.96 1.97 1.80 1.913 -0.09 -0.40 -0.36 -0.294 -0.01 -0.02 -0.61 -0.215 -0.58 -0.18 -0.42 -0.406 -0.68 -0.68 0.51 -0.28

La tabella contiene quindi tutti i valori standardizzati, calcolati per ogni colonna rispetto

al valor medio e allo scarto quadratico medio di ogni variabile. Per trovare il comune

piu deprivato occorre fare la media dei valori standardizzati per riga (per ogni comune la

media dei tre valori standardizzati, il valore e riportato nell’ultima colonna). Il comune

con la media piu alta risulta il secondo.

Soluzione dell’Esercizio 6.2.3.

1. (µ− σ;µ+ σ) = (85; 115).

2. (75− 100)/15 = −1.67. Il 4.7%.

3. (105− 100)/15 = 0.33 Il 37%.

4. Il 63%.

5. (130− 100)/15 = 2. Il 2.3%.

6. (115− 100)/15 = 1. Area prima di 1: 1-0.159=0.841. (90− 100)/15 = −0.67. Area

prima di -067: 0.251. Area regione richiesta: 0.841-0.251=0.590. Il 59%.


7. (105− 100)/15 = 0.33. Area prima di 0.33: 1-0.370=0.630. (95− 100)/15 = −0.33.

Area prima di -033: 0.370. Area regione richiesta: 0.630-0.370=0.260. Il 26%.

8. Dalle tavole a 0.10 corrisponde il valore z = 1.28. (valore positivo perche ci interessa

il 10% superiore. Il valore cercato e dato da x = 100 + 1.28 ∗ 15 = 119.2. Quindi il

QI cercato e 119.

E stata utilizzata la tavola 6.1 nel Capitolo 6.


1. (µ;µ + 2σ) = (22; 25). Il valore trovato nella tavole e 0.477. Quindi la probabilita

richiesta e 0.477. Corrisponde al 47.7%.

2. La probabilita richiesta e 0.977. Corrisponde al 97.7%.

3. Il 95-esimo percentile di una popolazione normale lo troviamo dalle tavole in corri-

spondenza di un’area a sinistra pari a 0.950, ovvero di un’area a destra di 0.05. Il

valore e z=1.64. Quindi x = 22 + 1.64 ∗ 2.5 = 26.1. L’indice di alienazione cercato e

26.


La media per gli scritti di Hamilton e xH = 6.25 la media per gli scritti di Hamilton e

xH = 10.52, la media per gli scritti contesi e xC = 10. Lo scarto quadratico medio per

gli scritti di Hamilton e sH = 2.53, per Madison sM = 3.27. L’intervallo di confidenza

con livello di fiducia 95% per Hamilton e (5.53, 6.97) l’intervallo analogo per Madison e

(9.61, 11.43). Il valore 10 sta in quest’ultimo.


z =0.120− 0.208√

0.208·(1−0.208)50

=−0.088

0.057= −1.53

La probabilita richiesta e 0.06.


L’estremo inferiore e dato da:

0.120− 1.96 ·√

0.120 · (1− 0.120)

50= 0.120− 1.96 · 0.046 = 0.120− 0.090 = 0.120− 0.09

L’estremo superiore e dato da:

0.120 + 1.96 ·√

0.120 · (1− 0.120)

50= 0.120 + 1.96 · 0.046 = 0.120 + 0.090 = 0.120− 0.21

Appendice C

Esercizi ricapitolativi

In questa appendice si riportano i 5 esercizi assegnati durante il corso. Nelle pagine

seguenti viene riportato il testo. Vengono fornite anche le soluzioni nel paragrafo finale.

173

174 APPENDICE C. ESERCIZI RICAPITOLATIVI

1. Dal sito corriere.it, dal quale e stata tratta la foto riportata sotto, sono stati

tratti i dati riguardante un indagine sul lavoro durante la maternita. Consideriamo

solo le risposte alla domanda: Le e capitato di lavorare mentre era in congedo di

maternita? La domanda e stata rivolta a 4813 mamme lavoratrici dipendenti e 1087

mamme lavoratrici autonome. Le percentuali delle risposte alla domanda per le

lavoratrici dipendenti sono state le seguenti:





Le percentuali delle risposte alla domanda per le lavoratrici autonome son state le

seguenti:





(a) Ricostruire la tabella delle frequenze assolute della distribuzione congiunta delle

due variabili rilevate sulle mamme: tipo di lavoro (dipendente o autonomo) e

Stato lavorativo mentre era in congedo di maternita rilevata con le 4 modalita

date dalle rispettive domante alla risposta.

(b) Calcolare la distribuzione delle frequenze assolute, relative e percentuali della

variabile Stato lavorativo mentre era in congedo di maternita rilevata con le 4

modalita date dalle rispettive domante alla risposta.

(c) Tra le mamme che non hanno lavorato, qual e la percentuale di mamme che

hanno un lavoro dipendente? E quella delle mamme che hanno un lavoro

autonomo?

(d) Il 48% delle lavoratrici dipendenti che non hanno mai lavorato sono dirigenti o

quadri. Quante sono queste donne?

(e) Il 25% delle lavoratrici dipendenti che hanno lavorato, ma hanno potuto deci-

dere quando, sono dirigenti o quadri. Quante sono queste donne?

(f) Come e stata calcolata la percentuale che compare nel titolo?

175

Lavoratrici dipendenti Il rientro

30 settembre 2015 | 21:58

© RIPRODUZIONE RISERVATA

!

!"

"0

#

#0

$

$0

%

%2

!

!

&

&

'

'(

( 100%TOTALE VOTI 1


2. Si riprendano i dati dell’esercizio precedente sulla condizione lavorativa delle donne

in matrnita. La tabella a doppia entrata del fenomeno e riportata di seguito.

Dipendenti Autonome Totali

SI + 385 87 472SI − 530 283 813SI = 866 348 1214NO 3032 369 3401

Totali 4813 1087 5900

Le variabili considerate sono:

• Condizione lavorativa mentre era in congedo di maternita con 4 modalita:SI + : Si e capitato e l’ho apprezzatoSI − : Si e capitato ma ne avrei fatto a menoSI = : Si e capitato ma ho potuto decidere quandoNo : No non e capitato

• Tipo di lavoro con 2 modalita:

– Lavoratrici dipendenti

– Lavoratrici autonome

(a) Ricostruire la distribuzione delle frequenze relative della variabile Condizione

lavorativa mentre era in congedo di maternita per il sottogruppo delle lavoratrici

dipendenti.

(b) Ricostruire la distribuzione delle frequenze relative della variabile Condizione

lavorativa mentre era in congedo di maternita per il sottogruppo delle lavoratrici

autonome.

(c) Confrontare con un opportuna rappresentazione grafica le due distribuzioni e

azzardare una risposta alla domanda: Tendono a lavorare di piu le lavoratrici

dipendenti o le autonome durante la maternita?

(d) Ricostruire una tabella delle distribuzioni congiunte dove le tre modalita del-

la variabile Condizione lavorativa mentre era in congedo di maternita dove

compare il SI, (SI+, SI−, e SI=) collassano in un’unica modalita SI.

(e) Calcolare la distribuzione della variabile Condizione lavorativa mentre era in

congedo di maternita, che presenta ora solo le modalita SI e NO per il sottogrup-

po delle lavoratrici dipendenti e per il sottogruppo delle lavoratrici autonome.

(f) Confrontare con un opportuna rappresentazione grafica le due distribuzioni e

azzardare una risposta alla domanda: Tendono a lavorare di pie le lavora-

trici dipendenti o le autonome durante la maternita?. Conferma, rafforza o

diminuisce l’idea ricavata dal precedente grafico?

177

(g) Tra le lavoratrici che percentuale ha lavorato ed ha un lavoro autonomo? Tra

le lavoratrici autonome, che percentuale ha lavorato? Tra le donne che hanno

lavorato, che percentuale ha un lavoro autonomo? Cosa cambia in ciascuna

delle percentuali richieste?


3. L’articolo Inference in an authorship problem di F. Mosteller e D. Wallace, riguarda

uno studio statistico su un problema di attribuzione letteraria. 85 articoli sul federa-

lismo furono pubblicati negli Stati Uniti per convincere i cittadini dello stato di New

York a ratificare la costituzione. Per 73 di questi articoli non ci sono stati problemi

di attribuzione, mentre per i restanti 12 si era indecisi se attribuire questi 12 scritti

a Hamilton o a Madison. L’attribuzione si basa sulla frequenza di particolari parole

(filler words) come an, of, upon, by, che generalmente ogni autore utilizza con diver-

sa frequenza. Si riportano nella seguente tabella il tasso (numero di ricorrenze ogni

1000 parole) della parola by in 48 scritti di Hamilton (H), in 50 scritti di Madison

(M) nei 12 scritti contesi (C) sul federalismo:

Tasso by

H M C

0 a 2 2 – –2 a 4 7 – –4 a 6 12 5 26 a 8 18 7 18 a 10 4 8 210 a 12 5 16 412 a 14 – 6 214 a 16 – 5 116 a 18 – 3 –

Totali 48 50 12

(a) Determinare la tabella delle frequenze relative e delle frequenze cumulate rela-

tive per le tre distribuzioni. (Fare tre tabelle)

(b) Rappresentare le tre distribuzioni con tre istogrammi. (Disegnare tre istogram-

mi con le stesse unita di misura)

(c) Quali istogrammi si somigliano di piu?

(d) Calcolare il tasso medio dell’utilizzo della parola by nei tre gruppi: H, M, e C.

(Utilizzare il valore centrale della classe).

(e) Confrontare i valori medi ottenuti nei tre gruppi.

(f) Rappresentare graficamente le frequenze cumulate per le tre variabili in uno

stesso grafico con tre colori differenti e calcolare la mediana del tasso della

parola by nei tre gruppi. (Stabilire prima in che classe cade il valore mediano e

quindi dedurne il valore graficamente o applicando la formula data nel testo)

(g) Confrontare la media con la mediana in ognuno dei tre gruppi osservando se la

media e minore maggiore o uguale alla mediana.

(h) Confrontare la mediana dei tre gruppi.

179

(i) Calcolare il 25-esimo e il 50-esimo percentile (primo e terzo quartile) per le tre

distribuzioni.

(j) Dopo queste analisi di chi pensate siano gli scritti contesi?


4. L’eta a cui viene dato il primo bacio a carattere sessuale (snog) e l’eta del primo

rapporto sessuale e stata rilevata su 42 giovani uomini. La tabella seguente riporta

le frequenze assolute, le frequenze cumulate e le frequenze cumulate relative. Con

apice B si riferiscono all’eta del primo bacio, apice R all’eta del primo rapporto.

Eta nBi NBi FB

i nRi NRi FR

i

7 1 1 0.02 0 0 08 0 1 0.02 0 0 09 1 2 0.05 0 0 010 0 2 0.05 0 0 011 3 5 0.12 1 1 0.0212 6 11 0.26 0 1 0.0213 5 16 0.38 1 2 0.0514 6 22 0.52 4 6 0.1015 12 34 0.81 4 10 0.2416 2 36 0.86 5 15 0.3617 4 40 0.95 6 21 0.5018 1 41 0.98 15 36 0.8619 0 41 0.98 4 40 0.9520 1 42 1 1 41 0.9821 0 42 1 1 42 1

Totali 42 – – 42 – –

(a) Calcolare la media e lo scarto quadratico medio per l’eta in cui viene dato

il primo bacio e l’eta a cui avviene il primo rapporto sessuale per i dati del

campione.

(b) Calcolare l’eta mediana, il primo e il terzo quartile, per l’eta in cui viene dato

il primo bacio e l’eta a cui avviene il primo rapporto sessuale per i dati del

campione.

(c) Ricavare le frequenze relative per l’eta a cui viene dato il primo bacio e l’eta

a cui avviene il primo rapporto sessuale. (Si possono dedurre dalle frequenze

cumulate?).

(d) Disegnare l’istogramma delle frequenza relative per le due eta. Considerare il

fenomeno come continuo con le classi di eta ampie 1 e chiuse a sinistra. Ad

esempio [7, 8) e [8, 9), fino all’ultima [21, 22).

(e) Disegnare i grafici delle frequenze cumulate relative per le due eta. Considerare

il fenomeno come continuo con le classi di eta ampie 1 e chiuse a sinistra. Ad

esempio [7, 8) e [8, 9), fino all’ultima [21, 22).

(f) Che percentuale di uomini da il primo bacio dopo (aver compiuto) i 16 anni.

(g) Che percentuale di uomini ha il primo rapporto sessuale prima di (aver com-

piuto) 17 anni?

(h) Disegnare il box plot delle due distribuzioni.

181

(i) Determinare il quinto e il 95-esimo prcentile per le due eta.

(j) Ipotizzando una distribuzione normale per l’eta in cui viene dato il primo bacio,

calcolare, in base al modello ipotizzato, la percentuale di uomini che da il primo

bacio dopo i 16 anni. (Utilizzare i valori dei parametri µ = 14 e σ = 2.4)

(k) Ipotizzando una distribuzione normale per l’eta in cui avviene il primo rapporto

sessuale, calcolare, in base al modello ipotizzato, la percentuale di uomini che

ha il primo rapporto sessuale prima di (aver compiuto) 17 anni. (Utilizzare

µ = 17 e σ = 2)

(l) Che eta costituisce il quinto percentile dell’eta a cui viene dato il primo bacio,

se si ipotizza la distribuzione normale?


5. L’eta a del primo rapporto sessuale e stata rilevata su 42 giovani uomini e su 38

giovani donne. La tabella seguente riporta le frequenze assolute per i due gruppi.

Con apice M si riferiscono all’eta degli uomini e con apice F all’eta delle donne.

Eta nMi nFi11 1 112 0 113 1 214 4 715 4 1216 5 617 6 418 15 219 4 220 1 121 1 0

Totali 42 38

Nei punti che seguono si arrotondino tutti i valori con 2 cifre decimali a meno che

non sia diversamente richiesto.

(a) Calcolare la media e lo scarto quadratico medio dell’eta in cui sia ha il primo

rapporto sessuale nei due gruppi.

(b) Calcolare l’intervallo di confidenza al 95% di fiducia dell’eta media in cui si ha

il primo rapporto sessuale nel gruppo degli uomini.

(c) Calcolare l’intervallo di confidenza al 95% di fiducia dell’eta media in cui si ha

il primo rapporto sessuale nel gruppo delle donne.

(d) Qual e l’ampiezza dei due intervalli? Da cosa dipende l’ampiezza dei due in-

tervalli? Riportare i due intervalli di confidenza calcolati arrotondando l’eta al

valore intero.

(e) Calcolare l’intervallo di confidenza al 95% di fiducia per la proporzione di uomini

che ha il primo rapporto prima dei 16 anni.

(f) Calcolare l’intervallo di confidenza al 95% di fiducia per la proporzione di donne

che ha il primo rapporto prima dei 16 anni.

(g) Si consideri il gruppo di 11 donne che ha avuto il primo rapporto ad un’eta

precoce (minore o uguale a 14 anni). Calcolare l’intervallo di confidenza con

livello di fiducia al 95% per l’eta precoce.

(h) Verificare l’ipotesi che l’eta media del primo rapporto per gli uomini sia 16 anni

contro l’alternativa che sia diversa. Si ponga come livello del test α = 0.05.

Quanto vale il p-value per questo test?

183

(i) Verificare l’ipotesi che l’eta media del primo rapporto per le donne sia 16 anni

contro l’alternativa che sia diversa. Si ponga come livello del test α = 0.05.

Quanto vale il p-value per questo test?

(j) Verificare l’ipotesi che la proporzione degli uomini che hanno il primo rapporto

prima dei 16 anni sia il 20% contro l’alternativa che sia diversa. Si ponga come

livello del test α = 0.05.

(k) Verificare l’ipotesi che l’eta media del primo rapporto sia uguale nei due gruppi

nel caso in cui lo scarto quadratico medio si possa ritenere uguale nei due gruppi

ma non sia noto. Si ponga come livello del test α = 0.05.


Soluzioni

1. (a) La tabella delle frequenze assolute congiunte e


SI + 385 87 472SI − 530 283 813SI = 866 348 1214NO 3032 369 3401

Totali 4813 1087 5900

(b) I valori richiesti sono riportati nella Tabella seguente:

ni fi piSI + 472 0.08 8%SI − 813 0.14 14%SI = 1214 0.20 20%NO 3401 0.58 58%

Totali 5900 1 100%

(c) 3032/3401=0.89 e 369/3401=0.11. Quindi rispettivamente l’89% e l’11%.

(d) 3032 ∗ 0.48 = 1455.36. Quindi 1455 donne.

(e) 866 ∗ 0.25 = 216.5. Quindi 217 donne.

(f) Sommando le prime tre percentuali per ogni colonna.

Per le dipendenti 8+11+18= 37.

Per le autonome 8+26+32=66.

185

2. (a) La distribuzione e riportata nella Tabella seguente:

ni fiSI + 385 0.08SI − 530 0.11SI = 866 0.18NO 3032 0.63

Totali 4813 1

(b) La distribuzione e riportata nella Tabella seguente:

ni fiSI + 87 0.08SI − 283 0.26SI = 348 0.32NO 369 0.34

Totali 1087 1

(c) Si riportano i due grafici a torta per le due distribuzioni.

SI+

SI−

SI=

NO

Lavoratrici dipendenti

SI+

SI−

SI=

NO

Lavoratrici autonome

(d) La Tabella e la seguente:


SI 1781 718 2499NO 3032 369 3401

Totali 4813 1087 5900

(e) Per le lavoratrici dipendenti

ni fiSI 1781 0.37NO 3032 0.63

Totali 4813 1

Per le lavoratrici autonome

ni fiSI 718 0.66NO 369 0.34

Totali 1087 1


(f) Si riportano i due grafici a torta per le due distribuzioni.

SI

NO

Lavoratrici dipendenti

SI

NO

Lavoratrici autonome

(g) 718/5900=0.12; 718/1087=0.66; 718/2499=0.29. Le percentuali richieste sono

rispettivamente: il 12%, il 66% e il 29%.

187

3. (a) Le tre distribuzioni sono riportate nelle tre tabelle seguenti:

Hamilton Madison Contesi

ni fi Fi ni fi Fi ni fi Fi0 a 2 2 0.04 0.04 0 0.00 0.00 0 0.00 0.002 a 4 7 0.15 0.19 0 0.00 0.00 0 0.00 0.004 a 6 12 0.25 0.44 5 0.10 0.10 2 0.17 0.176 a 8 18 0.38 0.82 7 0.14 0.24 1 0.08 0.25

8 a 10 4 0.08 0.90 8 0.16 0.40 2 0.17 0.4210a12 5 0.10 1 16 0.32 0.72 4 0.33 0.7512a14 0 0.00 1 6 0.12 0.84 2 0.17 0.9214a16 0 0.00 1 5 0.10 0.94 1 0.08 116a18 0 0.00 1 3 0.06 1 0 0.00 1

Totali 48 50 12 1 1 1 – – –

(b) I valori della densita per le tre distribuzioni sono riportate nella seguente

Tabella:

diH M Con

0 a 2 0.02 0.00 0.002 a 4 0.07 0.00 0.004 a 6 0.12 0.05 0.096 a 8 0.19 0.07 0.04

8 a 10 0.04 0.08 0.0910 a 12 0.05 0.16 0.1712 a 14 0.00 0.06 0.0914 a 16 0.00 0.05 0.0416 a 18 0.00 0.03 0.00

I tre istogrammi sono riportati nella seguente figura.

Scritti di Madison

Rate

Densi

ty

0 5 10 15

0.00

0.05

0.10

0.15

Scritti di Hamilton

Rate

Densi

ty

0 5 10 15

0.00

0.10

Scritti contesi

Rate

Densi

ty

0 5 10 15

0.00

0.05

0.10

0.15


(c) Osservare i tre istogrammi.

(d) Utilizzando i valori centrali per ogni classe, i tassi medi richiesti sono: 6.25,

10.52, 10, rispettivemnte per Hamilton, Madison e i Contesi.

(e) Confrontare i valori e dire quali si assomigliano.

(f) Il grfico dele frequenze cumulate e il seguente:

0 5 10 15

0.0

0.2

0.4

0.6

0.8

1.0

tasso

Fre

quen

ze c

umul

ate

rela

tive

HamiltonMadisonContesi

(g) Le mediane sono 7, 11, 11, rispettivamente per Hamilton, Madison e per gli

scritti Contesi.

(h) Osservare i valori.

(i) Utilizzando i valori centrali. Per Hamilton: Q1 = 5, Q3 = 7. Per Madison:

Q1 = 7, Q3 = 13. Per gli scritti Contesi: Q1 = 8, Q3 = 12. Per gli scritti

contesi si prendono gli estremi superiori della classi corrispondenti a 0.25 e 0.72

per la frequenza relativa cumulata.

189

4. (a) Si veda tabella punto successivo.

(b) I risultati sono nella seguente tabella.

Media SQM Mediana Q1 Q3

Primo bacio 14 2.4 14 12 15

Primo Rapporto 17 2.0 17 16 18

(c) Le frequenze relative si possono dedurre dalle cumulate per sottrazioni succes-

sive. Si presti attenzione agli arrotondamenti.

(d) Essendo le classi di ampiezza 1, le densita coincidono con le frequanze relative.

L’istogramma e riportato nella seguente figura

Età primo bacio

bacio

Densi

ty

0 5 10 15 20

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

Età primo rapporto

rap

Densi

ty

0 5 10 15 20

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

(e) Il grafico delle frequenze cumulate e riportato nella seguente Figura:

10 15 20

0.0

0.2

0.4

0.6

0.8

1.0

Età al primo bacio e del primo rapporto sessuale

età

F

età primo bacioetà primo rapporto

(f) Il 19%.


(g) Il 36%.

(h) I due boxplot sono riportati nella seguente Figura.

●

●

●

bacio rap

810

1214

1618

20

(i) Per l’eta del primo bacio il quinto percentile e 9 anni, il 95-esimo e 17 anni. Per

il l’eta del primo rapporto il quinto percentile e 13 anni, il 95-esimo e 19 anni.

(j) z = 16−142.4 = 0.83. Dalle tavole l’area sotto la curva da 0.83 in poi e 0.20. Quindi

il 20%. Si osservi che la percentuale empirica osservata sui dati e il 19%.

(k) z = 16−172 = 0.50. Dalle tavole l’area sotto la curva prima di 0.50 e 0.31. Quindi

il 31%. Si osservi che la percentuale empirica osservata sui dati e il 36%.

(l) Dalle tavole della normale standardizzata il valore per cui l’area prima di quel

valore e pari a 0.05 e il valore z = −1.64. Quindi il quinto percentile teorico per

l’eta in cui viene dato il primo bacio e 14− 1.64 · 2.4 = 10.064. Arrotondando

il quindi percentile e 10 anni.

191

5. (a) Per gli uomini l’eta media del primo rapporto e 16.88 anni (arrotondato all’eta

intera 17 anni) per le donne e 15.39 (ovvero 15 anni). Lo scarto quadratico

medio e 2.00 per gli uomini e 1.88 per le donne.

(b) L’intervallo di confidenza dell’eta media per il primo rapporto nel gruppo degli

uomini e:

µ ∈(

16.88− 1.96 ∗ 2.00

6.48; 16.88 + 1.96 ∗ 2.00

6.48

)= (16.88− 0.60; 16.88 + 0.60)

da cui µ ∈ (16.28; 17.48).

(c) L’intervallo di confidenza dell’eta media per il primo rapporto nel gruppo delle

donne e:

µ ∈(

15.39− 1.96 ∗ 1.88

6.16; 15.39 + 1.96 ∗ 1.88

6.16

)= (15.39− 0.60; 15.39 + 0.60)

da cui µ ∈ (14.79; 15.99).

(d) L’ampiezza dell’intervallo per gli uomini e: 17.48 − 16.28 = 1.20 quindi circa

un anno e 2 mesi e mezzo (1/5 di anno); l’ampiezza dell’intervallo per le don-

ne e 15.98 − 14.79 = 1.19. L’ampiezza e pressoche la stessa e dipende dallo

scarto quadratico medio, dal grado di fiducia dell’intervallo e dalla numerosita

campionaria. Arrotondando all’eta intera occorre ricalcolare l’intervallo cen-

trandolo sul valor medio arrotondato al valore intero. Dunque per gli uomini:

(17− 0.60; 17 + 0.60) = (16.40, 17.60) = (16, 18) per le donne in modo analogo

si ottiene (14, 16). in questo caso l’ampiezza di entrambi gli intervalli e due

anni. Possiamo dire che arrossimativamente almeno il 95% dei ragazzi maschi

ha il primo rapporto sessuale tre i 16 e i 18 anni.

(e) La proporzione osservata di uomini che ha il primo rapporto prima di 16 anni

e p = 10/42 = 0.24. L’intervallo per la vera proporzione π e:

π ∈

(0.24− 1.96

√0.24 ∗ 0.76

42; 0.24 + 1.96

√0.24 ∗ 0.76

42

)

da cui (0.24− 0.13; 0.24 + 0.13)equindi l’intervallo e π ∈ (0.11, 0.39)

(f) La proporzione osservata di donne che ha il primo rapporto prima di 16 anni e

p = 23/38 = 0.61. L’intervallo per la vera proporzione π e:

π ∈

(0.61− 1.96

√0.61 ∗ 0.39

38; 0.61 + 1.96

√0.61 ∗ 0.39

38

)

da cui (0.61− 0.16; 0.61 + 0.16)equindi l’intervallo e π ∈ (0.45, 0.77).


(g) L’eta media in questo caso e calcolata sulle 11 donne che hanno un rapporto

prima dei 15 anni e risulta: xP = 13.36 dove P sta per precoce. Lo scarto

quadratico medio per questo gruppo risulta: sP = 1.03. Poiche la numerosita e

piccola utilizziamo la t di Student per calcolare l’intevallo di confidenza al 5%.

Il valore e: t100.975 = 2.23. L’intervallo risulta quindi: µP ∈ (12.63, 14.09).

(h) H0 : µ = 16. HA : µ 6= 16. z = 16.88−162.00/sqrt42 = 2.85. Poiche |z| > 1.96, si rifiuta

l’ipotesi nulla. L’eta media del primo rapporto e diversa da 16, a livello 5%.

Per trovare il p-value si entra nella tavola della Normale con 2.85. Il valore

corrispondente all’area e 0.002 quindi il p-value e 0.004.

(i) H0 : µ = 16. HA : µ 6= 16. z = 15.39−161.88/sqrt38 = −2.00. Poiche |z| > 1.96, si

rifiuta l’ipotesi nulla. L’eta media del primo rapporto e diversa da 16, a livello

5%. Per trovare il p-value si entra nella tavola della Normale con 2.00. Il valore

corrispondente all’area e 0.023 quindi il p-value e 0.046.

(j) H0 : π = 0.20. HA : π 6= 0.20. p = 0.24. z = 0.24−0.20√0.24∗0.76

42

= 0.61. Poiche

|z| < 1.96, non si rifiuta l’ipotesi nulla. La proporzione di uomini che hanno il

primo rapporto prima di sedici anni non si puo considerare diversa dal 20%.

(k) sp = 1.95. t = 3.41. I gradi di liberta sono 78. Il valore soglia e t780.975 ≈ t60

0.975 =

2.00. Poiche |t| > 2.00, si rifiuta l’ipotesi nulla. L’eta del primo rapporto e da

considerare diverso nei due gruppi, a livello 5%.

Bibliografia

[1] Bloch, A., (1988). La legge di Murphy, E altri motivi per cui le cose vanno a rovescio,

Longanesi.

[2] Diamond, I., Jefferies J. (2014). Introduzione alla statistica per le scienze sociali

2/ed, McGraw-Hill Education Italy.

193

Date post:	03-Aug-2020
Category:	Documents
Upload:	others
View:	1 times
Download:	0 times

Appunti di Statistica sociale (Draft) · 2018-12-21 · statistica, e anche se non le utilizzerete...

Documents