Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1 · Statistica descrittiva Calcolo delle...

Post on 22-Feb-2019

218 views 0 download

transcript

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

“La statistica è la descrizione delle qualità che caratterizzano e degli elementi checompongono uno Stato" (Ghislini, 1589)

“ La statistica ha quindi per suo oggetto quello di presentare una fedelerappresentazione di uno stato in una determinata epoca “ (Quetelet, 1849)

“ La statistica è stata riconosciuta nel ventesimo secolo come lo strumento matematicocapace di analizzare i dati degli esperimenti e quelli osservati in ogni contesto” (Porter,1986)

STATISTICA = etimologicamente è “studio delle cose dello Stato”

Cenni storici

Si hanno notizie di censimenti a partire dall’antico Egitto.

A Venezia e Firenze , nel Rinascimento, ha inizio la raccolta sistematica di dati supopolazione ed economia.

In tutta Europa entro la metà del 1500 è consuetudine chiedere da parte dei governialle parrocchie di tenere registri di nascite, matrimoni, morti.

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Nel 1662 John Graunt pubblica “Natural and Political Observation Made upon the Billsof Mortality”.

Nel 1693 gli studi di Edmund Halley convincono le compagnie assicuratrici a stipularepremi di assicurazione sulla base dell’ètà dell’assicurato.

A partire dal 1600 si diffonde anche il calcolo delle probabilità. Basilare è lacorrispondenza tra Pascal e Fermat (problema sul gioco dei dadi o problema dei punti).

Cardano, Pacioli, Tartaglia, Bernoulli, Gauss, Laplace, Poisson si occupano tutti dicalcolo delle probabilità, senza però fare inferenza probabilistica.

Alla fine del 1800 Galton e Pearson iniziano ad occuparsi di inferire conclusioni sullapopolazione a partire dai dati campionari, utilizzando opportuni modelli probabilistici.

All’inizio del 1900 la statistica inferenziale è applicata soprattutto alla biologia umana eall’agricoltura, ma le teorie sviluppate erano abbastanza generali da adattarsi ai contestipiù diversi; la statistica diventa sempre più la scienza in grado di fornire rispostequantitative ai problemi più disparati.

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Statistica inferenziale

Statistica descrittiva

Calcolo delle

probabilità

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

PopolazioneCaratteri (variabili aleatorie)

Raccolta dati

Sintesi numeriche

Sintesi grafiche

Analisi comparative

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Categoriche

NumericheDiscrete

Continue

Ordinabili

Non ordinabili

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Solo per v.a. ordinabili (modalità disposte in

ordine crescente)

XFrequenza assoluta

Frequenza relativa

Frequenza relativa

percentualeFrequenza cumulata

Modalità 1 f1 fr1=f1 /n 100 fr1 f1

Modalità 2 f2 fr2 100 fr2 f1+f2

…. …. …. …. ….

Modalità k fk frk 100 frk n

nfk

ii

1

11

k

irif 100

1

k

i%rif

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Esempio

X = professione di titolari della tessera fedeltà di un supermercato n= 850

Dati:casalinga, insegnante, panettiere, direttore amministrativo, disoccupato, impiegato, pensionato, benzinaio, …….

Tabella di frequenza

X freq. ass. freq. rel. freq. perc.

artigiano 62 0.0729 7.29

casalinga 51 0.0600 6.00

commerciante 27 0.0318 3.18

dirigente 25 0.0294 2.94

disoccupato 4 0.0047 0.47

impiegato 215 0.2529 25.29

insegnante 30 0.0353 3.53

operaio 40 0.0471 4.71

pensionato 196 0.2306 23.06

altro 200 0.2353 23.53

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Diagramma a barre

Grafico a torta

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Esempio

X = numero particelle cosmiche rilevate in periodi di un minuto n= 20

Dati:0 2 1 4 3 1 2 2 5 2 1 3 3 1 2 5 8 2 3 3

Tabella di frequenza

Numero

particellefreq. ass. freq. rel. freq. perc.

freq. ass.

cum.

freq. rel.

cum.

freq. perc.

cum.

0 1 0.05 5 1 0.05 5

1 4 0.2 20 5 0.25 25

2 6 0.3 30 11 0.55 55

3 5 0.25 25 16 0.8 80

4 1 0.05 5 17 0.85 85

5 2 0.1 10 19 0.95 95

8 1 0.05 5 20 1 100

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Grafico a barre verticali

Grafico delle frequenze cumulate assolute

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Esempio

X = diametro (in cm) delle sferette prodotte da un macchinario n= 15

Dati:2,08; 1,72; 1,9; 2,11; 1,79; 1,86; 1,8; 1,82; 1,84; 2,04; 1,86; 2,04; 1,8; 1,82; 1,91

Tabella di frequenza

Diametro

in classifreq. ass. freq. rel. freq. perc.

freq. ass.

cum.freq. rel. cum.

freq. perc.

cum.

(1.7,1.8] 4 0.267 26.7 4 0.267 26.7

(1.8,1.9] 6 0.4 40 10 0.667 66.7

(1.9,2] 1 0.067 6.7 11 0.734 73.4

(2,2.1] 3 0.2 20 14 0.934 93.4

(2.1,2.2] 1 0.067 6.7 15 1.001 100.1

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Istogramma

Grafico delle frequenze cumulate percentuali

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

XFrequenza assoluta

x1 f1

x2 f2

…. ….

xk fk

n

Media campionaria =

Mediana campionaria = dato di posto (n+1)/2 se n è dispari, media tra i dati di posto n/2 e n/2+1 se n è pari ( v.a. ordinabili, dati disposti in ordine crescente)

Moda = modalità con la frequenza “localmente” massima

k

iii fx

nx

1

1

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

XFrequenza assoluta

a1 ⊣ b1 f1

a2 ⊣ b2 f2

…. ….

ak ⊣ bk fk

n

Media campionaria =

Mediana campionaria = si individua la classe mediana; al suo interno la mediana si può approssimare mediante interpolazione lineare

Moda = si individua la classe modale.

2

1

1

iici

k

iici

baxfx

nx

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Percentili campionari

V.a. ordinabile, n dati disposti in ordine crescente, h∈ N, 0≤h≤100

ph = h-esimo percentile = dato ( o media dei dati) che è contemporaneamente maggiore o uguale di almeno l’ h% dei dati e minore o uguale di almeno il (100-h)% dei dati:

nh/100 non intero ⇒ ph = dato di posto [nh/100]+1

nh/100 intero ⇒ ph = media tra i dati di posto nh/100 e nh/100+1.

Quartili

Q1 = primo quartile = p25

Q2 = mediana o secondo quartile = p50

Q3 = terzo quartile = p75

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Range = massimo – minimo

IQR = differenza interquartile = Q3 – Q1

s2 = varianza campionaria =

s = deviazione standard campionaria =

2

1

2

1

2

1

1

1

1xnfx

nfxx

ni

k

iii

k

ii

2s

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Esempio

X = professione di titolari della tessera fedeltà di un supermercato n= 850

Tabella di frequenza

X freq. ass.

artigiano 62

casalinga 51

commerciante 27

dirigente 25

disoccupato 4

impiegato 215

insegnante 30

operaio 40

pensionato 196

altro 200

Moda = impiegato

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Esempio

X = numero particelle cosmiche rilevate in periodi di un minuto n= 20

Tabella di frequenza

Numero

particellefreq. ass.

freq. perc.

cum.

0 1 5

1 4 25

2 6 55

3 5 80

4 1 85

5 2 95

8 1 100

Media =

Moda = 2

Mediana = 2

Q1 = 1.5 (media fra i dati di posto 5 e 6)

Q3 = 3 p98 = 8

65218411020

1....

s2 = s = 1.81 2936522018411019

1 2222 .....

Range = 8 IQR = 1.5

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Esempio

X = diametro (in cm) delle sferette prodotte da un macchinario n= 15

Tabella di frequenza

Diametro

in classifreq. ass.

freq. perc.

cum.

(1.7,1.8] 4 26.7

(1.8,1.9] 6 66.7

(1.9,2] 1 73.4

(2,2.1] 3 93.4

(2.1,2.2] 1 100.1

Media =

Classe modale = 1.8 ⊣ 1.9

Classe mediana = 1.8 ⊣ 1.9

Classe del primo quartile = 1.7 ⊣ 1.8

Classe del terzo quartile = 2 ⊣ 2.1

89111526851475115

1.......

s2 = s = 0.13 0170891151152475114

1 222 .......

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

1k

La percentuale di dati appartenenti all’intervallo è pari

almeno a

X v.a. con media e deviazione standard sx

ksx;ksx

%k

1001

12

Quindi:

almeno il 75% dei dati appartiene all’intervallo

almeno l’ 88.89% dei dati appartiene all’intervallo

almeno il 93.75% dei dati appartiene all’intervallo

sx;sx 22

sx;sx 33

sx;sx 44

Politecnico di Milano sede di Piacenza

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 1

Esempio

X = numero particelle cosmiche rilevate in periodi di un minuto n= 20

Tabella di frequenza

Numero

particellefreq. ass.

freq. perc.

cum.

0 1 5

1 4 25

2 6 55

3 5 80

4 1 85

5 2 95

8 1 100

= 2.65 s = 1.81 x

27697022 .;.sx;sx

A questo intervallo appartengono 19 dati su 20, cioè il 95% dei dati.