+ All Categories
Home > Documents > Matematica e statistica Versione didascalica: parte 5 Sito web del corso Docente: Prof. Sergio...

Matematica e statistica Versione didascalica: parte 5 Sito web del corso Docente: Prof. Sergio...

Date post: 01-May-2015
Category:
Upload: gavino-palumbo
View: 213 times
Download: 0 times
Share this document with a friend
33
Matematica e statistica Versione didascalica: parte 5 Sito web del corso http://www.labmat.it Docente: Prof. Sergio Invernizzi, Università di Trieste e-mail: [email protected]
Transcript
Page 1: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

Matematica e statisticaVersione didascalica: parte 5

• Sito web del corso

http://www.labmat.it

• Docente: Prof. Sergio Invernizzi, Università di Trieste

• e-mail: [email protected]

Page 2: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

1. Dati, frequenze, probabilità

Page 3: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

1.1. Dati sperimentali

1.1.1. Scale di misura

• Scala nominale: sesso (M, F), fattore Rh (+, -), ... (0, 1)

• Scala ordinale: Mercalli (1-11), Mohs (1-10), Beaufort (0-12), Welzenbach (I-VI), voti positivi (18-30), scale psicofisiche, temperatura °C, temperatura °F, ...

• Scala rapportale: grandezze del SI, ...

Page 4: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

1.2. Dati simulati: numeri casuali 0 X 1

Dato un sottointervallo [a, b] di [0, 1], si ha che la “probabilità”

Prob{a X b} = b – a

Page 5: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

1.2.1. Distribuzioni uniformi 0 X 1

• Numero reale casuale 0 X 1 su R: runif(1,0,1) su molte calcolatrici: rand• Su R: 12 numeri reali casuali fra 0 e 1> runif(12,0,1) [1] 0.3484068 0.8341864 0.8988571 0.5277379 [5] 0.3219228 0.1356026 0.4953923 0.2680660 [9] 0.7098743 0.9254270 0.2932126 0.7307181

Page 6: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

1.2.1. Distribuzioni uniformi a X b

• Numero reale casuale a X b X <- runif(1,a,b) X = a + rand (b – a)• Numero intero casuale n X m X <- floor(runif(1,n,m + 1)) X = int (n + rand (m – n + 1)) • Dado: 1 X 6 X <- floor(runif(1,1,7)) X = int (1 + rand 6)• Lotto/Tombola con R: 1 X 90 > floor(runif(15,1,91)) [1] 88 52 4 40 77 [6] 89 63 41 41 11

[11] 41 78 17 52 12

Page 7: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

1.2.1. Attenzione!

• Due dadi: 2 X 12 (non uniforme), 30 lanci:

Il dado rosso Il dado verde

> floor(runif(30,1,7)) + floor(runif(30,1,7)) [1] 8 7 6 4 8 7 7 9 10 5 4 10 8 8[15] 8 4 2 4 12 2 7 6 7 11 10 9 10 8[29] 11 7

• 30 lanci di un dado a 11 facce numerate da 2 a 12:

> floor(runif(30,2,13)) [1] 3 11 2 6 6 5 7 8 2 3 9 9 11 11[15] 5 6 2 6 11 6 4 4 4 6 9 12 8 2[29] 2 4

Page 8: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

250 dati interi da 1 a 12

{4, 7, 4, 8, 6, 4, 3, 7, 3, 1, 6, 2, 9, 6, 6, 8, 12, 1, 1, 10, 11, 5, 8, 1, 8, 11, 5, 6, 3, 7, 2, 11, 12, 7, 9, 10, 3, 1, 3, 2, 4, 12, 3, 5, 5, 8, 7, 4, 10, 10, 3, 10, 8, ..., 6, 11, 7, 9, 6, 11, 4, 1, 6, 7, 10, 1, 11, 5, 8, 9, 3, 4, 3, 7, 7, 5, 7, 6, 2, 7, 12, 10, 8, 8, 9, 9, 3, 1, 11, 8}

Dati simulati con la “ruota della fortuna” a 12 spicchi uguali:

Page 9: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

250 dati interi da 1 a 12

{6, 6, 5, 6, 3, 4, 8, 7, 7, 6, 9, 5, 10, 6, 6, 7, 10, 10, 3, 3, 8, 5, 7, 6, 10, 7, 6, 7, 9, 4, 7, 2, 5, 11, 6, 6, 8, 6, 4, 7, 7, 9, 7, 7, 8, 10, 9, 5, 8, 6, 6, 7, 5, 5, 11, ..., 4, 10, 7, 9, 9, 7, 4, 9, 5, 10, 8, 5, 6, 9, 7, 6, 4, 7, 7, 6, 3, 2, 8, 9, 4, 8, 11, 2, 8, 9, 7, 11, 6, 9, 4, 8, 7, 6, 3, 6, 7, 4, 2, 6, 3, 4, 6, 3}

Dati simulati con il lancio di “due dadi”:

Page 10: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

1.3 Frequenze assolute e relative

dati = {217, 250, 297, 212, 380, 344, 259, 269, 303, 327, 285, 341, 326, 233, ..., 258, 357, 238, 300, 298, 321, 202, 368, 371, 422, 212, 349, 306, 344, 303, 328, 339, 363, 264, 305};

Un esempio di istogramma di frequenze assolute. Consideriamo il peso x di n = 300 giovani trote (dati di assoluta fantasia):

Stabiliamo il minimo ed il massimo dei dati: {158, 448}

Fissiamo i cutoff in modo da dare frequenza zero alla prima e all'ultima classe: cut = {150, 200, 250, 300, 350, 400, 450}

Determiniamo i centri delle 6 classi limitate (escludendo cioè le due semirette x < 150 e x > 450): class = {175, 225, 275, 325, 375, 425}

Page 11: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

Calcoliamo le frequenze assolute di tutte le 8 classi:{0, 4, 41, 98, 108, 43, 6, 0}Scartiamo le frequenza della prima e dell'ultima classe:(nk) k=1,6 = {4, 41, 98, 108, 43, 6}

Istogramma delle frequenze assolute nk.

1.3.1. Istogrammi

Page 12: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

L'istogramma delle frequenza relative fk = nk / n {0.0133333, 0.136667, 0.326667, 0.36, 0.143333, 0.02}comporta solo un cambio di scala sull'asse Y. Se vi e' aggiustamento automatico di scala i due istogrammi (delle frequenze assolute e delle relative) appaiono identici.

Istogramma delle frequenze relative fk = nk / n

(continua)

Page 13: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

Vediamo l'areogramma delle stesse frequenze relative fk = nk / n. Le 6 classi considerate hanno tutte la stessa ampiezza w = 50. Per determinare l'areogramma delle frequenze relative, l'altezza delle barre deve essere: fk / w ={0.000266667, 0.00273333, 0.00653333, 0.0072, 0.00286667, 0.0004}Posizioniamo le barre al centro delle classi:

Areogramma delle frequenze relative fk = nk / n

1.3.2. Areogrammi

Page 14: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

Raffinando la suddivisione...

Proviamo a suddividere in modo piu' fine una delle classi, per esempio la [300, 350), aggiungendo dei cutoff a x = 315 ed x = 335:cut = {150, 200, 250, 300, 315, 335, 350, 400, 450}Calcoliamo le frequenze relative e tracciamone l'istogramma:

Page 15: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

L'istogramma è stato "rovinato" dalla suddivisione più fine di una delle classi, invece l'areogramma...

... ha mantenuto la forma corretta! Ricorrere sempre ad areogrammi di frequenze (non ad istogrammi) quando la ampiezza delle classi -- quelle limitate -- non è costante!

(continua)

Page 16: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

Esempio: DNA

dna="GTCGACTCATCATTTCCTCTTGGTTGTAAAAGCTAAGAAGGGTTTGACTGTTCGTCAATTAAAATGTTACGTGAGTTGGGTTAAATACGATGTGAATCAGTATGGTTCCTATCTGCTGAAGGAAATATTATCAAATTAAATCTCATTATTAGTACGCAAGGACCATAATGAATCAACCCATGGTGTATCTATTGATAATAATATAATATATTTAATAAAAATAATACTTTATTAATATATTATCTATATTAGTTTATATTTTAATTATATATTATCATAGTAGATAAGCTAAGTTGATAATAAATAAATATTGAATACATATTAAATATGAAGTTGTTTTAATAAGATAATTAATCTGATAATTTTATACTAAAATTAATAATTATAGGTTTTATATATTATTTATAAATAAATATATTATAATAATAATAATTATTATTATTAATAAAAAATATTAATTATAATATTAATAAAATACTAATTTATCAGTTATCTATATAATATCTAATCTAATCTATTATTCTATATACTTATTACTCCTTATGGGGTCCCGGTTGGACCGAGACTCCTCCCTTGCGGGATTGGTTCACACCTTTATAAATAAATAATAAATAATAAATAAAGGTGTTCACTAATAAATATATATATATATATATATATATTATATTATAATATTATTTAATACTTAATATATTATATATTTTATATTTAATAAATAAAAAAAATATTAATAAATAATAATATTAATAATAAAGAAATTATAATTAATACCCTTTATATATAATTCTAATTAATTAAATTAAATATTTATATATAATAATCAATATATTATTAATTTAATAATTATTATAATAGTTTATAAAAGTATATTTTATATTATATTATATTATATTTAATAAGTCATTTTNTCTTCACCCACCTTTTTTTTAATAATATATTATATTAAAAATATAATAATTTATATGATTTATTAATACTTTTTATATAATTATATTATTAT"

Page 17: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

Esempio: l’italiano statistico

Page 18: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

La legge empirica del caso

• Esperimento E = lancio due dadi. • Evento A = esce 8• In n =10000 prove si osservano k = 1386 successi di A

k/n = 0.1386 = 13.86% Prob(A) 13.86%

Page 19: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

Un caso non banale: halting

• Esperimento E = una macchina lancia ripetutamente una moneta; se escono dieci teste consecutive la macchina si ferma. • Evento A = la macchina si ferma (ossia prima o dopo escono 10 teste consecutive)• In n = 2500 prove si osservano k = 2500 successi Prob(A) 1• Su 2500 prove, il tempo medio di attesa delle 10 teste consecutive è di 2019.29 lanci: istogramma dei tempi di attesa osservati (in 20 classi):

L’attesa più lunga è stata di 18366 lanci (prima che escano 10 teste consecutive)

Page 20: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

Paradosso della scimmia

• Una scimmia battendo a caso su una macchina da scrivere, scriverebbe prima o poi la frase “M’illumino d’immenso.”• La scimmia prima o poi scriverebbe tutto I Promessi Sposi • La scimmia prima o poi scriverebbe Il Nome della Rosa, seguita dalla Critica della Ragion Pura in tedesco e dalla Divina Commedia. • Prima o poi.

Page 21: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

1.4. Spazio campionario

• Esperimento E• Eventi A, B, C, ... Elementari

Composti

• La totalità degli eventi elementari associati ad un esperimento E costituisce lo spazio campionariospazio campionario dell’esperimento E• Esempio: E = lancio di due dadi

= { (1,1), (1,2), (1,3), (1,4), (1,5), (1,6), (2,1), (2,2), (2,3), (2,4), (2,5), (2,6), (3,1), (3,2), (3,3), (3,4), (3,5), (3,6), (4,1), (4,2), (4,3), (4,4), (4,5), (4,6),

(5,1), (5,2), (5,3), (5,4), (5,5), (5,6), (6,1), (6,2), (6,3), (6,4), (6,5), (6,6) }

Page 22: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

Eventi composti

Lo spazio campionariodel lancio di due dadie l’eventoA = “esce 8”selezionato.

Page 23: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

1.5.1. Regole di calcolo

• P(A) = frequenza relativa (asintotica) di successo• = “oppure” • = “e” • ~ = “non”• In generale: P(A B) = P(A) + P(B) – P(A B) • A, B incompatibili A B impossibile P(A B) = 0• A, B incompatibili: P(A B) = P(A) + P(B) • In generale: P(~A) = 1 – P(A)• Sistema completo di eventi: A1, A2, A3, A4, .... in ogni ripetizione di E se ne osserva uno e uno solo.• Sistema completo di eventi: A1, A2, A3, A4, .... P(Aj Ai) = 0 (j i)• Sistema completo di eventi P(A1) + P(A2 ) + P(A3) + .... = 1

Page 24: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

(continua)

• Sistema completo di L eventi: A1, A2, A3, ..., AL equiprobabili P(A1) + P(A2 ) + ... + P(AL) = 1 P(Aj ) = 1/L (j = 1, ..., L)

• Sistema completo di L eventi: A1, A2, A3, ..., AL equiprobabili,

• Un evento A composto da k di essi (casi favorevoli [ad A] ) P(A) =

• E = scelta di un individuo in una popolazione {u1, u2, ..., uL} L’evento An = “viene scelto un” {A1, A2, ..., AL} è un sistema completo di eventi Se gli An sono equiprobabili, si dice che la scelta è casuale.

1 1 1 1... casi favorevolikL L L L L casi possibili

Page 25: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

1.5.2 Probabilità condizionata

• Popolazione P di L = 1 177 507 individui LA = 129126 mancini (di ambo i sessi) LH = 697782 donne LAH = 69081 donne mancine

• evento A = “un individuo scelto a caso in tutta la P è mancino” evento H = “un individuo scelto a caso in tutta la P è donna”

• per definizione di scelta a caso P(A) = LA / L P(H) = LH / L

• Sottopopolazione F delle LH donne : P(una donna scelta a caso è mancina) = LAH / LH

A|H (leggasi: A dato H)

Page 26: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

Regola di Bayes

• Sottopopolazione F delle LH donne : P(una donna scelta a caso è mancina) = LAH / LH

A|H (leggasi: A dato H)

• P(A|H) = LAH / LH = {LAH / L} / {LH / L} = P(A H) / P(H)

La probabilità condizionata di A sotto l’ipotesi H (dato H)• P(A H) = P(A|H) P(H)• P(H A) = P(H|A) P(A)• P(A|H) P(H) = P(A H) = P(H A) = P(H|A) P(A)• P(A|H) = P(H|A) P(A) / P(H) Regola di Bayes

Page 27: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

1.5.3. Indipendenza

• P(A H) = P(A|H) P(H) • A indipendente da H P(A) = P(A|H)

P(A H) = P(A) P(H)

P(H A) = P(A) P(H)

H indipendente da A

• A, B indipendenti P(A B) = P(A) P(B)

• Eventi A, B incompatibili non sono indipendenti, anzi sono tanto “dipendenti” che quando si verifica l’uno non si può verificare l’altro: P(A|B) = P(B|A) = 0

Page 28: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

Esercizio: taxi

Un taxi in servizio notturno provoca un incidente e fugge. In città operano due compagnie, la Taxi Blu e la Taxi Verdi. Si sa che 85% dei taxi in città sono Verdi e per il 15% sono Blu. Un testimone della scena ha identificato il taxi coinvolto come un Taxi Blu. Il testimone viene sottoposto ad un test visivo in analoghe condizioni di visibilità, e mostra di distinguere correttamente fra i due colori nell’ 80% delle prove. Qual’è la probabilità che sia stato uno taxi Blu a provocare l’incidente piuttosto che uno Verde?

Page 29: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

> n <- 25000> cab <- c(1:n)> taxi <- function(x) if (runif(1)<0.15) 1 else 0> for(i in 1:n) cab[i] <- taxi(i)> vedo <- function(x) if (runif(1)<0.80) x else 1-x> cabvistoblu <- c(1:n)> for(i in 1:n) cabvistoblu[i] <- vedo(cab[i])> sum(cab*cabvistoblu)/sum(cabvistoblu)[1] 0.4138647

Simulazione

Page 30: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

Soluzione: taxi

A = “il taxi che ha causato l’incidente è un taxi blu”

B = “il testimone riferisce correttamente il colore”

H = “il testimone riferisce di aver visto un taxi blu” • P(A) = 0.15 • P(B) = 0.80• P(H) = 0.15 0.80 + 0.85 0.20 = 0.12 + 0.17 = 0.29• P(H|A) = 0.80 (in quanto H|A è logicamente equivalente a B)• P(A|H) = P(H|A) P(A) / P(H) = 0.80 0.15/0.29 0.4138 41%• Nota sul calcolo di P(H): H è logicamente equivalente all’evento

(AB) (~ A ~ B); i due eventi (AB), (~ A ~ B) sono

incompatibili; A, B (come ~ A, ~ B) sono indipendenti

Page 31: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

Esercizio: diagnosi medica

La prevalenza una certa malattia è 1/1000. In un test utilizzato per diagnosticarla, la probabilità di un falso positivo è del 5%. Si chiede la probabilità che un paziente positivo al test abbia effettivamente contratto la malattia, assumendo di non saper nulla sui sintomi presentati dal paziente stesso.

Page 32: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

Grafica approssimata

Page 33: Matematica e statistica Versione didascalica: parte 5 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

Soluzione: diagnosi medica

A = “il paziente è ammalato”

H = “il test dà esito positivo al paziente”

P(H ~ A) = 0.05 (“falsi positivi” = “positivi” e anche “non ammalati”)• P(A) = 0.001 • P(H) = 0.001 + 0.05 = 0.051• P(H|A) = 1 (è sottointeso che il test è sempre positivo sugli ammalati)• P(A|H) = P(H|A) P(A) / P(H) = 1 0.001/0.051 0.0196 2%• Nota sul calcolo di P(H): H = (HA) (H ~ A), gli eventi (HA) e

(H ~ A) sono incompatibili; (HA) è logicamente equivalente ad A


Recommended