+ All Categories
Home > Documents > INTRODUZIONE ALLA STATISTICA (parte 3) - people.unica.it · 2017. 12. 8. · INTRODUZIONE ALLA...

INTRODUZIONE ALLA STATISTICA (parte 3) - people.unica.it · 2017. 12. 8. · INTRODUZIONE ALLA...

Date post: 31-Jan-2021
Category:
Upload: others
View: 5 times
Download: 0 times
Share this document with a friend
214
INTRODUZIONE ALLA STATISTICA (parte 3) A.A.2017/2018 1/1
Transcript
  • INTRODUZIONE ALLA STATISTICA (parte 3)

    A.A.2017/2018

    1 / 1

  • Calcolare le misure di variabilità

    In sette città in Canada il 14 gennaio 2006 sono state reg-istrate le seguenti temperature.

    −12 −5 2 2 0 −3 5

    Calcolare il range, gli scarti dalla media, la varianza e ladeviazione standard.

    2 / 1

  • Calcolare le misure di variabilità

    range = 5− (−12) = 17

    x̄ =−12−5+2+2+0−3+5

    7=−11

    7=−1.57

    Valore Deviazione Dev. quadratica(xi− x̄) (xi− x̄)2

    −12 −12− (−1.57) =−10.43 108.7849−5 −5− (−1.57) =−3.43 11.76492 2− (−1.57) = 3.57 12.74492 2− (−1.57) = 3.57 12.74490 0− (−1.57) = 1.57 2.4649−3 −3− (−1.57) =−1.43 2.04495 5− (−1.57) = 6.57 43.1649

    Totale 0 193.7143

    s2 =193.7143(7−1)

    = 32.28572 s =√

    32.28572 = 5.682052

    3 / 1

  • Calcolare le misure di variabilità

    range = 5− (−12) = 17

    x̄ =−12−5+2+2+0−3+5

    7=−11

    7=−1.57

    Valore Deviazione Dev. quadratica(xi− x̄) (xi− x̄)2

    −12 −12− (−1.57) =−10.43 108.7849−5 −5− (−1.57) =−3.43 11.76492 2− (−1.57) = 3.57 12.74492 2− (−1.57) = 3.57 12.74490 0− (−1.57) = 1.57 2.4649−3 −3− (−1.57) =−1.43 2.04495 5− (−1.57) = 6.57 43.1649

    Totale 0 193.7143

    s2 =193.7143(7−1)

    = 32.28572 s =√

    32.28572 = 5.682052

    3 / 1

  • Calcolare le misure di variabilità

    range = 5− (−12) = 17

    x̄ =−12−5+2+2+0−3+5

    7=−11

    7=−1.57

    Valore Deviazione Dev. quadratica(xi− x̄) (xi− x̄)2

    −12 −12− (−1.57) =−10.43 108.7849−5 −5− (−1.57) =−3.43 11.76492 2− (−1.57) = 3.57 12.74492 2− (−1.57) = 3.57 12.74490 0− (−1.57) = 1.57 2.4649−3 −3− (−1.57) =−1.43 2.04495 5− (−1.57) = 6.57 43.1649

    Totale 0 193.7143

    s2 =193.7143(7−1)

    = 32.28572 s =√

    32.28572 = 5.682052

    3 / 1

  • Calcolare le misure di variabilità

    range = 5− (−12) = 17

    x̄ =−12−5+2+2+0−3+5

    7=−11

    7=−1.57

    Valore Deviazione Dev. quadratica(xi− x̄) (xi− x̄)2

    −12 −12− (−1.57) =−10.43 108.7849−5 −5− (−1.57) =−3.43 11.76492 2− (−1.57) = 3.57 12.74492 2− (−1.57) = 3.57 12.74490 0− (−1.57) = 1.57 2.4649−3 −3− (−1.57) =−1.43 2.04495 5− (−1.57) = 6.57 43.1649

    Totale 0 193.7143

    s2 =193.7143(7−1)

    = 32.28572

    s =√

    32.28572 = 5.682052

    3 / 1

  • Calcolare le misure di variabilità

    range = 5− (−12) = 17

    x̄ =−12−5+2+2+0−3+5

    7=−11

    7=−1.57

    Valore Deviazione Dev. quadratica(xi− x̄) (xi− x̄)2

    −12 −12− (−1.57) =−10.43 108.7849−5 −5− (−1.57) =−3.43 11.76492 2− (−1.57) = 3.57 12.74492 2− (−1.57) = 3.57 12.74490 0− (−1.57) = 1.57 2.4649−3 −3− (−1.57) =−1.43 2.04495 5− (−1.57) = 6.57 43.1649

    Totale 0 193.7143

    s2 =193.7143(7−1)

    = 32.28572 s =√

    32.28572 = 5.682052

    3 / 1

  • Media e varianza per tabelle di frequenza

    Quando i dati vengono forniti attraverso una tabella dellefrequenze, la media aritmetica è una media ponderata incui ciascun dato xi è considerato insieme alla propria fre-quenza.

    Anche la varianza, e quindi la deviazione standard, ten-gono conto delle frequenze con cui si presentano le osser-vazioni.Nel caso di dati discreti tali valori sono facilmente calcola-bili.

    4 / 1

  • Media e varianza per tabelle di frequenza

    Quando i dati vengono forniti attraverso una tabella dellefrequenze, la media aritmetica è una media ponderata incui ciascun dato xi è considerato insieme alla propria fre-quenza.Anche la varianza, e quindi la deviazione standard, ten-gono conto delle frequenze con cui si presentano le osser-vazioni.

    Nel caso di dati discreti tali valori sono facilmente calcola-bili.

    4 / 1

  • Media e varianza per tabelle di frequenza

    Quando i dati vengono forniti attraverso una tabella dellefrequenze, la media aritmetica è una media ponderata incui ciascun dato xi è considerato insieme alla propria fre-quenza.Anche la varianza, e quindi la deviazione standard, ten-gono conto delle frequenze con cui si presentano le osser-vazioni.Nel caso di dati discreti tali valori sono facilmente calcola-bili.

    4 / 1

  • Media e varianza per tabelle di frequenzaConsiderata la seguente tabella delle frequenze

    FrequenzaX assoluta

    nix1 n1x2 n2· · · · · ·xk nk

    Totale n

    allora

    x̄ =∑ni=1 nixi∑ki=1 ni

    =∑ni=1 nixi

    n

    s2 =∑ki=1 ni(xi− x̄)2

    ∑ki=1 ni−1=

    ∑ki=1 ni(xi− x̄)2

    n−1

    5 / 1

  • Media e varianza per tabelle di frequenzaConsiderata la seguente tabella delle frequenze

    FrequenzaX assoluta

    nix1 n1x2 n2· · · · · ·xk nk

    Totale n

    allora

    x̄ =∑ni=1 nixi∑ki=1 ni

    =∑ni=1 nixi

    n

    s2 =∑ki=1 ni(xi− x̄)2

    ∑ki=1 ni−1=

    ∑ki=1 ni(xi− x̄)2

    n−15 / 1

  • Media e varianza per tabelle di frequenza:esercizio

    Dati la tabella di frequenza dei voti finali in matematica di unaclasse, calcolare voto medio e varianza.

    Voto Frequenza studenti3 34 55 26 87 58 19 1

    10 0Totale 25

    allora

    x̄ =3 ·3+5 ·4+2 ·5+8 ·6+5 ·7+1 ·8+0 ·10

    25= 5.56

    6 / 1

  • Media e varianza per tabelle di frequenza:esercizio

    Per la varianza si ha

    Voto N. studenti xi−5.56 (xi−5.56)2 ni(xi−5.56)2

    3 3 3-5.56=-2.564 5 4-5.56=-1.565 2 5-5.56=-0.566 8 6-5.56=0.447 5 7-5.56=1.448 1 8-5.56=2.449 1 9-5.56=3.44

    10 0 10-5.56=4.44Totale 25

    7 / 1

  • Media e varianza per tabelle di frequenza:esercizio

    Per la varianza si ha

    Voto N. studenti xi−5.56 (xi−5.56)2 ni(xi−5.56)2

    3 3 3-5.56=-2.56 (−2.56)2 = 6.55364 5 4-5.56=-1.56 (−1.56)2 = 2.43365 2 5-5.56=-0.56 (−0.56)2 = 0.31366 8 6-5.56=0.44 (0.44)2 = 0.19367 5 7-5.56=1.44 (1.44)2 = 2.07368 1 8-5.56=2.44 (2.44)2 = 5.95369 1 9-5.56=3.44 (3.44)2 = 11.8336

    10 0 10-5.56=4.44 (4.44)2 = 19.7136Totale 25

    8 / 1

  • Media e varianza per tabelle di frequenza:esercizio

    Per la varianza si ha

    Voto N. studenti xi−5.56 (xi−5.56)2 ni(xi−5.56)2

    3 3 3-5.56=-2.56 (−2.56)2 = 6.5536 3 ·6.55364 5 4-5.56=-1.56 (−1.56)2 = 2.4336 4 ·2.43365 2 5-5.56=-0.56 (−0.56)2 = 0.3136 5 ·0.31366 8 6-5.56=0.44 (0.44)2 = 0.1936 6 ·0.19367 5 7-5.56=1.44 (1.44)2 = 2.0736 7 ·2.07368 1 8-5.56=2.44 (2.44)2 = 5.9536 8 ·5.95369 1 9-5.56=3.44 (3.44)2 = 11.8336 9 ·11.8336

    10 0 10-5.56=4.44 (4.44)2 = 19.7136 10 ·19.7136Totale 25 397.9072

    s2 =397.9072

    25−1=

    397.907224

    = 16.57947

    s =√

    s2 =√

    16.57947 = 4.071789

    9 / 1

  • Media e varianza per tabelle di frequenza:esercizio

    Per la varianza si ha

    Voto N. studenti xi−5.56 (xi−5.56)2 ni(xi−5.56)2

    3 3 3-5.56=-2.56 (−2.56)2 = 6.5536 3 ·6.55364 5 4-5.56=-1.56 (−1.56)2 = 2.4336 4 ·2.43365 2 5-5.56=-0.56 (−0.56)2 = 0.3136 5 ·0.31366 8 6-5.56=0.44 (0.44)2 = 0.1936 6 ·0.19367 5 7-5.56=1.44 (1.44)2 = 2.0736 7 ·2.07368 1 8-5.56=2.44 (2.44)2 = 5.9536 8 ·5.95369 1 9-5.56=3.44 (3.44)2 = 11.8336 9 ·11.8336

    10 0 10-5.56=4.44 (4.44)2 = 19.7136 10 ·19.7136Totale 25 397.9072

    s2 =397.9072

    25−1=

    397.907224

    = 16.57947

    s =√

    s2 =√

    16.57947 = 4.071789

    9 / 1

  • Media e varianza per tabelle di frequenza:esercizio

    Per la varianza si ha

    Voto N. studenti xi−5.56 (xi−5.56)2 ni(xi−5.56)2

    3 3 3-5.56=-2.56 (−2.56)2 = 6.5536 3 ·6.55364 5 4-5.56=-1.56 (−1.56)2 = 2.4336 4 ·2.43365 2 5-5.56=-0.56 (−0.56)2 = 0.3136 5 ·0.31366 8 6-5.56=0.44 (0.44)2 = 0.1936 6 ·0.19367 5 7-5.56=1.44 (1.44)2 = 2.0736 7 ·2.07368 1 8-5.56=2.44 (2.44)2 = 5.9536 8 ·5.95369 1 9-5.56=3.44 (3.44)2 = 11.8336 9 ·11.8336

    10 0 10-5.56=4.44 (4.44)2 = 19.7136 10 ·19.7136Totale 25 397.9072

    s2 =397.9072

    25−1=

    397.907224

    = 16.57947

    s =√

    s2 =√

    16.57947 = 4.0717899 / 1

  • Misure di posizione

    Le misure di posizione forniscono il punto in cui i dati ven-gono separati in due parti. Una certa percentuale delle os-servazioni cade prima del punto individuato e la restanteoltre.

    • La mediana è una misura di posizione, che divide ladistribuzione dei dati ordinati, individua dunque laposizione centrale.

    • Anche il massimo e il minimo valore osservati sonodelle misure di posizione.

    10 / 1

  • Misure di posizione

    Le misure di posizione forniscono il punto in cui i dati ven-gono separati in due parti. Una certa percentuale delle os-servazioni cade prima del punto individuato e la restanteoltre.• La mediana è una misura di posizione, che divide la

    distribuzione dei dati ordinati, individua dunque laposizione centrale.

    • Anche il massimo e il minimo valore osservati sonodelle misure di posizione.

    10 / 1

  • Misure di posizione

    Le misure di posizione forniscono il punto in cui i dati ven-gono separati in due parti. Una certa percentuale delle os-servazioni cade prima del punto individuato e la restanteoltre.• La mediana è una misura di posizione, che divide la

    distribuzione dei dati ordinati, individua dunque laposizione centrale.

    • Anche il massimo e il minimo valore osservati sonodelle misure di posizione.

    10 / 1

  • Misure di posizione: quartiliI quartili dividono la sequenza ordinata dei dati in 4 segmenticontenenti lo stesso numero di valori.

    • Il primo quartile, Q1, è il valore che lascia alla sua sinistra25% e alla sua destra il 75%.

    • Il secondo quartile, Q2, coincide con la mediana (50%sono minori, 50% sono maggiori).

    • Il terzo quartile, Q3, è il valore tale che il 75% delleosservazioni sono minori e 25% sono maggiori di esso.

    11 / 1

  • Misure di posizione: quartiliI quartili dividono la sequenza ordinata dei dati in 4 segmenticontenenti lo stesso numero di valori.

    • Il primo quartile, Q1, è il valore che lascia alla sua sinistra25% e alla sua destra il 75%.

    • Il secondo quartile, Q2, coincide con la mediana (50%sono minori, 50% sono maggiori).

    • Il terzo quartile, Q3, è il valore tale che il 75% delleosservazioni sono minori e 25% sono maggiori di esso.

    11 / 1

  • Misure di posizione: quartiliI quartili dividono la sequenza ordinata dei dati in 4 segmenticontenenti lo stesso numero di valori.

    • Il primo quartile, Q1, è il valore che lascia alla sua sinistra25% e alla sua destra il 75%.

    • Il secondo quartile, Q2, coincide con la mediana (50%sono minori, 50% sono maggiori).

    • Il terzo quartile, Q3, è il valore tale che il 75% delleosservazioni sono minori e 25% sono maggiori di esso.

    11 / 1

  • Misure di posizione: quartiliI quartili dividono la sequenza ordinata dei dati in 4 segmenticontenenti lo stesso numero di valori.

    • Il primo quartile, Q1, è il valore che lascia alla sua sinistra25% e alla sua destra il 75%.

    • Il secondo quartile, Q2, coincide con la mediana (50%sono minori, 50% sono maggiori).

    • Il terzo quartile, Q3, è il valore tale che il 75% delleosservazioni sono minori e 25% sono maggiori di esso.

    11 / 1

  • Misure di posizione: calcolare i quartiliUn quartile si trova determinando il valore della sua po-sizione nella sequenza ordinata dei dati osservati.

    • Posizione primo quartile

    0.25(n+1)

    • Posizione secondo quartile

    0.50(n+1)

    • Posizione terzo quartile

    0.75(n+1)

    con n il numero di valori osservati.

    12 / 1

  • Misure di posizione: calcolare i quartiliUn quartile si trova determinando il valore della sua po-sizione nella sequenza ordinata dei dati osservati.

    • Posizione primo quartile

    0.25(n+1)

    • Posizione secondo quartile

    0.50(n+1)

    • Posizione terzo quartile

    0.75(n+1)

    con n il numero di valori osservati.

    12 / 1

  • Misure di posizione: calcolare i quartiliUn quartile si trova determinando il valore della sua po-sizione nella sequenza ordinata dei dati osservati.

    • Posizione primo quartile

    0.25(n+1)

    • Posizione secondo quartile

    0.50(n+1)

    • Posizione terzo quartile

    0.75(n+1)

    con n il numero di valori osservati.12 / 1

  • Calcolo dei quartili: esercizio

    In sette città in Canada il 14 gennaio 2006 sono state reg-istrate le seguenti temperature.

    −12 −5 2 2 0 −3 5

    Calcolare primo e terzo quartile.

    13 / 1

  • Calcolo dei quartili: esercizioIn sette città in Canada il 14 gennaio 2006 sono state reg-istrate le seguenti temperature.Ordiniamo i dati:

    −12 −5 −3 0 2 2 5

    con n = 7.

    • Posizione primo quartile

    0.25(8) = 2⇒ Q1 =−5

    • Posizione terzo quartile

    0.75(8) = 6⇒ Q3 = 2

    Calcolare primo e terzo quartile.

    14 / 1

  • Calcolo dei quartili: esercizioIn sette città in Canada il 14 gennaio 2006 sono state reg-istrate le seguenti temperature.Ordiniamo i dati:

    −12 −5 −3 0 2 2 5

    con n = 7.

    • Posizione primo quartile

    0.25(8) = 2⇒ Q1 =−5

    • Posizione terzo quartile

    0.75(8) = 6⇒ Q3 = 2

    Calcolare primo e terzo quartile.14 / 1

  • Calcolo dei quartili: esercizio

    In 20 marche di cereali è stato analizzato il contenuto di so-dio in mg in una porzione standard, secondo quanto codi-ficato dal National Labelling and educational Act.Calcolare primo e terzo quartile delle 20 misurazioni:

    0 340 70 140 200 180 210 150 100 130

    140 180 190 160 290 50 220 180 200 210

    15 / 1

  • Calcolo dei quartili: esercizioDati ordinati:

    0 50 70 100 130 140 140 150 160 180

    180 180 190 200 200 210 210 220 290 340

    dove n = 20.

    • Posizione primo quartile

    0.25(21) = 5.25⇒ Q1 = 135

    • Posizione terzo quartile

    0.75(21) = 15.75⇒ Q3 = 205.

    Prendiamo il valor medio tra i due valori attorno alla posizione.

    16 / 1

  • Calcolo dei quartili: esercizioDati ordinati:

    0 50 70 100 130 140 140 150 160 180

    180 180 190 200 200 210 210 220 290 340

    dove n = 20.

    • Posizione primo quartile

    0.25(21) = 5.25⇒ Q1 = 135

    • Posizione terzo quartile

    0.75(21) = 15.75⇒ Q3 = 205.

    Prendiamo il valor medio tra i due valori attorno alla posizione.

    16 / 1

  • Calcolo dei quartili: esercizioDati ordinati:

    0 50 70 100 130 140 140 150 160 180

    180 180 190 200 200 210 210 220 290 340

    dove n = 20.

    • Posizione primo quartile

    0.25(21) = 5.25⇒ Q1 = 135

    • Posizione terzo quartile

    0.75(21) = 15.75⇒ Q3 = 205.

    Prendiamo il valor medio tra i due valori attorno alla posizione.16 / 1

  • Altre misure di variabilità: differenzainterquartile

    I quartili possono essere utilizzati per definire una nuovamisura di variabilità detta range o differenza interquartile.

    La differenza interquartile è la distanza tra il terzo e il primoquartile:

    IQR = Q3−Q1

    Questa misura considera la variazione dei dati eliminandoi valori osservati più alti e più bassi e calcola il campo divariazione del 50% centrale dei dati. Per questa ragionenon è influenzata dalla presenza di outlier.

    17 / 1

  • Altre misure di variabilità: differenzainterquartile

    I quartili possono essere utilizzati per definire una nuovamisura di variabilità detta range o differenza interquartile.

    La differenza interquartile è la distanza tra il terzo e il primoquartile:

    IQR = Q3−Q1

    Questa misura considera la variazione dei dati eliminandoi valori osservati più alti e più bassi e calcola il campo divariazione del 50% centrale dei dati. Per questa ragionenon è influenzata dalla presenza di outlier.

    17 / 1

  • Altre misure di variabilità: differenzainterquartile

    I quartili possono essere utilizzati per definire una nuovamisura di variabilità detta range o differenza interquartile.

    La differenza interquartile è la distanza tra il terzo e il primoquartile:

    IQR = Q3−Q1

    Questa misura considera la variazione dei dati eliminandoi valori osservati più alti e più bassi e calcola il campo divariazione del 50% centrale dei dati. Per questa ragionenon è influenzata dalla presenza di outlier.

    17 / 1

  • Altre misure di variabilità: differenzainterquartile

    In 20 marche di cereali è stato analizzato il contenuto di so-dio in mg in una porzione standard, secondo quanto codi-ficato dal National Labelling and educational Act.

    0 340 70 140 200 180 210 150 100 130

    140 180 190 160 290 50 220 180 200 210

    Qual e la differenza interquartile per il contenuto di sodionei 20 cereali?

    IQR = Q3−Q1 = 205−135 = 70

    18 / 1

  • Altre misure di variabilità: differenzainterquartile

    In 20 marche di cereali è stato analizzato il contenuto di so-dio in mg in una porzione standard, secondo quanto codi-ficato dal National Labelling and educational Act.

    0 340 70 140 200 180 210 150 100 130

    140 180 190 160 290 50 220 180 200 210

    Qual e la differenza interquartile per il contenuto di sodionei 20 cereali?

    IQR = Q3−Q1 = 205−135 = 70

    18 / 1

  • Altre misure di variabilità: differenzainterquartile

    Esiste una regola che, attraverso l’uso del range interquar-tile, permette di identificare i potenziali outlier in un dataset.

    Si costruiscono due soglie che determinano tali valori.

    Un valore più basso di Q1− 1.5× IQR o più alto di Q3+1.5× IQR viene considerato un potenziale outlier.

    19 / 1

  • Altre misure di variabilità: differenzainterquartile

    Esiste una regola che, attraverso l’uso del range interquar-tile, permette di identificare i potenziali outlier in un dataset.

    Si costruiscono due soglie che determinano tali valori.

    Un valore più basso di Q1− 1.5× IQR o più alto di Q3+1.5× IQR viene considerato un potenziale outlier.

    19 / 1

  • Altre misure di variabilità: differenzainterquartile

    Esiste una regola che, attraverso l’uso del range interquar-tile, permette di identificare i potenziali outlier in un dataset.

    Si costruiscono due soglie che determinano tali valori.

    Un valore più basso di Q1− 1.5× IQR o più alto di Q3+1.5× IQR viene considerato un potenziale outlier.

    19 / 1

  • Altre misure di variabilità: differenzainterquartile

    Dai dati sui cereali da colazione abbiamo calcolato cheQ1 = 135, Q3 = 205 e IQR = 70, per quanto visto in prece-denza avremo che i potenziali outlier sono quei valori al disotto della soglia

    Q1−1.5× IQR = 130−1.5×70 = 135−105 = 30

    e al di sopra della soglia

    Q3+1.5× IQR = 205+1.5×70 = 205+105 = 310

    In questo caso quindi i potenziali outlier sono 0 e 340.

    20 / 1

  • Grafici di variabilità

    Abbiamo quindi introdotto 5 diverse misure di posizioneche ci permettono di sintetizzare la tendenza centrale ela variabilità di una distribuzione. Possiamo rappresentarequesta sintesi con un grafico della forma:

    Un grafico di questo tipo é detto boxplot.

    21 / 1

  • Grafici di variabilità

    Abbiamo quindi introdotto 5 diverse misure di posizioneche ci permettono di sintetizzare la tendenza centrale ela variabilità di una distribuzione. Possiamo rappresentarequesta sintesi con un grafico della forma:

    Un grafico di questo tipo é detto boxplot.

    21 / 1

  • Grafici di variabilità

    Come si disegna un boxplot?

    • Si disegna una scatola dal primo quartile Q1 al terzoquartile Q3.

    • Si traccia un segmento verticale nella scatola incorrispondenza della mediana

    • Si disegna un segmento orizzontale dalla sinistradella scatola fino alla piu piccola osservazione chenon sia un potenziale outlier. Un altro segmentoorizzontale va dalla destra della scatola fino alla piugrande osservazione che non sia un potenzialeoutlier. I potenziali outlier vengono mostratiseparatamente.

    22 / 1

  • Grafici di variabilità

    Come si disegna un boxplot?• Si disegna una scatola dal primo quartile Q1 al terzo

    quartile Q3.

    • Si traccia un segmento verticale nella scatola incorrispondenza della mediana

    • Si disegna un segmento orizzontale dalla sinistradella scatola fino alla piu piccola osservazione chenon sia un potenziale outlier. Un altro segmentoorizzontale va dalla destra della scatola fino alla piugrande osservazione che non sia un potenzialeoutlier. I potenziali outlier vengono mostratiseparatamente.

    22 / 1

  • Grafici di variabilità

    Come si disegna un boxplot?• Si disegna una scatola dal primo quartile Q1 al terzo

    quartile Q3.• Si traccia un segmento verticale nella scatola in

    corrispondenza della mediana

    • Si disegna un segmento orizzontale dalla sinistradella scatola fino alla piu piccola osservazione chenon sia un potenziale outlier. Un altro segmentoorizzontale va dalla destra della scatola fino alla piugrande osservazione che non sia un potenzialeoutlier. I potenziali outlier vengono mostratiseparatamente.

    22 / 1

  • Grafici di variabilità

    Come si disegna un boxplot?• Si disegna una scatola dal primo quartile Q1 al terzo

    quartile Q3.• Si traccia un segmento verticale nella scatola in

    corrispondenza della mediana• Si disegna un segmento orizzontale dalla sinistra

    della scatola fino alla piu piccola osservazione chenon sia un potenziale outlier. Un altro segmentoorizzontale va dalla destra della scatola fino alla piugrande osservazione che non sia un potenzialeoutlier. I potenziali outlier vengono mostratiseparatamente.

    22 / 1

  • Grafici di variabilità

    23 / 1

  • Boxplot

    24 / 1

  • Confronto tra boxplot e istogrammaIl boxplot permette di sintetizzare in un modo univoco laforma di una distribuzione.

    Un boxplot non mostra alcune caratteristiche della distribuzionequali, ad esempio, eventuali picchi o valli, cosa che invecepossiamo osservare in un istogramma.

    Il boxplot ci permette di individuare potenziali outlier.

    25 / 1

  • Confronto tra boxplot e istogrammaIl boxplot permette di sintetizzare in un modo univoco laforma di una distribuzione.

    Un boxplot non mostra alcune caratteristiche della distribuzionequali, ad esempio, eventuali picchi o valli, cosa che invecepossiamo osservare in un istogramma.

    Il boxplot ci permette di individuare potenziali outlier.

    25 / 1

  • Confronto tra boxplot e istogrammaIl boxplot permette di sintetizzare in un modo univoco laforma di una distribuzione.

    Un boxplot non mostra alcune caratteristiche della distribuzionequali, ad esempio, eventuali picchi o valli, cosa che invecepossiamo osservare in un istogramma.

    Il boxplot ci permette di individuare potenziali outlier.

    25 / 1

  • Calcolo dei quartili: esercizio

    In sette città in Canada il 14 gennaio 2006 sono state reg-istrate le seguenti temperature.

    −12 −5 2 2 0 −3 5

    Cacolare range interquartile e disegnare il boxplot.

    26 / 1

  • Relazioni fra variabili

    Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.

    Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.

    27 / 1

  • Relazioni fra variabili

    Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.

    Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.

    27 / 1

  • Relazioni fra variabili

    Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.

    Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.

    27 / 1

  • Relazioni fra variabili

    Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.

    27 / 1

  • Associazione fra variabili: variabile risposta evariabile esplicativa

    Quando si effettuano confronti tra due variabili spesso si cerca diindividuare una variabile risposta (o dipendente) e una variabileesplicativa (o indipendente).

    Si esamina come gli esiti della vari-abile risposta sono spiegati dai valori della variabile esplicativa.

    La variabile risposta è la variabile di esito rispetto allaquale operiamo i confronti.

    La variabile esplicativa:

    a) se categorica individua i gruppi da confrontarerispetto ai valori assunti dalla variabile risposta;

    b) se quantitativa definisce il cambiamento nei diversivalori numerici da confrontare rispetto ai valoriassunti dalla variabile risposta.

    28 / 1

  • Associazione fra variabili: variabile risposta evariabile esplicativa

    Quando si effettuano confronti tra due variabili spesso si cerca diindividuare una variabile risposta (o dipendente) e una variabileesplicativa (o indipendente). Si esamina come gli esiti della vari-abile risposta sono spiegati dai valori della variabile esplicativa.

    La variabile risposta è la variabile di esito rispetto allaquale operiamo i confronti.

    La variabile esplicativa:

    a) se categorica individua i gruppi da confrontarerispetto ai valori assunti dalla variabile risposta;

    b) se quantitativa definisce il cambiamento nei diversivalori numerici da confrontare rispetto ai valoriassunti dalla variabile risposta.

    28 / 1

  • Associazione fra variabili: variabile risposta evariabile esplicativa

    Quando si effettuano confronti tra due variabili spesso si cerca diindividuare una variabile risposta (o dipendente) e una variabileesplicativa (o indipendente). Si esamina come gli esiti della vari-abile risposta sono spiegati dai valori della variabile esplicativa.

    La variabile risposta è la variabile di esito rispetto allaquale operiamo i confronti.

    La variabile esplicativa:

    a) se categorica individua i gruppi da confrontarerispetto ai valori assunti dalla variabile risposta;

    b) se quantitativa definisce il cambiamento nei diversivalori numerici da confrontare rispetto ai valoriassunti dalla variabile risposta.

    28 / 1

  • Associazione fra variabili: variabile risposta evariabile esplicativa

    Quando si effettuano confronti tra due variabili spesso si cerca diindividuare una variabile risposta (o dipendente) e una variabileesplicativa (o indipendente). Si esamina come gli esiti della vari-abile risposta sono spiegati dai valori della variabile esplicativa.

    La variabile risposta è la variabile di esito rispetto allaquale operiamo i confronti.

    La variabile esplicativa:

    a) se categorica individua i gruppi da confrontarerispetto ai valori assunti dalla variabile risposta;

    b) se quantitativa definisce il cambiamento nei diversivalori numerici da confrontare rispetto ai valoriassunti dalla variabile risposta.

    28 / 1

  • Associazione fra variabili: variabile risposta evariabile esplicativa

    Quando si effettuano confronti tra due variabili spesso si cerca diindividuare una variabile risposta (o dipendente) e una variabileesplicativa (o indipendente). Si esamina come gli esiti della vari-abile risposta sono spiegati dai valori della variabile esplicativa.

    La variabile risposta è la variabile di esito rispetto allaquale operiamo i confronti.

    La variabile esplicativa:

    a) se categorica individua i gruppi da confrontarerispetto ai valori assunti dalla variabile risposta;

    b) se quantitativa definisce il cambiamento nei diversivalori numerici da confrontare rispetto ai valoriassunti dalla variabile risposta.

    28 / 1

  • Associazione fra variabili quantitative: graficodi dispersione

    Per confrontare due variabili quantitative si possono costru-ire dei grafici che mostrano quali valori assume una vari-abile in corrispondenza dei valori dell’altra, si parla di graficodi dispersione o scatterplot.

    In un grafico di dispersione una variabile viene rappresen-tata sull’asse delle ascisse, mentre l’altra variabile vieneriportata sull’asse delle ordinate. I valori relativi ad ogniunità statistica sono rappresentati da un punto del pianoche ha come coordinata sull’asse orizzontale il valore rel-ativo alla prima variabile e coordinata sull’asse verticale ilvalore assunto dalla seconda variabile.

    Se si sono individuate una variabile risposta e una esplica-tiva, allora la prima va sull’asse delle ordinate e la secondasull’asse delle ascisse.

    29 / 1

  • Associazione fra variabili quantitative: graficodi dispersione

    Per confrontare due variabili quantitative si possono costru-ire dei grafici che mostrano quali valori assume una vari-abile in corrispondenza dei valori dell’altra, si parla di graficodi dispersione o scatterplot.

    In un grafico di dispersione una variabile viene rappresen-tata sull’asse delle ascisse, mentre l’altra variabile vieneriportata sull’asse delle ordinate. I valori relativi ad ogniunità statistica sono rappresentati da un punto del pianoche ha come coordinata sull’asse orizzontale il valore rel-ativo alla prima variabile e coordinata sull’asse verticale ilvalore assunto dalla seconda variabile.

    Se si sono individuate una variabile risposta e una esplica-tiva, allora la prima va sull’asse delle ordinate e la secondasull’asse delle ascisse.

    29 / 1

  • Associazione fra variabili quantitative: graficodi dispersione

    Per confrontare due variabili quantitative si possono costru-ire dei grafici che mostrano quali valori assume una vari-abile in corrispondenza dei valori dell’altra, si parla di graficodi dispersione o scatterplot.

    In un grafico di dispersione una variabile viene rappresen-tata sull’asse delle ascisse, mentre l’altra variabile vieneriportata sull’asse delle ordinate. I valori relativi ad ogniunità statistica sono rappresentati da un punto del pianoche ha come coordinata sull’asse orizzontale il valore rel-ativo alla prima variabile e coordinata sull’asse verticale ilvalore assunto dalla seconda variabile.

    Se si sono individuate una variabile risposta e una esplica-tiva, allora la prima va sull’asse delle ordinate e la secondasull’asse delle ascisse.

    29 / 1

  • Associazione fra variabili quantitative: graficodi dispersione

    Nella seguente tabella si riportano le misure dell’ossigeno con-sumato da una persona che cammina, in corrispondenza a varievelocità della persona.

    Velocità (Km/h) Ossigeno (l/h)0 191 202 20.53 21.54 225 236 237 23.58 24

    30 / 1

  • Associazione fra variabili quantitative: graficodi dispersione

    Lo scatterplot, o nuvola dei punti in corrispondenza dei dati è:

    31 / 1

  • Associazione fra variabili quantitative:positiva e negativa

    Due variabili x e ysono associate positivamente quando al crescere deivalori di x crescono i valori di y

    sono associate negativamente quando al cresceredei valori di x decrescono i valori di y

    non sono associate se lo scatterplot non evidenzianessun andamento particolare.

    Esempio La velocità e l’ossigeno nell’esempio precedentesono associate positivamente.

    32 / 1

  • Associazione fra variabili quantitative:positiva e negativa

    Due variabili x e ysono associate positivamente quando al crescere deivalori di x crescono i valori di y

    sono associate negativamente quando al cresceredei valori di x decrescono i valori di y

    non sono associate se lo scatterplot non evidenzianessun andamento particolare.

    Esempio La velocità e l’ossigeno nell’esempio precedentesono associate positivamente.

    32 / 1

  • Associazione fra variabili quantitative:positiva e negativa

    Due variabili x e ysono associate positivamente quando al crescere deivalori di x crescono i valori di y

    sono associate negativamente quando al cresceredei valori di x decrescono i valori di y

    non sono associate se lo scatterplot non evidenzianessun andamento particolare.

    Esempio La velocità e l’ossigeno nell’esempio precedentesono associate positivamente.

    32 / 1

  • Associazione fra variabili quantitative:positiva e negativa

    Due variabili x e ysono associate positivamente quando al crescere deivalori di x crescono i valori di y

    sono associate negativamente quando al cresceredei valori di x decrescono i valori di y

    non sono associate se lo scatterplot non evidenzianessun andamento particolare.

    Esempio La velocità e l’ossigeno nell’esempio precedentesono associate positivamente.

    32 / 1

  • Associazione fra variabili quantitative:positiva e negativa

    Osserviamo le seguenti associazioni:

    33 / 1

  • Associazione fra variabili quantitative:covarianza e correlazione lineare

    Esistono degli indici che permettono di calcolare se il legametra due variabili sia di tipo lineare, ossia possa essere rap-presentato da una retta:

    • La covarianza è la media del prodotto delle deviazionidelle due variabili confrontate. Fornisce una misura dicome le due variabili varino insieme lungo una retta.

    • L’ indice di correlazione è la misura della forzadell’associazione lineare espressa in valori compresitra −1 e 1.

    Questi indici non prevedono venga designata una variabilerisposta e una esplicativa.

    34 / 1

  • Associazione fra variabili quantitative:covarianza e correlazione lineare

    Esistono degli indici che permettono di calcolare se il legametra due variabili sia di tipo lineare, ossia possa essere rap-presentato da una retta:

    • La covarianza è la media del prodotto delle deviazionidelle due variabili confrontate. Fornisce una misura dicome le due variabili varino insieme lungo una retta.

    • L’ indice di correlazione è la misura della forzadell’associazione lineare espressa in valori compresitra −1 e 1.

    Questi indici non prevedono venga designata una variabilerisposta e una esplicativa.

    34 / 1

  • Associazione fra variabili quantitative:covarianza e correlazione lineare

    Esistono degli indici che permettono di calcolare se il legametra due variabili sia di tipo lineare, ossia possa essere rap-presentato da una retta:

    • La covarianza è la media del prodotto delle deviazionidelle due variabili confrontate. Fornisce una misura dicome le due variabili varino insieme lungo una retta.

    • L’ indice di correlazione è la misura della forzadell’associazione lineare espressa in valori compresitra −1 e 1.

    Questi indici non prevedono venga designata una variabilerisposta e una esplicativa.

    34 / 1

  • CovarianzaSiano date n osservazioni congiunte di due variabili x e y:

    (x1,y1),(x2,y2), . . . ,(xn,yn)

    • Covarianza della popolazione

    Cov(x,y) = σxy =∑ni=1(xi−µx)(yi−µy)

    Ncon µx media della popolazione per la variabile x e µymedia della popolazione per la variabile y

    • Covarianza campionaria

    Cov(x,y) = sxy =∑ni=1(xi− x̄)(yi− ȳ)

    n−1con x̄ media campionaria di x e ȳ media campionariadi y.

    35 / 1

  • CovarianzaSiano date n osservazioni congiunte di due variabili x e y:

    (x1,y1),(x2,y2), . . . ,(xn,yn)

    • Covarianza della popolazione

    Cov(x,y) = σxy =∑ni=1(xi−µx)(yi−µy)

    N

    con µx media della popolazione per la variabile x e µymedia della popolazione per la variabile y

    • Covarianza campionaria

    Cov(x,y) = sxy =∑ni=1(xi− x̄)(yi− ȳ)

    n−1con x̄ media campionaria di x e ȳ media campionariadi y.

    35 / 1

  • CovarianzaSiano date n osservazioni congiunte di due variabili x e y:

    (x1,y1),(x2,y2), . . . ,(xn,yn)

    • Covarianza della popolazione

    Cov(x,y) = σxy =∑ni=1(xi−µx)(yi−µy)

    Ncon µx media della popolazione per la variabile x e µymedia della popolazione per la variabile y

    • Covarianza campionaria

    Cov(x,y) = sxy =∑ni=1(xi− x̄)(yi− ȳ)

    n−1con x̄ media campionaria di x e ȳ media campionariadi y.

    35 / 1

  • CovarianzaSiano date n osservazioni congiunte di due variabili x e y:

    (x1,y1),(x2,y2), . . . ,(xn,yn)

    • Covarianza della popolazione

    Cov(x,y) = σxy =∑ni=1(xi−µx)(yi−µy)

    Ncon µx media della popolazione per la variabile x e µymedia della popolazione per la variabile y

    • Covarianza campionaria

    Cov(x,y) = sxy =∑ni=1(xi− x̄)(yi− ȳ)

    n−1con x̄ media campionaria di x e ȳ media campionariadi y.

    35 / 1

  • CovarianzaSiano date n osservazioni congiunte di due variabili x e y:

    (x1,y1),(x2,y2), . . . ,(xn,yn)

    • Covarianza della popolazione

    Cov(x,y) = σxy =∑ni=1(xi−µx)(yi−µy)

    Ncon µx media della popolazione per la variabile x e µymedia della popolazione per la variabile y

    • Covarianza campionaria

    Cov(x,y) = sxy =∑ni=1(xi− x̄)(yi− ȳ)

    n−1

    con x̄ media campionaria di x e ȳ media campionariadi y.

    35 / 1

  • CovarianzaSiano date n osservazioni congiunte di due variabili x e y:

    (x1,y1),(x2,y2), . . . ,(xn,yn)

    • Covarianza della popolazione

    Cov(x,y) = σxy =∑ni=1(xi−µx)(yi−µy)

    Ncon µx media della popolazione per la variabile x e µymedia della popolazione per la variabile y

    • Covarianza campionaria

    Cov(x,y) = sxy =∑ni=1(xi− x̄)(yi− ȳ)

    n−1con x̄ media campionaria di x e ȳ media campionariadi y.

    35 / 1

  • Covarianza

    Possiamo interpretare la covarianza come segue:

    • Cov(x,y)> 0: relazione lineare positiva• Cov(x,y)< 0: relazione lineare negativa• Cov(x,y) = 0: assenza di relazione lineare

    36 / 1

  • Covarianza

    Possiamo interpretare la covarianza come segue:

    • Cov(x,y)> 0: relazione lineare positiva

    • Cov(x,y)< 0: relazione lineare negativa• Cov(x,y) = 0: assenza di relazione lineare

    36 / 1

  • Covarianza

    Possiamo interpretare la covarianza come segue:

    • Cov(x,y)> 0: relazione lineare positiva• Cov(x,y)< 0: relazione lineare negativa

    • Cov(x,y) = 0: assenza di relazione lineare

    36 / 1

  • Covarianza

    Possiamo interpretare la covarianza come segue:

    • Cov(x,y)> 0: relazione lineare positiva• Cov(x,y)< 0: relazione lineare negativa• Cov(x,y) = 0: assenza di relazione lineare

    36 / 1

  • Associazione fra variabili quantitative: indicedi correlazione

    L’indice (o coefficiente) di correlazione è costruito a partiredalla covarianza.

    • Coefficiente di correlazione della popolazione

    ρ =σxy

    σxσy

    • Coefficiente di correlazione campionaria

    r =sxysxsy

    37 / 1

  • Associazione fra variabili quantitative: indicedi correlazione

    L’indice (o coefficiente) di correlazione è costruito a partiredalla covarianza.

    • Coefficiente di correlazione della popolazione

    ρ =σxy

    σxσy

    • Coefficiente di correlazione campionaria

    r =sxysxsy

    37 / 1

  • Associazione fra variabili quantitative: indicedi correlazione

    L’indice (o coefficiente) di correlazione è costruito a partiredalla covarianza.

    • Coefficiente di correlazione della popolazione

    ρ =σxy

    σxσy

    • Coefficiente di correlazione campionaria

    r =sxysxsy

    37 / 1

  • Associazione fra variabili quantitative: indicedi correlazione

    L’indice (o coefficiente) di correlazione è costruito a partiredalla covarianza.

    • Coefficiente di correlazione della popolazione

    ρ =σxy

    σxσy

    • Coefficiente di correlazione campionaria

    r =sxysxsy

    37 / 1

  • Associazione fra variabili quantitative: indicedi correlazione

    L’indice (o coefficiente) di correlazione è costruito a partiredalla covarianza.

    • Coefficiente di correlazione della popolazione

    ρ =σxy

    σxσy

    • Coefficiente di correlazione campionaria

    r =sxysxsy

    37 / 1

  • Indice di correlazione

    Possiamo descrivere alcune caratteristiche dell’indice dicorrelazione:

    • L’indice di correlazione varia sempre tra −1 e 1• Si ha una relazione linerae positiva forte tra le due

    variabili quanto più il suo valore si avvicina a 1• Si ha una relazione lineare negativa forte tra le due

    variabili quanto più il suo valore si avvicina a −1• Si ha una relazione lineare debole tra le due variabili

    quanto più il suo valore si avvicina a 0.

    38 / 1

  • Indice di correlazione

    Possiamo descrivere alcune caratteristiche dell’indice dicorrelazione:

    • L’indice di correlazione varia sempre tra −1 e 1

    • Si ha una relazione linerae positiva forte tra le duevariabili quanto più il suo valore si avvicina a 1

    • Si ha una relazione lineare negativa forte tra le duevariabili quanto più il suo valore si avvicina a −1

    • Si ha una relazione lineare debole tra le due variabiliquanto più il suo valore si avvicina a 0.

    38 / 1

  • Indice di correlazione

    Possiamo descrivere alcune caratteristiche dell’indice dicorrelazione:

    • L’indice di correlazione varia sempre tra −1 e 1• Si ha una relazione linerae positiva forte tra le due

    variabili quanto più il suo valore si avvicina a 1

    • Si ha una relazione lineare negativa forte tra le duevariabili quanto più il suo valore si avvicina a −1

    • Si ha una relazione lineare debole tra le due variabiliquanto più il suo valore si avvicina a 0.

    38 / 1

  • Indice di correlazione

    Possiamo descrivere alcune caratteristiche dell’indice dicorrelazione:

    • L’indice di correlazione varia sempre tra −1 e 1• Si ha una relazione linerae positiva forte tra le due

    variabili quanto più il suo valore si avvicina a 1• Si ha una relazione lineare negativa forte tra le due

    variabili quanto più il suo valore si avvicina a −1

    • Si ha una relazione lineare debole tra le due variabiliquanto più il suo valore si avvicina a 0.

    38 / 1

  • Indice di correlazione

    Possiamo descrivere alcune caratteristiche dell’indice dicorrelazione:

    • L’indice di correlazione varia sempre tra −1 e 1• Si ha una relazione linerae positiva forte tra le due

    variabili quanto più il suo valore si avvicina a 1• Si ha una relazione lineare negativa forte tra le due

    variabili quanto più il suo valore si avvicina a −1• Si ha una relazione lineare debole tra le due variabili

    quanto più il suo valore si avvicina a 0.

    38 / 1

  • Associazione fra variabili quantitative: indicedi correlazione

    Interpretiamo il coefficiente di correlazione:

    39 / 1

  • Indice di correlazioneConsideriamo nuovamente i dati sull’ossigeno:

    si può misurare che la correlazione tra le due variabili è paria 0.985, per cui risulta chiaro che esiste una relazione linearepositiva molto forte tra le due variabili.

    40 / 1

  • Correlazione: esempioCalcoliamo la correlazione per l’esempio sull’ossigeno:

    Velocita = x Ossigeno = y

    x̄ = 4 ȳ = 21.83

    Velocità (Km/h) Ossigeno (l/h) xi−4 yi−21.830 19 0−4 =−4 −2.831 20 1−4 =−3 −1.832 20.5 2−4 =−2 −1.333 21.5 3−4 =−1 −0.334 22 4−4 = 0 0.175 23 5−4 = 1 1.176 23 6−4 = 2 1.177 23.5 7−4 = 3 1.678 24 8−4 = 4 2.17

    41 / 1

  • Correlazione: esempioCalcoliamo la correlazione per l’esempio sull’ossigeno:

    xi−4 yi−21.83 (xi−4)(yi−21.83) (xi−4)2 (yi−21.83)2

    −4 −2.83 11.33 16 8.03−3 −1.83 5.5 9 3.36−2 −1.33 2.67 4 1.78−1 −0.33 0.33 1 0.110 0.17 0 0 0.0281 1.17 1.17 1 1.362 1.17 2.33 4 1.363 1.67 5 9 2.784 2.17 8.67 16 4.69

    37 60 23.5

    sxy =37

    9−1= 4.625 sx =

    √60

    9−1=√

    7.5 = 2.74

    sy =

    √23.59−1

    =√

    2.9375 = 1.72⇒ r =sxysxsy

    =4.625

    2.74 ·1.72= 0.98

    42 / 1

  • Correlazione: esempioCalcoliamo la correlazione per l’esempio sull’ossigeno:

    xi−4 yi−21.83 (xi−4)(yi−21.83) (xi−4)2 (yi−21.83)2

    −4 −2.83 11.33 16 8.03−3 −1.83 5.5 9 3.36−2 −1.33 2.67 4 1.78−1 −0.33 0.33 1 0.110 0.17 0 0 0.0281 1.17 1.17 1 1.362 1.17 2.33 4 1.363 1.67 5 9 2.784 2.17 8.67 16 4.69

    37 60 23.5

    sxy =37

    9−1= 4.625 sx =

    √60

    9−1=√

    7.5 = 2.74

    sy =

    √23.59−1

    =√

    2.9375 = 1.72⇒ r =sxysxsy

    =4.625

    2.74 ·1.72= 0.98

    42 / 1

  • Indice di correlazioneL’indice di correlazione lineare individua solamente associazionidi tipo lineare.

    Consideriamo il grafico seguente

    Si evidenzia una forte relazione di tipo parabolico tra le due vari-abili che non può essere descritta da una retta. In casi comequesti la correlazione lineare è zero.

    43 / 1

  • Indice di correlazioneL’indice di correlazione lineare individua solamente associazionidi tipo lineare.Consideriamo il grafico seguente

    Si evidenzia una forte relazione di tipo parabolico tra le due vari-abili che non può essere descritta da una retta. In casi comequesti la correlazione lineare è zero.

    43 / 1

  • Indice di correlazioneL’indice di correlazione lineare individua solamente associazionidi tipo lineare.Consideriamo il grafico seguente

    Si evidenzia una forte relazione di tipo parabolico tra le due vari-abili che non può essere descritta da una retta. In casi comequesti la correlazione lineare è zero.

    43 / 1

  • Associazione fra variabili quantitative:regressione lineare

    Quando due variabili mostrano una correlazione lineare si puòdecidere di stimare l’equazione della retta che meglio approssimatale relazione a partire dai dati.

    Si parla in tal caso di regressione lineare. La retta di regressionelineare permette di descrivere la relazione lineare tra una vari-abile risposta, indicata con y, e una variabile esplicativa, indicatacon x.

    L’equazione della retta costruita sui dati permette di determinarei valori della variabile dipendente in base ai valori della variabileindioendente. Il metodo di regressione permette di capire sela variabile x influenza la variabile y, per cui è di fondamentaleimportanza identificare il ruolo delle variabil.

    44 / 1

  • Associazione fra variabili quantitative:regressione lineare

    Quando due variabili mostrano una correlazione lineare si puòdecidere di stimare l’equazione della retta che meglio approssimatale relazione a partire dai dati.

    Si parla in tal caso di regressione lineare. La retta di regressionelineare permette di descrivere la relazione lineare tra una vari-abile risposta, indicata con y, e una variabile esplicativa, indicatacon x.

    L’equazione della retta costruita sui dati permette di determinarei valori della variabile dipendente in base ai valori della variabileindioendente. Il metodo di regressione permette di capire sela variabile x influenza la variabile y, per cui è di fondamentaleimportanza identificare il ruolo delle variabil.

    44 / 1

  • Associazione fra variabili quantitative:regressione lineare

    Quando due variabili mostrano una correlazione lineare si puòdecidere di stimare l’equazione della retta che meglio approssimatale relazione a partire dai dati.

    Si parla in tal caso di regressione lineare. La retta di regressionelineare permette di descrivere la relazione lineare tra una vari-abile risposta, indicata con y, e una variabile esplicativa, indicatacon x.

    L’equazione della retta costruita sui dati permette di determinarei valori della variabile dipendente in base ai valori della variabileindioendente. Il metodo di regressione permette di capire sela variabile x influenza la variabile y, per cui è di fondamentaleimportanza identificare il ruolo delle variabil.

    44 / 1

  • Regressione lineare

    Ricordiamo che date due variabili x e y l’equazione di una rettaassume la forma:

    y = a+bx

    • il coefficiente a viene detto intercetta e indica il punto in cuila retta incontra l’asse delle ordinate

    • il coefficiente b viene detto coefficiente angolare e denota lapendenza della retta.

    45 / 1

  • Regressione lineare

    Ricordiamo che date due variabili x e y l’equazione di una rettaassume la forma:

    y = a+bx

    • il coefficiente a viene detto intercetta e indica il punto in cuila retta incontra l’asse delle ordinate

    • il coefficiente b viene detto coefficiente angolare e denota lapendenza della retta.

    45 / 1

  • Regressione lineare

    Ricordiamo che date due variabili x e y l’equazione di una rettaassume la forma:

    y = a+bx

    • il coefficiente a viene detto intercetta e indica il punto in cuila retta incontra l’asse delle ordinate

    • il coefficiente b viene detto coefficiente angolare e denota lapendenza della retta.

    45 / 1

  • Regressione lineare

    I valori di y stimati a partire dai valori di x tramite la retta di re-gressione vengono indicati con ŷ. Per cui l’equazione di regres-sione ha la forma:

    ŷ = a+bx.

    L’equazione della retta di regressione permette di prevedere qualisarebbero i valori della variabile risposta in corrispondenza di di-versi valori della variabile esplicativa.

    • L’intercetta rappresenta il valore previsto della y quandox = 0, potrebbe non avere alcun valore interpretativo.

    • La pendenza rappresenta l’aumento o il decremento delvalore previsto per y per ogni aumento unitario di x.

    46 / 1

  • Regressione lineare

    I valori di y stimati a partire dai valori di x tramite la retta di re-gressione vengono indicati con ŷ. Per cui l’equazione di regres-sione ha la forma:

    ŷ = a+bx.

    L’equazione della retta di regressione permette di prevedere qualisarebbero i valori della variabile risposta in corrispondenza di di-versi valori della variabile esplicativa.

    • L’intercetta rappresenta il valore previsto della y quandox = 0, potrebbe non avere alcun valore interpretativo.

    • La pendenza rappresenta l’aumento o il decremento delvalore previsto per y per ogni aumento unitario di x.

    46 / 1

  • Regressione lineare

    I valori di y stimati a partire dai valori di x tramite la retta di re-gressione vengono indicati con ŷ. Per cui l’equazione di regres-sione ha la forma:

    ŷ = a+bx.

    L’equazione della retta di regressione permette di prevedere qualisarebbero i valori della variabile risposta in corrispondenza di di-versi valori della variabile esplicativa.

    • L’intercetta rappresenta il valore previsto della y quandox = 0, potrebbe non avere alcun valore interpretativo.

    • La pendenza rappresenta l’aumento o il decremento delvalore previsto per y per ogni aumento unitario di x.

    46 / 1

  • Regressione lineare

    I valori di y stimati a partire dai valori di x tramite la retta di re-gressione vengono indicati con ŷ. Per cui l’equazione di regres-sione ha la forma:

    ŷ = a+bx.

    L’equazione della retta di regressione permette di prevedere qualisarebbero i valori della variabile risposta in corrispondenza di di-versi valori della variabile esplicativa.

    • L’intercetta rappresenta il valore previsto della y quandox = 0, potrebbe non avere alcun valore interpretativo.

    • La pendenza rappresenta l’aumento o il decremento delvalore previsto per y per ogni aumento unitario di x.

    46 / 1

  • Regressione lineare: residuiSe indichiamo con ŷ i valori previsti (stimati) e y i valori effettividella variabile risposta allora i residui

    Residui = ŷ− y

    forniscono una misura dell’errore di previsione in corrispondenzadi ogni osservazione.

    I residui sono rappresentati in uno scatterplot come la distanzaverticale fra ogni punto e la retta stimata.

    47 / 1

  • Regressione lineare: residuiSe indichiamo con ŷ i valori previsti (stimati) e y i valori effettividella variabile risposta allora i residui

    Residui = ŷ− y

    forniscono una misura dell’errore di previsione in corrispondenzadi ogni osservazione.I residui sono rappresentati in uno scatterplot come la distanzaverticale fra ogni punto e la retta stimata.

    47 / 1

  • Regressione lineare: metodo dei minimiquadrati.

    I coefficienti della retta di regressione vengono calcolati in mododa minimizzare la somma delle distanze al quadrato di ognipunto rispetto alla retta che si vuole stimare, si minimizzanoquindi i residui:

    min(Somma dei residui al quadrato) = min∑ residui2 =

    = minn

    ∑i=1

    (yi− ŷi)2

    La retta stimata in questo modo approssima al meglio il valormedio della variabile risposta.

    48 / 1

  • Regressione lineare: metodo dei minimiquadrati.

    I coefficienti della retta di regressione vengono calcolati in mododa minimizzare la somma delle distanze al quadrato di ognipunto rispetto alla retta che si vuole stimare, si minimizzanoquindi i residui:

    min(Somma dei residui al quadrato) = min∑ residui2 =

    = minn

    ∑i=1

    (yi− ŷi)2

    La retta stimata in questo modo approssima al meglio il valormedio della variabile risposta.

    48 / 1

  • Regressione lineare: metodo dei minimiquadrati.

    L’utilizzo del metodo dei minimi quadri fornisce alcune proprietàper la retta di regressione.

    • Essa ha alcuni residui positivi e altri negativi, per cui lasomma dei residui, così come la loro media, è pari a 0.Questo implica che previsioni ”troppo” basse sonobilanciate da previsioni ”troppo” alte.

    • La retta passa per il punto di coordinate (x̄, ȳ). Per cuipassa per il centro della distribuzione.

    49 / 1

  • Regressione lineare: metodo dei minimiquadrati.

    L’utilizzo del metodo dei minimi quadri fornisce alcune proprietàper la retta di regressione.

    • Essa ha alcuni residui positivi e altri negativi, per cui lasomma dei residui, così come la loro media, è pari a 0.Questo implica che previsioni ”troppo” basse sonobilanciate da previsioni ”troppo” alte.

    • La retta passa per il punto di coordinate (x̄, ȳ). Per cuipassa per il centro della distribuzione.

    49 / 1

  • Regressione lineare: metodo dei minimiquadrati.

    L’utilizzo del metodo dei minimi quadri fornisce alcune proprietàper la retta di regressione.

    • Essa ha alcuni residui positivi e altri negativi, per cui lasomma dei residui, così come la loro media, è pari a 0.Questo implica che previsioni ”troppo” basse sonobilanciate da previsioni ”troppo” alte.

    • La retta passa per il punto di coordinate (x̄, ȳ). Per cuipassa per il centro della distribuzione.

    49 / 1

  • Regressione lineare: stime dei minimiquadrati.

    Data la retta di regressione

    ŷ = a+bx

    applicando il metodo dei minimi quadrati si ha che

    b =Cov(x,y)

    s2x= r

    sysx

    mentre

    a = ȳ−bx̄

    .

    50 / 1

  • Regressione lineare: stime dei minimiquadrati.

    Data la retta di regressione

    ŷ = a+bx

    applicando il metodo dei minimi quadrati si ha che

    b =Cov(x,y)

    s2x= r

    sysx

    mentre

    a = ȳ−bx̄

    .

    50 / 1

  • Regressione lineare: stime dei minimiquadrati.

    Data la retta di regressione

    ŷ = a+bx

    applicando il metodo dei minimi quadrati si ha che

    b =Cov(x,y)

    s2x= r

    sysx

    mentre

    a = ȳ−bx̄

    .

    50 / 1

  • Regressione lineare: stima dei coefficienti

    Consideriamo l’esempio sull’ossigeno. Supponiamo di voler stu-diare come l’ossigeno consumato vari con la velocità. L’equazionedella retta di regressione stimata per questo problema risulta

    ŷ = 19.3692+0.6152x

    dove

    b = rsysx

    = 0.981.722.74

    = 0.6152 a = 21.83−0.6152∗4 = 19.3692

    51 / 1

  • Regressione lineare: stima dei coefficienti

    Consideriamo l’esempio sull’ossigeno. Supponiamo di voler stu-diare come l’ossigeno consumato vari con la velocità. L’equazionedella retta di regressione stimata per questo problema risulta

    ŷ = 19.3692+0.6152x

    dove

    b = rsysx

    = 0.981.722.74

    = 0.6152

    a = 21.83−0.6152∗4 = 19.3692

    51 / 1

  • Regressione lineare: stima dei coefficienti

    Consideriamo l’esempio sull’ossigeno. Supponiamo di voler stu-diare come l’ossigeno consumato vari con la velocità. L’equazionedella retta di regressione stimata per questo problema risulta

    ŷ = 19.3692+0.6152x

    dove

    b = rsysx

    = 0.981.722.74

    = 0.6152 a = 21.83−0.6152∗4 = 19.3692

    51 / 1

  • Regressione lineare: interpretazione deicoefficienti

    Consideriamo l’esempio sull’ossigeno, allora.

    • Il valore stimato per l’intercetta ci dice che quando il lavelocità è pari a 0 l’ossigeno previsto è 19.3692 litri per ora.

    • La pendenza stimata è pari a 0.6152, positiva, per cui laretta ha un andamento crescente. Possiamo dire che perogni aumento di un km/h della velocità l’ossigenoconsumato aumenta di 0.6152 l/h.

    52 / 1

  • Regressione lineare: interpretazione deicoefficienti

    Consideriamo l’esempio sull’ossigeno, allora.

    • Il valore stimato per l’intercetta ci dice che quando il lavelocità è pari a 0 l’ossigeno previsto è 19.3692 litri per ora.

    • La pendenza stimata è pari a 0.6152, positiva, per cui laretta ha un andamento crescente. Possiamo dire che perogni aumento di un km/h della velocità l’ossigenoconsumato aumenta di 0.6152 l/h.

    52 / 1

  • Regressione lineare: interpretazione deicoefficienti

    Consideriamo l’esempio sull’ossigeno.

    ŷ = 19.3692+0.6152x

    supponiamo di voler predire il valore dell’ossigeno per una ve-locità pari a 9.

    Se la retta descrive correttamente la relazione trale variabili allora

    ŷx=9 = 19.3692+0.6152×9 = 24.906

    per cui si prevede che per una velocità di 9 km/h si consumino24.906 litri di ossigeno per ora.

    53 / 1

  • Regressione lineare: interpretazione deicoefficienti

    Consideriamo l’esempio sull’ossigeno.

    ŷ = 19.3692+0.6152x

    supponiamo di voler predire il valore dell’ossigeno per una ve-locità pari a 9.Se la retta descrive correttamente la relazione trale variabili allora

    ŷx=9 = 19.3692+0.6152×9 = 24.906

    per cui si prevede che per una velocità di 9 km/h si consumino24.906 litri di ossigeno per ora.

    53 / 1

  • Regressione lineare: interpretazione deicoefficienti

    Consideriamo l’esempio sull’ossigeno, vediamo in figura la rettastimata dai dati col metodo di regressione lineare:

    54 / 1

  • Regressione lineare: r-quadro.

    I risultati di una regressione lineare sono tanto più accurati quantopiù la relazione tra le variabili è effettivamente lineare.

    Esiste un indice che permette di verificare l’adeguatezza delmodello lineare ai dati: r-quadro.

    Il coefficiente r-quadro nella regressione lineare con una solavariabile esplicativa è il quadrato del coefficiente di correlazione.

    Questo coefficiente sintetizza l’errore che si commette stimandoi valori di y tramite la retta di regressione, ŷ = a+ bx, invece diconsiderare direttamente il suo valor medio, ossia ŷ = ȳ .

    Il modo più frequente di interpretare r2 è come proporzione divariabilità della y spiegata dalla relazione lineare con la x.

    55 / 1

  • Regressione lineare: r-quadro.

    I risultati di una regressione lineare sono tanto più accurati quantopiù la relazione tra le variabili è effettivamente lineare.

    Esiste un indice che permette di verificare l’adeguatezza delmodello lineare ai dati: r-quadro.

    Il coefficiente r-quadro nella regressione lineare con una solavariabile esplicativa è il quadrato del coefficiente di correlazione.

    Questo coefficiente sintetizza l’errore che si commette stimandoi valori di y tramite la retta di regressione, ŷ = a+ bx, invece diconsiderare direttamente il suo valor medio, ossia ŷ = ȳ .

    Il modo più frequente di interpretare r2 è come proporzione divariabilità della y spiegata dalla relazione lineare con la x.

    55 / 1

  • Regressione lineare: r-quadro.

    I risultati di una regressione lineare sono tanto più accurati quantopiù la relazione tra le variabili è effettivamente lineare.

    Esiste un indice che permette di verificare l’adeguatezza delmodello lineare ai dati: r-quadro.

    Il coefficiente r-quadro nella regressione lineare con una solavariabile esplicativa è il quadrato del coefficiente di correlazione.

    Questo coefficiente sintetizza l’errore che si commette stimandoi valori di y tramite la retta di regressione, ŷ = a+ bx, invece diconsiderare direttamente il suo valor medio, ossia ŷ = ȳ .

    Il modo più frequente di interpretare r2 è come proporzione divariabilità della y spiegata dalla relazione lineare con la x.

    55 / 1

  • Regressione lineare: r-quadro.

    I risultati di una regressione lineare sono tanto più accurati quantopiù la relazione tra le variabili è effettivamente lineare.

    Esiste un indice che permette di verificare l’adeguatezza delmodello lineare ai dati: r-quadro.

    Il coefficiente r-quadro nella regressione lineare con una solavariabile esplicativa è il quadrato del coefficiente di correlazione.

    Questo coefficiente sintetizza l’errore che si commette stimandoi valori di y tramite la retta di regressione, ŷ = a+ bx, invece diconsiderare direttamente il suo valor medio, ossia ŷ = ȳ .

    Il modo più frequente di interpretare r2 è come proporzione divariabilità della y spiegata dalla relazione lineare con la x.

    55 / 1

  • Regressione lineare: r-quadro.

    I risultati di una regressione lineare sono tanto più accurati quantopiù la relazione tra le variabili è effettivamente lineare.

    Esiste un indice che permette di verificare l’adeguatezza delmodello lineare ai dati: r-quadro.

    Il coefficiente r-quadro nella regressione lineare con una solavariabile esplicativa è il quadrato del coefficiente di correlazione.

    Questo coefficiente sintetizza l’errore che si commette stimandoi valori di y tramite la retta di regressione, ŷ = a+ bx, invece diconsiderare direttamente il suo valor medio, ossia ŷ = ȳ .

    Il modo più frequente di interpretare r2 è come proporzione divariabilità della y spiegata dalla relazione lineare con la x.

    55 / 1

  • Regressione lineare: r-quadro.Si ha che:

    −1 < r < 1 ⇒ 0 < r2 < 1

    56 / 1

  • Ricapitolazione: esercizio.

    Sia dato un campione di osservazioni sulla misurazione del di-ametro del tronco (in cm) e del raggio della chioma (in m) per10 pini bianchi. Si vuole studiare se la misura del diametro deltronco influenzi il raggio della chioma. Si considera quindi lavariabile esplicativa x= diametro e la risposta y= raggio chioma.I dati rilevati sono i seguenti:

    x 5.0 12.7 7.6 17.8 5.1 15.2 10.2 22.9 20.3 10.1

    y 0.91 1.83 1.22 2.18 1.22 2.30 1.70 2.74 2.65 1.52

    Disegnare il diagramma di dispersione, calcolare covarianza,correlazione e interpretarla. Calcolare i coefficienti della rettadi regressione e disegnarla.

    57 / 1

  • La probabilità nella vita di tutti i giorni

    Nella vita di tutti i giorni accade spesso di dover prendere delledecisioni in condizioni di incertezza circa l’esito delle scelte.

    • è probabilie che oggi piova;

    • è probabile che se decido di studiare con costanzasupererò l’esame con un buon voto.

    La probabilità è la branca della matematica che si pone l’obiettivodi quantificare l’incertezza.

    E’ un misura relativa e il suo valore è sempre compreso tra 0 e 1.Se indichiamo con P(x) laprobabilità associata a un fenomeno x,allora:

    0≤ P(x)≤ 1

    58 / 1

  • La probabilità nella vita di tutti i giorni

    Nella vita di tutti i giorni accade spesso di dover prendere delledecisioni in condizioni di incertezza circa l’esito delle scelte.

    • è probabilie che oggi piova;

    • è probabile che se decido di studiare con costanzasupererò l’esame con un buon voto.

    La probabilità è la branca della matematica che si pone l’obiettivodi quantificare l’incertezza.

    E’ un misura relativa e il suo valore è sempre compreso tra 0 e 1.Se indichiamo con P(x) laprobabilità associata a un fenomeno x,allora:

    0≤ P(x)≤ 1

    58 / 1

  • La probabilità nella vita di tutti i giorni

    Nella vita di tutti i giorni accade spesso di dover prendere delledecisioni in condizioni di incertezza circa l’esito delle scelte.

    • è probabilie che oggi piova;

    • è probabile che se decido di studiare con costanzasupererò l’esame con un buon voto.

    La probabilità è la branca della matematica che si pone l’obiettivodi quantificare l’incertezza.

    E’ un misura relativa e il suo valore è sempre compreso tra 0 e 1.Se indichiamo con P(x) laprobabilità associata a un fenomeno x,allora:

    0≤ P(x)≤ 1

    58 / 1

  • La probabilità nella vita di tutti i giorni

    Nella vita di tutti i giorni accade spesso di dover prendere delledecisioni in condizioni di incertezza circa l’esito delle scelte.

    • è probabilie che oggi piova;

    • è probabile che se decido di studiare con costanzasupererò l’esame con un buon voto.

    La probabilità è la branca della matematica che si pone l’obiettivodi quantificare l’incertezza.

    E’ un misura relativa e il suo valore è sempre compreso tra 0 e 1.Se indichiamo con P(x) laprobabilità associata a un fenomeno x,allora:

    0≤ P(x)≤ 1

    58 / 1

  • La probabilità nella vita di tutti i giorni

    Nella vita di tutti i giorni accade spesso di dover prendere delledecisioni in condizioni di incertezza circa l’esito delle scelte.

    • è probabilie che oggi piova;

    • è probabile che se decido di studiare con costanzasupererò l’esame con un buon voto.

    La probabilità è la branca della matematica che si pone l’obiettivodi quantificare l’incertezza.

    E’ un misura relativa e il suo valore è sempre compreso tra 0 e 1.Se indichiamo con P(x) laprobabilità associata a un fenomeno x,allora:

    0≤ P(x)≤ 1

    58 / 1

  • Incertezza e inferenza

    L’inferenza statistica, la generalizzazione dal campione alla popo-lazione, richiede che si traggano delle conclusioni a partire dainformazioni incomplete. Questo presuppone un grado di in-certezza.

    Un buon statistico arriverà a dei risultati induttivi assicurandosiche il rischio di incertezza sia ridotto al minimo.

    Ogni conclusione inferenziale sarà basata su ragionamenti diprobabilità.

    59 / 1

  • Incertezza e inferenza

    L’inferenza statistica, la generalizzazione dal campione alla popo-lazione, richiede che si traggano delle conclusioni a partire dainformazioni incomplete. Questo presuppone un grado di in-certezza.

    Un buon statistico arriverà a dei risultati induttivi assicurandosiche il rischio di incertezza sia ridotto al minimo.

    Ogni conclusione inferenziale sarà basata su ragionamenti diprobabilità.

    59 / 1

  • Incertezza e inferenza

    L’inferenza statistica, la generalizzazione dal campione alla popo-lazione, richiede che si traggano delle conclusioni a partire dainformazioni incomplete. Questo presuppone un grado di in-certezza.

    Un buon statistico arriverà a dei risultati induttivi assicurandosiche il rischio di incertezza sia ridotto al minimo.

    Ogni conclusione inferenziale sarà basata su ragionamenti diprobabilità.

    59 / 1

  • Distribuzione empiricaIn 20 marche di cereali è stato analizzato il contenuto di sodioin mg in una porzione standard, secondo quanto codificato dalNational Labelling and educational Act.

    Il grafico che rappresenta la distribuzione dei dati ha la seguenteforma:

    Figure: Istogramma per il contenuto di sodio in 20 cereali dacolazione, abbiamo considerato 9 classi.

    60 / 1

  • Distribuzione empiricaIn 20 marche di cereali è stato analizzato il contenuto di sodioin mg in una porzione standard, secondo quanto codificato dalNational Labelling and educational Act.Il grafico che rappresenta la distribuzione dei dati ha la seguenteforma:

    Figure: Istogramma per il contenuto di sodio in 20 cereali dacolazione, abbiamo considerato 9 classi.

    60 / 1

  • Distribuzione empiricaSe estraiamo a caso uno dei cereali:

    • qual è la probabilità che esso abbia un alto contenuto disodio?

    • qual è la probabilità che il suo contenuto di sodio siacompreso tra 100 e 150?

    Le informazioni cercate possono essere ricavate dall’istogrammadelle frequenze. Infatti le frequenze relative rappresentano laprobabilità che su un numero di n esperimenti si osservi unacerta informazione di interesse.Possiamo associare ad ogni osservazione, in caso di dati dis-creti o qualitativi, o ad ogni intervallo, in caso di dati continui,una probabilità di realizzazione. Considerate le probabilità pertutte le possibili realizzazioni si ottiene quella che viene chia-mata distribuzione di probabilità.Le distribuzioni di probabilità costruite a partire dai dati osservatisono dette distribuzioni di probabilità empiriche.

    61 / 1

  • Distribuzione empiricaSe estraiamo a caso uno dei cereali:

    • qual è la probabilità che esso abbia un alto contenuto disodio?

    • qual è la probabilità che il suo contenuto di sodio siacompreso tra 100 e 150?

    Le informazioni cercate possono essere ricavate dall’istogrammadelle frequenze. Infatti le frequenze relative rappresentano laprobabilità che su un numero di n esperimenti si osservi unacerta informazione di interesse.Possiamo associare ad ogni osservazione, in caso di dati dis-creti o qualitativi, o ad ogni intervallo, in caso di dati continui,una probabilità di realizzazione. Considerate le probabilità pertutte le possibili realizzazioni si ottiene quella che viene chia-mata distribuzione di probabilità.Le distribuzioni di probabilità costruite a partire dai dati osservatisono dette distribuzioni di probabilità empiriche.

    61 / 1

  • Distribuzione empiricaSe estraiamo a caso uno dei cereali:

    • qual è la probabilità che esso abbia un alto contenuto disodio?

    • qual è la probabilità che il suo contenuto di sodio siacompreso tra 100 e 150?

    Le informazioni cercate possono essere ricavate dall’istogrammadelle frequenze. Infatti le frequenze relative rappresentano laprobabilità che su un numero di n esperimenti si osservi unacerta informazione di interesse.

    Possiamo associare ad ogni osservazione, in caso di dati dis-creti o qualitativi, o ad ogni intervallo, in caso di dati continui,una probabilità di realizzazione. Considerate le probabilità pertutte le possibili realizzazioni si ottiene quella che viene chia-mata distribuzione di probabilità.Le distribuzioni di probabilità costruite a partire dai dati osservatisono dette distribuzioni di probabilità empiriche.

    61 / 1

  • Distribuzione empiricaSe estraiamo a caso uno dei cereali:

    • qual è la probabilità che esso abbia un alto contenuto disodio?

    • qual è la probabilità che il suo contenuto di sodio siacompreso tra 100 e 150?

    Le informazioni cercate possono essere ricavate dall’istogrammadelle frequenze. Infatti le frequenze relative rappresentano laprobabilità che su un numero di n esperimenti si osservi unacerta informazione di interesse.Possiamo associare ad ogni osservazione, in caso di dati dis-creti o qualitativi, o ad ogni intervallo, in caso di dati continui,una probabilità di realizzazione. Considerate le probabilità pertutte le possibili realizzazioni si ottiene quella che viene chia-mata distribuzione di probabilità.

    Le distribuzioni di probabilità costruite a partire dai dati osservatisono dette distribuzioni di probabilità empiriche.

    61 / 1

  • Distribuzione empiricaSe estraiamo a caso uno dei cereali:

    • qual è la probabilità che esso abbia un alto contenuto disodio?

    • qual è la probabilità che il suo contenuto di sodio siacompreso tra 100 e 150?

    Le informazioni cercate possono essere ricavate dall’istogrammadelle frequenze. Infatti le frequenze relative rappresentano laprobabilità che su un numero di n esperimenti si osservi unacerta informazione di interesse.Possiamo associare ad ogni osservazione, in caso di dati dis-creti o qualitativi, o ad ogni intervallo, in caso di dati continui,una probabilità di realizzazione. Considerate le probabilità pertutte le possibili realizzazioni si ottiene quella che viene chia-mata distribuzione di probabilità.Le distribuzioni di probabilità costruite a partire dai dati osservatisono dette distribuzioni di probabilità empiriche.

    61 / 1

  • Distribuzioni di probabilità per variabilicontinue

    Una distribuzione di probabilità per variabili continue può esseregraficamente rappresentata con un istogramma.

    Solitamente la distribuzione di probabilità di una variabile con-tinua viene rappresentata con la sua approssimazione continua,quasi ad indicare che vogliamo associare una probabilità ad ognisingolo valore.

    62 / 1

  • Distribuzioni di probabilità per variabilicontinue

    Una distribuzione di probabilità per variabili continue può esseregraficamente rappresentata con un istogramma.

    Solitamente la distribuzione di probabilità di una variabile con-tinua viene rappresentata con la sua approssimazione continua,quasi ad indicare che vogliamo associare una probabilità ad ognisingolo valore.

    62 / 1

  • Distribuzioni di probabilità per variabilicontinue

    Una distribuzione di probabilità per variabili continue può esseregraficamente rappresentata con un istogramma.

    Solitamente la distribuzione di probabilità di una variabile con-tinua viene rappresentata con la sua approssimazione continua,quasi ad indicare che vogliamo associare una probabilità ad ognisingolo valore.

    62 / 1

  • Distribuzioni di probabilità per variabilicontinue

    La distribuzione di probabilità associata ad una variabile con-tinua è rappresentata da una curva che consente di determinarela probabilità che la variabile assuma valori in un prestabilito in-tervallo.

    • Ciascun intervallo ha probabilità tra 0 e 1. Si trattadell’area sottesa dalla curva che rappresenta ladistribuzione in corrispondenza di tale intervallo.

    • L’intervallo che contiene tutti i possibili valori della variabileha probabilità pari a 1. In tal modo l’area complessivasottesa dalla curva di distribuzione di probabilità è pari a 1.

    Per una variabile continua non ha senso calcolare la probabilitàper una specifica realizzazione della variabile, questa probabilitàsarà necessariamente 0.

    63 / 1

  • Distribuzioni di probabilità per variabilicontinue

    La distribuzione di probabilità associata ad una variabile con-tinua è rappresentata da una curva che consente di determinarela probabilità che la variabile assuma valori in un prestabilito in-tervallo.

    • Ciascun intervallo ha probabilità tra 0 e 1. Si trattadell’area sottesa dalla curva che rappresenta ladistribuzione in corrispondenza di tale intervallo.

    • L’intervallo che contiene tutti i possibili valori della variabileha probabilità pari a 1. In tal modo l’area complessivasottesa dalla curva di distribuzione di probabilità è pari a 1.

    Per una variabile continua non ha senso calcolare la probabilitàper una specifica realizzazione della variabile, questa probabilitàsarà necessariamente 0.

    63 / 1

  • Distribuzioni di probabilità per variabilicontinue

    La distribuzione di probabilità associata ad una variabile con-tinua è rappresentata da una curva che consente di determinarela probabilità che la variabile assuma valori in un prestabilito in-tervallo.

    • Ciascun intervallo ha probabilità tra 0 e 1. Si trattadell’area sottesa dalla curva che rappresenta ladistribuzione in corrispondenza di tale intervallo.

    • L’intervallo che contiene tutti i possibili valori della variabileha probabilità pari a 1. In tal modo l’area complessivasottesa dalla curva di distribuzione di probabilità è pari a 1.

    Per una variabile continua non ha senso calcolare la probabilitàper una specifica realizzazione della variabile, questa probabilitàsarà necessariamente 0.

    63 / 1

  • Distribuzioni di probabilità per variabilicontinue

    La distribuzione di probabilità associata ad una variabile con-tinua è rappresentata da una curva che consente di determinarela probabilità che la variabile assuma valori in un prestabilito in-tervallo.

    • Ciascun intervallo ha probabilità tra 0 e 1. Si trattadell’area sottesa dalla curva che rappresenta ladistribuzione in corrispondenza di tale intervallo.

    • L’intervallo che contiene tutti i possibili valori della variabileha probabilità pari a 1. In tal modo l’area complessivasottesa dalla curva di distribuzione di probabilità è pari a 1.

    Per una variabile continua non ha senso calcolare la probabilitàper una specifica realizzazione della variabile, questa probabilitàsarà necessariamente 0.

    63 / 1

  • Distribuzioni di probabilità per variabilicasuali continue

    Per una variabile continua possiamo calcolare le probabilità as-sociate ad intervalli.

    La probabilità che la variabile X non superi un certo valore xprende il nome di funzione di ripartizione, e rappresenta le prob-abilità cumulate,:

    F(x) = P(X ≤ x)

    Siano a e b due possibili realizzazioni della variabile X, tali chea < X < b. La probabilità che X assuma valori tra a e b è data da

    P(a≤ X ≤ b) = F(b)−F(a)

    64 / 1

  • Distribuzioni di probabilità per variabilicasuali continue

    Per una variabile continua possiamo calcolare le probabilità as-sociate ad intervalli.La probabilità che la variabile X non superi un certo valore xprende il nome di funzione di ripartizione, e rappresenta le prob-abilità cumulate,:

    F(x) = P(X ≤ x)

    Siano a e b due possibili realizzazioni della variabile X, tali chea < X < b. La probabilità che X assuma valori tra a e b è data da

    P(a≤ X ≤ b) = F(b)−F(a)

    64 / 1

  • Distribuzioni di probabilità per variabilicasuali continue

    Per una variabile continua possiamo calcolare le probabilità as-sociate ad intervalli.La probabilità che la variabile X non superi un certo valore xprende il nome di funzione di ripartizione, e rappresenta le prob-abilità cumulate,:

    F(x) = P(X ≤ x)

    Siano a e b due possibili realizzazioni della variabile X, tali chea < X < b. La probabilità che X assuma valori tra a e b è data da

    P(a≤ X ≤ b) = F(b)−F(a)

    64 / 1

  • Distribuzioni di probabilità per variabilicontinue

    L’area ombreggiata sottesa alla curva è la probabilità che X as-suma valori tra a e b.

    65 / 1

  • Distribuzione normale o campanulare• La distribuzione normale, o campanulare o gaussiana è la

    distribuzione più comune per variabili casuali continue. Moltifenomeni seguono approssimativamente quell’andamento. Inpresenza di un elevato numero di possibili esiti approssimabene anche molte distribuzioni discrete.

    • E’ caratterizzata da una curva campanulare e simmetrica chedipende da due soli parametri: il valor medio µ e la varainza σ2.

    • La probabilità degli intervalli µ±σ , µ±2σ e µ±3σ è la stessaper ogni distribuzione normale.

    66 / 1

  • Distribuzione normale o campanulare• La distribuzione normale, o campanulare o gaussiana è la

    distribuzione più comune per variabili casuali continue. Moltifenomeni seguono approssimativamente quell’andamento. Inpresenza di un elevato numero di possibili esiti approssimabene anche molte distribuzioni discrete.

    • E’ caratterizzata da una curva campanulare e simmetrica chedipende da due soli parametri: il valor medio µ e la varainza σ2.

    • La probabilità degli intervalli µ±σ , µ±2σ e µ±3σ è la stessaper ogni distribuzione normale.

    66 / 1

  • Distribuzione normale o campanulare• La distribuzione normale, o campanulare o gaussiana è la

    distribuzione più comune per variabili casuali continue. Moltifenomeni seguono approssimativamente quell’andamento. Inpresenza di un elevato numero di possibili esiti approssimabene anche molte distribuzioni discrete.

    • E’ caratterizzata da una curva campanulare e simmetrica chedipende da due soli parametri: il valor medio µ e la varainza σ2.

    • La probabilità degli intervalli µ±σ , µ±2σ e µ±3σ è la stessaper ogni distribuzione normale.

    66 / 1

  • Distribuzione normale o campanulare• La distribuzione normale, o campanulare o gaussiana è la

    distribuzione più comune per variabili casuali continue. Moltifenomeni seguono approssimativamente quell’andamento. Inpresenza di un elevato numero di possibili esiti approssimabene anche molte distribuzioni discrete.

    • E’ caratterizzata da una curva campanulare e simmetrica chedipende da due soli parametri: il valor medio µ e la varainza σ2.

    • La probabilità degli intervalli µ±σ , µ±2σ e µ±3σ è la stessaper ogni distribuzione normale.

    66 / 1

  • Probabilità associate a distribuzioni acampana

    Data una distribuzione approssimativamente normale, dalletavole della distribuzionesi può dedurre che

    • il 68% delle osservazioni cade nell’intervallo(µ−σ ,µ +σ), e quindi la probabilità che leosservazioni cadano a 1 deviazione standard dallamedia è 0.68

    • il 95% delle osservazioni cade nell’intervallo(µ−2σ ,µ +2σ), e quindi la probabilità che leosservazioni cadano a 2 deviazione standard dallamedia è 0.95

    • il 99.7% delle osservazioni cade nell’intervallo(µ−3σ ,µ +3σ), e quindi la probabilità che leosservazioni cadano a 1 deviazione standard dallamedia è 0.997

    67 / 1

  • Probabilità associate a distribuzioni acampana

    Data una distribuzione approssimativamente normale, dalletavole della distribuzionesi può dedurre che• il 68% delle osservazioni cade nell’intervallo(µ−σ ,µ +σ), e quindi la probabilità che leosservazioni cadano a 1 deviazione standard dallamedia è 0.68

    • il 95% delle osservazioni cade nell’intervallo(µ−2σ ,µ +2σ), e quindi la probabilità che leosservazioni cadano a 2 deviazione standard dallamedia è 0.95

    • il 99.7% delle osservazioni cade nell’intervallo(µ−3σ ,µ +3σ), e quindi la probabilità che leosservazioni cadano a 1 deviazione standard dallamedia è 0.997

    67 / 1

  • Probabilità associate a distribuzioni acampana

    Data una distribuzione approssimativamente normale, dalletavole della distribuzionesi può dedurre che• il 68% delle osservazioni cade nell’intervallo(µ−σ ,µ +σ), e quindi la probabilità che leosservazioni cadano a 1 deviazione standard dallamedia è 0.68

    • il 95% delle osservazioni cade nell’intervallo(µ−2σ ,µ +2σ), e quindi la probabilità che leosservazioni cadano a 2 deviazione standard dallamedia è 0.95

    • il 99.7% delle osservazioni cade nell’intervallo(µ−3σ ,µ +3σ), e quindi la probabilità che leosservazioni cadano a 1 deviazione standard dallamedia è 0.997

    67 / 1

  • Probabilità associate a distribuzioni acampana

    Data una distribuzione approssimativamente normale, dalletavole della distribuzionesi può dedurre che• il 68% delle osservazioni cade nell’intervallo(µ−σ ,µ +σ), e quindi la probabilità che leosservazioni cadano a 1 deviazione standard dallamedia è 0.68

    • il 95% delle osservazioni cade nell’intervallo(µ−2σ ,µ +2σ), e quindi la probabilità che leosservazioni cadano a 2 deviazione standard dallamedia è 0.95

    • il 99.7% delle osservazioni cade nell’intervallo(µ−3σ ,µ +3σ), e quindi la probabilità che leosservazioni cadano a 1 deviazione standard dallamedia è 0.997

    67 / 1

  • Probabilità associate a distribuzioni acampana

    Per distribuzioni a campana, sono visualizzate le percentu-ali approssimative di osservazioni che cadono in 1,2 e 3deviazioni standard dalla media.

    68 / 1

  • Distribuzione normale o campanulare

    Al variare dei parametri µ e σ otteniamo diverse distribuzioninormali.

    69 / 1

  • Distribuzione normale o campanulare

    Data una variabile distribuita normalmente:


Recommended