ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i...

Post on 17-Aug-2020

0 views 0 download

transcript

ESPLORAZIONE DEI DATI CON SINTESINUMERICHE: INDICI DI POSIZIONE

1 / 33

Interpretare la deviazione standard: regolaempirica

Supponiamo che la distribuzione dei dati sia unimodale eapprossimativamente simmetrica con una forma a cam-pana, allora vale la seguente regola empirica• il 68% delle osservazioni cade nell’intervallo(x̄− s, x̄+ s)

• il 95% delle osservazioni cade nell’intervallo(x̄−2s, x̄+2s)

• il 99.7% delle osservazioni cade nell’intervallo(x̄−3s, x̄+3s)

2 / 33

Interpretare la deviazione standard: regolaempirica

Supponiamo che la distribuzione dei dati sia unimodale eapprossimativamente simmetrica con una forma a cam-pana, allora vale la seguente regola empirica• il 68% delle osservazioni cade nell’intervallo(x̄− s, x̄+ s)

• il 95% delle osservazioni cade nell’intervallo(x̄−2s, x̄+2s)

• il 99.7% delle osservazioni cade nell’intervallo(x̄−3s, x̄+3s)

2 / 33

Interpretare la deviazione standard: regolaempirica

Supponiamo che la distribuzione dei dati sia unimodale eapprossimativamente simmetrica con una forma a cam-pana, allora vale la seguente regola empirica• il 68% delle osservazioni cade nell’intervallo(x̄− s, x̄+ s)

• il 95% delle osservazioni cade nell’intervallo(x̄−2s, x̄+2s)

• il 99.7% delle osservazioni cade nell’intervallo(x̄−3s, x̄+3s)

2 / 33

Interpretare la deviazione standard: regolaempirica

Per distribuzioni a campana, sono visualizzate le percentu-ali approssimative di osservazioni che cadono in 1,2 e 3deviazioni standard dalla media.

3 / 33

Interpretare la deviazione standard: regolaempirica: esempio

Si consideri un campione di animali in un parco e si sup-ponga che la loro longevità abbia una distribuzione cam-panulare con media campionaria 13.1 anni e deviazionestandard 1.5 anni.• Qual è l’intervallo di tempo di vita all’interno del quale

si comprendono il 68% degli animali?• Qual è l’intervallo di tempo all’interno del quale si

comprendono il 95% degli animali?• Qual è l’intervallo di tempo all’interno del quale cade

il 99.7% delle osservazioni?

4 / 33

Misure di posizione

Le misure di posizione forniscono il punto in cui i dati ven-gono separati in due parti. Una certa percentuale delle os-servazioni cade prima del punto individuato e la restanteoltre.

• La mediana è una misura di posizione, che divide ladistribuzione dei dati ordinati, individua dunque laposizione centrale.

• Anche il massimo e il minimo valore osservati sonodelle misure di posizione.

5 / 33

Misure di posizione

Le misure di posizione forniscono il punto in cui i dati ven-gono separati in due parti. Una certa percentuale delle os-servazioni cade prima del punto individuato e la restanteoltre.• La mediana è una misura di posizione, che divide la

distribuzione dei dati ordinati, individua dunque laposizione centrale.

• Anche il massimo e il minimo valore osservati sonodelle misure di posizione.

5 / 33

Misure di posizione

Le misure di posizione forniscono il punto in cui i dati ven-gono separati in due parti. Una certa percentuale delle os-servazioni cade prima del punto individuato e la restanteoltre.• La mediana è una misura di posizione, che divide la

distribuzione dei dati ordinati, individua dunque laposizione centrale.

• Anche il massimo e il minimo valore osservati sonodelle misure di posizione.

5 / 33

Misure di posizione: percentili

Esiste una grande famiglia di misure di posizione dette per-centili.

Il p-simo percentile è il valore tale che lascia alla sua sinistra ilp% delle osservazioni e alla sua destra il restante (1−p)%.

6 / 33

Misure di posizione: percentili

Esiste una grande famiglia di misure di posizione dette per-centili.Il p-simo percentile è il valore tale che lascia alla sua sinistra ilp% delle osservazioni e alla sua destra il restante (1−p)%.

6 / 33

Misure di posizione: percentili

Esiste una grande famiglia di misure di posizione dette per-centili.Il p-simo percentile è il valore tale che lascia alla sua sinistra ilp% delle osservazioni e alla sua destra il restante (1−p)%.

6 / 33

Misure di posizione: quartiliNelle applicazioni pratiche esistono 3 percentili più utilizzati dettiquartili.

I quartili dividono la sequenza ordinata dei dati in 4 segmenticontenenti lo stesso numero di valori.

• Il primo quartile, Q1, è il valore che lascia alla sua sinistra25% e alla sua destra il 75%.

• Il secondo quartile, Q2, coincide con la mediana (50%sono minori, 50% sono maggiori).

• Il terzo quartile, Q3, è il valore tale che il 75% delleosservazioni sono minori e 25% sono maggiori di esso.

7 / 33

Misure di posizione: quartiliNelle applicazioni pratiche esistono 3 percentili più utilizzati dettiquartili.I quartili dividono la sequenza ordinata dei dati in 4 segmenticontenenti lo stesso numero di valori.

• Il primo quartile, Q1, è il valore che lascia alla sua sinistra25% e alla sua destra il 75%.

• Il secondo quartile, Q2, coincide con la mediana (50%sono minori, 50% sono maggiori).

• Il terzo quartile, Q3, è il valore tale che il 75% delleosservazioni sono minori e 25% sono maggiori di esso.

7 / 33

Misure di posizione: quartiliNelle applicazioni pratiche esistono 3 percentili più utilizzati dettiquartili.I quartili dividono la sequenza ordinata dei dati in 4 segmenticontenenti lo stesso numero di valori.

• Il primo quartile, Q1, è il valore che lascia alla sua sinistra25% e alla sua destra il 75%.

• Il secondo quartile, Q2, coincide con la mediana (50%sono minori, 50% sono maggiori).

• Il terzo quartile, Q3, è il valore tale che il 75% delleosservazioni sono minori e 25% sono maggiori di esso.

7 / 33

Misure di posizione: quartiliNelle applicazioni pratiche esistono 3 percentili più utilizzati dettiquartili.I quartili dividono la sequenza ordinata dei dati in 4 segmenticontenenti lo stesso numero di valori.

• Il primo quartile, Q1, è il valore che lascia alla sua sinistra25% e alla sua destra il 75%.

• Il secondo quartile, Q2, coincide con la mediana (50%sono minori, 50% sono maggiori).

• Il terzo quartile, Q3, è il valore tale che il 75% delleosservazioni sono minori e 25% sono maggiori di esso.

7 / 33

Misure di posizione: quartiliNelle applicazioni pratiche esistono 3 percentili più utilizzati dettiquartili.I quartili dividono la sequenza ordinata dei dati in 4 segmenticontenenti lo stesso numero di valori.

• Il primo quartile, Q1, è il valore che lascia alla sua sinistra25% e alla sua destra il 75%.

• Il secondo quartile, Q2, coincide con la mediana (50%sono minori, 50% sono maggiori).

• Il terzo quartile, Q3, è il valore tale che il 75% delleosservazioni sono minori e 25% sono maggiori di esso.

7 / 33

Misure di posizione: calcolare i quartiliUn quartile si trova determinando il valore della sua po-sizione nella sequenza ordinata dei dati osservati.

• Posizione primo quartile

0.25(n+1)

• Posizione secondo quartile

0.50(n+1)

• Posizione terzo quartile

0.75(n+1)

con n il numero di valori osservati.

8 / 33

Misure di posizione: calcolare i quartiliUn quartile si trova determinando il valore della sua po-sizione nella sequenza ordinata dei dati osservati.

• Posizione primo quartile

0.25(n+1)

• Posizione secondo quartile

0.50(n+1)

• Posizione terzo quartile

0.75(n+1)

con n il numero di valori osservati.

8 / 33

Misure di posizione: calcolare i quartiliUn quartile si trova determinando il valore della sua po-sizione nella sequenza ordinata dei dati osservati.

• Posizione primo quartile

0.25(n+1)

• Posizione secondo quartile

0.50(n+1)

• Posizione terzo quartile

0.75(n+1)

con n il numero di valori osservati.8 / 33

Calcolo dei quartili: esercizio

In sette città in Canada il 14 gennaio 2006 sono state reg-istrate le seguenti temperature.

−12 −5 2 2 0 −3 5

Calcolare primo e terzo quartile.

9 / 33

Calcolo dei quartili: esercizioIn sette città in Canada il 14 gennaio 2006 sono state reg-istrate le seguenti temperature.Ordiniamo i dati:

−12 −5 −3 0 2 2 5

con n = 7.

• Posizione primo quartile

0.25(8) = 2⇒ Q1 =−5

• Posizione terzo quartile

0.75(8) = 6⇒ Q3 = 2

Calcolare primo e terzo quartile.

10 / 33

Calcolo dei quartili: esercizioIn sette città in Canada il 14 gennaio 2006 sono state reg-istrate le seguenti temperature.Ordiniamo i dati:

−12 −5 −3 0 2 2 5

con n = 7.

• Posizione primo quartile

0.25(8) = 2⇒ Q1 =−5

• Posizione terzo quartile

0.75(8) = 6⇒ Q3 = 2

Calcolare primo e terzo quartile.10 / 33

Calcolo dei quartili: esercizio

In 20 marche di cereali è stato analizzato il contenuto di so-dio in mg in una porzione standard, secondo quanto codi-ficato dal National Labelling and educational Act.Calcolare primo e terzo quartile delle 20 misurazioni:

0 340 70 140 200 180 210 150 100 130

140 180 190 160 290 50 220 180 200 210

11 / 33

Calcolo dei quartili: esercizioDati ordinati:

0 50 70 100 130 140 140 150 160 180

180 180 190 200 200 210 210 220 290 340

dove n = 20.

• Posizione primo quartile

0.25(21) = 5.25⇒ Q1 = 135

• Posizione terzo quartile

0.75(21) = 15.75⇒ Q3 = 205.

Prendiamo il valor medio tra i due valori attorno alla posizione.

12 / 33

Calcolo dei quartili: esercizioDati ordinati:

0 50 70 100 130 140 140 150 160 180

180 180 190 200 200 210 210 220 290 340

dove n = 20.

• Posizione primo quartile

0.25(21) = 5.25⇒ Q1 = 135

• Posizione terzo quartile

0.75(21) = 15.75⇒ Q3 = 205.

Prendiamo il valor medio tra i due valori attorno alla posizione.

12 / 33

Calcolo dei quartili: esercizioDati ordinati:

0 50 70 100 130 140 140 150 160 180

180 180 190 200 200 210 210 220 290 340

dove n = 20.

• Posizione primo quartile

0.25(21) = 5.25⇒ Q1 = 135

• Posizione terzo quartile

0.75(21) = 15.75⇒ Q3 = 205.

Prendiamo il valor medio tra i due valori attorno alla posizione.12 / 33

Altre misure di variabilità: differenzainterquartile

I quartili possono essere utilizzati per definire una nuovamisura di variabilità detta range o differenza interquartile.

La differenza interquartile è la distanza tra il terzo e il primoquartile:

IQR = Q3−Q1

Questa misura considera la variazione dei dati eliminandoi valori osservati più alti e più bassi e calcola il campo divariazione del 50% centrale dei dati. Per questa ragionenon è influenzata dalla presenza di outlier.

13 / 33

Altre misure di variabilità: differenzainterquartile

I quartili possono essere utilizzati per definire una nuovamisura di variabilità detta range o differenza interquartile.

La differenza interquartile è la distanza tra il terzo e il primoquartile:

IQR = Q3−Q1

Questa misura considera la variazione dei dati eliminandoi valori osservati più alti e più bassi e calcola il campo divariazione del 50% centrale dei dati. Per questa ragionenon è influenzata dalla presenza di outlier.

13 / 33

Altre misure di variabilità: differenzainterquartile

I quartili possono essere utilizzati per definire una nuovamisura di variabilità detta range o differenza interquartile.

La differenza interquartile è la distanza tra il terzo e il primoquartile:

IQR = Q3−Q1

Questa misura considera la variazione dei dati eliminandoi valori osservati più alti e più bassi e calcola il campo divariazione del 50% centrale dei dati. Per questa ragionenon è influenzata dalla presenza di outlier.

13 / 33

Altre misure di variabilità: differenzainterquartile

In 20 marche di cereali è stato analizzato il contenuto di so-dio in mg in una porzione standard, secondo quanto codi-ficato dal National Labelling and educational Act.

0 340 70 140 200 180 210 150 100 130

140 180 190 160 290 50 220 180 200 210

Qual e la differenza interquartile per il contenuto di sodionei 20 cereali?

IQR = Q3−Q1 = 205−135 = 70

14 / 33

Altre misure di variabilità: differenzainterquartile

In 20 marche di cereali è stato analizzato il contenuto di so-dio in mg in una porzione standard, secondo quanto codi-ficato dal National Labelling and educational Act.

0 340 70 140 200 180 210 150 100 130

140 180 190 160 290 50 220 180 200 210

Qual e la differenza interquartile per il contenuto di sodionei 20 cereali?

IQR = Q3−Q1 = 205−135 = 70

14 / 33

Altre misure di variabilità: differenzainterquartile

Esiste una regola che, attraverso l’uso del range interquar-tile, permette di identificare i potenziali outlier in un dataset.

Si costruiscono due soglie che determinano tali valori.

Un valore più basso di Q1− 1.5× IQR o più alto di Q3+1.5× IQR viene considerato un potenziale outlier.

15 / 33

Altre misure di variabilità: differenzainterquartile

Esiste una regola che, attraverso l’uso del range interquar-tile, permette di identificare i potenziali outlier in un dataset.

Si costruiscono due soglie che determinano tali valori.

Un valore più basso di Q1− 1.5× IQR o più alto di Q3+1.5× IQR viene considerato un potenziale outlier.

15 / 33

Altre misure di variabilità: differenzainterquartile

Esiste una regola che, attraverso l’uso del range interquar-tile, permette di identificare i potenziali outlier in un dataset.

Si costruiscono due soglie che determinano tali valori.

Un valore più basso di Q1− 1.5× IQR o più alto di Q3+1.5× IQR viene considerato un potenziale outlier.

15 / 33

Altre misure di variabilità: differenzainterquartile

Dai dati sui cereali da colazione abbiamo calcolato cheQ1 = 135, Q3 = 205 e IQR = 70, per quanto visto in prece-denza avremo che i potenziali outlier sono quei valori al disotto della soglia

Q1−1.5× IQR = 130−1.5×70 = 135−105 = 30

e al di sopra della soglia

Q3+1.5× IQR = 205+1.5×70 = 205+105 = 310

In questo caso quindi i potenziali outlier sono 0 e 340.

16 / 33

Grafici di variabilità

Abbiamo quindi introdotto 5 diverse misure di posizioneche ci permettono di sintetizzare la tendenza centrale ela variabilità di una distribuzione. Possiamo rappresentarequesta sintesi con un grafico della forma:

Un grafico di questo tipo é detto boxplot.

17 / 33

Grafici di variabilità

Abbiamo quindi introdotto 5 diverse misure di posizioneche ci permettono di sintetizzare la tendenza centrale ela variabilità di una distribuzione. Possiamo rappresentarequesta sintesi con un grafico della forma:

Un grafico di questo tipo é detto boxplot.

17 / 33

Grafici di variabilità

Come si disegna un boxplot?

• Si disegna una scatola dal primo quartile Q1 al terzoquartile Q3.

• Si traccia un segmento verticale nella scatola incorrispondenza della mediana

• Si disegna un segmento orizzontale dalla sinistradella scatola fino alla piu piccola osservazione chenon sia un potenziale outlier. Un altro segmentoorizzontale va dalla destra della scatola fino alla piugrande osservazione che non sia un potenzialeoutlier. I potenziali outlier vengono mostratiseparatamente.

18 / 33

Grafici di variabilità

Come si disegna un boxplot?• Si disegna una scatola dal primo quartile Q1 al terzo

quartile Q3.

• Si traccia un segmento verticale nella scatola incorrispondenza della mediana

• Si disegna un segmento orizzontale dalla sinistradella scatola fino alla piu piccola osservazione chenon sia un potenziale outlier. Un altro segmentoorizzontale va dalla destra della scatola fino alla piugrande osservazione che non sia un potenzialeoutlier. I potenziali outlier vengono mostratiseparatamente.

18 / 33

Grafici di variabilità

Come si disegna un boxplot?• Si disegna una scatola dal primo quartile Q1 al terzo

quartile Q3.• Si traccia un segmento verticale nella scatola in

corrispondenza della mediana

• Si disegna un segmento orizzontale dalla sinistradella scatola fino alla piu piccola osservazione chenon sia un potenziale outlier. Un altro segmentoorizzontale va dalla destra della scatola fino alla piugrande osservazione che non sia un potenzialeoutlier. I potenziali outlier vengono mostratiseparatamente.

18 / 33

Grafici di variabilità

Come si disegna un boxplot?• Si disegna una scatola dal primo quartile Q1 al terzo

quartile Q3.• Si traccia un segmento verticale nella scatola in

corrispondenza della mediana• Si disegna un segmento orizzontale dalla sinistra

della scatola fino alla piu piccola osservazione chenon sia un potenziale outlier. Un altro segmentoorizzontale va dalla destra della scatola fino alla piugrande osservazione che non sia un potenzialeoutlier. I potenziali outlier vengono mostratiseparatamente.

18 / 33

Grafici di variabilità

19 / 33

Boxplot

20 / 33

Confronto tra boxplot e istogrammaIl boxplot permette di sintetizzare in un modo univoco laforma di una distribuzione.

Un boxplot non mostra alcune caratteristiche della distribuzionequali, ad esempio, eventuali picchi o valli, cosa che invecepossiamo osservare in un istogramma.Il boxplot ci permette di individuare potenziali outlier.

21 / 33

Confronto tra boxplot e istogrammaIl boxplot permette di sintetizzare in un modo univoco laforma di una distribuzione.Un boxplot non mostra alcune caratteristiche della distribuzionequali, ad esempio, eventuali picchi o valli, cosa che invecepossiamo osservare in un istogramma.

Il boxplot ci permette di individuare potenziali outlier.

21 / 33

Confronto tra boxplot e istogrammaIl boxplot permette di sintetizzare in un modo univoco laforma di una distribuzione.Un boxplot non mostra alcune caratteristiche della distribuzionequali, ad esempio, eventuali picchi o valli, cosa che invecepossiamo osservare in un istogramma.Il boxplot ci permette di individuare potenziali outlier.

21 / 33

Boxplot e istogramma

22 / 33

Boxplot e istogramma

23 / 33

Boxplot e istogramma

24 / 33

Calcolo dei quartili: esercizio

In sette città in Canada il 14 gennaio 2006 sono state reg-istrate le seguenti temperature.

−12 −5 2 2 0 −3 5

Cacolare range interquartile e disegnare il boxplot.

25 / 33

Dati

26 / 33

Relazioni fra variabili

Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.

Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.

27 / 33

Relazioni fra variabili

Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.

Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.

27 / 33

Relazioni fra variabili

Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.

Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.

27 / 33

Relazioni fra variabili

Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.

27 / 33

Relazioni fra variabili

Nello studiare l’associazione tra due variabili dobbiamo dis-tinguere:

• i casi in cui entrambe le variabili siano categoriche• i casi in cui entrambe le variabili siano quantitative

28 / 33

Relazioni fra variabili

Nello studiare l’associazione tra due variabili dobbiamo dis-tinguere:

• i casi in cui entrambe le variabili siano categoriche

• i casi in cui entrambe le variabili siano quantitative

28 / 33

Relazioni fra variabili

Nello studiare l’associazione tra due variabili dobbiamo dis-tinguere:

• i casi in cui entrambe le variabili siano categoriche• i casi in cui entrambe le variabili siano quantitative

28 / 33