+ All Categories
Home > Documents > Introduzione alla statistica · 2020. 9. 9. · 1.2Datistatistici...

Introduzione alla statistica · 2020. 9. 9. · 1.2Datistatistici...

Date post: 31-Jan-2021
Category:
Upload: others
View: 4 times
Download: 0 times
Share this document with a friend
60
Introduzione alla statistica per SSMT - Locarno
Transcript
  • Introduzione alla statisticaper

    SSMT - Locarno

  • Indice

    1 Statistica monovariata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    1.1 Scheda introduttiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.1.1 Come si svolge un'indagine statistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    1.2 Dati statistici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.2.1 La statistica induttiva e la statistica descrittiva . . . . . . . . . . . . . . . . . . . . . . 101.2.2 I caratteri qualitativi e i caratteri quantitativi . . . . . . . . . . . . . . . . . . . . . . . 101.2.3 Le tabelle di frequenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    1.2.3.1 Problema introduttivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.3 Le classi di frequenze, le frequenze relative e le frequenze cumulate . . . . . . . . . . . . . 13

    1.3.1 Un esempio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.3.1.1 Note e definizioni sulla suddivisione in classi . . . . . . . . . . . . . . . . . . . . . 14

    1.4 La rappresentazione grafica dei dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.4.1 Diagramma a colonne e istogramma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.4.2 Poligono delle frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.4.3 Areogramma o torta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.4.4 Ogiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    1.5 Gli indici di posizione centrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.5.1 La media aritmetica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.5.2 La media ponderata e la media per classi . . . . . . . . . . . . . . . . . . . . . . . . . . 191.5.3 La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211.5.4 La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211.5.5 La classe mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211.5.6 La mediana per classi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221.5.7 La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221.5.8 Quando e quale indicatore di posizione centrale usare? . . . . . . . . . . . . . . . . . 24

    1.6 Gli indici di variabilità (o di dispersione) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251.6.1 Il campo di variazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251.6.2 I quartili e lo scarto interquartile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251.6.3 Box-plot di Tukey e gli outlier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271.6.4 Lo scarto quadratico medio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281.6.5 Lo scarto quadratico per classi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301.6.6 La distribuzione gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    1.7 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    2 Statistica bivariata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372.2 La correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    2.2.1 Correlazione e regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372.2.2 La covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372.2.3 Il coefficiente di correlazione r di Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . 39

    2.3 La regressione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402.3.1 Il metodo dei minimi quadrati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402.3.2 L'errore nelle regressioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    5

  • 2.3.3 La scelta della variabile indipendente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422.3.4 Scarti quadratici e pendenza delle rette di regressione . . . . . . . . . . . . . . . . . . 43

    2.4 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

    3 Test formativi (vecchio curriculum) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

    3.1 Statistica monovariata (80 minuti) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.2 Regressione e correlazione (80 minuti) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

    4 Approfondimenti: distribuzione normale e percentili . . . . . . . . . . . . . . . . . . 49

    4.1 Distribuzione normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494.1.1 Variabili standardizzate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494.1.2 Comparazioni tra statistiche differenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504.1.3 Utilizzo delle variabili standardizzate per stimare valore statistici in base a medie e scartiquadratici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504.1.4 Tavola degli integrali della curva normale . . . . . . . . . . . . . . . . . . . . . . . . . . 524.1.5 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

    4.2 Percentili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544.2.1 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544.2.2 Quartili, decili e percentili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544.2.3 Percentili (o quantili) su dati grezzi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

    5 Esercizi di approfondimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

    5.1 Radioattività e cinghiali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 575.2 Un fantoccio ai raggi X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 585.3 Dosimetri in una centrale nucleare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

    6 Indice

  • Capitolo 1Statistica monovariata

    1.1 Scheda introduttiva

    Nell'esperienza quotidiana siamo posti di fronte a molteplici decisioni da prendere: per esempiodecidere come investire i nostri risparmi, se acquistare un'automobile in contanti o a leasing, ...

    Mentre alcune scelte vengono basate su un semplice ragionamento logico, altre richiedono la dispo-nibilità di precise informazioni e la capacità di interpretarle correttamente. Per prendere decisionicorrette è necessario disporre dei dati relativi alla scelta da compiere: ma i dati grezzi spesso nonci rivelano immediatamente il loro vero significato.

    La statistica è uno strumento fondamentale per il supporto alle decisioni, in ogni settore applicativo.Non basta infatti disporre di semplici dati per fare le scelte giuste: i dati vanno raccolti, analizzatied elaborati con strumenti adatti (per esempio tabelle e grafici). Essi vanno poi interpretati evalutati con gli opportuni metodi statistici.

    Dati + Metodi statistici = Informazioni

    1.1.1 Come si svolge un'indagine statistica

    1. Definire un tema (situazione, problema,...). Individuare con precisione l'obiettivo che l'inda-gine si propone di raggiungere, definendo con accuratezza i termini del problema a cuibisogna dare risposta (per esempio: analizzare l'afflusso di clienti in un negozio secondo gliorari per determinarne in seguito l'orario di apertura/chiusura e la presenza di personale incerte fasce orarie; il legame tra produzione industriale e consumo di energia elettrica).

    2. Definire le variabili che ci interessano in maniera da poter individuare, senza possibilità diequivoco, i valori che esse assumono nelle singole unità.

    3. Fissare metodi (su tutta la popolazione / su un campione), mezzi (interviste, questionari,misurazioni, osservazioni, ...) e tempi entro i quali effettuare il rilevamento e l'elaborazionedei dati.

    4. Rilevazione dei dati secondo il piano di lavoro deciso.

    5. Spoglio dei dati e loro sistemazione in forme di facile lettura quali tabelle e grafici.

    6. Elaborazione dei dati: mediante osservazione grafica ed operazioni matematiche si sintetiz-zano i risultati e si dà un'idea concreta della ripartizione dei caratteri rilevati. Analisi deidati tramite:

    � indici di centralità: media (media ponderata), mediana, moda

    � indici di dispersione e distribuzione: campo di variazione, scarto quadratico medio,quartili, percentili.

    7. Interpretare i dati dando un giudizio di merito sul significato dei risultati utile per svilupparenuovi approfondimenti ed ipotesi.

    9

  • 1.2 Dati statistici

    1.2.1 La statistica induttiva e la statistica descrittiva

    Immagina di parlare con uno sconosciuto e di raccogliere informazioni sulle sue abitudini, suisuoi gusti, sul suo stato di salute. Potresti dedurre un ritratto significativo di questa persona.Se raccogliessi le stesse informazioni per un gruppo di persone, diciamo mille, e ti accorgessi chealcune risposte si assomigliano e altre differiscono completamente le une dalle altre, cosa potrestidedurne? Potresti fare, in qualche modo, un ritratto di gruppo?

    A volte anche molte informazioni possono essere inutili, se non sono ben organizzate. In tal casopuò essere utile raggruppare e sintetizzare i dati: in questo modo

    si rinuncia a parte dell'informazione che essi contengono, ma si guadagna in leggibilità e facilità diinterpretazione. In particolare si possono elaborare tanti dati relativi a individui singoli per trarneinformazioni sulla popolazione nel suo complesso. A seconda poi di come questi dati vengonoraggruppati è possibile studiare aspetti diversi del problema in esame.

    La statistica si occupa proprio dei modi di raccogliere e analizzare dati relativi a un certo gruppo dipersone (gli studenti di una scuola, gli abitanti di un quartiere, gli elettori di una regione, ...) o dioggetti (le automobili, i dischi, i libri, ...), per trarne conclusioni e fare previsioni. Il gruppo presoin considerazione viene anche detto popolazione. Spesso viene presa in esame soltanto una partedella popolazione, detta campione, scelta in modo che rappresenti l'intero gruppo. Per esempio,per conoscere il parere dei telespettatori su un certo programma, si può intervistare soltanto unpiccolo numero di essi, che si ritenga però un campione rappresentativo. Dalle osservazioni relativeal campione possono essere tratte conclusioni valide per tutta la popolazione. I metodi per ottenererisultati soddisfacenti in questo delicato procedimento di passaggio dal campione alla popolazionesono studiati da quella parte della statistica detta statistica induttiva (o inferenza statistica).

    In questa prima scheda ci limiteremo a studiare alcuni degli strumenti matematici utilizzati perdescrivere i dati relativi a un certo gruppo (in questo caso si parla di statistica descrittiva) lasciandoa schede successive la parte inferenziale.

    1.2.2 I caratteri qualitativi e i caratteri quantitativi

    Gli elementi di una popolazione si chiamano anche unità statistiche. È possibile studiare diversecaratteristiche di tali unità e ogni caratteristica rappresenta un carattere della popolazione. Icaratteri possono essere di due tipi:

    � qualitativi se vengono descritti con parole

    � quantitativi se invece vengono descritti mediante numeri.

    Per esempio, se scegliamo come unità statistiche gli studenti di una scuola, alcuni caratteri quali-tativi sono il sesso, il paese di provenienza, il mezzo di trasporto usato per raggiungere la scuola;sono invece caratteri quantitativi l'età, il peso, la statura.

    Ogni carattere viene descritto mediante le modalità con cui esso si può manifestare.

    Esempio 1.1.

    1. Il carattere sesso ha due modalità: maschile e femminile;

    2. Il carattere mezzo di trasporto ha più modalità: treno, autobus, motorino, ...

    3. Anche il carattere età ha più modalità: 14, 15, 16, ... (se espresso in anni).

    10 Statistica monovariata

  • Dai censimenti ai sondaggi d'opinione

    L'utilizzo di dati statistici per ottenere informazioni utili per il governo degli stati, quali il numerodi abitanti, di soldati, di addetti ai vari mestieri, ecc. risale ai popoli antichi, in particolare ai Cinesie agli Egizi. Nella Bibbia sono descritti più censimenti fra gli Ebrei, tra i quali il più noto è quellodi Mosè nel deserto del Sinai. Anche i Romani fecero diversi censimenti: famoso quello durante ilquale nacque Gesù.

    Un passo avanti nella elaborazione statistica si ebbe in Inghilterra, intorno alla metà del 1600,con l' �aritmetica politica�, principalmente a opera del matematico John Graunt. A causa dellepestilenze, a Londra venivano pubblicate settimanalmente le liste delle morti e quelle delle nascite.Graunt utilizzò quel materiale osservando, attraverso il calcolo di percentuali, regolarità quali ilmaggior numero di nascite maschili rispetto a quelle femminili, il legame fra suicidi e professioni,la diminuzione delle nascite nei periodi di carestia. Era la prima volta che venivano cercate dellerelazioni tra i dati raccolti.

    Un ulteriore momento importante nella storia della statistica si ebbe quando, nell'Ottocento, sitrovò un collegamento con la probabilità.

    Infine è dell'ultimo secolo uno sviluppo sempre più ampio della statistica come scienza matematicaa sé stante. L'applicazione di tale scienza, mediante indagini a campione, investe i campi piùsvariati, dai fenomeni sociali a quelli meteorologici.

    1.2.3 Le tabelle di frequenza

    1.2.3.1 Problema introduttivo

    In un questionario abbiamo chiesto ai 28 studenti di una classe di indicare con le seguenti letterei mezzi di trasporto con cui vengono di solito a scuola

    A: automobile;

    P: a piedi;

    B: autobus;

    M: motorino;

    C: bicicletta.

    Abbiamo ottenuto i seguenti risultati:

    A, B, M, M, P, A, A, B, P, B, C, A, B, B, B, C, P, B, A, C, C, A, M, B, M, B, A, C

    Dalla lettura di questa sequenza, è difficile trarre informazioni, perché i risultati si susseguono inmodo disordinato.

    Costruiamo allora una tabella, dove nella prima colonna mettiamo le diverse modalità. percorriamopoi la sequenza dei risultati facendo un segno, per esempio una barra /, di fianco alle diversemodalità ogni volta che esse si verificano. Alla fine contiamo il numero di segni per ogni modalità elo scriviamo nella terza colonna. Tale numero rappresenta la frequenza della modalità considerata.L'automobile ha una frequenza 7, la bicicletta una frequenza 5 e così via.

    Nota 1.1. Spesso la frequenza prende il nome di frequenza assoluta.

    1.2 Dati statistici 11

  • Modalità Occorrenze Frequenza

    Automobile (A) ///// // 7

    A piedi (P) /// 3

    Autobus (B) ///// //// 9

    Motorino (M) //// 4

    Bicicletta (C) ///// 5

    Totale 28

    Tabella 1.1. Distribuzione di frequenza delle modalità

    Più spesso interessa il valore della frequenza confrontato con il numero totale delle unità statistiche.Infatti siamo in situazioni diverse se, per esempio, la frequenza di una modalità è 7 rispetto aun totale di 28 o se, invece, è 7 rispetto a un totale di 280. Per questo motivo viene calcolata lafrequenza relativa, di cui diamo la definizione.

    Definizione 1.1. La frequenza relativa di una modalità è il quoziente fra la frequenza dellamodalità e il numero totale delle unità statistiche.

    frequenza relativa=frequenza assoluta

    totale delle frequenze(1.1)

    Nell'esempio precedente la frequenza della modalità automobile è 7, ossia 7 studenti su 28 sonoaccompagnati in automobile; pertanto la frequenza relativa è:

    fA=728

    =14= 0.25 (1.2)

    La frequenza relativa può essere espressa anche in percentuale, moltiplicandola per 100: la fre-quenza percentuale della modalità automobile è 25%. Questo significa che, in una distribuzione conle stesse caratteristiche di quella data, su un campione di 100 studenti 25 verrebbero in automobile.

    Modalità Frequenza Frequenza relativa Frequenza relativa percentuale

    Automobile 7 14

    25%

    A piedi 3 328

    11%

    Autobus 9 928

    32%

    Motorino 4 17

    14%

    Bicicletta 5 528

    18%

    Totale 28 1 100%

    Tabella 1.2. Le frequenze relative del problema introduttivo

    Nota 1.2. La somma delle frequenza relative alle diverse modalità è 1, e in percentuale è 100%

    Definizione 1.2. La frequenza cumulata è la somma della frequenza del singolo dato e dellefrequenze dei dati che lo precedono nell'ordine.

    12 Statistica monovariata

  • Esempio 1.2. Sono state intervistate 30 famiglie di un certo quartiere e i risultati sono statiriportati nella tabella seguente:

    Nr. di figli per famiglia Frequenza Fr. relativa percentuale Fr. cumulata percentuale

    1 12

    2 9

    3 6

    >3 3

    Tabella 1.3. Dati delle interviste alle famiglie, da completare

    1.3 Le classi di frequenze, le frequenze relative e le frequenzecumulate

    1.3.1 Un esempio

    Studiamo i risultati ottenuti da un gruppo di studentesse che, nell'ora di educazione fisica, hannoeseguito una prova di salto in lungo da ferme

    1.36 1.61 1.85

    1.36 1.62 1.86

    1.46 1.65 1.88

    1.46 1.65 1.90

    1.50 1.67 1.94

    1.53 1.67 2.12

    1.54 1.75

    1.60 1.78

    Tabella 1.4. Gruppo A

    1.30 1.64 1.84

    1.45 1.72 1.95

    1.48 1.73 1.95

    1.58 1.74 2.16

    1.62 1.75

    1.62 1.78

    Tabella 1.5. Gruppo B

    In casi come questo, in cui è raro che le modalità si manifestino più volte, è utile raggrupparle inclassi, determinando la frequenza di ogni classe. Nella tabella seguente consideriamo cinqueclassi.

    1.3 Le classi di frequenze, le frequenze relative e le frequenze cumulate 13

  • Classe (min. - max.) Valore centrale Fr. assol. Fr. rel. % Fr. cumul. Fr cumul. %

    1.20 - 1.40 1.30 2 9 % 2 9 %

    1.40 - 1.60 1.50 5 23 % 7 32 %

    1.60 - 1.80 1.70 9 40 % 16 72 %

    1.80 - 2.00 1.90 5 23 % 21 95 %

    2.00 - 2.20 2.10 1 5 % 22 100 %

    Tabella 1.6. Gruppo A: salti organizzati per classi

    Il raggruppamento in classi fornisce meno informazioni (per esempio, non sappiamo quanto valgonoesattamente i 6 salti compresi fra 1.40 e 1.60 m), però fornisce una sintesi più leggibile della prova.Di ogni classe è spesso utile calcolare il valore centrale, che si ottiene dividendo per 2 la sommadegli estremi della classe. Per esempio, il valore centrale della classe 1.60-1.80 è (1.60+1.80)/2,ossia 1.70.

    1.3.1.1 Note e definizioni sulla suddivisione in classi

    Nota 1.3. Per costruire la tabella si determinano innanzitutto il campo di variazione dei daticalcolando la differenza tra il valore massimo e quello minimo.

    Nota 1.4. Si determina il numero di classi prendendo un numero intero che si avvicina alla radicequadrata del numero di dati da classificare.

    Numero di classi=� Numero di datip

    (1.3)

    Nota 1.5. Si calcola l'ampiezza di una singola classe (indicativamente) dividendo il campo divariazione per il numero di classi. Poi occorre arrotondare questo risultato ad un valore comodo. Aquesto punto si può iniziare a definire i minimi ed i massimi delle singole classi e successivamentesi classificano i dati.

    Nota 1.6. Di solito l'estremo inferiore di ciascuna classe viene considerato incluso dalla classe,mentre quello superiore è escluso. Per esempio, nella Tabella 5, il valore 1.60 è inserito nella classe1:60 - 1.80 e non nella classe 1.40 - 1.60.

    Definizione 1.3. L'ampiezza della classe è la differenza dei suoi estremi. Nell'esempio dellaTabella 7, la prima classe ha ampiezza 1.40 � 1.20 = 0.20. Solitamente le classi hanno tutte lastessa ampiezza (possono fare eccezione la prima e l'ultima classe).

    Nota 1.7. È buona norma (ma non è obbligatorio) utilizzate classi di dimensione omogenee, cioècon l'ampiezza uguale. Questo agevola la costruzione degli istogrammi. A volte vengono utilizzateclassi aperte per i limiti inferiori e superiori delle suddivisioni.

    14 Statistica monovariata

  • Definizione 1.4. Si chiama valore centrale la media tra gli estremi di ogni singola classe.Nell'esempio della Tabella 7, la prima classe ha il proprio valore centrale pari a 1.30. Questo valorerisulterà molto importante per le successive operazioni di calcolo e di rappresentazione grafica.

    1.20+ 1.402

    = 1.30 (1.4)

    Esercizio 1.1. Creare un'opportuna tabella delle frequenze per i salti del gruppo B elencati nella tabella 1.5

    1.4 La rappresentazione grafica dei dati

    I dati statistici e le loro frequenze si possono rappresentare graficamente. Esaminiamo in questoparagrafo i tipi principali di rappresentazione grafica, riprendendo gli esempi del paragrafo prece-dente.

    1.4.1 Diagramma a colonne e istogramma

    Queste due rappresentazioni grafiche sono molto usate; sono apparentemente simili. In realtà se siguardano attentamente ci sono differenze sostanziali.

    Per il diagramma a colonne si tracciano rettangoli la cui altezza è definita dalla frequenza assoluta(o anche relativa). La base del rettangolo non ha particolari vincoli, anche se solitamente sonotutte con la stessa ampiezza. Con il diagramma a colonne si può dare una rappresentazione graficaanche a dati che hanno modalità qualitative (Figura 1.1).

    L'istogramma, al contrario del diagramma a colonne ha un vincolo molto più stretto. L'areadel rettangolo deve essere proporzionale alla frequenza. Per questo motivo è possibile costruireun istogramma unicamente con dati che hanno modalità quantitative. Si riportano in un pianocartesiano, sull'asse Ox i valori estremi delle classi (minimi e massimi) ottenendo così dei segmentile cui lunghezze rappresentano le ampiezze degli intervalli. Si disegnano poi dei rettangoli chehanno per base tali segmenti e la cui area è proporzionale alla frequenza della classe. Per ottenerela proporzionalità desiderata solitamente sull'asse Oy non si riporta la frequenza ma il rapporto fre-quenza/ampiezza della classe (Figura 1.2). Nel caso particolare (ma comunque piuttosto frequente)in cui le classi hanno tutte ampiezze uguali si può procedere riportando sull'asse Oy semplicementela frequenza.

    Figura 1.1. Diagramma a colonne Tabella 1.1 Figura 1.2. Istogramma Tabella 1.6

    La differenza tra diagramma a colonne ed istogramma diventa molto evidente quando le classi nonhanno ampiezza omogenea. A tal proposito si confrontino i grafici delle figure 1.3 e 1.4; entrambisono originati dalla stessa tabella 1.7 (i dati si riferiscono alla velocità dei veicoli registrata da unradar su un tratto autostradale).

    1.4 La rappresentazione grafica dei dati 15

  • Velocità Frequenza Freq./Ampiezza

    0 - 80 80 1

    80 - 110 150 5

    110 - 115 130 26

    115 - 120 180 36

    120 - 150 250 8.33

    150 - 200 20 0.4

    Tabella 1.7. Tabella con classi disomogenee

    Figura 1.3. Diagramma a colonne della Tabella 1.7 Figura 1.4. Istogramma della Tabella 1.7

    Si noti come la forma dei grafici differisci notevolmente. Il rettangolo più alto non è lo stesso;corrisponde alla classe 120-150 per il diagramma a colonne, mentre per l'istogramma corrispondealla classe 115-120 (e vedremo più avanti che questa viene anche chiamata classe modale).

    Definizione 1.5. Un istogramma è costituito da rettangoli costruiti nel piano cartesiano che hannole basi proporzionali alle ampiezze delle classi e le aree proporzionali alle frequenze.

    Definizione 1.6. Un diagramma a colonne è costituito da rettangoli la cui altezza è proporzionalealla frequenza. Non è necessario che siamo disegnati su un piano cartesiano; in effetti in orizzontalesi possono mettere etichette di qualsiasi tipo, anche modalità qualitative.

    Nota 1.8. Istogramma deriva dai termini greci histos, che significa �trama� , �tela� , e gramma,che significa �segno�.

    Esercizio 1.2. Creare un diagramma a colonne ed un istogramma per i salti del gruppo B elencati nella tabella1.5

    1.4.2 Poligono delle frequenze

    Il poligono delle frequenze viene tracciato in un piano cartesiano. Per le x si usano i valori centralidelle classi, mentre per le y si riportano i rapporti frequenza/ampiezza oppure le frequenze. Puòanche essere sovrapposto all'istogramma (o al diagramma a colonne).

    16 Statistica monovariata

  • Figura 1.5. Un diagramma a colonne con il suo poligono delle frequenze sovrapposto

    Definizione 1.7. Se in un istogramma si congiungono i punti medi dei lati superiori dei rettangoli(cioè i punti corrispondenti ai valori centrali delle classi) si ottiene una linea spezzata chiamataanche poligono delle frequenze.

    1.4.3 Areogramma o torta

    Questo tipo grafico, detto anche diagramma circolare o diagramma a torta, è particolarmenteutile per rappresentare le frequenze relative percentuali. Viene usato sia per modalità qualitative,sia per modalità quantitative. L'unico vincolo è che l'angolo degli spicchi di torta siano proporzio-nali alla frequenza relativa.

    Definizione 1.8. Per costruire un areogramma un cerchio viene suddiviso in tanti settori circolari,ognuno dei quali corrisponde a una classe. L'angolo al centro del settore ha ampiezza proporzionalealla frequenza relativa (percentuale).

    Lunghezza salti [m]

    1,20-1,40

    1,40-1,60

    1,60-1,80

    1,80-2,00

    2,00-2,20

    Figura 1.6. Esempio di areogramma Tabella 1.6

    Esempio 1.3. Consideriamo le frequenze relative percentuali della tabella 1.6 già utilizzata delsalto in lungo. Per determinare l'ampiezza x del settore corrispondente alla frequenza relativa dellaseconda classe (23%) scriviamo la seguente proporzione:

    x360�

    =23100

    quindix=360� � 23

    100= 82.8� (1.5)

    Esercizio 1.3. Creare un areogramma per i salti del gruppo B elencati nella tabella 1.5

    1.4 La rappresentazione grafica dei dati 17

  • 1.4.4 Ogiva

    L'ogiva è uno dei grafici più importanti nella statistica descrittiva. permette, una volta tracciato, dideterminare a colpo d'occhio parametri importanti che verranno presentati nei paragrafi successivi,come la mediana ed i percentili. Per costruire l'ogiva si disegna un piano cartesiano, sull'asse Oxsi riportano i massimi delle classi, mentre sull'asse Oy i relativi valori della frequenza cumulatapercentuale. Si noti come in tal modo la linea spezzata non partirebbe dal valore di 0% sull'asse Oy.E necessario aggiungere il punto iniziale, ipotizzando il massimo di una classe (fittizia) precedentealla prima classe dei dati disponibili, al cui massimo si fa corrispondere ovviamente una frequenzacumulata percentuale pari a 0%. L'esempio nella figura 1.7 riporta l'ogiva della tabella 1.6. Il puntoiniziale (1.20, 0%) corrisponde alla classe 1.00 - 1.20 non presente perché vuota.

    Figura 1.7. Ogiva dei dati della Tabella 1.6

    Definizione 1.9. Un grafico che mostri la frequenza cumulata passando per i confini superioridelle classi è detto poligono di frequenze cumulate o ogiva.

    1.5 Gli indici di posizione centrale

    Esistono dei valori che riassumono e rappresentano un insieme di dati. Essi ci permettono di dedurrele caratteristiche di una situazione statistica e di confrontare diverse situazioni. Tali valori rap-presentativi si trovano in corrispondenza delle posizioni centrali, cioè cadono in mezzo, all'internodell'insieme di dati.

    1.5.1 La media aritmetica

    Supponiamo di voler confrontare i risultati delle prove di salto del gruppo A (Tabella 1.4) conquelli del gruppo B (Tabella 1.5).

    Affiancando le tabelle delle frequenze dei due gruppi suddivisi con le stesse classi, scopriamo chenon è facile stabilire se la prova è andata meglio per il gruppo A o per il gruppo B (vedi Tabella 1.8).

    18 Statistica monovariata

  • Classe Fr. gruppo B Fr. gruppo A

    1.20 - 1.40 1 2

    1.40 - 1.60 3 5

    1.60 - 1.80 8 9

    1.80 - 2.00 3 5

    2.00 - 2.20 1 1

    Tabella 1.8. Confronto delle frequenze

    Calcolando invece la media aritmetica relativa ai due gruppi di dati otteniamo un'informazionesintetica della distribuzione dei dati. Procedendo in maniera piuttosto intuitiva al calcolo dellamedia (tecnicamente si tratta della media aritmetica) si può procedere con un confronto.

    La media del gruppo A del salto in lungo è:

    X�A=1.36+ 1.46+ 1.62+ ::::+ 1.78+ 2.12+ 1.86

    22 =� 1.671 (1.6)

    Quella del gruppo B invece:

    X�B=1.95+ 2.16+ 1.95+ ::::+ 1.45+ 1.73+ 1.48

    16 =� 1.706 (1.7)

    Poiché MB>MA possiamo dire che le studentesse del gruppo B hanno mediamente saltato megliodi quelle del gruppo A.

    Definizione 1.10. Lamedia aritmetica simbolizzata conM oppure con X� di n numeri X1;X2; :::;Xn è il quoziente tra la loro somma e il numero n.

    X� =X1+X2+ :::+Xn

    n=

    Pj=1

    n

    Xj

    n(1.8)

    Nell'esempio precedente abbiamo utilizzato la media come valore di sintesi, ossia come un valoreche riassume una caratteristica di un insieme di dati. Inoltre possiamo notare che, in questi esempi,la media si trova proprio nella zona della distribuzione dove si addensano maggiormente i risultati.Quando un valore di sintesi ha questa proprietà diciamo che è un buon indice di posizionecentrale. Come vedremo, non sempre la media è un buon indice di posizione centrale.

    1.5.2 La media ponderata e la media per classi

    Consideriamo la seguente tabella, relativa ai voti di una classe ottenuti in un compito e calcoliamola media.

    Voti Xj Frequenza fj fj�Xj Frequenza relativa

    3 2 6 9 %

    3.5 7 24.5 32 %

    4 8 32 36 %

    4.5 3 13.5 14 %

    5 2 10 9 %

    Tabella 1.9. Media ponderata, esempio

    1.5 Gli indici di posizione centrale 19

  • X� =3+ 3+ 3.5+ 3.5+ 3.5+ 3.5+ 3.5+ 3.5+ 3.5+4+4+4+4+4+ 4+ 4+4+ 4.5+ 4.5+ 4.5+5+5

    22==�3.91 (1.9)

    Utilizzando le frequenze si può anche scrivere nel seguente modo:

    X� =3� 2+ 3.5� 7+ 4� 8+ 4.5� 3+ 5� 2

    2+ 7+8+3+2 =� 3.91 (1.10)

    Le frequenze rappresentano i diversi "pesi" che devono avere i singoli voti nel calcolo della media.Più grande è la frequenza di un voto, maggiore è l'influenza che esso ha sul valore medio. La mediacalcolata in questo modo può essere considerata come caso particolare di un più generale tipo dimedia, chiamata media ponderata.

    Definizione 1.11. Dati i numeri X1;X2; :::;Xn e associati ad essi i numeri w1;w2; :::;wn detti pesichiamiamo media aritmetica ponderata X� il quoziente fra la somma dei prodotti dei numeriper i loro pesi e la somma dei pesi stessi.

    X� =w1X1+w2X2+ :::+wnXn

    w1+w2+ :::+wn=

    Pj=1

    n

    wjXjPj=1

    n

    wj

    (1.11)

    Nota 1.9. La media aritmetica può essere considerata un caso particolare di media ponderata incui tutti i pesi sono uguali a 1.

    Esercizio 1.4. Se durante l'anno scolastico nelle prove scritte di una data materia si sono ottenute le seguentinote: 4.5; 5.3; 4.1. Ciascuna delle note ha fattore di ponderazione 1. In una prova finale di maggio si ottiene lanota 5.7 e questa ha fattore di ponderazione 2. Si calcoli la media prima e dopo la prova finale, considerando ifattori di ponderazione.

    Si osserverà che il calcolo della media nell'esempio intuitivo introdotto precedentemente con le classidei salti ha una grossa familiarità con la formula del calcolo per la media ponderata. In effetti ècosì. Infatti nel caso in cui si avessero a disposizione unicamente dati organizzati in classi la mediapuò essere calcolata con la formula sottostante in cui i pesi wj sono sostituiti dalle frequenze fj ei valori Xj nello specifico sono i valori centrali delle classi.

    X� =f1X1+ f2X2+ :::+ fnXn

    f1+ f2+ :::+ fn=

    Pj=1

    n

    fjXjPj=1

    n

    fj

    (1.12)

    Esercizio 1.5. Si calcoli la media ponderata usando i dati della Tabella 1.6 e si confronti il risultato con ilcalcolo già svolto della media aritmetica.

    20 Statistica monovariata

  • 1.5.3 La mediana

    1.5.4 La mediana

    Abbiamo già detto che la media non è sempre un buon indice di posizione centrale. A dimostrazionedi tale fatto analizziamo l'esempio qui riportato.

    Esempio 1.4. Ecco sette valori. Si tratta delle età in anni dei componenti di una comitiva. Sesi osservano si avrà l'impressione di aver di fronte un gruppo di bambini guidati da un adulto (adesempio un gruppo sportivo con l'allenatore):

    8 12 7 9 4 10 55

    Calcolandone la media aritmetica si ottiene il seguente risultato:

    X� =8+ 12+7+9+4+ 10+ 55

    7= 15 (1.13)

    Con una media si è tentati di pensare ad una comitiva di adolescenti la cui età media è 15 anni;succede perché in questo caso la media non è un buon indice di posizione centrale in quanto tutti ivalori, tranne il 55, sono minori di 15. È proprio la presenza dell'età di 55 anni, molto maggiore aquella degli altri, che "sposta" il valore medio rispetto alla posizione centrale. In queste situazionisi preferisce utilizzare un indice di posizione diverso, chiamato mediana, la cui determinazioneavviene, dopo aver ordinato in modo crescente i dati, nel modo indicato nella figura 1.8 :

    Figura 1.8. Schema per la determinazione della mediana per una serie pari o dispari di valori

    Pertanto nell'esempio 1.4 la mediana risulta essere 9. Questo dato ci restituisce un'immagine dellacomitiva un po più realistica di quanto ottenuto con la media.

    Esempio 1.5. Cerchiamo, per esempio, la mediana dei seguenti otto valori di eta di un'altracomitiva:

    36 22 41 8 33 46 38 44

    Nel caso in cui il numero di dati fosse pari, come nell'esempio 1.5 dopo aver ordinato i dati siprocederebbe al calcolo della media dei valori centrali, come mostrato nella seconda parte dellaFigura 1.8, ottenendo il valore pari a 37.

    1.5.5 La classe mediana

    Per determinare la classe mediana di dati organizzati in classi bisogna determinare innanzitutto lefrequenze cumulate e poi determinare in quale classe si trova la frequenza che è pari alla metà deltotale delle frequenze (50% della frequenza cumulata percentuale). Si osservi la Tabella 1.10 relativaal numero di prove scritte e/o orali accumulate da un gruppo di studenti durante un semestre.

    1.5 Gli indici di posizione centrale 21

  • N. di prove Fr. ass. Fr. cumul. Fr. cumul %

    1 2 2 6.67

    2 8 10 33.33

    3 12 22 73.33

    4 6 28 93.33

    5 2 30 100%

    Tabella 1.10. Numero di prove con nota per una classe di studenti

    Osservando la frequenza cumulate si vede che il 50% è inserito sicuramente nella terza classe (dal33.33 al 73.33 %). Quindi la classe corrispondente a 3 prove scritte è la classe mediana di questadistribuzione di frequenze.

    1.5.6 La mediana per classi

    Ci sono situazioni in cui si vuole ricavare la mediana ma è unicamente disponibile una tabella dellefrequenza. In tal caso esiste una specifica formula (1.14) che permette di estrapolare una stimadella mediana dai dati della tabella delle frequenze. Tale stima corrisponde esattamente alla letturagrafica della corrispondente ogiva. Per esempio riferendosi alla Tabella 1.6 del salto in lungo si puòcalcolare la mediana applicando la seguente formula:

    M =L1+

    N

    2− (P

    f)1

    fmediana

    !� c (1.14)

    In cui si ha la seguente simbologia:

    L1 = confine inferiore della classemedianaN = frequenza totale

    (X

    f)1 = Sommadelle frequenze di tutte le classi inferiori alla classemediana

    fmediana = frequenza della classemedianac = ampiezza della classemediana

    Nella fattispecie si ha che la classe mediana è quella con l'intervallo 1.60 - 1.80. Quindi sostituendonella formula 1.14 i dati della Tabella 1.6 si ha:

    M = 1.60+

    222− 79

    !� 0.2=� 1.6889 (1.15)

    1.5.7 La moda

    Immaginiamo di dover rilevare, su una popolazione di bambini in un asilo, qual è il colore dei capellidominante. Trattandosi di una variabile statistica qualitativa e non quantitativa non è possibilené calcolare la media aritmetica, né individuare una mediana (le modalità non sono ordinabili conun criterio oggettivo). Bisogna quindi utilizzare un altro indice di posizione chiamato moda. Lamoda può comunque essere essere determinata anche su dati quantitativi.

    Definizione 1.12. Date una serie di modalità o di valori si chiama moda quel valore o quellamodalità a cui corrisponde la frequenza massima.

    22 Statistica monovariata

  • Figura 1.9. Un esempio di determinazione della moda tra una serie di valori

    Considerando i seguenti valori:

    3 8 2 3 5 1 7 3 5 3 15 2 10 3 12 4

    per determinare la moda si procede innanzitutto ad ordinarli (in senso crescente):

    1 2 2 3 3 3 3 3 4 5 5 7 8 10 12 15

    Osserviamo che il 3 ha una frequenza molto maggiore (appare 5 volte) rispetto agli altri e vicinoal 3 si trovano molti degli altri valori presenti. In questo caso la moda di questo insieme di valori è 3.

    La moda indica il valore più �presente� nella distribuzione. Ci sono serie di dati che hanno più diuna moda. Consideriamo, per esempio, i risultati di un compito in classe (Tabella 1.11).

    voti 3 3.5 4 4.5 5

    frequenza 2 9 3 9 1

    Tabella 1.11. Distribuzione dei voti in un compito in classe

    La distribuzione risulta bimodale, avendo per moda sia 3.5 sia 4.5. Ciò significa che nella classe sipossono distinguere due gruppi di studenti: uno ha ben compreso gli argomenti del compito, l'altroha bisogno di studiarli ancora! Tale fenomeno è particolarmente visibile creando tracciando gliistogrammi. Se in un istogramma sono presenti più massimi a ciascun massimo sarà assegnato unvalore modale. È anche chiaro che è possibile che i due massimi non abbiano frequenze uguali.

    Figura 1.10. Istogramma della tabella 1.11 Figura 1.11. Esempio bimodale (o forse trimodale)

    Questo tipo di informazione (bi-modalità della dati nella Tabella 1.11) sarebbe andato perso seavessimo riassunto i risultati del compito con la media o la mediana, che, come puoi verificare,valgono entrambe 6. Nei casi in cui si presentano modalità multiple è anche il caso di discuteredettagliatamente l'eventualità di poterle separare individuando i relativi sottogruppi. Ad esempionel caso di valori ematici ci potrebbe essere la distinzione tra persone sane e persone con una datapatologia (v. figura 1.11); questo per poter poi avere degli indici di centralità e di dispersione piùsensati.

    1.5 Gli indici di posizione centrale 23

  • 1.5.8 Quando e quale indicatore di posizione centrale usare?

    E' opportuno usare:

    � la media aritmetica quando si stanno studiando delle quantità che si modificano in modolineare (quando non ci sono valori "anomali" cioè o troppo grandi o troppo piccoli);

    � la moda quando si vuole evidenziare la caratteristica più diffusa;

    � la mediana quando è necessario conoscere il valore centrale, quello che divide a metà i datiraccolti, oppure quando ci sono dei valori "anomali" e non ci si vuol fare influenzare daquesti.

    Si tratterà di volta in volta di scegliere la grandezza più significativa. Ma vediamo subito unesempio. I salari mensili di una fabbrica sono rappresentati mediante la seguente tabella:

    Paga mensile in CHF N° di persone che la ricevono

    43'000 1 (il proprietario)

    14'400 1

    9'500 2

    5'600 3

    5'200 19

    4'500 22

    4'200 2

    Tabella 1.12. Esempio con dati disomogenei

    Calcoliamo ora i vari indici di posizione centrale studiati:

    Media aritmetica = 5'988 CHF

    Mediana = 5'200 CHF

    Moda = 4'500 CHF

    Cosa possiamo dedurre da queste informazioni?

    � La media aritmetica ci dice che se il denaro fosse distribuito equamente (cioè in modo cheognuno ricevesse la stessa somma) ciascun dipendente avrebbe diritto a 5'988 CHF al mese.In questo caso, però, la media non è un buon indice di posizione centrale perché il salariodel proprietario è un valore anomalo.

    � La mediana ci indica che circa la metà degli impiegati ricevono un salario di 5'200 CHF el'altra metà di più. Non ci indica però quanto di più o quanto di meno rispetto ai 5'200 CHF.

    � La moda ci dice che la paga mensile più comune è di 4'500 CHF.

    L'esempio ora dato ci mostra che media, mediana e moda rappresentano cose diverse.

    Quindi se siete il proprietario della fabbrica e volete fare buona pubblicità alla vostra aziendautilizzerete la media aritmetica e direte: "Lo stipendio medio dei miei dipendenti è di ben 5'988CHF mensili".

    Se invece rappresentate i lavoratori all'interno di un sindacato utilizzerete la moda e potrete dire:"Lo stipendio modale all'interno di questa fabbrica è di soli 4'500 CHF mensili!".

    24 Statistica monovariata

  • Ecco un piccolo esempio che vi mostra come la statistica può "mentire" se usata impropriamente!

    Oltre che i valori centrali, la statistica studia come i diversi dati si situano intorno ai valori medi,quanto sono distanti, cioè quanto si disperdono o al contrario quanto sono vicini, cioè quanto siraccolgono attorno ad essi. Consideriamo le due sequenze di valori:

    a) 12 24 32 43 56 74 88

    b) 42 43 44 46 49 52 53

    Esse sono costituite dallo stesso numero di valori e, per entrambe, la media è 47. Tuttavia la distri-buzione dei valori intorno al valore medio 47 è diversa per le due sequenze: i valori della secondasequenza sono più vicini al valore medio, mentre quelli della prima sono più sparsi. In statistica,per indicare questo fatto, si dice che le due sequenze hanno diversa dispersione o variabilità.

    Per misurare la variabilità si usano degli indici di variabilità quali il campo di variazione, loscarto quadratico medio e lo scarto interquartile.

    1.6 Gli indici di variabilità (o di dispersione)

    1.6.1 Il campo di variazione

    Definizione 1.13. Il campo di variazione di una sequenza di numeri, ordinati in modo crescente,è la differenza fra il numero maggiore e il minore.

    Nella sequenza a) il campo di variazione è 88− 12= 76, nella sequenza b) è 53− 42= 11.Una misura della dispersione che elimini l'inconveniente dato dal campo di variazione che non riescea descrivere come si distribuiscono i dati che si trovano fra il minimo ed il massimo. Si osservicome nella Figura 1.12 i dati in rosso ed in verde hanno il campo di variazione molto simile, puravendo globalmente delle dispersioni molto diverse.

    Figura 1.12. Rappresentazione schematica di tre insiemi di dati con il relativo campo di variazione

    1.6.2 I quartili e lo scarto interquartile

    Si può cominciare col valutare la dispersione intorno alla mediana grazie allo scarto interquartile. Ilcalcolo dei quartili in realtà è abbastanza complicato ma noi ci restringeremo a dei semplici esempi.

    Definizione 1.14. Come la mediana divide la serie statistica in due parti di uguale importanza,i quartili sono valori della variabile statistica che dividono la serie in quattro gruppi di ugualeimportanza.

    1.6 Gli indici di variabilità (o di dispersione) 25

  • Si indica con:

    � Q1 - il primo quartile o quartile inferiore

    � Q2 - il secondo quartile che coincide con la mediana

    � Q3 - il terzo quartile o quartile superiore

    � Q3−Q1 è detto scarto interquartile

    Esempio 1.6. Riportiamo i voti del compito di matematica in una classe di 25 alunni:

    � ragazze: 3 3.25 3.5 3.5 4 4 4.25 4.25 4.5 4.5

    � ragazzi: 2.5 2.5 3 3 3 3 3 4 4 4 5 5 5 5.5 5.5

    I voti delle ragazze e dei ragazzi hanno lo stesso andamento? Questi dati possono essere esaminaticon i procedimenti mostrati in precedenza. Si può considerare:

    � la rappresentazione grafica con due istogrammi

    � la media, che in entrambi i casi vale circa 3.8

    � la mediana, che in entrambi i casi è 4

    Noi vogliamo valutare la dispersione dei dati intorno alla mediana.

    Consideriamo i voti delle ragazze, in questo caso abbiamo un numero pari di dati e quindi lamediana risulta essere il valore medio fra i due dati centrali

    3 3.25 3.5 3.5 4 4 4.25 4.25 4.5 4.5

    Con la procedura di determinazione della mediana (che è 4), si ottengono i due sottoinsiemi di datiseguenti:

    a) 3 3.25 3.5 3.5 4

    b) 4 4.25 4.25 4.5 4.5

    Di ciascuna di questi due insiemi si può di nuovo calcolare la mediana (quindi la mediana dellamediana) individuando:

    − nel primo gruppo il dato 3.5;

    − nel secondo gruppo il dato 4.25.

    In questo modo i dati vengono suddivisi in quattro parti ugualmente numerose per questo i valoriprima individuati prendono i seguenti nomi:

    Q1= 3.5 Q2=M =4 Q3= 4.25

    Calcoliamo ora lo scarto interquartile:

    Q3−Q1= 4.25−3.5= 0.75 (1.16)

    Valutiamo ora i quartili e la differenza interquartile relativi ai voti dei ragazzi, in questo casoabbiamo un numero dispari di dati e la mediana risulta quindi essere il dato centrale evidenziatoin grassetto:

    2.5 2.5 3 3 3 3 3 4 4 4 5 5 5 5.5 5.5

    26 Statistica monovariata

  • Abbiamo quindi i dati suddivisi in due insiemi ugualmente numerosi:

    a) 2.5 2.5 3 3 3 3 3

    b) 4 4 5 5 5 5.5 5.5

    Di ciascuna di queste parti si può di nuovo calcolare la mediana, individuando:

    − nel primo gruppo il dato 3;

    − nel secondo gruppo il dato 5.

    Si trova allora:

    Q1=3 Q2=M =4 Q3=5

    Calcoliamo ora lo scarto interquartile:

    Q3−Q1=5− 3=2 (1.17)

    Lo scarto interquartile dei voti delle ragazze (0.75) è minore di quello dei ragazzi (2), si può cosìconcludere che i voti delle ragazze sono meno dispersi attorno alla mediana rispetto a quelli deiragazzi.

    Nella Figura 1.13 si vede come lo scarto interquartile riesce a differenziare meglio la situazioneschematica con tre diverse tipologie di dati proposta nella precedente Figura 1.12.

    Figura 1.13. Rappresentazione schematica di tre diversi insiemi di dati con i relativi scarti interquartili

    Oltre che i valori centrali, la statistica studia come i diversi dati si situano intorno ai valori medi,quanto sono distanti, cioè quanto si disperdono o al contrario quanto sono vicini, cioè quanto siraccolgono attorno ad essi. Consideriamo le due sequenze di valori,

    la prima chiamiamola a):

    12 24 32 43 56 74 88

    la seconda b):

    42 43 44 46 49 52 53

    Esse sono costituite dallo stesso numero di valori e, per entrambe, la media è 47. Tuttavia la distri-buzione dei valori intorno al valore medio 47 è diversa per le due sequenze: i valori della secondasequenza sono più vicini al valore medio, mentre quelli della prima sono più sparsi. In statistica,per indicare questo fatto, si dice che le due sequenze hanno diversa dispersione o variabilità.

    Per misurare la variabilità si usano degli indici di variabilità quali il campo di variazione e,lo scarto semplice medio, lo scarto quadratico medio, lo scarto interquartile.

    1.6.3 Box-plot di Tukey e gli outlier

    Un ulteriore metodo di rappresentazione dei dati che serve ad evidenziare la dispersione è il boxplot. Si tratta di una procedura non parametrica legata a mediana e scarto interquartile. Unesempio di box-plot lo trovate qui sotto nella figura 1.14.

    1.6 Gli indici di variabilità (o di dispersione) 27

  • Figura 1.14. Box-plot di un campione di HoloTC (dati diversi rispetto alla figura 1.11)

    Il box plot viene costruito su un asse cartesiano. Il centro della scatola (box) evidenziato dalla lineacentrale corrisponde al valore della mediana. i bordi del box sono costituiti dal primo Q1 e terzo Q3quartile. I baffi (whiskers) vengono determinati moltiplicando per 1.51.1 lo scarto interquartile. Siprende questa distanza a partire dai bordi della scatola (Q1 e Q3) e si va a vedere qual è il valoreinferiore e superiore che ancora è all'interno di questo intervallo. Il baffo viene così determinatodal valore di questo dato.

    Spesso vengono poi visualizzati gli outlier (cioè i punti che sono al di fuori dei whiskers) distin-guendo tra outlier interni (colorazione piena della figura 1.14), cioè con una distanza dalla mediananell'intervallo da 1.5 a 3 scarti interquartili e outlier esterni (colorazione vuota nella figura 1.14)con uno scarto superiore a 3 scarti interquartili dalla mediana.

    Quando si incontrano outlier spesso ci si interroga sulla correttezza di questi dati, andando averificare che non possano anche essere il frutto di un errore nell'indagine. Talvolta, dopo avertrovato il motivo d'errore questi dati vengono scartati; si noti però che scartare dati è un'operazioneestremamente pericolosa in quanto può succedere che per vari motivi quelli che sembrano outlierin realtà sono valori legittimi e cancellandoli si rischia di falsare l'intero lavoro di ricerca.

    Esempio 1.7. Qui sotto nella tabella 1.13 sono proposti i pesi corporei dei bambini che frequentanoun club di Judo. Dopo aver messo in ordine i dati si determinano Q1= 37.3 M =40.4 e Q3=43.9.Di conseguenza lo scarto interquartile Q3− Q1= 6.6 e questo valore moltiplicato per 1.5 dà unadistanza di riferimento per i baffi di 9.9. Quindi la scatola avrà la barra centrale a 40.4 e i bordi a37.3 e 43.9. Per i baffi il limite inferiore sarà 37.3−9.9=27.4; il dato più vicino superiore a questovalore è 28.1 e questo sarà il baffo inferiore. Analogamente per il baffo superiore si ha il limite paria 43.9+9.9=53.8 e quindi il dato più vicino inferiore a questo valore è 52.3. Si noti come, essendoquesti ultimi due valori anche il minimo ed il massimo della serie di dati, non saranno presentioutlier (figura 1.15).

    39.3 38.0 34.4 36.9

    38.8 44.0 41.7 48.9

    38.0 34.1 41.5 43.7

    38.4 46.7 43.5 41.5

    33.6 37.1 51.3 28.1

    52.3 45.0

    Tabella 1.13. Peso dei judoka Figura 1.15. Box-plot della tabella 1.13

    Esercizio 1.6. Si traccino i box-plot relativi ai dati delle tabelle 1.4 e 1.5

    1.6.4 Lo scarto quadratico medio

    Per ottenere un parametro della dispersione si potrebbe intuitivamente calcolare tutti gli scarti trai singoli valori e la media di un'indagine statistica, così come mostrato nella Figura 1.16, calcolandopoi la media degli scarti.

    1.1. Alla domanda �Perché 1.5� Tukey rispose testualmente: �Perché uno è poco due è troppo�. S tratta di un valorepuramente arbitrario, fissato in base all'esperienza accumulata nell'abito della ricerca statistica.

    28 Statistica monovariata

  • Figura 1.16. Gli scarti dalla media, in rosso negativi ed in blu positivi

    Tornando all'esempio precedentemente usato per lo scarto interquartile, consideriamo ancora unavolta i voti delle ragazze:

    3 3.25 3.5 3.5 4 4 4.25 4.25 4.5 4.5

    La media di questi dati si calcola rapidamente:

    X� =3+ 3.25+ 3.5+ 3.5+4+4+ 4.25+ 4.25+ 4.5+ 4.5

    10= 3.875 (1.18)

    Per facilitare il calcolo organizziamoci con una tabella e completiamo la prima colonna:

    Xj nota Xj −X� (Xj −X�)2

    3 −0.875 0.765625

    3.25 −0.625 0.390625

    3.5 −0.375 0.140625

    3.5 −0.375 0.140625

    4 0.125 0.015625

    4 0.125 0.015625

    4.25 0.375 0.140625

    4.25 0.375 0.140625

    4.5 0.625 0.390625

    4.5 0.625 0.390625

    Totale 0 2.53125

    Tabella 1.14. Media delle note, scarti semplici e quadratici

    Si è arrivati dunque ad un risultato molto particolare: la somma degli scarti dalla media vale zero.Questo risultato è un caso legato ai dati esaminati o ha un valore più generale?

    Definizione 1.15. La somma degli scarti semplici di una media aritmetica è sempre 0; si trattadi una proprietà fondamentale della media aritmetica.

    Per valutare la dispersione intorno alla media si dovrà dunque eliminare l'inconveniente degli scartipositivi (in blu) che compensano quelli negativi (in rosso nella Figura 1.16). Un metodo che lastatistica utilizza molto spesso è il seguente: calcolare la media non più degli scarti, ma dei quadratidegli scarti, quadrati che sono tutti certamente positivi.

    Si ottiene, nel caso esaminato, l'espressione:

    �2=(−0.875)2+(−0.625)2+2 � (−0.375)2+2 � (0.125)2+2 � (0.375)2+2 � (0.625)2

    10 =� 0.2531 (1.19)

    1.6 Gli indici di variabilità (o di dispersione) 29

  • Oppure, più semplicemente riempendo la seconda colonna della tabella è sufficiente prendernel'ultimo elemento e dividerlo per il numero dei dati, in questo caso 10.

    Il risultato prende anche il nome di varianza; si ha dunque che la varianza di più dati si ottienecalcolando la media dei quadrati degli scarti dalla media.

    Per sottolineare la presenza dei quadrati degli scarti, la varianza si indica spesso con il simboloadottato prima, e cioè: varianza = �2. La lettera greca � (si legge �sigma�) indica lo scartoquadratico medio. Quindi per ottenere lo scarto quadratico medio si fa la radice quadrata dellavarianza.

    Definizione 1.16. Lo scarto quadratico medio di una sequenza di numeri X1; X2; :::; Xn è laradice quadrata della media aritmetica dei quadrati degli scarti dei numeri stessi dalla loro mediaaritmetica.

    �=(X1−X�)2+(X2−X�)2+ :::+(Xn−X�)2

    n

    r=

    Pj=1

    n

    (Xj−X�)2

    n

    vuuuut(1.20)

    Nota 1.10. Lo scarto quadratico medio viene anche detto deviazione standard.

    Varianza e scarto quadratico medio sono i più noti e diffusi indici di variabilità intorno alla media.

    Così, confrontando ancora una volta i voti dei ragazzi e delle ragazze, si trova:

    − voti dei ragazzi: media X� = 3.867 �2= 1.6733 �= 1.2936

    − voti delle ragazze: media X� = 3.875 �2= 0.2531 �= 0.5031

    e quindi, anche se la media è circa la stessa, si nota subito che i voti delle ragazze sono dispersiintorno alla media meno di quelli dei ragazzi.

    Per sintetizzare più dati occorre il valore di sintesi accompagnato da un indice divariabilità.

    Le considerazioni svolte in questi ultimi due paragrafi suggeriscono di osservare sempre attenta-mente i dati statistici che tanto spesso sono presentati dai mezzi di informazione. Per sintetizzarepiù dati in modo corretto ed esauriente, occorre fornire un indice di posizione centrale, accompa-gnato da un indice di variabilità; così si ha che:

    − la mediana senza la differenza interquartile dà un'informazione incompleta;

    − la media può fornire una sintesi scorretta se non è accompagnata dalla varianza o dalloscarto quadratico medio.

    1.6.5 Lo scarto quadratico per classi

    Nel caso in cui disponiamo di dati raccolti in classi è possibile ugualmente calcolare lo scartoquadratico medio. Si assume come valore rappresentativo il valore centrale xi di ogni classe e larelativa frequenza fi. Lo scarto quadratico medio allora:

    �=f1 � (X1−X�)2+ f2 � (X2−X�)2+ :::+ fn � (Xn−X�)2

    f1+ f2+ :::+ fn

    s=

    Pj=1

    n

    fj � (Xj−X�)2Pj=1

    n

    fj

    vuuuuuuuuuut (1.21)

    30 Statistica monovariata

  • Esempio 1.8. Consideriamo la tabella seguente che indica le altezza s.l.m di alcuni comuni

    Altitudini Valore centrale Xj Frequenza Xj � fj (Xj −X�)2 (Xj−X�)2 � fj0− 50 25 8 200 12792.29 101610.32

    50− 100 75 70 5250 3931.29 275190.30

    100− 150 125 71 8875 161.29 11451.59

    150− 200 175 62 10850 1391.29 86259.98

    200− 250 225 27 6075 7621.29 205774.83

    250− 300 275 7 1925 18851.29 131959.03

    300− 350 325 3 975 35081.29 105243.87

    Totale 248 34150 79739.03 917489.92

    Tabella 1.15. Altitudine in [m/s.l.m.] di alcuni comuni: tabella con gli scarti

    Costruiamo la tabella seguente che ci permetterà di calcolare lo scarto quadratico medio.

    Dalle prime tre colonne si ricava che la media è:

    X� =34150248 =

    � 137.7 (1.22)

    Lo scarto quadratico medio è allora:

    �=917489.92

    248

    r=� 60.824 (1.23)

    Significa quindi che l'altitudine media dei comuni è di 137.7 [m], ma ci si deve preparare a superareun dislivello medio sopra e sotto di essa pari a �= 60.824 [m].

    Nota 1.11. Si osservi come la media e la deviazione standard abbiano la stessa unità di misura.Questo permette di esprimere lo scostamento anche in maniera relativa (percentuale). Tale valore,detto coefficiente di variazione, è invece privo di unità di misura, è utile soprattutto perconfrontare metodi di analisi diversi tra loro e si calcola con la seguente formula:

    CV=100 ��X�

    % (1.24)

    Nel caso dei comuni il coefficiente di variazione dell'altezza s.l.m. è:

    CV=100 � 60.824

    137.7= 44.17% (1.25)

    1.6.6 La distribuzione gaussiana

    Consideriamo ancora la distribuzione relativa ai risultati del salto di un gruppo di studentesse. Ilsuo poligono delle frequenze (Figura 2) ha una forma particolare, detta anche �a campana� . Seaumentassimo il numero dei risultati, prendendo in considerazione, per esempio, tutte le studen-tesse di una stessa scuola o quelle di più scuole, il poligono delle frequenze molto probabilmente siavvicinerebbe sempre di più a una particolare curva teorica detta curva normale o gaussiana(o di Gauss).

    1.6 Gli indici di variabilità (o di dispersione) 31

  • Figura 1.17. Curva di Gauss

    Il calcolo dello scarto quadratico medio � assume particolare importanza nelle distribuzioni gaus-siane, perché è collegato al modo in cui le frequenze si distribuiscono attorno al valore medio M.

    Da un'analisi del grafico si possono fare alcune osservazioni:

    − la simmetria della curva rispetto alla retta x=X� significa che intorno al valore medio tuttigli altri si distribuiscono con la stessa frequenza per valori equidistanti da X� ;

    − nei punti X� −� e X� +� la curva presenta due flessi. Pertanto se � ha un valore piccolo (equindi c'è poca dispersione attorno al valore medio) la curva è stretta; se invece � è grande,la curva è larga e c'è molta dispersione attorno al valore medio.

    Questo significa che la forma della curva dipende da �. Si può dimostrare che:

    − il 68.27% dei casi osservati è compreso tra M −� e M +�

    − il 95.45% dei casi osservati è compreso tra M − 2 �� e M +2 ��

    − il 99.73% dei casi osservati è compreso tra M − 3 �� e M +3 ��

    Tali percentuali sono valide anche per distribuzioni moderatamente asimmetriche.

    Figura 1.18. La curva di Gauss e le percentuali delle casistiche in base a �

    Da queste informazioni, essendo la distribuzione simmetrica rispetto alla media X� , se ne possonoricavare altre. Per esempio, è vero che il 15.87% dei valori è maggiore di X� +�.

    Infatti i valori maggiori di X� +� o minori di X� −� sono:

    100% - 68.27% = 31.73% (1.26)

    32 Statistica monovariata

  • Quindi quelli maggiori di X� +� sono:

    31; 73%2

    = 15; 87% (1.27)

    In modo analogo si ricava che il 2,28% dei valori è maggiore di X� + 2� (o minore di X� − 2�).

    Esercizio 1.7. La statura in una popolazione adulta composta da 24'000'000 di persone ha una distri-buzione gaussiana. Sapendo che nella popolazione studiata la media è X� = 1.75m e lo scarto quadraticomedio � = 0.05m, quante persone hanno un'altezza compresa tra 1.70m e 1.80m? Quante maggiore di1.85m? E quante minore di 1.70 (ovviamente saranno solamente approssimazioni ancorché piuttosto atten-dibili)? [16'384'800;547'200;3'808'800]

    1.7 Esercizi

    Esercizio 1.8. Una indagine statistica su un campione di 50 bambini che frequentano la prima classe dellescuole elementari e relativa al loro peso corporeo ha fornito i seguenti dati espressi in Kg.

    27.5 32.5 28.9 30.2 30.1 28.2 29.5 31.2 27.3 30.031.1 33.0 35.2 32.7 28.4 30.7 29.4 25.6 26.5 31.532.3 30.0 30.5 35.7 32.4 33.3 29.2 30.5 30.8 31.427.9 29.8 28.5 31.6 32.0 30.2 37.1 32.6 34.0 34.036.1 31.3 29.8 34.1 32.6 34.7 33.6 29.8 30.6 31.5

    Costruisci una distribuzione di frequenza adeguata e il relativo istogramma.

    Esercizio 1.9. Rappresenta graficamente mediante un diagramma a rettangoli e mediante un areogramma laseguente tabella relativa al numero di occupati come lavoratori dipendenti nei vari settori di attività in unacerta città.

    Settore Agricoltura Industria Commercio AltroN. occupati 200 900 950 380

    Esercizio 1.10. Ecco i pesi di un campione di 18 compresse a base di vitamina C espressi in grammi

    4.2 3.9 4 4.2 4.1 4.2 4.3 4.1 4.24.3 4.0 4.1 4.2 4.1 4.2 4 4.3 4.2

    Costruisci la distribuzione di frequenza e rappresenta i dati graficamente.

    Calcola la media ponderata. È uguale a quella aritmetica? Perché?

    Esercizio 1.11. Da una indagine statistica su un campione di 5000 ragazzi e 5000 ragazze di età compresa frai 10 e i 16 anni sulle attività sportive svolte, sono emersi i seguenti risultati (un individuo potrebbe praticarepiù di uno sport!)

    Attività Maschi FemmineCalcio 3200 58Tennis 1050 895Atletica 629 1580Sci 2570 2476Altro 605 1312Nessuno sport 596 1720

    Rappresenta con un diagramma a rettangoli e con un areogramma i dati della tabella in ciascuno dei due casi.

    1.7 Esercizi 33

  • Esercizio 1.12. La seguente tabella riporta la produzione di vino di un certo anno in alcuni paesi europei.Rappresenta i dati con un diagramma a rettangoli. Costruisci poi la tabella delle frequenze relative e il corri-spondente diagramma a torta.

    Paese Germania Francia Italia Grecia Portogallo SpagnaVino/[hl] 9500 64000 64000 5000 3500 24000

    Esercizio 1.13. La seguente tabella indica la variazione percentuale del consumo di carne bovina negli ultimisei mesi del 2000 in alcuni stati europei. Rappresenta graficamente i dati

    Paese Ger. Italia Spagna Grecia Port. Francia Austria Belgio G.Br.Perc. -50% -42% -35% -30% -25% -20% -15% -10% +3%

    Esercizio 1.14. Esaminando 100 pagine dattiloscritte si sono riscontrati i seguenti numeri di errori per pagina:35 pagine con 1 errore; 25 pagine con 2 errori; 18 pagine con 3 errori; 12 pagine con 4 errori; 4 pagine con 6errori e le rimanenti senza errori.

    a) Rappresenta la distribuzione di frequenza relativa e assoluta degli errori per pagina.

    b) Costruisci un grafico delle frequenze

    c) Calcola la media degli errori per pagina con la formula per le medie ponderate

    Esercizio 1.15. Un campione estratto dalla popolazione degli abitanti di una città ha dato la seguente com-posizione:

    Fascia d'età 0-20 21-40 41-60 Oltre 60N. componenti 29% 32% 24% 15%

    Sapendo che il campione ha ampiezza 5000, calcola le frequenze assolute di ogni classe. Rappresenta poi i daticon un areogramma. [1450; 1600; 1200; 750]

    Esercizio 1.16. Calcola la media aritmetica della seguente distribuzione

    Modalità 2 4 6 8 10Frequenza 8 12 20 24 18

    [6.78]

    Esercizio 1.17. Trova la moda e la mediana della seguente distribuzione statistica che riguarda il numero divolte che un gruppo di ragazzi sono stati interrogati in una certa materia:

    Interrogazioni 2 3 4 5 6 7 8Frequenza 10 15 20 28 18 12 4

    Esercizio 1.18. In un gruppo di ginnaste di livello agonistico si è rilevato che l'età di inizio dell'attività èdistribuita nel seguente modo:

    Età di inizio 4 5 6 7 8 9 10 11 12Numero ginnaste 1 6 11 4 6 4 0 2 1

    Calcola la media aritmetica, (e anche quella quadratica e armonica), la mediana e la moda. In base ai datirilevati su questo gruppo, a quale età è più opportuno iniziare l'attività per raggiungere in ginnastica un livelloagonistico. [7; 7.3; 6.6; 8; 6]

    Esercizio 1.19. Un autotreno deve percorrere 15 Km. I primi 5 sono in città e vengono coperti ad una velocitàdi 1 Km/h. I restanti 10 Km sono in periferia e il mezzo transita con una velocità di10 Km/h. Trova la velocitàmedia costante necessaria affinché lo stesso tragitto venga percorso impiegando lo stesso tempo. [2.5 Km/h]

    34 Statistica monovariata

  • Esercizio 1.20. Durante una gara di corsa di 60 metri piani si sono rilevati i seguenti dati:

    Tempo/[s] 10.9 11.1 11.2 11.4 11.6 11.7 12N. studenti 1 3 8 12 6 4 1

    Determina il tempo medio, la moda e la mediana [11.4; 11.4; 11.4]

    Esercizio 1.21. Rappresenta graficamente nel modo più opportuno la seguente distribuzione di frequenze:

    Modalità 1 2 3 4 5 6 7Frequenza 12 15 16 25 18 10 5

    Calcola poi lamedia aritmetica, lamoda e lamediana della distribuzione e lo scarto quadraticomedio [M=3.71;moda=4; mediana=4; �=1.66]

    Esercizio 1.22. Una ditta che deve acquistare una macchina per produrre tondini in ferro, deve effettuarela sua scelta fra due offerte. La decisione viene affidata ad un controllo di qualità che rileva i dati relativi aidiametri dei tondini su un campione di 100. La tabella riporta i dati relativi alle misurazioni per le due macchinecontraddistinte dalle lettere A e B

    Diametro /[mm] 9.75 9.80 9.85 9.90 9.95 10.0 10.5Frequenza di A 0 9 26 30 26 9 0Frequenza di B 2 4 20 48 20 4 2

    Dopo aver disegnato il diagramma di questa distribuzione, calcola la media ponderata e lo scarto quadraticomedio. Quale delle due macchine offre una maggior affidabilità? [�A= 0.0555; �B= 0.0968]

    Esercizio 1.23. Prendendo come riferimento i dati dell'esercizio 1.8 sul peso corporeo degli allievi, calcola lamedia aritmetica, la mediana, la classe modale relativa alla distribuzione di frequenza scelta, nonché lo scartoquadratico medio della media aritmetica. Determinate tutti i decili dalla vostra distribuzione di classe.

    Esercizio 1.24. Biometrica di classe: dividetevi in sottogruppi di 3 al massimo; raccogliete un dato biometricoriferito agli allievi della vostra classe (per esempio n� scarpe, statura, peso, età, lunghezza di un dito, diametrodella scatola cranica, girovita, lunghezza del braccio, ecc); costruite un grafico appropriato dei dati raccoltie determinate la media, lo scarto quadratico medio, la mediana e la moda dei dati. Preparate un lucido perpresentare i dati al resto della classe.

    1.7 Esercizi 35

  • Capitolo 2Statistica bivariata

    2.1 Introduzione

    Quando l'osservazione statistica porta alla rilevazione di dati esprimibili come coppie ordinate dinumeri (xi; yi) si pone sia il problema di determinare se sussiste una relazione tra le due grandezzee in caso affermativo, la funzione che permette di collegare i valori di xi con quelli di yi. Talefunzione viene chiamata funzione interpolante o funzione di regressione.

    2.2 La correlazione

    2.2.1 Correlazione e regressione lineare

    In questo piccolo riassunto ci si vuole concentrare unicamente su correlazione e regressioni lineari.Non ci si occupa di correlazioni con funzioni più complicate, come le curve esponenziali, logarit-miche, polinomiche, ecc.

    2.2.2 La covarianza

    Esempio 2.1. Un indagine statistica ha rilevato contemporaneamente il reddito e la spesa per ilvitto di dieci famiglie. Tali dati sono riportati nella tabella sottostante.

    Famiglia Reddito Spesa R−R� (R−R�)2 S −S� (S −S�)2 (R−R�)(S −S�)1 7500 2200

    2 4200 1800

    3 6210 2040

    4 6900 2100

    5 5400 1920

    6 5100 1860

    7 5700 2160

    8 8700 2400

    9 4500 1770

    10 5190 1830

    Totale 59400 20100 0 0

    Tabella 2.1. Dati reddito / vitto da completare

    37

  • Figura 2.1. Grafico tra reddito e vitto. Le linee tratteggiate corrispondono alle rispettive medie.

    Si osservi come i punti tendono ad addensarsi attorno ad una retta. Questo fenomeno è tipicoquando si è in presenza di una correlazione tra le due grandezze osservate. L'osservazione del graficochiaramente non è una valutazione oggettiva della correlazione tra le due grandezze che inveceviene determinata tramite il calcolo della covarianza e del coefficiente di correlazione.

    Definizione 2.1. Si dice covarianza fra X e Y la media aritmetica dei prodotti degli scarti semplici

    cov(X;Y )=P(Xi−X�) � (Yi−Y�)

    n(2.1)

    Avviso 2.1. Se a scarti positivi (negativi) di X corrispondono scarti positivi (negativi) di Y larelazione lineare fra i due fenomeni è diretta (punti nel I e III quadrante). In questo caso la sommadei prodotti degli scarti è positiva e quindi cov(X;Y )> 0.

    Avviso 2.2. Se a scarti positivi (negativi) di X corrispondono scarti negativi (positivi) di Y larelazione lineare fra i due fenomeni è inversa (punti nel II e IV quadrante). In questo caso la sommadei prodotti degli scarti è negativa e quindi si ha cov(X;Y )< 0.

    Avviso 2.3. Se la covarianza è uguale a 0 vuol dire che non c'è relazione di tipo lineare tra i duefenomeni. Ciò però non esclude che ci sia una relazione di un altro tipo (parabolico, esponenziale,ecc).

    38 Statistica bivariata

  • Si osservi la figura 2.2 che evidenzia i contributi positivi e negativi alla covarianza, sempre relativoall'esempio 2.1.

    Figura 2.2. Contributi dei singoli scarti alla covarianza

    2.2.3 Il coefficiente di correlazione r di Pearson

    La covarianza ha un punto debole fondamentale. Non è un parametro con valore assoluto, madipende dalle unità di misura dei dati. Questo porta al fatto che se è vero che più il valore siallontana da zero e più i punti si avvicinano ad una retta, in realtà non si definisce un massimovalore per il quale i punti si trovano perfettamente su una retta; nemmeno si riesce a definire unasoglia minima oltre la quale la correlazione è garantita. Per questo motivo nella maggior partedei casi la covarianza è unicamente una tappa intermedia che porta al calcolo del coefficiente dicorrelazione lineare (o coefficiente di Pearson).

    Definizione 2.2. Il coefficiente di correlazione lineare è la media aritmetica dei prodotti dei valoriosservati espressi in unità standard. Il coefficiente di correlazione lineare è simbolizzato con una r(oppure con una � dell'alfabeto greco).

    r=cov(X;Y )�X ��Y

    (2.2)

    Nota 2.1. Il valore di r è compreso tra −1 e 1

    −16 r6 1 (2.3)

    Nota 2.2. Valori positivi di r indicano l'esistenza di una relazione lineare diretta. Aumentando(diminuendo) i valori di X aumentano (diminuiscono) i valori di Y .

    Nota 2.3. Valori negativi di r indicano l'esistenza di una relazione lineare inversa. Aumentando(diminuendo) i valori di X diminuiscono (aumentano) quelli di Y .

    2.2 La correlazione 39

  • Nota 2.4. Se r=0 non esiste una relazione lineare tra i valori X e Y . Ciò non esclude che possasussistere una relazione di altro tipo. In realtà difficilmente si ottiene esattamente 0 anche se nonvi è una correlazione tra le due grandezze. Per determinare con certezza se la correlazione sussisteesistono vari metodi che comunque vanno al di là dello scopo di questo testo. Si segnala tuttaviacome regola empirica che quando il valore di r si trova nell'intervallo −0.35 6 r 6 0.35 si puòragionevolmente affermare che NON sussiste una correlazione.

    Esercizio 2.1. Si calcoli il coefficiente di correlazione lineare dei dati dell'esempio 2.1, completando opportu-namente la tabella prestampata.

    2.3 La regressione

    2.3.1 Il metodo dei minimi quadrati

    Considerando ancora una volta l'esempio 2.1 ci si potrebbe chiedere quale sia la retta migliore checi descrive la relazione tra reddito e vitto. Si potrebbe procedere in modo grafico (e soggettivo)provando a disegnare una retta di regressione in modo che sia il più possibile �al centro� dei datidel grafico.

    Tuttavia esiste un metodo algebrico esatto per eseguire tale operazione. Tale metodo si chiamametodo dei minimi quadrati. Con tale metodo cerchiamo la pendenza a e l'ordinata all'origine bdella retta che meglio esprime la relazione tra i valori di X e di Y .

    f(x)= y= ax+ b (2.4)

    Chiaramente nessun punto (tranne casi eccezionali) si troverà esattamente sulla retta. Bisognerà farin modo che la distanza misurata in verticale dal punto effettivo (Xi;Yi) e il punto teorico calcolatocon la funzione (Xi: Yi�) sia la minore possibile. Pertanto, sussistendo anche il problema dato dalfatto che alcune differenze risulteranno negative e altre positive, si cercherà di rendere minima iquadrati delle differenze tra i valori di Yi� calcolati e quelli reali YiX

    (Yi−Yi�)2=minimo (2.5)

    Graficamente parlando il miglior accostamento è trovato riducendo gli scarti verticali dalla retta.Per operare la determinazione di tale minimo si deve ricorrere a strumenti matematici moltoavanzati (derivate parziali di funzioni a più variabili) e quindi una dimostrazione dettagliata delprocedimento che porta alla definizione della seguente formula per il calcolo della pendenza edell'ordinata all'origine è al di là degli obiettivi di questo testo. Si può saltare quindi la derivazionematematica della formula e utilizzare direttamente il risultato, qui sotto riportato:

    a=n�xiyi−�yi ��xin�xi

    2− (�xi)2(2.6)

    b=�xi

    2 ��yi−�xi ��xiyin�xi

    2− (�xi)2(2.7)

    40 Statistica bivariata

  • Esempio 2.2. In uno studio si sono comparate le velocità massime di alcuni veicoli e si è cercato dimettere in relazione questo valore con la potenza del motore in questione. La variabile indipendenteè la potenza

    Potenza 70 63 72 60 66 70 74 65 62 67 65 68Velocità 155 150 180 135 156 168 178 160 132 145 139 152

    Tabella 2.2. Dati di potenza e velocità di 12 veicoli

    a= 3.21565 b=−60.7461 r= 0.863234 Es= 7.51528

    130

    140

    150

    160

    170

    180

    60 65 70 75

    potenza [kW]

    velo

    cità

    [km

    /h]

    X indip.

    Y indip.

    Figura 2.3. Grafico di potenza e velocità (esempio 2.2)

    2.3.2 L'errore nelle regressioni

    Per stimare il grado di accostamento di una regressione ai valori osservati si usa solitamente unparametro chiamato errore standard

    Definizione 2.3. L'errore standard è la media quadratica delle differenze tra i valori osservati ei valori teorici

    Es=�(yi− yi�)2

    n

    r(2.8)

    Se l'accostamento è perfetto il valore di Es è 0. Migliore è l'accostamento fra valori osservati eteorici e più piccolo è il valore di Es. Si noti che come nel caso dello scarto quadratico, anche inquesto caso l'errore standard ha la stessa unità di misura del valore y. L'errore standard è la mediadegli scarti quadratici mostrati nella Figura 2.4 in rosso.

    Si noti però che spesso i sistemi informatici che calcolano le regressioni lineari offrono r (vedi ilparagrafo precedente) al posto di Es come parametro di accostamento.

    2.3 La regressione 41

  • 2.3.3 La scelta della variabile indipendente

    Si faccia attenzione, procedendo nelle regressioni al fatto che se si sceglie x come variabile indipen-dente si cerca di stimare y a partire da x (come fatto precedentemente). Si può anche optare peruna regressione che considera y come variabile indipendente. I due risultati non sono uguali, (siottengono due rette diverse) lo sono solamente nel caso ideale di un accostamento perfetto; infatti ilmetodo dei minimi quadrati viene applicato per le x (in blu nella figura 2.4) e questo graficamentecorrisponde al miglior accostamento alla retta in orizzontale.

    130

    140

    150

    160

    170

    180

    60 65 70 75

    potenza [kW]

    velo

    cità

    [km

    /h]

    X indip.

    Y indip.

    Figura 2.4. Minimi quadrati delle y in rosso e delle x in blu

    Per il calcolo con y indipendente si usano le seguenti formule:

    a=n�xiyi−�yi ��xin�yi

    2− (�yi)2(2.9)

    b=�yi

    2 ��xi−�yi ��xiyin�yi

    2− (�yi)2(2.10)

    I coefficienti così calcolati corrispondono a quelli per la retta inversa. Per paragonarli a quellicalcolati con le formule precedenti (equazioni 2.6 e 2.7) bisogna invertire nuovamente l'equazionedella retta. Si veda il grafico precedente che riporta entrambe le rette (la seconda tratteggiata).

    Esercizio 2.2. Si calcoli la retta di regressione con la variabile y come indipendente per l'esempio precedente(esempio 2) che è già riportata nel grafico (funzione tratteggiata).

    42 Statistica bivariata

  • 2.3.4 Scarti quadratici e pendenza delle rette di regressione

    Si lascia dimostrare che la pendenza a della retta di regressione è anche uguale al rapporto tra gliscarti dei valori di y e quelli di x moltiplicato per r

    a= r � �y�x

    (2.11)

    Nota 2.5. Per accostamenti molto buoni (r'1) si può approssimare la pendenza a con il rapportotra i due scarti quadratici.

    2.3 La regressione 43

  • 2.4 Esercizi

    Esercizio 2.3. Da una rivista specializzata di automobilismo si hanno i seguenti dati riferiti a 5 autovetture

    Vettura Cilindrata V. max km con 10 lA 1300 130 90B 1600 145 87C 1800 160 84D 2000 170 75E 2500 190 62

    Si costruiscano opportuni diagrammi cartesiani mettendo in relazione cilindrata e v. max e cilindrata e consumi.Si determinino poi i coefficienti di correlazione r. [0.993;−0.975]

    Esercizio 2.4. La tabella sotto riportata indica l'indice del costo per le assicurazioni malattia negli USA(100=1967). Si trovi la retta di regressione, si stimi l'indice per l'anno 1985 e quello per l'anno 1975.

    Anno 1976 1977 1978 1979 1980 1981 1982 1983 1984Indice 184.7 202.4 219.4 239.7 265.9 294.5 328.7 357.3 378.0

    [400.4; 148.5]

    Esercizio 2.5. Sono dati i dettagli di otto punti di vendita di una catena di grandi magazzini. Si analizzinoquesti dati con gli strumenti di correlazione e regressione.

    Punto di vendita Superficie in m2 Numero addetti Incassi giornalieriA 640 16 8.4B 2100 40 19.2C 1200 28 15.0D 1040 24 14.0E 860 22 12.6F 1600 32 16.4G 1500 30 15.8H 980 24 13.6

    Esercizio 2.6. La tabella sottostante riporta i dati di pressione e volume di un gas. Considerando che i gasgenericamente hanno una correlazione tra questi due parametri data dall'equazione.

    Volume V 54.3 61.8 72.4 88.7 118.6 194.0Pressione P 61.2 49.5 37.6 28.4 19.2 10.1

    P �V =C

    con e C costanti si linearizza la formula applicando un logaritmo e si trovino queste due costanti con unaregressione lineare. [= 1.40;C = 1.60�104]

    Esercizio 2.7. La seguente tabella riporta i voti di alcuni studenti in algebra e fisica. Si trovino le dure retteinterpolanti, sia per fisica, sia per algebra come variabile indipendente. Se uno studente ha ottenuto 75 in algebraquale voto ci si deve attendere abbia ottenuto a fisica? E uno che ha ottenuto 95 in fisica quanto presumibilmenteavrà ottenuto in algebra? Si valuti la qualità della correlazione con la determinazione di r.

    Algebra 75 80 93 65 87 71 98 68 84 77Fisica 82 78 86 72 91 80 95 72 89 74

    Esercizio 2.8. Dovendo interpolare i dati della seguente tabella cerca di capire qual è il tipo di funzione piùopportuno e, linearizzando opportunamente i dati, esegui la regressione

    x 1 2 3 4 5 6y 2.969 3.094 3.224 3.359 3.501 3.648

    f(x)= 2.85 �1.042x

    44 Statistica bivariata

  • Capitolo 3

    Test formativi (vecchio curriculum)

    3.1 Statistica monovariata (80 minuti)

    I seguenti dati si riferiscono alle spese giornaliere registrate da una famiglia nel mese di novembre.

    50 70 65 100 80 65 40 98 40 1055 70 100 0 60 84 65 50 50 4052 110 50 30 70 60 0 42 55 7244 58 46 0 105 67 22 96 82 15

    � Costruisci una distribuzione di classi adeguata, indicando valore centrale, frequenza, fre-quenza relativa %, e frequenza cumulata %; (10p)

    � Prepara un istogramma dei dati; (8p)

    � Prepara un diagramma a colonne (8p)

    � Prepara un areogramma (facoltativo) (8p)

    � Traccia l'ogiva (8p)

    � Calcola la media della spesa, la moda e commenta con questo dato l'istogramma ottenuto(8p)

    � Calcola la mediana e lo scarto interquartile (8p)

    � Traccia un box plot dei dati (8p)

    � Calcola la media ponderata e lo scarto ponderato medio usando la tabella delle frequenze(12p)

    � Confronta media e mediana commentando i dati (6p)

    45

  • 3.2 Regressione e correlazione (80 minuti)

    Esercizio 3.1. Qui sono riportati i dati relativi alle dimensioni della circonferenza cranica di un feto a partiredalla tredicesima settimana di gravidanza. Sulla base dei dati:

    i. si tracci un grafico dei dati;

    ii. si determini la correlazione dei dati con il coefficiente di Pearson;

    iii. si determini la retta di regressione;

    iv. si estrapoli la dimensione del cranio per la quarta settimana;

    v. si commentino i risultati ottenuti, osservando attentamente il grafico.

    Settimana 13 18 23 28 33 38Circonf. in mm 82 155 215 260 305 330

    Esercizio 3.2. Nella tabella seguente sono riportate le lunghezze di 30 foglie di lauro, registrate al millimetropiù prossimo; usando il supporto informatico:

    i. si costruisca una distribuzione di frequenza adeguata con limiti tabulati, limiti reali, valore centrale eampiezza della classe indicati in modo esplicito;

    ii. si calcolino media mediana e scarto quadratico medio ponderati;

    iii. Si tracci un istogramma dei dati;

    iv. Si calcolino P5, P90, D6, P30 e Q3 dalla tabella delle frequenze.

    138 164 150 132 144 125 149 157 146 158140 147 136 148 152 144 168 126 138 176163 119 154 165 146 173 142 147 135 153

    46 Test formativi (vecchio curriculum)

  • Capitolo 4

    Approfondimenti: distribuzione normale epercentili

    4.1 Distribuzione normale

    Abbiamo già visto come spesso, in presenza di una distribuzione di frequenze relative ad un insiemesufficientemente ampio di dati l'istogramma assume la classica forma a campana. Tale tipologiadi distribuzione è chiamata distribuzione normale o distribuzione gaussiana. Tale distribuzione ècaratterizzata dalla seguente funzione di densità di probabilità:

    p(x)=1

    � 2�p � e[−

    1

    2(x−��

    )2] (4.1)

    in cui � è la media dei valori x, � lo scarto quadratico medio, x il valore di cui si vuol conoscere laprobabilità. Tale funzione ha l'interessante proprietà avere l'area totale tra la curva e l'asse dellex calcolata da −1 a +1 pari ad 1. (Il motivo della frazione anteposta alla funzione esponenzialeè proprio quello di normalizzare la curva per ottenere l'area pari ad 1).

    4.1.1 Variabili standardizzate

    Siccome ogni singola analisi statistica produce una curva diversa e siccome il calcolo dell'area sot-tesa alla curva non è semplicissimo e coinvolge l'utilizzo degli integrali su limiti infiniti per utilizzarele informazioni della curva di Gauss è più agevole utilizzare la curva di Gauss standardizzata e lerelative tabelle precalcolate da cui si può dedurre rapidamente l'area sottesa ad un determinatosettore della curva per poi risolvere vari problemi di statistica. L'equazione della funzione di Gaussstandardizzata è la seguente:

    f(z)=1

    2�p � e−

    z2

    2 (4.2)

    in cui il valore di z non è più un valore che appartiene alla distribuzione ma è un valore standar-dizzato che si ottiene mediante la seguente trasformazione:

    z=x− ��

    (4.3)

    Come interpretazione grafica della standardizzazione della curva si può dire che si è proceduto nelcentrare il grafico della curva in modo che il valore corrispondente alla media coincida con x= 0(traslazione orizzontale della curva con x−�) e successiva regolazione dell'ampiezza della campanacon il fattore 1

    �.

    49

  • 0.0

    0.1

    0.2

    0.3

    0.4

    −5 0 5 10

    x

    Den

    sità

    funzione

    d01.v

    d02.v

    d52.v

    Figura 4.1. Standardizzazione della distribuzione di Gauss

    Questo valore standardizzato viene usato sia per valutare le aree sotto la curva di Gauss sia perparagonare risultati statistici che hanno medie e scarti quadratici differenti tra loro.

    4.1.2 Comparazioni tra statistiche differenti

    Esempio 4.1. Ad un esame finale di matematica la media dei voti è stata 72 e lo scarto quadraticomedio 15; nella stessa sessione di esami la media dell'esame di fisica è stato 80 con uno scartoquadratico medio di 8. Se uno studente ha ottenuto il punteggio di 80 all'esame di matematica edi 84 a fisica, in quale dei due esami si è comportato meglio?

    Il rendimento nei due esami non è direttamente confrontabile. Tuttavia è possibile convertire ilrendimento in una variabile standardizzata e si ottiene

    zmatematica =80− 72

    15=0.5333 (4.4)

    zfisica =84− 80

    8=0.5 (4.5)

    Per cui si può affermare che seppur di poco, nell'esame di fisica il candidato si è comportato unpo' meglio (rispetto alla media del corso).

    4.1.3 Utilizzo delle variabili standardizzate per stimare valore statisticiin base a medie e scarti quadratici

    Esempio 4.2. La lunghezza media di 500 foglie di lauro di un certo cespuglio è di 151mm e loscarto quadratico medio è di 15mm. Assumendo che la distribuzione delle foglie sia di tipo normale,trovate quante foglie hanno una lunghezza compresa tra 120 (minimo) e 155 (massimo) mm.

    Si procede innanzitutto standardizzando le due lunghezze limite del problema:

    zminimo =120− 151

    15=−2.066667 (4.6)

    zmassimo =155− 151

    15=0.2666667 (4.7)

    Cercando sulla tavola degli integrali della curva normale si vede che per 2.07 l'area è 0.4808 mentreper 0.27 è 0.1064. (Si noti come la curva a campana è simmetrica e quindi i valori negativi sonoidentici a quelli positivi!).

    50 Approfondimenti: distribuzione normale e percentili

  • Nel caso qui trattato l'area che determina densità di probabilità di trovare foglie (e quindi indicala proporzione rispetto all'insieme globale di foglie) è data dalla somma della zona da −2.07 a 0con la zona che va da 0 a 0.27 e quindi l'area sottesa alla curva normale è:

    0.4808+ 0.1064= 0.5872 (4.8)

    Siccome la curva è standardizzata e l'area totale è 1 questo vuol dire che il 58.72% delle foglie presein considerazione sono all'interno della forchetta di lunghezze da 120 a 155 mm e quindi si hanno:

    500 � 58.72100

    = 293.6 (4.9)

    Cioè si può ipotizzare che 294 foglie abbiano una lunghezza corrispondente alla forchetta di lun-ghezze che ci interessa.

    4.1 Distribuzione normale 51

  • 4.1.4 Tavola degli integrali della curva normale

    zzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzz

    0.0

    0.1

    0.2

    0.3

    0.4

    −4 −2 0 2 4

    Densità cumula


Recommended