+ All Categories
Home > Documents > Appunti Di Statistic A Peppe

Appunti Di Statistic A Peppe

Date post: 15-Jul-2015
Category:
Upload: giuseppe-russo
View: 44 times
Download: 0 times
Share this document with a friend

of 52

Transcript

1 Appunti di Statistica La statistica una disciplina scientifica che trae i suoi risultati dalla raccolta, elaborazione e analisi dei dati sperimentali e osservazionali. Studia i fenomeni collettivi e di massa con il metodo della ricerca empirica. La statisticanonaggiungeulteriorielementidiinformazionerispettoaidatiraccolti,mapermettedi condensare le informazioni che possono riguardare sia il mondo naturale che quello sociale. Essa ha anche una funzione predittiva, perch in base allanalisi del passato si pu estendere il risultato ottenuto al futuro. Le variabili statistiche. Possono essere: Quantitative, se vengono espresse da un numero (et, numero di figli, reddito, etc.). Qualitative, se non possono essere espresse da un numero (sesso, stato civile, etc). Pergestireidatistatisticisicreanodelletabellechecontengonoidatistatistici(raccoltiattraverso questionari,interviste,rilevazioni,etc.),iqualiindicanounaqualsiasiinformazionedicuisiconosceil numero di volte con cui si ripete lindagine.A seconda dei dati statistici raccolti possiamo avere: Tabella semplice o di frequenza assoluta. Tabella delle frequenze relative. Tabella multipla e a doppia entrata. Tabella per classi. Tabella semplice o di frequenza assoluta. Supponiamo di indagare un semplice fenomeno , ovvero laltezza dei ragazzi di una determinata scuola. Avremo una tabella del genere: Intensitfrequenzadefinizioni classi o modalit (K) Frequenze ni AltezzaNumero dei ragazzi 138(dato Xi ) 1 (dato n1 ) Frequenza assoluta (del dato Xi 1) 140 (dato Xi 2) 3 (dato n2) 145 (dato Xi 3) 5 (dato n3 ) Frequenza assoluta (del dato Xi3 ) 148 (Etc) 3 (Etc) 1494 1513 1521 TotaleTotale 102320 Oni n Totale (o sommatoria) freq. assolute 2 Nella tabella i valori di destra rappresentano la frequenza assoluta di ciascun dato (ni), ovvero il numero di volte che il dato di sinistra Xi stato osservato. Ad esempio nella tabella abbiamo che laltezza di 138 cm stata osservata una sola volta (Xi), quindi la frequenza assoluta di quel dato = 1 . Il dato 145 cm (dato Xi 3) ha una frequenza assoluta = 5 , ovvero avremo un ni = 5 . Iltotale(n)esprimelasommatoriadellefrequenzeperognidato(Xi)epuessereespressa matematicamente con la seguente formula: Oni = n1 + n2 + n3 +etc ovvero 1 + 3 + 5 + 3 + etc.. = 20 Ma nelluso della tabella dati anche utile conoscere la sommatoria della modalit o delle osservazioni: Oxi = X1 + X2 + X3 +etc ovvero 1 + 3 + 5 + 3 + etc.. = 1023 In alcuni casi utile calcolare la frequenza relativa , valore che indica il rapporto tra la freq.assoluta diundatoediltotaledellefreq.assoluteosservate,ovveroicasiosservati.Questorapportoviene misuratoconunnumerodecimalecompresotra0e1,oinpercentuale.Possiamotradurrequesto rapporto matematicamente con la formula: fi = ni / n considerando la tabella desempio, avremo le seguenti frequenze relative : classi o modalit (K) Frequenze ni Frequenze relative fi AltezzaNumero dei ragazzi 138 1 0.05 (1/20) 140 3 0.15 (15%) (3/20 * 100) 145 5 0.25 (5/20) 148 3 1494 1513 1521 TotaleTotale 102320 OxiOni La somma delle frequenze relative sempre uguale a 1 (Ofi = O ni / n =1) . Moltiplicando il valore di 3 unafrequenzarelativaotteniamoilsuovalorepercentualechealmassimoassumevalore100.Inoltre eventuali problemi di arrotondamento vanno superati aggiungendo o sottraendo, ad esempio, 0.1 . Sevogliamoottenerelefrequenzerelativecumulative(opotremmoanchescriverefrequenze relative sommate) dobbiamo semplicemente sommare i valori di frequenza assoluta che ci interessano. Ad esempio: K (modalit)ni (frequenze)fi (freq.relat)F1, F2, frequenze relative cumulate (Fi) 18 (et)10.1F1= ni1/n il 10% ha 18 anni di et ma 2520.2F2= F1+ ni2/n il 30% ha tra 18 e 25 anni e 2830.3F3= F1+F2 + ni3/n il 60% ha tra i 18 ed i 28 anni, inoltre 3040.4F4= F1+F2+F3+ ni4/nil 100% ha tra i 18 e 30 anni Totale 10 (n)( somma = 1) Prima di continuare va ricordato che: SidefinisceINTENSITAdiuncarattereilnumerocheesprimeilsuoammontare,misurao grandezza. Es. nella tabella sopra vediamo lintensit 28, ovvero ci che indica la grandezza che in questo caso si riferisce allet, quindi al numero di anni del campione analizzato. SidefinisceFREQUENZAilnumerodelleunitchepresentanolastessamodalit,cioilnumero delle volte che quella intensit si ripete. Es. nella tabella vediamo che per lintensit 28 (et rilevata nellapopolazioneesaminata)abbiamounafrequenzadi3,ovveronelcampionesiripeteper3 volte la stessa modalit, cio per 3 volte troviamo persone che hanno 28 anni di et. Tabella riassuntiva 4 Ovviamente se vogliamo comprendere i dati che si rilevano a fini statistici, essi devono essere sistemati in tabelle(comevistofinoadora)dandovitaallaDISTRIBUZIONESTATISTICA.Questedistribuzionipossono assumere diversi caratteri a seconda di ci che esprimono, come la quantit o la qualit di un dato rilevato. PotremoavereunaDISTRIBUZIONESTATISTICASEMPLICEseriferitaadununicocarattere (modalit). In questocaso potremo avere una distribuzione: Perunit,ovverounasempliceelencazionedegliattributiconlaqualesipresentaciascun carattere. Di quantit (o intensit) , ovvero lammontare, la misura o la grandezza di un carattere. Di frequenze , ovvero ilnumero di volte in cui una modalit si presenta (o di ripete). Esempio Seadesempiocivienefornitaunaseriedidatirilevantiilsessopresenteallinternodellanostraclasse alluniversit, potremmo avere i seguenti dati: Peppe (M) Anna (F) Carolina (F) Francesca (F) Marzia (F) Antonio (M) Donatella (F) Giuseppe (M) Luca (M) Giovanna (F) Roberta (F) Paolo (M) Alessio (M) Federica (F) Michelle (F) Ilaria (F) oradobbiamocreareunatabellacheciaiutiacapireildatostatistico,equindi(eserciziocomesullibro pag.29)dobbiamocostruireladistribuzionedifrequenzeperladistribuzioneperunitdeidatisopra riportati. K (modalit) SESSO ni (frequenze)fi (freq.relat) frequenze relative percentuali Maschi60.375il 37,5% di sesso maschile Femmine100.625il 62,5% di sesso femminilee Totale 16 (n)( somma = 1) Abbiamo quindi ordinato i nostri dati. Ovviamente se il carattere il tempo, la distribuzione viene chiamata serie storica o serie temporale, ma esistono altri tipi di serie come le serie geografiche o territoriali. Nelleserietemporalivannodistintiifenomenidiflusso,chesiriferisconoadunintervalloditempo,dai fenomeni di stato, che indicano la rilevazione in uno specifico momento. Riprendiamo lesempio della nostra classe universitaria e supponiamo di aver rilevato che Peppe (39) Anna (20) Carolina (20) Francesca (20) Marzia (20) Antonio (25) Donatella (20) Giuseppe (25) Luca (25) Giovanna (20) Roberta (20) Paolo (28) Alessio (28) Federica (25) Michelle (20) Ilaria (25). Costruiamo le distribuzioni. K (modalit)ni (frequenze)fi (freq.relat)Ci (cumulata)frequenze relative cumulate (Fi) 20 (et)80.58F1= ni1/n il 50% ha 20 anni di et ma 2550.3113F2= F1+ ni2/n l 81% ha tra 20 e 25 anni2820.1215F3= F1+F2 + ni3/n il 93% ha tra i 20 ed i 28 anni 3910.0616F4= F1+F2+F3+ ni4/nil 100% ha tra i 20 ed i 39 anni Totale 16 (n)( somma = 1) 5 Distribuzione in classi. Seidatirilevatipresentanonumerosemodalit,convenienteaccorpareidatiinCLASSI.Sempre ritornandoallanostraclasseuniversitaria,possiamogeneraredelleclassidietincuiincluderediversi valori. Ad esempio possiamo creare una classe che includa tutti gli studenti che hanno dai 20 ai 25 anni. Ma prima bisogna notare che tra le varie modalit avremo sicuramente un valore minimo e un valore massimo, i quali saranno ovviamente contraddistinti dalle diciture Xmin e Xmax, e la cui differenza indica lampiezza dellaclassestessa(hi=XiXi-1).Percalcolarelampiezzatotaledelleclassi,alfinediordinareidati,ci rifaremo alle formule di Stugers pi avanti, includendo quindi i valori massimi e minimi tra le classi in modo da capire che ampiezza dare alla singola classe. N.b.:importantelasimbologia.|-|indicachesonoinclusiidueterminidellaclasse,cioXmineXmax, con|- si indica che incluso il termine a sinistra cio Xmin, e con-| si include solo il termine massimo di quella classe cio Xmax. Nella tabella sotto, infatti, la prima modalit include gli studenti che vanno dai 18 ai 20 anni det inclusi. La seconda, invece, include i valori compresi tra 20 e 25, ma escludendo il valore 20 anni e includendo il valore 25 anni det. K (modalit)ni (frequenze)fi (freq.relat) 18|-|20 (et)120.36 20 -|25100.30 25 -|2860.18 28 -|3950.15 Totale 33 (n)( 1 con arrot) Macomefacciamoastabilire,dopoaverraccoltoidati,comedistribuireleclassielampiezzadiogni singola classe ? Riprendiamolesempiodellanostraclasseuniversitariaesupponiamodiaverrilevatochevisonodiversi studenti compresi tra i 18 ed29 anni det. Prima ordiniamo i valori come distribuzione semplice. Quindi verifichiamo i valori Xmin e Xmax, le frequenze semplici. K (modalit)ni (frequenze) 18 Xmin2 192 204 213 225 232 243 254 263 272 283 29 Xmax1 Totale 34 (n) Ora applichiamo la formula di Sturges, la quale ci dir il numerominimo di classi da applicare : S = 1 + ( 10/3 log n) ovveroS = 1 + 3.3333 * log di 34 =1+ 3.3333 * 1.53 = 6.1 (arrotondiamo a 6) 6 Cio abbiamocalcolato il numero di classi in cuidividere i dati rilevati, quindi dovremo creare una nuova tabellacheabbia6classicheincludanotuttelemodalitcheabbiamo.Maconqualeampiezza?Cio quanti dei valori di modalit che abbiamo devono essere inclusi in ciascuna classe ? Per sapere lampiezza applichiamo la seguente formula : W = Xmax XminS dove S appunto il numero minimo di classi che abbiamo calcolato con la formula di Strurges. Quindi avremo: W =29 18 = 1.80 arrotondiamo ovviamente a 2 6 La tabella ordinata per classi dovr essere composta da 6 classi con ampiezza di 2. K (modalit)ni (frequenze) 18 |- 204 20 |-227 22 |- 247 24 |-267 26 |-285 28 |-304 Cmin e Cmax Totale 34 (n) Le medie Il concetto di media esprime una sintesi dei vari elementi della distribuzione, e tende a fornire una visione dinsieme che sintetizzi le intensit di tutti gli elementi che costituiscono il fenomeno. Le medie hanno delle propriet: Propriet della conservazione dellunit di misura.Propriet della monotonia. Propriet della consistenza.Propriet dellinternalit. La media non pu essere esterna al campo di osservazione. Classificazione delle medie. Possiamo distinguere le medie in : Medie razionali o algebriche (medie di potenza), le quali risultano dal concorso di tutti i valori. Medieposizionali(Moda,Mediana,Quartili),lequalirisultanodaparticolarielementidella distribuzione. Media ARITMETICA. La media aritmetica quel valore che sostituito alla mia distribuzione lascia inalterato il mio ammontare. Essa esprime sempre la propriet dellinternalit, ovvero risulta sempre compresa tra il valore pi piccolo ed il pi grande della serie di valori in esame. X = Oxi /nsommatoria di tutte le modalit diviso il totale delle osservazioni. Questa anche detta Media aritmetica semplice. 7 Esempio. Nei 4 anni precedenti un artigiano ha guadagnato rispettivamente 15000 , 18000, 12000 e 20000 euro.Secalcoliamolamediaaritmetica,civienerestituitoilvalorecheavrebbepotutoguadagnareogni anno se questo reddito fosse stato EQUIRIPARTITO. X = Oxi /n = 15000+18000+12000+20000/ 4 = 16250 Cio questo artigiano avrebbe potuto ottenere lo stesso risultato, con meno oscillazioni, se avesse avuto un guadagno annuale fisso di 16250. Oppure potremmo considerare questi valori come il guadagno annuo di ciascun membro di una squadra e ricavarne la media per capire come ripartire equamente il denaro. Quindi invece di dare stipendi tra 12000 e 20000 attuando una disparit di trattamento, come media potremmo dare 16250 annui a tutti e 4 gli elementi. Inunadistribuzionedifrequenzalamediaaritmeticasicalcolafacendolasommatoriadellesingole frequenze assolute moltiplicate per il valore della modalit, diviso il totale delle frequenze osservate: X = Oxi * ni n Questa media viene anche definita Media aritmetica Ponderata. Esempio. Durante uno dei nostri esami si rilevano i seguenti voti ricevuti, con le seguenti frequenze: K (modalit)ni (frequenze)xi * ni 184(18 * 4) 72 20 7140 247168 267182 275135 304120 Totale 34 (n) Oxi * ni = 817 Applicando la formula per la media aritmetica di una distribuzione di frequenza avremo : X = Oxi * ni / n = 817/34 = 24.02 ovvero il voto medio aritmetico per distribuzione di 24. Media aritmetica per distribuzione in classi. Percalcolarequestamediaabbiamoprimabisognodicapireilvaloremediodiognisingolaclasse.Per calcolare il valore medio della classe, detto VALORE CENTRALE ( VCi ), utilizziamo la semplice formula: Xi = ( ci-1 + ci )ovvero = (Cmin + Cmax della classe considerata) Quindiilvalorecentralesiottienesommandoillimiteinferioreequellosuperioreedividendoperdue. Tornandoallaclasseuniversitariaeallesameeffettuato,sevolessimocalcolarelamediaaritmeticaper questa distribuzione in classe avremo : K (modalit)ni (frequenze) VCi xi * ni 18 |- 2041976 (Xi ora = VCi) 20 |-22721147 22 |- 24723161 26 |-30528140 Cmin e Cmax 8 Totale 23 (n)524 Quindi avendo calcolato il VCi, potremo trattare i dati come un semplice calcolo di media ponderata: X = Oxi * ni / n =524 / 23 = 22.78 Abbiamo visto prima che la media aritmetica ha la propriet dellinternalit, ma essa ha anche la propriet traslativalaqualedicecheaggiungendoo togliendounacostanteC, sihaunanuova mediaaritmetica Y incrementata o ridotta del valore stesso della costante.Quindi : Y = X + C SeabbiamoX:5,10,15lamediasar10aggiungendounacostanteC=4avremocheY=9,14,19ela nuova media sar 14, ovvero la media aritmetica di X con la costante aggiunta ( 10+4). Se invece di aggiungere o sottrarre la costante essa viene moltiplicata o divisa , verifichiamo lapropriet dellomogeneit della media aritmetica. Y = X * C Se abbiamo X: 5 , 10, 15 la media sar 10 moltiplicando per una costante C=5 avremo che Y= 25, 50, 75 e la nuova media sar 50, ovvero la media aritmetica di X moltiplicato la costante aggiunta ( 10*5). Abbiamo ancora la 1 propriet, la quale dice che la media di tutti gli scarti (positivi e negativi) uguale a zero.O (x1 - X ) = 0 Se abbiamo una media di 10 e la seguente tabella, avremo:K (modalit)Xx1 - X X1= 1824.16-6.16 (18-24.16) X2=20 -4.16 24-0.16 261.84 (26-24.16) 272.84 305.84 O (x1 - X ) =0 La 2 propriet dice che la somma dei quadrati degli scarti dei valori della distribuzione dalla media aritmetica minore della somma dei quadrati degli scarti da qualsiasi numero.O (x1 - X )2 = min K (modalit)Xx1 - X 2 propriet 510-525 10 00 15525 O (x1 - X )2 = 50Se sostituiamo il valore 10 della media usata, si avranno altri valori sempre superiori. 9 Lapropriet associativa della media dice che la media aritmetica ponderata di un gruppo collettivo, compostodadueopigruppi,ugualeallamediaponderatadeisottogruppi.Prendiamoadesempio maschi (m) e femmine (f). La formula sar: X = Xf *nf + Xm * nm nf + nm Nella nostra classe, dopo un esame, abbiamo : K (modalit)ni (maschi)ni (femmine) 18 1- 201- 221- 25-2 28-1 3001 Media aritmetica Xm = 20Xf = 27 Totale (n) nm 3nf 4

X = Xf *nf + Xm * nm=27*4 + 20*3 =168= 24 nf + nm 77 Seabbiamo2gruppidistintidiosservazioni,adesempioconsiderandoivotideglistudentiedelle studentesseallinternodellanostraclasse,perpoterverificarelamediadeivotistessidovremmocreare una tabella a doppia entrata.Esempio.Abbiamolaseguentetabellacheesprimeivotipresiadunesameconlerispettivefrequenze divise appunto per sesso allinterno della classe. K (modalit)ni (maschi)ni (femmine)Totale 18 10515 23151025 25202545 2851520 3081018 Totale 5865123 Perlaproprietassociativa,possiamocalcolarelamediaaritmeticadelleduevariabilicheesistononella tabella a doppia entrata, e ricavare quindi un valore unico che ci renda il dato medio tra le osservazioni dei maschiequelledellefemmine.Primadobbiamocalcolarelamediaponderata(perchviuna distribuzionedifrequenza)perimaschi,poiperlefemmine,edinfineapplichiamolapropriet associativa. K (modalit)nim (maschi)nif (fem.)Totale nim+ nifXim * nimXif * nif 18 1051518090 23151025345230 25202545500625 2851520140420 3081018240300 Totale n= 58n= 65 nm + nf = 123 14051665 10 Avendo sviluppato i prodotti tra le modalit e le frequenze, possiamo calcolare la media ponderata per le due categorie. Xm = Oxim * nim = 1405= 24.22 n58 con la stessa formula calcoliamo la media ponderata per le donne che, sostituendo i valori numerici, = 25.61 . Quindi applichiamo la propriet associativa:

X = Xm *nm + Xf * nf=24.22*58 + 25.61*65 =168= 24.95 nm + nf 123 123 *** = se serve solo la media aritmetica totale esiste un trucco rapido. Vedere la sezione Devianza (B). Analisi dei dati. Osservando la tabella che abbiamo usato per gli esempi, possiamo analizzare la disposizione dei diversi valori (frequenze) di riga e di colonna rispetto alle varie modalit (xi). In effettipossiamo considerare la tabella come una matrice di punti in cui le colonne X e Y ci mostrano, incrociandosi, dei valori combinati per la modalit richiesta. Cos potremo verificare che per la modalit del voto 18 avremo una frequenza 10 per i maschi (n11 nij alla riga 1 colonna 1), ed una frequenza 5 per le femmine (n12 - nij alla riga 1 colonna 2). Il totale di ogni riga ci rende, ovviamente, la frequenza marginale di riga (n.1 ed n.2), come per ogni colonna avremo la frequenza marginale di colonna (n1. e n2.), le quali si incrociano nel totale n. Matematicamente possiamo scrivere che : Or ni j =n.jovvero la sommatoria dei valori di colonna n.1, n.2, n.j.Oc ni j =ni.Ovvero la sommatoria dei valori di riga n11, n12, nj...Oc Or ni j =n 11 Media armonica. Ad alcune operazioni non possono corrispondere delle medie aritmetiche significative e senza errori. E il caso della velocit. Verifichiamo questo piccolo esempio: Si considerino due tragitti effettuati alle rispettive velocit su una distanza di 200 Km. K (velocit) Km/hh (ore) 1002 2001 Media aritmetica Xm = 150 n= 2 Come vediamo, applicando la semplice media aritmetica si sovrastimerebbe il risultato. Nel caso in cui la grandezza lineare possiamo usare la media aritmetica, ma quando vi sono grandezze non lineari come la velocit, si deve usare la Media armonica semplice o ponderata.==ni ixnMh11;semplice Nellesempio del nostro duplice tragitto avremo cheMh =2=2 = 2/0.015 = 133.3 Kmh 1/100 + 1/200 0.01 + 0.005 Quindi il valore corretto 133 Kmh e non 150 come quanto dichiarato dalla media aritmetica, la quale in questi casi sovrastima la misurazione.La Media armonica ponderata viene usata, ovviamente, per una distribuzione.==ni iixnnMh1 ponderata Velocit Km/hDistanza Km h (ore) 1002002 2004002 600 Nella tabella riportata vediamo che alla velocit di 100 e 200 Km/h percorriamo in 2 ore 1 volta 200 km e unaltra volta 400 Km. Vediamo la media ponderata cosa ci rivela. Mh =600=600 = 600/4 = 150 Kmh 200/100 + 400/200 2 + 2 Per il calcolo della velocit media possiamo anche ricordare di applicare la formula in questo modo: Mh = Spazio totale percorso / tempo totale impiegatoO pi facilmente ricordando le unit dimisura, per cui : Mh = Km/kmhovvero nella nostra tabella le Xi saranno i valori di Km/h, mentre le ni saranno i Km Facciamo un altro esempio. Un ragazzo compra una macchina nuova e per provarla percorre 3 tratti di 40 km a differenti velocit, secondo la tabella sotto. Calcolare la velocit media. 12 Velocit Km/hDistanza Km Valori XiValori ni 3040 3540 7040 120 Mh =120=120 = 120/3,04 = 39,47 Km/h 40/30 + 40/35 + 40/70 1,33 + 1,14 + 0,57 Altro caso pu essere quando si hanno solo i valori di velocit. Osserviamo questo esercizio: Un autista per andare da Napoli a Roma mantiene una velocit media di 120 Km/h, ma al ritorno mantiene una velocit di 140 Km/h. Calcolare la velocit media per lintero percorso. La tabella in questo caso sar Velocit Km/hTempo Valori XiValori ni 1201 1401 n = 2 Ovvero lautista percorre 120 e 140 km in unora, quindi il nostro ni sar di 1 ora per ogni valore che abbiamo. Applicando la formula della media armonica avremo : ==ni iixnnMh1 Mh = 2 =2= 2/0,0154 = 129,87 Km/h 1/120 + 1/1400,0083 + 0,0071 13 Media geometrica. Se la media aritmetica applicata a scale lineari, esistono altre medie applicate su scale non lineari, ovvero logaritmiche, di reciproci, ecc.La media geometrica il valore medio pi importante dopo la media aritmetica. La mg si applica con valori positivi non nulli (se uno dei valori 0, non si pu calcolare).Viene usata per sintetizzare dati che ha senso moltiplicare fra loro o per riassumere distribuzioni che hanno andamento geometrico . Essasi applica per determinare un tasso di incremento / decremento mediocome prezzi dei prodotti, andamento della popolazione, etc. La media geometrica viene quindi utilizzata quando si vuole analizzare il variare di un fenomeno nel tempo , per esempio il tasso di variazione dei prezzi o i tassi di rendimento di capitali. nniix Mg==1; nniniix Mg==1 nxMgnii ==1loglog ; nx nMgnii i ==1loglog Proviamo a comprendere come funziona con un esercizio : AnnoIncremento annuo (%)Incremento annuo (Xi) Cio il valore dato pi lincremento 199820,021+0,02 199940,041,04 200050,051,05 200160,061,06 200240,041,04 n= 5 osservazioni In questo esempio dobbiamo calcolare il tasso di incremento medio dellinteresse i . Prima di tutto dobbiamo calcolare il nostro capitale nei diversi istanti di osservazione, cio anno dopo anno. Quindi avremo che: Il capitale K tot = (1+ 0,02) * (1+0,04)* (1+0,05) * (1+0,06) * (1+0,04) Ovvero1,02 + 1,04 + 1,05 + 1,06 + 1,04 = 1,227 Cio abbiamo calcolato il capitale totale con gli interessi maturati anno dopo anno. Ora per ci serve di conoscere il tasso di interesse, ed essendo moltiplicazioni dobbiamo applicare i logaritmi. Log (1+ i) = 1/5 ( log 1,02 + log 1,04 + log1,05 + log 1,06 + log 1,04) Dove osserviamo che 1/5 prende a riferimento il numero di osservazioni che abbiamo in tabella. Ora eseguiamo i calcoli con i logaritmi.Log (1+ i)5 = 1/5 ( 0,0086 + 0,017 + 0,021 + 0,025 +0,017) = 1/5 * 0,088 = 0,017 Questo risultato per un logaritmo che va eliminato. Per poterlo fare usiamo la 2 funzione sulla nostra calcolatrice scientifica ottenendo una potenza a base 10 con esponente uguale proprio al nostro valore (1+i). Premiamo il tasto della 2 funzione e poi scriviamo 0.017 , e otteniamo 1,039 , ovvero il nostro valore(1+i) = 1,039 14 Per eliminare l 1 usiamo le normali regole matematiche sottraendo a tutti i termini proprio 1 e ottenendo il reale valore di i , cio del tasso di incremento : 1-1 +i = 1,039 -1= 0,039cio i = 0,039 possiamo arrotondare e dire che i = 0,04 Dallo svolgimento dellesercizio, e dalle formule, capiamo che possiamo semplificare di molto i calcoli applicando la formula : media geometrica semplice media ponderata , con N = sommatoria delle ni Rivediamo ora lesercizio velocizzandolo con la formula vista sopra : AnnoIncremento annuo (%)Incremento annuo (Xi) Cio il valore dato pi lincremento 199820,021+0,02 199940,041,04 200050,051,05 200160,061,06 200240,041,04 n= 5 osservazioni Mg = 5 (1+ 0,02) * (1+0,04)* (1+0,05) * (1+0,06) * (1+0,04) = 51,22789 = 1,04 (x arrotondamenti) Come prima abbiamo(1+i) = 1,04per cui = 1-1 +i = 1,04 -1= 0,04quindi i = 0,04 Proviamo con i dati dellesercizio di pagina 105.

AnnoIncremento annuo (%)Incremento annuo (Xi) Cio il valore dato pi lincremento 150,051+0,05 260,061,06 35,50,0551,055 470,071,07 56,50,0651,065 n= 5 osservazioni Velocizziamo i calcoli con la formula semplificata: 15 Mg = 5 (1,05) * (1,06)* (1,055) * (1,07) * (1,065) = 51,33807 = 1,059 Come prima abbiamo(1+i) = 1,059per cui = 1-1 +i = 1,059 -1= 0,059quindi i = 0,059 Sul libro si segue il procedimento che abbiamo visto prima, cio con i logaritmi, procedimento che pi lungo e rischia di apportare errori in fase di calcolo. Ma cosa succede se abbiamo un importo reale su cui calcolare il tasso di interesse ? Semplicemente si avr il passaggio in pi del calcolo del capitale al fine di arrivare a calcolare sempre il tasso di interesse medio. Vediamo questo esempio: AnnoImporto di deposito in banca a titolo di investimento (An) Incremento annuo (%)Incremento totale del capitale (In) (Xi) Incremento =In i / An i 1 500 An1 2 510 In1 1,02 2510 2,5522,75 1,025 3522,75 5,5551,50 1,055 4551,50 6584,59 1,06 5 584,59 An5 6,5 622,58 In5 1,065 n= 5 osservazioni Mg = 5 (1,02) * (1,025)* (1,055) * (1,06) * (1,065) = 51,2451=1,044i = 0,044 = 4,4 % Se proviamo ad usare laltra formula, anche se con pi passaggi, otterremo lo stesso risultato. Come per le altre medie, anche nella media geometrica si ha la possibilit di dover usare la Media geometrica ponderata, cio quando vi sono delle distribuzioni in frequenza. Abbiamo gi visto la formula sopra, ma osserviamo come funziona il calcolo con alcuni esempi. Partiamo con una piccola tabella. Prima di tutto osserviamo che i valori della nostra modalit sono una progressione geometrica ( 8 diviso 2 4 , 4 diviso 2 2 , o 8 diviso 4 2). Valori XiValori ni 82 43 22 7 Mg = 7 82 * 43 * 22 = 716384=4 16 Da notare che la media si dice geometrica perch funziona come se fosse simile alla mediana. Notiamo, infatti, che in una distribuzione dispari con progressione geometrica, il valore centrale proprio la media geometrica. In questo caso appunto il 4 ( 8 4 2). 17 Media quadratica. E un altro indice di posizione che si presta alle misure di superficie. In particolare la si usa quando si vuole eliminare i segni in presenza di valori negativi e positivi.Essa esprime la radice quadrata della sommatoria al quadrato delle varie modalit, diviso il totale delle frequenze osservate. Quindi pu essere facilmente riassunta con la seguente formula, la quale esprime la Media quadratica semplice: nxMqnii ==12; Ovviamente la media semplice va utilizzata per ni = 1 , cio senza una distribuzione in frequenza dei dati rilevati. Qualora i nostri dati sono distribuiti in frequenze, ovviamente abbiamo bisogno di una media quadratica ponderata: nn xMqnii i ==12 Ma sufficiente notare che per ni = 1 , la media ponderata esprime direttamente la media quadratica semplice, quindi per comodit sempre facile e immediato usare la formula della Media quadratica ponderata. Esempio: Un proprietario terriero ha due terreni confinanti di 400 e 200 m2 e vuole ridefinire il perimetro e la superficie dividendoli a met.Come si nota ha 1 solo terreno con lato 20 metri, e solo 1 terreno con lato 14 metri, quindi non vi una distribuzione in frequenze perch il dato ridotto allunit. Superfice (m2)Lato in mni 40020 1 196141 n= 2 Applichiamo la formula ponderata direttamente: Mq =202 * 1 + 142 * 1=400 + 196 = 596 = 298= 17,26 m 222Comesi nota, per n = 1 in effetti come se stessimo usando la media semplice, quindi possiamo sempre utilizzare la formula della media ponderata senza porci il problema della distribuzione. Osserviamo invece un caso con la presenza di una distribuzione di frequenze. Il nostro proprietario ha ora 4 superfici di terreno, di cui 2 con la stessa dimensione e quindi con lo stesso lato. E ovvio che non possiamo applicare la media semplice ma dobbiamo usare la ponderata. Superfice (m2)Lato in mni 40020 1 196142 324181 n= 4 18 Svolgiamo lesercizio e verifichiamo il risultato. Mq =202 * 1 + 142* 2 + 182 * 1 = 400 + 392 + 324 =1116 = 279= 16,7 m 44 4Da notare un importantissimo dato. Il totale delle nostre superfici e dei lati che ne esprimono i valori in metri quadrati, se resi con una normale media aritmetica, ci farebbero perdere molta superficie. Infatti la superficie globale che ha il proprietario di 1116 m2, e dividendone i lati in media aritmetica avremmo un risultato di 16,5 m che riportando la dimensione inm2 ci renderebbe 4 singole superfici di solo 272,5 m2 , ovvero un totale di soli 1089 m2 , con una perdita di ben 27 m2 . Invece, pur considerando un piccolo scarto dovuto agli arrotondamenti matematici, la media quadratica ponderata ci ha restituito un lato di 16,7 m che corrisponde a 4 superfici di 278,89 m2, con un totale di 1115,56 m2contro i 1116 che il proprietario sa di avere prima del ridimensionamento. Quindi la media quadratica ci rende in modo pi preciso il valore medio delle superfici. Ultima nota per semplificare il calcolo. Possiamo moltiplicare direttamente, se abbiamo il dato come in questo esercizio, il valore della superficie in m2per la frequenza assoluta, sommare il tutto e dividere per n, tutto sotto radice quadrata. Ovvero otterremmo direttamente il 1116/4 risparmiandoci un passaggio. Media di potenza. Questa una media che consente, variando un valore, di ottenere tutte le medie. Formula generale delle medie di potenza: hnihihnxM==1 ; hniihihnn xM==1 32101hhhhhMediaMediaMediaMediaMediacubicaquadraticaaritmeticageometricaarmonica 19 Medie di posizione Moda. E una media che ci indica la modalit che assume la maggiore frequenza.Se vi una solo modalit che assume la massima frequenza, allora la moda unimodale. Al contrario se abbiamo due modalit con la stessa frequenza, la moda sar bimodale (trimodale per 3 modalit, etc..). Quindi, nel caso di modalit non in classi la moda sar il valore che assume la maggior frequenza assoluta: K (modalit)ni (frequenze) Moda 184 20 7moda 22 6 26 5 Et in aula Totale 23 (n) Ma quando la modalit in classi dobbiamo calcolare la densit di frequenza, la quale uguale a: di = ni/hi ovvero la frequenza assoluta iesima diviso lampiezza della classe iesima che consideriamo. K (modalit)ni (frequenze) hi di 18 |- 20522,5 20 |-23732,33 22 |- 25632 26 |-30541,25 et Totale 23 (n)Moda = 18 |- 20 La moda sar il VCi della classe identificata. In questo caso sar 18+20 /2 = 19 Mediana. E una media di posizione che suddivide la distribuzione, ordinata in senso non decrescente, in due parti, lasciando un numero uguale di termini a destra e a sinistra del valore mediano. Esistono diversi modi, matematici e anche visivo/geometrici, per calcolare la mediana di una distribuzione. Matematicamente possiamo facilmente calcolarla con le seguenti formule: Per una distribuzione dispari avremoMed = n + 1 2 Per una distribuzione pari avremo Med =(n/2) + (n/2 + 1) 2 Vediamo degli esempi per calcolare la mediana. 20 Nella nostra classe universitaria gli studenti hanno assunto giornalmente , nellultima settimana, i seguenti caff : 10111520313539 Come vediamo n = 7 , quindi un numero dispari e possiamo applicare facilmente la formula vista sopra, la quale ci dar :Med = n + 1= 7 + 1 =8= 4 (Attenzione!!! Indica la posizione da considerare!!!) 2 2 2 La media di questa distribuzione 20. Come si nota dalla sequenza dei dati, ho evidenziato gi precedentemente il numero 20, perch geometricamente (per piccole distribuzioni) possibile subito capire il valore della mediana rifacendosi alla sua definizione. Infatti a destra e sinistra del numero mediano devono restare lo stesso numero di termini, in questo esempio 3 e 3. Lo stesso si pu fare in caso di numero pari. Vediamo se i caff presi sono rilevati negli ultimi 10 giorni, quindi con n = 10 , ovvero pari. 10111520313539455160 Med =(n/2) + (n/2 + 1) =10/2 + (10/2 + 1)=5 + 6= 5,5 (Attenzione!!! la posizione da considerare!!!) 2 22 La media di questa distribuzione 33 , ovvero la media aritmetica delle due posizioni che circondano il valore indicato. Quindi la mediana la posizione 5,5 , quindi sommiamo 35 + 31 e dividiamo per 2. Quando si deve calcolare una mediana per una distribuzione in frequenza, ovviamente non si pu trarre efficacemente il numero di posizione attraverso la semplice formula vista. Questo perch non potremmo scrivere tutti i valori e poi contare e trovare la posizione corrispondente. Quindi ci aiutiamo attraverso il ricorso alle frequenze relative e alle frequenze relative cumulate. Vediamo come : K (modalit)ni (frequenze) fi FiCi 18 50,2170,2175 20 70,3040,52112 22 60,2600,78118 26 50,217123 votiQui n/2 = 11,5 Totale 23 (n)Moda = 20Trucco rapido Il primo valore di frequenza relativa cumulata che supera 0,5 la mediana. Un altro sistema, pi rapido, per identificare la mediana per una distribuzione in frequenza lutilizzo della Frequenza Cumulata assoluta (Ci ). E infatti sufficiente dividere n per 2 per calcolare il valore mediano e poi sommare le frequenze assolute ( ni ) e trovare il primo valore che corrisponde a n/2 . Quel valore ci indica la mediana della modalit. Nellesempio sopra, vediamo che n/2 = a 11,5 ed il primo valore che supera questo dato, tra le frequenze assolute cumulate il 12, il quale corrisponde proprio alla modalit 20 che abbiamo visto essere la mediana. 21 Un po pi complicato risulta il calcolo della mediana per distribuzioni in classi. Prima di tuttodobbiamo agire come se non vi fossero le classi ed identificare subito la classe mediana, poi utilizziamo la seguente formula: Med = Liminf+ (Limsup-Liminf ) ( n/2 C i-1)ni Dove i Limiti inf e sup indicano appunto il valore minimo e massimo della classe in questione, ni la frequenza assoluta della classe mediana identificata,e Ci-1 indica il valore di frequenza assoluta cumulato precedente a quello indicato dal calcolo della mediana senza considerare le classi. Vediamo lesempio : Una volta calcolata la classe mediana con il trucco della Cumulata, applichiamo la formula per avere il valore reale mediano, il quale dovr ovviamente trovarsi allinterno della classe stessa. K (modalit)ni (frequenze)Ci 18 |- 205 5 C i-1 20 |-23712 22 |- 25618 26 |-30523 votiQui n/2 = 11,5 Totale 23 (n)Trucco rapido Med = Liminf+ (Limsup-Liminf ) ( n/2 C i-1) = 20+ 23-20*(11,55) = 20+3*6,5= 20 + 19,5 = 20 + 2,78 = 22,78 ni777 Ma esiste anche unaltra formula, che pu essere applicata quando conosciamo o vogliamo calcolare i valori di frequenze relative e cumulate. ( )( )( )11 inf supinf 25 , 0 + = =r rrF FF L LL Q Med(questa la formula usata dal Prof.) K (modalit)ni (frequenze) fi FiCi 18 |- 2050,2170,217 (F r-1 )5 20 |-2370,3040,521(F r )12 22 |- 2560,260.18 26 |-3050,217..23 votiQui n/2 = 11,5 Totale 23 (n)Trucco rapido Sostituendo i valori Fr e Fr-1 che troviamo nella tabella, otteniamo lo stesso risultato, ma con qualche arrotondamento in meno. In effetti il risultato pu essere leggermente diverso. 22Quartili. Iquartiliidentificanodeivaloripercentualiprecisidellanostradistribuzione.Inaltritermini,lafrequenza cumulata fino ai tre quartili circa 25%, 50% e 75% rispettivamente. Il secondo quartile anche detto mediana, e divide la popolazione in due parti ugualmente popolate, delle quali il primo ed il terzo quartile sono le mediane. La differenza tra il terzo ed il primo quartile un indice di dispersione, lo scarto interquartile; i quartili vengono inoltre utilizzati per rappresentare un Box-plot. La formula per calcolare il primo quartile, corrispondente al 25% della nostra distribuzione. ( )( )( )11 inf supinf 125 , 0 + =r rrF FF L LL Q Formula 1.1 La formula per calcolare il terzo quartile, corrispondente al 75% della nostra distribuzione semplicemente la stessa ma va inserito il valore 0,75. Formula 1.2 Per velocizzare i calcoli possiamo usare la formula gi vista per la mediana, considerando che la mediana in effetti il secondo quartile, e che quindi la formula pu tranquillamente essere usata anche per calcolare gli altri valori allinterno della nostra distribuzione. In effetti in questa formula possiamo sostituire il valore di n ( n/2 o n/4 o di n) e adattare il valore della frequenza assoluta cumulata Q1 = Liminf+ (Limsup-Liminf ) ( n/4 C i-1) Q3 = Liminf+ (Limsup-Liminf ) ( 3/4n C i-1)nini Vediamo come calcolare i quartili attraverso un esempio completo. K (modalit)ni (frequenze)Ci 10 |- 151515Classe del Q1 pern/4 = 13 15 |-201227Classe mediana pern/2 = 26 20 |-23835 23 |-27944Classe del Q3 per di n = 39 27 |-30347 30 |-37352 Il primo valore uguale o immediatamente Totale 52 (n)superiore al valore calcolato In questo esercizio vediamo le classi di reddito (x 1000) dei dipendenti di unazienda. Dobbiamo descrivere il fenomeno statistico, quindi calcolare media aritmetica, moda e mediana, e calcolare in pii quartili. Per effettuare rapidamente i calcoli, evitando di calcolare le frequenze relative, calcoliamo subito le frequenze assolute cumulate, dalle quali otterremo le classi di riferimento per la mediana e per i quartili. Per la mediana: n/2 = 26 Questo ci da il valore di riferimento per individuare la classe mediana. Infatti il primo valore delle frequenze cumulate assolute che uguale o superiore a 26 ci indica il dato che cerchiamo. 23 Per questo calcolo, quindi, il Limite inf. sar 15 , mentre il nostro Ci-1 sar uguale a 15, ovvero al valore precedente a quello della classe in cui ricade la mediana stessa. Lampiezza h sar ovviamente 5, cifra che esce dalla normale sottrazione dei valori massimi e minimi della classe indicata, ovvero 20-15, ed ni la frequenza assoluta della classe identificata .Med = 15

+5 (26 15) = 15 + 55 =15+4,583 = 19,583 12 12 Per i quartili usiamo la stessa formula con la differenza che dobbiamo risettare le classi in cui ricadono questi valori, in modo da ottenere i limiti inferiore della classe ed i valori di Ci-1 da usare. Per il primo quartile Q1: n/4 = 13 Questo ci da il valore di riferimento per individuare la classe mediana. Infatti il primo valore delle frequenze cumulate assolute che uguale o superiore a 13 ci indica il dato che cerchiamo. Come per la mediana, a questa classe individuata ci si riferisce per i Limiti e per il Ci-1. Quando, come in questo caso, non esiste nella distribuzione un valore precedente di fi o di Ci, allora lo si considera = 0 . Q1 = 10

+5 (13 0) = 10 + 65 =10+4,33 = 14,33 15 15 Per il terzo quartile Q3: di n = 39 Questo ci da il valore di riferimento per individuare la classe mediana. Infatti il primo valore delle frequenze cumulate assolute che uguale o superiore a 39 ci indica il dato che cerchiamo. Come per la mediana, a questa classe individuata ci si riferisce per i Limiti e per il Ci-1. Q3 = 23

+4 (39 35) = 23 + 16 =23+1,77 = 24,77 99 Per la moda: Come sappiamo la moda la modalit che assume la maggior frequenza. Ma in questo caso abbiamo delle classi, quindi necessitiamo di conoscere la densit delle classi per conoscere quale classe assume la maggior frequenza. Come sappiamo la densit si calcola dividendo ni per lampiezza della sua classe. K (modalit)ni (frequenze)di 10 |- 15153La densit di questa classe la maggiore. 15 |-20122,4 20 |-2382,66 23 |-2792,25 27 |-3031 30 |-3731,4 Totale 52 (n) La classe che assume la maggiore densit la prima, ovvero 18 |- 15, ma per determinare il valore preciso della moda dobbiamo prendere il valore centrale della classe ( 10+15/2 = 12,5). Mo = 12,5 Ora se avessimo, o volessimo calcolare, le frequenze relative e le frequenze relative cumulate, potremmo usare le formule 1.1 e 1.2 viste sopra. Ma se non abbiamo necessit di calcolare le fi, ci conviene usare lultimo metodo visto, il quale risulta rapido ed efficace. 24 Indici di variabilit assoluta I valori medi visti fino ad ora sono utili per la descrizione sintetica di un fenomeno, ma non ci danno alcuna informazione sulla distribuzione dei dati. Quindi per valutare in modo sintetico la distribuzione dei dati, si utilizzano gli indici di variabilit (o dispersione) che possono essere sia relativi che assoluti : Campo di variazione (range) Scarto medio dalla media Varianza e scarto quadratico medio Coefficiente di variazione La variabilit lattitudine di un fenomeno quantitativo ad assumere differenti modalit. Il campo di variazione (indice di variabilit assoluta). Esso il pi semplice degli indici di variazione e rappresenta la differenza tra il dato pi grande e quello pi piccolo della nostra rilevazione. In effetti rappresenta lampiezza dellintervallo dei dati. W (o Cv) = Xmax-X min Vediamo un esempio sempre con la nostra classe universitaria. Alle 3 prove intercorso di Statistica abbiamo ottenuto i seguenti voti: 1 prova2 prova3 prova Peppe26 30 Xmax 26 Anna2725 30 Xmax Irina 29Xmax24 X min25 X min Roxana 25X min 2826 W= 29-25 = 4W= 30-24 = 6W= 30-25 = 5 voti X = 26,75X = 26,75X = 26,75 Come notiamo, gli studenti hanno avuto diverse performances ai test, ma la media aritmetica esprime lo stesso valore, ovvero non abbiamo indicazioni pi accurate su ci che realmente avvenuto durante lanno accademico. Dal campo di variazione otteniamo gi una prima risposta. Notiamo che il campo di variazione tra le 3 prove differente ed esprimeuna maggiore concentrazione nel primo caso ed una maggiore dispersione negli altri due casi (2 e 3 test). Purtroppo questo indice non robusto perch risente di eventuali valori anomali. Devianza o somma dei quadrati degli scarti della media. ( ) ( )= =niix x X dev12; per unit( ) ( )= =nii in x x X dev12 per distribuzioni in frequenza La devianza semplice, o ponderata, esprime la distanza, lo scostamento, dal valore centrale della media, ed un indice di dispersione. Esso anche il numeratore della pi usata Varianza. 25 Varianza e Scarto quadratico medio (deviazione standard). Sono gli indici di variabilit pi utilizzati perch tengono conto di tutti i dati e misurano la dispersione dei dati intorno alla media. Quanto pi i dati sono dispersi, tanto maggiori saranno questi indici. Nessuna di queste misure pu essere negativa. La Varianza , che indichiamo anche con S2,rappresenta la media aritmetica dei quadrati delle distanze dalla media aritmetica. S2 = ( )( )nx xX Varnii == =122 per unit ( )nn x xnii i ==122 ;per distribuzioni in frequenza Possiamo notare che il numeratore di questo indice di dispersione proprio la devianza. Oltre alla formula euristica, esiste una formula alternativa e rapida : 2 2 2x Mq = ovvero la media quadratica della distribuzione elevata al quadrato, meno la media aritmetica al quadrato. 1 prova2 prova3 prova Peppe26 30 Xmax 26 Anna2725 30 Xmax Irina 29Xmax24 X min25 X min Roxana 25X min 2826 W= 29-25 = 4W= 30-24 = 6W= 30-25 = 5 voti X = 26,75X = 26,75X = 26,75 Rivediamo il nostro caso, quindi la distribuzione e la dispersione dei voti tra i 4 studenti della nostra classe. Abbiamo precedentemente visto che la media aritmetica uguale, ma che vi una dispersione differente tra le 3 prove evidenziata gi dal Campo di Variazione (o Range). Ora esaminiamo questi dati calcolando la Varianza. Usiamo la formula regolare per unit, visto che non abbiamo una distribuzione in frequenze. Var (1 prova)= (26-26.75)2 + (27-26.75)2 + (29-26.75)2 + (25-26.75)2= 0.56+0.06+5.06+3.06 = 8.75 = 2.18 4 44 Var (2 prova)= (30-26.75)2 + (25-26.75)2 + (24-26.75)2 + (28-26.75)2= 10.56+3.06+7.56+1.56 = 22.74 = 5.68 4 4 4 Var (3 prova)= (26-26.75)2 + (30-26.75)2 + (25-26.75)2 + (26-26.75)2= 0.56+10.56+3.06+0.56 = 14.74 = 3.68 4 44 Quindi vediamo come la varianza della prima prova pi bassa delle altre, ed indica una minore dispersione.Infatti le 3 varianze saranno 1 prova = 2.18 / 2 prova = 5.68 / 3 prova = 3.68 26 Per verificare se il risultato corretto, possiamo esercitarci usando la formula semplificata (es. solo 1 valore). La media aritmetica al quadrato ovviamente 26.752 = 715.56 La media quadratica al quadrato =ovvero quindi avremo 262 + 272 + 292 + 252= 676+729+841+625 = 2871 = 717.75 444 Ora abbiamo i due valori che ci danno la possibilit di usare la formula rapida. Var (1 prova)= 2 2 2x Mq = =717.75-715.56 = 2.19(il valore differisce leggermente x gli arrotondamenti decimali) Ancora una volta viene confermato il dato di minore dispersione nel gruppo 1, rispetto alle altre due rilevazioni. Lo scarto quadratico medio, detto anche Deviazione Standard, indica la dispersione dei dati intorno al valore atteso, ovvero ci dice quanto siamo lontani dalla media. In pratica esso la radice quadrata della Varianza, per cui possiamo dire che : S = S2 = ( )nx xnii ==12 ; per unit ( )nn x xinii ==12per distribuzioni in frequenza Vediamo la tabella del nostro esercizio come si modificata. 1 prova2 prova3 prova Peppe26 30 Xmax 26 Anna2725 30 Xmax Irina 29Xmax24 X min25 X min Roxana 25X min 2826 Campo di variazione W= 29-25 = 4 W= 30-24 = 6 W= 30-25 = 5 VarianzaS2 = 2.18S2 =5.68S2 =3.68 Deviazione standard S = 1.47 S = 2.38 S = 1.91 voti X = 26,75X = 26,75X = 26,75 Differenza interquartile. E la differenza tra terzo e primo quartile, ma sempre un indice grossolano che per risente meno dellinfluenza di valori anomali. Q = Q3-Q1

27 Devianza Within e devianza Between (scomposizione della devianza). La devianza Between indica la devianza tra le medie dei gruppi, o semplicemente la devianza tra i gruppi, ed uno degli indici che scompongono la devianza totale Dev (x). Per comprendere come si scompone la devianza e si ottiene, in questo caso, la Dev (B)ci conviene rifarci ad un nuovo esempio che ci assister passo passo nella comprensione delle formule. Vediamo sempre i voti ottenuti nella nostra classe tra maschi e femmine nellultimo anno. VotiMaschi (X1)Femmine (X2)Totale Marginali di riga (nj.) 1831nj 4n1. 2053nj 8n2. 2488 16n3. 3039 12n4. n .1 = 19n .2 = 21n tot = 40 Marginale diMarginale di Colonna (n.j1)Colonna (n.j2) Per calcolare la devianza abbiamo prima bisogno delle medie aritmetiche parziali per gruppo (per colonna) e poi di quella totale. Come sappiamo la media aritmetica : Xtot = Oxi * ni =18*4 + 20*8 + 24*16 + 30*12 =72 + 160 + 384 + 360 = 976 = 24,4 n40 40 40 Nota. In questo caso abbiamo usato una soluzione veloce . Considerando che abbiamo una tabella a doppia entrata, sostituiamo il nostro ni singolo con il marginale di riga ottenendo direttamente ilnumeratore globale e quindi il risultato complessivo invece dei parziali. In questo caso abbiamo sviluppato la formula in questo modo : Xtot = Oxi * nj dove Xi esprime i valori delle modalit, mentre nj esprime i marginali di riga n1. Etc n Ora calcoliamo le medie parziali per categoria. Per i maschi avremo : Xm = Ox1 * ni1 =18*3 + 20*5 + 24*8 + 30*3=54 + 100 + 192 + 90 =436 = 22,95 n19 1919 Per le femmine avremo : Xm = Ox2 * ni2 =18*1 + 20*3 + 24*8 + 30*9=18 + 60 + 192 + 270 =540 = 25,71 n21 2121 Ora calcoliamo, come esercitazione, la devianza totale Dev (x) = Dev (x) = O(xi - x)2* nj.Dove Xi indica le modalit, X indica la media totale, e nj. Indica i marginali di riga. 28 Dev (x) = O(xi - x)2* nj.= (18-24,4)2 * 4 + (20-24,4)2 * 8 + (24-24,4)2 * 16 + (30-24,4)2 * 12 = 697,6 Ora vediamo come si calcola la Devianza between Dev (B): Dev (B) = O(xj - x)2* n.jdove Xj esprime la media parziale per ogni modalit, X la media totale , e n.j

esprime i marginali di colonna. In una tabella a doppia (o anche pi entrate) entrata come la nostra, la formula si applica facilmente in questo modo: Dev (B) = O(xj - x)2* n.j= (X1-X)2 * n.j1+ (X2-X)2 * n.j2 Ora applichiamo questa formula al nostro esercizio, ai nostri valori: Dev (B) = = (X1-X)2 * n.j1+ (X2-X)2 * n.j2= (22,95-24,4)2 * 19 + (25,71-24,4)2 * 21 = 75,39 Devianza Within. La devianza Within indica la devianza dei singoli gruppi, o semplicemente la devianza entro i gruppi, ed uno degli indici che scompongono la devianza totale Dev (x). La formula : Dev (W) = OO (xi - xj)2*nijdove Xi esprime le varie modalit, Xj esprime la media parziale del gruppo, enij esprime i valori delle frequenze assolute del gruppo stesso. Per meglio comprendere il senso della formula, possiamo scomporla per verificare che in effetti si tratta delle singole devianze dei vari gruppi presenti in una tabella. Voti(Xi)Maschi (X1)Femmine (X2)Totale Marginali di riga (nj.) 183 nj11nj1njn1. 205nj23nj2njn2. 248nj38nj3n3. 303nj49nj4n4. n .1 = 19n .2 = 21n tot = 40 Marginale diMarginale di Colonna (n.j1)Colonna (n.j2) Dev (W) = O(xi - x1)2* nj(1) +O(xi x2)2* nj(2) + Devianza colonna 1+ Devianza colonna 2+ Devianza altre colonne.. Da notare che i due termini della formula sono evidentemente le singole devianze delle due colonne, ovvero la colonna dei Maschi, e la colonna delle Femmine. I valori nj1 e nj2 sono ovviamente riferiti alle frequenze assolute della rispettiva colonna, Xi sono le modalit e X1 e X2 sono le medie aritmetiche delle rispettive colonne, le quali ci fanno chiaramente capire che si tratta di una devianza entro i gruppi, di ogni singolo gruppo. 29 Relativamente al nostro esercizio, per meglio comprendere il meccanismo della Dev(W) , scomponiamo la stessa tabella in 2 tabelle singole delle quali ci calcoliamo la normale devianza. Voti(Xi)Maschi (X1)Femmine (X2)Totale Marginali di riga (nj.) 183 nj11nj1njn1. 205nj23nj2njn2. 248nj38nj3n3. 303nj49nj4n4. n .1 = 19n .2 = 21n tot = 40 Marginale diMarginale di Colonna (n.j1)Colonna (n.j2) x = 22,95 Dev (x1) = O(xi - x)2* nj = (18-22,95)2 * 3 + (20-22,95)2 * 5 + (24-22,95)2 * 8 + (30-22,95)2 * 3 = 274,9 Voti(Xi)Maschi (X1)Femmine (X2)Totale Marginali di riga (nj.) 183 nj11nj1njn1. 205nj23nj2njn2. 248nj38nj3n3. 303nj49nj4n4. n .1 = 19n .2 = 21n tot = 40 Marginale diMarginale di Colonna (n.j1)Colonna (n.j2) x = 22,95x = 25,71 Dev (x2) = O(xi - x)2* nj = (18-25,71)2 * 1 + (20-25,71)2 * 3 + (24-25,71)2 * 8 + (30-25,71)2 * 9 = 345,76 La formula diventa : Dev (W) = Dev (x1) + Dev (x2) + Dev (xn)

Per cui nel nostro caso, nel nostro esercizio sar : Dev (W) = 274,9 + 345,76 = 620,66 Ora dimostriamo come funzionerebbe applicando la formula unica (il risultato leggermente differente a causa degli arrotondamenti). Dev (W) = OO (xi - xj)2* nij=(18-22,95)2 * 3 + (20-22,95)2 * 5 + (24-22,95)2 * 8 + (30-22,95)2 *3+(18-25,71)2 * 1 + (20-25,71)2 * 3 + (24-25,71)2 * 8 + (30-25,71)2 * 9 = 621,11 Si nota, quindi, che abbiamo semplicemente riunito le due singole devianze in una sola soluzione. 30 Ovviamente : Dev (x) = Dev (W) + Dev (B)per cuiDev (W) = Dev (x) - Dev (B)eDev (B) = Dev (x) - Dev (W) Indici di variabilit relativa Gli indici di variabilit assoluta fino ad ora analizzati (campo di variazione, differenza interquartile, varianza, devianza,deviazionestandard)sonotuttiespressinellastessaunitdimisuradellamodalitXchesi analizza,eccettolavarianzacheusailquadratodellunitdimisura.Questiindici,puraffidabiliper misurarelavariabilitdiunadistribuzione,nonpossonoessereutilizzatisedobbiamoeffettuareun confronto su due distribuzioni o medie con unit di misura differenti. Per superare il problema si ricorre agli indicidivariabilitrelativaespressidalCoefficientediVariazioneedalRapportodi concentrazione.Questiindicisononumeripuri,indipendentiquindidallunitdimisura,e permettono di confrontare pi distribuzioni. Coefficiente di variazione. Questo coefficiente misura la variazione media del fenomeno in rapporto alla media. CV = S ovvero la deviazione standard diviso la media aritmetica in valore assoluto. |X| Osserviamo le indicazioni che ci rende questo coefficiente attraverso un esempio. Segretaria ASegretaria B Tempo medio per finire il lavoro 2530 Deviazione standard S64 Undatoredilavorovuoleverificarequalesialasegretariachelavorameglioalfinediconcederedegli incentivi.ApplicandoilCvverifichiamolapercentualediperformancedelleduesegretarieedecretiamo qual la migliore. CV = S = 6/25 = 0,24 * 100 = 24% per la A , e 4/30 = 0,13 *100 = 13% per la B |X| Aquestopuntoovviochenonostanteildatodeltempo mediopotessesuggerirelaprimasegretaria,la verapersonaaffidabilenellavorolasegretariaB,avendoottenutounaperformancedisoloil13%di scostamento rispetto ai valori medi attesi. 31Indici di mutabilit per caratteri qualitativi La mutabilit lattitudine di un carattere qualitativo ad assumere differenti modalit. Per misurare questa attitudineabbiamodegliindicichemisuranolomogeneitdelcarattere,eovviamentealcontrariolasua eterogeneit.Seadesempioconsideriamoilsessodiunteamdicalcio,essendotuttidellostessosesso, avremouncarattereomogeneo.Maallinternodelgruppoavremoragazziconcoloridicapellioocchi differenti, ovvero avremo una eterogeneit qualitativa per colore di occhi, capelli, altezza, etc.Leterogeneitunconcettopigeneraledellamutabilitinquantosiapplicaancheaunadistribuzione con carattere quantitativo. Indice di eterogeneit del Gini. Questoindicesiannulla(paria0)quandoilcollettivoomogeneo,eviceversacrescequandocresce leterogeneit, fino a diventare massimo quando le frequenze assolute si ripartiscono in modo uniforme tra le modalit (K-1/K). Indice del Gini=||

\| =kiinnIE121 ovvero IE = 1 - O fi2 Come detto prima, questo indice varia tra IE = 0 e IEMAX =dove k il numero delle modalit. Ovviamenteperconfrontarediversedistribuzioniabbiamobisognodiunindicenormalizzatocompreso tra 0 e 1. Per questo motivo usiamo rapportare lindice proprio al suo massimo. Quindi avremo : Indice del Gininormalizzato kkIEIEk1 =Vediamo un esempio: Modalit K : Colore occhi nififi2 Castani400,40,16 Azzurri400,40,16 Verdi200,20,04 n = 100Tot =0,36 IE = 1 - O fi2 = 1 0,36 = 0,64 Modalit K : Colore capelli nififi2 Castani400,40,16 Biondi100,10,01 Neri300,30,09 Rossi200,20,04 n = 100Tot =0,3 32 IE = 1 - O fi2 = 1 0,3 = 0,7 Abbiamocalcolatosingolarmentelindicedieterogeneitdiquestiduegruppi,eadunaletturasingola, disgiunta,viunachiaraeterogeneitdellemodalit.Facendounprimoconfrontociverrebbeda osservare che il carattere Colore dei capelli pi eterogeneo. Ma per confrontare realmente le due tabelle dobbiamo usare lindice normalizzato. Quindi avremo : IEn occhi = 0,64 / 0,6666 = 0,96 e IEn capelli = 0,7 / 0,75 = 0,93 (0,6666 esce da K-1/k ovvero da 3-1/3 e lo stesso dicasi per laltra tabella con 4-1/4) Dal primo superficiale confronto sembrava che fosse pi eterogenea la distribuzione dei capelli, mentre normalizzando lindice abbiamo chiaramente il risultato ribaltato. 33Rappresentazioni grafiche (per variabili qualitative e quantitative) Per rappresentare i fenomeni statisti si utilizzano tabelle e anche grafici, i quali hanno la caratteristica dellimmediata leggibilit, sono flessibili e presentano i risultati in maniera comprensibile anche ai non specialisti del settore. Ovviamente il grafico presenta una maggiore semplificazione ed meno esaustivo rispetto allanalisi tabellare, per cui le due componentivanno utilizzate in maniera complementare. Tipi di grafico per variabili qualitative Ortogramma. Detto anche Bar Chart , quindi grafico/diagramma a barre, permette di rappresentare mutabili statistiche rettilinee e sconnesse e pu essere di tipo a nastro o a colonne. Data una tabella di dati avremo il nostro diagramma a barre (a colonne, detto istogramma) cos eseguito: Modalit (M) Voti al test ni 18 4 223 24 6 273 30 10 n = 26 Come vediamo con questo grafico laltezza delle colonne rappresenta la frequenza delle diverse modalit, inquestocasoivotiottenutiduranteiltestscrittodistatistica.Comesileggeancheintabella,possiamo notarenelgraficocheglistudentichehannoottenutoil30sono10,ovveroperlamodalitVOTO30, abbiamo una frequenza (ni) uguale a 10. Attraverso il grafico risulta quindi immediatamente comprensibile la differenza che vi tra i vari studenti, dieci dei quali hanno avuto il risultato massimo. Questo grafico pu essere ribaltato dando vita alla tipologia a nastro, ovvero le modalit vanno sulle ordinate e le frequenze sullasse delle ascisse. Vediamo. 02468101218 22 24 27 30Voti al test di statistica (M)niOrdinate Ascisse 34 Gliortogrammirisultanoparticolarmenteutiliancheperconfrontaredueopidistribuzioni.Basta affiancare i nastri o le colonne per ottenere il confronto. Diagrammi circolari. Sonorappresentazionigrafichedimutabilistatistichesconnesseerettilieeattraversospicchiche compongono una circonferenza. Questi settori circolari hanno angoli uguali o proporzionali alle frequenze assoluteorelativeeallequantit.Quindiperpotertracciarequestotipodigrafico,bisognaottenere lampiezza in gradi dellangolo formato dallo spicchio che va tracciato nel grafico stesso. Vediamo. Modalit (M) Voti al test ni 18 4 223 24 6 273 30 10 n = 26 Comesivedelarappresentazionediquestograficodettoancheatortaugualmentesempliceed intuitiva, ma per chi lo redige c laggravante di dover calcolare langolo dello spicchio in questo modo: 0 2 4 6 8 10 121822242730Voti al test di statisticaniVoti al test di statistica1822242730Ascisse Ordinate 35 Modalit (M) Voti al test nifi i 18 40,15355,08 2230,11541,4 24 60,23082,8 2730,11541,4 30 100,384138,24 n = 26Circa 1Circa 360 Ovvero per calcolare langolo usiamo la seguente formula:i = 360 * fi Ovviamente come le frequenze relative valgono al massimo 1, anche langolo totale del grafico a torta pu valere al massimo 360. Tipi di grafico per variabili quantitative Listogramma,maperdistribuzioneinclassi,particolarmenteusatoperlevariabiliquantitative.Sulle ascisse avremo lampiezza della classe considerata, e sullordinata avremo la frequenza assoluta in caso di classi con la stessa ampiezza, o la densit di frequenza in caso di classi con ampiezze diverse. Vediamo gli esempi : Modalit (M) ni 20 |- 4010 40 |- 6025 60 |- 8045 Con classi di ampiezza uguale.

2040 60 80 Con classi di ampiezza differente. di = ni / hi 10 4060 100 Modalit (M) nidi 10 |- 40100,33 40 |- 60251,25 60 |- 100451,125 n = 80 Vci 36 Il diagramma di dispersione si utilizza nel caso di distribuzioni doppie con due variabili quantitative XeYperunit,quindipercoppiedivalorichevannoad essererappresentatenelpianocartesianodandoluogo adunanubedipunti.Conquestatecnicasipossono analizzaregrandiquantitdidatieindividuarerelazioni, variabilit,strutturegeometricheevalorianomali semplicemente osservando la forma della nube di punti. Adesempionellimmagineasinistravediamochela distribuzionedeidatiindicaunachiararelazionelineare traleduevariabiliXeY,messainevidenzadallalinea arancio messa a riferimento per evidenziare landamento lineare della distribuzione. Il BOX PLOT (diagramma a scatola e baffi). Ilboxplotunparticolaretipodigraficocheconsentedipresentareidatiindividuandosiailvalore centrale, sialadispersionedelcollettivoalivellostatistico.Quindiilboxplot consentelavisualizzazione dei valori caratteristici del gruppo di dati osservato, ovvero utilizzato per descrivere la distribuzione del campione secondo gli indici di dispersione e posizione.Per la sua costruzione si utilizzano : Xmin Q1 Med Q3 Xmax Lim inf il 50 % della distribuzione Lim sup

XminQ1 Med Q3 Xmax Allinterno del rettangolo sono contenute il 50% delle osservazioni perch i suoi margini sono i quartili Q1 e Q3, quindi il 25% ed il 75% della distribuzione stesso, per cui 75-25 = 50 % della distribuzione. La linea interna alla scatola rappresenta la Mediana, ed i segmenti esterni contengono ancora una volta il 25 % cadauno della distribuzione. Va per notato che questi baffi esterni non devono contenere dati anomali. Per questo motiv o, per costruire il grafico, dobbiamo prima di tutto escludere questi eventuali valori anomali nella distribuzione, i quali altererebbero la rappresentazione grafica. Calcoliamo quindi il limite inferiore e quello superiore con le seguenti formule: Lim inf= Q1 1,5 (Q3 Q1) che va al posto di Xmin se questo < del Lim inf Lim sup= Q3 + 1,5 (Q3 Q1) che va al posto di Xmax se questo > del Lim sup In poche parole, per eliminare i valori anomali dal grafico si utilizzano i limiti inferiore e superiore qualora non coincidano o siano entro il range del calcolo effettuato. Vediamo un semplicissimo esempio : 37 Abbiamo i seguenti dati di una distribuzione : Xmin = 2Q1 = 6Med = 8Q3 = 12Xmax = 33 Applichiamoleformulepercalcolareillimiteinferioreequellosuperioreevalutaresevisonovalori anomali da eliminare nella composizione del grafico. Lim inf= Q1 1,5 (Q3 Q1) = 6 1,5 * (12 6) = 6 1,5 * 6 = 6 9 = -3 quindi Lim inf < di Xmin, per cui prendiamo Xmin Lim sup= Q3 + 1,5 (Q3 Q1) = 12 + 1,5 * (12 6) = 12 + 1,5 * 6 = 12 + 9 = 21 quindi Lim sup < di Xmax, per cui prendiamo Lim sup Indici di forma (asimmetria e curtosi) Oltre a sintetizzare una distribuzione grazie a indici di posizione e di variabilit, possibile utilizzare anche una terza propriet, ovvero la forma. Questa propriet ci dice come i dati sono distribuiti, quindi sono indici descrittivi che mettono in evidenza ulteriori aspetti della variabilit di un fenomeno, ovvero lasimmetria o la curtosi.Unadistribuzionesimmetricaselemodalitsonoequidistantidallamediana.Seladistribuzione simmetrica, la mediana, la media e la moda coincidono, e la mediana viene definita centro di simmetria. Modalit (M) ni 18 212 310 412 58 Distribuzione simmetrica (8-8 , 12-12 con mediana 10) Mediana 38 Una distribuzione asimmetrica se le modalit non sono equidistanti dalla mediana.Siccome la mediana, che abbiamo detto essere il centro di simmetria, un valore interno alla moda e alla media, possono esservi 2 tipi di asimmetria: positiva e negativa. Asimmetria positiva: Vi asimmetria positiva se Mod < Med < X In questo caso vi un maggior addensamento dei dati osservati in corrispondenza dei valori bassi, quindi il ramo destro della curva pi allungato del sinistro. Asimmetria negativa: Vi asimmetria negativa seX < Med < Mod In questo caso vi un maggior addensamento dei dati osservati in corrispondenza dei valori alti, quindi il ramo sinistro della curva pi allungato del destro. Indici di asimmetria. Esistono diverse misure dellasimmetria, tra cui abbiamo: Indice di asimmetria : Med Q Q AS 2 31 1 + = 39 Dove abbiamo asimmetria positiva per AS1 > 0 , e asimmetria negativa per AS1 < 0 , con la precisazione che la prima condizione , cio AS1 = 0 solo necessaria ma non sufficiente per avere una condizione di simmetria. Questo indice pu essere anchesso relativizzato : Indice di asimmetria relativo :1 3112 3Q QMed Q QASN +=oppureAS1 / Q3 Q1 Questo un indice normalizzato che varia tra -1 e +1 e serve per avere un termine di paragone. Ovviamente avremo una asimmetria negativa per valori da -1 a 0 , e una asimmetria positiva tra 0 e +1 . Un altro indice significativo lo Skewness del Pearson : 0M M = Che esprime il grado di simmetria di una distribuzione unimodale come differenza tra media aritmetica, in questo caso vista come centro di gravit dei dati, e la moda tutto diviso per la deviazione standard. Questo indice, in generale, esprime una asimmetria positiva se y > 0 (con X > Mod) e una asimmetria negativa se y < 0 (con X < Mod). Purtroppo un indice non normalizzato ed applicabile solo a distribuzioni unimodali, ed inoltre per y = 0 la distribuzione potrebbe comunque non essere simmetrica. 40Statistica bivariata (con 2 variabili) In questo caso si esaminano 2 variabili per comprendere la dipendenza o lindipendenza tra le due, oppure lindipendenzaelinterdipendenzasempretraquesteduevariabili.Ovviamente,comesuggerisceil termine, quando c dipendenza vi una variabile che subisce linfluenza dellaltra. E sufficiente pensare al pagamentodiunpedaggioautostradalechesemprerelativoalchilometraggiopercorso.Quindila variabilepagamentodipendentedallavariabilechilometri.Nellaltrocasoavremodellevariabili interdipendenti, ovvero quando una variabile influenza laltra. E sufficiente pensare ad unautovettura che subisce una forte influenza sul prezzo dacquisto in base alla cilindrata del motore. Ovviamente unauto con motore da 2000 cc sar pi costosa di una con motore di 1000 cc. In questo caso piuttosto evidente che la variabiledipendenteprezzodipendedallavariabileindipendentecilindratadelmotore.Pertantoin questi casi avremo una variabile dipendente che connesa e dipende dalla variabile indipendente. Connessione o associazione. Avendo una distribuzione doppia potremmo essere interessati a verificare che grado di connessione vi tra le due variabili. Per far ci necessitiamo degli indici di connessione, i quali assumono valore minimo in caso di connessione nulla (solitamente zero), o valore massimo in caso di dipendenza perfetta. PercomprenderesecdipendenzastatisticadellavariabileYneiconfrontidellaXdobbiamocalcolarele frequenze teoriche.Questo perch se vi indipendenza statistica avremo chenn nnj iij = ovveronij = n*ij Ovviamente se non vi indipendenza, quindi vi dipendenza,avremo che nij = n*ij Doven*ij indica la frequenza teorica. Vediamo un esempio con la tabella che abbiamo sopra: Per calcolare le frequenze teoriche moltiplichiamo ogni marginale di colonna per i marginali di riga e dividiamo per n, ovvero per la somma delle frequenze, ottenendo una nuova tabella : Per meglio comprendere sufficiente guardare le frecce nelle tabelle. La nera indica i termini che sono stati moltiplicati nel primo gruppo, e la rossa indica i termini moltiplicati del secondo gruppo. Come si nota il primo marginale di colonna stato moltiplicato per i due marginali di riga (frecce nere)e poi diviso per n.Tabella a doppia entrata (Y) Valori nij (Y) Valori nij Marginale di riga (nj.) (X) 58 13 (X) 4 3 7 Marginale di colonna (n.j) 911 N = 20 Spiegazione n*ijn*ij Spiegazione 9 * 13 / 205,857,1511 * 13 / 20 9 * 7 / 203,153,8511 * 7 / 20 41 Dopo abbiamo proseguito moltiplicando laltro marginale di colonna sempre per i marginali di riga (frecce rosse) e dividendo per n. Questa sequenza ci permette di calcolare la frequenza teorica dei termini in tabella. Confrontando queste frequenze teoriche con le nostre frequenze assolute nij (cio i termini della tabella)possiamo verificare se c o meno indipendenza statistica. Come vediamo 5 = 5,85 e 4 = 3,15 e 8 = 7,15 e 3 = 3,85 quindi non c indipendenza statistica.Per misurare la dipendenza statistica tra queste variabili abbiamo bisogno prima di ottenere i valori di Contingenza, ovvero la differenza tra le frequenze osservate e quelle teoriche: Cij = nij - n*ij Per cui continuiamo il nostro esempio con la tabella sopra, avendo : Come si nota la somma delle contingenze di ciascuna riga e colonna sempre uguale a Zero. Il Chi-quadro Un importante indice assoluto di connessione il chi-quadro di Pearson, detto anche indice quadratico di contigenza. = oo (nij - n*ij)2se = 0 le variabili sono indipendenti n*ij (attenzione si intende la sommatoria di ogni contingenza fratto la propria frequenza teorica)

Questo indice si annulla nel caso di assenza di connessione, cio quando le variabili sono perfettamente indipendenti, e diviene positivo nel caso in cui vi dipendenza tra le variabili, assumendo valori tanto pi grandi quanto pi le frequenze osservate si discostano da quelle teoriche. Continuiamo con la nostra tabella calcolando il quadrato delle contingenze, che sono poi parte del numeratore del chi-quadro: Ora dobbiamo calcolare le contingenze diviso le proprie frequenze teoriche e rifare la tabella: Spiegazione CijCij SpiegazioneSomma delle contingenze 5 5,85 -0,850,858 7,150 4 3,150,85-0,853 3,850 Somma delle contingenze 00 Spiegazione (nij - n*ij)2(nij - n*ij)2 Spiegazione -0,852 0,720,720,852 0,852 0,720,72-0,852 Spiegazione (nij - n*ij)2(nij - n*ij)2 Spiegazione 0,72 / 5,85 0,120,100,72 / 7,15 0,72 / 3,15 0,220,180,72 / 3,85 42 A questo punto, come si legge dalla formula, necessario sommare tutti i termini per avere il risultato, per cui in questo esercizio avremo che: = 0,12 + 0,22 + 0,10 + 0,18 = 0,62 Quindi in questo caso le due variabili sono interdipendenti perch il valore diverso da 0. Il chi- quadro oscilla, come detto, tra 0 per variabili indipendenti fino ad un valore massimo che indica la massima dipendenza delle variabili in campo. Questo valore massimo cos esprimibile : max = n *min [ (r -1)(c -1) ] dove r e c indicano il numero di righe e colonne presenti nella tabella. Nel nostro caso avremo che : max = 20 *min [ (2 -1)(2 -1) ] = 20 * min [ 11 ] = 20 * 1 = 20 Il chi-quadro influenzato, quindi,da n e se raddoppiamo la numerosit, il suo valore raddoppia. Per ovviare a questo problema, Pearson ha proposto un ulteriore indice di associazione (o connessione) chiamato Indice di contingenza quadratica media (fi al quadrato). Questo indice oscilla tra 0 in caso di indipendenza, fino ad un massimo cos esprimibile : max = min [ (r -1)(c -1) ] Quindi il chi-quadro e lindice di contingenza quadratica media sono indici assoluti. Per avere degli indici relativi dobbiamo rivolgerci a Cramer. LIndice medio di contingenza di Cramer : Che varia tra 0 e 1 , con zero per connessione nulla (indipendenza), e uno per una perfetta dipendenza. Unaltra misura normalizzata il Coefficiente di associazione di Tschuprow :

n22 = 43 Che varia tra 0 e 1 , con zero per connessione nulla (indipendenza), e uno solo in caso di perfetta dipendenza bilaterale. Questo indice va calcolato solo se le righe e le colonne della nostra tabella sono di numero differente, altrimenti esso viene a coincidere con il. Infatti se r = c allora T =. Rapporto di correlazione Nelmomentoincuiabbiamounatabellaconunadistribuzionedoppia,comeabbiamovistopossiamo calcolare il rapporto che intercorre tra le due variabili presenti, ovvero X e Y. In precedenza abbiamo visto comesicalcolalaconnessione(oassociazione)attraversoil(Chiquadro).Maperpossiamoanche calcolare anche quanto Y dipenda in media da X , ovvero la correlazione che abbiamo tra le due variabili. LadifferenzaimportantecheilRapportodiCorrelazionepuesserecalcolatosoloperYquantitative, cio la variabile Y deve essere esclusivamente quantitativa. Xquantitativa o qualitativa YTabella a doppia Solo quantitativa entrata Quindi calcoliamo la Devianza between di X e la Devianza totale (di Y) ed otteniamo questo indice che vale: varia tra 0 e 1. Se lndice 0 allora vi indipendenza tra le variabili, mentre se vale 1 vi massima dipendenza in media. PercapirequestoindicesufficientepensareaduevariabilicollegatecomePedaggioautostradalee chilometraggio percorso. E chiaro che il pedaggio autostradale (Y) dipende in media dai chilometri che un automobilista percorre sullautostrada prima di uscire al casello. Oravediamoconunesempiocomesicalcola,enotiamounpuntomoltoimportante,ciochelatabella vienepresentataconidatisolitamenteruotatirispettoacicheciservepereseguireagevolmentei calcoli. 44 Dopounarilevazionesiconsideraunadistribuzionedoppiatrareddito(Y)etitolodistudio(X)di50 impiegati di unazienda. Verifichiamo se esiste una dipendenza in media tra il reddito ed il titolo di studio. Primadituttonotiamochelatabella,comedettoprecedentemente,varuotataperportarelavariabile dipendente e quantitativa Y sul lato sinistro della nostra distribuzione, portando la variabile qualitativa X in alto come frequenza con la quale si presenta la nostra variabile Y. Abbiamo correttamente posizionato le nostre variabili e le relative distribuzioni, quindi possiamo iniziare a calcolare la correlazione ricavando gli indici necessari, ovveroDev (B) e Dev(tot). Per calcolare questi indici abbiamo prima bisogno delle medie aritmetiche parziali e di quella totale. Medie parziali.Calcoliamo prima il Vci perch stiamo osservando delle classi. Per i diplomati avremo : XD = OVci * nid =13*4 + 21*6 + 31*5 + 43*0=52 + 126 + 155 + 43 =23,5 nid16 16 XL = OVci * niL=0 + 42 + 248 + 86=31,3 niL12 XA = OVci * niA=208 + 84 + 62=16,1 niA22 XTot = XD * nd + XL * nL + XA * nA =23,5*16 + 31,3*12 + 16,1*22=22,11 n50 Ora che abbiamo i valori delle medie possiamo calcolare le devianze.Dev (B) = O(xj - x)2* n.j= (XD-X)2 * n.jD+ (XL-X)2 * n.jL+ (XA-X)2 * n.jA Dev (B) = (23,5-22,11)2*16 + (31,3-22,11) 2*12 + (16,1-22,11) 2*22 Titolo di studio10-1617-2526-3637-49TotaleReddito Variabile XYYYY Diploma465116 Laurea028212 Altro1642022 Inversione della tabellaDiplomaLaureaAltronj.Vci 10-1640162013 17-256241221 26-365821531 37-49120343 nidniLniA Totale161222n=50n.j 45 Dev (B) =30,91 + 1013,47 + 794,64 = 1839,02 Ora calcoliamo la Devianza totale. Dev (Y) = O(xi - x)2* nj.=(13-22,11)2*20 + (21-22,11) 2*12 + (31-22,11) 2*15 + (43-22,11) 2*3 Dev (Y) = 1659,84 + 14,78 + 1185,48 + 1309,17 = 4169,27 Ora abbiamo i dati che ci servono per calcolare lindice =Dev (B) =1839,02=0,44Dev (Y) 4169,27 QuestorisultatoindicaunaDIPENDENZAINMEDIAtraleduevariabilititolodistudio-redditodivalore medio, essendo lindice variabile tra 0 e 1 dove 1 esprime la massima dipendenza. Correlazione e Regressione Due o pi variabili hanno un legame o una relazione se le variazioni delluna sono legate, in qualche modo, alle variazioni dellaltra. Avremo, quindi una variabile di risposta (Y) che dipende pi o meno direttamente dallaltravariabile(X),ovverolavariabileesplicativaoindipendente.Pensiamoadesempioalcasodel pedaggioautostradale(Y)chedipendedalchilometraggiopercorsoinautostrada(X).Alvariaredei chilometri percorsi, ovvero della variabile indipendente, la variabile di risposta (detta anche dipendente) Y varieranchessapiomenoproporzionalmente.Inquestocomunecaso,sappiamochepichilometri percorreremo in autostrada, pi pagheremo di pedaggio uscendo dallautostrada. Attraverso lanalisi della regressione lineare riusciamo a stabilire un modello matematico in grado di prevedere i valori e le modalit della variabile dipendente. In effetti attraverso una retta, detta retta di regressione, cerchiamo di spiegare lavariazionetraleduevariabiliattraversounarelazioneditipodilineareepossiamoidentificare linterdipendenzadelle stesseattraversoilCoefficientedi correlazionelineare r, mentreperverificarela forzadiquestarelazionedobbiamousareunaltroindicechesichiamaCoefficientedideterminazione lineareR2.Unavoltaottenutidellecoppiedidati statisticiXieYi,possiamotracciareungraficodi dispersione dal quale partiremo per capire se vi una relazione lineare tra i dati e tracciare una retta ideale che tenti di spiegare il pi possibile le variazioni tra le duevariabili,ovverochemegliosiadattaaidatiche possediamo.Siccometraipuntirealicheabbiamo nella nostra rilevazione statistica e il punto ideale che calcoliamo con la retta vi una differenza, questa il nostroerroree,unresiduo.Oraattraversoil metodo deiminimiquadratiriusciamoatrovarelarettache megliosiadattaatuttiipuntipresentinellanostra distribuzione. 46 Ovviamente abbiamo detto che Y funzione di X , quindi attraverso una serie di dimostrazioni matematiche sulla retta ideale che giace sul piano cartesiano avremo che : Y = b0 + b1 * Xi DovebolINTERCETTA,ovveroilpuntoincuilarettaintercettalassedelleY,eb1ilnostro coefficiente angolare detto anche COEFFICIENTE DI REGRESSIONE, il quale indica la pendenza della retta.Ovviamente se b1 minore di 0 allora la retta sardiscordanteependernegativamente versolasseX,ovveroallaumentaredella variabileindipendenteX,lavariabile dipendente (o di risposta) diminuisce. Seb1maggioredi0alloralarettasar normale,ovveroconcordante,adindicareche allaumentaredellaXanchelavariabile dipendente Y aumenter. Quindi avremo : b1< 0b1 > 0 aumenta X dim Y aumenta X aumenta Ydiscordanteconcordante Come abbiamo visto dalla formula della retta di regressione, che ci consente di calcolare ogni singolo punto della retta ideale, variando i valori Xi delle nostre osservazioni, abbiamo bisogno di calcolare prima i valori del coefficiente angolare e dellintercetta per poter comporre la nostra retta lineare. b1=ovvero la Codevianza di X ovverola Devianza di X danotarecheseponessimonsottolacodevianzaeladevianza(ciosiaalnumeratorecheal denominatore) potremmo calcolare lo stesso coefficiente ma in termini di varianza. Infatti la Varianza non altro che la devianza diviso n, e analogamente la covarianza non altro che la codevianza diviso n.Per velocizzare i calcoli possiamo usare le due formule ridotte per calcolare sia la Cod (x) che la Dev (x) : Cod(x) = eDev(x) = Ora ci serve di conoscere il punto in cui la retta intercetta lasse delle y, quindi : b0= ora abbiamo tutti gli elementi per calcolare i vari punti della nostra retta di regressione. Vediamo alcuni esempi per meglio comprendere il meccanismo. 47 Un tecnico di collaudo rileva dei dati sul consumo in 5 marcia di una nuova vettura commerciale. Si calcoli la retta di regressione,il coefficiente di correlazione lineare ed il coefficiente di determinazione lineare. Ovviamente sappiamo che= b0 + b1 * Xi quindi dobbiamo iniziare a calcolare gli lintercetta ed il coefficienteangolare.Perfareciabbiamobisognodicalcolarevelocemente3parametriimportanti, ovvero le medie aritmetiche di Y, X e direttamente i valori di Xi * Yi per avere subito a disposizione la loro sommatoria. Quindi la prima cosa da fare allargare la tabella data con una colonna in pi dove calcolare la sommatoria delle osservazioni delle due variabili. Ora calcoliamo le medie, notando che le osservazioni sono 5, cio n= 5 perch i differenti valori sono stati osservati 5 volte sia per la X che per la Y, trattandosi di una tabella che considera le rilevazioni combinate della variabile dipendente e di quella indipendente : X = o Xi / n essendo una distribuzione semplice = 490/5 = 98 Y = o Yi / n una distribuzione semplice = 107,4/5 = 21,48 OradobbiamocalcolarelaCod(x)ela Dev(x)perpoterricavareb1, ovveroilcoeff.angolaree capiresela retta concordante o discordante. Cod(x) == 9954 5* 2105,04 = 9954 10525,2 = -571,2 Dev(x) = calcoliamo con i minimi quadrati = (60-98)2 + (80-98) 2 + (100-98) 2 + (120-98) 2 + (130-98) 2 = 3280 Ora possiamo calcolare il nostro b1 : b1 = Cod(x) / Dev(x) = -571,2/3280 = -0.17 Ora ci serve il punto in cui la retta interseca lasse delle y, quindi calcoliamo lIntercetta b0 : b0 = = 21,48 - -0,17*98 = 21,48 + 16,66 = 38,14 ATTENZIONE!!!! Notareil problema dei segni. Essendo b1 negativo, il valore risultante positivo. In questo momento abbiamo tutti i dati per poter calcolare i punti teorici della nostra retta di regressione, ovvero =b0+b1*Xi sostituendoivaloridiXialfinediottenereivaloririspondentialle5 osservazioni. Costruiamo quindi una ulteriore tabella : (Xi) Velocit(Yi) Consumo6028,8 8024,2 10020 12018,2 13016,2 (Xi) Velocit(Yi) ConsumoXi * Yi 6028,81728 8024,21936 100202000 12018,22184 13016,22106 Tot = 490Tot = 107,4Tot= 9954 48 Cosaabbiamocapitodaquestaanalisi?Ilcoefficienteangolare,odiregressione,ciindicalavariazione che subisce Y al variare di X, ovvero in questo caso notiamo che per ogni aumento di velocit di 1 Km/h, il consumo in 5 marcia si riduce di 0,17 Km/l (nella tabella dei punti ideali qui sopra, se moltiplichiamo a,17 x 20,ovveroladifferenzadivelocitcheabbiamotraundatoelaltro,otteniamoproprio3,4,ovverola differenza tra 27,94 e 24,54). Tra laltro un risultato coerente anche per logica, visto che tutti sanno che unautovetturaconsumamenoquandoviaggiaconilmassimorapportodelcambio,lanciata probabilmentesuunastradarettilineacheneconsenteunviaggiosenzaaccelerazioniedecelerazioni riducendo lo sforzo che il motore compie per generare e mantenere la velocit di crociera. Questo piccolo esercizio, coerente con la realt delle cose, ci ha dato statisticamente conferma che unauto consuma meno se aumenta la velocit costante in 5 marcia, ad esempio in autostrada. Analisi dellinterdipendenza (coefficiente di correlazione lineare r) Tornandoainostriindici,abbiamodettochepossiamocalcolareilCoefficientedicorrelazione linearecheesprimeilgradodiconcordanzaediscordanzatraleduevariabili,indicandoquindila correlazione e linterdipendenza tra esse.Questoindicevariatra1e+1,ecomedettoperilcoefficienteangolare,seviconcordanza,ovvero correlazionepositiva,alloraXeYaumentanoevarianonellostessosenso.SevidiscordanzaalloraX aumenta e Y diminuisce, quindi variano in senso opposto. In caso di correlazione nulla allora vi condizione di indifferenza della variabile Y, ovvero al variare di X, Y non varia. ( )( ) ( ) Y Dev X DevY X Codr,= Per ottenere questo indice abbiamo bisogno anche della devianza della variabile Y. Tornando allesercizio di prima passiamo a calcolare la Dev(y) e poi vediamo cosa ci indica il coefficiente di correlazione lineare. Dev(y) == 2408,76 5 * 461,4 = 101,76 Quindi avendo ora i dati necessari calcoliamo r (secondo la formula sopra) che sar = -0,98 Questo risultato ci dice che vi praticamenteuna perfetta concordanza e relazione lineare tra le due variabili. b0 + b1 * Xi 38,14-0,17* 6027,94 38,14-0,17* 8024,54 38,14-0,17* 10021,14 38,14-0,17* 12017,74 38,14-0,17* 13016,04 49 Grado di adattamento Una volta calcolata la retta di regressione bisogna determinare il grado di adattamento, la forza,che esiste traivaloriosservatiYieivaloriteorici.Ciperchseladispersioneelevata,nonpossiamofare previsioniattendibiliinbaseallarettadiregressione.Infattiattraversoquestoindicesappiamoche percentualedidatiriusciamoaspiegare.Questoindice,comeintuibile,sicalcolaattraversoladevianza, unadevianzatotalechesiscomponeindueparti,ovveronellaDevianzadiRegressioneenellaDevianza Residua. LaDevianzadiRegressionelaporzionedivariabilitdeidaticheioriescoaspiegare,infattiquesta devianza viene anche definita devianza spiegata, mentre la Devianza Residua la porzione di variabilit che non riesco a spiegare con il modello teorico creato con la retta di regressione.La Dev(y) sappiamo essere : Dev(y) = o (Yi Y)2

che pu essere scomposta ino (Yi )2

+o ( Y)2

Ovvero nelle due devianze Dev (res) + Dev (reg) Laforza,quindi,dellarelazionetralavariabileindipendenteX,equelladipendenteY,dataovviamente dal rapporto che nasce tra ci che riesco a spiegare (Devianza di regressione) e la devianza totale. ( )( ) tot Devreg DevR =2da notare che la Dev(tot) coincide con la Dev(y) Ma pu anche essere semplicemente (non per tutti i casi per) definito come:

2 2r r r R = = Con R2 che varia tra 0 e 1.Avremo che se = 0 la variabile Y non pu essere spiegata dalla conoscenza della X. Se invece = 1 potremo spiegare interamente la variabile dipendente Y grazie alla variabilit di quella indipendente X. Ecco perch da questo indice traiamo la forza di questa relazione. Il limite minimo (0) ci dice che non possiamo spiegare nulla, mentre il limite massimo (1) ci dice che la relazione pu essere perfettamente spiegata. Tornando allesempio di prima, avevamo calcolato i seguenti valori teorici e la Dev(y) = 101,76 Quindi dobbiamo calcolare la Dev(reg): o ( Y)2

= (28,8 21,48)2 + (24,2 21,48)2 +(20 21,48)2 + (18,2 21,48)2 +(16,2 21,48)2

= 53,58 + 7,39 + 2,19 + 10,75 + 27,87 = 101,78 Per cui applicando la formula di R abbiamo: b0 + b1 * Xi 38,14-0,17* 6027,94 38,14-0,17* 8024,54 38,14-0,17* 10021,14 38,14-0,17* 12017,74 38,14-0,17* 13016,04 50 ( )( ) tot Devreg DevR =2 = 101,78 / 101,76 = 1 Ovvero abbiamo una perfetta corrispondenza della variabilit di Y in relazione alla variabile X. Questo ci stato confermato, a meno di un piccolissimo scarto, anche dal coefficiente di correlazione lineare precedentemente calcolato. In ogni caso lindice = 1 significa che riesco a spiegare il 100% della variabilit di Y attraverso il modello lineare costruito sulla X. 51 Indice Pag. 1 - 4-Le variabili statistiche. Variabili quantitative e qualitative. Tabella semplice o di frequenza assoluta. Frequenza relativa. Frequenze relative cumulative. Tabella riassuntiva. Distribuzione statistica semplice. Pag. 5 - 6 -Distribuzione in Classi. Formula di Sturges per la definizione delle classi nella sistemazione dei dati rilevati. Ampiezza delle Classi. Pag. 6 - 10 -Distribuzione in Classi. Le Medie. Classificazione delle Medie. Media aritmetica semplice e ponderata. Media aritmetica per distribuzione in classi. Propriet associativa della media aritmetica. Tabelle a doppia entrata. Marginali di riga (nj.)e marginali di colonna (n.j) . Pag. 11 - 12 -Media armonica. Media armonica semplice e ponderata. Pag. 13 - 16 -Media geometrica. Media geometrica semplice e ponderata. Metodo di calcolo con radice elevata alla x e metodo con logaritmi. Pag. 17 - 18 -Media quadratica e accenno alla Media di potenza. Pag. 19 - 23 -Medie di posizione. Moda. Mediana semplice e per distribuzione in classi. Quartili. Pag. 24 - 23 -Indici di Variabilit assoluta. 52


Recommended