Post on 01-May-2015
transcript
Informatica e statistica 2003 Prof. Giovanni Raho
1
Applicazioni del foglio elettronico
Statistica elementarea cura del prof. Giovanni Raho
Informatica e statistica 2003 Prof. Giovanni Raho
2
La statistica
• Un insieme di procedure fondate sulla matematica che permettono di analizzare gli eventi e trarne– Leggi di collegamento tra eventi– Leggi di previsione– Modelli in cui le relazioni siano precisate
attraverso metodi matematici.
Informatica e statistica 2003 Prof. Giovanni Raho
3
Problema ed informazione
• Definire il problema– Individuare gli eventi che intervengono nel
problema.– Caratterizzare gli eventi attraverso la
definizione dei concetti.– Collegare i concetti per costruire une teoria.– La teoria ben formata: relazioni non
contraddittorie tra concetti.
Informatica e statistica 2003 Prof. Giovanni Raho
4
Gli strumenti di verifica
• Variabili e misure:– I concetti sono definiti attraverso le variabili.– Le variabili sono specificate attraverso le
misure.– Le misure sono di diverso tipo
• Metriche– Rapporti ed intervalli.
• Ordinali• Nominali
Informatica e statistica 2003 Prof. Giovanni Raho
5
Uso delle misure
• Eseguire operazioni tra le misure– Il termine operazioni va considerato in senso
lato.– Sono operazioni:
• Unione• Separazione• Operazioni aritmetiche• Operazioni razionali e irrazionali.
Informatica e statistica 2003 Prof. Giovanni Raho
6
Operazioni con le misure
• Dipendono dal diverso tipo di misura– Scale di Misura
• Addizione Unione
• Sottrazione separazione
• Moltiplicazione e divisione– Si introduce tra le misure un operatore che le
trasformi in modo da poter esser adattate alle nostre esigenze.
Informatica e statistica 2003 Prof. Giovanni Raho
7
Operazioni di sintesi
• Media aritmetica– Va valutata con un opportuno parametro:
• Deviazione standard (dev ST in Excel)• La Deviazione standard misura l’attendibilità della media a.
• Mediana (divide un gruppo ordinato in due parti)
• Valutazione attraverso la differenza tra quartili (quattro parti)
• Moda– Valutazione valore minimo e massimo
Si vedano gli esempi applicativi col foglio elettronico.
Informatica e statistica 2003 Prof. Giovanni Raho
8
Scale di misura e sintesi
• Scala metrica– Media aritmetica, Deviazione Standard
• Scala ordinale– Mediana, quartili
• Scala Nominale– Conteggio delle frequenze– Uso della MODA.
Informatica e statistica 2003 Prof. Giovanni Raho
9
La percentuale
• Si tratta di una particolare misura usata per confrontare gruppi numericamente diversi.
• Permette di cogliere le differenze con maggior immediatezza.
• Analogia grafica: TORTA75%75%
Informatica e statistica 2003 Prof. Giovanni Raho
10
I grafici
• Permettono un confronto immediato di gruppi numericamente diversi
• A lato un grafico a colonne o istogramma.
0
10
20
30
40
50
60
70
80
90
1° Trim. 2° Trim. 3° Trim. 4° Trim.
EstOvestNord
40 volte20 volte
Informatica e statistica 2003 Prof. Giovanni Raho
11
Vari tipi di grafici per vari usi
• Torta– Rappresentazione di una variabile secondo le percentuali
• Barre – Istogrammi– Rappresentazione di due o più variabili secondo la frequenza dei loro
valori. (vedi esempio precedente diapositive)
• Barre impilate– Rappresentazione di due o più variabili secondo i valori di una terza.
• Vedi nel libro di informatica analisi multivariata
Informatica e statistica 2003 Prof. Giovanni Raho
12
STATISTICA DESCRITTIVA
I procedimenti sin qui descritti fanno parte della statistica descrittiva.
Essa si occupa della presentazione di dati ed aiuta nella loro interpretazione.
… Spesso si rinuncia al dettaglio per avere una visione generale del fenomeno …
Informatica e statistica 2003 Prof. Giovanni Raho
13
Grafici lineari
• Oltre ai grafici areali descritti in precedenza in cui le occorrenze (frequenze) dei valori di una variabile sono presentate da aree di rettangoli o di settori circolari
• I grafici lineari rappresentano l’andamento di un fenomeno (spesso rispetto al tempo)
– Ricordare assi cartesiani
Informatica e statistica 2003 Prof. Giovanni Raho
14
Grafici lineari e sviluppo nel tempo
Variazione pendenza
Informatica e statistica 2003 Prof. Giovanni Raho
15
Il grafico lineare
Il grafico lineare rappresenta l’andamento dei valori di una variabile.
Come tale può ricavare valori indirettamente e può introdurre alla previsione futura.
Anni rilevazione
Situazioni 1985 1986 1987 1988 1989 Media Fiducia=DSCampania 230 270 280 290 310 276 29,664794Veneto 240 190 180 160 130 180 40,620192Piemonte 180 190 200 210 245 205 25,000000Toscana 300 310 280 300 300 298 10,954451
Andamento del fenomenoValori Affidabilità
Campania 18 0,92Veneto -25 0,94Piemonte 15 0,9Toscana -1 0,02
y = 18x + 222
R2 = 0,9205
y = -25x + 255
R2 = 0,947y = 15x + 160
R2 = 0,9y = -x + 301
R2 = 0,0208
0
50
100
150
200
250
300
350
1985 1986 1987 1988 1989
Campania
Veneto
Piemonte
Toscana
Lineare (Campania)
Lineare (Veneto)
Lineare (Piemonte)
Lineare (Toscana)
Informatica e statistica 2003 Prof. Giovanni Raho
16
Grafico lineare e linee di tendenzaAnni rilevazione
Situazioni 1985 1986 1987 1988 1989 Media Fiducia=DSCampania 230 270 280 290 310 276 29,664794Veneto 240 190 180 160 130 180 40,620192Piemonte 180 190 200 210 245 205 25,000000Toscana 300 310 280 300 300 298 10,954451
Andamento del fenomenoValori Affidabilità
Campania 18 0,92Veneto -25 0,94Piemonte 15 0,9Toscana -1 0,02
y = 18x + 222
R2 = 0,9205
y = -25x + 255
R2 = 0,947y = 15x + 160
R2 = 0,9y = -x + 301
R2 = 0,0208
0
50
100
150
200
250
300
350
1985 1986 1987 1988 1989
Campania
Veneto
Piemonte
Toscana
Lineare (Campania)
Lineare (Veneto)
Lineare (Piemonte)
Lineare (Toscana)
Si noti il collega,emto tra l’anda,mento della retta ed il coeff. angolare
Informatica e statistica 2003 Prof. Giovanni Raho
17
La linea di tendenza
Se nello studio di un fenomeno ci si accorge che le variabili degli eventi successivi hanno misure con uno sviluppo regolare e
… se si può supporre che le cause non siano modificate nel tempo
… possiamo prolungare la linea che unisce i successivi momenti oltre le misure già effettuate.
Informatica e statistica 2003 Prof. Giovanni Raho
18
La linea di tendenza
IL prolungamento del fenomeno nel tempo è favorito da alcuni algoritmi matematici che tengono conto delle oscillazioni di una variabile intorno a valori medi.
La retta di regressione è l’esempio più noto di tale metodo di previsione.
Informatica e statistica 2003 Prof. Giovanni Raho
19
Linee di tendenza
Si possono costruire con metodi matematici più o meno complessi linee di forma diversa …
La cui forma è individuata dal grado dell’equazione rappresentativa
La scelta della linea di tendenza che si avvicina di più ai valori rilevati può essere fatta col parametro R2.
Informatica e statistica 2003 Prof. Giovanni Raho
20
Linee di tendenza
Nel caso di linea di tendenza lineare è possobile associare ad una successione di eventi il coefficiente angolare della retta come elemento di sintesi.
Esempio: y=5x+3 l’andamento del fenomeno è crescente
y = -6x + 3 l’andamento del fenomeno e decrescente
y = -10x + 3 il fenomeno decresce più rapidamente della
precedente
Informatica e statistica 2003 Prof. Giovanni Raho
21
Linea di tendenza ed R2
• R2 varia da
• 0 nessuna aderenza
a
• 1 completa aderenza
ai valori rilevarti
Informatica e statistica 2003 Prof. Giovanni Raho
22
L’andamento di una popolazione
Informatica e statistica 2003 Prof. Giovanni Raho
23
Grafico dell’andamento della popolazione linea di tendenza lineare ossia di 1° grado.
0
5000
10000
15000
20000
25000
30000
35000
RETTA detta anche retta di regressione
Informatica e statistica 2003 Prof. Giovanni Raho
24
Andamento della popolazionetendenza di grado superiore al 1°
1000012000140001600018000200002200024000260002800030000
1861
1871
1881
1901
1911
1921
1931
1936
1951
1961
1971
1981
1991
1994
1995
1996
1997
1998
1999
Informatica e statistica 2003 Prof. Giovanni Raho
25
La statistica e la probabilità
Esame delle differenze e della causalità
Nell’analisi di un fenomeno si usa spesso considerare contemporaneamente i valori di due o più variabili.
Il metodo più semplice per valutare le possibili relazioni tra variabili è …
Informatica e statistica 2003 Prof. Giovanni Raho
26
L’uso ed il confrontodelle frequenze di un evento
Opinione Frequenza
Favorevole 78
Contrario 59
Totale 137
Opinione Frequenza
Favorevole
120
Contrario 100
Totale 220
Informatica e statistica 2003 Prof. Giovanni Raho
27
Grafico
• Riunendo le due tabelle si può utilizzare un grafico a colonne per valutare i due fenomeni.
Informatica e statistica 2003 Prof. Giovanni Raho
28
Incrocio tra i valori di due o più variabili
etàanziani adulti giovani
Superiore 23 26 34Media 12 13 23Elementare 34 23 12
Istruzione
Informatica e statistica 2003 Prof. Giovanni Raho
29
Lettura di una tabellaetà
anziani adulti giovaniSuperiore 23 26 34Media 12 13 23Elementare 34 23 12
Istruzione
23 anzianihanno un’istruzionesuperiore 12 giovani hanno
un’istruzione elementare
Informatica e statistica 2003 Prof. Giovanni Raho
30
Confronti tra frequenze in due variabili
Scelta1*trim 2° trim 3* trim 4° trim
Est 10 28 90 20Ovest 30 38 35 30Nord 45 46 44 44
Valutazione ottenuta
Informatica e statistica 2003 Prof. Giovanni Raho
31
0
10
20
30
40
50
60
70
80
90
1° Trim. 2° Trim. 3° Trim. 4° Trim.
Est
Ovest
Nord
Andamenti di valori di una o più variabili
Informatica e statistica 2003 Prof. Giovanni Raho
32
Esercizio
Si costruisca con EXCEL il grafico
dei dati riprodotti in precedenza
• Grafico a colonne
0
5
10
15
20
25
30
35
40
Anziani Adulti GIOVANI
Elementare
Media
Superiore
Informatica e statistica 2003 Prof. Giovanni Raho
33
Grafico a colonne impilate
• Permette un’analisi all’interno di diverse categorie della distribuzione delle frequenze dei livelli di istruzione.
Informatica e statistica 2003 Prof. Giovanni Raho
34
Grafico a colonne impilate
0
10
20
30
40
50
60
70
80
90
100
Anziani Adulti GIOVANI
Superiore
Media
Elementare
Categorie
Informatica e statistica 2003 Prof. Giovanni Raho
35
Analisi multivarata
• Si tratta di un’analisi dei valori di due variabili in cui interviene una terza variabile discriminante per valutare gruppi di caratteristiche diverse.
• Es. Il livello di istruzione rispetto all’età,
può essere diverso se si considerano gruppi il cui reddito familiare (terza variabile
discriminante) sia diverso
Informatica e statistica 2003 Prof. Giovanni Raho
36
Analisi multivariata
etàanziani adulti giovani
Media 23 26 34Superiore 12 13 23inferiore 11 23 34
Istruzione
etàanziani adulti giovani
Media 32 43 18Superiore 8 10 23inferiore 25 20 12
Istruzione
Reddito alto
Reddito bassoIl diverso reddito introduce una variazione nellacomposizione dei gruppi
Informatica e statistica 2003 Prof. Giovanni Raho
37
Analisi multivariata
• Si veda nel testo
Lezioni di Informatica …
Il paragrafo 7.7.5 pag. 131
L’uso dei grafici per l’analisi multivariata.
L’esercizio n. 2 a pag. 106:
Le tabelle dell’analisi multivarata.
Informatica e statistica 2003 Prof. Giovanni Raho
38
Metodi matematici
• Oltre ai metodi grafici EXCEL permette l’uso di metodi matematici quali:– Calcolo del chi2
• Valuta la indipendenza tra i valori di due variabili attraverso la valutazione delle occorrenze contemporanee dei valori di due variabili
• Può essere calcolato spezzando la formula in vari passaggi
Informatica e statistica 2003 Prof. Giovanni Raho
39
chi2
• Si applica da una tabella a due entrate
• Attraverso i totali di riga, colonna e complessivi calcola le frequenze teoriche e le confronta con le frequenze osservate.
• Risulta un parametro che va confrontato con parametri tabulati che permettono di valutare la probabilità di indipendenza tra due variabili.
Informatica e statistica 2003 Prof. Giovanni Raho
40
Normalizzazione dei dati
• Si possono trasformare i dati grezzi di una ricerca prendendo come unità di misura la deviazione standard e punto di origine la media aritmetica dei dati grezzi.– Ciò risulta facile col foglio elettronico
utilizzando la procedura copia
Informatica e statistica 2003 Prof. Giovanni Raho
41
Metodi matematici
• Oltre ai metodi grafici EXCEL permette l’uso di metodi matematici quali:– Calcolo del coefficiente di Pearson– Valuta la relazione tra due variabili attraverso
la valutazione delle occorrenze contemporanee dei valori delle due variabili.
Informatica e statistica 2003 Prof. Giovanni Raho
42
Elaborazione dei dati
• Si veda anche le diapositive
“Elaborazione dei dati” nella parte introduttiva al
programma S. P. S. S..
( diapositive 5 – 11)