+ All Categories
Home > Documents > 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

Date post: 01-May-2015
Category:
Upload: calandra-giorgi
View: 213 times
Download: 0 times
Share this document with a friend
31
1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012
Transcript
Page 1: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

1

Introduzione alla statistica per la ricerca

Lezione II

Dr. Stefano Guidi

Siena, 11 Ottobre 2012

Page 2: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

Riferimenti

• Online statistics (http://onlinestatbook.com/) Semplice, completo e con molte dimostrazioni

interattive (anche ebook!)

• Psychological statistics(http://www4.uwsp.edu/psych/stat/) Corso di statistica online

• Statistics Hell (http://www.statisticshell.com) Più avanzato, ma strutturato a livelli, con esempi,

esercizi e dati per SPSS

Page 3: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

Esempi di affermazioni statistiche

• 4 dentisti su 5 raccomandano Mentadent• Quasi l’85% dei casi di cancro al polmone negli

uomini ed il 45% nelle donne sono legati al fumo• Gli studenti di Science della Comunicazione hanno

un QI più alto degli altri• Le persone tendono ad essere più persuasive

quando guardano gli altri negli occhi e parlano al alta voce e velocemente

• Gli americani tendono ad essere più individualisti degli europei

• Il numero di crimini violenti nelle città aumenta con il numero di chiese 3

Page 4: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

Studiate queste parole x 2 minuti

4

Page 5: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

Provate a rievocare

Avete adesso 2 minuti per scrivere su un foglio tutte le parole che riuscite a ricordare

5

Page 6: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

Quante parole ricordavate?

6

Page 7: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

7

Introduzione

• Descrittiva Descrivere, riassumere (indicatori) e

visualizzare (grafici) insiemi di dati

• Dati sono osservazioni del mondo Limitati in numero: abbiamo solo un campione

di osservazioni, tra tutte quelle possibili

• Inferenziale Fare inferenze su una popolazione in base ad

un campione estratto dalla popolazione

Page 8: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

Istogrammi (frequenza relativa N=100)

8

Fre

qu

en

za r

ela

tiva (

pro

porz

ion

e)

Esito (moneta) Esito (dado)

Fre

qu

en

za r

ela

tiva (

pro

porz

ion

e)

Page 9: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

9

Indicatori di tendenze centrali

• Media “Il salario medio dei dipendenti di un’azienda è

4.800 €”

• Mediana Il valore al di sopra del quale si collocano il 50%

delle osservazioni “La mediana del salario dei dipendenti è 1.300

€”

• Moda Il valore più frequente dell’insieme “Mentadent è il dentifricio più comprato dagli

italiani”

Page 10: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

10

Indicatori di dispersione

Misurano la variabilità delle osservazioni

•Devianza (SS) Cresce con il numero delle osservazioni

•Varianza (s2) Rapporta la devianza al numero delle osservazioni Buona stima della variabilità di una popolazione

•Deviazione standard (s) Unità di misura significativa (la stessa della variabile

che ho misurato: punti QI, numero di parole, ecc…)

Page 11: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

Dati bivariati

• 2 variabili prese (simultaneamente) per ogni soggetto: Età, peso Altezza, peso Età del marito, età della moglie Peso auto, consumo di benzina (l/km)

• Statistiche descrittive Diagrammi a dispersione (scatterplots) Indicatori di associazione (correlazione)

Page 12: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

Scatterplots

r=0.97 r=0.63

Page 13: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

Correlazione

Misura di associazione tra 2 variabili osservate

•Indice di correlazione lineare di Pearson (r) r > 0 all’aumentare di una variabile aumenta l’altra r < 0 all’aumentare di una variabile diminuisce l’altra r = 0 assenza di correlazione r = ±1 correlazione perfetta

•Correlazione NON implica causazione Non si può stabilire la direzione dell’influenza (A->B vs B->A) Ci possono essere variabili latenti (non osservate) che

causano la relazione

Page 14: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

Indice r misura quanto sono sparsi i dati attorno ad una retta

r=-1 r=0

r=0,63 r=0,97

Page 15: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

15

Popolazioni

Popolazione (il mondo)

•l'insieme completo, infinito o finito, di oggetti, osservazioni o punteggi appartenenti ad una data classe •Popolazione può essere solo ipotetica•In pratica è l’oggetto del mio interesse, il ricercatore definisce una popolazione come quello che vuole studiare•Indici relativi ad una popolazione si dicono parametri

Page 16: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

16

Campioni

Campione (i dati)

•Sottoinsieme di dati di una popolazione a cui ho accesso•Sono tutte le osservazioni che ho effettuato•Indici relativi ad un campione si dicono statistiche

È importante il modo in cui è stato scelto! (campionamento)

Page 17: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

17

Campionamento

• Come scelgo le mie osservazioni Devono essere rappresentative della popolazione per

consentire inferenze Evitare bias nella scelta

• Campionamento casuale Tutti i membri della popolazione hanno la stessa

probabilità di entrare nel campione In pratica è spesso impossibile, ma basta

un’approssimazione

• Campionamento stratificato Il campione rispecchia in alcune caratteristiche la

popolazione Per garantire rappresentatività

Page 18: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

Dimensioni del campione

Fondamentali per la rappresentatività e per contrastare la variabilità casuale

18

Fre

qu

en

za r

ela

tiva

n=10 n=100

All’aumentare del campione le differenze dovute solo al caso tendono a cancellarsi a vicenda, ed a fare avvicinare le statistiche ai parametri

Page 19: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

19

Statistica Inferenziale

Trarre inferenze su una popolazione a partire da un campione

Inferenze probabilistiche:

•Conclusioni basate sulla probabilità di osservare i dati per caso (necessario campionamento casuale!)•In pratica si basano su misure di variabilità•Possono essere errate, ma posso cercare di contenere il rischio di errore

Page 20: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

Probabilità

• Un concetto controverso…

• Definizione a priori Dati N esiti equiprobabili di un evento, la

probabilità che ognuno di essi si verifichi è 1/N

• Definizione frequentista La proporzione di volte che un evento si

verifica dopo un numero sufficientemente grande (in realtà infinito) di osservazioni

• Probabilità soggettiva20

Page 21: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

Probabilità

• P(evento) è compresa tra 0 e 1 P(testa)=1/2

• La probabilità di un evento certo è 1• La probabilità di un evento

impossibile è 0• P(non evento) = 1 – P(evento)

P(≠1)=1-1/6 = 5/6

21

Page 22: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

Probabilità: alcune leggi

Dati due eventi A e B indipendenti, così che l’esito di A non ha nessuna influenza su quello di B, con probabilità rispettivamente pari a P(A) e P(B):

P(A e B) = P(A)*P(B) Ex lancio 2 monete: P(T e T) = ?

P(A o B) = P(A) + P(B) – P(A e B)

22

Page 23: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

23

Distribuzioni di probabilità

Per variabili discrete la distribuzione di probabilità contiene le probabilità di tutti gli esiti possibili

Page 24: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

Distribuzione del QI

24

Page 25: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

25

Distribuzioni continue(densità di probabilità)

Per variabili continue si parla di densità di probabilità:

Ex: tempo di reazione in ms (cliccare un tasto quando hai trovato una lettera T in un insieme di L)•Qual è la probabilità di rispondere in 598,95629815730251 ms?•Praticamente 0!

Page 26: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

26

Distribuzioni continue(densità di probabilità)

Descrive il variare della densità della probabilità (y) di una variabile continua (x)

• Area sotto la curva è 1• Probabilità di ogni singolo

valore di x è 0• L’area sottesa dalla curva

tra 2 punti sull’asse x è la probabilità che un numero scelto a caso cada tra i due punti

P(a<t<b)

a b t (ms)0

Page 27: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

27

Distribuzioni continue

Page 28: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

28

Distribuzione Normale

• Famiglia di distribuzioni di probabilità simmetriche

• Forma “a campana”• Media=mediana=moda• Completamente specificate

da 2 parametri indipendenti μ (media) σ (deviazione standard)

• Moltissimi fenomeni naturali sono distribuiti in modo normale

• Assunta dai test statistici

Page 29: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

29

Distribuzione Normale II

μ (media) (ex: punteggio QI di 100)

σ (deviazione standard) (ex: 15 punti QI)

Area della parte colorata è la

probabilità di osservare per caso un valore di QI compreso tra 85 e 115 (68.27%

di probabilità).

Page 30: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

30

Distribuzione Normale Standard

• Posso sempre convertire una variabile con distribuzione normale in forma standard Esprimo la distanza di una variabile (normale) dalla media

in termini di unità di deviazione standard Posso calcolare la probabilità di osservare casualmente

quel valore!

μ = 0; σ = 1

Page 31: 1 Introduzione alla statistica per la ricerca Lezione II Dr. Stefano Guidi Siena, 11 Ottobre 2012.

31

Statistica Inferenziale

Diverse tecniche, diversi fini:

•Stima Stimare un intervallo dei valori più probabili per

un parametro di una popolazione a partire da un campione: Intervallo di confidenza

Ex: capacità MBT = 7 parole?

•Verifica di Ipotesi Decidere se i dati a mia disposizione forniscono

evidenza per rigettare una data ipotesi Ex: capacità MBT parole concrete ≠ parole

astratte?


Recommended