Date post: | 03-Jul-2015 |
Category: |
Documents |
Upload: | francesco-cabiddu |
View: | 414 times |
Download: | 0 times |
Molti p-value nella stessa analisi:
necessita e metodi di correzione
Livio Finos
Una statistica piu consapevole per decisioni migliori
Dipartimento di Pedagogia, Psicologia e Filosofia
–
Universita degli Studi di Cagliari
24 Maggio 2013
Outline
1 Introduzione
Alcuni Esempi
Alcune considerazioni
2 FamilyWise Error Rate (FWER)
Definizione
Holm (step-wise)
Altri Metodi
3 False Discovery Rate (FDR)
Definizione
Metodi
Santona et al. (2010)
Ad un campione di 221 coppie sono stati somministrati i seguenti
questionari self-report
• Experiences in Close Relationships Scale (ECRR) (Brennan e
Shaver, 1998)
• Dyadic Adjustment Scale (DAS) (Spanier, 1976, 2000)
76 di queste coppie si sono rese disponibili ad effettuare due
interviste semistrutturate:
• Adult Attachment Interview (AAI) (George, Kaplan e Main,
1985)
• Current Relationship Interview (CRI) (Treboux, Crowell,
Waters, 2003)
Experiences in Close Relationships Scale
(ECRR) 1
• Indaga i sentimenti e i comportamenti correlati
all’attaccamento
• 36 item su scala likert 1-5.
• suddivisi in 2 dimensioni:
• ansia: (18 item) Fattore correlato ad intensa preoccupazione
per le relazioni sentimentali, timore di essere abbandonati e
frequenti richieste al partner di maggior coinvolgimento.
• evitamento: (18 item) Fattore collegato a difficolta e disagio
ad avvicinarsi emotivamente e ad affidarsi al partner.
1Brennan e Shaver (1998), Fraley, Waller e Brennan (2000)
Dyadic Adjustment Scale (DAS) 2
• valuta l’adattamento di coppia sulla base della
rappresentazione che ciascun membro ha del proprio
rapporto, 42 item su scala likert 1-6.
• 4 dimensioni:
• consenso diadico: (13 item) grado di accordo dei partner su:
finanze, tempo libero, religione, amicizie, gestione della casa,
gestione del tempo condiviso.
• soddisfazione diadica: (10 item) felicita percepite dai
coniugi nel rapporto. Valutati la frequenza delle liti, il piacere
provato nello stare insieme, l’aver considerato o meno il
divorzio e/o la separazione.
• coesione diadica: (5 item) quantita di tempo che i partner
dedicano ad attivita comuni di piacere, quali interessi sociali,
dialogo, lavoro condiviso su un obiettivo comune.
• espressione affettiva: (4 item) modalita in cui i partner
comunicano i propri sentimenti, l’amore e la sessualita.
2Spanier (1976, 2000)
Adult Attachment Interview (AAI) 4
• Intervista semi-strutturata, valuta lo stato della mente
attuale rispetto alle esperienze di attaccamento.
• scale a 9 punti, articolate in due gruppi 3:
• 5 scale dell’esperienza soggettiva
• 11 scale dello stato della mente
• Sulla base di queste scale, al soggetto assegnata una
categoria: 3 Classificazioni
3Simonelli, Calvo (2005)4George, Kaplan e Main (1985)
Current Relationship Interview (CRI) 6
• Intervista semi-strutturata che consta di 15 domande, valuta
lo stato della mente adulto rispetto alle esperienze
sentimentali.
• 18 scale di valutazione (punteggi 1-9), che sono utilizzateper definire 5:
• il comportamento del partecipante ed i suoi pensieri nei
confronti di argomenti correlati con l’attaccamento,
• il comportamento del partner,
• lo stile narrativo del soggetto.
• Sulla base di queste scale, al soggetto assegnata una
categoria: 3 Classificazioni
5Santona, Zavattini (2007)6Treboux, Crowell, Waters (2003)
La domanda scientifica
La domanda: Donne e Uomini rispondono in modo differente?
Il metodo statistico: Confrontiamo i due generi su tutte le scale
e le classificazioni dello strumento
(test sui ranghi e dei segni, campioni appaiati).
• ipotesi nulla H0: i due generi sono UGUALI rispetto alla
specifica scala/classificazione
• ipotesi alternativa H1: i due generi sono DIVERSI rispetto
alla specifica scala/classificazione
• avremo quindi 2 (scale dell ECRR) + 4 (scale del DAS) + 3
(classificazioni del AAI) + 3 (classificazioni del CRI) =
=12 test complessivi.
Dubbio: necessario controllo della molteplicita?
Ulteriore Esempio: studi fMRI
Una mappa di attivita per ogni
soggetto
Ogni voxel (punto) produce un
p-value
L’output e solitamente una lista
dei voxel piu attivi
(sui migliaia testati)
Dubbio: necessario controllo della molteplicita?
Ulteriore Esempio: studi fMRI
Una mappa di attivita per ogni
soggetto
Ogni voxel (punto) produce un
p-value
L’output e solitamente una lista
dei voxel piu attivi
(sui migliaia testati)
Dubbio: necessario controllo della molteplicita?
Ulteriore Esempio: studi fMRI
Una mappa di attivita per ogni
soggetto
Ogni voxel (punto) produce un
p-value
L’output e solitamente una lista
dei voxel piu attivi
(sui migliaia testati)
Dubbio: necessario controllo della molteplicita?
Altri esempi
Cinematica
un Test per Ogni Parametro
Modelli di Regressione (LM e GLM)
Un t-test per ogni Coefficiente di Regressione
Anova
Tutti i Confronti a Coppie (post-hoc)
Ogni volta in cui l’analisi produce piu di un p-value
Dubbio: necessario controllo della molteplicita?
Outline
1 Introduzione
Alcuni Esempi
Alcune considerazioni
2 FamilyWise Error Rate (FWER)
Definizione
Holm (step-wise)
Altri Metodi
3 False Discovery Rate (FDR)
Definizione
Metodi
Verifica di Ipotesi, Un solo test
Due Ipotesi a confronto
• H0: due gruppi sono Uguali, nessuna relazione tra X e Y ,
nulla da pubblicare :(
• H1: due gruppi sono Diversi, c’e relazione tra X e Y ,
pubblicabile :)
Ogni test produce un p-value p,
se p ≤ .05 (α = .05) rifiuto H0 (e propendo per H1)
Errori
• Tipo I (falso positivo): Rifiuto H0 quando e Vera
P(Errore Tipo I ) = P(p ≤ .05|H0) = .05
• Tipo II (falso negativo): Non Rifiuto H0 quando e Falsa
P(Errore Tipo II ) = P(p > .05|H1)Potenza:
P(p ≤ .05|H1) = 1− P(p > .05|H1)= 1− P(Errore tipo II )
Importanza asimmetrica degli errori
Controlliamo la P(Errore tipo I ) (es ≤ .05)
e cerchiamo il test con massima Potenza (minimo Errore tipo II )
Errori di Tipo I:
P(p ≤ .05|H0 = 2 gruppi Uguali) =?
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xxx
t= −0.886 , p= 0.426
Errori di Tipo I:
P(p ≤ .05|H0 = 2 gruppi Uguali) =?
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xxx
t= −0.886 , p= 0.426
x xxx xx
t= 1.301 , p= 0.263
Errori di Tipo I:
P(p ≤ .05|H0 = 2 gruppi Uguali) =?
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xxx
t= −0.886 , p= 0.426
x xxx xx
t= 1.301 , p= 0.263
xx xxx x
t= 0.565 , p= 0.602
xx xxxx
t= 0.867 , p= 0.435
xxxx x x
t= 0.558 , p= 0.607
xx xxx x
t= 0.388 , p= 0.718
x x xxxx
t= 0.054 , p= 0.959
xxxx x x
t= −0.131 , p= 0.902
x xxx xx
t= 0.794 , p= 0.471
x xxx xx
t= 0.268 , p= 0.802
xx xxx x
t= 0.794 , p= 0.472
x xx xxx
t= −1.219 , p= 0.29
xxx xx x
t= −0.227 , p= 0.832
xxx x xx
t= 1.495 , p= 0.209
xx xx xx
t= 2.008 , p= 0.115
x xxx xx
t= −0.128 , p= 0.904
x xx xx x
t= −2.484 , p= 0.068
Errori di Tipo I:
P(p ≤ .05|H0 = 2 gruppi Uguali) =?
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xxx
t= −0.886 , p= 0.426
x xxx xx
t= 1.301 , p= 0.263
xx xxx x
t= 0.565 , p= 0.602
xx xxxx
t= 0.867 , p= 0.435
xxxx x x
t= 0.558 , p= 0.607
xx xxx x
t= 0.388 , p= 0.718
x x xxxx
t= 0.054 , p= 0.959
xxxx x x
t= −0.131 , p= 0.902
x xxx xx
t= 0.794 , p= 0.471
x xxx xx
t= 0.268 , p= 0.802
xx xxx x
t= 0.794 , p= 0.472
x xx xxx
t= −1.219 , p= 0.29
xxx xx x
t= −0.227 , p= 0.832
xxx x xx
t= 1.495 , p= 0.209
xx xx xx
t= 2.008 , p= 0.115
x xxx xx
t= −0.128 , p= 0.904
x xx xx x
t= −2.484 , p= 0.068
x xx xxx
t= −1.789 , p= 0.148
x xxx xx
t= 0.213 , p= 0.842
xxxx xx
t= 1.037 , p= 0.358
x xxxx x
t= −1.963 , p= 0.121
xxx x xx
t= 0.306 , p= 0.775
xx xx xx
t= 3.304 , p= 0.03
x xx xx x
t= −2.602 , p= 0.06
Errori di Tipo I:
P(p ≤ .05|H0 = 2 gruppi Uguali) = 0.05
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xxx
t= −0.886 , p= 0.426
x xxx xx
t= 1.301 , p= 0.263
xx xxx x
t= 0.565 , p= 0.602
xx xxxx
t= 0.867 , p= 0.435
xxxx x x
t= 0.558 , p= 0.607
xx xxx x
t= 0.388 , p= 0.718
x x xxxx
t= 0.054 , p= 0.959
xxxx x x
t= −0.131 , p= 0.902
x xxx xx
t= 0.794 , p= 0.471
x xxx xx
t= 0.268 , p= 0.802
xx xxx x
t= 0.794 , p= 0.472
x xx xxx
t= −1.219 , p= 0.29
xxx xx x
t= −0.227 , p= 0.832
xxx x xx
t= 1.495 , p= 0.209
xx xx xx
t= 2.008 , p= 0.115
x xxx xx
t= −0.128 , p= 0.904
x xx xx x
t= −2.484 , p= 0.068
x xx xxx
t= −1.789 , p= 0.148
x xxx xx
t= 0.213 , p= 0.842
xxxx xx
t= 1.037 , p= 0.358
x xxxx x
t= −1.963 , p= 0.121
xxx x xx
t= 0.306 , p= 0.775
xx xx xx
t= 3.304 , p= 0.03
x xx xx x
t= −2.602 , p= 0.06
x x xxxx
t= 0.573 , p= 0.597
xxxxx x
t= 0.341 , p= 0.75
xxx xxx
t= −0.306 , p= 0.775
xxx xxx
t= −0.42 , p= 0.696
x x xx xx
t= 1.07 , p= 0.345
x x x xxx
t= −0.794 , p= 0.472
x xxx xx
t= 0.057 , p= 0.957
xx xx x x
t= 0.985 , p= 0.38
x xxx xx
t= 0.239 , p= 0.823
xx x xxx
t= 0.607 , p= 0.577
x xxxx x
t= −1.558 , p= 0.194
x xxx x x
t= −0.052 , p= 0.961
xx xxx x
t= −0.043 , p= 0.968
x xx xxx
t= −0.643 , p= 0.555
xxxx x x
t= 0.18 , p= 0.866
xx xx xx
t= 1.905 , p= 0.13
x xxx xx
t= 1.417 , p= 0.229
x xx xx x
t= −1.393 , p= 0.236
xx x xx x
t= −1.066 , p= 0.347
xx xxx x
t= 0.602 , p= 0.579
xxxx xx
t= 1.132 , p= 0.321
x xx xx x
t= −2.357 , p= 0.078
x xx xxx
t= −1.673 , p= 0.17
xxxx x x
t= 0.313 , p= 0.77
x xx xxx
t= 0.144 , p= 0.893
xx xxxx
t= 0.883 , p= 0.427
xx xx xx
t= 1.78 , p= 0.15
x xx x xx
t= −0.483 , p= 0.654
xx x xx x
t= −0.797 , p= 0.47
x x xxxx
t= 0.184 , p= 0.863
xxx xx x
t= −1.624 , p= 0.18
xx x xx x
t= −0.582 , p= 0.592
xxxx xx
t= 1.92 , p= 0.127
xxx x xx
t= 0.251 , p= 0.814
x xxxxx
t= 0.139 , p= 0.896
xxx xx x
t= −0.536 , p= 0.62
x xx x x x
t= −1.815 , p= 0.144
xxxx x x
t= 0.109 , p= 0.918
x xx xxx
t= −1.402 , p= 0.234
x xx xx x
t= −1.666 , p= 0.171
xxx xx x
t= −0.706 , p= 0.519
xx xxxx
t= 1.189 , p= 0.3
xxx x x x
t= −0.323 , p= 0.763
x xxxxx
t= −1.387 , p= 0.238
xx x x xx
t= 1.368 , p= 0.243
x x xxx x
t= −1.059 , p= 0.349
xx xx x x
t= 0.858 , p= 0.439
x xxxx x
t= −1.914 , p= 0.128
x x xx xx
t= 0.088 , p= 0.934
x xx xx x
t= −3.713 , p= 0.021
xx x x xx
t= 1.724 , p= 0.16
xxxxx x
t= 0.334 , p= 0.755
xx x xx x
t= −0.392 , p= 0.715
xxx xx x
t= −0.55 , p= 0.612
xxxx x x
t= 0.205 , p= 0.848
xx xx xx
t= 2.356 , p= 0.078
xx xx xx
t= 0.125 , p= 0.906
xxx xx x
t= −1.519 , p= 0.203
x x xx xx
t= 1.213 , p= 0.292
xx xxx x
t= 0.248 , p= 0.816
x xx x xx
t= 0.16 , p= 0.881
x xx xx x
t= −1.477 , p= 0.214
x xx xx x
t= −3.643 , p= 0.022
x xxx x x
t= −0.295 , p= 0.783
xxx xxx
t= −0.592 , p= 0.586
xx x xxx
t= 1.052 , p= 0.352
x xxx xx
t= 0.711 , p= 0.516
x xx xxx
t= −1.272 , p= 0.272
x x xxx x
t= −0.423 , p= 0.694
xxx x xx
t= 0.06 , p= 0.955
x xxxx x
t= −2.702 , p= 0.054
x xxx xx
t= −0.309 , p= 0.773
x xx xx x
t= −1.051 , p= 0.352
xxx xx x
t= −0.592 , p= 0.585
xx xx xx
t= 2.035 , p= 0.112
x xx x xx
t= −0.537 , p= 0.62
x xxxxx
t= −0.351 , p= 0.743
x x xxxx
t= 0.11 , p= 0.918
xx xxxx
t= 1.722 , p= 0.16
xxxx xx
t= 0.42 , p= 0.696
xx xxx x
t= 0.446 , p= 0.679
x xx xx x
t= −2.388 , p= 0.075
xxx xx x
t= −1.18 , p= 0.303
xx xx xx
t= 4.126 , p= 0.015
xx xx xx
t= 1.824 , p= 0.142
xx x xx x
t= 0.239 , p= 0.823
x xxxx x
t= −0.785 , p= 0.476
x xx xx x
t= −3.455 , p= 0.026
xx xx x x
t= 1.628 , p= 0.179
xx xx xx
t= 2.338 , p= 0.08
x xx x xx
t= 0.114 , p= 0.915
Potenza:
P(p ≤ .05|H1 = 2 gruppi Diversi)
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xx x
t= −3.426 , p= 0.027
Potenza:
P(p ≤ .05|H1 = 2 gruppi Diversi)
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xx x
t= −3.426 , p= 0.027
x xx xx x
t= −3.154 , p= 0.034
Potenza:
P(p ≤ .05|H1 = 2 gruppi Diversi)
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xx x
t= −3.426 , p= 0.027
x xx xx x
t= −3.154 , p= 0.034
x x x xx x
t= −1.315 , p= 0.259
Potenza:
P(p ≤ .05|H1 = 2 gruppi Diversi)
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xx x
t= −3.426 , p= 0.027
x xx xx x
t= −3.154 , p= 0.034
x x x xx x
t= −1.315 , p= 0.259
x xx xxx
t= −1.276 , p= 0.271
x xx xx x
t= −2.499 , p= 0.067
x xx xx x
t= −2.085 , p= 0.105
x xx xx x
t= −3.521 , p= 0.024
x xx xx x
t= −3.347 , p= 0.029
x xx xx x
t= −2.411 , p= 0.073
x xx xx x
t= −1.662 , p= 0.172
xxx xx x
t= −1.4 , p= 0.234
Potenza:
P(p ≤ .05|H1 = 2 gruppi Diversi)
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xx x
t= −3.426 , p= 0.027
x xx xx x
t= −3.154 , p= 0.034
x x x xx x
t= −1.315 , p= 0.259
x xx xxx
t= −1.276 , p= 0.271
x xx xx x
t= −2.499 , p= 0.067
x xx xx x
t= −2.085 , p= 0.105
x xx xx x
t= −3.521 , p= 0.024
x xx xx x
t= −3.347 , p= 0.029
x xx xx x
t= −2.411 , p= 0.073
x xx xx x
t= −1.662 , p= 0.172
xxx xx x
t= −1.4 , p= 0.234
x xx xx x
t= −3.001 , p= 0.04
x xx xx x
t= −3.284 , p= 0.03
x xx xxx
t= −1.565 , p= 0.193
x xx xx x
t= −4.95 , p= 0.008
x xx xx x
t= −3.071 , p= 0.037
x xx xx x
t= −9.524 , p= 0.001
x xx xx x
t= −4.702 , p= 0.009
x xx xxx
t= −1.877 , p= 0.134
x xx xx x
t= −6.59 , p= 0.003
x xx xx x
t= −6.331 , p= 0.003
Potenza:
P(p ≤ .05|H1 = 2 gruppi Diversi)ad es: Potenza : P(p ≤ 0.05|H1) = 0.75
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xx x
t= −3.426 , p= 0.027
x xx xx x
t= −3.154 , p= 0.034
x x x xx x
t= −1.315 , p= 0.259
x xx xxx
t= −1.276 , p= 0.271
x xx xx x
t= −2.499 , p= 0.067
x xx xx x
t= −2.085 , p= 0.105
x xx xx x
t= −3.521 , p= 0.024
x xx xx x
t= −3.347 , p= 0.029
x xx xx x
t= −2.411 , p= 0.073
x xx xx x
t= −1.662 , p= 0.172
xxx xx x
t= −1.4 , p= 0.234
x xx xx x
t= −3.001 , p= 0.04
x xx xx x
t= −3.284 , p= 0.03
x xx xxx
t= −1.565 , p= 0.193
x xx xx x
t= −4.95 , p= 0.008
x xx xx x
t= −3.071 , p= 0.037
x xx xx x
t= −9.524 , p= 0.001
x xx xx x
t= −4.702 , p= 0.009
x xx xxx
t= −1.877 , p= 0.134
x xx xx x
t= −6.59 , p= 0.003
x xx xx x
t= −6.331 , p= 0.003
x xx xx x
t= −6.88 , p= 0.002
xxxxx x
t= −1.508 , p= 0.206
x xx xx x
t= −5.796 , p= 0.004
x x xxx x
t= −1.097 , p= 0.334
x xx xx x
t= −2.721 , p= 0.053
x xx xx x
t= −2.199 , p= 0.093
x xx xx x
t= −2.119 , p= 0.101
x xxxx x
t= −1.623 , p= 0.18
x xx xx x
t= −3.488 , p= 0.025
x xx xx x
t= −2.188 , p= 0.094
xxx xx x
t= −1.767 , p= 0.152
x xx x xx
t= −1.713 , p= 0.162
x xx xxx
t= −1.937 , p= 0.125
x xx xx x
t= −3.362 , p= 0.028
x xx x x x
t= −2.168 , p= 0.096
x xx xx x
t= −2.533 , p= 0.064
x xx xx x
t= −2.597 , p= 0.06
x xxx x x
t= −1.544 , p= 0.197
x xx x x x
t= −2.053 , p= 0.109
x xx xxx
t= −0.742 , p= 0.499
x xx xx x
t= −6.18 , p= 0.003
x xx xx x
t= −3.035 , p= 0.039
x xx xx x
t= −3.018 , p= 0.039
x xx xx x
t= −1.272 , p= 0.272
x xx xx x
t= −5.114 , p= 0.007
x xx xx x
t= −3.923 , p= 0.017
xxx xx x
t= −1.94 , p= 0.124
x xx xx x
t= −2.453 , p= 0.07
x xx xx x
t= −2.216 , p= 0.091
xx xxx x
t= −0.627 , p= 0.565
x xx xx x
t= −3.747 , p= 0.02
x xx xx x
t= −4.571 , p= 0.01
x xx xxx
t= −1.381 , p= 0.239
x xx xx x
t= −6.397 , p= 0.003
x xx xx x
t= −2.826 , p= 0.048
x xx xxx
t= −2.022 , p= 0.113
x xx x x x
t= −1.664 , p= 0.171
x xx xx x
t= −2.793 , p= 0.049
x xx xx x
t= −2.364 , p= 0.077
x xx xx x
t= −4.04 , p= 0.016
x xx xx x
t= −2.682 , p= 0.055
x xx xx x
t= −6.533 , p= 0.003
x xx xx x
t= −4.637 , p= 0.01
x xx xx x
t= −2.505 , p= 0.066
x xx xx x
t= −1.902 , p= 0.13
x xx xx x
t= −2.594 , p= 0.06
x xx xx x
t= −27.1 , p= 0
xxx xxx
t= −1.372 , p= 0.242
x xx xx x
t= −3.249 , p= 0.031
xxx x x x
t= −0.982 , p= 0.382
x xx xx x
t= −5.34 , p= 0.006
x xx xx x
t= −2.526 , p= 0.065
x xx xx x
t= −8.81 , p= 0.001
Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?
p−values test 1
p−va
lues
test
2
0.0 0.3 0.6 0.9
0.0
0.3
0.6
0.9
Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?
p−values test 1
p−va
lues
test
2
0.0 0.3 0.6 0.9
0.0
0.3
0.6
0.9
Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?
p−values test 1
p−va
lues
test
2
0.0 0.3 0.6 0.9
0.0
0.3
0.6
0.9
Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?
p−values test 1
p−va
lues
test
2
0.0 0.3 0.6 0.9
0.0
0.3
0.6
0.9
Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?
p−values test 1
p−va
lues
test
2
0.0 0.3 0.6 0.9
0.0
0.3
0.6
0.9
Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?
p−values test 1
p−va
lues
test
2
0.0 0.3 0.6 0.9
0.0
0.3
0.6
0.9
Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?
p−values test 1
p−va
lues
test
2
0.0 0.3 0.6 0.9
0.0
0.3
0.6
0.9
Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?
p−values test 1
p−va
lues
test
2
0.0 0.3 0.6 0.9
0.0
0.3
0.6
0.9
Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?
p−values test 1
p−va
lues
test
2
0.0 0.3 0.6 0.9
0.0
0.3
0.6
0.9
Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?
p−values test 1
p−va
lues
test
2
0.0 0.3 0.6 0.9
0.0
0.3
0.6
0.9
Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?
= .10 + .10− (.10 ∗ .10) = 1− (1− .10)2 = .19 = 1− (1− α)2
densità congiunta
p−values test 1
p−va
lues
test
2
0.2
0.6
11.
4
Probabilita di falsi rifiuti
m p-value indipendenti
Se rifiuto l’ipotesi quando p ≤ α
Probabilita ALMENO un falso rifiuto
P = 1− (1− α)m
Nel nostro caso (se i p-value fossero indipendenti!)
P = 1− (1− α)12 = 0.4596
Errori di Tipo I per numero di test
0 20 40 60 80 100
0.0
0.2
0.4
0.6
0.8
1.0
number of hypothesis tests at level 0.05
prob
abili
ty o
f a fa
lse
reje
ctio
n
P-values Dipendenti
Quasi sempre nei dati reali
densità congiunta
p−values test 1
p−va
lues
test
2
0.2
0.6
11.
4
P-values DipendentiQuasi sempre nei dati reali
P(Almeno un Falso Rifiuto)> (!)1− (1− α)2
densità congiunta
p−values test 1
p−va
lues
test
2
0.2
0.6
11.
4
Type I errors
Come definire l’errore di tipo I quando ci sono molte ipotesi?
Quali procedure controllano questo errore?
Outline
1 Introduzione
Alcuni Esempi
Alcune considerazioni
2 FamilyWise Error Rate (FWER)
Definizione
Holm (step-wise)
Altri Metodi
3 False Discovery Rate (FDR)
Definizione
Metodi
FamilyWise Error Rate (FWER)
Probabilita di fare ALMENO un falso rifiuto
Diseguaglianza di Bonferroni
Riduce α
Rifiuta Hi se pi ≤ α/m (m = numero di ipotesi)
Controllo del FWER
FWER = P(
pi ≤ α/m per almeno una ipotesi i nulla vera)
≤∑
i∈{ipotesi nulle vere}
P(pi ≤ α/m)
≤ #{ipotesi nulle vere}α
m≤ α
Procedura di Bonferroni
Adjusted p-value = p-value· · · (# ipotesi nulle vere)
Rifiuta se adjusted p-value ≤ α
Vantaggi
• Molto facile
• Controlla il FWER sotto ogni dipendenza
Svantaggi
Conservativo (Adj. p-value molto alti, pochi rifiuti)
Outline
1 Introduzione
Alcuni Esempi
Alcune considerazioni
2 FamilyWise Error Rate (FWER)
Definizione
Holm (step-wise)
Altri Metodi
3 False Discovery Rate (FDR)
Definizione
Metodi
Holm’s procedure7
1 Primo passo: adjusted p-value: p ·m; rifiuta se ≤ α2 Dopo r rifiuti, adjusted p-value: p · (m − r)
3 Stop appena non rifiuti nulla
Bonferroni
H \R :
R :
Adj. p-value: ≤?αpA5 pB 5 pC 5 pD5 pE 5
A B C D E
7Holm S. (1979) A simple sequentially rejective multiple test procedure.
Scandinavian Journal of Statistics; 6(2):65–70.
Holm’s procedure7
1 Primo passo: adjusted p-value: p ·m; rifiuta se ≤ α2 Dopo r rifiuti, adjusted p-value: p · (m − r)
3 Stop appena non rifiuti nulla
Supponiamo pA e pC significativi
H \R :
R :
Adj. p-value: ≤?αpA5 pB 5 pC 5 pD5 pE 5
A B C D E
7Holm S. (1979) A simple sequentially rejective multiple test procedure.
Scandinavian Journal of Statistics; 6(2):65–70.
Holm’s procedure7
1 Primo passo: adjusted p-value: p ·m; rifiuta se ≤ α2 Dopo r rifiuti, adjusted p-value: p · (m − r)
3 Stop appena non rifiuti nulla
Adjusted p-value: p · 3
H \R :
R :
Adj. p-value: ≤?α- pB 3 - pD3 pE 3
A
B
C
D E
7Holm S. (1979) A simple sequentially rejective multiple test procedure.
Scandinavian Journal of Statistics; 6(2):65–70.
Holm’s procedure7
1 Primo passo: adjusted p-value: p ·m; rifiuta se ≤ α2 Dopo r rifiuti, adjusted p-value: p · (m − r)
3 Stop appena non rifiuti nulla
Supponamo pD significativo
H \R :
R :
Adj. p-value: ≤?α- pB 3 - pD3 pE 3
A
B
C
D E
7Holm S. (1979) A simple sequentially rejective multiple test procedure.
Scandinavian Journal of Statistics; 6(2):65–70.
Holm’s procedure7
1 Primo passo: adjusted p-value: p ·m; rifiuta se ≤ α2 Dopo r rifiuti, adjusted p-value: p · (m − r)
3 Stop appena non rifiuti nulla
Adjusted p-value: p · 2
H \R :
R :
Adj. p-value: ≤?α- pB 2 - - pE 2
A
B
C D
E
7Holm S. (1979) A simple sequentially rejective multiple test procedure.
Scandinavian Journal of Statistics; 6(2):65–70.
Holm’s procedure7
1 Primo passo: adjusted p-value: p ·m; rifiuta se ≤ α2 Dopo r rifiuti, adjusted p-value: p · (m − r)
3 Stop appena non rifiuti nulla
Nessun rifuto. Stop
H \R :
R :
Adj. p-value: ≤?α- pB 2 - - pE 2
A
B
C D
E
7Holm S. (1979) A simple sequentially rejective multiple test procedure.
Scandinavian Journal of Statistics; 6(2):65–70.
Risultati Holm
p-value Adjusted p-value
ECRR: Ansia .217 1.000
ECRR: Evitamento .0015 .0165 *
DAS: Consenso .0072 .0648
DAS: Soddisfazione .0001 .0012 *
DAS: Coesione .0415 .2905
DAS: Espr.Affetti .0025 .0250 *
AAI: Sicuro .3545 1.000
AAI: Distanziante .0189 .1512
AAI: Preoccupato .1264 .7584
CRI: Sicuro .5856 1.000
CRI: Distanziante .5536 1.000
CRI: Preoccupato 1.000 1.000
Outline
1 Introduzione
Alcuni Esempi
Alcune considerazioni
2 FamilyWise Error Rate (FWER)
Definizione
Holm (step-wise)
Altri Metodi
3 False Discovery Rate (FDR)
Definizione
Metodi
Closed Testing
Insieme Chiusura delle ipotesi (tutte le possibili intersezioni)
Ipotesi iniziali
A
A B C
Closed Testing
Test nodo superiore (es MANOVA)
Insieme chiusura
ABC
AB AC BC
A B C
Closed Testing
Test il nodo principale a livello α
αABC
AB AC BC
A B C
Closed Testing
Supponiamo sia significativo
-ABC
AB AC BC
A B C
Closed Testing
Avanti
-
αα α
ABC
AB AC BC
A B C
Closed Testing
Verifica i successivi a livello α
-
α- -
ABC
AB AC BC
A B C
Closed Testing
Avanti
-
α- -
α
ABC
AB AC BC
A B C
Closed Testing
Identifica i significativi
-
α- -
-
ABC
AB AC BC
A B C
Closed Testing
Svantaggio: ipotesi testate diventano sono spesso troppe:
= 2#ipotesi − 1
Identifica i significativi
-
α- -
-
ABC
AB AC BC
A B C
Inheritance Procedure per ipotesi
strutturate (Goeman & Finos, 2012)
ECRR
[.0011]
AN
SIA
[1.0
00
]E
VIT
AM
EN
TO
[.0
18
0]
DAS
[.0003]
CO
NS
EN
SO
[.0
43
2]
SO
DD
ISF
AZ
ION
E[.
00
09
]C
OE
SIO
NE
[.1
24
5]
ES
PR
.A
FF
ET
TO
[.0
22
5]
AAI
[.0696]
Sic
uro
[1.0
00
]D
ista
nzi
an
te[.
07
56
]P
reo
ccu
pa
to[.
50
56
]
CRI
[1.000]
Sic
uro
[1.0
00
]D
ista
nzi
an
te[1
.00
0]
Pre
occ
up
ato
[1.0
00
]
global
[.0001]
Permutazioni
Westfall & Young min-P: simile a Holm, ma via permutazione
Vantaggi dei test di permutazione
• Meno assunzioni sulla distribuzione dei dati
• Gestisce le dipendenze tra test (e quindi p-values)
Svantaggi
Meno flessibile (applicabile) dei metodi di Massima
Verosimiglianza.
Gestire le dipendenze:
adjusted p-value piu bassi (piu rifiuti)
Quando?
correlazione Negativa: generalmente nessun guadagno
p-value Indipendenti: guadagno minimo o nullo
correlazione Positiva: guadagno usualmente alto
Come?
in R: library(flip); flip(); flip.adjust()
Dati Reali
Neuroscienza e psicometria solitamente producono correlazioni
positive tra p-value (significativo in un voxel/parametro/scala
implica significativo in un altro)
quindi . . .
Permutare (spesso) Conviene
Gestire le dipendenze:
adjusted p-value piu bassi (piu rifiuti)
Quando?
correlazione Negativa: generalmente nessun guadagno
p-value Indipendenti: guadagno minimo o nullo
correlazione Positiva: guadagno usualmente alto
Come?
in R: library(flip); flip(); flip.adjust()
Dati Reali
Neuroscienza e psicometria solitamente producono correlazioni
positive tra p-value (significativo in un voxel/parametro/scala
implica significativo in un altro)
quindi . . . Permutare (spesso) Conviene
Summary
FamilyWise Error
• Generalizza gli errori di Tipo I al caso di ipotesi multiple
• Controlla la probabilita di ALMENO un falso tra tutti i rifiuti
• corregge i p-value (adjusted p-value sempre uguale o
peggiore dei p-value non aggiustati)
Software R
• Bonferroni e Holm library(stats); p.adjust()
• Closed Testing library(cherry); closed()
• Ipotesi Strutturate library(globaltest); inheritance()
• Permutazioni - Westfall & Young
library(flip); flip.adjust()
Summary
FamilyWise Error
• Generalizza gli errori di Tipo I al caso di ipotesi multiple
• Controlla la probabilita di ALMENO un falso tra tutti i rifiuti
• corregge i p-value (adjusted p-value sempre uguale o
peggiore dei p-value non aggiustati)
Software R
• Bonferroni e Holm library(stats); p.adjust()
• Closed Testing library(cherry); closed()
• Ipotesi Strutturate library(globaltest); inheritance()
• Permutazioni - Westfall & Young
library(flip); flip.adjust()
Summary
FamilyWise Error
• Generalizza gli errori di Tipo I al caso di ipotesi multiple
• Controlla la probabilita di ALMENO un falso tra tutti i rifiuti
• corregge i p-value (adjusted p-value sempre uguale o
peggiore dei p-value non aggiustati)
Software R
• Bonferroni e Holm library(stats); p.adjust()
• Closed Testing library(cherry); closed()
• Ipotesi Strutturate library(globaltest); inheritance()
• Permutazioni - Westfall & Young
library(flip); flip.adjust()
Summary
FamilyWise Error
• Generalizza gli errori di Tipo I al caso di ipotesi multiple
• Controlla la probabilita di ALMENO un falso tra tutti i rifiuti
• corregge i p-value (adjusted p-value sempre uguale o
peggiore dei p-value non aggiustati)
Software R
• Bonferroni e Holm library(stats); p.adjust()
• Closed Testing library(cherry); closed()
• Ipotesi Strutturate library(globaltest); inheritance()
• Permutazioni - Westfall & Young
library(flip); flip.adjust()
Outline
1 Introduzione
Alcuni Esempi
Alcune considerazioni
2 FamilyWise Error Rate (FWER)
Definizione
Holm (step-wise)
Altri Metodi
3 False Discovery Rate (FDR)
Definizione
Metodi
False Discovery Rate 8
# Non Rifiutate # Rifiutate Totale
# H0 A0 R0 m0# H1 A1 R1 m1
A R m
Controllare il False Discovery Rate (FDR)
significa definire una procedura:
Media(#Falsi Rifiuti
#Rifiuti) = Media(
R0R
) ≤ q
solitamente q = .05 (analogo α)
8Benjamini and Hochberg (1995). Journal of the Royal Statistical Society,
Series B (Methodological) 57 (1): 289–300.
Outline
1 Introduzione
Alcuni Esempi
Alcune considerazioni
2 FamilyWise Error Rate (FWER)
Definizione
Holm (step-wise)
Altri Metodi
3 False Discovery Rate (FDR)
Definizione
Metodi
Benjamini and Hochberg (BH)
p(10) m
10 = 0.753 1010 = 0.753
?≤ q = .10 : No
p(10)=.753p(10)=.753
p(9) =.731p(9) =.731
p(8) =.503p(8) =.503
p(7) =.314p(7) =.314
p(6) =.153p(6) =.153
p(5) =.075p(5) =.075
p(4) =.050p(4) =.050
p(3) =.038p(3) =.038
p(2) =.016
p(1) =.005
Benjamini and Hochberg (BH)
p(9) m
9 = 0.731 109 = 0.812
?≤ q = .10 : No
p(10)=.753p(10)=.753
p(9) =.731p(9) =.731
p(8) =.503p(8) =.503
p(7) =.314p(7) =.314
p(6) =.153p(6) =.153
p(5) =.075p(5) =.075
p(4) =.050p(4) =.050
p(3) =.038p(3) =.038
p(2) =.016
p(1) =.005
Benjamini and Hochberg (BH)
p(8) m
8 = 0.503 108 = 0.629
?≤ q = .10 : No
p(10)=.753p(10)=.753
p(9) =.731p(9) =.731
p(8) =.503p(8) =.503
p(7) =.314p(7) =.314
p(6) =.153p(6) =.153
p(5) =.075p(5) =.075
p(4) =.050p(4) =.050
p(3) =.038p(3) =.038
p(2) =.016
p(1) =.005
Benjamini and Hochberg (BH)
p(7) m
7 = 0.314 107 = 0.449
?≤ q = .10 : No
p(10)=.753p(10)=.753
p(9) =.731p(9) =.731
p(8) =.503p(8) =.503
p(7) =.314p(7) =.314
p(6) =.153p(6) =.153
p(5) =.075p(5) =.075
p(4) =.050p(4) =.050
p(3) =.038p(3) =.038
p(2) =.016
p(1) =.005
Benjamini and Hochberg (BH)
p(6) m
6 = 0.153 106 = 0.255
?≤ q = .10 : No
p(10)=.753p(10)=.753
p(9) =.731p(9) =.731
p(8) =.503p(8) =.503
p(7) =.314p(7) =.314
p(6) =.153p(6) =.153
p(5) =.075p(5) =.075
p(4) =.050p(4) =.050
p(3) =.038p(3) =.038
p(2) =.016
p(1) =.005
Benjamini and Hochberg (BH)
ecc.
p(10)=.753p(10)=.753
p(9) =.731p(9) =.731
p(8) =.503p(8) =.503
p(7) =.314p(7) =.314
p(6) =.153p(6) =.153
p(5) =.075p(5) =.075
p(4) =.050p(4) =.050
p(3) =.038p(3) =.038
p(2) =.016
p(1) =.005
Benjamini and Hochberg (BH)
p(1) m
2 = 0.016 102 = 0.080
?≤ q = .10 : sı, STOP
p(10)=.753p(10)=.753
p(9) =.731p(9) =.731
p(8) =.503p(8) =.503
p(7) =.314p(7) =.314
p(6) =.153p(6) =.153
p(5) =.075p(5) =.075
p(4) =.050p(4) =.050
p(3) =.038p(3) =.038
p(2) =.016
p(1) =.005
Altro
Dipendenza
BH e valido sotto assunzione di indipendenza tra i p-value e
Positive Dependence through Stochastic ordering
(es normali con correlazione positiva)
Usualmente valido nei dati reali
Dipendenza qualsiasi: BY 9
Come BH map(i) m
i L =?≤ q = .10
con L =∑i
j=1 1/j (es i = 3: L = 1/1 + 1/2 + 1/3 )
Sotware
BH e BY: library(stats); p.adjust()
9Benjamini Y, Yekutieli D. (2001) The control of the false discovery rate in
multiple testing under dependency. Annals of statistics 29(4):1165–1188
Altro
Dipendenza
BH e valido sotto assunzione di indipendenza tra i p-value e
Positive Dependence through Stochastic ordering
(es normali con correlazione positiva)
Usualmente valido nei dati reali
Dipendenza qualsiasi: BY 9
Come BH map(i) m
i L =?≤ q = .10
con L =∑i
j=1 1/j (es i = 3: L = 1/1 + 1/2 + 1/3 )
Sotware
BH e BY: library(stats); p.adjust()
9Benjamini Y, Yekutieli D. (2001) The control of the false discovery rate in
multiple testing under dependency. Annals of statistics 29(4):1165–1188
Altro
Dipendenza
BH e valido sotto assunzione di indipendenza tra i p-value e
Positive Dependence through Stochastic ordering
(es normali con correlazione positiva)
Usualmente valido nei dati reali
Dipendenza qualsiasi: BY 9
Come BH map(i) m
i L =?≤ q = .10
con L =∑i
j=1 1/j (es i = 3: L = 1/1 + 1/2 + 1/3 )
Sotware
BH e BY: library(stats); p.adjust()
9Benjamini Y, Yekutieli D. (2001) The control of the false discovery rate in
multiple testing under dependency. Annals of statistics 29(4):1165–1188
Risultati (BH & BY)
p-value BH BY
ECRR: Ansia .2165 .325 1.000
ECRR: Evitamento .0015 .009 * .028 *
DAS: Consenso .0072 .022 * .067
DAS: Soddisfazione .0001 .001 * .004 *
DAS: Coesione .0415 .083 .258
DAS: Espr.Affetti .0025 .010 .031
AAI: Sicuro .3545 .473 1.000
AAI: Distanziante .0189 .045 * .141
AAI: Preoccupato .1264 .217 .673
CRI: Sicuro .5856 .639 1.000
CRI: Distanziante .5536 .639 1.000
CRI: Preoccupato 1.000 1.000 1.000
FWER or FDR?
Assunzioni implicite FDR
Le ipotesi sono scambiabili:
Falsi Rifiuti possono essere compensati da Veri Rifiuti
Problemi
• Cheating
• Subsets
FWER or FDR?
Assunzioni implicite FDR
Le ipotesi sono scambiabili:
Falsi Rifiuti possono essere compensati da Veri Rifiuti
Problemi
• Cheating
• Subsets
FWER or FDR?
Assunzioni implicite FDR
Le ipotesi sono scambiabili:
Falsi Rifiuti possono essere compensati da Veri Rifiuti
Problemi
• Cheating
• Subsets
Cheating
Posso aggiungere ipotesi non interessanti ma con p-value
significativi per permettermi piu falsi rifiuti.
Subsets
Controllo FDR NON implica controllo FDR in tutti i sottoinsiemi
es: Correggo tutti i test, ma discuto solo quelli che so spiegare
meglio o piu interessanti.
Finner and Roters10
• FDR control on all subsets = FWER control
• FWER control on all subsets = FWER control
10Finner H, Roters M. (2001) On the false discovery rate and expected type
I errors. Biometrical Journal; 43(8):985–1005
Cheating
Posso aggiungere ipotesi non interessanti ma con p-value
significativi per permettermi piu falsi rifiuti.
Subsets
Controllo FDR NON implica controllo FDR in tutti i sottoinsiemi
es: Correggo tutti i test, ma discuto solo quelli che so spiegare
meglio o piu interessanti.
Finner and Roters10
• FDR control on all subsets = FWER control
• FWER control on all subsets = FWER control
10Finner H, Roters M. (2001) On the false discovery rate and expected type
I errors. Biometrical Journal; 43(8):985–1005
Sottoinsiemi di Rifiuti
Tutte le Ipotesi
Rifiuti
Falsi Rifiuti
# Falsi Rifiuti# Rifiuti circa 0.10
ma nel sottoinsieme??
Sottoinsieme
Sottoinsiemi di Rifiuti
Tutte le Ipotesi
Rifiuti
Falsi Rifiuti
# Falsi Rifiuti# Rifiuti circa 0.10
ma nel sottoinsieme??
Sottoinsieme
Sottoinsiemi di Rifiuti
Tutte le Ipotesi
Rifiuti
Falsi Rifiuti
# Falsi Rifiuti# Rifiuti circa 0.10
ma nel sottoinsieme??
Sottoinsieme
Take-home message
• Spesso necessario e spesso non sentito
• FWER controllo della probabilita di errore
• FDR controllo della proporzione MEDIA di falsi rifiuti
• FWER e
• un controllo piu forte
• generalmente preferibile
• e con piu possibili estensioni (e piu flessibile)
• (FWER e FDR) facile in R