CORSO INTEGRATO DI GENETICA
a.a. 2010-2011Dr. Giovanni Malerba, [email protected]
11-11-2010
Analisi Genetica delleMalattie complesse
R2=0.34 ... rimane da spiegare il 66% (1-0.34) del modello statistico (ossia si devono identificare altri fattori importanti)
UN MODELLOBody Mass Density & VDR
Fenotipo ~ F_GENETICO + F_AMBIENTALE + .. + + (F_GENETICO * F_AMBIENTALE)
Rischio di essere affettoDal 'Sì/No' si passa a stimare la probabilità di
essere Sì e di essere NO, oppure il rischio aumentato di un genotipo rispetto agli altri
ASMAfamiliarità, sesso ( ~età), fumo passivo, basso peso alla nascita, obesità, vivere in grandi aree urbane, inquinamento ambientale ..GPR154, IL1RN, ADAM33, IRAKM, ORMDL3
Diabete T2storia familiare, età, stile di vita sedentario, diabete in gravidanza, etnia, pressione sanguigna, colesterolo elevato, ..PPARG, KCNJ11, TCF7L2
IL MODELLO DI MALATTIACOMPLESSA
interazione
F_GENETICO * F_AMBIENTALECD14/-260 e livelli di endotossina
Eder et al., J Allergy Clin immunol 2005
L'attrezzatura del genetista delle malattie complesse
Associazione di un SINGOLO gene
Clonaggio posizionale
Associazione genomica (GWAS: SNP,CNV)
Geni della malattia complessa
TRASCRITTOMA
RISEQUENZIAMENTO (=sequenza del/dei gene/i – identificazione varianti rare)
Analisi dei PATHWAYNetwork di pathway
Metiloma (Epigenetica)
Metaboloma
Meta–Analisi (analsisi di tutti risultati per stimare al megliol'effetto del fattore genetico)
CaucasoidiCinesi (Beijing)Asiatici (Giapponesi- Tokio)Africani (Yoruba, Nigeria)
http://www.hapmap.org
FREQUENZE GENICHE
HAPMAP
4 popolazioni: Caucasoidi, Cinesi, Giapponesi, Africani
3.1 milioni di SNP su tutto il genoma
Frequenza di ogni SNP per ogni popolazione
Aplotipi
Blocchi di Linkage Disequilibrium
http://www.hapmap.org
HAPMAP3 - 2008
Draft Rel. 1 (May 2008)
Nature (2007) 449:p851
Nature (2005) 437:p1299
Reference
1.6 M (Affy 6.0 & Illumina 1M)
3.8 M(phase I+II)
1.1 MUnique QC+ SNPs
Broad & SangerPerlegenHapMap
International Consortium
Genotyping centers
1,115 samples (11 panels)
270 samples(4 panels)
269 samples(4 panels)
Samples & POP panels
Phase 3Phase 2Phase 1
label population sample # samples QC+ Draft 1ASW* African ancestry in Southwest USA 90 71
CEU*Utah residents with Northern and Western
European ancestry from the CEPH collection180 162
CHB Han Chinese in Beijing, China 90 82CHD Chinese in Metropolitan Denver, Colorado 100 70GIH Gujarati Indians in Houston, Texas 100 83JPT Japanese in Tokyo, Japan 91 82LWK Luhya in Webuye, Kenya 100 83MEX* Mexican ancestry in Los Angeles, California 90 71MKK* Maasai in Kinyawa, Kenya 180 171TSI Toscans in Italy 100 77YRI* Yoruba in Ibadan, Nigeria 180 163
1,301 1,115
* Population is made of family trios
HAPMAP3 - 2008
A Deep Catalog of Human Genetic Variation
Sequenza dell'intero genoma: 1000 individui
http://www.1000genomes.org/page.php
1000 Genomes Project
Consiste nel formulare ipotesi (anche complesse) di correlazione tra determinati geni (i candidati) e la malattia che si vuole studiare. Si tratta in di geni che sono già noti per essere associati a meccanismi e fattori legati alla malattia e che codificano per proteine a cui si riconosce un ruolo nel meccanismo patogenetico.
APPROCCIO DEL GENE CANDIDATO
SCANSIONE GENOMICAConsiste nello studiare il maggior numero di marcatori possibile in modo da 'scandagliare' tutte le regioni cromosomiche al fine di identificare le regioni che correlano con la malattia. Permette di identificare nuovi geni dei quali non si sospettava l'associazione con meccanismi o fattori relati alla malattia.
Come studiare il fattore genetico nelle malattie
complesse?
Modalità?
ANALISI DI LINKAGE (studio attraverso la segregazione di marcatori del DNA)
ANALISI DI ASSOCIAZIONE
Linkage: alleli a diversi loci che si trovano vicini sullo stesso cromosoma e tendono a stare assieme a causa della ridotta probabilità di crossover (ricombinazione)
A-1 A-2
M-1 M-1
A-3 A-4
M-2 M-4
A-1 A-3
M-1 M-2
A-1 A-4
M-1 M-4
Linkage: cosegregazione degli alleli dei marcatori a causa della vicinanza dei marcatori stessi
A-1 A-2
M-2 M-2
A-3 A-4
M-4 M-1
A-1 A-3
M-2 M-4
A-1 A-4
M-2 M-1
Linkage: cosegregazione degli alleli dei marcatori a causa della vicinanza dei marcatori stessi
A-1 A-2
M-1 M-1
A-3 A-4
M-2 M-4
A-1 A-3
M-1 M-2
A-1 A-4
M-1 M-4
A-1 A-2
M-2 M-2
A-3 A-4
M-4 M-1
A-1 A-3
M-2 M-4
A-1 A-4
M-2 M-1
Linkage
Nell'esempio mostrato 2 loci si trovano sullo stesso cromosoma e sono molto vicini (freq di ricombinazione ridotta).
Mentre nella singola famiglia è possibile prevedere quale possa essere l'allele al locus M dato l'allele al locus A (linkage), non è possibile in generale (es. prendendo un individuo a caso nella popolazione) prevedere quale possa essere l'allele al locus M dato l'allele al locus A.
A-1 A-2
M N
A-3 A-4
N N
A-1 A-3
M N
A-2 A-4
N N
Linkage: cosegregazione degli alleli del marcatori con la malattia
Es. Autosomica dominante: il padre affetto trasmette al figlio affetto l'allele A-1, suggerendo che nelle vicinanze del marcatore A ci siano il gene della malattia.
Gene ignoto
Marcatore
A-1 A-2
M N
A-3 A-4
N N
A-1 A-3
M N
A-2 A-4
N N
Linkage non parametrico CONDIVISIONE ALLELICA
Gene ignoto
Marcatore
AFFECTED SIB-PAIR ANALYSIS
2
1
1
0
IBDSnS1
S1 S2 S3 S4
Padre Madre
figli (affetti)
media_IBD = 4/8(50%)
Sharing allelico
2
1
1
0
analisi di linkage
1 2 3 4
1 3 2 4
1 2 3 4
1 3 1 4
1 2 3 4
1 3 2 3
1 2 3 4
1 3 1 3(IBD=0) (IBD=1) (IBD=1) (IBD=2)
IBD
1 2 1 4
1 4 1 2(IBD=0)
ECCESSO DI CONDIVISIONE ALLELICA FRA FRATELLI AFFETTI: LINKAGE
La condivisione allelica viene espressa di diversi modi: come percentuale (%) oppure indicando la numero di volte che i fratelli condividono 2, 1 o 0 alleli. Il conteggio viene effettuato su un elevato numero di famiglie. La struttura base della famiglia prevede la presenza di padre, madre e 2 figli affetti (famiglia 'nucleare').
NOTA: Si riconoscono generalmente 2 tipi di linkage: - parametrico (basato sulla stima della freq di ricombinazione tra l'ignoto locus malattia e il marcatore in analisi. Si utilizza prevalentemente nello studio delle malattie mendeliane) - non-parametrico (basato sulla stima della condivisione allelica. Si utilizza nello studio dei fenotipi complessi)
2 1 0NO LINKAGE 25 50 25 50.00%LINKAGE 50 50 0 75.00%
Alleli CondivisiCondivisione
100 famiglie informative. Nel caso LINKAGE (esempio) si osserva un'aumentata condivisione allelica rispetto all'atteso nell'ipotesi di assenza di linkage tra il marcatore e il locus di suscettibilità (NO LINKAGE).
ECCESSO DI CONDIVISIONE ALLELICA FRA COPPIE DI FRATELLI AFFETTI: LINKAGE
AFFECTED SIB-PAIR ANALYSISMisura il grado di condivisione allelica (sharing allelico) in coppie di fratelli affetti (maschio – maschio, femmina – femmina, maschio – femmina). Il valore atteso, in assenza di linkage è 50%.E' una analisi di linkage (non parametrico).
Se il marcatore è in linkage con il locus 'malattia' allora le coppie di fratelli affetti presenteranno un eccesso di alleli condivisi (=quelli il linkage con il locus 'malattia', che sono stati trasmessi da uno o entrambi I genitori). E' possibile misurare lo sharing paterno, materno oppure, molto più spesso, quello combinato.
Il grado di condivisione allelica viene stimato studiando centinaia (migliaia) di famiglie con coppie di figli affetti
Confrontare la frequenza del fattore genetico (alleli, genotipi o aplotipi) in un gruppo di individui affetti rispetto ad un gruppo di individui non affetti.
Lo studio di associazione caso-controllo può essere influenzato da diversi fattori come ad esempio il 'mescolamento' di più popolazioni.
La popolazione dei controlli dovrebbe essere scelta per essere il più possibile simile alla popolazione dei casi per tutti i possibili fattori confondenti (es. età, sesso, etnia, etc)
Studio di associazione
Studio di associazione
NON AFFETTO (controllo)
AFFETTO (caso)
è maggiormente frequente nei casi : ASSOCIAZIONE.
controlli
casi
A1 / A1 A1 / A2 A2 / A2 A1 A2CASI 70 120 10 260 140CONTROLLI 50 100 50 200 200
Conteggio dei genotipi e degli alleli in casi e controlli
Nell'esempio:i genotipi A1/A1 e A1/A2 sono più frequenti nei casi rispetto ai controlli
l'allele A1 è più frequente nei casi rispetto ai controlli
Con opportuni test è possibile verificare se la differenza possa ritenersi significativa e quindi concludere che il marcatore sia associato con la malattia
Linkage vs Associazione
ESEMPIO: una malattia genetica P causata da molte mutazioni diverse (g1, g2, g3, …) riferibili ad un solo e determinato gene G.
Nota: trattandosi di una malattia complessa è meglio riferirsi ad alleli associati ad un aumentato rischio di malattia.
Analisi di Linkage
Ogni famiglia potrebbe contenere un allele di rischio diverso dalle altre famiglie, sebbene il gene implicato sia sempre lo stesso (con una ”mutazione” diversa in ogni famiglia)
Tramite l'AdL parametrico si valuta se una particolare regione cromosomica (=a una distanza theta dal marcatore genetico che sto utilizzando) è trasmessa in accordo con il modello proposto (es. dominate, recessivo).
Linkage vs Associazione
Focalizzo l'attenzione sul fatto che il marcatore (e quindi la la regione cromosomica che lo contiente) segrega con la malattia.
Linkage: studia la segregazione dei marcatori all'interno delle famiglie. I marcatori possono essere caratterizzati nelle diverse famiglie da alleli diversi che segregano con la malattia (
Analisi di Linkage
Tramite i marcatori genetici l'AdL è in grado di identificare la regione cromosomica contenente il gene G sebbene ogni famiglia possieda una mutazione diversa (che, sempre in questo esempio, sarà identificata in un momento successivo tramite sequenziamento del gene G).
Linkage & Linkage Disequilibium
I Loci A e B si trovano su 2 cromosomi Locus A: 2 alleli (frequenza A1:0.4 ; A2: 0.6) Locus B: 2 alleli (frequenza B1:0.4 ; B2: 0.6)
Quale è la frequenza attesa degli individui con genotipo A1/A1 per il locus A e B1/B1 per il locus B?
Linkage & Linkage Disequilibium
Assumendo che le condizione di equilibrio previste da Hardy e Weinberg siano rispettate:
Freq_A1/A1 : 0.4 * 0.4 = 0.16 Freq_B1/B1 : 0.4 * 0.4 = 0.16 Freq_A1A1B1B1 :
Freq_B1/B1 * Freq_A1/A1 = 0.16*0.16 =0.0256 Considerando contemporaneamente 2 loci, la % di individui che
presentano un particolare genotipo può diventare piuttosto ridotta (~2.5% nell'esempio), sebbene gli alleli considerati presentino una frequenza elevata (40% nell'esempio).
Linkage & Linkage Disequilibium
A priori non possiamo sapere se 2 loci (marcatori) all'interno dello stesso gene, in una data popolazione, presentino (se entrambi polimorfici) una associazione assoluta, oppure siano in equilibrium (nella distribuzione degli alleli), oppure siano in una situazione intermedia.
Il progetto internazionale HAPMAP si è posto lo l'obiettivo di individuare il maggior numero di siti polimorfici comuni a diverse popolazioni e di stimare il grado di associazione tra i marcatori vicini (http://www.hapmap.org).
Linkage & Linkage Disequilibium
Associazionedei 2 loci
Equilibrium
A1/A1 A1/A2 A2/A2
B1/B1 0.0025 - -
B1/B2 - 0.095 -
B2/B2 - - 0.90
A1/A1 A1/A2 A2/A2
B1/B1 0.000006 0.00023 0.00237
B1/B2 0.00023 0.00902 0.0857
B2/B2 0.00237 0.0857 0.81
Linkage & Linkage Disequilibium
Associazionedei 2 loci
Equilibrium
A1/A1 A1/A2 A2/A2
M1/M1 0.0025 - -
M1/M2 - 0.095 -
M2/M2 - - 0.90
A1/A1 A1/A2 A2/A2
M1/M1 0.000006 0.00023 0.00237
M1/M2 0.00023 0.00902 0.0857
M2/M2 0.00237 0.0857 0.81
1 2 2 2
1 2 1 2
1 2 2 2
2 2 2 2
1 1 1 2
1 1 1 1
1 2 1 2
2 2 2 2
Allele 1 da padre Allele 2 da padre Allele 1 da madre Allele 2 da padreAllele 2 da madre
Non tutte le famiglie sono pienamente informative (=non posso stimare con precisione sia la condivisione paterna che la condivisione materna)
Nell'esempio, in tutti i casi informativi è possibile osservare uan condivisione allelica: a volte è condiviso l'allele 1 e a volte è condiviso l'allele 2.
LINKAGE
1 2 1 1
1 2 1 2
1 2 2 2
2 2 2 2
1 1 1 2
1 2 1 2
1 2 1 2
2 2 2 2
LINKAGE e Associazione
Non tutte le famiglie sono pienamente informative (=non posso stimare con precisione sia la condividione paterna che la condividione materna)
Nell'esempio, in tutti i casi informativi è possibile osservare una condivisione allelilca: è sempre condiviso l'allele 2 (LINKAGE DISEQUILIBRIUM tra l'allele di suscettibilità al locus 'malattia' e l'allele del marcatore)
Trasmission Disequilibrium Test (TDT)
-Scopo iniziale: Verificare l’esistenza di linkage con un marcatore localizzato vicino ad un gene candidato, nei casi dove una associazione con la malattia fosse stata trovata (1993).
- Negli studi caso/controllo (=di associazione) tra 2 loci può esserci associazione e non linkage (cause:admixture, stratificazione, etc).
-Il TDT e’ un test di associazione interno alla famiglia. E' valido anche quando non c’e’ evidenza a priori di linkage. Attualmente è utilizzato come test di associazione piuttosto che come test per il linkage.
A B B B
1 2
Caso Controllo ‘interno' della famiglia
A BALLELE:
Transmesso Non transmesso
A
B 20
20
100
100
TRASMESSONON
TRASMESSO
TDT
es.
AB
GWAS - caratteristiche● Dimensione del campione molto grande
(fino a 2000 casi, 20000 controlli)
● Alto livello di risoluzione● Nessuna ipotesi/conoscenza a priori● Replica dei risultati in un campione indipendente
Problematiche:● Grande quantità di dati● Controllo della qualità● Correzione per la possibile stratificazione del campione
● Statistica
● Dimensioni del II campione sufficiente● Dati indipendenti● Fenotipi simile se non identico● Popolazione simile● Dimostrazione di un effetto simile e nella stessa direzione (stesso allele, genotipo o aplotipo)
Replica dei risultati
● Identificazione degli SNP causali● Miglior uso del fenotipo ● Analisi con marcatori multipli● Identificazione di altre fonti di variabilità (CNV, varianti rare)
● Intregazione dell'informazione utilizzando altre 'omiche' (es. transcrittomica, matabolomica)
● Medicina personalizzata
Gwas - Nuove sfide
BMD e numero di alleli di rischio
La distribuzione del numero di alleli di rischio portati da un individuo si avvicina alla curva a campana
Il valore di BMD (espresso in Z-score), in media, si riduce all'aumentare del numero di alleli di richio!! (ricorda il modello a soglia)
IL CASO DEI LIPIDI: varianti comuni e varianti rare Il rischio determinato tramite gli SNP potrebbe
sottostimare il rischio associato alle vere varianti causali
Es: 11 dei 30 geni attualmente associati a variazioni dei livelli di lipidi possono anche presentare degli alleli rari che sono associati a forme Mendeliane di dislipidemia (ABCA1, PCSKA9, LDLR): geni con varianti comuni associate ad effeti lievi possono anche portare varianti rare assocate a forti effetti