Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione...

Post on 02-May-2015

274 views 13 download

transcript

Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio- Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche e browsers - Confronti fra genomi- Variabilità genomica: banche dati mutazioni e SNP

Progetti di sequenziamento

Banche dati genomicheCromosoma n

ATCTACACTACTCTCTGGGGCTACA..........GCGTACTAGTTAGCTAGCTGATCGA| | | | | 1 10 20 143.456.710 143.456.720

Tipo Id Cromosoma

Inizio Fine Filamento

Gene AGS_23GH I 10012534 10018434 I

Gene FHD_34GH IV 10103466 10112347 II

Promotore

HHTRE_EE II 23423933 23424233 I

SNP A/G IX 34234723 - I

Esone GFDDD_22 II 267567545 267568667 II

Annotazioni

Visualizzazione annotazioni

10x

10 Kb

200 bp

1 Mb

200 Mb

Browser genomici

Individuazione geni

Metodi sperimentali

Metodi bioinformatici

Metodi Estrinseci

Metodi Intrinseci

Confronto più genomi

ATGCTACTACGGATAGTATAGATGA5’ 3’Promoter

Start codon

Struttura di un geneStop codon

Procarioti Eucariot

igene medio 30K =

5' UTR 750 bp +

6 esoni 150 bp +

5 introni 5000 bp +

3' UTR 450 bp

Metodi estrinseci

Uniprot

Allineamento

TrascritticDNA, EST

3' UTR5' UTRGenoma

Proteina

EST 3' UTR

cDNA 3' UTR5' UTR

Proteina Omologa

3' UTR5' UTRAltro Genoma

no 5', 3' e promotori

mancano esoni, diff.giunzioni

no promotori

manca regione 5'

Annotazione geni

Schemi di lettura

1'

2'

3'

senso

antisenso

6'

5'

4'

Schemi di lettura aperti

ATGTAA,TGA oTAG

ORF

Composizione di un genomaProcarioti Eucarioti

Dimensioni max 10M 10G

% Codificante 85% 1-3%

Geni con introni - 95%

Numero introni - 0-80

Lunghezza introni

- 3-100.00bp

Predizione 99% 50%

Metodi intrinseci- Individuazione di contenuto

- Individuazione di segnali

Contenuto regioni codificanti

Batterio shewanella

- Frequenze aminoacidiche- Frequenze dipeptidi- Preferenze per codoni diversi- Preferenza per G e C terminali in eucarioti superiori- Terza base tende ad essere la stessa

Frequenze esanucleotidi

InteroGenoma

RicercaEsanucleotide AAATGA

Sequenze codificanti

Sequenze nonCodificanti

1.01 Gb

10 Mb

1 Gb

10.000 Copie

500.000 Copie

Frequenza AAATGA = Copie/Totale Nucleotidi

fC0.1%

fN0.05%

Punteggio AAATGA= log (fC/fN) =

FrequenzaNon

Codificanti

+0.3

Frequenza

Codificanti

Punteggio di una posizioneRegione di 30 nucleotidi

ATGATGTAGATCTAAATGACTCTCTGGGACTAGTTAGCTAGCTGATCGAATGATGTCTCGT AAATGA = +0.3 AATGAC = +2.1 ATGACT = -0.1 TGACTC = +1.5 GACTCT = ... ........................ CTAGCT = +0.2 TAGCTG = +3.1

PUNTEGGIO POSIZIONE "A" = MEDIA DEGLI ESANUCLEOTIDI = +1.9

TCTAAATGACTCTCTGGGACTAGTTAGCTAGCTGATCGA punteggio "C" = +1.8

TCTAAATGACTCTCTGGGACTAGTTAGCTAGCTGATCGA punteggio "T" = +1.6

......

Ricerca regioni codificanti

+5

+4

+3

+2

+1

0

-1

-2

-3

-4

-5

Posizione

nella sequenza

Punteggio della posizione

Regione non codificante

Regione codificante

Regione non

codificante

? ?Regioni a punteggio

non significativo

Dove inizia e dove termina la regione codificante?

ATGTAGATCTAAATGACTCTCTGGGACTAGTTAGCTAGCTGATCGAATGATGTCTCGT

Esone Introne Esone

--gaggcatcag|GTttgtagac-----A-----tgtgtttcAG|tgcacccact--

--ccgccgctga|GTgagccgtg-----A-----tctattctAG|gacgcgcggg--

--tgtgaattag|GTaagaggtt-----A-----atatctacAG|atggagatca--

--ccatgaggag|GTgagtgcca-----A-----ttatttgcAG|gtatgagacg--

Sito donatore di splicing Sito accettore di splicing

Sito di ramificazione

99%

Siti di splicing

Segnali + contenuto

Introne

Esone

Introne

Fine esone Inizio esone

Regione non codificante

Regione codificante

Regione non codificante

Frame di lettura e esoniFine esone 1

...-ACT-TAA-ATG-ACT-CTGTGGGGATCGATCGAGCTAGA-ATA-GCT-GCT-GAT-...

Introne Inizio esone 2

...-ACT-TAA-ATG-ACT-CTA-ATA-GCT-GCT-GAT-...

Splicing

Rna Maturo

...-ACT-TAA-ATG-ACT-CTGTGGGGATCGATCGAGCTAGAC-ATA-GCT-GCT-GAT-...

...-ACT-TAA-ATG-ACT-CTAC-ATA-GCT-GCT-GAT-...Giunzione scorretta

Esone falso

...-AGA-ACT-CTGTC..CCAGAC-ATA-...-GCG-GAGTG....CTAGA-ATA-CTG-...

Esone 1 Introne 1 Esone 2 Introne 2 Esone 3

...-AGA-ACT-CTA-ATA-CTG-...Rna Maturo

Frame shift

Costruzione modello gene

Costruzione modello gene

Costruzione modello gene

Costruzione modello gene

Costruzione modello gene

Difficoltà- Numero di esoni: Distrofina 79 in 2.3 Mb- Lunghezza introni: Distrofina più di 100Kb più del 99% del gene - Esoni corti: Solo 3bp in Arabidopsis.- Vicini a estremità: 1bp dall'inizio codoni start e stop interrotti- Geni sovrapposti: in 3'-UTR , ma anche in introni.- mRna policistronici anche in Eucarioti.- Introni in regioni non codificanti 5' e 3' UTR- Splicing alternativo 35-60% geni umani ha più di un prodotto- Siti splicing non canonici- Siti multipli inizio trascrizione- Siti alternativi inizio traduzione ACG Arabidopsis, CUG uomo

Prestazioni attuali

Previsione +ricerca mirata sta diventando alternativaa sequenziamento cloni cDNA random.

MR = Esoni Reali

S CC CP = Esoni Predetti

Sensitività = C/R 78 %

Selettività = C/P 81 %

Mancati = M/R 9%

Sbagliati = S/P 5%

Esoni Mancati

Esoni Sbagliati Esoni Corretti

Intero gene:Arabidopsis 50%-66%Mammiferi 15-20%

Allineamentidi 2genomi

Uomo-topo40% conservatosolo2% codificante

Allineamento con un genoma annotato

Allineamenti di due genomi non annotati

- Distinzione coding/ non-codingRapporto mut. sinonime e non

sinonimeIndels con cambio di frameO indels che recuperano il frame perso

Introne Esone Introne

Allineamenti multipli

Ricerca promotori

- Analisi del contenuto- Analisi dei segnali- Allineamento di più genomi

Analisi del Contenuto

- Isole CpG 300-3000bp : (70% p. umani ne contiene)- Previsioni di ripiegabilità, stabilità e curvatura del DNA- Diverse fequenze di parole nucleotidiche

Analisi dei Segnali - TATA box a -30 dal TSS - Banche dati promotori eucariotici - Overpredizione di 1000 volte dei TFBS

Allineamento di genomiAllineamento geni ortologhi (no paraloghi)