+ All Categories
Home > Documents > 8a Lezione a Del 11-11-10

8a Lezione a Del 11-11-10

Date post: 09-Jul-2015
Category:
Upload: antonio-orlando
View: 177 times
Download: 0 times
Share this document with a friend

of 31

Transcript

11 - 11- 2010 Bioinformatica ed analisi funzionale del genoma Prof.ssa Monica SantamariaFRACCHIOLLA D. & TROTTA A.

AVVISO : Il primo modulo di lezioni disponibile presso il sito del Prof.re Pesole (www.pesolelab.it). Oggi penso di inserire anche questo modulo.

Riprendiamo con le caratteristiche del genoma eucariotico. In particolare vi ricordo che nellultima lezione abbiamo introdotto il fatto che nuove funzioni geniche possono nascere, possono essere create nel genoma grazie a dei riarrangiamenti che sono essenzialmente di due tipi: la duplicazione dei domini ed il rimescolamento dei domini. Questo tipo di riarrangiamenti, ovviamente, si aggiunge alla classica duplicazione genica.

Nel caso della duplicazione dei domini (Fig 15.12 A), porzioni discrete del gene possono essere duplicate in modo tale da determinare nel prodotto codificato ulteriori domini strutturali o funzionali.

1

Unaltra possibilit il rimescolamento dei domini (Fig 15.12 B) che pu avvenire anche tra geni differenti tra loro per cui, allinterno dello stesso gene, trovate domini di diversa provenienza che quindi si traducono in domini strutturali ad esso adiacenti in un prodotto proteico. Questultimo fenomeno detto exon schuffling e vi ricordo essere possibile essenzialmente nel genoma degli eucarioti, in quanto in essi i geni sono interrotti ed in questo modo gli esoni costituiscono delle unit appunto discrete che possono essere rimescolate, grazie a fenomeni di ricombinazione. Facciamo due esempi che illustrano questo tipo di fenomeni. Il primo quello del gene per il collagene 2 di tipo 1. Questo gene ha una struttura altamente ripetitiva, infatti, 42 dei suoi 52 esoni, ad esempio nel topo, sono costituiti da sequenze nucleotidiche codificanti per la ripetizione del tripeptide Gly-X-Y, dove X normalmente una prolina ed invece Y spesso una idrossiprolina. Ognuno degli esoni di questo gene codifica per un numero finito di tali triplette per cui, in questo caso, ciascun esone corrisponde ad una struttura ripetuta a livello del prodotto proteico e questo vero per la maggior parte degli esoni del gene. Ci vuol dire che probabilmente il gene si evoluto per duplicazione dei suoi esoni a dare una struttura altamente ripetitiva.

Un altro esempio che possiamo considerare, questa volta per illustrare il rimescolamento esonico o rimescolamento dei domini, quello del gene per lAttivatore del Plasminogeno Tissutale (TPA). In questo caso il gene comprende quattro esoni che, come vedremo, hanno provenienza diversa 2

nellevoluzione. Infatti, il primo esone, posto a monte del gene, codifica per una proteina che in grado di legare la fibrina, un componente dei coaguli e che pu attivare appunto il TPA (vi ricordo che il TPA una proteina che si trova nel sangue dei vertebrati ed coinvolta nella coagulazione). Sembrerebbe che questo primo esone derivi da un altro gene, codificante per la fibronectina, anchessa in grado di legare la fibrina. Il secondo esone del gene del TPA invece codificante per un dominio simile a quello dei fattori di crescita e infatti si pensa che tale esone derivi proprio dal gene per il fattore di crescita epidermico. Probabilmente il dominio codificato da questo esone conferisce alla proteina TPA la capacit di stimolare la proliferazione cellulare. Gli ultimi due esoni del gene codificano per dei domini con una struttura detta CRINKLE. Queste strutture crinkle legano i coaguli di fibrina e probabilmente gli esoni, codificanti per questi domini, derivano dal gene per il plasminogeno, vero e proprio. Quindi nel caso del gene per lattivatore del plasminogeno, la composizione esonica il risultato di un rimescolamento di esoni che provengono da altri geni.

3

I due esempi che vi ho mostrato sono delle rappresentazioni piuttosto raffinate della corrispondenza tra esoni e domini strutturali delle proteine, ma non sempre cos: molto spesso non vi una precisa corrispondenza, cio, un certo dominio proteico non corrisponde precisamente ad un esone o ad un gruppo di esoni nel gene codificante. In questi casi diciamo che c stato comunque un processo evolutivo mediante duplicazione o mediante shuffling, ma stato molto meno preciso, per cui in alcuni casi pezzi di esoni sono stati trasferiti e quindi, poi, lunione non stata perfetta.

Come sapete, nel genoma eucariotico non esistono solo geni funzionali, cio geni in grado di produrre una proteina oppure un RNA di per s funzionale. Esistono infatti delle copie inattive dei geni funzionali che sono detti pseudogeni che, o non sono proprio in grado di produrre un RNA, quindi di essere trascritti, oppure non sono in grado di produrre un RNA che codifichi per una proteina, cio che possa essere tradotto. Gli pseudogeni sono dunque copie inattive dei geni e possono essere in genere riconosciuti in quanto accumulano una serie di mutazioni che possono ad esempio determinare la presenza di codoni di stop prematuri oppure grosse delezioni ed inserzioni, oppure pu accadere che alcune mutazioni determinino lo scivolamento della frame di lettura, con produzione di una proteina totalmente diversa da quella originale, dal punto della mutazione in poi. In alternativa uno pseudogene pu esser tale in quanto privo di un promotore efficace che ne promuova la trascrizione. Quando un gene perde la sua funzione (e di conseguenza le costrizioni funzionali) comincia ad accumulare tutta una serie di mutazioni ad una velocit tale che sarebbe impensabile osservare lo stesso grado di variabilit in un gene funzionale. In altre parole lo pseudogene presenta una mutabilit molto pi alta rispetto al suo omologo funzionale. Ma come si originano gli pseudogeni?

4

Essenzialmente gli pseudogeni si originano con due processi che sono attivi nel rimodellamento e nellevoluzione dei genomi e che sono la duplicazione e la retrotrasposizione. Sulla base del processo con cui si sono formati, possibile distinguere gli pseudogeni in non processati e processati. I primi si originano per duplicazione del gene originale, i secondi si originano per retrotrascrizione dellmRNA maturo del gene originale. Quindi, lo pseudogene non processato presenter la stessa struttura del gene con introni ed esoni, anche se la copia potrebbe anche essere parziale. Gli pseudogeni processati, invece, sono privi di introni in quanto derivano da retrotrasposizione dellmRNA gi maturato. Normalmente gli pseudogeni di tipo non processato si trovano soprattutto a livello delle regioni pericentromeriche ed in genere quando vengono prodotti, almeno allinizio, si trovano vicino al gene dorigine, poi per si possono spostare. Per quanto riguarda invece i retro-pseudogeni, quelli cio processati, normalmente si possono inserire gi dallinizio in qualsiasi posizione del genoma e normalmente il numero di retro-pseudogeni correlato al livello di espressione del gene da cui si originano. Questo abbastanza logico perch se i retro-pseudogeni sono delle copie degli mRNA di un particolare gene funzionale, tanti pi sono questi mRNA, tanto pi probabilmente verranno retrotrascritti e si potranno inserire nel genoma a costituire degli pseudogeni processati. Per esempio quello che si visto che nel genoma umano ci sono molti retro-pseudogeni corrispondenti agli RNA per le proteine ribosomiali o per le proteine strutturali o per gli enzimi metabolici. Tutte queste proteine vengono sintetizzate in alta quantit nella cellula e quindi corrispondono ad un gran numero di messaggeri.

5

Se volete avere unidea degli pseudogeni che sono stati gi individuati nellambito per esempio del genoma umano oppure nel genoma di altri organismi eucariotici, potete guardare una particolare banca dati che si chiama pseudogene.org che appunto vi elenca questi pseudogeni, ve ne descrive le caratteristiche principali ed eventualmente ve li raggruppa in famiglie di pseudogeni sulla base della loro provenienza, cio del loro gene dorigine.

Questa la banca dati di cui vi parlavo e come vedete non contiene solo set di pseudogeni umani ma anche pseudogeni appartenenti ad altri organismi eucariotici. Allora, uno pseudogene processato pu essere originato, come abbiamo visto, per retrotrasposizione.

6

Questo processo prevede un passaggio di trascrizione inversa ad opera di un particolare enzima che si chiama appunto trascrittasi inversa. Questa trascrittasi inversa pu essere codificata da particolari elementi ripetuti e interspersi nel genoma che si chiamano LINE. Queste LINE sono in grado di codificare per una propria trascrittasi inversa che per pu agire sugli mRNA presenti in cellula, in modo tale che si ottenga una copia del messaggero detta cDNA, che possa andare quindi ad inserirsi in un sito particolare del genoma. Se casualmente a monte di questo tipo di inserzione presente un promotore funzionale, possibile anche che il retro-pseudogene venga espresso; per questa situazione molto rara, nel senso che il pi delle volte capita che il retro-pseudogene si integra in una zona non preceduta da un promotore funzionale. In questo caso diventa subito inattivo e comincia ad accumulare tutta una serie di mutazioni che, oltre a distruggere la frame di lettura, lo rendono sempre meno simile al gene originale.

DA POSTO: Ma nel momento in cui c un promotore a monte non si pu pi parlare di pseudogene, giusto? PROF.SSA: Infatti, qui ho scritto retrogene nel senso che un retro-pseudogene per quanto riguarda il meccanismo della sua formazione (perch si ha un fenomeno di trascrizione inversa e poi di integrazione della copia nel genoma) per, se casualmente il promotore funziona su questo retropseudogene, esso rimane funzionale quindi in realt non si pu proprio parlare di pseudogene bens di retrogene. DA POSTO: Ma pu anche essere tradotto? E se s, la sequenza non forse complementare a quella del gene originale?

7

PROF.SSA: Se tu hai un mRNA e questo viene retrotrascritto in copia, nel momento in cui avviene, come vedremo, lintegrazione, viene sintetizzato anche il filamento complementare per cui, in realt, il suo cDNA che si integra nel genoma a doppio filamento per cui potrebbe essere trascritto luno o laltro, a seconda della frame di lettura adatta, cio che pu produrre la proteina.

Qui sotto rappresentato appunto il processo di retrotrascrizione che vi dicevo.

In pratica si parte da un gene originale normalissimo posto sotto il controllo di un promotore attivo; questo gene viene trascritto, lmRNA viene maturato quindi vengono eliminati gli introni e aggiunta la coda di poli-A. A questo punto, una trascrittasi inversa presente in cellula pu retrotrascrivere il messaggero in una copia di cDNA che, come vedete, presenta invece un poli-T in corrispondenza del 5. Dopodich questo cDNA pu partecipare al processo di integrazione che normalmente, a livello di un determinato sito genomico, prevede tagli su entrambi i filamenti in posizioni sfalsate, integrazione coadiuvata dallappaiamento tra la coda di poli-T del cDNA e il poli-A presente nel sito di inserzione e sintesi del filamento complementare con riparo delle rotture. In pratica ragazzi come vedete, molto spesso a livello del sito di inserzione avete una sequenza ricca di AT, questo perch tale struttura favorisce lintegrazione del cDNA gi maturato, nel senso che il poli-T presente in questo cDNA pu appaiarsi in modo complementare con il poli-A presente in 8

corrispondenza del sito di inserzione. Questo appaiamento favorisce linserimento del cDNA a livello di uno dei due filamenti, poi linserimento viene completato con la sintesi del filamento complementare a quello che si inserito (al cDNA che si inserito) ed infine si ha la ligazione dei nick che si sono generati durante linserzione, in maniera tale da avere la sequenza completa e sana, senza rotture. Unultima cosa da dire che in realt noi abbiamo visto che gli pseudogeni si formano o per duplicazione di un gene funzionale o per retrotrasposizione. C anche un terzo meccanismo con cui si possono formare gli pseudogeni. Esso prevede la degenerazione del gene originale senza che esso venga copiato o trascritto, cio proprio il gene originale che ad un cero punto comincia ad accumulare delle mutazioni deleterie, che ne abbattono la funzione, rendendolo cos uno pseudogene. Questo pu accadere quando per esempio viene meno la pressione selettiva sul gene in questione, cio quando in pratica esso non pi cos utile allorganismo. Un caso esplicativo di questo fenomeno quello dei geni per i recettori dellolfatto che nelluomo si sono convertiti in gran numero in pseudogeni, infatti, nei mammiferi non primati la famiglia dei geni per i recettori dellolfatto comprende circa un migliaio di membri, mentre nelluomo, del migliaio di membri, la met si trasformata in pseudogeni. Questa una caratteristica comune ad altri primati che hanno sviluppato la visione tricromatica come quella delluomo, questo fa pensare che i vantaggi ottenuti da questo tipo di visione abbiano reso meno necessario un olfatto raffinato per cui, parte dei recettori e dei loro geni stata eliminata. Nel genoma umano sono stati descritti in tutto circa 8000 pseudogeni, 5000 ne sono stati descritti nel genoma del topo e come abbiamo visto, la maggior parte di questi pseudogeni si originata da geni codificanti per proteine espresse ad alto livello, anche se in realt si visto che il numero di

9

pseudogeni prodotto a partire dallo stesso gene dipende non solo dal suo livello di espressione ma anche da altre caratteristiche intrinseche, come la sua lunghezza o la sua composizione in basi.

Prima di lasciare largomento pseudogeni precisiamo che la trascrizione inversa di cui abbiamo parlato non un processo raro nelle cellule di mammifero anzi diciamo che la trascrizione inversa quasi un processo ubiquitario. Ci fa s che si possa produrre una grande quantit di copie di cDNA nella cellula per cui il genoma di mammifero letteralmente bombardato da pseudogeni processati che si inseriscono in varie porzioni del genoma. La produzione di tante copie inattive dei geni di mammifero e la loro propagazione nel genoma sono state assimilate addirittura al processo di eruzione vulcanica. Per cui questo particolare modello di evoluzione che prevede appunto linserimento di tanti pseudogeni processati nel genoma viene chiamato anche Vesuvian Mode, proprio ad indicare linvasivit di questi elementi nel genoma di mammifero. Quando un retro-pseudogene si inserisce nel genoma pu avere due diversi destini o meglio pu essere sottoposto a due diversi processi. Uno, come abbiamo visto, laccumulo delle mutazioni che praticamente avviene in maniera incontrollata in quanto lo pseudogene, non avendo funzione, non nemmeno costretto dalla selezione. Laltro processo che avviene a carico degli pseudogeni 10

processati che si inseriscono nel genoma laccorciamento progressivo. Questo accade perch i fenomeni di delezione normalmente sono pi frequenti di quelli di inserzione.

Passiamo a questo punto a considerare le componenti presenti nella porzione non codificante del genoma eucariotico ed in particolare le componenti ripetute. Consideriamo prima di tutto le duplicazioni segmentali.

Le duplicazioni segmentali sono parte della componente ripetitiva del genoma ma non possono essere riconducibili agli elementi trasponibili. Si tratta infatti di segmenti piuttosto grandi con una lunghezza anche maggiore di 10 Kb e che presentano tra loro (tra tali ripetizioni) unidentit molto alta, spesso maggiore del 90%. Le duplicazioni segmentali sono molto frequenti sia nei genomi di pianta che nei genomi di animali ed in alcuni casi costituiscono una grossa parte del cromosoma. Per esempio il cromosoma Y umano contiene un grosso blocco di duplicazioni segmentali fino ad arrivare a circa un milione e mezzo di basi occupate (1.45 Mb). Nel genoma umano a livello della porzione eucromatica, circa il 5% del genoma costituito appunto di duplicazioni segmentali. Queste possono essere o inter-cromosomiche o intra-cromosomiche.

11

Le duplicazioni intercromosomiche in pratica si trovano su cromosomi diversi non omologhi cio tali segmenti si sono ottenuti molto probabilmente prima con una duplicazione in tandem nello stesso cromosoma e poi con la traslocazione di una copia su un altro cromosoma. Le duplicazioni intracromosomiche, invece, sono quelle verificatesi allinterno dello stesso cromosoma. Nella figura rappresentata la distribuzione delle duplicazioni segmentali nei vari cromosomi umani. In particolare i segmenti blu rappresentano le duplicazioni segmentali.

Una rappresentazione di tali duplicazioni stata ottenuta applicando particolari programmi predittivi, in grado di individuare le duplicazioni segmentali sulla base di determinati criteri. Infatti, potete fare riferimento al sito riportato qui sotto

in cui stata fatta questa predizione utilizzando i seguenti criteri. Innanzitutto, per dire che in una data regione sono presenti delle duplicazioni segmentali lidentit di sequenza tra una ripetizione e laltra deve essere almeno del 90% . Altro criterio che le ripetizioni non devono essere pi piccole di 5 Kb. Ultimo criterio che, le ripetizioni, per essere definite duplicazioni segmentali, non devono essere costituite a loro volta da sequenze ripetute. Cio se avete due pezzi che possono essere delle duplicazioni segmentali, per esempio di 5Kb ciascuno, e vedete che ciascuno di essi costituito a sua volta da tante piccole ripetizioni, non potete chiamare quei pezzi duplicazioni segmentali perch probabilmente si tratta di unaltra classe di sequenze ripetute nel genoma, molto pi piccole, che 12

hanno costituito due blocchi con la loro duplicazione. Quindi, sulla base di questi criteri, il programma ha individuato le varie regioni contenenti duplicazioni segmentali sui vari cromosomi umani. Come vedete il cromosoma Y presenta varie regioni, anche piuttosto estese, occupate da questo tipo di ripetizioni.

Le duplicazioni segmentali si trovano soprattutto a livello centromerico. Pi raramente le troviamo in corrispondenza dellestremit di ciascun braccio cromosomico e come vedremo sono degli elementi molto interessanti dal punto di vista medico infatti, ovviamente, la duplicazione di un grosso pezzo genomico sostanzia la duplicazione dei geni in esso contenuti. Questa variazione del numero di copie dei geni o in generale la variazione del numero di copie di sequenze presenti nelle duplicazioni segmentali viene chiamato CNV (Copy Number Variation) ed un fenomeno dovuto alle duplicazioni segmentali. In pratica possibile osservare un CNV tra organismi appartenenti alla stessa specie quindi per esempio tra due individui appartenenti alla specie umana. Questa variazione se riguarda geni codificanti porta anche ad un diverso livello di espressione di tali geni nei due individui o nei vari individui. Ci pu essere associato o a delle semplici differenze fenotipiche oppure anche a delle malattie genetiche. Ma c un altro meccanismo con cui le duplicazioni segmentali possono determinare delle patologie genetiche infatti, noto che la ricombinazione tra duplicazioni segmentali sullo stesso cromosoma pu determinare la perdita della regione che si trova tra di esse. Se questa regione contiene geni importanti pu svilupparsi un fenotipo patologico. RIPETE: Un primo modo con cui le duplicazioni segmentali possono determinare patologia, la variazione del numero di copie di geni tra un individuo e laltro.

13

Un altro modo con cui le duplicazioni segmentali possono determinare patologie genetiche determinato dai processi di ricombinazione che avvengono tra duplicazioni segmentali sullo stesso cromosoma (quindi duplicazioni segmentali intracromosomiche). In questo caso levento di ricombinazione non fa altro che eliminare la porzione genomica che si trova tra le due duplicazioni che ricombinano. Se in questa regione ci sono dei geni importanti, la loro perdita determina una condizione patologica come accade per esempio per la sindrome DiGeorge o quella di CharcotMarie-Tooth. In particolare, questultima determinata dalla ricombinazione di due duplicazioni segmentali presenti sul cromosoma 17 umano. Questa ricombinazione determina la perdita di circa un milione e mezzo di basi che contengono geni la cui perdita determina appunto questa malattia, caratterizzata essenzialmente da una degenerazione del sistema nervoso periferico che porta a delle difficolt soprattutto a livello della deambulazione ma anche porta ad una debolezza diffusa ed altri sintomi.

Le duplicazioni segmentali possono essere generate essenzialmente attraverso due processi: uno il cosiddetto crossing-over diseguale tra cromosomi omologhi durante la meiosi. In questo caso la presenza di sequenze ripetute sui due cromosomi omologhi fa s che possa avvenire un evento di crossing over tra posizioni cromosomiche non corrispondenti sui due cromatidi appartenenti a cromosomi omologhi. Cio vedete nella figura.

14

Il crossing over, invece di avvenire tra due posizioni corrispondenti sui cromatidi appartenenti a cromosomi omologhi, avviene in posizioni non corrispondenti e questo determina, come risultato, la presenza di una duplicazione su uno dei cromosomi omologhi, in corrispondenza di un cromatidio e la mancanza completa della regione sullaltro cromosoma omologo che ha partecipato alla ricombinazione, sempre in corrispondenza di un cromatidio.

Unaltra modalit con cui si possono determinare le duplicazioni segmentali lo scambio disuguale tra cromatidi fratelli dello stesso cromosoma. In questo caso come vedete,

il tutto determinato sempre da sequenze ripetute per cui il crossing over errato (o meglio, pi che il crossing over, lo scambio errato, perch il crossing over il processo tipico che avviene durante la meiosi e che coinvolge i cromosomi omologhi); invece, nel caso in cui la ricombinazione avvenga tra cromatidi fratelli, sempre a causa della ripetizione di sequenze, si ha che nellambito

15

dello stesso cromosoma si crea la duplicazione di una regione dei cromatidi e la mancanza della stessa regione sul cromatide fratello. Le duplicazioni segmentali sono responsabili anche di una elevata variabilit genetica tra individui appartenenti alla stessa specie. In particolare, se si considera la popolazione umana, possibile osservare diverse duplicazioni segmentali, un diverso patner di duplicazioni segmentali, nei diversi individui. Dato che, come abbiamo visto, tali duplicazioni possono anche contenere dei geni, questo pu portare ad una variazione del numero di copie geniche tra un individuo e laltro; ma, a parte questa variazione funzionale, in generale possibile riscontrare una variazione di tutte le sequenze, anche quelle non codificanti, tra un individuo e laltro, se esse appartengono alle duplicazioni segmentali. In particolare abbiamo parlato di variazione del numero di copie proprio per indicare questo fenomeno per cui abbiamo un differente numero di copie per alcune sequenze, tra un individuo e laltro. E oggi possibile fare studi su larga scala, ovvero su scala genomica, di queste varianti strutturali del genoma (variazioni del numero di copie tra un individuo e laltro) mediante specifiche piattaforme di microarray piuttosto avanzate che permettono di confrontare interi genomi umani in maniera da evidenziare delle variazioni del numero di copie dovute appunto a duplicazioni segmentali. Uno studio su 270 individui di 4 popolazioni ha identificato circa 1500 16

CNVs. I CNV sono responsabili di variazioni del livello di espressione genica e possono essere associati a specifici tratti fenotipici e/o patologici (es. HIV, cancro della mammella, autismo, malattie auto-immuni).

Nella figura mostrata lapplicazione di una di queste piattaforme, che in particolare viene utilizzata per valutare la differenza nel numero di copie tra due genomi umani appartenenti a due individui maschi. In questo caso, uno dei genomi chiamato di riferimento laltro il genoma test. Questi genomi vengono ibridati in pratica luno sullaltro e il risultato di queste ibridazioni, a livello dei microarrays, rappresentato da una sorta di profilo che mostra per ciascun cromosoma la differenza nel numero di copie tra un genoma e laltro, quindi tra un individuo e laltro. Il profilo infatti, non altro che il rapporto per ciascun cromosoma, per ciascuna posizione cromosomica anche, del numero di copie di un genoma rispetto allaltro. Il valore viene dato in logaritmo in base 2 (log2), perch ci che ci interessa mostrare, in questo caso, non la variazione assoluta tra i due genomi nel numero di copie, ma quella relativa. Quindi questo primo profilo mostra per ciascun cromosoma la differenza, o meglio, il rapporto tra il numero di copie in un genoma e il numero di copie nellaltro genoma. Ovviamente quando il rapporto si discosta rispetto allo zero, vuol dire che c una variazione, cio in un genoma presente un numero di copie diverso rispetto allaltro. Questo potrebbe essere dovuto alla presenza di duplicazioni segmentali diverse in un genoma rispetto allaltro. La rappresentazione pi chiara se guardate lo zoom presente nel secondo riquadro che riguarda un solo cromosoma, il cromosoma 8. Come vedete c un profilo, diciamo frastagliato, in quanto, il rapporto va sopra e sotto lo zero, anche se, andando a zoomare ulteriormente, soltanto in alcune regioni, come quella rappresentata qui sotto, possibile individuare chiaramente una duplicazione segmentale, perch, come vedete in corrispondenza di essa, il rapporto del numero di copie tra i due genomi nettamente sopra lo zero. Questo significa 17

che evidentemente in uno dei genomi, nel test in questo caso, presente una duplicazione segmentale che aumenta il numero di copie rispetto al genoma di riferimento. Seguono (in figura) zoom successivi: prima viene mostrato il profilo su tutti i cromosomi, poi (sempre del rapporto che abbiamo visto) su un solo cromosoma e poi su una zona specifica del cromosoma 8 che in una sua particolare regione mostra un rapporto del numero di copie tra il genoma test e quello di riferimento molto al di sopra dello zero. Questo vuol dire che in questa regione, probabilmente nel genoma test, presente una duplicazione segmentale che aumenta il numero di copie. Abbiamo gi visto che questa variazione del numero di copie, se interessa geni, spesso associata a condizioni patologiche oltre che a specifici fenotipi. Tra le condizioni patologiche in cui si riscontra una variazione del numero di copie fra un genoma e laltro, ci sono per esempio il cancro alla mammella, l autismo e anche malattie autoimmuni. Passiamo ora a considerare unaltra caratteristica sempre del genoma eucariotico, sempre relativamente alle sequenze ripetute in tandem e in questo caso prendiamo in considerazione i microsatelliti e i minisatelliti. Infatti, una frazione del genoma eucariotico costituito da piccole ripetizioni in tandem che costituiscono in realt solo piccoli blocchi. Si tratta, appunto, di microsatelliti e dei minisatelliti che (ATTENZIONE) non fanno parte del DNA satellite, che unaltra cosa! Il DNA satellite costituito da ripetizioni in numero molto maggiore. In questo caso i microsatelliti e i minisatelliti sono ripetuti poche volte, 10 50 volte, a costituire dei frammenti o meglio dei blocchi piuttosto piccoli. In particolare, i microsatelliti sono costituiti da unit di ripetizione lunghe da 1 a 10 pb, ripetute in tandem 10-20 volte, che formano raggruppamenti molto corti, 60 Mbp), a differenza di quello che avviene per i microsatelliti e per i minisatelliti, ma che sono ancora poco rappresentati nelle sequenze genomiche ottenute nellambito del progetto di sequenziamento: le sequenze ripetute 29

pongono non pochi problemi sia in fase di sequenziamento sia in fase di assemblaggio delle sequenze. Le differenze di sequenza fra alfoidi di cromosomi diversi sono sufficienti a dare ad una sequenza alfoide una alta specificit per il cromosoma da cui deriva. Dal punto di vista evolutivo si pensa che il centromero allinizio era molto semplice; per esempio se considerate il Saccharomyces Cerevisiae, questo ha un centromero molto semplice a livello dei propri cromosomi, di circa 120 paia di basi, quindi molto piccola come struttura. Tutti gli altri eucarioti studiati dopo, presentano un centromero molto pi complesso, per esempio abbiamo visto, nel caso dei primati, c una sequenza di addirittura 171 paia di basi ripetuta molte volte. Si pensa che nellevoluzione si sia partiti da una struttura pi semplice e poi a livello del centromero si siano inserite sempre pi ripetizioni quindi un hot spot per linserimento delle ripetizioni. Lultima cosa che vi faccio vedere un programma, il Tandem Repeats Finder che stato utilizzato anche per ottenere le tabelle viste prima e che permette in particolare di individuare, allinterno di una sequenza di DNA, ripetizioni in tandem in particolare microsatelliti e ministaelliti. Voi quindi sottoponete la vostra sequenza in formato FASTA, un formato particolare in cui i nucleotidi sono scritti uno dietro laltro e il nome della sequenza preceduto da un segno di maggiore (>). Dopo aver fornito la vostra sequenza, senza

30

bisogno di precisare quale repeats cercate n quale sia la sua dimensione, questo programma vi dice se , nella sequenza data ci sono dei minisatelliti oppure dei microstaelliti.

In particolare loutput del programma costituito da due files, uno rappresentato da questa tabella qui, in cui per ciascun tipo di microsatellite o minisatellite sono riportate la varie caratteristiche , e laltro file contiene invece lallineamento di ciascun microsatellite o minisatellite con una sequenza di riferimento presente gi nel programma. In particolare per ciascun microsatellite o minisatellite riportato: la dimensione della ripetizione, il numero di copie nel minisatellite o nel microsatellite di quella ripetizione, la dimensione della consensus utilizzata per individuare quel tipo di ripetizione, la percentuale di nucleotidi identici fra ripetizioni adiacenti, la percentuale di inserzioni e delezioni fra ripetizioni adiacenti allinterno del micro satellite o del minisatallite, il punteggio di allineamento tra il micro satellite o il minisatellite e la sequenza consenso, la composizione in base dellelemento e una misura dellentropia che viene misurata sulla base dei nucleotidi diversi presenti nellelemento.

31


Recommended