Post on 02-May-2015
transcript
La “Gene Ontology”La “Gene Ontology”
Ontologia: studio dell’essere in quanto tale, e delle sue Ontologia: studio dell’essere in quanto tale, e delle sue categorie fondamentalicategorie fondamentali
Le categorie sono le “classi supreme di ogni predicato Le categorie sono le “classi supreme di ogni predicato possibile, con cui poter catalogare tutta la realtà”possibile, con cui poter catalogare tutta la realtà”
In pratica: la “gene ontology” è un tentativo di In pratica: la “gene ontology” è un tentativo di “catalogare la realtà” di tutti i geni noti sulla base delle “catalogare la realtà” di tutti i geni noti sulla base delle informazioni che abbiamo sulla loro funzione o attivitàinformazioni che abbiamo sulla loro funzione o attività
La catalogazione deve essere effettuata in modo La catalogazione deve essere effettuata in modo non non ambiguoambiguo utilizzando una utilizzando una nomenclatura pre-definitanomenclatura pre-definita e e in in modo da permettere confronti e analisimodo da permettere confronti e analisi delle delle informazioni disponibili sui geniinformazioni disponibili sui geni
““Gene Ontology”Gene Ontology”
Consideriamo un gene, e la rispettiva proteina codificataConsideriamo un gene, e la rispettiva proteina codificata Per “catalogare” il gene possiamo cominciare a Per “catalogare” il gene possiamo cominciare a
chiederci:chiederci: DoveDove è localizzata la proteina, una volta sintetizzata? è localizzata la proteina, una volta sintetizzata?
Nucleo? Citoplasma? Membrana? Secreta fuori Nucleo? Citoplasma? Membrana? Secreta fuori dalla cellula?dalla cellula?
Qual è la Qual è la funzione molecolarefunzione molecolare della proteina, ovvero, della proteina, ovvero, “cosa fa”?“cosa fa”?
Si lega al DNA? Ad altre proteine? A determinate Si lega al DNA? Ad altre proteine? A determinate molecole? Ecc. ecc.molecole? Ecc. ecc.
In quale “In quale “processo biologicoprocesso biologico” è coinvolta la ” è coinvolta la proteina?proteina?
Regolazione della trascrizione? Ciclo cellulare? Regolazione della trascrizione? Ciclo cellulare? Metabolismo? Pathway? Ecc. ecc.Metabolismo? Pathway? Ecc. ecc.
Gene
CellularComponent
(CC)“Localizzazione”
Molecular Function
(MF)
BiologicalProcess
(BP)
GOGO
I termini (o “attributi”) associati a I termini (o “attributi”) associati a un gene sono quindi raggruppati in un gene sono quindi raggruppati in tre categorie principalitre categorie principali
Gli attributi associati a ciascuna Gli attributi associati a ciascuna categoria sono organizzati categoria sono organizzati in modo in modo gerarchicogerarchico, dal più generico al più , dal più generico al più specificospecifico
Gli attributi sono Gli attributi sono pre-definiti in pre-definiti in modo da evitare ambiguitàmodo da evitare ambiguità
GOGO
Esempio: un gene codifica per una proteina Esempio: un gene codifica per una proteina che agisce da fattore di trascrizioneche agisce da fattore di trascrizione
I fattori di trascrizione legano il DNA I fattori di trascrizione legano il DNA regolando regolando (attivando/bloccando/modulando) la (attivando/bloccando/modulando) la trascrizione dei geni ad opera della trascrizione dei geni ad opera della polimerasipolimerasi
I fattori di trascrizione sono attivi nel nucleo I fattori di trascrizione sono attivi nel nucleo della celluladella cellula
E quindi, per definire un fattore di E quindi, per definire un fattore di trascrizione tramite GO:trascrizione tramite GO:
Gene
CC MF BP
Nucleus Binding
NucleotideBinding
DNABinding
Regulation
Regulation ofCell Cycle
is_a
is_a
DNA binding is a type of nucleic acid binding.
Nucleic acid binding is atype of binding.
Molecular function ontology
Biological process ontology
Adaxial/abaxial patternformation is a type ofpattern specification.
Adaxial/abaxial patternspecification is a part of adaxial/abaxial patternformation
part_of
is_a
nucleus is part of the intracellular domain
membrane-boundorganelle is atype of organelle
Cellular component ontology
process function component
part_of
is_a
GOGO
Oltre che a catalogare in modo uniforme, non ambiguo e Oltre che a catalogare in modo uniforme, non ambiguo e gerarchico le annotazioni disponibili per i geni e i loro prodotti, gerarchico le annotazioni disponibili per i geni e i loro prodotti, la GO serve ad la GO serve ad analizzare insiemi di genianalizzare insiemi di geni cercando proprietà cercando proprietà condivise e caratterizzanticondivise e caratterizzanti
Analisi di dati di espressioneAnalisi di dati di espressione Confronto due condizioni diverse: estraggo i geni che mostrano Confronto due condizioni diverse: estraggo i geni che mostrano
differenze significative di espressione nei due esperimentidifferenze significative di espressione nei due esperimenti Confronto più condizioni: “raggruppo” i geni in due o più gruppi Confronto più condizioni: “raggruppo” i geni in due o più gruppi
sulla base della similarità nella variazione dell’espressione nelle sulla base della similarità nella variazione dell’espressione nelle diverse condizionidiverse condizioni
I gruppi (“cluster”) così formati possono contenere centinaia di I gruppi (“cluster”) così formati possono contenere centinaia di geni: che cosa hanno in comune i geni di ogni “cluster”?geni: che cosa hanno in comune i geni di ogni “cluster”?
Determino su scala genomica Determino su scala genomica tutti i geni “target” di un dato tutti i geni “target” di un dato fattore di trascrizionefattore di trascrizione (centinaia o migliaia) (centinaia o migliaia)
Di quali processi o pathway biologici il fattore sembra essere un Di quali processi o pathway biologici il fattore sembra essere un regolatore fondamentale?regolatore fondamentale?
GOGO
Immaginando di avere un insieme di geni, di cui vogliamo Immaginando di avere un insieme di geni, di cui vogliamo determinare se esistano caratteristiche/proprietà comuni, ci determinare se esistano caratteristiche/proprietà comuni, ci possiamo chiedere:possiamo chiedere: Esiste un “nodo” nella gerarchia GO - ovvero una Esiste un “nodo” nella gerarchia GO - ovvero una
annotazione - che è associato ai geni dell’insieme - se non annotazione - che è associato ai geni dell’insieme - se non proprio tutti a un numero significativo di geni?proprio tutti a un numero significativo di geni?
Ovvero - esiste una annotazione di qualsiasi tipo che è Ovvero - esiste una annotazione di qualsiasi tipo che è condivisa da un numero significativamente alto dei geni condivisa da un numero significativamente alto dei geni dell’insieme?dell’insieme?
La risposta dipende daLa risposta dipende da N: numero di geni del genomaN: numero di geni del genoma M: numero di geni del genoma con una data annotazione M: numero di geni del genoma con una data annotazione
GO “A”GO “A” n: numero di geni del “campione” studiato (es: cluster di n: numero di geni del “campione” studiato (es: cluster di
espressione)espressione) m: numero di geni del “campione” con l’ annotazione GO m: numero di geni del “campione” con l’ annotazione GO
“A”“A”
GOGO
Dati N,M,n,m si calcola un “test di Dati N,M,n,m si calcola un “test di Fisher” per determinare “Fisher” per determinare “la probabilità la probabilità che - selezionando n geni a caso su N - si che - selezionando n geni a caso su N - si trovino m geni con l’annotazione Atrovino m geni con l’annotazione A””
Si ripete il test per ogni possibile Si ripete il test per ogni possibile annotazione della gerarchia della Gene annotazione della gerarchia della Gene OntologyOntology
Si considerano le annotazioni con una Si considerano le annotazioni con una probabilità tel test di Fisher probabilità tel test di Fisher BASSABASSA
GOGO
Esistono “tool” bioinformatici che fanno Esistono “tool” bioinformatici che fanno proprio questo:proprio questo: Prendono come input una lista di Prendono come input una lista di
identificativi di geniidentificativi di geni Esplorano tutta la gerarchia completa delle Esplorano tutta la gerarchia completa delle
annotazioni GO alla ricerca di nodi annotazioni GO alla ricerca di nodi (annotazioni) con un numero (annotazioni) con un numero significativamente alto di geni - e un significativamente alto di geni - e un rispettivo “p-value” (valore di probabilità) rispettivo “p-value” (valore di probabilità) che ne misura la significatività: più il p-value che ne misura la significatività: più il p-value è basso, più l’osservazione NON è casuale è basso, più l’osservazione NON è casuale (come nel caso dell’E-value del BLAST)(come nel caso dell’E-value del BLAST)