Università degli Studi di Genova
Laurea Specialistica in Biotecnologie Medico-Farmaceutiche
Corso di: Biotecnologie Diagnostiche
A.A. 2004/2005
Utilizzo di Database in studi di Biologia Molecolare.
Eva Bertini
Disponibilità dei dati on-line con possibilità di utilizzare un buon motore di ricerca:
Fronteggiare l’incremento del numero dei dati disponibili…
…integrare le informazioni…
…e semplificare il lavoro!
Database di sequenze nucleotidiche
GENEBANK
Progetto di collaborazione internazionale: EMBL/EBI, DDBJ, NHI/NCBI
Aggiornamento automatico ogni 24 h
130000 organismi > 32 milioni di sequenze > 38 miliardi di basi (febbraio 2004)
Database di sequenze nucleotidiche
Tipologie di sequenze accettate da GENEBANK:
• Genomi completi
• ESTs
• HTGs
• STSs
• WGSs Problema: •database ridondante
•molti errori
UniGene
Caratteristiche delle sequenze:
A. Accession Number (AC): codice di identificazione univoco
B. Sequenze “annotate”
Database di sequenze nucleotidiche
Ricerca: pou genes zebrafish
Database di sequenze nucleotidiche
Database nucleotidici specializzati: RDP (Ribosomal Database Project)
http://rdp.cme.msu.edu/misc/about.jsp
HIV sequence database
http://hiv-web.lanl.gov
IMGT (Immunogenetics Database)
http://imgt.cnusc.fr:8104/textes/info.html
Transcription factors and transcription factor binding sites
http://www.cbrc.jp/research/db/TFSEARCH.html
EPD (Eucariotic Promoter Database)
ftp://ftp.ebi.ac.uk/pub/databases/epd
…
Database di sequenze proteiche
Database universali Database specializzati
Semplici archivi di dati Database annotati
Swiss-Prot/SIB (Swiss Institute of
Bioinformatics) http://www.expasy.ch
PIR (Protein Information Resource)
Famiglie proteiche
Gruppi di proteine
Proteomi
NCBI:
• “genomes and maps” (più di 1000 organismi, eucarioti e procarioti, virus, plasmidi e organelli)
• “entre genome” e ProtTable
6000 specie > 85000 entries annotate
Supplemento TrEMBL
Database di sequenze proteiche
Home page di SWISS-PROT
BLAST
(Basic Local Alignment Search Tool)
(Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ: Basic local alignment search tool. J Mol Biol. 1990 Oct 5;215(3):403-10.)
Algoritmo di allineamento che ha permesso di interrogare in modo costruttivo i database di sequenze.
Attivo a pieno regime dal 2003
280 processori
Più di 100000 richieste di allineamento al giorno
Ogni richiesta completata in media in 40 secondi
BLAST
(Basic Local Alignment Search Tool)
Tipologie di utilizzo:
I. Nucleotide BLAST
II. Protein BLAST
III. Translated BLAST
IV. Genomes BLAST
V. Special BLAST
Query = sequenza nucleotidica
• GEO BLAST
• Immunoglobin BLAST
• SNP BLAST
• VecScreen
• Align
Query = sequenza nucleotidica
• Nucleotide-nucleotide
• Megablast
• Discontigous megablast
Query = sequenza proteica
• Protein-protein
• Allineamenti brevi con alta similarità
• Domini conservati
Query = sequenza amminoacidica
• Proteina-TrEMBL
• Sequenza tradotta-proteine
• Sequenza tradotta-TrEMBL
Query = sequenza nucleotidica
Scelta dell’organismo
BLAST
(Basic Local Alignment Search Tool)
Database di strutture biomolecolari
Archivi di strutture macromolecolari tridimensionali, determinate tramite esperimenti biocristallografia a raggi X.
MMDB (Molecular Modeling Database)Query = coordinate 3D28000 struttureAggiornamento settimanale da PDBVAST (Vector Alignment Search Tool)
CDD (Conserved Domain Database)Query = sequenza aaCollezione di moduli e domini ottenuti da allinamenti multipliCn3D
PUBCHEMStrutture 3D di piccole molecole organiche ad attività biologica
Database di strutture biomolecolari
Query: sequenza proteica Brn3b zebrafish
Database di 2D PAGE e SDS PAGE
SWISS-2D PAGE: mappatura di gel elettroforetici 2D PAGE o SDS PAGE.
7 organismi > 36 mappe proteiche > 1265 entries
Link a tutti i siti che mettono a disposizione mappature di 2D PAGE e SDS PAGE
Query per informazione chiave sulla proteina o selezione diretta dello spot
Database di 2D PAGE e SDS PAGE
Database di espressione genica
GEO (Gene Expression Ominibus)
Disponibile da luglio 2000
Raccolta di dati sperimentali high-throughput riguardanti l’espressione genica
• Microarray singolo o doppio canale
• Analisi seriale di espressione genica (SAGE)
• Spettrometria di massa
Database di espressione genica
Interrogare il database:
1) Entrez GEO Profiles: profili di espressione genica specifici
2) Entrez GEO DataSet: tutte le annotazioni sperimentali relative alla query disponibili nel database
1) Entrez GEO Profiles
Profile neighbors: geni con profilo di espressione simile (funzione o regolazione comune)
Sequence neighbors: geni con similarità di sequenza (famiglie geniche o paragone fra specie diverse)
Database di espressione genica
Database tassonomici
A. Taxonomy Browser (NCBI): 130000 organismi, viventi o estinti, rappresentati in banca dati da almeno una sequenza nucleotidica o proteica
B. Tree of life web project
C. Species 2000: supporto a studi di biodiversità, comprende circa il 40% delle specie viventi note
D. Integrated taxonomic information system
Database tassonomici
Database bibliografici
Più di 5000 riviste biomediche (con impact factor) in 70 paesi.
MEDLINE/NML (National Library of Medicine): 13 milioni di citazioni dal 1966 ad oggi.
NCBI:
1. PubMed: tutte le pubblicazioni contenenti la parola chiave ricercata
2. PubMed Central: tutti i full-text disponibili, con link ad altre risorse di NCBI; progetto di digitalizzazione di pubblicazioni “datate”
3. Books: libri interamente disponibili sul web
4. OMIM (Online Mendelian Inheritance in Man): pubblicazioni riguardanti patologie genetiche
Altri database:
BIOSIS: pubblicazioni, anche di vecchia letteratura, in tutti I settori della ricerca biologica
CAB International: più di 4 milioni di riferimenti, di varia origine, relativi a nutrizione e agricoltura
Database bibliografici