Date post: | 13-Apr-2017 |
Category: |
Documents |
Upload: | alessandro-ingrosso |
View: | 104 times |
Download: | 0 times |
Tecniche di Data Mining per l’analisi dei Big Data in ambito biomedico
Corso di Laurea in Ingegneria Informatica
A.A. 2014/2015
Candidato: Alessandro Ingrosso Relatore: Ing. Emanuel Weitschek
La bioinformatica
ATCACAGTGGGACTCCATAAATTTTTCTCGAAGGACCAGCAGAAACGAGAGAAAGGACAGTCCCTGAATGA
010001110101011100101101010101000010110110101001100101010001100101011111001101
Next Generation Sequencing
La bioinformatica Hypothesis driven Data driven
World Genome Databases
Complessità elevata Massa di dati senza ipotesi Costruire conoscenza dall’ignoranza Ricercare sequenze riconducibili ad un fenomeno
Obiettivo della tesi
• Realizzare un’applicazione Java SE che estrae le informazioni contenute nel più grande database pubblico sul cancro (TCGA), e le prepara per essere elaborate attraverso i migliori algoritmi di machine learning per l’analisi dei Big Data genomici e clinici.
Software di estrazione dei dati TCGA2Matrix
• Input: tracciati forniti dal portale TCGAinBED;
• Output: unico file CSV che contiene in forma di matrice tutte le informazioni riguardanti i singoli tessuti per un determinato tipo di cancro;
• Ciascun tessuto è classificato come normale o tumorale.
Il flusso dei dati
TCGA TCGAin
BED
TCGA2Matrix
WEKA data .bed & .meta .csv
Internet
Elaborazione locale
I dati di partenza
• Il più grande dataset è quello del consorzio The Cancer Genome Atlas (TCGA).
• 30 differenti tipi di tumori
• 9404 pazienti
• 13,45 TB di dati clinici e genomici
• 300 differenti tipi di attributi
Il processo di elaborazione TCGA2Matrix
Repository files
TCGAinBED
Creazione coda di elaborazione temp.txt
È la prima estrazione
Creazione matrice vuota matrice.txt
Estrazione file BED e META dalla coda
temp.txt
Crea e aggiungi riga di intestazione matrice.txt
Crea e aggiungi riga con valori genomici e clinici
matrice.txt
La coda è vuota?
Elimina file temp.txt
START
END
Matrice.CSV
• L’output generato è un file testuale che contiene informazioni organizzate secondo il formato CSV (Comma-Separated Values).
Le Classi di TCGA2Matrix
• TcgaDir – metodi per la gestione della cartella che contiene i campioni di tessuto.
• TcgaFile – metodi per la gestione delle operazioni su file.
• TcgaRow – metodi per la gestione dei contenuti della matrice.
Il Data Mining
• Cerca di estrarre dai dataset modelli di classificazione potenzialmente di valore e precedentemente sconosciuti.
Matrice
Alberi decisionali
Rule-Based Classifier
Support Vector Machines
Analisi dei dati estratti
• Sono stati eseguiti tre esperimenti di analisi dei dati su tre diverse tipologie di tumore:
– carcinoma invasivo al seno (brca);
– carcinoma a cellule renali (kirc);
– carcinoma a cellule squamose del polmone (lusc). brca kirc lusc
N. Campioni 58 538 242
Variabili genomiche 20,515 20,515 20,515
Variabili cliniche 235 222 229
Algoritmo migliore SVM SVM SVM
% istanze correttamente classificate
94.8276% 99.4424 99.5868%
Analisi dati estratti
• Modelli di classificazione estratti con alberi decisionali
brca kirc lusc
98.3471% 98.6989% 89.6552%
Analisi dati estratti
• Modelli di classificazione estratti con i Rule-based classifier
brca kirc lusc
Rule-base classifier SE
(MIR99AHG >= 2.136315) ALLORA class=normal
ALTRIMENTI class=tumoral
SE (ACPP >= 2.199115) E
(DISP1 >= 2.658767) ALLORA class=normal
ALTRIMENTI SE (BAG4 >= 7.778995)
ALLORA class=normal
ALTRIMENTI class=tumoral
SE (DLC1 >= 25.074198)
ALLORA class=normal
ALTRIMENTI class=tumoral
% ICC 86.2069% 97.2119% 96.281%
Conclusioni e sviluppi futuri
• Bioinformatica, data mining e big data sono in forte sviluppo.
• Il data mining sembra idealmente adattarsi molto bene alla bioinformatica.
• Tuttavia lo sviluppo è ostacolato dalla mancanza di strutturazione e integrazione dei dati
• Nonostante questo la bioinformatica è in forte crescita.
Conclusioni e sviluppi futuri
• Quanto sviluppato nella tesi ha dimostrato che lo sviluppo del data mining è pronto per essere integrato all’interno di applicativi destinati ai ricercatori e ai medici.
• Il ruolo del bioinformatico è destinato a crescere in futuro, sarà sempre più necessario dotarsi di una figura che integri competenze scientifiche, biomediche ed ingegneristiche.