Presentazione_V3

Post on 13-Apr-2017

104 views 0 download

transcript

Tecniche di Data Mining per l’analisi dei Big Data in ambito biomedico

Corso di Laurea in Ingegneria Informatica

A.A. 2014/2015

Candidato: Alessandro Ingrosso Relatore: Ing. Emanuel Weitschek

La bioinformatica

ATCACAGTGGGACTCCATAAATTTTTCTCGAAGGACCAGCAGAAACGAGAGAAAGGACAGTCCCTGAATGA

010001110101011100101101010101000010110110101001100101010001100101011111001101

Next Generation Sequencing

La bioinformatica Hypothesis driven Data driven

World Genome Databases

Complessità elevata Massa di dati senza ipotesi Costruire conoscenza dall’ignoranza Ricercare sequenze riconducibili ad un fenomeno

Obiettivo della tesi

• Realizzare un’applicazione Java SE che estrae le informazioni contenute nel più grande database pubblico sul cancro (TCGA), e le prepara per essere elaborate attraverso i migliori algoritmi di machine learning per l’analisi dei Big Data genomici e clinici.

Software di estrazione dei dati TCGA2Matrix

• Input: tracciati forniti dal portale TCGAinBED;

• Output: unico file CSV che contiene in forma di matrice tutte le informazioni riguardanti i singoli tessuti per un determinato tipo di cancro;

• Ciascun tessuto è classificato come normale o tumorale.

Il flusso dei dati

TCGA TCGAin

BED

TCGA2Matrix

WEKA data .bed & .meta .csv

Internet

Elaborazione locale

I dati di partenza

• Il più grande dataset è quello del consorzio The Cancer Genome Atlas (TCGA).

• 30 differenti tipi di tumori

• 9404 pazienti

• 13,45 TB di dati clinici e genomici

• 300 differenti tipi di attributi

Il processo di elaborazione TCGA2Matrix

Repository files

TCGAinBED

Creazione coda di elaborazione temp.txt

È la prima estrazione

Creazione matrice vuota matrice.txt

Estrazione file BED e META dalla coda

temp.txt

Crea e aggiungi riga di intestazione matrice.txt

Crea e aggiungi riga con valori genomici e clinici

matrice.txt

La coda è vuota?

Elimina file temp.txt

START

END

Matrice.CSV

• L’output generato è un file testuale che contiene informazioni organizzate secondo il formato CSV (Comma-Separated Values).

Le Classi di TCGA2Matrix

• TcgaDir – metodi per la gestione della cartella che contiene i campioni di tessuto.

• TcgaFile – metodi per la gestione delle operazioni su file.

• TcgaRow – metodi per la gestione dei contenuti della matrice.

Il Data Mining

• Cerca di estrarre dai dataset modelli di classificazione potenzialmente di valore e precedentemente sconosciuti.

Matrice

Alberi decisionali

Rule-Based Classifier

Support Vector Machines

Analisi dei dati estratti

• Sono stati eseguiti tre esperimenti di analisi dei dati su tre diverse tipologie di tumore:

– carcinoma invasivo al seno (brca);

– carcinoma a cellule renali (kirc);

– carcinoma a cellule squamose del polmone (lusc). brca kirc lusc

N. Campioni 58 538 242

Variabili genomiche 20,515 20,515 20,515

Variabili cliniche 235 222 229

Algoritmo migliore SVM SVM SVM

% istanze correttamente classificate

94.8276% 99.4424 99.5868%

Analisi dati estratti

• Modelli di classificazione estratti con alberi decisionali

brca kirc lusc

98.3471% 98.6989% 89.6552%

Analisi dati estratti

• Modelli di classificazione estratti con i Rule-based classifier

brca kirc lusc

Rule-base classifier SE

(MIR99AHG >= 2.136315) ALLORA class=normal

ALTRIMENTI class=tumoral

SE (ACPP >= 2.199115) E

(DISP1 >= 2.658767) ALLORA class=normal

ALTRIMENTI SE (BAG4 >= 7.778995)

ALLORA class=normal

ALTRIMENTI class=tumoral

SE (DLC1 >= 25.074198)

ALLORA class=normal

ALTRIMENTI class=tumoral

% ICC 86.2069% 97.2119% 96.281%

Conclusioni e sviluppi futuri

• Bioinformatica, data mining e big data sono in forte sviluppo.

• Il data mining sembra idealmente adattarsi molto bene alla bioinformatica.

• Tuttavia lo sviluppo è ostacolato dalla mancanza di strutturazione e integrazione dei dati

• Nonostante questo la bioinformatica è in forte crescita.

Conclusioni e sviluppi futuri

• Quanto sviluppato nella tesi ha dimostrato che lo sviluppo del data mining è pronto per essere integrato all’interno di applicativi destinati ai ricercatori e ai medici.

• Il ruolo del bioinformatico è destinato a crescere in futuro, sarà sempre più necessario dotarsi di una figura che integri competenze scientifiche, biomediche ed ingegneristiche.