+ All Categories
Home > Documents > Presentazione_V3

Presentazione_V3

Date post: 13-Apr-2017
Category:
Upload: alessandro-ingrosso
View: 104 times
Download: 0 times
Share this document with a friend
16
Tecniche di Data Mining per l’analisi dei Big Data in ambito biomedico Corso di Laurea in Ingegneria Informatica A.A. 2014/2015 Candidato: Alessandro Ingrosso Relatore: Ing. Emanuel Weitschek
Transcript
Page 1: Presentazione_V3

Tecniche di Data Mining per l’analisi dei Big Data in ambito biomedico

Corso di Laurea in Ingegneria Informatica

A.A. 2014/2015

Candidato: Alessandro Ingrosso Relatore: Ing. Emanuel Weitschek

Page 2: Presentazione_V3

La bioinformatica

ATCACAGTGGGACTCCATAAATTTTTCTCGAAGGACCAGCAGAAACGAGAGAAAGGACAGTCCCTGAATGA

010001110101011100101101010101000010110110101001100101010001100101011111001101

Next Generation Sequencing

Page 3: Presentazione_V3

La bioinformatica Hypothesis driven Data driven

World Genome Databases

Complessità elevata Massa di dati senza ipotesi Costruire conoscenza dall’ignoranza Ricercare sequenze riconducibili ad un fenomeno

Page 4: Presentazione_V3

Obiettivo della tesi

• Realizzare un’applicazione Java SE che estrae le informazioni contenute nel più grande database pubblico sul cancro (TCGA), e le prepara per essere elaborate attraverso i migliori algoritmi di machine learning per l’analisi dei Big Data genomici e clinici.

Page 5: Presentazione_V3

Software di estrazione dei dati TCGA2Matrix

• Input: tracciati forniti dal portale TCGAinBED;

• Output: unico file CSV che contiene in forma di matrice tutte le informazioni riguardanti i singoli tessuti per un determinato tipo di cancro;

• Ciascun tessuto è classificato come normale o tumorale.

Page 6: Presentazione_V3

Il flusso dei dati

TCGA TCGAin

BED

TCGA2Matrix

WEKA data .bed & .meta .csv

Internet

Elaborazione locale

Page 7: Presentazione_V3

I dati di partenza

• Il più grande dataset è quello del consorzio The Cancer Genome Atlas (TCGA).

• 30 differenti tipi di tumori

• 9404 pazienti

• 13,45 TB di dati clinici e genomici

• 300 differenti tipi di attributi

Page 8: Presentazione_V3

Il processo di elaborazione TCGA2Matrix

Repository files

TCGAinBED

Creazione coda di elaborazione temp.txt

È la prima estrazione

Creazione matrice vuota matrice.txt

Estrazione file BED e META dalla coda

temp.txt

Crea e aggiungi riga di intestazione matrice.txt

Crea e aggiungi riga con valori genomici e clinici

matrice.txt

La coda è vuota?

Elimina file temp.txt

START

END

Page 9: Presentazione_V3

Matrice.CSV

• L’output generato è un file testuale che contiene informazioni organizzate secondo il formato CSV (Comma-Separated Values).

Page 10: Presentazione_V3

Le Classi di TCGA2Matrix

• TcgaDir – metodi per la gestione della cartella che contiene i campioni di tessuto.

• TcgaFile – metodi per la gestione delle operazioni su file.

• TcgaRow – metodi per la gestione dei contenuti della matrice.

Page 11: Presentazione_V3

Il Data Mining

• Cerca di estrarre dai dataset modelli di classificazione potenzialmente di valore e precedentemente sconosciuti.

Matrice

Alberi decisionali

Rule-Based Classifier

Support Vector Machines

Page 12: Presentazione_V3

Analisi dei dati estratti

• Sono stati eseguiti tre esperimenti di analisi dei dati su tre diverse tipologie di tumore:

– carcinoma invasivo al seno (brca);

– carcinoma a cellule renali (kirc);

– carcinoma a cellule squamose del polmone (lusc). brca kirc lusc

N. Campioni 58 538 242

Variabili genomiche 20,515 20,515 20,515

Variabili cliniche 235 222 229

Algoritmo migliore SVM SVM SVM

% istanze correttamente classificate

94.8276% 99.4424 99.5868%

Page 13: Presentazione_V3

Analisi dati estratti

• Modelli di classificazione estratti con alberi decisionali

brca kirc lusc

98.3471% 98.6989% 89.6552%

Page 14: Presentazione_V3

Analisi dati estratti

• Modelli di classificazione estratti con i Rule-based classifier

brca kirc lusc

Rule-base classifier SE

(MIR99AHG >= 2.136315) ALLORA class=normal

ALTRIMENTI class=tumoral

SE (ACPP >= 2.199115) E

(DISP1 >= 2.658767) ALLORA class=normal

ALTRIMENTI SE (BAG4 >= 7.778995)

ALLORA class=normal

ALTRIMENTI class=tumoral

SE (DLC1 >= 25.074198)

ALLORA class=normal

ALTRIMENTI class=tumoral

% ICC 86.2069% 97.2119% 96.281%

Page 15: Presentazione_V3

Conclusioni e sviluppi futuri

• Bioinformatica, data mining e big data sono in forte sviluppo.

• Il data mining sembra idealmente adattarsi molto bene alla bioinformatica.

• Tuttavia lo sviluppo è ostacolato dalla mancanza di strutturazione e integrazione dei dati

• Nonostante questo la bioinformatica è in forte crescita.

Page 16: Presentazione_V3

Conclusioni e sviluppi futuri

• Quanto sviluppato nella tesi ha dimostrato che lo sviluppo del data mining è pronto per essere integrato all’interno di applicativi destinati ai ricercatori e ai medici.

• Il ruolo del bioinformatico è destinato a crescere in futuro, sarà sempre più necessario dotarsi di una figura che integri competenze scientifiche, biomediche ed ingegneristiche.