www.crs4.it
Kickoff Progetto DaSSIA29 Settembre 2014
CRS4, 29 Settembre 2014
Ordine del giorno
• Breve Presentazione del CRS4
• CRS4 & Big Data
• Il Progetto DaSSIA
– Sviluppo di un caso test paradigmatico– L'Attività di Formazione
• Discussione
2
CRS4, 29 Settembre 2014
Ordine del giorno
• Breve Presentazione del CRS4
• CRS4 & Big Data
• Il Progetto DaSSIA
– Sviluppo di un caso test paradigmatico– L'Attività di Formazione
• Discussione
3
CRS4, 29 Settembre 2014
CRS4: Sintesi• Organismo di ricerca operativo dal 1991• Compiti istituzionali
– Ricerca e sviluppo• ICT e scienze computazionali
• Tecnologie abilitanti e focalizzazione su tematiche prioritarie
– Infrastruttura• HPC: uno dei maggiori centri in Italia, peculiarità importanti a
livello Europeo (sistemi ibridi, visualizzazione, …)
• NextGen Seq: maggior centro italiano, tra i primi internazionali
– Supporto al territorio• Cooperazione e integrazione (CNR, UNI, SRT, PCR, …)
• Alta formazione, impatto sociale e trasferimento tecnologico
• Visione internazionale, ricadute locali
4
CRS4, 29 Settembre 2014
CRS4: Focalizzazione su ICT e Scienze Computazionali• Ruolo rilevante del CRS4
sin dall’inizio• Tematiche di lavoro
estremamente attuali– ICT Pervasiva– Paradigma anytime, anywhere, for
anybody, on any device
– Computing– universal enabler scientifico e
industriale
– Big Data– Data-driven science & technology
5
Industrial Leadership
Excellent Science
Societal Challenges
ICT
Industrial Leadership
Industrial Leadership
Excellent ScienceExcellent Science
Societal Challenges
Societal Challenges
ICTICT
CRS4, 29 Settembre 2014
CRS4: Ricerca e sviluppo • Esempi recenti (2013):
– ICT per la biomedicina: metodi scalabili per l’analisi massiva di dati sequenziamento
• completamento dell’acquisizione di uno dei database più estesi (oltre 2’500 campioni) e maggiormente caratterizzati geneticamente e clinicamente al mondo (con CNR-IRGB);
• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare metodi innovativi di terapia genica (con TIGET) e a comprendere meglio i meccanismi genetici di regolazione della risposta immunitaria delle cellule (con CNR-IRGB).
– ICT per il cultural heritage: Nuovi metodi scalabili per l’acquisizione di forma e colore• Applicazione ai beni culturali [Digital Heritage Award – miglior lavoro internazionale 2013]
– ICT per l'industria: Primo applicativo di ecografia sismica data-driven • Sensibile accorciamento del ciclo di elaborazione progettuale [CRS4-ENI]
– ICT per l'industria: Primo sistema per la piena tracciabilità di processo clinico• Tracciamento end-to-end di processo clinico (flebotomia) [CRS4-INPECO]
• … e molto altro…
6
CRS4, 29 Settembre 2014
CRS4: Infrastrutture
• Risorse computazionali– Tra le prime in Italia, vasta gamma di configurazioni
ibride (GPU, FPGA, …), connessioni con multiple 10GbE verso Rete Regionale della Ricerca e GARR
– 70% utilizzato da comunità scientifica regionale
• Strumentazione sperimentale avanzata– Il più grande centro di Next Generation Sequencing in
Italia– capacità di 5’400 GigaBasi/mese
– Tra i centri più avanzati per tecnologie e beni culturali– 2013: I metodi applicati al complesso di Mont’e Prama sono
all’avanguardia a livello internazionale
CRS4, 29 Settembre 2014
Ordine del giorno
• Breve Presentazione del CRS4
• CRS4 & Big Data
• Il Progetto DaSSIA
– Sviluppo di un caso test paradigmatico– L'Attività di Formazione
• Discussione
8
CRS4, 29 Settembre 2014
Big Data @ CRS4• Risultati di ricerca e sviluppo
– General purpose tools and libraries [pydoop, 2010]
– Tool specifici di dominio [biodoop, 2008, seal 2012]
– Sistemi integrati [biobank 2014]
• Infrastrutture specializzate– Il più grande cluster map-reduce in Italia (fino a 400 nodi)
• Allocazione dinamica delle risorse tra hadoop e sistema standard di gestione delle code
• File system di 4PBytes ad alte prestazioni condiviso
– File system parallelo (HDFS server) dedicato• 400TB su 40 commodity nodes
– Clusters sperimentali/valutazione specializzati
• Spark, Impala, Hive, Hbase,....– Specialized experimental/evaluation clusters
● Nel loop tecnologico– Contributi Open source (pydoop, seal, ...)
– Connessioni Industriali (Cloudera, Isilon, intel, ...)
CRS4, 29 Settembre 2014
Ordine del giorno
• Breve Presentazione del CRS4
• Big Data @ CRS4
• Il Progetto DaSSIA
– Sviluppo di un caso test paradigmatico– L'Attività di Formazione
• Discussione
10
www.crs4.it
Big Data: un problema o un'opportunità ?
www.crs4.it
www.crs4.it
DaSSIAData Scalable Solutions for Industrial Applications
● Il Progetto ha l'obiettivo di trasferire know how sul trattamento dei Big Data dal CRS4 alle aziende partecipanti al cluster.
● Si articola in due attività principali:― Sviluppo di un caso test di interesse comune. Le
problematiche incontrate nella sua realizzazione vengono discusse all'interno di un wiki accessibile per il cluster
― Attività di formazione su alcune tra le tecnologie più utilizzate nel trattamento dei Big Data
CRS4, 29 Settembre 2014
Ordine del giorno
• Breve Presentazione del CRS4
• Big Data @ CRS4
• Il Progetto DaSSIA
– Sviluppo di un caso test paradigmatico– L'Attività di Formazione
• Discussione
14
www.crs4.it
Sviluppo di un Caso Test Paradigmatico
Principali passi:● Raccolta dei dati e prima analisi in realtime degli stessi● Scrittura su filesystem distribuito hdfs● Analisi batch dei dati
A cui si possono aggiungere altri task:● Visualizzazione di statistiche sui dati acquisiti● Meccanismo di controllo e correzione degli errori nel trasporto dei dati● etc
Caso Test Paradigmatico: Dati sulle prestazioni (memoria, cpu, processi, temperature, ecc) provenienti da un cluster di quasi 400 computer
CRS4, 29 Settembre 2014
Ordine del giorno
• Breve Presentazione del CRS4
• Big Data @ CRS4
• Il Progetto DaSSIA
– Sviluppo di un caso test paradigmatico– L'Attività di Formazione
• Discussione
16
CRS4, 29 Settembre 2014
● Illustrare il fenomeno/problema Big Data
● Tracciare un quadro generale dell'ecosistema
Hadoop (lo standard/ecosistema industriale)
● Fornire un modello architetturale per la
gestione dei Big Data
● Accompagnare le aziende nell'apprendimento
di alcune tra le più usate tecnologie per i Big
Data
Obiettivi dell'attività formativa
CRS4, 29 Settembre 2014
N Data Titolo Ore
1 Metà Ottobre Big Data e Hadoop 6
2 Fine Novembre Scripting e DataWarehouse sui Big Data 6
3 Fine Gennaio Scalable NoSQL Databases 6
4 Metà Marzo Data Collection from Big Data Sources 6
Calendario preliminare dell'attività formativa
CRS4, 29 Settembre 2014
Modello Architetturale
DistributedFile System
MapReduce
ETL
DataWarehouse
DistributedDB
CRS4, 29 Settembre 2014
Prima Giornata
Tema: BigData e Hadoop
● Cosa si intende con BigData ?
● Hadoop― HDFS
― MapReduce
● Pydoop
DistributedFile System
MapReduce
CRS4, 29 Settembre 2014
Alla fine della prima giornata i partecipanti:
● Sapranno interagire con il file system HDFS
● Avranno appreso il paradigma della programmazione
mapreduce
● Sapranno scrivere semplici job mapreduce in java e
python
● Sapranno utilizzare le viste di controllo fornite dalle
interfacce web dei servizi
CRS4, 29 Settembre 2014
Seconda Giornata
Tema: Scripting e DataWarehouse su Big Data
● PIG, un linguaggio di scripting che ci libera
dalle complessità di MapReduce
● Hive, come fare DataWarehouse su BigData
sfruttando la nostra esperienza con l'SQL
● Shark, DataWarehouse superveloce...
DistributedFile System
MapReduce
CRS4, 29 Settembre 2014
Alla fine della seconda giornata i partecipanti:
● Avranno imparato a scrivere semplici script in Pig
per la realizzazione dei job
● Sapranno importare i propri dati da HDFS su Hive
● Sapranno effettuare query sql-like con Hive
● Avranno preso coscienza dell'esistenza del concetto
di "in memory computing" e di MR2
● Sapranno eseguire semplici query con l'utilizzo di
shark
CRS4, 29 Settembre 2014
Terza Giornata
Tema: Scalable NoSQL Databases
● Come passare da dati RAW a dati
semi-strutturati?
● Verranno illustrate diverse
tecnologie NoSQL― Hbase
― Cassandra
― MongoDB
●
DistributedFile System
MapReduce
ETL
DataWarehouse
DistributedDB
CRS4, 29 Settembre 2014
Alla fine della terza giornata i partecipanti:
● Conosceranno le principali differenze tra HBase,
Cassandra e MongoDB per il trattamento dei propri
dati
● Sapranno importare i propri dati da HDFS a HBase
● Sapranno eseguire semplici query su HBase
CRS4, 29 Settembre 2014
Quarta Giornata
Tema: Data Collection from Big Data Sources
● Come costruire un meccanismo
che alimenti di continuo il sistema
di processing ?
● Verranno illustrate delle tecnologie in grado di raccogliere
dati provenienti da sorgenti diverse ed inserirli nel
sistema di Big Data Management
DistributedFile System
MapReduce
ETL
DataWarehouse
DistributedDB
CRS4, 29 Settembre 2014
Alla fine della quarta giornata i partecipanti:
● Avranno appreso le modalità in cui è possibile
utilizzare Flume per l'aggregazione dei log e il loro
import sull'HDFS
● Avranno preso conoscenza dell'esistenza di ulteriori
aggregatori di dati disponibili (es. Sqoop, Tika) e
degli aspetti caratterizzanti di ognuno di essi
● Sapranno scrivere un semplice file di configurazione
di Flume
CRS4, 29 Settembre 2014
Pre-requisiti
● Conoscenza superficiale di Linux
● Capacità di utilizzo di una macchina virtuale
VmWare
● Conoscenza di un linguaggio di programmazione
(In particolare Java e/o Python)
e per le giornate successive alla prima:
● Ripasso della lezione della prima giornata
CRS4, 29 Settembre 2014
Qualche Informazione Finale ● Al momento non è ancora stata scelta la sede per lo
svolgimento delle giornate di formazione
● All'indirizzo http://dassia.crs4.it è presente il sito pubblico del progetto. All'interno dalla sezione “Private Area” si accede al sito privato riservato alle sole aziende partecipanti al cluster: https://redz.crs4.it/projects/dassia
● All'interno del sito privato saranno inserite le lezioni, scaricabili dopo il loro svolgimento, in modo da poter ripassare il materiale visto
● Nel sito privato vi sarà anche un wiki sul caso test paradigmatico e la possibilità di chiedere aiuto sugli argomenti discussi nelle lezioni o nel wiki
CRS4, 29 Settembre 2014
Grazie dell'attenzione
CRS4, 29 Settembre 2014
Presentazione delle Aziende E Discussione