Kickoff Progetto...

Post on 05-Oct-2020

1 views 0 download

transcript

www.crs4.it

Kickoff Progetto DaSSIA29 Settembre 2014

CRS4, 29 Settembre 2014

Ordine del giorno

• Breve Presentazione del CRS4

• CRS4 & Big Data

• Il Progetto DaSSIA

– Sviluppo di un caso test paradigmatico– L'Attività di Formazione

• Discussione

2

CRS4, 29 Settembre 2014

Ordine del giorno

• Breve Presentazione del CRS4

• CRS4 & Big Data

• Il Progetto DaSSIA

– Sviluppo di un caso test paradigmatico– L'Attività di Formazione

• Discussione

3

CRS4, 29 Settembre 2014

CRS4: Sintesi• Organismo di ricerca operativo dal 1991• Compiti istituzionali

– Ricerca e sviluppo• ICT e scienze computazionali

• Tecnologie abilitanti e focalizzazione su tematiche prioritarie

– Infrastruttura• HPC: uno dei maggiori centri in Italia, peculiarità importanti a

livello Europeo (sistemi ibridi, visualizzazione, …)

• NextGen Seq: maggior centro italiano, tra i primi internazionali

– Supporto al territorio• Cooperazione e integrazione (CNR, UNI, SRT, PCR, …)

• Alta formazione, impatto sociale e trasferimento tecnologico

• Visione internazionale, ricadute locali

4

CRS4, 29 Settembre 2014

CRS4: Focalizzazione su ICT e Scienze Computazionali• Ruolo rilevante del CRS4

sin dall’inizio• Tematiche di lavoro

estremamente attuali– ICT Pervasiva– Paradigma anytime, anywhere, for

anybody, on any device

– Computing– universal enabler scientifico e

industriale

– Big Data– Data-driven science & technology

5

Industrial Leadership

Excellent Science

Societal Challenges

ICT

Industrial Leadership

Industrial Leadership

Excellent ScienceExcellent Science

Societal Challenges

Societal Challenges

ICTICT

CRS4, 29 Settembre 2014

CRS4: Ricerca e sviluppo • Esempi recenti (2013):

– ICT per la biomedicina: metodi scalabili per l’analisi massiva di dati sequenziamento

• completamento dell’acquisizione di uno dei database più estesi (oltre 2’500 campioni) e maggiormente caratterizzati geneticamente e clinicamente al mondo (con CNR-IRGB);

• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare metodi innovativi di terapia genica (con TIGET) e a comprendere meglio i meccanismi genetici di regolazione della risposta immunitaria delle cellule (con CNR-IRGB).

– ICT per il cultural heritage: Nuovi metodi scalabili per l’acquisizione di forma e colore• Applicazione ai beni culturali [Digital Heritage Award – miglior lavoro internazionale 2013]

– ICT per l'industria: Primo applicativo di ecografia sismica data-driven • Sensibile accorciamento del ciclo di elaborazione progettuale [CRS4-ENI]

– ICT per l'industria: Primo sistema per la piena tracciabilità di processo clinico• Tracciamento end-to-end di processo clinico (flebotomia) [CRS4-INPECO]

• … e molto altro…

6

CRS4, 29 Settembre 2014

CRS4: Infrastrutture

• Risorse computazionali– Tra le prime in Italia, vasta gamma di configurazioni

ibride (GPU, FPGA, …), connessioni con multiple 10GbE verso Rete Regionale della Ricerca e GARR

– 70% utilizzato da comunità scientifica regionale

• Strumentazione sperimentale avanzata– Il più grande centro di Next Generation Sequencing in

Italia– capacità di 5’400 GigaBasi/mese

– Tra i centri più avanzati per tecnologie e beni culturali– 2013: I metodi applicati al complesso di Mont’e Prama sono

all’avanguardia a livello internazionale

CRS4, 29 Settembre 2014

Ordine del giorno

• Breve Presentazione del CRS4

• CRS4 & Big Data

• Il Progetto DaSSIA

– Sviluppo di un caso test paradigmatico– L'Attività di Formazione

• Discussione

8

CRS4, 29 Settembre 2014

Big Data @ CRS4• Risultati di ricerca e sviluppo

– General purpose tools and libraries [pydoop, 2010]

– Tool specifici di dominio [biodoop, 2008, seal 2012]

– Sistemi integrati [biobank 2014]

• Infrastrutture specializzate– Il più grande cluster map-reduce in Italia (fino a 400 nodi)

• Allocazione dinamica delle risorse tra hadoop e sistema standard di gestione delle code

• File system di 4PBytes ad alte prestazioni condiviso

– File system parallelo (HDFS server) dedicato• 400TB su 40 commodity nodes

– Clusters sperimentali/valutazione specializzati

• Spark, Impala, Hive, Hbase,....– Specialized experimental/evaluation clusters

● Nel loop tecnologico– Contributi Open source (pydoop, seal, ...)

– Connessioni Industriali (Cloudera, Isilon, intel, ...)

CRS4, 29 Settembre 2014

Ordine del giorno

• Breve Presentazione del CRS4

• Big Data @ CRS4

• Il Progetto DaSSIA

– Sviluppo di un caso test paradigmatico– L'Attività di Formazione

• Discussione

10

www.crs4.it

Big Data: un problema o un'opportunità ?

www.crs4.it

www.crs4.it

DaSSIAData Scalable Solutions for Industrial Applications

● Il Progetto ha l'obiettivo di trasferire know how sul trattamento dei Big Data dal CRS4 alle aziende partecipanti al cluster.

● Si articola in due attività principali:― Sviluppo di un caso test di interesse comune. Le

problematiche incontrate nella sua realizzazione vengono discusse all'interno di un wiki accessibile per il cluster

― Attività di formazione su alcune tra le tecnologie più utilizzate nel trattamento dei Big Data

CRS4, 29 Settembre 2014

Ordine del giorno

• Breve Presentazione del CRS4

• Big Data @ CRS4

• Il Progetto DaSSIA

– Sviluppo di un caso test paradigmatico– L'Attività di Formazione

• Discussione

14

www.crs4.it

Sviluppo di un Caso Test Paradigmatico

Principali passi:● Raccolta dei dati e prima analisi in realtime degli stessi● Scrittura su filesystem distribuito hdfs● Analisi batch dei dati

A cui si possono aggiungere altri task:● Visualizzazione di statistiche sui dati acquisiti● Meccanismo di controllo e correzione degli errori nel trasporto dei dati● etc

Caso Test Paradigmatico: Dati sulle prestazioni (memoria, cpu, processi, temperature, ecc) provenienti da un cluster di quasi 400 computer

CRS4, 29 Settembre 2014

Ordine del giorno

• Breve Presentazione del CRS4

• Big Data @ CRS4

• Il Progetto DaSSIA

– Sviluppo di un caso test paradigmatico– L'Attività di Formazione

• Discussione

16

CRS4, 29 Settembre 2014

● Illustrare il fenomeno/problema Big Data

● Tracciare un quadro generale dell'ecosistema

Hadoop (lo standard/ecosistema industriale)

● Fornire un modello architetturale per la

gestione dei Big Data

● Accompagnare le aziende nell'apprendimento

di alcune tra le più usate tecnologie per i Big

Data

Obiettivi dell'attività formativa

CRS4, 29 Settembre 2014

N Data Titolo Ore

1 Metà Ottobre Big Data e Hadoop 6

2 Fine Novembre Scripting e DataWarehouse sui Big Data 6

3 Fine Gennaio Scalable NoSQL Databases 6

4 Metà Marzo Data Collection from Big Data Sources 6

Calendario preliminare dell'attività formativa

CRS4, 29 Settembre 2014

Modello Architetturale

DistributedFile System

MapReduce

ETL

DataWarehouse

DistributedDB

CRS4, 29 Settembre 2014

Prima Giornata

Tema: BigData e Hadoop

● Cosa si intende con BigData ?

● Hadoop― HDFS

― MapReduce

● Pydoop

DistributedFile System

MapReduce

CRS4, 29 Settembre 2014

Alla fine della prima giornata i partecipanti:

● Sapranno interagire con il file system HDFS

● Avranno appreso il paradigma della programmazione

mapreduce

● Sapranno scrivere semplici job mapreduce in java e

python

● Sapranno utilizzare le viste di controllo fornite dalle

interfacce web dei servizi

CRS4, 29 Settembre 2014

Seconda Giornata

Tema: Scripting e DataWarehouse su Big Data

● PIG, un linguaggio di scripting che ci libera

dalle complessità di MapReduce

● Hive, come fare DataWarehouse su BigData

sfruttando la nostra esperienza con l'SQL

● Shark, DataWarehouse superveloce...

DistributedFile System

MapReduce

CRS4, 29 Settembre 2014

Alla fine della seconda giornata i partecipanti:

● Avranno imparato a scrivere semplici script in Pig

per la realizzazione dei job

● Sapranno importare i propri dati da HDFS su Hive

● Sapranno effettuare query sql-like con Hive

● Avranno preso coscienza dell'esistenza del concetto

di "in memory computing" e di MR2

● Sapranno eseguire semplici query con l'utilizzo di

shark

CRS4, 29 Settembre 2014

Terza Giornata

Tema: Scalable NoSQL Databases

● Come passare da dati RAW a dati

semi-strutturati?

● Verranno illustrate diverse

tecnologie NoSQL― Hbase

― Cassandra

― MongoDB

DistributedFile System

MapReduce

ETL

DataWarehouse

DistributedDB

CRS4, 29 Settembre 2014

Alla fine della terza giornata i partecipanti:

● Conosceranno le principali differenze tra HBase,

Cassandra e MongoDB per il trattamento dei propri

dati

● Sapranno importare i propri dati da HDFS a HBase

● Sapranno eseguire semplici query su HBase

CRS4, 29 Settembre 2014

Quarta Giornata

Tema: Data Collection from Big Data Sources

● Come costruire un meccanismo

che alimenti di continuo il sistema

di processing ?

● Verranno illustrate delle tecnologie in grado di raccogliere

dati provenienti da sorgenti diverse ed inserirli nel

sistema di Big Data Management

DistributedFile System

MapReduce

ETL

DataWarehouse

DistributedDB

CRS4, 29 Settembre 2014

Alla fine della quarta giornata i partecipanti:

● Avranno appreso le modalità in cui è possibile

utilizzare Flume per l'aggregazione dei log e il loro

import sull'HDFS

● Avranno preso conoscenza dell'esistenza di ulteriori

aggregatori di dati disponibili (es. Sqoop, Tika) e

degli aspetti caratterizzanti di ognuno di essi

● Sapranno scrivere un semplice file di configurazione

di Flume

CRS4, 29 Settembre 2014

Pre-requisiti

● Conoscenza superficiale di Linux

● Capacità di utilizzo di una macchina virtuale

VmWare

● Conoscenza di un linguaggio di programmazione

(In particolare Java e/o Python)

e per le giornate successive alla prima:

● Ripasso della lezione della prima giornata

CRS4, 29 Settembre 2014

Qualche Informazione Finale ● Al momento non è ancora stata scelta la sede per lo

svolgimento delle giornate di formazione

● All'indirizzo http://dassia.crs4.it è presente il sito pubblico del progetto. All'interno dalla sezione “Private Area” si accede al sito privato riservato alle sole aziende partecipanti al cluster: https://redz.crs4.it/projects/dassia

● All'interno del sito privato saranno inserite le lezioni, scaricabili dopo il loro svolgimento, in modo da poter ripassare il materiale visto

● Nel sito privato vi sarà anche un wiki sul caso test paradigmatico e la possibilità di chiedere aiuto sugli argomenti discussi nelle lezioni o nel wiki

CRS4, 29 Settembre 2014

Grazie dell'attenzione

CRS4, 29 Settembre 2014

Presentazione delle Aziende E Discussione