Post on 24-Jan-2020
transcript
Referenti Devis Bianchini Stefano Calza Raffaele Miniaci Paola Zuccolotto
Big & Open Data Innovation Laboratory
Progetto operativo – settembre 2015
2
1. Linee guida seguite per la definizione dei requisiti di base I referenti del progetto operativo hanno definito i requisiti di base di cui il Laboratorio dovrebbe essere dotato, al fine di essere idoneo agli scopi per cui viene allestito.
L’obiettivo principale è stato quello di creare una infrastruttura con metodi e strumenti per la gestione dei dati in maniera multidisciplinare e multimediale, con tecniche per condivisione e cooperazione, quali tecniche Linked Data (http://lod-‐cloud.net/) e social networking e sono state considerate prioritarie le seguenti finalità generali:
a) sostenere e potenziare il sistema della ricerca e dello sviluppo di soluzioni innovative all’interno dell’Ateneo e il trasferimento tecnologico verso la PA e il mondo produttivo, consentendo gestione efficace di grandi volumi di dati digitali di qualità, informazioni, conoscenza utilizzabili dai gruppi di ricerca attivi negli ambiti delle tecnologie mediche, ingegneristiche, economiche, finanziarie, aziendali, sociali e giuridiche di Health & Wealth;
b) sviluppare una infrastruttura federata, basata su tecnologie Semantic e Social Web, con modelli, metodi e strumenti innovativi utili per l’organizzazione, la classificazione, l’integrazione, la ricerca, l’analisi e la presentazione di enormi, eterogenee e complesse collezioni di dati digitali (big data), anche in formato aperto (open data), prodotti da enti privati e pubblici – al fine di consentire, nel rispetto delle norme etiche e legali che il loro utilizzo comporta, l’estrazione e la generazione di conoscenza, favorire i processi decisionali privati e le politiche pubbliche, secondo il moderno paradigma di “innovazione guidata dai dati”.
Nell’ambito delle finalità generali complessive, sono state valutate le seguenti attività caratterizzanti, la cui definizione è derivata dal confronto con i vari gruppi di ricerca operanti all’interno dell’Ateneo:
• definizione di un’architettura di infrastruttura federata, basata su tecnologie Semantic Web e Social Web, con tecniche e strumenti avanzati per classificare e raggruppare, sulla base della semantica dei contenuti informativi, big&open data provenienti da fonti diverse
• sviluppo di modelli e metodi avanzati di modellazione della conoscenza, processing semantico basato su ontologie, ragionamento in condizioni di incompletezza e di incertezza, inferenza logica, pianificazione, ragionamento automatico e, in generale, elaborazione efficiente orientata al problem-‐solving
• sviluppo di modelli matematici e statistici dei dati, metodi e strumenti di indagine statistica, data mining, knowledge discovery e machine learning, analisi e valutazione, simulazione avanzata e ottimizzazione
• progetto di modelli, metodi e strumenti evoluti per la condivisione e cooperazione in contesti caratterizzati da un background informativo di grandi dimensioni (big&open data)
• integrazione del Lab con piattaforme big data e open data esistenti.
3
2. Progetto operativo Nel definire le dotazioni di base da assicurare al Laboratorio si è tenuto conto che esso potrà disporre di alcune risorse già disponibili, ma il cui utilizzo è comune anche ad altre attività dell’Ateneo. E’ stata quindi valutata la presenza in Ateneo di:
• risorse documentali: il patrimonio del sistema bibliotecario è tale soddisfare le necessità del Laboratorio senza integrazioni rilevanti;
• banche dati: l’Università già fornisce accesso alle maggiori banche dati necessarie per coprire i temi in oggetto, ma sono comunque stati previsti alcuni investimenti di adeguamento in banche dati non attualmente disponibili, in accordo con il Sistema Bibliotecario di Ateneo, di interesse per progetti afferenti al laboratorio;
• risorse informatiche: le attività del laboratorio possono in parte beneficiare della struttura informatica dell'Ateneo, ma anche in questo ambito si ritengono necessari alcuni ulteriori investimenti.
Nel laboratorio restano dunque da pianificare investimenti relativi a:
1. HW e servizi di storage ad alta capacità ed elevati throughput; HW e servizi di super-‐calcolo (e.g., cluster e High Performance PC multiprocessore con acceleratori GPU)
2. Reti ad alta velocità 3. SW e relative licenze specifiche per i temi in oggetto 4. Personale 5. Banche dati specifiche per i temi in oggetto 6. Gestione ordinaria
Di seguito, verrà fornita una stima dei costi per ciascuno degli investimenti ipotizzati e una valutazione finale in relazione al budget assegnato al laboratorio.
2.1 Hardware, servizi di storage e super-‐calcolo, reti ad alta velocità (punti 1 e 2) Di seguito il dettaglio degli investimenti in HW e servizi di storage e super-‐calcolo previsti per il laboratorio. È richiesto uno spazio presso il CSMT dove installare le postazioni (circa mq 30), con prese di rete a muro e accesso alla rete WiFi di ateneo. I server verranno installati in apposite sale server già esistenti nell’Ateneo.
Descrizione Unità Costo stimato (IVA inclusa) HPC 2x Intel Xeon 8-‐Core, 2.4 GHz, 128GB RAM, HDD 18TB, Linux OS 2 € 17.000,00 circa
PC Intel Core i7, 3.6GHz, display 24” LED, DRAM DDR3 a doppio canale 8GB, HDD 1TB SATA3, Scheda Grafica Nvidia GeForce GTx745 2GB, Windows 7/8.1, kit tastiera, mouse wireless
3 € 4.000,00 circa
TOTALE € 21.000,00 circa
Si prevede l’utilizzo di servizi di data storage e di calcolo in outsourcing presso CINECA definita da una convenzione che parta da una base fissa definita come di seguito, ma che contempli la possibilità di cofinanziamento al 50% delle risorse sia di calcolo che di storage da parte di CINECA su specifici progetti di comune interesse (ad esempio
4
bioinformatica/genomica) con possibilità quindi di aumentare considerevolmente le risorse disponibili senza incidere sul budget a carico dell’Ateneo. La convenzione potrà prevedere una struttura modulare tale da permettere una certa flessibilità nell’arco del biennio sull’allocazione delle risorse: spazio vs calcolo. Saranno altresì messe a disposizione della convenzione le nuove macchine TIER-‐0 in via di installazione presso il CINECA (previste per 2016), con ulteriori evoluzioni previste circa ogni 9 mesi.
Descrizione Periodo Costo stimato Storage Big Data CINECA -‐ 300€ a TB/anno per storage su area WORK, 200€ a TB/anno per storage DRES, 80€ a TB/anno per storage su nastro, per archiviazione a medio/lungo termine
2 anni € 90.000,00 circa
Super-‐calcolo CINECA -‐ 15.000€ per 300.000 ore standard CPU/anno 2 anni € 30.000,00 circa
TOTALE € 120.000,00 circa
2.2 Software (punto 3) Di seguito viene elencato il software da installare nel laboratorio. Visti i limiti di budget, per il momento si è deciso di prediligere, nel caso di software con licenze non gratuite, prodotti a maggiore diffusione, capaci di soddisfare le richieste di più gruppi di ricerca all’interno dell’Ateneo. Nel caso invece di software con licenze non gratuite, ma per i quali esiste un’alternativa open source o gratuita, la scelta verte su quest’ultima.
Tipologia Descrizione Periodo Costo stimato (IVA inclusa)
Software di analisi statistica
STATA 14 MP6 – 5 nuove licenze di tipo
Educational Network (6 core)
one time € 6.000,00 circa
Software generico per il calcolo R one time Licenza open source GNU general
Public License Software per la gestione di basi di dati relazionali
PostgreSQL one time Licenza libera (licenza BSD)
MySQL one time Licenza open source GNU general Public License
Software per la gestione di dati non/semi-‐strutturati (NoSQL, NewSQL)
Hadoop 2.0 (common libraries, HDFS, YARN,
MapReduce) one time Licenza open source (Apache
License 2.0)
Document-‐oriented NoSQL DBMS (e.g., MongoDB, CouchDB,
OrientDB)
one time Licenze libere
Graph-‐based NoSQL DBMS (e.g., MapGraph, Neo4j, OrientDB)
one time Licenze libere
Key-‐value store NoSQL DBMS (e.g., REDIS) one time Licenze libere
Altri NoSQL DBMS (e.g., column-‐oriented DBMS, one time Licenze libere
5
MonetDB)
Software GIS
GRASS GIS – Usato soprattutto per
modellistica e analisi one time Licenza open source GNU general
Public License
QUANTUM GIS – Applicazione desktop con interfaccia grafica
molto intuitiva
one time Licenza open source GNU general Public License
SAGA GIS – Usato per editare dati spaziali one time Licenza open source GNU general
Public License Software per simulazioni del traffico
MATSim (the Multi-‐Agent Transport Simulation Toolkit)
one time Licenza libera open source
Software per la simulazione del routing
Diverse soluzioni open source disponibili (e.g., GNU – General Network Simulator, NetKit)
one time Licenze libere
Altro software Gaussian – Licenza site level one time € 6.000,00 circa
TOTALE € 12.000,00 circa
2.3 Personale (punto 4) Si prevede il finanziamento di 3 assegni di ricerca biennali (che possono essere utilizzati anche come cofinanziamento di borse di dottorato), per un totale di circa € 150.000,00. I profili degli assegnisti di ricerca sono dettagliati di seguito.
N.1 assegno di ricerca biennale (area scienze ingegneristiche)
Competenze professionali ritenute preferenziali: competenze informatiche nell’utilizzo di metodi e strumenti per la gestione, organizzazione, analisi, classificazione e integrazione di dati, nello sviluppo di applicazioni con DBMS relazionali e NoSQL/NewSQL, conoscenza di tecnologie Semantic Web e Social Web.
N.1 assegno di ricerca biennale (area medica)
Competenze richieste: Competenze informatiche di gestione di basi dati e di programmazione, conoscenza di metodi e modelli per analisi statistiche multivariate e relativi software anche open source, con applicazioni in ambito medico e biologico, competenza informatica nell'accesso a basi di dati online di natura biomedica, conoscenza di metodi di simulazione e ottimizzazione e relativi software, conoscenze almeno basilari di concetti di biologia e genetica.
N.1 assegno di ricerca biennale (area economia e management)
Competenze richieste: Competenze informatiche di gestione di basi dati e di programmazione, conoscenza di metodi per analisi statistiche, di simulazione e ottimizzazione, e relativi software per applicazioni nell'ambito dell'economia e del management .
6
Nell’ambito del Laboratorio, gli assegnisti saranno impegnati nella realizzazione di strumenti per la gestione e organizzazione di dati, creazione delle basi documentali e statistiche dei progetti, nonché nell'individuazione delle metodologie necessarie, nella creazione della modellistica e nella stesura dei rapporti di ricerca. Agli assegnisti sarà richiesta l’interazione e la collaborazione con ricercatori e docenti in ambiti disciplinari eterogenei, nonché l’interazione e la collaborazione con gli altri Laboratori, data la possibile eterogeneità dei progetti di interesse per il Laboratorio e il carattere profondamente trasversale delle competenze portate dal Laboratorio stesso. A titolo di esempio, si riportano alcuni contesti applicativi:
• valutazione economica delle tecnologie sanitarie, agro-‐alimentari e farmaceutiche; • sviluppo di un modello di valutazione per la gestione dei flussi, la generazione di report
sullo stato del sistema e la valutazione periodica e attesa (nel lungo periodo) degli impatti in termini di sicurezza alimentare e di salute nelle popolazioni target;
• analisi di accessibilità ed equità dei servizi sanitari; • progettazione e valutazione delle riforme del sistema sanitario; • studio delle preferenze, delle scelte e dei comportamenti dei consumatori, dei pazienti,
delle imprese e dei fornitori di servizi socio-‐sanitari; • progettazione e valutazione degli incentivi, dei sistemi di rimborso e dei modelli
organizzativi; • progettazione e valutazione dei sistemi di assicurazione sociale, dei contratti
assicurativi privati e delle modalità alternative di finanziamento di progetti; • studio degli aspetti legali su questioni di discriminazione, di privacy, procurement,
sicurezza alimentare, ambientale e dei dati; • life insurance, healthcare management; • sviluppo di strumenti per pianificazione e gestione delle attività diagnostiche in reparti
ospedalieri; • sviluppo di strumenti informatici avanzati (basati su tecniche di intelligenza artificiale
e ingegneria della conoscenza) a supporto della qualità della prassi clinica.
2.4 Banche dati (punto 5) A integrazione delle banche dati già gestite dal Servizio Bibliotecario di Ateneo (SBA), € 97.000,00 circa saranno da destinarsi all'acquisizione, in accordo con lo SBA, di nuove banche dati, da decidersi a fronte delle tematiche di interesse nell'ambito di progetti afferenti al laboratorio. A titolo di esempio, di seguito si fornisce un possibile elenco di banche dati (non esaustivo) tra cui scegliere.
Descrizione Periodo HGMD and Genome Trax 2 anni
Bloomberg professional 2 anni
Bankscope -‐ Ver. World + Ownership 2 anni
Zephyr 2 anni
Medtrack 2 anni
7
2.5 Gestione ordinaria (punto 6) Fuori budget vanno considerati i costi di manutenzione ordinaria.
3. Valutazione finale degli investimenti proposti Il preventivo di spesa relativo ai punti 1-‐5 si attesta intorno a circa € 400.000 ed è coerente con il budget stanziato per il Laboratorio. Di seguito viene fornito un prospetto riassuntivo degli investimenti da pianificare.
Descrizione Costo stimato (IVA inclusa) Punto1) HW e servizi di super-‐calcolo (cluster e High Performance PC multiprocessore con acceleratori GPU) € 21.000,00 circa
Punto 2) Servizi di storage e super-‐calcolo ad alta capacità ed elevati throughput (per 2 anni) € 120.000,00 circa
Punto 3) Licenze software (per 2 anni) € 12.000,00 circa
Punto 4) Personale (n.3 assegni di ricerca biennali) € 150.000,00 circa
Punto 5) Banche dati (da acquisire nell'ambito di progetti afferenti al laboratorio) € 97.000,00 circa
TOTALE € 400.000,00
BUDGET PREVISTO € 400.000,00