Post on 08-Feb-2017
transcript
RETI COMPLESSE PER L’ANALISI DI DATI ECONOMICI E BIOMEDICI
Roberto Bellotti
Dipartimento Interateneo di Fisica “M. Merlin”Università degli Studi di Bari Aldo Moro & Politecnico di Bari
Istituto Nazionale di Fisica Nucleare
14 Novembre 2016
Indice
Cosa sono i Big Data?Numeri ed Esempi Le 3 VDefinizioni
Popolazione vs DispositiviChi produce e raccoglie i Big Data?Cosa sono le Reti ComplesseCasi di StudioApplicazioni ai Dati EconomiciNeuroscienze ComputazionaliGlobal Pulse e Sviluppo Sostenibile
Big Data: serve il ferro!Conclusioni
2
1 bit = 0/1 Una lettera = 1 byte.
Un libro = una foto di buona qualità = circa 1 Megabyte.
1 Gibabyte = 1.000 libri
1 Terabyte = 1.000.000 di libri
Facebook:500 Terabyte di dati al giorno, fanno parte di questi Terabyte circa 3 miliardi di “like” e 300 milioni di foto.Stima dei dati posseduti da FB: 100.000 Terabyte.
Google e Amazon oltre un milione di Terabyte. 3
Numeri ed Esempi
Walmart registra più di 1 milione di“operazioni” all’ora!
4
Generatori di Big Data
Un Boeing 737 genera, in un viaggio attraverso gli Stati Uniti circa 240 Terabytes di dati.
Il 90% dei dati registrati oggigiorno sono stati “generati” negliultimi due anni.
Cosa sono i Big Data?
Le tre V:
Volume Varietà Velocità
Glossario Gartner:“Big data is high-Volume, high-Velocity and/or high-Variety information assetsthat demand cost-effective, innovative forms of information processing thatenable enhanced insight, decision making, and process automation”.
Big Data: Introdotto nel 2013 nell’Oxford English Dictionary Introdotto nel 2014 Merriam-Webster’s Collegiate
5
Definizioni
Big Data is the result of collecting information at its most granular level — it’swhat you get when you instrument a system and keep all of the data thatyour instrumentation is able to gather.
Big data, which started as a technological innovation in distributedcomputing, is now a cultural movement by which we continue to discoverhow humanity interacts with the world — and each other — at large-scale.
Big data is when your business wants to use data to solve a problem, answera question, produce a product, etc
Historically, most decisions — political, military, business, and personal —have been made by brains [that] have unpredictable logic and operate on subjective experiential evidence. “Big data” represents a cultural shift in which more and more decisions are made by algorithms with transparentlogic, operating on documented immutable evidence. I think “big” refersmore to the pervasive nature of this change than to any particular amount of data.
[datascience.berkeley.edu/what-is-big-data/] 6
Popolazione vs Dispositivi
7
Il McKinsey Global Institute estimates stima una crescitadel volume dei datiprodotti pari al 40% per anno e con un fattoremoltiplicativo di 44 nel periodo 2009-2020.
Quanti dispositivi “connessi” possiede ognuno di voi?
Terremoto e Colera ad Haiti nel 2010
Dopo il terremoto del gennaio 2010, ricercatori della Columbia University hanno ricostruito il flusso di due milioni di rifugiati attraverso il “movimento” delle SIM dei telefoni cellulari. La tecnica si è rivelato precisa ed utile per mitigare i rischi sanitari (ottobre 2010, colera).
9[L. Bengtsson et al.(2011) Improved Response to Disasters and Outbreaks by Tracking Population Movements with Mobile Phone Network Data: A Post-Earthquake Geospatial Study in Haiti. PLoS Med 8(8)
I ricercatori hanno analizzato i dati di circa 2 milioni di SIM ad Haiti, da 42 giorni primadel terremoto sino a 158 giorni dopo.
Durante l’epidemia di Colera sono state tracciate 140.000 SIM durante i primi 8 giorni subito dopo lo scoppio dell’epidemia in modo da tracciare i flussi e i movimenti della popolazione.
La precisione è funzione della diffusione delle antenne di ricezione ( 1–100 km2)
Reti Complesse
Molti sistemi fisici, biologici e sociali sono strutturati come Reti Complesse e le loroproprietà sono in moliti casi abbastanza ben comprese.
Le Reti Complesse sono un insieme di nodi, collegati da links
Ad esempio, lo Stato A è collegato allo Stato B se A importa prodotti da B
A
B
Esempi
12
• Reti dei trasporti
• Sistema climatico
• Reti di distribuzione
dell’energia
• Cervello
• Sistema economico
• Reti sociali
• …
Reti Complesse
13
Cosa possiamo imparare dalla analisi delle Reti Complesse?
Le dieci stazioni più “attraversate” della metropolitana londinese, seguendo i “minimi percorsi”.
Utilizzate per conoscere le persone piùinfluenti nelle reti sociali.
Studio del profilo degli elettori e previsionidei risultati delle elezioni politiche
Studio del profilo dei consumatori e del modo in cui le informazioni sui nuoviprodotti ed eventi si diffondono.
14
Italian Program for the Convergence objective regions (less developed
regions in Southern Italy)
(Program: National Operative Program (PON) for Project in research &
development)
Goal: Evaluate the impact of public funding at regional level
Total cost of the PON Projects 2500 Million of Euros
About 300 Different R&D Projects 769 distinct partners
• Available information: Calls and funding measures, projects, proponents and
participants, funding, geographical information, etc.
• Data format: open data (xls, XLM, CSV)
• Source: : http://www.dati.puglia.it, http://opencoesione.gov.it
The Italian Public Funding Program (2007-2013)
8%#
12%#
12%#
16%#12%#
7%#
21%#
12%#
Smart#Ci/ es#
Cultural#Heritage#&#Ac/ vi/ es#
Transporta/ on#&#Logis/ c#
Environment##
Energy#
Nutri/ on#
Healthcare#
N.C.#
28%#
7%#
2%#13%#12%#
19%#
13%#
6%#Large#Enterprise#
noFPublic#Research#Ins/ tute#
N.C.#
Small#Enterprise#
Public#Research#Ins/ tute#
University#
Micro#Enterprise#
Medium#Enterprise#
(a)# (b)#
16
2007-2013 Italian Public Funding Program:from dataset to data models.
769 Nodes Enterprises, Universities, research institutions.4868 Links Participation in the same project.
Projects 10104 entries with 52 attributes describing project information about program references, activities, textual description of project scope and objectives, detail about partners and so on.Locations 11390 entries with 8 attributes describing details about geographical localization of project partners.Budgets 5670 entries with 13 attributes describing details about amount and state of project funding.
17
We found 15 main Communities
• provides a deep understanding of how the fund allocation criteria are able to influence the economic development of a Region;
• discovering the existence of groups within a certain network of relationships;
• highlighting such groups can be very important for the analysis of a productive system;
• The PON R&D network shows strongly heterogeneous communities, with hugely populated groups and very small ones.
• when communities grow in size, they tend to include important nodes. For example, the largest community includes the National Research Council (CNR, next slide)
The community structure of the (giant component of the) PON R&D network. 15 communities are highlighted, found with the Newman-Girvan algorithm.
Result #1: community detection
18
Result #2: it is a network with Hubs
Scale free network
• Inhomogeneous degree distribution, with many nodes having more connections than the average (hubs)
• Resistance to “random failures”, indeed the removal of a random node would not systematically affect the main hubs
• Policymakers are interested in generating a solid network of relationships between productive actors on the territory
Result #3: who are the hubs?
19
Centrality of nodes identifies the most important nodes within a network
• Dominant role of public research• Universities and research centers
play the role of the “glue” i.e. they are responsible of the connectedness of the network
• Ex-post indicator. The fifteen largest values of each vertex centrality for the (giant component of the) PON R&D network. The highest positions are occupied by public research institutions.
Strong indication that the network of fundedproject gravitates around large poles involvingresearch centers
20
• Low tendency to form “groups of interest" or “lobbies” among important actors.
• Hubs are strongly connected to smaller and less connected enterprises/institutions.
• It is an interesting result, since most social networks show assortative behavior.
• Anti-assortative networks are more sensitive to the removal of high-degree nodes,
which is an indication for the policymaker of the importance that public research
has in the productive system.
Result #4: the network is anti-assortative
Public Research Institute
Large Enterprise
Small-Medium Enterprise
21
Analisi di immagini cerebrali per la caratterizzazione precoce di malattie neurodegenerative
Questi studi hanno messo in evidenza alterazioni delle proprietà topologiche locali e globali della rete cerebralenei pazienti affetti da Alzheimer.
In che misura le Reti Complesse riescono rivelare e descrivere alterazioni
strutturali in immagini MRI?
Le alterazioni trovate possono essere indicatori di una malattia
neurodegenerativa come l’Alzheimer?
Possono coinvolgere regioni anatomiche tipicamente connesse alla malattia
di Alzheimer?
22
Nel 2015 UN ha definito e congelato i 17
Sustainable Development Goals (SDG) da
traguardare entro il 2030.
Il monitoraggio e l’analisi dei dati prodotti dagli
Stati membri per l’implementazione degli SDG
così come lo sviluppo di nuove tecnologie
connesse a tali obiettivi costituisce
un’eccezionale terreno di “sperimentazione”
dei Big Data e delle Reti Complesse.
unglobalpulse.org
[www.unglobalpulse.org/blog/big-data-development-action-global-pulse-project-series]
Global Pulse è un Laboratorio delle Nazioni Unite dedicato ai Big Data finalizzato
a generare una comprensione ed un miglioramento del benessere umano.
La visione sottesa è che i Big Data devono essere sfruttati come Bene Pubblico
24
Costo Complessivo del
Progetto: 13.7 milioni di euro
Durata del Progetto: ottobre
2011 – dicembre 2015
ReCaS: 4 Data Center nelle sedi di:Bari, Catania, Cosenza e Napoli
9 luglio 2015
Il Data Center ReCaS @ Bari
Il vento da ILVA verso il quartiere Tamburi (ARPA Puglia)
CONVENZIONE (2014 - 2017)
Area Portuale
ENI
CEMENTIR
Obiettivo primario: Identificazione con 72
ore di anticipo dei wind days (giorni con
condizione meteo favorevoli ad accumulo di
inquinanti - area di Taranto) ai sensi del
D.G.R. 1774 del Luglio 2012.
Con 64 processori la simulazione delle
condizioni fisiche necessarie all’identificazione
del wind day con 72 ore di anticipo richiede 4
ore di elaborazione. Si memorizzano circa 9
Terabyte all’anno.
Sfruttare la potenza di calcolo e di storage per
l’implementazione di complessi modelli di
fisica dell’atmosfera in modalità di calcolo
parallelo.
Gli output sono grandi volumi di dati
georeferenziati (serie spazio - temporali)
complessa analisi finalizzata all’individuazione
del miglior setup dei modelli in una determinata
area.
.
26
Conclusioni I Big Data non sono il futuro ma il presente (o forse il passato).
Prodotti & Servizi sono ormai “erogati” in stretta connessione con i “dati” che ne permettono la successiva analisi: nessun contesto applicativo ne è escluso.
Le Reti Complesse emergono come “tecnologia privilegiata” per la studio dei Big Data, per loro natura altamente interconnessi e correlati.
Molte sono le opportunità offerte dai Big Data, anche rispetto ai SDGs. Il Segretario Generale delle Nazioni Unite ha costituito nell’agosto 2014 un
Independent Expert Advisory Group per fornire raccomandazioni concrete sulla “data revolution” rispetto allo Sviluppo Sostenibile.
L’ecosistema nazionale - Imprese, Università, Enti Pubblici di Ricerca, Distretti, PA -esprimono le competenze e l’organizzazione necessarie per partecipare con successoalla “data revolution”?
Grazie per l’attenzioneroberto.bellotti@uniba.it
3386564596