+ All Categories
Home > Documents > MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” –...

MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” –...

Date post: 27-Dec-2019
Category:
Upload: others
View: 1 times
Download: 0 times
Share this document with a friend
37
INTELLIGENZA ARTIFICALE, BIG-DATA ,E SISTEMI COMPLESSI MASTER IN COMUNICAZIONE DELLE SCIENZE @SAMIRSUWEIS
Transcript
Page 1: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

INTELLIGENZA ARTIFICALE, BIG-DATA ,E SISTEMI COMPLESSI

MASTER IN COMUNICAZIONE DELLE SCIENZE

@SAMIRSUWEIS

Page 2: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

OUTLINECosa è l’Intelligenza Artificiale, e breve storia dell’AI

Machine Learning e Reti Neurali.

The Big Data Revolution

Un esempio di BIG DATA legato alla ricerca svolta a Padova nel LIPh lab

Page 3: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

COSA È L’INTELLIGENZA?Intelligenza Artificiale (AI): macchina che mima funzioni cognitive umane (apprendimento, problem solving, riconoscimento volti,…)

Intelligenza: ragionamento simbolico fondato su assiomi e processi logici (regole deduttive). Scegliere la soluzione ottimale tra un insieme di possibili soluzioni.

Possibile approccio: riprodurre meccanizzando i processi del ragionamento umano. Agente razionale che percepisce il suo l’ambiente e compie delle azioni che massimizzano le chances di successo di determinati goals

Page 4: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

UN PÒ DI STORIA1854 “The law of Thought” George Boole raffina e sistematizza il ragionamento “formale” in proposizioni logiche (algebra Booeliana)

1879 “Predicate calculus” Gottlob Frege sviluppa un sistema di notazioni per il ragionamento meccanico

1940s, Alan Turing sviluppa la teoria della computazione suggerendo che una macchina, elaborando “0” e “1” possa simulare qualsiasi operazione di deduzione matematica.

1956. Inizio della ricerca su AI (John McCarthy, Marvin Minsky, Herbert Simon). La lista dei “desideri” degli scienziati comprendeva: riconoscimento di immagini e parole, apprendimento di tasks traduzione del l inguaggio, programmazione automatica, dimostrazione di teoremi, open domain question-answering.

Page 5: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

UNA STORIA DI SUCCESSI E FALLIMENTI

Dopo un inizio pieno di entusiasmo e di primi successi negli anni arrivarono molteplici fallimenti.

Quasi nessun obiettivo della lista dei grandi problemi in AI fu risolto.

Necessità di un enorme quantità di informazioni al contorno. Neanche l’esponenziale sviluppo nella potenza di calcolo permetteva di risolvere tutti i problemi connessi per lo sviluppo di tecnologia applicative nel mondo reale.

L’inverno dell’AI. Tra gli anni 70-80 ci fu un grosso taglio di finanziamenti per la ricerca in AI (Sir James Lighthill Report)

Garry Kasparov vs. Deep Blue 1997

Page 6: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

La lista dei “desideri” Riconoscimento immagini e parole,

Apprendimento di tasks,Traduzione del linguaggio,

Open domain question-answering.

DOPO TANTI FALLIMENTI, ASSISTIAMO A DEGLI INCREDIBILI SUCCESSI…COSA E’ CAMBIATO?

Page 7: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

LEGGE DI MOORE

Crescita Esponenziale

3 figli per cimice

Sommando 15 generazioni: 43046718Solo la 16esima: 86093442!!

Page 8: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

THE BIG-DATA REVOLUTION

Page 9: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

FONTI TRADIZIONALI DI DATI ESPERIMENTI

Traditional DATA sources

Experiments

Page 10: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

TEXT

The Largest Artificial Entity in History

The Internet

Page 11: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

TEXT Sources of dataSocial Networks (human-sourced information)

Traditional Business systems (process-mediated data):

Internet of Things (machine-generated data)

Task Team on Big Data, June 2013

Page 12: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

CRESCITA ESPONENZIALE DEI DATI

“There were 5 exabytes of information created between the dawn of civilization through 2003, but that much information is now created every 2 days.” – Eric Schmidt, of Google

“L'informazione è il petrolio del 21° secolo, e l'analisi dati è il motore a combustione.” – Peter Sondergaard, Gartner Research

Page 13: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

“Big data is at the foundation of all the megatrends that are happening today, from social to mobile to cloud to gaming.” – Chris Lynch, Vertica Systems

“Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and easy to collect, the real value is in the analytics.

“There were 5 exabytes of information created between the dawn of civilization through 2003, but that much information is now created every 2 days.” – Eric Schmidt, of Google

“Information is the oil of the 21st century, and analytics is the combustion engine.” – Peter Sondergaard, Gartner Research“I keep saying that the sexy job in the next 10 years will be statisticians, and I’m not kidding” – Hal Varian, Google

“You can have data without information, but you cannot have information without data.” Daniel Keys Moran, computer programmer and science fiction author

“Hiding within those mounds of data is knowledge that could change the life of a patient, or change the world.” – Atul Butte, Stanford School of Medicine

“Errors using inadequate data are much less than those using no data at all.” Charles Babbage, inventor and mathematician

“To call in the statistician after the experiment is done may be no more than asking him to perform a post-mortem – he may be able to say what the experiment died of.” – Ronald Fisher, biologist, geneticist and statistician

“Without big data, you are blind and deaf in the middle of a freeway” – Geoffrey Moore, management consultant and theorist.

10 QUOTES ON BIG DATA

Page 14: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

SELF-TRACKING

Page 15: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and
Page 16: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

The Well-posed Learning Problem:

Si dice che un programma per computer apprende dall'esperienza E un qualche compito T e una qualche misura di prestazione P, se la sua prestazione su T, misurata da P, migliora con l'esperienza E

Tom Mitchell (1997)

MACHINE LEARNING OR STATISTICAL AIIl Machine Learning è la scienza che vuole “far imparare” al computer un certo task senza esplicitamente programmarlo prima.

Page 17: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

COSA VUOLE DIRE “IMPARARE”?

ESEMPIO

▸ Supponiamo di avere un programma che osserva quali emails vengono segnate da noi come spam e quali no, e basato su questa informazione impari come meglio filtrare gli spam

▸ Task T: Classificare email come spam o non spam

▸ Esperienza E: Osservare quali email segniamo come spam e quali no

▸ Performance P: Il numero (o frazione) di emails che vengono classificate correttamente come spam e non spam

Page 18: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

TEXT

BIG DATA

+

ENHANCED COMPUTATIONAL POWER

Machine learning

Perché funzionano?

Page 19: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

LE RETI NEURALI Paradigma di elaborazione delle Informazioni che si ispira al modo in cui il cervello funziona.

Agli albori del XX secolo Camillo Golgi e Santiago Ramon y Cajal sco-prono l’unità cellulare fondamen-tale del sistema nervoso umano e animale: il neurone. Queste cellu-le si comportano come veri e propri circuiti elettrici e, grazie ai processi biochimici che avvengono all’interno della membrana cellulare, possono accumulare carica quando sottopo-

ste ad uno stimolo esterno – prove-niente, per esempio, da un altro neurone. I neuroni sono infatti con-nessi tra di loro in una rete molto complessa, i cui punti di contatto – le sinapsi – fungono da "stazioni di scambio" per la comunicazione di impulsi. Le sinapsi possono amplificare o at-tenuare gli impulsi elettrici in ma-niera dinamica (anche nell'arco di qualche secondo), a seguito della presenza di nuovi stimoli esterni (nuove esperienze) o di attività cere-brale intensa. La trasmissione dei se-gnali elettrici mediati dalle sinapsi è il meccanismo alla base dello scam-bio di informazioni tra le diverse aree del cervello. I neuroni e le sinapsi sono strutture biologiche molto complesse, al cui interno avvengono centianaia di pro-cessi biochimici, molti dei quali non sono ancora stati studiati in dettaglio.

Negli anni Quaranta, agli albori delle ricerche sull'intelligenza artifi-ciale, Warren McCulloch e Walter Pitts dell'Università di Chicago pro-posero un modello estremamente semplificato di neurone, noto come

"neurone formale di McCulloch-Pitts", che conservava le caratteristi-che più essenziali per la propagazione dell'informazione presenti nelle cellu-le del sistema nervoso, trascurando invece la maggior parte dei processi biochimici sottostanti.

Σ=x1w1 +...+x4w4

x3

x2

x4

x1

Input

OUT=1

OutputNeurone diMcCulloch-Pitts

Σ>θ

OUT=0Σ<θ

w1

w2

w3

w4

Il neurone artificiale di McCulloch-Pitts.Esempio con quattro connes-sioni in ingresso (gli input xi mediati dai pesi, wi) e una sola in uscita (OUT). OUT assume valore 1 se la somma dei pesi associati alle singole connes-sioni supera il valore di sogliaDisegno di Ramon y Cajal di cellule

del Purkinje (A) e cellule granulari (B)

L'IDEA DI MCCULLOCH E PITTS

NEURONE BIOLOGICO

Assenza/presenza di impulsi elettrici nei neuroni adiacenti

Stato delle sinapsi

Accumulo delle cariche all'interno della membrana cellulare

Generazione degli impulsi

NEURONE FORMALE DI MCCULLOCH-PITTS

Variabile x = 0,1 nei neuroni adiacenti

Valore dei coefficienti (o "pesi") sinaptici w connettono i neuroni tra loro

Somma degli effetti dei neuroni presinaptici

Quando la somma è più grande del valore di soglia il neurone produce un impulso elettrico (OUT = 1)

Una complessa reti di contatti. Il cervello umano è costituito da circa 80 miliardi di neuroni, ciascuno dei quali è in media connesso con altri 7000 neuroni tramite le sinapsi

Agli albori del XX secolo Camillo Golgi e Santiago Ramon y Cajal sco-prono l’unità cellulare fondamen-tale del sistema nervoso umano e animale: il neurone. Queste cellu-le si comportano come veri e propri circuiti elettrici e, grazie ai processi biochimici che avvengono all’interno della membrana cellulare, possono accumulare carica quando sottopo-

ste ad uno stimolo esterno – prove-niente, per esempio, da un altro neurone. I neuroni sono infatti con-nessi tra di loro in una rete molto complessa, i cui punti di contatto – le sinapsi – fungono da "stazioni di scambio" per la comunicazione di impulsi. Le sinapsi possono amplificare o at-tenuare gli impulsi elettrici in ma-niera dinamica (anche nell'arco di qualche secondo), a seguito della presenza di nuovi stimoli esterni (nuove esperienze) o di attività cere-brale intensa. La trasmissione dei se-gnali elettrici mediati dalle sinapsi è il meccanismo alla base dello scam-bio di informazioni tra le diverse aree del cervello. I neuroni e le sinapsi sono strutture biologiche molto complesse, al cui interno avvengono centianaia di pro-cessi biochimici, molti dei quali non sono ancora stati studiati in dettaglio.

Negli anni Quaranta, agli albori delle ricerche sull'intelligenza artifi-ciale, Warren McCulloch e Walter Pitts dell'Università di Chicago pro-posero un modello estremamente semplificato di neurone, noto come

"neurone formale di McCulloch-Pitts", che conservava le caratteristi-che più essenziali per la propagazione dell'informazione presenti nelle cellu-le del sistema nervoso, trascurando invece la maggior parte dei processi biochimici sottostanti.

Σ=x1w1 +...+x4w4

x3

x2

x4

x1

Input

OUT=1

OutputNeurone diMcCulloch-Pitts

Σ>θ

OUT=0Σ<θ

w1

w2

w3

w4

Il neurone artificiale di McCulloch-Pitts.Esempio con quattro connes-sioni in ingresso (gli input xi mediati dai pesi, wi) e una sola in uscita (OUT). OUT assume valore 1 se la somma dei pesi associati alle singole connes-sioni supera il valore di sogliaDisegno di Ramon y Cajal di cellule

del Purkinje (A) e cellule granulari (B)

L'IDEA DI MCCULLOCH E PITTS

NEURONE BIOLOGICO

Assenza/presenza di impulsi elettrici nei neuroni adiacenti

Stato delle sinapsi

Accumulo delle cariche all'interno della membrana cellulare

Generazione degli impulsi

NEURONE FORMALE DI MCCULLOCH-PITTS

Variabile x = 0,1 nei neuroni adiacenti

Valore dei coefficienti (o "pesi") sinaptici w connettono i neuroni tra loro

Somma degli effetti dei neuroni presinaptici

Quando la somma è più grande del valore di soglia il neurone produce un impulso elettrico (OUT = 1)

Una complessa reti di contatti. Il cervello umano è costituito da circa 80 miliardi di neuroni, ciascuno dei quali è in media connesso con altri 7000 neuroni tramite le sinapsi

Page 20: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

TEXT

B

Learning abstract representations with unsupervised deep learning

MNIST (handwritten digits)

Connection strength:

Before learning (random)

After learning (location specific)

Receptive fields of hidden neurons:

Zorzi, Testolin & Stoianov (2013), Frontiers in Psycology

4 layers:● 1 visible layer: layer di input, composta da 784 unità

(28*28 corrispondenti alla matrice dei pixel dell’immagine)● 3 hidden layers: dimensioni 500, 500, 2000

Gli input sono 60000 immagini di numeri scritti a mano, rappresentati attraverso una matrice di pixel 28*28 [Fonte MNIST dataset]La matrice viene poi tradotta in un vettore di 0 e 1, il quale insieme ad altri 124 immagini forma una “slice” o mini-batch.Abbiamo 480 slices, che formano così la matrice 3D di dati di possibili input.

Obiettivo della macchina:Ricostruire il pattern di numeri scritti a mano (da 0 a 9), dati in input.

Page 21: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

UN CAMBIO DI PARADIGMA.Nuova strada: approccio statistico per bypassare approccio logico deduttivo.

Nuovo paradigma in AI: Machine learning + Big Data:

Negli ultimi anni nuova serie di enormi successi: veicoli autonomi (droni, google cars), diagnosi medica, risoluzione di giochi (Poker, Go), motori di ricerca, online assistants (Siri), riconoscimento immagini/volti/musica, spam filtering, consigli commerciali automatizzati (Amazon), transizioni finanziarie.

Questi successi hanno prodotto un cambiamento culturale (Kuhn): il criterio del successo. Predizioni più importanti delle spiegazioni. “Knowing what and not knowing way is often good enough”. Questo paradigma ha poi invaso altri campi (biologia, fisica, etc..)

‣ Raccolta di grandi quantità di dati. ‣ Utilizzo dei dati come esempi del comportamento

desiderato. ‣ Creazione di algoritmi di apprendimento (machine

learning) che riproducono il comportamento desiderato scoprendo relazioni statistiche.

Page 22: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

ESEMPITraduzione automatica statistica: non applica regole grammaticali, ma utilizza un algoritmo basato su analisi statistiche. Per l’analisi sono necessari testi bi-lingua di centinaia di milioni di parole e testi monolingue di miliardi di parole. I modelli statistici di questi dati vengono poi utilizzati per creare la traduzione. Per acquisire questa enorme mole di dati linguistici, Google ha usato documenti delle Nazioni Unite.

Watson è una delle AI più potenti sviluppata da IBM in grado di rispondere a domande espresse in una lingua naturale (open domain question answering). Ha battuto i campioni del gioco “Jeopardy!” sapendo accedere a 200 milioni di pagine di contenuti (Wikipedia). Watson sarà applicato nella gestione delle decisioni nel trattamento del cancro ai polmoni.

Page 23: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

THE BIG-DATA FUTURE?

Page 24: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

FRIEDMAN & NISSENBAUM, 1996

BIAS IN COMPUTER SYSTEMS▸ “Usiamo il termine bias per riferirsi a sistemi informatici che discriminano

sistematicamente e ingiustamente determinati individui o gruppi a favore di altri. Un sistema discrimina ingiustamente se nega un'opportunità o un bene o se assegna un risultato indesiderato ad un individuo o ad un gruppo di individui per motivi che sono irragionevoli o inappropriati.” Identificano tre tipi di BIAS.

▸ 1) Pre-existing bias. Vengono incorporati in un sistema software perché l'organizzazione che ne determina i requisiti è biased. Il software riflette quindi i bias pre-esistenti nell’organizzazione.

▸ 2) Technical bias. Emergono come conseguenza di vincoli o decisioni tecniche. Possono essere a livello grafico/visuale, di algoritmo o di input.

▸ 3) Emergent bias. L'uso di un software cambia nel tempo. Attraverso l'aggiunta di nuovi utenti, nuovi tipi o fonti di dati, o per una miriade di altre possibilità, il bias può emergere in modi che sarebbe stato difficile, se non impossibile, prevedere quando il sistema è stato costruito.

▸ 4) Bias di misurazione: legati a come sono stati raccolti i dati.

Page 25: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

BIG DATA IN HEALTH CARE

GOOGLE FLUE TREND & COLLECTIVE INTELLIGENCE

SUCCESS OR FAILURE?

Page 26: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

“Big data is at the foundation of all the megatrends that are happening today, from social to mobile to cloud to gaming.” – Chris Lynch, Vertica Systems

BIG DATA AND SOCIETY

BIG DATA & PRIVACY: THE ASYMMETRY OF POWER

Page 27: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

BIOLOGY & ECOLOGYTARA EXPEDITIONS

http://oceans.taraexpeditions.org/en/

Page 28: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

BIG DATA IN ECOLOGY & BIOLOGY

TARA OCEANS - EXPEDITION GOALS

▸ The oceans cover 2/3 of our planet and produce half the oxygen we breathe through plankton and micro-organisms still unknown to mankind.

▸ The Tara Oceans expedition (2009-2013)  attempt to provide information on this unexplored universe and to answer the most pressing issues on the protection of our planet.

▸ The expedition bring together an international team of scientists, but also of sailors and journalists, whose task will be to collect data that will be analysed by a consortium of international laboratories and institutes. The goal is to create a database that will combine the already existing knowledge and the discoveries made during the expedition.

▸ More than 12 research areas will involve oceanographers, biologists, geneticists, and physicists from the most prestigious worldwide laboratories. 50 laboratories and institutes will be mobilised in 15 countries. Thus, more than 150 scientists are directly involved in the expedition.

Page 29: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

BIG DATA IN ECOLOGY & BIOLOGY

FIRST GLOBAL EXPEDITION

Page 30: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

BIG DATA IN ECOLOGY & BIOLOGY

ON-BOARD SCIENTIFIC EQUIPMENT DURING TARA OCEANS EXPEDITION▸ Plankton nets (Special net for collecting surface plastic)

▸ CTD rosette (pressure, temperature, conductivity, nitrogen, oxygen, fluorescence, optical properties of water)

▸ FlowCAM to count and characterize plankton

▸ Flow Cytobot (underwater) to count and characterize plankton

▸ UVP (Underwater Video Profiler) to characterize zooplankton, large particles and their vertical distribution

▸ AC-s spectrophotometer for continuous pigment and particle distribution measurement at the ocean’s surface (coordinated with satellite ocean color imaging)

▸ Retrodiffusion device to characterize surface material (linked with ocean color satellite)

▸ Cytofluorimeter able to determine small groups of organisms by size and fluorescence

▸ Spectrofluor imeter ALFA capable of cont inuous measurement of fluorescent organisms at the ocean’s surface

▸ UltraPath spectrophotometer able to characterize optical properties of dissolved material

▸ PAR radiometer, measuring the luminescence of photosynthesis

Page 31: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

BIG DATA IN ECOLOGY & BIOLOGY

THE PLANKTON WORLD - GENOMIC & METAGENOMIC DATA▸ A total of 1,814,497,302 sequence reads, of

which 36,150,898 are distinct. Apply the same criteria as in the above mentioned paper that a barcode should be present in at least 2 samples and in at least 3 copies for us to consider it as a valid barcode, we have a number of 6,294,617 valid barcodes corresponding to 1,775,314,734 reads.

▸ The barcodes have been grouped together in OTUs with the swarm program,performing a single linkage clustering of the barcodes and breaking the swarm making long chains with an algorithm based on barcode abundances. The 36,150,898 barcodes fall in 6,980,350 swarms. Selecting only swarms corresponding to the 6,294,617 valid barcodes, we have of total of 474,303 swarms,

▸ Example. Copepods in a sampling session in Brest in order to improve the reference database. They turned to be the best match for 57,519,004 reads out of 988,295,608 reads that find a hit at at 95% identity), 3.87% of this subset.

Page 32: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

BIG DATA IN ECOLOGY & BIOLOGY MACHINE LEARNING AND MODELLING

Page 33: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

BIG DATA IN ECOLOGY & BIOLOGY

EXAMPLE OF SCIENTIFIC COMMUNICATION…▸WHAT’S IN THE PLANKTON?

The scientists captured viruses, microbes and microscopic eukaryotes – organisms with complex cells, from single-cell algae to fish larvae – from major oceanic regions. They compiled their genetic material into comprehensive resources that are now available to the scientific community for further studies. “This is the largest DNA sequencing effort ever done for ocean science: analyses revealed around 40 million genes, the vast majority of which are new to science, thus hinting towards a much broader biodiversity of plankton than previously known,“ explains Patrick Wincker, from Genoscope, CEA. EMBL’s high performance computing was essential in compiling this comprehensive catalogue, which is estimated to be derived from more than 35 000 different species whose genomic content had been mostly unknown to mankind until now. “In terms of eukaryotes, we sequenced nearly a billion genetic barcodes, and found that there is a greater variety of single-cell eukaryotes in plankton than was thought” says Colomban de Vargas, from CNRS. “They appear to be much more diverse than bacteria or animals, and most belong to little-known groups.”

▸HOW DO PLANKTONIC ORGANISMS INTERACT?

Thanks to novel computer models, the researchers were able to predict how these diverse planktonic organisms interact. Predictions were confirmed via selective microscopy observations. “When we mapped how planktonic organisms – from viruses to small animal larvae – interact with each other, we discovered that most of those interactions are parasitic, recycling nutrients back down the food chain” says Jeroen Raes from VIB, KU Leuven, and Vrije Universiteit Brussel. This map is a first step towards a better understanding of the dynamics and structure of the global marine ecosystem.

Page 34: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

BIG DATA IN ECOLOGY & BIOLOGY

EXAMPLE OF SCIENCE COMMUNICATION & INTERACTION WITH INDUSTRY

Page 35: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

BIG DATA IN ECOLOGY & BIOLOGY

THE ROLE OF PEOPLE-OCEAN SAMPLING DAY

Page 36: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

TARA OCEAN RESULTS IN 6 MINUTS

Page 37: MASTER IN COMUNICAZIONE DELLE SCIENZE INTELLIGENZA ... · “Big data is not about the data” – Gary King, Harvard University, making the point that while data is plentiful and

▸ARE PLANKTONIC ORGANISMS DISTRIBUTED EVENLY IN THE OCEANS?

In addition to biotic interactions, the scientists studied how environmental factors – such as temperature, pH, and nutrients (amongst others) – influence the microscopic organisms floating in the ocean. “We found that, at depths still reached by sunlight, temperature was the main factor that influences the composition of prokaryotes (bacteria and archaea) communities,” says Peer Bork from EMBL. “Different sets of organisms come together depending on the water temperature.” The scientists also showed that the Agulhas “rings” – a natural barrier that draws the line between the Indian Ocean and the South Atlantic – separate plankton communities. “It’s like plankton goes through a cold wash cycle at the tip of South Africa,” says Daniele Iudicone from the Stazione Zoologica Anton Dohrn. “The current forms huge swirls that drastically mix and cool the plankton riding it, thus limiting the number of species that manage to cross.” “In addition, we now also have a global picture of marine virus communities, which allows us to confirm an idea that had been proposed a decade ago, but never proven,” explains Matthew Sullivan from the University of Arizona. “Viruses are produced in local ‘seed banks’ and then ride the ocean currents, so you end up with different cocktails of viruses in different places, even though the overall diversity of viruses in the oceans appears quite limited.” Understanding the distribution and the interactions of the plankton across the oceans will be very useful for predictive models necessary to study climate change.

▸ IS PLANKTON AFFECTED BY CLIMATE CHANGE?

The uniqueness of the Tara Oceans ‘eco-systems biology’ approach is to have sampled the world’s oceans systematically across all domains of life, from viruses to animals, and including a rich variety of environmental data. The data generated sets a baseline, on a global scale, to evaluate the impact of climate changes on oceanic ecosystems in the future. “The finding that temperature shapes which species are present, for instance, is especially relevant in the context of climate change, but to some extent this is just the beginning,” says Chris Bowler, from CNRS. “The resources we’ve generated will allow us and others to delve even deeper, and finally begin to really understand the workings of this invisible world.” “In view of the Climate Conference in Paris in 2015 (COP21), it is important to understand that plankton biodiversity affects our climate through its ability to store carbon dioxide over large time scales. We should be immediately concerned about these crucial mechanisms” - Romain Troublé, secretary general of Tara Expeditions


Recommended