+ All Categories

Download - Cassandra + Hadoop: Analisi Batch con Apache Cassandra

Transcript

Page 1: Cassandra + Hadoop: Analisi Batch con Apache Cassandra

Cassandra + Hadoop

Analisi batch con Apache Cassandra

Page 2: Cassandra + Hadoop: Analisi Batch con Apache Cassandra

Apache Cassandra

•Collezione di servers, un singolo database

•Architettura semplice

•Completamente distribuito

•Replica efficacemente fra i datacenters

•Fault tolerant

•E’ un database realtime

Page 3: Cassandra + Hadoop: Analisi Batch con Apache Cassandra

Alcuni Utenti

Page 4: Cassandra + Hadoop: Analisi Batch con Apache Cassandra

Scala Linearmente

Page 5: Cassandra + Hadoop: Analisi Batch con Apache Cassandra

Modellare I Dati

•Siamo abituati ad SQL

•Con Cassandra, si modellano i dati a seconda delle modalita’ di interrogazione

•Un column family per ciascun tipo di interrogazione

Page 6: Cassandra + Hadoop: Analisi Batch con Apache Cassandra

Altre Caratteristiche

•Fault tolerance

•Si possono perdere nodi o datacenters interi

•Ottimizzato per la scrittura dati

•Eventual consistency

•Si possono replicare i dati attraverso molti datacenters

Page 7: Cassandra + Hadoop: Analisi Batch con Apache Cassandra

Analisi Batch• Abbiamo molti dati

• Vogliamo eseguire interrogazioni ed aggregazioni complesse sui dati

• Che fare?

• Hadoop!

• Supporto per Hadoop da 2010

• Il JobTracker da i job verso nodi che hanno la suddivisione i dati

Page 8: Cassandra + Hadoop: Analisi Batch con Apache Cassandra

Workload Isolation

•Nessuna interferenza con le interrogazioni realtime

•Usiamo un datacenter per ogni workload

•Ogni workload ha la sua copia dei dati

Page 9: Cassandra + Hadoop: Analisi Batch con Apache Cassandra

Usi Specifici Con Cassandra

•Creare un nuovo modo di interrogare i dati

•Validare i dati

•Correggere i dati

Page 10: Cassandra + Hadoop: Analisi Batch con Apache Cassandra

Domande?

•Jeremy Hanna

•[email protected]

•@jeromatron (twitter e irc)

mailto:[email protected]

Top Related

Cassandra - Ottobre 2011

PROCESSO DISCONTINUO (BATCH) ABC SOLIDBATCH

From parallel architecture to mapreduce hadoop passing on grid, UNIFI course

Programmazione Batch - Home di homes.di.unimi.ithomes.di.unimi.it/piuri/pages/didattica/SO/mat/3-scripting.pdf · Outline Programmazione Batch e Linguaggio di Script Scripts e shells

L’ecosistema Hadoop Big Data Giovedì 21 aprile - miriade.it · 9.45-10.15 Smart Data. A cosa servono e perché cambiano il paradigma attuale 10.15-10.45: Hadoop, la piattaforma

Sistema di logging applicativo per ambienti distribuiti Hadoop-based - Monica Franceschini

Data & Analytics

Introduzione ad Hadoop - dbgroup.unimo.it · 09/01/2013 4 Che cos'è Apache Hadoop? È un sistema distribuito per il salvataggio e l'interrogazione dei dati, scalabile e capace di

Cassandra | Un, due, trash | Aprile 2015