Cassandra + Hadoop
Analisi batch con Apache Cassandra
Apache Cassandra
•Collezione di servers, un singolo database
•Architettura semplice
•Completamente distribuito
•Replica efficacemente fra i datacenters
•Fault tolerant
•E’ un database realtime
Alcuni Utenti
Scala Linearmente
Modellare I Dati
•Siamo abituati ad SQL
•Con Cassandra, si modellano i dati a seconda delle modalita’ di interrogazione
•Un column family per ciascun tipo di interrogazione
Altre Caratteristiche
•Fault tolerance
•Si possono perdere nodi o datacenters interi
•Ottimizzato per la scrittura dati
•Eventual consistency
•Si possono replicare i dati attraverso molti datacenters
Analisi Batch• Abbiamo molti dati
• Vogliamo eseguire interrogazioni ed aggregazioni complesse sui dati
• Che fare?
• Hadoop!
• Supporto per Hadoop da 2010
• Il JobTracker da i job verso nodi che hanno la suddivisione i dati
Workload Isolation
•Nessuna interferenza con le interrogazioni realtime
•Usiamo un datacenter per ogni workload
•Ogni workload ha la sua copia dei dati
Usi Specifici Con Cassandra
•Creare un nuovo modo di interrogare i dati
•Validare i dati
•Correggere i dati