Hug Milano September 2014: Hadoop Summit Europe Impressions

transcript

Hadoop user group Italy

Alberto Ghedin

European Hadoop Summit Aprile 2014

https://www.youtube.com/watch?v=Fz-GnjOZAmQ

Hadoop Summit – Putting wings on the elephant

Hadoop Summit - Impala

● Massive parallel processing SQL query engine

● Utilizza i suoi demoni nel cluster● Non usa map reduce● Non materiallizza processi intermedi● Usa il più possibile istruzioni macchina● Usa la memoria per salvare i dati intermedi● Non ha l’update

Hadoop Summit - Tez

Hadoop Summit – Perchè Tez?

● MR● Uso intensivo di file

temporanei e scritture in HDFS

● API espressive● Non è necessario

persistere passi intermedi

Hadoop Summit – Tez API

● Esecuzione● Logica + risorse ● Trasferimento Dati

● DAG● Nodo● Arco

Deve essere aciclico per meccanismo di fault tollerance

● Nodi

● Archi– Data-movement:

● One to One● Broadcast● Scatter Gather

– Scheduling● Sequenziale● Concorrente

– Data source property● Peristed● Peristed reliable● Ephimeral

Hadoop Summit – Esempi

● MR– Data-movementment:

● Scatter Gather

– Scheduling● Sequenziale

– Data source property● Peristed

● Streaming– Scheduling

● Concurrent

– Data source property● Ephimeral

Hadoop Summit – Hive on Tez

Hadoop Summit – Pig on Tez

Hadoop Summit – Pig on Spark

+ = Spork

Greetings

@AlbertoGhedo

alberto.ghedin@eng.it

Hug Milano September 2014: Hadoop Summit Europe Impressions

Engineering