Post on 14-Jul-2015
transcript
10
Hadoop Summit - Impala
● Massive parallel processing SQL query engine
● Utilizza i suoi demoni nel cluster● Non usa map reduce● Non materiallizza processi intermedi● Usa il più possibile istruzioni macchina● Usa la memoria per salvare i dati intermedi● Non ha l’update
12
Hadoop Summit – Perchè Tez?
● MR● Uso intensivo di file
temporanei e scritture in HDFS
● API espressive● Non è necessario
persistere passi intermedi
13
Hadoop Summit – Tez API
● Esecuzione● Logica + risorse ● Trasferimento Dati
● DAG● Nodo● Arco
Deve essere aciclico per meccanismo di fault tollerance
15
Hadoop Summit – Tez API
● Archi– Data-movement:
● One to One● Broadcast● Scatter Gather
– Scheduling● Sequenziale● Concorrente
– Data source property● Peristed● Peristed reliable● Ephimeral
16
Hadoop Summit – Esempi
● MR– Data-movementment:
● Scatter Gather
– Scheduling● Sequenziale
– Data source property● Peristed
● Streaming– Scheduling
● Concurrent
– Data source property● Ephimeral