Download - Sviluppo di sistemi scalabili con Apache SparkDataframe Datasets 17 Componente di Machine Learning Include implementazioni per algoritmi quali for NaiveBayes, logistic regression,

Transcript

Sviluppo di sistemi scalabili con Apache Spark

Alessandro Natilla - 22/10/20161

Outline

● Big Data● Cosa è Apache Spark● Storia di Spark● Spark vs MapReduce● Componenti di Apache Spark● Foundations: RDD e operazioni● Modello di esecuzione● Esempi● Deploying● Riferimenti

Page 3: Sviluppo di sistemi scalabili con Apache SparkDataframe Datasets 17 Componente di Machine Learning Include implementazioni per algoritmi quali for NaiveBayes, logistic regression,

● Velocity● Volumes● Variety● Value

Fonti● Social Media● GPS data● IoT● Sensors Networks

Big Data

Page 4: Sviluppo di sistemi scalabili con Apache SparkDataframe Datasets 17 Componente di Machine Learning Include implementazioni per algoritmi quali for NaiveBayes, logistic regression,

● Framework per massive parallel computing

● Basato su Direct Acyclic Graph (DAG) computing engine

● in-memory computation○ Hadoop MapReduce svolge operazioni su disco

● Apache Project (spark.apache.org)

Cosa è Apache Spark

Page 5: Sviluppo di sistemi scalabili con Apache SparkDataframe Datasets 17 Componente di Machine Learning Include implementazioni per algoritmi quali for NaiveBayes, logistic regression,

● Progetto nato presso l’Università di Berkeley nel 2009

● Progetto Apache dal 2013

● Progetto top-level dal 2014

● I creatori hanno fondati databricks.com

● Giunto alla versione 2.0.1 (last stable)

Storia

Page 6: Sviluppo di sistemi scalabili con Apache SparkDataframe Datasets 17 Componente di Machine Learning Include implementazioni per algoritmi quali for NaiveBayes, logistic regression,

● Graysort benchmark, http://sortbenchmark.org/

● Hadoop - 72 minutes / 2100 nodes / datacentre

● Spark - 23 minutes / 206 nodes / AWS

Spark vs Hadoop Mapreduce

Page 7: Sviluppo di sistemi scalabili con Apache SparkDataframe Datasets 17 Componente di Machine Learning Include implementazioni per algoritmi quali for NaiveBayes, logistic regression,

Esempio classico: Word Count on Hadoop

Obiettivo

Contare il numero di occorrenze di ciascuna parola in un testo

Logica

Per ogni parola, associarvi il valore intero 1.

Si ottiene una lista di coppie (parola, 1).

Aggregazione delle coppie in base alla parola chiave utilizzando una funzione associativa (somma).

Si ottiene una lista di coppie dove il primo elemento corrisponde alla parola, il secondo elemento coincide con il numero totale di occorrenze nel testo

Page 8: Sviluppo di sistemi scalabili con Apache SparkDataframe Datasets 17 Componente di Machine Learning Include implementazioni per algoritmi quali for NaiveBayes, logistic regression,

from pyspark import SparkContext

logFile = "hdfs:///input"sc = SparkContext("spark://spark-m:7077", "WordCount")textFile = sc.textFile(logFile)

wordCounts = textFile.flatMap(lambda line: line.split()).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a+b)

wordCounts.saveAsTextFile("hdfs:///output")

Esempio classico: Word Count su Spark (Python API)

Page 9: Sviluppo di sistemi scalabili con Apache SparkDataframe Datasets 17 Componente di Machine Learning Include implementazioni per algoritmi quali for NaiveBayes, logistic regression,

Componenti di Spark

● Analytics (batch / streaming)

● Machine Learning

● ETL (Extract - Transform - Load)

● Datawarehousing

Applicazioni concrete

Page 11: Sviluppo di sistemi scalabili con Apache SparkDataframe Datasets 17 Componente di Machine Learning Include implementazioni per algoritmi quali for NaiveBayes, logistic regression,

● RDD = Resilient Distributed Dataset

● Collezione di dati immutabile

● Fault-tolerant

● Parallel

Fondamenti: Resilient Distributed Datasets (RDD)

● Trasformazioni

● Azioni

● Le trasformazioni sono operazioni lazy

● Le trasformazioni vengono compiute dalle azioni

Fondamenti: operazioni

PRONo problemi di concorrenza in contesti di elaborazione distribuitiTutti i nodi lavorano su partizioni differenti dei dati

Page 13: Sviluppo di sistemi scalabili con Apache SparkDataframe Datasets 17 Componente di Machine Learning Include implementazioni per algoritmi quali for NaiveBayes, logistic regression,

● map(): trasformazione

● filter(): filtraggio

● flatMap(): trasformazione dati

● sample(): campionamento

● …

RDDs – Trasformazioni vs Azioni

● reduce(): applicazione operazione associativa

● count(): conteggio

● saveAsTextFile()

● …

Page 14: Sviluppo di sistemi scalabili con Apache SparkDataframe Datasets 17 Componente di Machine Learning Include implementazioni per algoritmi quali for NaiveBayes, logistic regression,

Modello di esecuzione di Spark

● I jobs sono cittadini di prima classe

● L’invocazione di una azione causa l’esecuzione di un job per evadere una richiesta

● Spark esamina il grafo degli RDD, producendo un piano di esecuzione che tenga conto delle risorse disponibili

Job

Page 15: Sviluppo di sistemi scalabili con Apache SparkDataframe Datasets 17 Componente di Machine Learning Include implementazioni per algoritmi quali for NaiveBayes, logistic regression,

● Micro-batches (DStreams of RDDs)

● Disponibile per tutte le componenti (MLLib, GraphX, Dataframes, Datasets)

● Fault-tolerant

● Connettori per TCP Sockets, Kafka, Flume, Kinesis, ZeroMQ, ...

Streaming

Page 16: Sviluppo di sistemi scalabili con Apache SparkDataframe Datasets 17 Componente di Machine Learning Include implementazioni per algoritmi quali for NaiveBayes, logistic regression,

● Libreria di astrazione dati

● Idea presa in prestito da Python/R

● Supporto per JSON, Cassandra, HBase, Hive, SQL databases, etc.

● Sintassi più semplice rispetto agli RDD

● Datasets vs Dataframes○ type-safe, interfaccia object-oriented programming○ utilizzano l’ottomizzare nativo○ elaborazione dei dati in-memory

Spark SQL

Page 17: Sviluppo di sistemi scalabili con Apache SparkDataframe Datasets 17 Componente di Machine Learning Include implementazioni per algoritmi quali for NaiveBayes, logistic regression,

val sqlContext = new org.apache.spark.sql.SQLContext(new SparkContext())val df = sqlContext.read.json("people.json")

df.show()df.filter(df("age") >= 35).show()

df.groupBy("age").count().show()

Dataframe vs Dataset: contare numero di persone con età > 35

case class Person(name: String, age: Long)

val people = sqlContext.read.json("/people.json").as[Person]

people.filter(_.age >= 35).show()

people.groupBy(_.age).count().show

Dataframe

Datasets

● Componente di Machine Learning

● Include implementazioni per algoritmi quali for NaiveBayes, logistic regression, k-means clustering, ALS, word2vec, random forests, etc.

● ML introduce il concetto di pipelines

● Operazioni su matrici (dense / sparse), fattorizzazioni matriciali, etc.

● Basic statistics

MLLib / ML

http://spark.apache.org/docs/latest/mllib-guide.html 18

http://spark.apache.org/docs/latest/mllib-guide.html

Page 19: Sviluppo di sistemi scalabili con Apache SparkDataframe Datasets 17 Componente di Machine Learning Include implementazioni per algoritmi quali for NaiveBayes, logistic regression,

● Contiene algoritmi su grafi

● Operazioni su vertici e archi

● Include l’algoritmo PageRank

● Combinabile with Streaming/SparkSQL/MLLib/ML

GraphX

Page 20: Sviluppo di sistemi scalabili con Apache SparkDataframe Datasets 17 Componente di Machine Learning Include implementazioni per algoritmi quali for NaiveBayes, logistic regression,

● Standalone

● YARN (Hadoop ecosystem)

● Apache Mesos

Deploying Spark

Page 21: Sviluppo di sistemi scalabili con Apache SparkDataframe Datasets 17 Componente di Machine Learning Include implementazioni per algoritmi quali for NaiveBayes, logistic regression,

● Traditional (write code, submit to cluster)

● REPL (write code interactively, backed by cluster)

● Interactive Notebooks (iPython/Zeppelin)

Using Spark

Page 22: Sviluppo di sistemi scalabili con Apache SparkDataframe Datasets 17 Componente di Machine Learning Include implementazioni per algoritmi quali for NaiveBayes, logistic regression,

Interactive Notebooks

Page 23: Sviluppo di sistemi scalabili con Apache SparkDataframe Datasets 17 Componente di Machine Learning Include implementazioni per algoritmi quali for NaiveBayes, logistic regression,

● spark.apache.org

● databricks.com

● zeppelin.incubator.apache.org

● mammothdata.com/white-papers/spark-a-modern-tool-for-big-data-applications

References

Documents

Piattaforme abilitanti per griglie computazionali ad alte prestazioni orientate a organizzazioni virtuali scalabili Rimodulazione WP8 High-performance.

Documents

Ricci Regression It

Documents

信息检索与数据挖掘 - USTCstaff.ustc.edu.cn/~network/ir/IR-paper-list.pdf · • 2015 QuickScorer: A Fast Algorithm to Rank Documents with Additive Ensembles of Regression

Documents

Un approccio Quantile Regression per la tariffazione danni, basato … · 2018-12-27 · LA FATTORIZZAZIONE DELLA QUOTA DANNI ... 6.1. CONFRONTO TRA IL MODELLO GAMMA E LA QUANTILE

Documents

Viaggio attraverso il cloud come costruire architetture web scalabili e robuste con aws

Technology

L’impatto della qualità delle cure sulla prognosi dei tumori ...Qualità del referto dopo l’intervento chirurgico (Royal college of pathology Standards and datasets for reporting

Documents

Definire, configurare ed implementare soluzioni scalabili su sistemi di Cloud Computing; concetti ed esempi pratici - by Hosting Solutions - festival ICT 2015

Technology