DEV Community

loading...

[Antisèche] Apache Spark : structure d'une application Spark

Saad
Big Data developer. Technical leader. Consultant.
・2 min read

alt text

Dans cette petite antisèche nous allons revenir sur les différents éléments qui constituent une application Apache Spark. Nous allons y définir les principaux éléments qui structurent une application Spark.

Driver

Le Driver est responsable de la création du SparkContext et de l'exécution de la fonction main() de l'application. C'est le Driver qui traduit l'ensemble des actions et transformations de votre application en DAG (Direct Acyclic Graph)

Executor

Un Executor est responsable de l'exécution d'une tâche i.e. une portion de l'application Spark définie par le Driver. Un exécuteur conserve les données en mémoire ou sur disque.

Task

Une tâche correspond à une unité du programme qui sera traitée par l'exécuteur.

Job

Correspond à une exécution parallèle de plusieurs tâches. Un job est créé lorsqu'une action est appelée dans le programme.

Stage

Un job est divisé en un ensemble de tâches interdépendantes appelées "stages". Chaque "stage" est une étape dans laquelle il y a une ou plusieurs transformations appliquées dans des tâches.

Structure de l'application

Une application Spark débute par l'initialisation de SparkContext/SparkSession. Un ou plusieurs jobs sont alors créés. Chaque job est contient de stages. Chaque stage est composé d'une ou plusieurs tasks.

alt text

Discussion (0)