DEV Community

Saad
Saad

Posted on

1

[Antisèche] Apache Spark : structure d'une application Spark

alt text

Dans cette petite antisèche nous allons revenir sur les différents éléments qui constituent une application Apache Spark. Nous allons y définir les principaux éléments qui structurent une application Spark.

Driver

Le Driver est responsable de la création du SparkContext et de l'exécution de la fonction main() de l'application. C'est le Driver qui traduit l'ensemble des actions et transformations de votre application en DAG (Direct Acyclic Graph)

Executor

Un Executor est responsable de l'exécution d'une tâche i.e. une portion de l'application Spark définie par le Driver. Un exécuteur conserve les données en mémoire ou sur disque.

Task

Une tâche correspond à une unité du programme qui sera traitée par l'exécuteur.

Job

Correspond à une exécution parallèle de plusieurs tâches. Un job est créé lorsqu'une action est appelée dans le programme.

Stage

Un job est divisé en un ensemble de tâches interdépendantes appelées "stages". Chaque "stage" est une étape dans laquelle il y a une ou plusieurs transformations appliquées dans des tâches.

Structure de l'application

Une application Spark débute par l'initialisation de SparkContext/SparkSession. Un ou plusieurs jobs sont alors créés. Chaque job est contient de stages. Chaque stage est composé d'une ou plusieurs tasks.

alt text

AWS GenAI LIVE image

How is generative AI increasing efficiency?

Join AWS GenAI LIVE! to find out how gen AI is reshaping productivity, streamlining processes, and driving innovation.

Learn more

Top comments (0)

Billboard image

Create up to 10 Postgres Databases on Neon's free plan.

If you're starting a new project, Neon has got your databases covered. No credit cards. No trials. No getting in your way.

Try Neon for Free →

👋 Kindness is contagious

Please leave a ❤️ or a friendly comment on this post if you found it helpful!

Okay