Configuration des propriétés des tâches pour les tâches Spark dans AWS Glue

Mode de mise au point

Configuration des propriétés des tâches pour les tâches Spark dans AWS Glue - AWS Glue

Définition des propriétés des tâches Spark Restrictions pour les tâches qui accèdent aux tables gérées par Lake Formation

Lorsque vous définissez votre tâche sur la AWS Glue console, vous fournissez des valeurs pour les propriétés permettant de contrôler l'environnement AWS Glue d'exécution.

Définition des propriétés des tâches Spark

La liste suivante contient les propriétés d'une tâche Spark. Pour les propriétés d'une tâche shell Python, consultez Définition des propriétés pour les tâches shell Python. Pour les propriétés d'une tâche ETL en streaming, consultez Définition des propriétés de tâche pour une tâche ETL en streaming.

Les propriétés sont répertoriées dans l'ordre dans lequel elles apparaissent dans l'assistant d'ajout d'une tâche sur AWS Glue la console.

Nom

Fournit une chaîne UTF-8 d'une longueur maximale de 255 caractères

Description

Fournissez une description facultative de 2 048 caractères maximum.

Rôle IAM

Spécifiez le rôle IAM qui permet de définir les autorisations d'accès aux ressources utilisées pour exécuter la tâche et accéder aux magasins de données. Pour plus d'informations sur les autorisations relatives à l'exécution de tâches dans AWS Glue, consultezGestion des identités et des accès pour AWS Glue.

Type

Type de tâche ETL. Ce paramètre est défini automatiquement en fonction du type de sources de données que vous sélectionnez.

Spark exécute un script ETL Apache Spark avec la commande jobglueetl.
Spark Streaming exécute un script ETL de streaming Apache Spark avec la commande jobgluestreaming. Pour de plus amples informations, veuillez consulter Diffusion de jobs ETL dans AWS Glue.
Python shell exécute un script Python avec la commande jobpythonshell. Pour de plus amples informations, veuillez consulter Configuration des propriétés des tâches pour les tâches du shell Python dans AWS Glue.

Version AWS Glue

AWS Glue version détermine les versions d'Apache Spark et de Python disponibles pour la tâche, comme indiqué dans le tableau suivant.

AWS Glue version	Versions Spark et Python prises en charge
5.0	Spark 3.5.4 Python 3.11
4.0	Spark 3.3.0 Python 3.10
3.0	Spark 3.1.1 Python 3.7

Langue

Le code inclus dans le script ETL permet de définir la logique de votre tâche. Le script peut être codé dans Python ou dans Scala. Vous pouvez choisir si le script exécuté par le job est généré par vous AWS Glue ou fourni par vous. Vous fournissez le nom et l'emplacement du script dans Amazon Simple Storage Service (Amazon S3). Vérifiez qu'il n'existe pas de fichier portant le même nom que le répertoire de script dans le chemin d'accès. Pour en savoir plus sur l'écriture de scripts, consultez AWS Glue guide de programmation.

Type d'employé

Les types d'employé suivantes sont disponibles :

Les ressources disponibles pour les AWS Glue travailleurs sont mesurées en DPUs. Un DPU est une mesure relative de la puissance de traitement composée de 4 V de capacité CPUs de calcul et de 16 Go de mémoire.

G.1X – Lorsque vous choisissez ce type, vous devez également fournir une valeur pour Number of workers (Nombre d'employés). Chaque utilisateur est mappé sur 1 DPU (4 VCPUs, 16 Go de mémoire) avec un disque de 94 Go. Nous recommandons ce type de travailleur pour les charges de travail telles que les transformations de données, les jointures et les requêtes, afin de proposer un moyen évolutif et rentable d'exécuter la plupart des tâches.
G.2X – Lorsque vous choisissez ce type, vous devez également fournir une valeur pour Number of workers (Nombre d'employés). Chaque utilisateur est mappé sur 2 DPU (8 VCPUs, 32 Go de mémoire) avec un disque de 138 Go. Nous recommandons ce type de travailleur pour les charges de travail telles que les transformations de données, les jointures et les requêtes, afin de proposer un moyen évolutif et rentable d'exécuter la plupart des tâches.
G.4X – Lorsque vous choisissez ce type, vous devez également fournir une valeur pour Number of workers (Nombre d'employés). Chaque utilisateur mappe sur 4 processeurs (16 VCPUs, 64 Go de mémoire) avec un disque de 256 Go (environ 235 Go libres). Nous recommandons ce type de travailleur pour les tâches dont les charges de travail contiennent les transformations, les agrégations, les jointures et les requêtes les plus exigeantes. Ce type de travailleur n'est disponible que pour les tâches Spark ETL AWS Glue version 3.0 ou ultérieure dans les AWS régions suivantes : USA Est (Ohio), USA Est (Virginie du Nord), USA Ouest (Oregon), Asie-Pacifique (Singapour), Asie-Pacifique (Sydney), Asie-Pacifique (Tokyo), Canada (Centre), Europe (Francfort), Europe (Irlande) et Europe (Stockholm).
G.8X – Lorsque vous choisissez ce type, vous devez également fournir une valeur pour Number of workers (Nombre d'employés). Chaque utilisateur mappe sur 8 DPU (32 VCPUs, 128 Go de mémoire) avec un disque de 512 Go (environ 487 Go libres). Nous recommandons ce type de travailleur pour les tâches dont les charges de travail contiennent les transformations, les agrégations, les jointures et les requêtes les plus exigeantes. Ce type de travailleur n'est disponible que pour les tâches Spark ETL de AWS Glue version 3.0 ou ultérieure, dans les mêmes AWS régions que celles prises en charge pour le type de G.4X travailleur.
G.025X – Lorsque vous choisissez ce type, vous devez également fournir une valeur pour Number of workers (Nombre d'employés). Chaque utilisateur est mappé sur 0,25 DPU (2 VCPUs, 4 Go de mémoire) avec un disque de 84 Go (environ 34 Go libres). Nous recommandons ce type d'employé pour les travaux de streaming à faible volume. Ce type de travailleur n'est disponible que pour les tâches de streaming en AWS Glue version 3.0 ou ultérieure.

Un taux horaire vous est facturé en fonction du nombre de tâches DPUs utilisées pour exécuter vos tâches ETL. Pour plus d'informations, consultez la page de tarification AWS Glue.

Pour les tâches de AWS Glue version 1.0 ou antérieures, lorsque vous configurez une tâche à l'aide de la console et que vous spécifiez un type de travailleur Standard, la capacité maximale est définie et le nombre de travailleurs devient la valeur de Capacité maximale - 1. Si vous utilisez le AWS Command Line Interface (AWS CLI) ou le AWS SDK, vous pouvez spécifier le paramètre Capacité maximale, ou vous pouvez spécifier à la fois le type de travailleur et le nombre de travailleurs.

Pour les tâches de AWS Glue la version 2.0 ou ultérieure, vous ne pouvez pas spécifier de capacité maximale. Au lieu de cela, vous devez spécifier le Worker type (Type d'employé) et le Number of workers (Nombre d'employés).

Nombre de travailleurs demandé

Pour la plupart des types d'employés, vous devez spécifier le nombre de travailleurs qui sont alloués lors de l'exécution de la tâche.

Marque-page de tâche

Spécifiez la manière dont AWS Glue les informations d'état sont traitées lors de l'exécution de la tâche. Ce signet peut se souvenir des données traitées précédemment, mettre à jour les informations sur l'état ou ignorer les informations sur l'état. Pour de plus amples informations, veuillez consulter Suivi des données traitées à l'aide de signets de tâche.

Mise en file d'attente pour l'exécution des tâches

Spécifie si les exécutions de tâches sont mises en file d'attente pour être exécutées ultérieurement lorsqu'elles ne peuvent pas être exécutées immédiatement en raison de quotas de service.

Lorsque cette case est cochée, la mise en file d'attente des tâches est activée pour les exécutions de tâches. S'ils ne sont pas renseignés, les exécutions de tâches ne seront pas prises en compte pour la mise en file d'attente.

Si ce paramètre ne correspond pas à la valeur définie lors de l'exécution du travail, la valeur du champ d'exécution du travail sera utilisée.

Exécution flexible

Lorsque vous configurez une tâche à l'aide de AWS Studio ou de l'API, vous pouvez spécifier une classe d'exécution de tâche standard ou flexible. Vos tâches peuvent avoir différents degrés de priorité et de sensibilité au temps. La classe d'exécution standard est idéale pour les charges de travail urgentes qui nécessitent un démarrage rapide des tâches et des ressources dédiées.

La classe d'exécution flexible convient aux tâches non urgentes telles que les tâches de pré-production, les tests et les chargements de données uniques. Les exécutions flexibles sont prises en charge pour les tâches utilisant AWS Glue la version 3.0 ou ultérieure et/ou les G.1X types de G.2X travailleurs.

Les exécutions de tâches flexibles sont facturées en fonction du nombre de travailleurs en cours d'exécution à un moment donné dans le temps. Le nombre de travailleurs peut être ajouté ou supprimé pour une exécution flexible en cours d'exécution. Au lieu de facturer comme un simple calcul de Max Capacity * Execution Time, chaque travailleur contribuera pour le temps qu'il a effectué pendant l'exécution du travail. La facture est la somme de (Number of DPUs per worker * time each worker ran).

Pour plus d'informations, consultez le panneau d'aide de AWS Studio, ou Tâches etExécutions de tâches.

Nombre de nouvelles tentatives

Spécifiez le nombre de fois, de 0 à 10, qui AWS Glue devrait redémarrer automatiquement la tâche en cas d'échec. Les tâches qui atteignent la limite de délai d'expiration ne sont pas redémarrées.

Délai d'expiration de la tâche

Définit le délai d'exécution maximal en minutes. Le maximum est de 7 jours ou 10 080 minutes. Dans le cas contraire, les tâches généreront une exception.

Lorsque la valeur est laissée vide, le délai d'expiration est défini par défaut à 2880 minutes.

Toutes les AWS Glue tâches existantes dont le délai d'expiration est supérieur à 7 jours seront définies par défaut sur 7 jours. Par exemple, si vous avez spécifié un délai d'expiration de 20 jours pour un traitement par lots, celui-ci sera arrêté le 7ème jour.

Bonnes pratiques en matière de délais de travail

Les tâches sont facturées en fonction du temps d'exécution. Pour éviter des frais imprévus, configurez des valeurs de délai d'expiration adaptées à la durée d'exécution prévue de votre tâche.

Propriétés avancées

Nom du fichier du script

Un nom de script unique pour votre tâche. Ne peut pas être nommé Poste sans titre.

Chemin du script

L'emplacement du script sur Amazon S3. Le chemin doit être de la forme s3://bucket/prefix/path/. Il doit se terminer par une barre oblique (/) et ne pas inclure de fichiers.

Métriques de tâche

Activez ou désactivez la création de CloudWatch métriques Amazon lors de l'exécution de cette tâche. Pour afficher les données de profilage, vous devez activer cette option. Pour en savoir plus sur l'activation et la visualisation de métriques, consultez Surveillance et débogage des tâches.

Indicateurs d'observabilité des emplois

Activez la création de CloudWatch mesures d'observabilité supplémentaires lors de l'exécution de cette tâche. Pour de plus amples informations, veuillez consulter Surveillance avec AWS Glue Métriques d'observabilité.

Journalisation continue

Activez la journalisation continue sur Amazon CloudWatch. Si cette option n'est pas activée, les journaux ne sont disponibles qu'une fois la tâche terminée. Pour en savoir plus, consultez Journalisation continue des tâches AWS Glue.

Interface utilisateur Spark

Permettez l'utilisation de l'interface utilisateur Spark pour la surveillance de cette tâche. Pour de plus amples informations, veuillez consulter Activation de l'interface utilisateur Web d'Apache Spark pour AWS Glue jobs.

Chemin des journaux de l'interface utilisateur Spark

Le chemin pour écrire les journaux lorsque l'interface utilisateur de Spark est activée.

Configuration de journalisation et de surveillance de l'interface utilisateur Spark

Choisissez l’une des options suivantes :

Standard : écrivez des journaux en utilisant l'ID AWS Glue d'exécution du job comme nom de fichier. Activez la surveillance de l'interface utilisateur Spark dans la AWS Glue console.
Legacy : écrivez des journaux en utilisant « spark-application- {timestamp} » comme nom de fichier. N'activez pas la surveillance de l'interface utilisateur Spark.
Standard et ancien : rédigez des journaux à la fois dans les emplacements standard et traditionnels. Activez la surveillance de l'interface utilisateur Spark dans la AWS Glue console.

Simultanéité maximum

Définit le nombre maximal d'exécutions simultanées autorisées pour cette tâche. La valeur par défaut est 1. Une erreur est renvoyée lorsque ce seuil est atteint. La valeur maximale que vous pouvez spécifier est contrôlée par une limite de service. Par exemple, si une tâche est toujours en cours d'exécution lorsqu'une nouvelle instance est lancée, vous pouvez souhaiter le renvoi d'une erreur pour empêcher deux instances de la même tâche de s'exécuter simultanément.

Chemin temporaire

Indiquez l'emplacement d'un répertoire de travail dans Amazon S3 où les résultats intermédiaires temporaires sont écrits lors de l' AWS Glue exécution du script. Vérifiez qu'il n'existe pas de fichier portant le même nom que le répertoire temporaire dans le chemin d'accès. Ce répertoire est utilisé lors des opérations de AWS Glue lecture et d'écriture sur Amazon Redshift et lors de certaines AWS Glue transformations.

Note

AWS Glue crée un compartiment temporaire pour les tâches s'il n'en existe pas déjà un dans une région. Ce compartiment peut permettre l'accès au public. Vous pouvez soit modifier le compartiment dans Amazon S3 pour définir le bloc d'accès public, soit supprimer le compartiment ultérieurement une fois toutes les tâches de cette région terminées.

Seuil de notification de délai (minutes)

Définit le seuil (en minutes) avant l'envoi d'une notification de dépassement de délai. Vous pouvez définir ce seuil pour envoyer des notifications lorsqu'une exécution de tâche RUNNING, STARTING ou STOPPING prend plus de temps que le nombre de minutes prévu.

Configuration de la sécurité

Choisissez une configuration de sécurité dans la liste. Une configuration de sécurité spécifie la manière dont les données de la cible Amazon S3 sont chiffrées : pas de chiffrement, chiffrement côté serveur avec des clés gérées par AWS KMS(SSE-KMS) ou clés de chiffrement gérées par Amazon S3 (SSE-S3).

Chiffrement côté serveur

Si vous sélectionnez cette option, lorsque la tâche ETL écrit sur Amazon S3, les données sont chiffrées au repos à l'aide du chiffrement SSE-S3. Votre cible de données Amazon S3 et toutes les données qui sont écrites dans un répertoire temporaire Amazon S3 sont chiffrées. Cette option est transmise en tant que paramètre de tâche. Pour en savoir plus, consultez la section Protecting Data Using Server-Side Encryption with Amazon S3-Managed Encryption Keys (SSE-S3) (Protection des données à l'aide du chiffrement côté serveur avec des clés de chiffrement (SSE-S3) gérées par Amazon S3) dans le guide de l'utilisateur Amazon Simple Storage Service.

Important

Cette option est ignorée si une configuration de sécurité est spécifiée.

Utiliser le catalogue de données Glue en tant que metastore Hive

Sélectionnez cette option pour utiliser le catalogue de AWS Glue données comme métastore Hive. Le rôle IAM utilisé pour la tâche doit disposer de l'autorisation glue:CreateDatabase. Une base de données appelée « default » est créée dans le catalogue de données si elle n'existe pas.

Connexions

Choisissez une configuration VPC pour accéder aux sources de données Amazon S3 situées dans votre cloud privé virtuel (VPC). Vous pouvez créer et gérer une connexion réseau dans AWS Glue. Pour de plus amples informations, veuillez consulter Connexion aux données.

Bibliothèques

Chemin de bibliothèque Python, JARs chemin dépendant et chemin des fichiers référencés

Spécifiez ces options si votre script les requiert. Vous pouvez définir des chemins Amazon S3 séparés par des virgules pour ces options lorsque vous définissez la tâche. Vous pouvez remplacer ces chemins lorsque vous exécutez la tâche. Pour de plus amples informations, veuillez consulter Fournir vos propres scripts personnalisés.

Paramètres des tâches

Ensemble de paires clé-valeur transmises sous forme de paramètres nommés au script. Il s'agit de valeurs par défaut qui sont utilisées lors de l'exécution du script, mais vous pouvez les remplacer dans les déclencheurs ou lorsque vous exécutez la tâche. Vous devez préfixer le nom de la clé avec -- ; par exemple : --myKey. Vous transmettez les paramètres de la tâche sous forme de carte lorsque vous utilisez le AWS Command Line Interface.

Pour accéder à des exemples, veuillez consulter les paramètres Python dans Transmission et accès aux paramètres Python dans AWS Glue.

Balises

Identifiez votre tâche avec une clé d'identification et avec une valeur d'identification facultative. Lorsque les clés d'identification sont créées, elles sont en lecture seule. Utilisez des identifications sur certaines ressources pour mieux les organiser et les identifier. Pour de plus amples informations, veuillez consulter AWS tags dans AWS Glue.

Restrictions pour les tâches qui accèdent aux tables gérées par Lake Formation

Tenez compte des remarques et restrictions suivantes lorsque vous créez des tâches qui permettent de lire ou d'écrire dans des tables gérées par AWS Lake Formation :

Les fonctions suivantes ne sont pas prises en charge dans les tâches qui accèdent à des tables comportant des filtres au niveau des cellules :

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Spark et PySpark jobs

Modification de scripts Spark

Rubrique suivante :

Modification de scripts Spark

Rubrique précédente :

Spark et PySpark jobs

Avez-vous besoin d’aide ?

Sur cette page

Sélectionner vos préférences de cookies

Personnaliser les préférences de cookies

Essentiels

Performances

Fonctionnels

Publicitaires

Impossible d'enregistrer les préférences concernant les cookies