Tâches - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Tâches

L'API Jobs décrit les types de données et l'API liés à la création, à la mise à jour, à la suppression ou à l'affichage des jobs dans AWS Glue.

Types de données

Structure Job

Spécifie une définition de la tâche.

Champs
  • Name – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom que vous affectez à la définition de la tâche.

  • JobMode – Chaîne UTF-8 (valeurs valides : SCRIPT="" | VISUAL="" | NOTEBOOK="").

    Mode qui décrit la façon dont une tâche a été créée. Les valeurs valides sont :

    • SCRIPT- La tâche a été créée à l'aide de l'éditeur de script AWS Glue Studio.

    • VISUAL- La tâche a été créée à l'aide de l'éditeur visuel AWS Glue Studio.

    • NOTEBOOK- Le job a été créé à l'aide d'un carnet de sessions interactif.

    Lorsque le JobMode champ est manquant ou nul, SCRIPT il est attribué comme valeur par défaut.

  • Description – Chaîne de description, d'une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

    Description de la tâche.

  • LogUri – Chaîne UTF-8.

    Ce champ est réservé pour un usage futur.

  • Role – Chaîne UTF-8.

    Nom ou Amazon Resource Name (ARN) du rôle IAM associé à cette tâche.

  • CreatedOn – Horodatage.

    Date et heure de création de la définition de tâche.

  • LastModifiedOn – Horodatage.

    Dernier moment où la définition de tâche a été modifiée.

  • ExecutionProperty – Un objet ExecutionProperty.

    Objet ExecutionProperty spécifiant le nombre maximal d'exécutions simultanées autorisées pour cette tâche.

  • Command – Un objet JobCommand.

    La commande JobCommand qui exécute cette tâche.

  • DefaultArguments – Tableau de mappage de paires valeur-clé.

    Chaque clé est une chaîne UTF-8.

    Chaque valeur est une chaîne UTF-8.

    Les arguments par défaut pour chaque exécution de cette tâche, spécifiés en tant que paires nom-valeur.

    Vous pouvez spécifier ici les arguments que votre propre script d'exécution de tâches consomme, ainsi que les arguments qu'il consomme AWS Glue lui-même.

    Les arguments de la tâche peuvent être consignés. Ne transmettez pas de secrets en texte clair comme arguments. Récupérez les secrets d'une AWS Glue connexion AWS Secrets Manager ou d'un autre mécanisme de gestion des secrets si vous avez l'intention de les conserver dans le cadre du Job.

    Pour plus d'informations sur la façon de spécifier et d'utiliser vos propres arguments de Job, consultez la rubrique Appel d'API AWS Glue en Python dans le Guide du développeur.

    Pour plus d'informations sur les arguments que vous pouvez fournir dans ce champ lors de la configuration des tâches Spark, consultez la rubrique Special Parameters Used by AWS Glue dans le guide du développeur.

    Pour plus d'informations sur les arguments que vous pouvez fournir dans ce champ lors de la configuration des tâches Ray, consultez Utilisation des paramètres de tâches dans les tâches Ray dans le guide du développeur.

  • NonOverridableArguments – Tableau de mappage de paires valeur-clé.

    Chaque clé est une chaîne UTF-8.

    Chaque valeur est une chaîne UTF-8.

    Les arguments de cette tâche qui ne sont pas remplacés lorsque vous fournissez des arguments de tâche dans le cadre d'une exécution de tâche, spécifiés sous forme de paires nom-valeur.

  • Connections – Un objet ConnectionsList.

    Connexions utilisées pour la tâche.

  • MaxRetries – Nombre (entier).

    Nombre maximal de fois que vous pouvez réessayer cette tâche après un JobRun échec.

  • AllocatedCapacity – Nombre (entier).

    Ce champ est obsolète. Utilisez MaxCapacity à la place.

    Nombre d'unités de traitement des AWS Glue données (DPU) allouées aux exécutions de cette tâche. Vous pouvez allouer un minimum de 2 DPU ; la valeur par défaut est 10. Une DPU est une mesure relative de la puissance de traitement consistant en 4 vCPU de capacité de calcul et 16 Go de mémoire. Pour plus d'informations, consultez la page de tarification AWS Glue.

  • Timeout – Nombre (entier), au moins égal à 1.

    Délai d'expiration de la tâche en minutes. Durée maximale durant laquelle une tâche exécutée peut consommer des ressources avant qu'elle ne se termine et n'entre dans l'état TIMEOUT. La valeur par défaut est de 2 880 minutes (48 heures) pour les tâches par lots.

    Les jobs de streaming doivent avoir des délais d'expiration inférieurs à 7 jours ou 10080 minutes. Lorsque la valeur est laissée vide, le travail sera redémarré au bout de 7 jours, si vous n'avez pas configuré de fenêtre de maintenance. Si vous avez configuré une fenêtre de maintenance, elle sera redémarrée pendant la fenêtre de maintenance après 7 jours.

  • MaxCapacity – Nombre (double).

    Pour les tâches Glue version 1.0 ou antérieures, en utilisant le type de travailleur standard, le nombre d'unités de traitement des AWS Glue données (DPU) pouvant être allouées lors de l'exécution de cette tâche. Une DPU est une mesure relative de la puissance de traitement consistant en 4 vCPU de capacité de calcul et 16 Go de mémoire. Pour plus d'informations, consultez la page de tarification AWS Glue.

    Pour les tâches des versions 2.0 ou ultérieures de Glue, vous ne pouvez pas spécifier de Maximum capacity. Au lieu de cela, vous devez spécifier Worker type et Number of workers.

    Ne définissez pas MaxCapacity si vous utilisez WorkerType et NumberOfWorkers.

    La valeur pouvant être attribuée à MaxCapacity varie selon que vous exécutez une tâche shell Python, une tâche ETL Apache Spark ou une tâche ETL Apache Spark Streaming :

    • Lorsque vous spécifiez une tâche shell Python (JobCommand.Name="pythonshell"), vous pouvez allouer 0,0625 ou 1 DPU. La valeur par défaut correspond à 0,0625 DPU.

    • Lorsque vous spécifiez une tâche ETL Apache Spark (JobCommand.Name="glueetl") ou une tâche ETL Apache Spark Streaming (JobCommand.Name="gluestreaming"), vous pouvez allouer de 2 à 100 DPU. La valeur par défaut est de 10 DPU. Ce type de tâche ne peut pas avoir une allocation DPU fractionnée.

  • WorkerType – Chaîne UTF-8 (valeurs valides: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

    Type de travail prédéfini qui est alloué lorsqu'une tâche est exécutée. Accepte une valeur de G.1X, G.2X, G.4X, G.8X ou G.025X pour les tâches Spark. Accepte la valeur Z.2X pour les tâches Ray.

    • Pour le type de travailleur G.1X, chaque travailleur mappe vers 1 DPU (4 vCPU, 16 Go de mémoire) avec 84 Go de disque (environ 34 Go disponibles), et fournit 1 exécuteur par travailleur. Nous recommandons ce type de travailleur pour les charges de travail telles que les transformations de données, les jointures et les requêtes, afin de proposer un moyen évolutif et rentable d'exécuter la plupart des tâches.

    • Pour le type de travailleur G.2X, chaque travailleur mappe vers 2 DPU (8 vCPU, 32 Go de mémoire) avec 128 Go de disque (environ 77 Go disponibles), et fournit 1 exécuteur par travailleur. Nous recommandons ce type de travailleur pour les charges de travail telles que les transformations de données, les jointures et les requêtes, afin de proposer un moyen évolutif et rentable d'exécuter la plupart des tâches.

    • Pour le type de travailleur G.4X, chaque travailleur mappe vers 4 DPU (16 vCPU, 64 Go de mémoire) avec 256 Go de disque (environ 235 Go disponibles), et fournit 1 exécuteur par travailleur. Nous recommandons ce type de travailleur pour les tâches dont les charges de travail contiennent les transformations, les agrégations, les jointures et les requêtes les plus exigeantes. Ce type de travailleur est disponible uniquement pour les tâches Spark ETL AWS Glue version 3.0 ou ultérieure dans les AWS régions suivantes : USA Est (Ohio), USA Est (Virginie du Nord), USA Ouest (Oregon), Asie-Pacifique (Singapour), Asie-Pacifique (Sydney), Asie-Pacifique (Tokyo), Canada (Centre), Europe (Francfort), Europe (Irlande) et Europe (Stockholm).

    • Pour le type de travailleur G.8X, chaque travailleur mappe vers 8 DPU (32 vCPU, 128 Go de mémoire) avec 512 Go de disque (environ 487 Go disponibles), et fournit 1 exécuteur par travailleur. Nous recommandons ce type de travailleur pour les tâches dont les charges de travail contiennent les transformations, les agrégations, les jointures et les requêtes les plus exigeantes. Ce type de travailleur n'est disponible que pour les tâches Spark ETL de AWS Glue version 3.0 ou ultérieure, dans les mêmes AWS régions que celles prises en charge pour le type de G.4X travailleur.

    • Pour le type de travailleur G.025X, chaque travailleur mappe vers 0,25 DPU (2 vCPU, 4 Go de mémoire) avec 84 Go de disque (environ 34 Go disponibles), et fournit 1 exécuteur par travailleur. Nous recommandons ce type d'employé pour les travaux de streaming à faible volume. Ce type de travailleur n'est disponible que pour les tâches de streaming de la AWS Glue version 3.0.

    • Pour le type de travailleur Z.2X, chaque travailleur mappe vers 2 M-DPU (8 vCPU, 64 Go de mémoire) avec 128 Go de disque (environ 120 Go disponibles), et fournit jusqu'à 8 travailleurs Ray en fonction de la scalabilité automatique.

  • NumberOfWorkers – Nombre (entier).

    Nombre de travaux d'un workerType défini qui sont attribués lorsqu'une tâche est exécutée.

  • SecurityConfiguration – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la structure SecurityConfiguration à utiliser avec cette tâche.

  • NotificationProperty – Un objet NotificationProperty.

    Spécifie les propriétés de configuration d'une notification de tâche.

  • Running – Booléen.

    Ce champ est réservé pour un usage futur.

  • GlueVersion – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Custom string pattern #20.

    Dans les tâches Spark, GlueVersion détermine les versions d'Apache Spark et de Python AWS Glue disponibles dans une tâche. La version de Python indique la version prise en charge pour les tâches de type Spark.

    Les tâches Ray doivent définir GlueVersion sur 4.0 ou supérieur. Toutefois, les versions de Ray, de Python et des bibliothèques supplémentaires disponibles dans votre tâche Ray sont déterminées par le paramètre Runtime de la commande de tâche.

    Pour plus d'informations sur les AWS Glue versions disponibles et les versions correspondantes de Spark et Python, consultez la version de Glue dans le guide du développeur.

    Les tâches créées sans que la version de Glue soit spécifiée sont des tâches Glue 0.9 par défaut.

  • CodeGenConfigurationNodes – Tableau de mappage de paires valeur-clé.

    Chaque clé est une chaîne UTF-8, correspondant au Custom string pattern #39.

    Chaque valeur est un objet CodeGenConfigurationNode.

    Représentation d'un graphe orienté acyclique sur lequel le composant visuel Glue Studio et la génération de code Glue Studio sont basés.

  • ExecutionClass – Chaîne UTF-8, d'une longueur maximale de 16 octets (valeurs valides : FLEX="" | STANDARD="").

    Indique si la tâche est exécutée avec une classe d'exécution standard ou flexible. La classe d'exécution standard est idéale pour les charges de travail sensibles au temps qui nécessitent un démarrage rapide des tâches et des ressources dédiées.

    La classe d'exécution flexible, adaptée aux tâches non urgentes dont les heures de début et de fin peuvent varier.

    Seules les tâches dotées de AWS Glue la version 3.0 ou supérieure et du type de commande glueetl seront autorisées à être définies ExecutionClass surFLEX. La classe d'exécution flexible est disponible pour les tâches Spark.

  • SourceControlDetails – Un objet SourceControlDetails.

    Les détails d'une configuration de contrôle source pour une tâche, permettant la synchronisation des artefacts de la tâche vers ou depuis un référentiel distant.

  • MaintenanceWindow – Chaîne UTF-8, correspondant au Custom string pattern #30.

    Ce champ indique un jour de la semaine et une heure pour une fenêtre de maintenance pour les tâches de streaming. AWS Glue effectue périodiquement des activités de maintenance. Au cours de ces fenêtres de maintenance, vous AWS Glue devrez redémarrer vos tâches de streaming.

    AWS Glue redémarrera le travail dans les 3 heures suivant la période de maintenance spécifiée. Par exemple, si vous configurez la fenêtre de maintenance pour le lundi à 10 h 00 GMT, vos tâches seront redémarrées entre 10 h 00 GMT et 13 h 00 GMT.

  • ProfileName – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom d'un profil AWS Glue d'utilisation associé à la tâche.

ExecutionProperty structure

Propriété d'exécution d'une tâche.

Champs
  • MaxConcurrentRuns – Nombre (entier).

    Nombre maximal d'exécutions simultanées autorisées pour la tâche. La valeur par défaut est 1. Une erreur est renvoyée lorsque ce seuil est atteint. La valeur maximale que vous pouvez spécifier est contrôlée par une limite de service.

NotificationProperty structure

Spécifie les propriétés de configuration d'une notification.

Champs
  • NotifyDelayAfter – Nombre (entier), au moins égal à 1.

    Après le démarrage d'une exécution de tâche, nombre de minutes d'attente avant l'envoi d'une notification de délai d'exécution de tâche.

JobCommand structure

Spécifie le code exécuté lorsqu'une tâche est exécutée.

Champs
  • Name – Chaîne UTF-8.

    Nom de la commande de tâche. Pour une tâche ETL Apache Spark, cette valeur doit être glueetl. Pour un shell Python, elle doit être pythonshell. Pour une tâche ETL Apache Spark Streaming, elle doit correspondre à gluestreaming. Pour une tâche Ray, cela doit être glueray.

  • ScriptLocation – Chaîne UTF-8, d'une longueur maximale de 400 000 octets.

    Spécifie le chemin d'accès Amazon Simple Storage Service (Amazon S3) à un script qui exécute une tâche.

  • PythonVersion – Chaîne UTF-8, correspondant au Custom string pattern #21.

    Version Python utilisée pour exécuter une tâche shell Python. Les valeurs autorisées sont 2 ou 3.

  • Runtime : chaîne UTF-8, d'une longueur ne dépassant pas 64 octets, correspondant au Custom string pattern #29.

    Dans les tâches Ray, l'exécution est utilisée pour spécifier les versions de Ray, de Python et des bibliothèques supplémentaires disponibles dans votre environnement. Ce champ n'est pas utilisé dans les autres types de tâches. Pour connaître les valeurs d'environnement d'exécution prises en charge, consultez la section Environnements d'exécution Ray pris en charge dans le manuel du AWS Glue développeur.

ConnectionsList structure

Spécifie les connexions utilisées par une tâche.

Champs
  • Connections – Tableau de chaînes UTF-8.

    Liste de connexions utilisées par la tâche.

JobUpdate structure

Spécifie les informations utilisées pour mettre à jour une définition de tâche. La définition de tâche précédente est entièrement remplacée par ces informations.

Champs
  • JobMode – Chaîne UTF-8 (valeurs valides : SCRIPT="" | VISUAL="" | NOTEBOOK="").

    Mode qui décrit la façon dont une tâche a été créée. Les valeurs valides sont :

    • SCRIPT- La tâche a été créée à l'aide de l'éditeur de script AWS Glue Studio.

    • VISUAL- La tâche a été créée à l'aide de l'éditeur visuel AWS Glue Studio.

    • NOTEBOOK- Le job a été créé à l'aide d'un carnet de sessions interactif.

    Lorsque le JobMode champ est manquant ou nul, SCRIPT il est attribué comme valeur par défaut.

  • Description – Chaîne de description, d'une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

    Description de la tâche définie.

  • LogUri – Chaîne UTF-8.

    Ce champ est réservé pour un usage futur.

  • Role – Chaîne UTF-8.

    Nom ou Amazon Resource Name (ARN) du rôle IAM associé à cette tâche (obligatoire).

  • ExecutionProperty – Un objet ExecutionProperty.

    Objet ExecutionProperty spécifiant le nombre maximal d'exécutions simultanées autorisées pour cette tâche.

  • Command – Un objet JobCommand.

    Objet JobCommand qui exécute cette tâche (obligatoire).

  • DefaultArguments – Tableau de mappage de paires valeur-clé.

    Chaque clé est une chaîne UTF-8.

    Chaque valeur est une chaîne UTF-8.

    Les arguments par défaut pour chaque exécution de cette tâche, spécifiés en tant que paires nom-valeur.

    Vous pouvez spécifier ici les arguments que votre propre script d'exécution de tâches consomme, ainsi que les arguments qu'il consomme AWS Glue lui-même.

    Les arguments de la tâche peuvent être consignés. Ne transmettez pas de secrets en texte clair comme arguments. Récupérez les secrets d'une AWS Glue connexion AWS Secrets Manager ou d'un autre mécanisme de gestion des secrets si vous avez l'intention de les conserver dans le cadre du Job.

    Pour plus d'informations sur la façon de spécifier et d'utiliser vos propres arguments de Job, consultez la rubrique Appel d'API AWS Glue en Python dans le Guide du développeur.

    Pour plus d'informations sur les arguments que vous pouvez fournir dans ce champ lors de la configuration des tâches Spark, consultez la rubrique Special Parameters Used by AWS Glue dans le guide du développeur.

    Pour plus d'informations sur les arguments que vous pouvez fournir dans ce champ lors de la configuration des tâches Ray, consultez Utilisation des paramètres de tâches dans les tâches Ray dans le guide du développeur.

  • NonOverridableArguments – Tableau de mappage de paires valeur-clé.

    Chaque clé est une chaîne UTF-8.

    Chaque valeur est une chaîne UTF-8.

    Les arguments de cette tâche qui ne sont pas remplacés lorsque vous fournissez des arguments de tâche dans le cadre d'une exécution de tâche, spécifiés sous forme de paires nom-valeur.

  • Connections – Un objet ConnectionsList.

    Connexions utilisées pour la tâche.

  • MaxRetries – Nombre (entier).

    Nombre maximum de tentatives de cette tâche en cas d'échec.

  • AllocatedCapacity – Nombre (entier).

    Ce champ est obsolète. Utilisez MaxCapacity à la place.

    Le nombre d'unités de traitement des AWS Glue données (DPU) à allouer à cette tâche. Vous pouvez allouer un minimum de 2 DPU ; la valeur par défaut est 10. Une DPU est une mesure relative de la puissance de traitement consistant en 4 vCPU de capacité de calcul et 16 Go de mémoire. Pour plus d'informations, consultez la page de tarification AWS Glue.

  • Timeout – Nombre (entier), au moins égal à 1.

    Délai d'expiration de la tâche en minutes. Durée maximale durant laquelle une tâche exécutée peut consommer des ressources avant qu'elle ne se termine et n'entre dans l'état TIMEOUT. La valeur par défaut est de 2 880 minutes (48 heures) pour les tâches par lots.

    Les jobs de streaming doivent avoir des délais d'expiration inférieurs à 7 jours ou 10080 minutes. Lorsque la valeur est laissée vide, le travail sera redémarré au bout de 7 jours, si vous n'avez pas configuré de fenêtre de maintenance. Si vous avez configuré une fenêtre de maintenance, elle sera redémarrée pendant la fenêtre de maintenance après 7 jours.

  • MaxCapacity – Nombre (double).

    Pour les tâches Glue version 1.0 ou antérieures, en utilisant le type de travailleur standard, le nombre d'unités de traitement des AWS Glue données (DPU) pouvant être allouées lors de l'exécution de cette tâche. Une DPU est une mesure relative de la puissance de traitement consistant en 4 vCPU de capacité de calcul et 16 Go de mémoire. Pour plus d'informations, consultez la page de tarification AWS Glue.

    Pour les tâches des versions 2.0 et ultérieures de Glue, vous ne pouvez pas spécifier un Maximum capacity. Au lieu de cela, vous devez spécifier Worker type et Number of workers.

    Ne définissez pas MaxCapacity si vous utilisez WorkerType et NumberOfWorkers.

    La valeur pouvant être attribuée à MaxCapacity varie selon que vous exécutez une tâche shell Python, une tâche ETL Apache Spark ou une tâche ETL Apache Spark Streaming :

    • Lorsque vous spécifiez une tâche shell Python (JobCommand.Name="pythonshell"), vous pouvez allouer 0,0625 ou 1 DPU. La valeur par défaut correspond à 0,0625 DPU.

    • Lorsque vous spécifiez une tâche ETL Apache Spark (JobCommand.Name="glueetl") ou une tâche ETL Apache Spark Streaming (JobCommand.Name="gluestreaming"), vous pouvez allouer de 2 à 100 DPU. La valeur par défaut est de 10 DPU. Ce type de tâche ne peut pas avoir une allocation DPU fractionnée.

  • WorkerType – Chaîne UTF-8 (valeurs valides: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

    Type de travail prédéfini qui est alloué lorsqu'une tâche est exécutée. Accepte une valeur de G.1X, G.2X, G.4X, G.8X ou G.025X pour les tâches Spark. Accepte la valeur Z.2X pour les tâches Ray.

    • Pour le type de travailleur G.1X, chaque travailleur mappe vers 1 DPU (4 vCPU, 16 Go de mémoire) avec 84 Go de disque (environ 34 Go disponibles), et fournit 1 exécuteur par travailleur. Nous recommandons ce type de travailleur pour les charges de travail telles que les transformations de données, les jointures et les requêtes, afin de proposer un moyen évolutif et rentable d'exécuter la plupart des tâches.

    • Pour le type de travailleur G.2X, chaque travailleur mappe vers 2 DPU (8 vCPU, 32 Go de mémoire) avec 128 Go de disque (environ 77 Go disponibles), et fournit 1 exécuteur par travailleur. Nous recommandons ce type de travailleur pour les charges de travail telles que les transformations de données, les jointures et les requêtes, afin de proposer un moyen évolutif et rentable d'exécuter la plupart des tâches.

    • Pour le type de travailleur G.4X, chaque travailleur mappe vers 4 DPU (16 vCPU, 64 Go de mémoire) avec 256 Go de disque (environ 235 Go disponibles), et fournit 1 exécuteur par travailleur. Nous recommandons ce type de travailleur pour les tâches dont les charges de travail contiennent les transformations, les agrégations, les jointures et les requêtes les plus exigeantes. Ce type de travailleur est disponible uniquement pour les tâches Spark ETL AWS Glue version 3.0 ou ultérieure dans les AWS régions suivantes : USA Est (Ohio), USA Est (Virginie du Nord), USA Ouest (Oregon), Asie-Pacifique (Singapour), Asie-Pacifique (Sydney), Asie-Pacifique (Tokyo), Canada (Centre), Europe (Francfort), Europe (Irlande) et Europe (Stockholm).

    • Pour le type de travailleur G.8X, chaque travailleur mappe vers 8 DPU (32 vCPU, 128 Go de mémoire) avec 512 Go de disque (environ 487 Go disponibles), et fournit 1 exécuteur par travailleur. Nous recommandons ce type de travailleur pour les tâches dont les charges de travail contiennent les transformations, les agrégations, les jointures et les requêtes les plus exigeantes. Ce type de travailleur n'est disponible que pour les tâches Spark ETL de AWS Glue version 3.0 ou ultérieure, dans les mêmes AWS régions que celles prises en charge pour le type de G.4X travailleur.

    • Pour le type de travailleur G.025X, chaque travailleur mappe vers 0,25 DPU (2 vCPU, 4 Go de mémoire) avec 84 Go de disque (environ 34 Go disponibles), et fournit 1 exécuteur par travailleur. Nous recommandons ce type d'employé pour les travaux de streaming à faible volume. Ce type de travailleur n'est disponible que pour les tâches de streaming de la AWS Glue version 3.0.

    • Pour le type de travailleur Z.2X, chaque travailleur mappe vers 2 M-DPU (8 vCPU, 64 Go de mémoire) avec 128 Go de disque (environ 120 Go disponibles), et fournit jusqu'à 8 travailleurs Ray en fonction de la scalabilité automatique.

  • NumberOfWorkers – Nombre (entier).

    Nombre de travaux d'un workerType défini qui sont attribués lorsqu'une tâche est exécutée.

  • SecurityConfiguration – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la structure SecurityConfiguration à utiliser avec cette tâche.

  • NotificationProperty – Un objet NotificationProperty.

    Spécifie les propriétés de configuration d'une notification de tâche.

  • GlueVersion – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Custom string pattern #20.

    Dans les tâches Spark, GlueVersion détermine les versions d'Apache Spark et de Python AWS Glue disponibles dans une tâche. La version de Python indique la version prise en charge pour les tâches de type Spark.

    Les tâches Ray doivent définir GlueVersion sur 4.0 ou supérieur. Toutefois, les versions de Ray, de Python et des bibliothèques supplémentaires disponibles dans votre tâche Ray sont déterminées par le paramètre Runtime de la commande de tâche.

    Pour plus d'informations sur les AWS Glue versions disponibles et les versions correspondantes de Spark et Python, consultez la version de Glue dans le guide du développeur.

    Les tâches créées sans que la version de Glue soit spécifiée sont des tâches Glue 0.9 par défaut.

  • CodeGenConfigurationNodes – Tableau de mappage de paires valeur-clé.

    Chaque clé est une chaîne UTF-8, correspondant au Custom string pattern #39.

    Chaque valeur est un objet CodeGenConfigurationNode.

    Représentation d'un graphe orienté acyclique sur lequel le composant visuel Glue Studio et la génération de code Glue Studio sont basés.

  • ExecutionClass – Chaîne UTF-8, d'une longueur maximale de 16 octets (valeurs valides : FLEX="" | STANDARD="").

    Indique si la tâche est exécutée avec une classe d'exécution standard ou flexible. La classe d'exécution standard est idéale pour les charges de travail urgentes qui nécessitent un démarrage rapide des tâches et des ressources dédiées.

    La classe d'exécution flexible, adaptée aux tâches non urgentes dont les heures de début et de fin peuvent varier.

    Seules les tâches dotées de AWS Glue la version 3.0 ou supérieure et du type de commande glueetl seront autorisées à être définies ExecutionClass surFLEX. La classe d'exécution flexible est disponible pour les tâches Spark.

  • SourceControlDetails – Un objet SourceControlDetails.

    Les détails d'une configuration de contrôle source pour une tâche, permettant la synchronisation des artefacts de la tâche vers ou depuis un référentiel distant.

  • MaintenanceWindow – Chaîne UTF-8, correspondant au Custom string pattern #30.

    Ce champ indique un jour de la semaine et une heure pour une fenêtre de maintenance pour les tâches de streaming. AWS Glue effectue périodiquement des activités de maintenance. Au cours de ces fenêtres de maintenance, vous AWS Glue devrez redémarrer vos tâches de streaming.

    AWS Glue redémarrera le travail dans les 3 heures suivant la période de maintenance spécifiée. Par exemple, si vous configurez la fenêtre de maintenance pour le lundi à 10 h 00 GMT, vos tâches seront redémarrées entre 10 h 00 GMT et 13 h 00 GMT.

  • ProfileName – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom d'un profil AWS Glue d'utilisation associé à la tâche.

SourceControlDetails structure

Les détails d'une configuration de contrôle source pour une tâche, permettant la synchronisation des artefacts de la tâche vers ou depuis un référentiel distant.

Champs
  • Provider – Chaîne UTF-8.

    Le fournisseur du référentiel distant.

  • Repository – chaîne UTF-8, d'une longueur comprise entre 1 et 512 octets.

    Le nom du référentiel distant qui contient les artefacts de la tâche.

  • Owner – chaîne UTF-8, d'une longueur comprise entre 1 et 512 octets.

    Le propriétaire du référentiel distant qui contient les artefacts de la tâche.

  • Branch – chaîne UTF-8, d'une longueur comprise entre 1 et 512 octets.

    Une branche facultative dans le référentiel distant.

  • Folder – chaîne UTF-8, d'une longueur comprise entre 1 et 512 octets.

    Un dossier facultatif dans le référentiel distant.

  • LastCommitId – chaîne UTF-8, d'une longueur comprise entre 1 et 512 octets.

    Le dernier identifiant de validation pour une validation dans le référentiel distant.

  • LastSyncTimestamp – chaîne UTF-8, d'une longueur comprise entre 1 et 512 octets.

    La date et l'heure auxquelles la dernière synchronisation de la tâche a été effectuée.

  • AuthStrategy – Chaîne UTF-8.

    Le type d'authentification, qui peut être un jeton d'authentification stocké dans AWS Secrets Manager ou un jeton d'accès personnel.

  • AuthToken – chaîne UTF-8, d'une longueur comprise entre 1 et 512 octets.

    La valeur d'un jeton d'autorisation.

Opérations

CreateJob action (Python : create_job)

Crée une nouvelle définition de tâche.

Demande
  • NameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom que vous affectez à la définition de la tâche. Doit être unique au sein de votre compte .

  • JobMode – Chaîne UTF-8 (valeurs valides : SCRIPT="" | VISUAL="" | NOTEBOOK="").

    Mode qui décrit la façon dont une tâche a été créée. Les valeurs valides sont :

    • SCRIPT- La tâche a été créée à l'aide de l'éditeur de script AWS Glue Studio.

    • VISUAL- La tâche a été créée à l'aide de l'éditeur visuel AWS Glue Studio.

    • NOTEBOOK- Le job a été créé à l'aide d'un carnet de sessions interactif.

    Lorsque le JobMode champ est manquant ou nul, SCRIPT il est attribué comme valeur par défaut.

  • Description – Chaîne de description, d'une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

    Description de la tâche définie.

  • LogUri – Chaîne UTF-8.

    Ce champ est réservé pour un usage futur.

  • RoleObligatoire : chaîne UTF-8.

    Nom ou Amazon Resource Name (ARN) du rôle IAM associé à cette tâche.

  • ExecutionProperty – Un objet ExecutionProperty.

    Objet ExecutionProperty spécifiant le nombre maximal d'exécutions simultanées autorisées pour cette tâche.

  • CommandObligatoire : un objet JobCommand.

    La commande JobCommand qui exécute cette tâche.

  • DefaultArguments – Tableau de mappage de paires valeur-clé.

    Chaque clé est une chaîne UTF-8.

    Chaque valeur est une chaîne UTF-8.

    Les arguments par défaut pour chaque exécution de cette tâche, spécifiés en tant que paires nom-valeur.

    Vous pouvez spécifier ici les arguments que votre propre script d'exécution de tâches consomme, ainsi que les arguments qu'il consomme AWS Glue lui-même.

    Les arguments de la tâche peuvent être consignés. Ne transmettez pas de secrets en texte clair comme arguments. Récupérez les secrets d'une AWS Glue connexion AWS Secrets Manager ou d'un autre mécanisme de gestion des secrets si vous avez l'intention de les conserver dans le cadre du Job.

    Pour plus d'informations sur la façon de spécifier et d'utiliser vos propres arguments de Job, consultez la rubrique Appel d'API AWS Glue en Python dans le Guide du développeur.

    Pour plus d'informations sur les arguments que vous pouvez fournir dans ce champ lors de la configuration des tâches Spark, consultez la rubrique Special Parameters Used by AWS Glue dans le guide du développeur.

    Pour plus d'informations sur les arguments que vous pouvez fournir dans ce champ lors de la configuration des tâches Ray, consultez Utilisation des paramètres de tâches dans les tâches Ray dans le guide du développeur.

  • NonOverridableArguments – Tableau de mappage de paires valeur-clé.

    Chaque clé est une chaîne UTF-8.

    Chaque valeur est une chaîne UTF-8.

    Les arguments de cette tâche qui ne sont pas remplacés lorsque vous fournissez des arguments de tâche dans le cadre d'une exécution de tâche, spécifiés sous forme de paires nom-valeur.

  • Connections – Un objet ConnectionsList.

    Connexions utilisées pour la tâche.

  • MaxRetries – Nombre (entier).

    Nombre maximum de tentatives de cette tâche en cas d'échec.

  • AllocatedCapacity – Nombre (entier).

    Ce paramètre est obsolète. Utilisez MaxCapacity à la place.

    Le nombre d'unités de traitement des AWS Glue données (DPU) à allouer à ce Job. Vous pouvez allouer un minimum de 2 DPU ; la valeur par défaut est 10. Une DPU est une mesure relative de la puissance de traitement consistant en 4 vCPU de capacité de calcul et 16 Go de mémoire. Pour plus d'informations, consultez la page de tarification AWS Glue.

  • Timeout – Nombre (entier), au moins égal à 1.

    Délai d'expiration de la tâche en minutes. Durée maximale durant laquelle une tâche exécutée peut consommer des ressources avant qu'elle ne se termine et n'entre dans l'état TIMEOUT. La valeur par défaut est de 2 880 minutes (48 heures) pour les tâches par lots.

    Les jobs de streaming doivent avoir des délais d'expiration inférieurs à 7 jours ou 10080 minutes. Lorsque la valeur est laissée vide, le travail sera redémarré au bout de 7 jours, si vous n'avez pas configuré de fenêtre de maintenance. Si vous avez configuré une fenêtre de maintenance, elle sera redémarrée pendant la fenêtre de maintenance après 7 jours.

  • MaxCapacity – Nombre (double).

    Pour les tâches Glue version 1.0 ou antérieures, en utilisant le type de travailleur standard, le nombre d'unités de traitement des AWS Glue données (DPU) pouvant être allouées lors de l'exécution de cette tâche. Une DPU est une mesure relative de la puissance de traitement consistant en 4 vCPU de capacité de calcul et 16 Go de mémoire. Pour plus d'informations, consultez la page de tarification AWS Glue.

    Pour les tâches des versions 2.0 et ultérieures de Glue, vous ne pouvez pas spécifier un Maximum capacity. Au lieu de cela, vous devez spécifier Worker type et Number of workers.

    Ne définissez pas MaxCapacity si vous utilisez WorkerType et NumberOfWorkers.

    La valeur pouvant être attribuée à MaxCapacity varie selon que vous exécutez une tâche shell Python, une tâche ETL Apache Spark ou une tâche ETL Apache Spark Streaming :

    • Lorsque vous spécifiez une tâche shell Python (JobCommand.Name="pythonshell"), vous pouvez allouer 0,0625 ou 1 DPU. La valeur par défaut correspond à 0,0625 DPU.

    • Lorsque vous spécifiez une tâche ETL Apache Spark (JobCommand.Name="glueetl") ou une tâche ETL Apache Spark Streaming (JobCommand.Name="gluestreaming"), vous pouvez allouer de 2 à 100 DPU. La valeur par défaut est de 10 DPU. Ce type de tâche ne peut pas avoir une allocation DPU fractionnée.

  • SecurityConfiguration – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la structure SecurityConfiguration à utiliser avec cette tâche.

  • Tags – tableau de mappage de paires clé-valeur, avec 50 paires au maximum.

    Chaque clé est une chaîne UTF-8, d'une longueur comprise entre 1 et 128 octets.

    Chaque valeur est une chaîne UTF-8, d'une longueur maximale de 256 octets.

    Balises à utiliser avec cette tâche. Vous pouvez utiliser des balises pour limiter l'accès à la tâche. Pour plus d'informations sur les tags in AWS Glue, voir AWS Tags in AWS Glue dans le guide du développeur.

  • NotificationProperty – Un objet NotificationProperty.

    Spécifie les propriétés de configuration d'une notification de tâche.

  • GlueVersion – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Custom string pattern #20.

    Dans les tâches Spark, GlueVersion détermine les versions d'Apache Spark et de Python AWS Glue disponibles dans une tâche. La version de Python indique la version prise en charge pour les tâches de type Spark.

    Les tâches Ray doivent définir GlueVersion sur 4.0 ou supérieur. Toutefois, les versions de Ray, de Python et des bibliothèques supplémentaires disponibles dans votre tâche Ray sont déterminées par le paramètre Runtime de la commande de tâche.

    Pour plus d'informations sur les AWS Glue versions disponibles et les versions correspondantes de Spark et Python, consultez la version de Glue dans le guide du développeur.

    Les tâches créées sans que la version de Glue soit spécifiée sont des tâches Glue 0.9 par défaut.

  • NumberOfWorkers – Nombre (entier).

    Nombre de travaux d'un workerType défini qui sont attribués lorsqu'une tâche est exécutée.

  • WorkerType – Chaîne UTF-8 (valeurs valides: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

    Type de travail prédéfini qui est alloué lorsqu'une tâche est exécutée. Accepte une valeur de G.1X, G.2X, G.4X, G.8X ou G.025X pour les tâches Spark. Accepte la valeur Z.2X pour les tâches Ray.

    • Pour le type de travailleur G.1X, chaque travailleur mappe vers 1 DPU (4 vCPU, 16 Go de mémoire) avec 84 Go de disque (environ 34 Go disponibles), et fournit 1 exécuteur par travailleur. Nous recommandons ce type de travailleur pour les charges de travail telles que les transformations de données, les jointures et les requêtes, afin de proposer un moyen évolutif et rentable d'exécuter la plupart des tâches.

    • Pour le type de travailleur G.2X, chaque travailleur mappe vers 2 DPU (8 vCPU, 32 Go de mémoire) avec 128 Go de disque (environ 77 Go disponibles), et fournit 1 exécuteur par travailleur. Nous recommandons ce type de travailleur pour les charges de travail telles que les transformations de données, les jointures et les requêtes, afin de proposer un moyen évolutif et rentable d'exécuter la plupart des tâches.

    • Pour le type de travailleur G.4X, chaque travailleur mappe vers 4 DPU (16 vCPU, 64 Go de mémoire) avec 256 Go de disque (environ 235 Go disponibles), et fournit 1 exécuteur par travailleur. Nous recommandons ce type de travailleur pour les tâches dont les charges de travail contiennent les transformations, les agrégations, les jointures et les requêtes les plus exigeantes. Ce type de travailleur est disponible uniquement pour les tâches Spark ETL AWS Glue version 3.0 ou ultérieure dans les AWS régions suivantes : USA Est (Ohio), USA Est (Virginie du Nord), USA Ouest (Oregon), Asie-Pacifique (Singapour), Asie-Pacifique (Sydney), Asie-Pacifique (Tokyo), Canada (Centre), Europe (Francfort), Europe (Irlande) et Europe (Stockholm).

    • Pour le type de travailleur G.8X, chaque travailleur mappe vers 8 DPU (32 vCPU, 128 Go de mémoire) avec 512 Go de disque (environ 487 Go disponibles), et fournit 1 exécuteur par travailleur. Nous recommandons ce type de travailleur pour les tâches dont les charges de travail contiennent les transformations, les agrégations, les jointures et les requêtes les plus exigeantes. Ce type de travailleur n'est disponible que pour les tâches Spark ETL de AWS Glue version 3.0 ou ultérieure, dans les mêmes AWS régions que celles prises en charge pour le type de G.4X travailleur.

    • Pour le type de travailleur G.025X, chaque travailleur mappe vers 0,25 DPU (2 vCPU, 4 Go de mémoire) avec 84 Go de disque (environ 34 Go disponibles), et fournit 1 exécuteur par travailleur. Nous recommandons ce type d'employé pour les travaux de streaming à faible volume. Ce type de travailleur n'est disponible que pour les tâches de streaming de la AWS Glue version 3.0.

    • Pour le type de travailleur Z.2X, chaque travailleur mappe vers 2 M-DPU (8 vCPU, 64 Go de mémoire) avec 128 Go de disque (environ 120 Go disponibles), et fournit jusqu'à 8 travailleurs Ray en fonction de la scalabilité automatique.

  • CodeGenConfigurationNodes – Tableau de mappage de paires valeur-clé.

    Chaque clé est une chaîne UTF-8, correspondant au Custom string pattern #39.

    Chaque valeur est un objet CodeGenConfigurationNode.

    Représentation d'un graphe orienté acyclique sur lequel le composant visuel Glue Studio et la génération de code Glue Studio sont basés.

  • ExecutionClass – Chaîne UTF-8, d'une longueur maximale de 16 octets (valeurs valides : FLEX="" | STANDARD="").

    Indique si la tâche est exécutée avec une classe d'exécution standard ou flexible. La classe d'exécution standard est idéale pour les charges de travail urgentes qui nécessitent un démarrage rapide des tâches et des ressources dédiées.

    La classe d'exécution flexible, adaptée aux tâches non urgentes dont les heures de début et de fin peuvent varier.

    Seules les tâches dotées de AWS Glue la version 3.0 ou supérieure et du type de commande glueetl seront autorisées à être définies ExecutionClass surFLEX. La classe d'exécution flexible est disponible pour les tâches Spark.

  • SourceControlDetails – Un objet SourceControlDetails.

    Les détails d'une configuration de contrôle source pour une tâche, permettant la synchronisation des artefacts de la tâche vers ou depuis un référentiel distant.

  • MaintenanceWindow – Chaîne UTF-8, correspondant au Custom string pattern #30.

    Ce champ indique un jour de la semaine et une heure pour une fenêtre de maintenance pour les tâches de streaming. AWS Glue effectue périodiquement des activités de maintenance. Au cours de ces fenêtres de maintenance, vous AWS Glue devrez redémarrer vos tâches de streaming.

    AWS Glue redémarrera le travail dans les 3 heures suivant la période de maintenance spécifiée. Par exemple, si vous configurez la fenêtre de maintenance pour le lundi à 10 h 00 GMT, vos tâches seront redémarrées entre 10 h 00 GMT et 13 h 00 GMT.

  • ProfileName – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom d'un profil AWS Glue d'utilisation associé à la tâche.

Réponse
  • Name – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Le nom unique qui a été fourni pour cette définition de tâche.

Erreurs
  • InvalidInputException

  • IdempotentParameterMismatchException

  • AlreadyExistsException

  • InternalServiceException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

  • ConcurrentModificationException

UpdateJob action (Python : update_job)

Met à jour une définition de tâche. La définition de tâche précédente est entièrement remplacée par ces informations.

Demande
  • JobNameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la définition de tâche à mettre à jour.

  • JobUpdateObligatoire : un objet JobUpdate.

    Spécifie les valeurs avec lesquelles mettre à jour la définition de la tâche. Toute configuration non spécifiée est supprimée ou réinitialisée aux valeurs par défaut.

  • ProfileName – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom d'un profil AWS Glue d'utilisation associé à la tâche.

Réponse
  • JobName – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Retourne le nom de la définition de tâche mise à jour.

Erreurs
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

  • ConcurrentModificationException

GetJob action (Python : get_job)

Extrait une définition de tâche.

Demande
  • JobNameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la définition de tâche à extraire.

Réponse
  • Job – Un objet Tâche.

    Définition de tâche requise.

Erreurs
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

GetJobs action (Python : get_jobs)

Récupère toutes les définitions de tâche actuelles.

Demande
  • NextToken – Chaîne UTF-8.

    Jeton de continuation, s'il s'agit d'un appel de continuation.

  • MaxResults – Nombre (entier), compris entre 1 et 1 000.

    Taille maximale de la réponse.

Réponse
  • Jobs – Un tableau Tâche d'objets.

    Liste des définitions de tâche.

  • NextToken – Chaîne UTF-8.

    Jeton de continuation, si toutes les définitions de tâche n'ont pas encore été renvoyées.

Erreurs
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

DeleteJob action (Python : supprimer_tâche)

Supprime une définition de tâche spécifiée. Si la définition de tâche est introuvable, aucune exception n'est levée.

Demande
  • JobNameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la définition de tâche à supprimer.

Réponse
  • JobName – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la définition de tâche qui a été supprimée.

Erreurs
  • InvalidInputException

  • InternalServiceException

  • OperationTimeoutException

ListJobs action (Python : list_jobs)

Récupère les noms de toutes les ressources de travail de ce AWS compte ou des ressources portant le tag spécifié. Cette opération vous permet de voir quelles ressources sont disponibles dans votre compte, et leurs noms.

Cette opération accepte le champ Tags facultatif que vous pouvez utiliser comme filtre sur la réponse, afin que les ressources balisées puissent être récupérées en tant que groupe. Si vous choisissez d'utiliser le filtrage des balises, seules les ressources avec la balise sont récupérées.

Demande
  • NextToken – Chaîne UTF-8.

    Jeton de continuation, s'il s'agit d'une requête de continuation.

  • MaxResults – Nombre (entier), compris entre 1 et 1 000.

    La taille maximale d'une liste à renvoyer.

  • Tags – tableau de mappage de paires clé-valeur, avec 50 paires au maximum.

    Chaque clé est une chaîne UTF-8, d'une longueur comprise entre 1 et 128 octets.

    Chaque valeur est une chaîne UTF-8, d'une longueur maximale de 256 octets.

    Spécifie de renvoyer uniquement les ressources balisées.

Réponse
  • JobNames – Tableau de chaînes UTF-8.

    Noms de toutes les tâches dans le compte ou des tâches avec les balises spécifiées.

  • NextToken – Chaîne UTF-8.

    Jeton continuation, si la liste renvoyée ne contient pas la dernière métrique disponible.

Erreurs
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

BatchGetJobs action (Python : batch_get_jobs)

Renvoie la liste des métadonnées de ressource pour une liste donnée de noms de tâche. Après avoir appelé l'opération ListJobs, vous pouvez appeler cette opération pour accéder aux données sur lesquelles des autorisations vous ont été octroyées. Cette opération prend en charge toutes les autorisations IAM, y compris les conditions d'autorisation qui utilisent des balises.

Demande
  • JobNamesobligatoire : tableau de chaînes UTF-8.

    Liste des noms de tâche, qui peuvent être les noms renvoyés à partir de l'opération ListJobs.

Réponse
  • Jobs – Un tableau Tâche d'objets.

    Liste des définitions de tâche.

  • JobsNotFound – Tableau de chaînes UTF-8.

    Liste de noms de tâches introuvables.

Erreurs
  • InternalServiceException

  • OperationTimeoutException

  • InvalidInputException