Exécutions de tâches - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Exécutions de tâches

L'API Jobs Runs décrit les types de données et l'API liés au démarrage, à l'arrêt ou à la visualisation des exécutions de tâches, ainsi qu'à la réinitialisation des signets de tâches, dans. AWS Glue L'historique d'exécution des tâches est accessible pendant 90 jours pour votre flux de travail et l'exécution des tâches.

Types de données

JobRun structure

Contient des informations à propos d'une exécution de tâche.

Champs
  • Id – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    ID de cette exécution de tâche.

  • Attempt – Nombre (entier).

    Nombre de tentatives d'exécution de cette tâche.

  • PreviousRunId – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    ID de l'exécution précédente de cette tâche. Par exemple, JobRunId spécifié dans l'action StartJobRun.

  • TriggerName – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom du déclencheur ayant démarré cette exécution de tâche.

  • JobName – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la définition de tâche utilisée dans cette exécution.

  • JobMode – Chaîne UTF-8 (valeurs valides : SCRIPT="" | VISUAL="" | NOTEBOOK="").

    Mode qui décrit la façon dont une tâche a été créée. Les valeurs valides sont :

    • SCRIPT- La tâche a été créée à l'aide de l'éditeur de script AWS Glue Studio.

    • VISUAL- La tâche a été créée à l'aide de l'éditeur visuel AWS Glue Studio.

    • NOTEBOOK- Le job a été créé à l'aide d'un carnet de sessions interactif.

    Lorsque le JobMode champ est manquant ou nul, SCRIPT il est attribué comme valeur par défaut.

  • JobRunQueuingEnabled – Booléen.

    Spécifie si la mise en file d'attente des tâches est activée pour l'exécution de la tâche.

    La valeur true signifie que la mise en file d'attente des tâches est activée pour l'exécution de la tâche. Si la valeur est fausse ou si elle n'est pas renseignée, la tâche exécutée ne sera pas prise en compte pour la mise en file d'attente.

  • StartedOn – Horodatage.

    Date et heure auxquelles cette exécution de tâche a démarré.

  • LastModifiedOn – Horodatage.

    Heure de la dernière modification de cette exécution de tâche.

  • CompletedOn – Horodatage.

    Date et heure auxquelles cette exécution de tâche s'est terminée.

  • JobRunState— Chaîne UTF-8 (valeurs valides : STARTING | | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT ERROR WAITING |EXPIRED).

    État actuel de l'exécution de tâche. Pour plus d'informations sur les statuts des tâches qui se sont terminées anormalement, consultez AWS Glue Job Run Statuses.

  • Arguments – Tableau de mappage de paires valeur-clé.

    Chaque clé est une chaîne UTF-8.

    Chaque valeur est une chaîne UTF-8.

    Arguments de la tâche associés à cette exécution. Pour cette exécution de tâche, ils remplacent les arguments par défaut définis pour la tâche elle-même.

    Vous pouvez spécifier ici les arguments que votre propre script d'exécution de tâches consomme, ainsi que les arguments qu'il consomme AWS Glue lui-même.

    Les arguments de la tâche peuvent être consignés. Ne transmettez pas de secrets en texte clair comme arguments. Récupérez les secrets d'une AWS Glue connexion AWS Secrets Manager ou d'un autre mécanisme de gestion des secrets si vous avez l'intention de les conserver dans le cadre du Job.

    Pour plus d'informations sur la façon de spécifier et d'utiliser vos propres arguments Job, consultez la rubrique Calling AWS Glue APIs in Python du guide du développeur.

    Pour plus d'informations sur les arguments que vous pouvez fournir dans ce champ lors de la configuration des tâches Spark, consultez la rubrique Special Parameters Used by AWS Glue dans le guide du développeur.

    Pour plus d'informations sur les arguments que vous pouvez fournir dans ce champ lors de la configuration des tâches Ray, consultez Utilisation des paramètres de tâches dans les tâches Ray dans le guide du développeur.

  • ErrorMessage – Chaîne UTF-8.

    Message d'erreur associé à cette exécution de tâche.

  • PredecessorRuns – Un tableau d'objets Predecessor.

    Liste des prédécesseurs de cette exécution de tâche.

  • AllocatedCapacity – Nombre (entier).

    Ce champ est obsolète. Utilisez MaxCapacity à la place.

    Le nombre d'unités de traitement de AWS Glue données (DPUs) qui y sont allouées JobRun. De 2 à 100 DPUs peuvent être alloués ; la valeur par défaut est 10. Un DPU est une mesure relative de la puissance de traitement composée de 4 V de capacité CPUs de calcul et de 16 Go de mémoire. Pour plus d'informations, consultez la page de tarification AWS Glue.

  • ExecutionTime – Nombre (entier).

    Durée (en secondes) pendant laquelle la tâche exécutée a consommé des ressources.

  • Timeout – Nombre (entier), au moins égal à 1.

    Délai d'expiration de JobRun en minutes. Durée maximale durant laquelle une tâche exécutée peut consommer des ressources avant qu'elle ne se termine et n'entre dans l'état TIMEOUT. Cette valeur remplace la valeur définie dans la tâche parent.

    Les délais d'expiration des tâches doivent être inférieurs à 7 jours ou 10080 minutes. Dans le cas contraire, les tâches généreront une exception.

    Lorsque la valeur est laissée vide, le délai d'expiration est défini par défaut à 2880 minutes.

    Toutes les AWS Glue tâches existantes dont le délai d'expiration est supérieur à 7 jours seront définies par défaut sur 7 jours. Par exemple, si vous avez spécifié un délai d'expiration de 20 jours pour un traitement par lots, celui-ci sera arrêté le 7ème jour.

    Pour les tâches de streaming, si vous avez défini une fenêtre de maintenance, celle-ci sera redémarrée pendant la fenêtre de maintenance après 7 jours.

  • MaxCapacity – Nombre (double).

    Pour les tâches Glue version 1.0 ou antérieures, en utilisant le type de travailleur standard, le nombre d'unités de traitement des AWS Glue données (DPUs) pouvant être allouées lors de l'exécution de cette tâche. Un DPU est une mesure relative de la puissance de traitement composée de 4 V de capacité CPUs de calcul et de 16 Go de mémoire. Pour plus d'informations, consultez la page de tarification AWS Glue.

    Pour les tâches des versions 2.0 et ultérieures de Glue, vous ne pouvez pas spécifier un Maximum capacity. Au lieu de cela, vous devez spécifier Worker type et Number of workers.

    Ne définissez pas MaxCapacity si vous utilisez WorkerType et NumberOfWorkers.

    La valeur pouvant être attribuée à MaxCapacity varie selon que vous exécutez une tâche shell Python, une tâche ETL Apache Spark ou une tâche ETL Apache Spark Streaming :

    • Lorsque vous spécifiez une tâche shell Python (JobCommand.Name="pythonshell"), vous pouvez allouer 0,0625 ou 1 DPU. La valeur par défaut correspond à 0,0625 DPU.

    • Lorsque vous spécifiez une tâche ETL Apache Spark (JobCommand.Name="glueetl ») ou une tâche ETL de streaming Apache Spark (JobCommand.Name="gluestreaming »), vous pouvez en allouer de 2 à 100. DPUs La valeur par défaut est 10 DPUs. Ce type de tâche ne peut pas avoir une allocation DPU fractionnée.

  • WorkerType – Chaîne UTF-8 (valeurs valides: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

    Type de travail prédéfini qui est alloué lorsqu'une tâche est exécutée. Accepte une valeur de G.1X, G.2X, G.4X, G.8X ou G.025X pour les tâches Spark. Accepte la valeur Z.2X pour les tâches Ray.

    • Pour le type de G.1X worker, chaque worker est mappé à 1 DPU (4 vCPUs, 16 Go de mémoire) avec un disque de 94 Go, et fournit 1 exécuteur par worker. Nous recommandons ce type de travailleur pour les charges de travail telles que les transformations de données, les jointures et les requêtes, afin de proposer un moyen évolutif et rentable d'exécuter la plupart des tâches.

    • Pour le type de G.2X travailleur, chaque utilisateur est mappé sur 2 DPU (8 VCPUs, 32 Go de mémoire) avec un disque de 138 Go et fournit un exécuteur par travailleur. Nous recommandons ce type de travailleur pour les charges de travail telles que les transformations de données, les jointures et les requêtes, afin de proposer un moyen évolutif et rentable d'exécuter la plupart des tâches.

    • Pour le type de G.4X worker, chaque worker est mappé sur 4 DPU (16 vCPUs, 64 Go de mémoire) avec un disque de 256 Go, et fournit 1 exécuteur par worker. Nous recommandons ce type de travailleur pour les tâches dont les charges de travail contiennent les transformations, les agrégations, les jointures et les requêtes les plus exigeantes. Ce type de travailleur n'est disponible que pour les tâches Spark ETL AWS Glue version 3.0 ou ultérieure dans les AWS régions suivantes : USA Est (Ohio), USA Est (Virginie du Nord), USA Ouest (Oregon), Asie-Pacifique (Singapour), Asie-Pacifique (Sydney), Asie-Pacifique (Tokyo), Canada (Centre), Europe (Francfort), Europe (Irlande) et Europe (Stockholm).

    • Pour le type de G.8X travailleur, chaque travailleur est mappé sur 8 DPU (32 vCPUs, 128 Go de mémoire) avec un disque de 512 Go et fournit un exécuteur par travailleur. Nous recommandons ce type de travailleur pour les tâches dont les charges de travail contiennent les transformations, les agrégations, les jointures et les requêtes les plus exigeantes. Ce type de travailleur n'est disponible que pour les tâches Spark ETL de AWS Glue version 3.0 ou ultérieure, dans les mêmes AWS régions que celles prises en charge pour le type de G.4X travailleur.

    • Pour le type de G.025X worker, chaque worker est mappé sur 0,25 DPU (2 vCPUs, 4 Go de mémoire) avec un disque de 84 Go, et fournit 1 exécuteur par worker. Nous recommandons ce type d'employé pour les travaux de streaming à faible volume. Ce type de travailleur n'est disponible que pour les tâches de streaming en AWS Glue version 3.0 ou ultérieure.

    • Pour le type de Z.2X travailleur, chaque utilisateur est mappé sur 2 M-DPU (8 VCPUs, 64 Go de mémoire) avec un disque de 128 Go et fournit jusqu'à 8 processeurs de rayons sur la base de l'autoscaler.

  • NumberOfWorkers – Nombre (entier).

    Nombre de travaux d'un workerType défini qui sont attribués lorsqu'une tâche est exécutée.

  • SecurityConfiguration – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la structure SecurityConfiguration à utiliser avec cette exécution de tâche.

  • LogGroupName – Chaîne UTF-8.

    Le nom du groupe de journaux pour la journalisation sécurisée qui peut être chiffré côté serveur sur Amazon CloudWatch à l'aide de. AWS KMS Ce nom peut avoir pour valeur /aws-glue/jobs/, auquel cas le chiffrement par défaut est NONE. Si vous ajoutez un nom de rôle et un nom SecurityConfiguration (en d'autres termes, /aws-glue/jobs-yourRoleName-yourSecurityConfigurationName/), cette configuration de sécurité est utilisée pour chiffrer le groupe de journaux.

  • NotificationProperty – Un objet NotificationProperty.

    Spécifie les propriétés de configuration d'une notification d'exécution de tâche.

  • GlueVersion – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Custom string pattern #47.

    Dans les tâches Spark, GlueVersion détermine les versions d'Apache Spark et de Python AWS Glue disponibles dans une tâche. La version de Python indique la version prise en charge pour les tâches de type Spark.

    Les tâches Ray doivent définir GlueVersion sur 4.0 ou supérieur. Toutefois, les versions de Ray, de Python et des bibliothèques supplémentaires disponibles dans votre tâche Ray sont déterminées par le paramètre Runtime de la commande de tâche.

    Pour plus d'informations sur les AWS Glue versions disponibles et les versions correspondantes de Spark et Python, consultez la version de Glue dans le guide du développeur.

    Les tâches créées sans que la version de Glue soit spécifiée sont des tâches Glue 0.9 par défaut.

  • DPUSeconds – Nombre (double).

    Ce champ peut être défini pour les exécutions de tâches avec classe d'exécution FLEX ou lorsque Auto Scaling est activé. Il représente la durée totale d'exécution de chaque exécuteur pendant le cycle de vie d'une tâche en secondes, multipliée par un facteur DPU (1 pourG.1X, 2 pour G.2X ou 0,25 pour les G.025X travailleurs). Cette valeur peut être différente de la valeur executionEngineRuntime * MaxCapacity comme dans le cas des tâches Auto Scaling, car le nombre d'exécuteurs exécutés à un moment donné peut être inférieur à la MaxCapacity. Par conséquent, il est possible que la valeur de DPUSeconds soit inférieure à executionEngineRuntime * MaxCapacity.

  • ExecutionClass – Chaîne UTF-8, d'une longueur maximale de 16 octets (valeurs valides : FLEX="" | STANDARD="").

    Indique si la tâche est exécutée avec une classe d'exécution standard ou flexible. La classe d'exécution standard est idéale pour les charges de travail urgentes qui nécessitent un démarrage rapide des tâches et des ressources dédiées.

    La classe d'exécution flexible, adaptée aux tâches non urgentes dont les heures de début et de fin peuvent varier.

    Seules les tâches dotées de AWS Glue la version 3.0 ou supérieure et du type de commande glueetl seront autorisées à être définies ExecutionClass surFLEX. La classe d'exécution flexible est disponible pour les tâches Spark.

  • MaintenanceWindow – Chaîne UTF-8, correspondant au Custom string pattern #34.

    Ce champ indique un jour de la semaine et une heure pour une fenêtre de maintenance pour les tâches de streaming. AWS Glue effectue périodiquement des activités de maintenance. Au cours de ces fenêtres de maintenance, vous AWS Glue devrez redémarrer vos tâches de streaming.

    AWS Glue redémarrera le travail dans les 3 heures suivant la période de maintenance spécifiée. Par exemple, si vous configurez la fenêtre de maintenance pour le lundi à 10 h 00 GMT, vos tâches seront redémarrées entre 10 h 00 GMT et 13 h 00 GMT.

  • ProfileName – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom d'un profil AWS Glue d'utilisation associé à la tâche exécutée.

  • StateDetail – Chaîne UTF-8, d'une longueur maximale de 400 000 octets.

    Ce champ contient des informations relatives à l'état d'une tâche exécutée. Le champ est nul.

    Par exemple, lorsqu'une tâche est exécutée dans un état WAITING à la suite d'une mise en file d'attente, le champ indique la raison pour laquelle la tâche exécutée est dans cet état.

Structure de Predecessor

Exécution de tâche utilisée dans le prédicat d'un déclencheur conditionnel ayant déclenché cette exécution de tâche.

Champs
  • JobName – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la définition de tâche utilisée par la tâche exécutée précédente.

  • RunId – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    ID d'exécution de tâche de l'exécution de tâche précédente.

JobBookmarkEntry structure

Définit un point à partir duquel une tâche peut reprendre le traitement.

Champs
  • JobName – Chaîne UTF-8.

    Nom de la tâche en question.

  • Version – Nombre (entier).

    Version de la tâche.

  • Run – Nombre (entier).

    Numéro d'identification de l'exécution.

  • Attempt – Nombre (entier).

    Numéro d'identification de la tentative.

  • PreviousRunId – Chaîne UTF-8.

    Identifiant d'exécution unique associé à l'exécution de tâche précédente.

  • RunId – Chaîne UTF-8.

    Numéro d'identification de l'exécution.

  • JobBookmark – Chaîne UTF-8.

    Le marque-page lui-même.

BatchStopJobRunSuccessfulSubmission structure

Enregistre une requête réussie visant à arrêter une JobRun spécifiée.

Champs
  • JobName – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la définition de tâche utilisée par la tâche exécutée qui a été arrêtée.

  • JobRunId – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    JobRunId de la tâche qui a été arrêtée.

BatchStopJobRunError structure

Enregistre une erreur qui s'est produite lors de la tentative d'arrêt d'une tâche exécutée spécifiée.

Champs
  • JobName – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la définition de tâche utilisée par la tâche exécutée en question.

  • JobRunId – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    JobRunId de l'exécution de tâche en question.

  • ErrorDetail – Un objet ErrorDetail.

    Spécifie les détails de l'erreur qui s'est produite.

NotificationProperty structure

Spécifie les propriétés de configuration d'une notification.

Champs
  • NotifyDelayAfter – Nombre (entier), au moins égal à 1.

    Après le démarrage d'une exécution de tâche, nombre de minutes d'attente avant l'envoi d'une notification de délai d'exécution de tâche.

Opérations

StartJobRun action (Python : start_job_run)

Démarre une exécution de tâche à l'aide d'une définition de tâche.

Demande
  • JobNameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la définition de tâche à utiliser.

  • JobRunQueuingEnabled – Booléen.

    Spécifie si la mise en file d'attente des tâches est activée pour l'exécution de la tâche.

    La valeur true signifie que la mise en file d'attente des tâches est activée pour l'exécution de la tâche. Si la valeur est fausse ou si elle n'est pas renseignée, la tâche exécutée ne sera pas prise en compte pour la mise en file d'attente.

  • JobRunId – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    ID d'une précédente JobRun pour une nouvelle tentative.

  • Arguments – Tableau de mappage de paires valeur-clé.

    Chaque clé est une chaîne UTF-8.

    Chaque valeur est une chaîne UTF-8.

    Arguments de la tâche associés à cette exécution. Pour cette exécution de tâche, ils remplacent les arguments par défaut définis pour la tâche elle-même.

    Vous pouvez spécifier ici les arguments que votre propre script d'exécution de tâches consomme, ainsi que les arguments qu'il consomme AWS Glue lui-même.

    Les arguments de la tâche peuvent être consignés. Ne transmettez pas de secrets en texte clair comme arguments. Récupérez les secrets d'une AWS Glue connexion AWS Secrets Manager ou d'un autre mécanisme de gestion des secrets si vous avez l'intention de les conserver dans le cadre du Job.

    Pour plus d'informations sur la façon de spécifier et d'utiliser vos propres arguments Job, consultez la rubrique Calling AWS Glue APIs in Python du guide du développeur.

    Pour plus d'informations sur les arguments que vous pouvez fournir dans ce champ lors de la configuration des tâches Spark, consultez la rubrique Special Parameters Used by AWS Glue dans le guide du développeur.

    Pour plus d'informations sur les arguments que vous pouvez fournir dans ce champ lors de la configuration des tâches Ray, consultez Utilisation des paramètres de tâches dans les tâches Ray dans le guide du développeur.

  • AllocatedCapacity – Nombre (entier).

    Ce champ est obsolète. Utilisez MaxCapacity à la place.

    Le nombre d'unités de traitement de AWS Glue données (DPUs) à y affecter JobRun. Vous pouvez en allouer au moins 2 DPUs ; la valeur par défaut est 10. Un DPU est une mesure relative de la puissance de traitement composée de 4 V de capacité CPUs de calcul et de 16 Go de mémoire. Pour plus d'informations, consultez la page de tarification AWS Glue.

  • Timeout – Nombre (entier), au moins égal à 1.

    Délai d'expiration de JobRun en minutes. Durée maximale durant laquelle une tâche exécutée peut consommer des ressources avant qu'elle ne se termine et n'entre dans l'état TIMEOUT. Cette valeur remplace la valeur définie dans la tâche parent.

    Les délais d'expiration des tâches doivent être inférieurs à 7 jours ou 10080 minutes. Dans le cas contraire, les tâches généreront une exception.

    Lorsque la valeur est laissée vide, le délai d'expiration est défini par défaut à 2880 minutes.

    Toutes les AWS Glue tâches existantes dont le délai d'expiration est supérieur à 7 jours seront définies par défaut sur 7 jours. Par exemple, si vous avez spécifié un délai d'expiration de 20 jours pour un traitement par lots, celui-ci sera arrêté le 7ème jour.

    Pour les tâches de streaming, si vous avez défini une fenêtre de maintenance, celle-ci sera redémarrée pendant la fenêtre de maintenance après 7 jours.

  • MaxCapacity – Nombre (double).

    Pour les tâches Glue version 1.0 ou antérieures, en utilisant le type de travailleur standard, le nombre d'unités de traitement des AWS Glue données (DPUs) pouvant être allouées lors de l'exécution de cette tâche. Un DPU est une mesure relative de la puissance de traitement composée de 4 V de capacité CPUs de calcul et de 16 Go de mémoire. Pour plus d'informations, consultez la page de tarification AWS Glue.

    Pour les tâches des versions 2.0 et ultérieures de Glue, vous ne pouvez pas spécifier un Maximum capacity. Au lieu de cela, vous devez spécifier Worker type et Number of workers.

    Ne définissez pas MaxCapacity si vous utilisez WorkerType et NumberOfWorkers.

    La valeur pouvant être attribuée à MaxCapacity varie selon que vous exécutez une tâche shell Python, une tâche ETL Apache Spark ou une tâche ETL Apache Spark Streaming :

    • Lorsque vous spécifiez une tâche shell Python (JobCommand.Name="pythonshell"), vous pouvez allouer 0,0625 ou 1 DPU. La valeur par défaut correspond à 0,0625 DPU.

    • Lorsque vous spécifiez une tâche ETL Apache Spark (JobCommand.Name="glueetl ») ou une tâche ETL de streaming Apache Spark (JobCommand.Name="gluestreaming »), vous pouvez en allouer de 2 à 100. DPUs La valeur par défaut est 10 DPUs. Ce type de tâche ne peut pas avoir une allocation DPU fractionnée.

  • SecurityConfiguration – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la structure SecurityConfiguration à utiliser avec cette exécution de tâche.

  • NotificationProperty – Un objet NotificationProperty.

    Spécifie les propriétés de configuration d'une notification d'exécution de tâche.

  • WorkerType – Chaîne UTF-8 (valeurs valides: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

    Type de travail prédéfini qui est alloué lorsqu'une tâche est exécutée. Accepte une valeur de G.1X, G.2X, G.4X, G.8X ou G.025X pour les tâches Spark. Accepte la valeur Z.2X pour les tâches Ray.

    • Pour le type de G.1X worker, chaque worker est mappé à 1 DPU (4 vCPUs, 16 Go de mémoire) avec un disque de 94 Go, et fournit 1 exécuteur par worker. Nous recommandons ce type de travailleur pour les charges de travail telles que les transformations de données, les jointures et les requêtes, afin de proposer un moyen évolutif et rentable d'exécuter la plupart des tâches.

    • Pour le type de G.2X travailleur, chaque utilisateur est mappé sur 2 DPU (8 VCPUs, 32 Go de mémoire) avec un disque de 138 Go et fournit un exécuteur par travailleur. Nous recommandons ce type de travailleur pour les charges de travail telles que les transformations de données, les jointures et les requêtes, afin de proposer un moyen évolutif et rentable d'exécuter la plupart des tâches.

    • Pour le type de G.4X worker, chaque worker est mappé sur 4 DPU (16 vCPUs, 64 Go de mémoire) avec un disque de 256 Go, et fournit 1 exécuteur par worker. Nous recommandons ce type de travailleur pour les tâches dont les charges de travail contiennent les transformations, les agrégations, les jointures et les requêtes les plus exigeantes. Ce type de travailleur n'est disponible que pour les tâches Spark ETL AWS Glue version 3.0 ou ultérieure dans les AWS régions suivantes : USA Est (Ohio), USA Est (Virginie du Nord), USA Ouest (Oregon), Asie-Pacifique (Singapour), Asie-Pacifique (Sydney), Asie-Pacifique (Tokyo), Canada (Centre), Europe (Francfort), Europe (Irlande) et Europe (Stockholm).

    • Pour le type de G.8X travailleur, chaque travailleur est mappé sur 8 DPU (32 vCPUs, 128 Go de mémoire) avec un disque de 512 Go et fournit un exécuteur par travailleur. Nous recommandons ce type de travailleur pour les tâches dont les charges de travail contiennent les transformations, les agrégations, les jointures et les requêtes les plus exigeantes. Ce type de travailleur n'est disponible que pour les tâches Spark ETL de AWS Glue version 3.0 ou ultérieure, dans les mêmes AWS régions que celles prises en charge pour le type de G.4X travailleur.

    • Pour le type de G.025X worker, chaque worker est mappé sur 0,25 DPU (2 vCPUs, 4 Go de mémoire) avec un disque de 84 Go, et fournit 1 exécuteur par worker. Nous recommandons ce type d'employé pour les travaux de streaming à faible volume. Ce type de travailleur n'est disponible que pour les tâches de streaming en AWS Glue version 3.0 ou ultérieure.

    • Pour le type de Z.2X travailleur, chaque utilisateur est mappé sur 2 M-DPU (8 VCPUs, 64 Go de mémoire) avec un disque de 128 Go et fournit jusqu'à 8 processeurs de rayons sur la base de l'autoscaler.

  • NumberOfWorkers – Nombre (entier).

    Nombre de travaux d'un workerType défini qui sont attribués lorsqu'une tâche est exécutée.

  • ExecutionClass – Chaîne UTF-8, d'une longueur maximale de 16 octets (valeurs valides : FLEX="" | STANDARD="").

    Indique si la tâche est exécutée avec une classe d'exécution standard ou flexible. La classe d'exécution standard est idéale pour les charges de travail urgentes qui nécessitent un démarrage rapide des tâches et des ressources dédiées.

    La classe d'exécution flexible, adaptée aux tâches non urgentes dont les heures de début et de fin peuvent varier.

    Seules les tâches dotées de AWS Glue la version 3.0 ou supérieure et du type de commande glueetl seront autorisées à être définies ExecutionClass surFLEX. La classe d'exécution flexible est disponible pour les tâches Spark.

  • ProfileName – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom d'un profil AWS Glue d'utilisation associé à la tâche exécutée.

Réponse
  • JobRunId – Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    ID attribuée à cette exécution de tâche.

Erreurs
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

  • ConcurrentRunsExceededException

BatchStopJobRun action (Python : batch_stop_job_run)

Arrête une ou plusieurs exécutions de tâche pour une définition de tâche spécifiée.

Demande
  • JobNameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la définition de tâche pour laquelle arrêter les exécutions de tâche.

  • JobRunIdsObligatoire : Tableau de chaînes UTF-8, avec 1 chaîne minimum et 25 chaînes maximum.

    Liste des JobRunIds qui doivent être arrêtés pour cette définition de tâche.

Réponse
  • SuccessfulSubmissions – Un tableau d'objets BatchStopJobRunSuccessfulSubmission.

    Une liste de ceux JobRuns qui ont été soumis avec succès pour arrêt.

  • Errors – Un tableau BatchStopJobRunError d'objets.

    Liste des erreurs qui se sont produites lors de la tentative d'arrêt de JobRuns, incluant la JobRunId pour laquelle chaque erreur s'est produite et les détails de l'erreur.

Erreurs
  • InvalidInputException

  • InternalServiceException

  • OperationTimeoutException

GetJobRun action (Python : get_job_run)

Récupère les métadonnées d'une exécution de tâche donnée. L'historique d'exécution des tâches est accessible pendant 90 jours pour votre flux de travail et l'exécution des tâches.

Demande
  • JobNameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la définition de tâche en cours d'exécution.

  • RunIdObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    ID de l'exécution de tâche.

  • PredecessorsIncluded – Booléen.

    True si une liste d'exécutions précédentes doit être renvoyée.

Réponse
  • JobRun – Un objet JobRun.

    Métadonnées de l'exécution de tâche demandée.

Erreurs
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

GetJobRuns action (Python : get_job_runs)

Récupère les métadonnées de toutes les exécutions d'une définition de tâche donnée.

GetJobRunsrenvoie les tâches exécutées par ordre chronologique, les tâches les plus récentes étant renvoyées en premier.

Demande
  • JobNameObligatoire : Chaîne UTF-8, d'une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la définition de tâche pour laquelle récupérer toutes les exécutions de tâche.

  • NextToken – Chaîne UTF-8.

    Jeton de continuation, s'il s'agit d'un appel de continuation.

  • MaxResults— Nombre (entier), pas moins de 1 ou plus de 200.

    Taille maximale de la réponse.

Réponse
  • JobRuns – Un tableau d'objets JobRun.

    Liste des objets de métadonnées de l'exécution de tâche.

  • NextToken – Chaîne UTF-8.

    Jeton de continuation, si toutes les exécutions de tâche demandées ne sont pas renvoyées.

Erreurs
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

GetJobBookmark action (Python : get_job_bookmark)

Renvoie des informations sur une entrée de marque-page de tâche.

Pour plus d'informations sur l'activation et l'utilisation des marque-pages de tâche, consultez :

Demande
  • JobNameObligatoire : chaîne UTF-8.

    Nom de la tâche en question.

  • Version – Nombre (entier).

    Version de la tâche.

  • RunId – Chaîne UTF-8.

    Identifiant d'exécution unique associé à l'exécution de cette tâche.

Réponse
  • JobBookmarkEntry – Un objet JobBookmarkEntry.

    Structure qui définit un point à partir duquel une tâche peut reprendre le traitement.

Erreurs
  • EntityNotFoundException

  • InvalidInputException

  • InternalServiceException

  • OperationTimeoutException

  • ValidationException

GetJobBookmarks action (Python : get_job_bookmarks)

Renvoie des informations sur les données de marque-page de tâche. La liste est classée par numéros de version décroissants.

Pour plus d'informations sur l'activation et l'utilisation des marque-pages de tâche, consultez :

Demande
  • JobNameObligatoire : chaîne UTF-8.

    Nom de la tâche en question.

  • MaxResults – Nombre (entier).

    Taille maximale de la réponse.

  • NextToken – Nombre (entier).

    Jeton de continuation, s'il s'agit d'un appel de continuation.

Réponse
  • JobBookmarkEntries – Un tableau JobBookmarkEntry d'objets.

    Liste de données de marque-page de tâche qui définit un point à partir duquel une tâche peut reprendre son exécution.

  • NextToken – Nombre (entier).

    Jeton de continuation, qui prend la valeur 1 si toutes les entrées sont renvoyées, ou > 1 si toutes les exécutions de tâches demandées n'ont pas été renvoyées.

Erreurs
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

ResetJobBookmark action (Python : reset_job_bookmark)

Réinitialise une donnée de marque-page.

Pour plus d'informations sur l'activation et l'utilisation des marque-pages de tâche, consultez :

Demande
  • JobNameObligatoire : chaîne UTF-8.

    Nom de la tâche en question.

  • RunId – Chaîne UTF-8.

    Identifiant d'exécution unique associé à l'exécution de cette tâche.

Réponse
  • JobBookmarkEntry – Un objet JobBookmarkEntry.

    Donnée de marque-page de réinitialisation.

Erreurs
  • EntityNotFoundException

  • InvalidInputException

  • InternalServiceException

  • OperationTimeoutException