Référence des classes de plan AWS Glue - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Référence des classes de plan AWS Glue

Les bibliothèques pour les modèles AWS Glue définissent trois classes que vous utilisez dans votre script de structure de flux de travail : Job, Crawler et Workflow.

Classe Tâche

La classe Job représente une tâche ETL AWS Glue.

Arguments de constructeur obligatoires

Les arguments de constructeur suivants sont obligatoires pour la classe Job.

Nom d'argument Type Description
Name str Nom à affecter à la tâche. AWS Glue ajoute un suffixe généré de manière aléatoire au nom pour distinguer la tâche de celles créées par d'autres exécutions de plan.
Role str Amazon Resource Name (ARN) du rôle que la tâche doit assumer lors de son exécution.
Command dict Commande de tâche, comme spécifié dans la rubrique JobCommand structure de la documentation de l'API.
Arguments de constructeur facultatifs

Les arguments de constructeur suivants sont facultatifs pour la classe Job.

Nom d'argument Type Description
DependsOn dict Liste des entités de flux de travail dont dépend la tâche. Pour de plus amples informations, veuillez consulter Utilisation de l'argument DependsOn.
WaitForDependencies str Indique si la tâche doit attendre jusqu'à ce que toutes les entités dont elle dépend se terminent ou qu'une seule d'entre elles se termine avant de s'exécuter. Pour de plus amples informations, veuillez consulter Utilisation de l'argument waitForDependencies. Omettre si la tâche ne dépend que d'une seule entité.
(Propriétés de la tâche) - Toutes les propriétés de tâche répertoriées dans Structure Job dans la documentation de l'API AWS Glue (sauf CreatedOn et LastModifiedOn).

Classe de crawler

La classe Crawler représente un crawler AWS Glue.

Arguments de constructeur obligatoires

Les arguments de constructeur suivants sont obligatoires pour la classe Crawler.

Nom d'argument Type Description
Name str Nom à affecter à la recherche. AWS Glue ajoute un suffixe généré de manière aléatoire au nom pour distinguer l'crawler de ceux créés par d'autres exécutions de plan.
Role str ARN du rôle que l'crawler doit assumer lors de l'exécution.
Targets dict Collecte de cibles à analyser. Les arguments de constructeur de classe Targets sont définis dans la rubrique CrawlerTargets structure de la documentation de l'API. Tous les arguments de constructeur Targets sont facultatifs, mais vous devez en passer au moins un.
Arguments de constructeur facultatifs

Les arguments de constructeur suivants sont facultatifs pour la classe Crawler.

Nom d'argument Type Description
DependsOn dict Liste des entités de flux de travail dont dépend l'crawler. Pour de plus amples informations, veuillez consulter Utilisation de l'argument DependsOn.
WaitForDependencies str Indique si l'crawler doit attendre jusqu'à ce que toutes les entités dont il dépend se terminent ou qu'une seule d'entre elles se termine avant de s'exécuter. Pour de plus amples informations, veuillez consulter Utilisation de l'argument waitForDependencies. Omettre si l'crawler ne dépend que d'une seule entité.
(Propriétés de l'crawler) - Toutes les propriétés de l'crawler répertoriées dans Structure du crawler de la documentation de l'API AWS Glue, avec les exceptions suivantes :
  • State

  • CrawlElapsedTime

  • CreationTime

  • LastUpdated

  • LastCrawl

  • Version

Classe de flux de travail

La classe Workflow représente un flux de travail AWS Glue. Le script de mise en page du flux de travail renvoie un objet Workflow. AWS Glue crée un flux de travail basé sur cet objet.

Arguments de constructeur obligatoires

Les arguments de constructeur suivants sont obligatoires pour la classe Workflow.

Nom d'argument Type Description
Name str Nom à affecter au flux de travail.
Entities Entities Ensemble d'entités (tâches et crawlers) à inclure dans le flux de travail. Le constructeur de classe Entities accepte un argument Jobs, qui est une liste de Job et un objet Crawlers, qui est une liste d'objets Crawler.
Arguments de constructeur facultatifs

Les arguments de constructeur suivants sont facultatifs pour la classe Workflow.

Nom d'argument Type Description
Description str Consultez Structure de flux de travail.
DefaultRunProperties dict Consultez Structure de flux de travail.
OnSchedule str Une expression cron.

Méthodes de classe

Les trois classes comprennent les méthodes suivantes.

validate()

Valide les propriétés de l'objet et, si des erreurs sont détectées, affiche un message et sort. Ne génère aucune sortie s'il n'y a pas d'erreurs. Pour la classe Workflow, s'appelle elle-même pour chaque entité du flux de travail.

to_json()

Sérialise l'objet au format JSON. Appelle également validate(). Pour la classe Workflow, l'objet JSON inclut des listes de tâches et d'crawlers, ainsi qu'une liste de déclencheurs générés par les spécifications de dépendance de la tâche et de l'crawler.