AWS Glue états d'exécution des tâches sur la console

Mode de mise au point

AWS Glue états d'exécution des tâches sur la console - AWS Glue

Accès au tableau de bord de surveillance de tâche Présentation du tableau de bord de surveillance de tâche Vue des exécutions de tâche Afficher les journaux d'exécution de la tâche Affichage des détails d'une exécution de tâche Afficher Amazon CloudWatch les statistiques relatives à l'exécution d'une tâche Spark Afficher Amazon CloudWatch les statistiques relatives à l'exécution d'une tâche Ray

Vous pouvez consulter le statut d'un AWS Glue tâche d'extraction, de transformation et de chargement (ETL) pendant son exécution ou après son arrêt. Vous pouvez consulter le statut à l'aide du AWS Glue console. Pour de plus amples informations sur les états d'exécution des tâches, consultez AWS Glue états d'exécution des tâches.

Accès au tableau de bord de surveillance de tâche

Vous accédez au tableau de bord de suivi des tâches en cliquant sur le lien de surveillance de l'exécution des tâches dans le AWS Glue volet de navigation sous les tâches ETL.

Présentation du tableau de bord de surveillance de tâche

Le tableau de bord de surveillance de tâche fournit un récapitulatif global des exécutions de tâches, avec des totaux pour les tâches dont le statut est Running (En cours d'exécution), Canceled (Annulé), Success (Succès), ou Failed (Échec). Des vignettes supplémentaires fournissent le taux de réussite global de l'exécution des tâches, l'utilisation estimée du DPU pour les tâches, une ventilation des comptes de statut des tâches par type de tâche, type d'employé et par jour.

Les graphiques dans les vignettes sont interactifs. Vous pouvez choisir n'importe quel bloc d'un graphique pour exécuter un filtre qui affiche uniquement ces tâches dans le tableau Job runs (Exécutions de tâche) au bas de la page.

Vous pouvez modifier la plage de dates des informations affichées sur cette page à l'aide du sélecteur Date range (Plage de dates). Lorsque vous modifiez la plage de dates, les vignettes d'informations s'ajustent pour afficher les valeurs du nombre de jours spécifié avant la date actuelle. Vous pouvez également utiliser une plage de dates spécifique si vous sélectionnez Custom (Personnalisée) à partir du sélecteur de plage de dates.

Vue des exécutions de tâche

Note

L'historique d'exécution des tâches est accessible pendant 90 jours pour votre flux de travail et l'exécution des tâches.

La liste des ressources Job runs (Exécutions de tâche) affiche les tâches pour la plage de dates et les filtres spécifiés.

Vous pouvez filtrer les tâches en fonction de critères supplémentaires, tels que le statut, le type d'employé, le type de tâche et le nom de la tâche. Dans la zone de filtre située en haut du tableau, vous pouvez saisir le texte à utiliser comme filtre. Les résultats du tableau sont mis à jour avec des lignes qui contiennent du texte correspondant lorsque vous saisissez le texte.

Vous pouvez afficher un sous-ensemble des tâches en choisissant des éléments dans les graphiques du tableau de bord de surveillance de tâche. Par exemple, si vous choisissez le nombre de tâches en cours d'exécution dans la liste Job runs summary (Résumé des exécutions de tâches), la vignette Job runs (Exécutions de tâche) affiche uniquement les tâches dont le statut est actuellement Running. Si vous choisissez l'une des barres du diagramme à barres Worker type breakdown (Répartition par type d'employé), seules les exécutions de tâche dont le type et le statut d'employé correspondent sont affichées dans la liste Job runs (Exécutions de tâche).

La liste de ressources Job runs (Exécutions de tâche) affiche les détails des exécutions de tâche. Vous pouvez trier les lignes du tableau en choisissant un en-tête de colonne. Le tableau contient les informations suivantes :

Propriété	Description
Nom de la tâche	Nom de la tâche .
Type	Le type d'environnement de la tâche : Glue ETL : s'exécute dans un environnement Apache Spark géré par AWS Glue. Glue Streaming : s'exécute dans un environnement Apache Spark et exécute ETL sur des flux de données. Shell Python : exécute les scripts Python en tant que shell.
L'heure de début	Date et heure auxquelles cette exécution de tâche a démarré.
L'heure de fin	Date et heure auxquelles cette exécution de tâche s'est terminée.
Statut de l'exécution	État actuel de l'exécution de tâche. Les valeurs peuvent être : `STARTING` `RUNNING` `STOPPING` `STOPPED` `SUCCEEDED` `FAILED` `TIMEOUT`
Durée de l'exécution	Le temps pendant lequel l'exécution de la tâche a consommé des ressources.
Capacité	Le nombre de AWS Glue unités de traitement de données (DPUs) allouées pour cette exécution de tâche. Pour plus d'informations sur la planification des capacités, consultez la section Surveillance de la planification de la capacité du DPU dans AWS Glue Guide du développeur.
Type d'employé	Type d'employé prédéfini qui est alloué lorsqu'une tâche est exécutée. Les valeurs peuvent être `G.1X`, `G.2X`, `G.4X` ou `G.8X`. `G.1X` – Lorsque vous choisissez ce type, vous devez également fournir une valeur pour Number of workers (Nombre d'employés). Chaque utilisateur est mappé sur 1 DPU (4 VCPUs, 16 Go de mémoire) avec un disque de 84 Go (environ 34 Go libres). Nous vous recommandons ce type d'employé pour les tâches utilisant beaucoup de mémoire. Il s'agit du type de travailleur par défaut pour AWS Glue Tâches en version 2.0 ou ultérieure. `G.2X` – Lorsque vous choisissez ce type, vous devez également fournir une valeur pour Number of workers (Nombre d'employés). Chaque utilisateur mappe sur 2 processeurs (8 VCPUs, 32 Go de mémoire) avec un disque de 128 Go (environ 77 Go libres). Nous vous recommandons ce type d'employé pour des tâches qui requiert beaucoup de mémoire et des tâches qui effectuent des transformations Machine Learning. `G.4X` – Lorsque vous choisissez ce type, vous devez également fournir une valeur pour Number of workers (Nombre d'employés). Chaque utilisateur mappe sur 4 processeurs (16 VCPUs, 64 Go de mémoire) avec un disque de 256 Go (environ 235 Go libres). Nous recommandons ce type de travailleur pour les tâches dont les charges de travail contiennent les transformations, les agrégations, les jointures et les requêtes les plus exigeantes. Ce type de travailleur n'est disponible que pour AWS Glue version 3.0 ou ultérieure Spark ETL jobs dans les AWS régions suivantes : USA Est (Ohio), USA Est (Virginie du Nord), USA Ouest (Oregon), Asie-Pacifique (Singapour), Asie-Pacifique (Sydney), Asie-Pacifique (Tokyo), Canada (Centre), Europe (Francfort), Europe (Irlande) et Europe (Stockholm). `G.8X` – Lorsque vous choisissez ce type, vous devez également fournir une valeur pour Number of workers (Nombre d'employés). Chaque utilisateur mappe sur 8 DPU (32 VCPUs, 128 Go de mémoire) avec un disque de 512 Go (environ 487 Go libres). Nous recommandons ce type de travailleur pour les tâches dont les charges de travail contiennent les transformations, les agrégations, les jointures et les requêtes les plus exigeantes. Ce type de travailleur n'est disponible que pour AWS Glue jobs Spark ETL version 3.0 ou ultérieure, dans les mêmes AWS régions que celles prises en charge pour le type de `G.4X` travailleur.
Heures DPU	Nombre estimé d'unités DPUs utilisées pour l'exécution de la tâche. Un DPU est une mesure relative de la puissance de traitement. DPUs sont utilisés pour déterminer le coût de fonctionnement de votre travail. Pour de plus amples informations, veuillez consulter le .AWS Gluepage de tarification.

Vous pouvez sélectionner n'importe quelle exécution de tâche dans la liste et afficher des informations supplémentaires. Choisissez une exécution de tâche, puis procédez comme suit :

Sélectionnez le menu Actions, puis l'option View job (Voir la tâche) pour afficher la tâche dans l'éditeur visuel.
Sélectionnez le menu Actions, puis l'option Stop run (Arrêter l'exécution) pour arrêter l'exécution de la tâche en cours.
Cliquez sur le bouton Afficher CloudWatch les journaux pour afficher les journaux d'exécution du travail correspondant à ce travail.
Choisissez Afficher les détails pour afficher la page des détails de l'exécution de la tâche.

Afficher les journaux d'exécution de la tâche

Vous pouvez afficher les journaux des tâches de diverses manières :

Sur la page Surveillance, dans le tableau Exécutions de tâches, choisissez une exécution de tâche, puis choisissez Afficher CloudWatch les journaux.
Dans l'éditeur de tâches visuel, dans l'onglet Runs (Exécutions) d'une tâche, sélectionnez les liens hypertextes pour afficher les journaux :
- Logs (Journaux) Liens vers les journaux de tâche Apache Spark écrits lorsque la journalisation continue est activée pour une exécution de tâche. Lorsque vous cliquez sur ce lien, vous accédez aux Amazon CloudWatch journaux du groupe de /aws-glue/jobs/logs-v2 journaux. Par défaut, les journaux excluent les messages non utiles de Apache Hadoop YARN heartbeat et du pilote ou de l'exécuteur Apache Spark. Pour plus d'informations sur la journalisation continue, voir Journalisation continue pour AWS Glue Emplois dans le AWS Glue Guide du développeur.
- Error logs (Journaux d'erreur) — Liens vers les journaux écrits dans stderr pour cette exécution de tâche. Lorsque vous sélectionnez ce lien, vous accédez aux journaux Amazon CloudWatch dans le groupe de journalisation /aws-glue/jobs/error. Vous pouvez utiliser ces journaux pour afficher les détails de toutes les erreurs rencontrées pendant l'exécution de la tâche.
- Output logs (Journaux de sortie) — Liens vers les journaux écrits dans stdout pour cette exécution de tâche. Lorsque vous sélectionnez ce lien, vous accédez aux journaux Amazon CloudWatch dans le groupe de journalisation /aws-glue/jobs/output. Vous pouvez utiliser ces journaux pour voir tous les détails concernant les tables créées dans AWS Glue Data Catalog et toutes les erreurs qui ont été rencontrées.

Affichage des détails d'une exécution de tâche

Vous pouvez choisir une tâche dans la liste Job runs (Exécutions de tâche) sur la page Monitoring (Surveillance), puis choisir View run details (Afficher les détails de l'exécution) pour afficher des informations détaillées sur cette exécution de tâche.

Les informations affichées sur la page de détails de l'exécution de la tâche comprennent :

Propriété	Description
Nom de la tâche	Nom de la tâche .
Statut de l'exécution	État actuel de l'exécution de tâche. Les valeurs peuvent être : `STARTING` `RUNNING` `STOPPING` `STOPPED` `SUCCEEDED` `FAILED` `TIMEOUT`
Version Glue	Le AWS Glue version utilisée par le job exécuté.
Tentative récente	Le nombre de tentatives automatiques de relance pour cette exécution de tâche.
L'heure de début	Date et heure auxquelles cette exécution de tâche a démarré.
L'heure de fin	Date et heure auxquelles cette exécution de tâche s'est terminée.
L'heure de début	Le temps consacré à la préparation de la tâche.
Durée d’exécution	Le temps consacré à l'exécution du script de tâche.
Nom du déclencheur	Le nom du déclencheur associé à la tâche.
L'heure de dernière modification	La date de dernière modification de la tâche.
Configuration de la sécurité	La configuration de sécurité de la tâche, qui inclut le chiffrement Amazon S3, le chiffrement et les paramètres de CloudWatch chiffrement des signets de tâches.
Expiration	La valeur seuil du délai d'exécution de la tâche.
Capacité allouée	Le nombre de AWS Glue unités de traitement de données (DPUs) allouées pour cette exécution de tâche. Pour plus d'informations sur la planification des capacités, consultez la section Surveillance de la planification de la capacité du DPU dans AWS Glue Guide du développeur.
Capacité max.	Capacité maximale disponible pour l'exécution de la tâche.
Nombre d'employés	Le nombre de travailleurs utilisés pour l'exécution de la tâche.
Type d'employé	Type d'employés prédéfinis alloués à l'exécution de la tâche. Les valeurs peuvent être `G.1X` ou `G.2X`. `G.1X` – Lorsque vous choisissez ce type, vous devez également fournir une valeur pour Number of workers (Nombre d'employés). Chaque travailleur est mappé à 1 DPU (4 VCPUs, 16 Go de mémoire, 64 Go de disque) et fournit 1 exécuteur par travailleur. Nous vous recommandons ce type d'employé pour les tâches utilisant beaucoup de mémoire. Il s'agit du type de travailleur par défaut pour AWS Glue Tâches en version 2.0 ou ultérieure. `G.2X` – Lorsque vous choisissez ce type, vous devez également fournir une valeur pour Number of workers (Nombre d'employés). Chaque worker correspond à 2 DPUs (8 vCPUs, 32 Go de mémoire, 128 Go de disque) et fournit 1 exécuteur par worker. Nous vous recommandons ce type d'employé pour des tâches qui requiert beaucoup de mémoire et des tâches qui effectuent des transformations Machine Learning.
Journaux	Un lien vers les journaux de tâches pour la journalisation continue (`/aws-glue/jobs/logs-v2`).
Journaux de sortie	Un lien vers les fichiers journaux de sortie de la tâche (`/aws-glue/jobs/output`).
Journaux des erreurs	Un lien vers les fichiers de journalisation des erreurs de la tâche (`/aws-glue/jobs/error`).

Vous pouvez également afficher les éléments supplémentaires suivants, qui sont disponibles lorsque vous affichez les informations relatives aux exécutions de tâches récentes. Pour de plus amples informations, veuillez consulter Afficher les informations sur les exécutions de tâche récentes.

Arguments d'entrée
Journaux continus
Métriques : vous pouvez consulter des vues des métriques de base. Pour plus d’informations sur les métriques fournies, consultez Afficher Amazon CloudWatch les statistiques relatives à l'exécution d'une tâche Spark.
Interface utilisateur Spark : vous pouvez visualiser les journaux Spark relatifs à votre tâche dans l’interface utilisateur Spark. Pour plus d’informations sur l'utilisation de l'interface utilisateur web Spark, consultez Surveillance des tâches à l'aide de l'interface utilisateur web Apache Spark. Activez cette fonctionnalité en suivant la procédure présentée dans Activation de l'interface utilisateur Web d'Apache Spark pour AWS Glue jobs.

Afficher Amazon CloudWatch les statistiques relatives à l'exécution d'une tâche Spark

Sur la page de détails d'une exécution de tâche, sous la section Détails de l'exécution, vous pouvez consulter les statistiques de la tâche. AWS Glue Studio envoie des métriques de tâche Amazon CloudWatch pour chaque exécution de tâche.

AWS Glue rapporte les métriques Amazon CloudWatch toutes les 30 secondes. Les métriques AWS Glue représentent des valeurs delta des valeurs précédemment rapportées. Le cas échéant, les tableaux de bord de métriques regroupent (additionnent) les valeurs de plages de 30 secondes pour obtenir une valeur pour la totalité de la dernière minute. Toutefois, les métriques d'Apache AWS Glue Spark transmises à Amazon CloudWatch sont généralement des valeurs absolues qui représentent l'état actuel au moment où elles sont signalées.

Note

Vous devez configurer votre compte pour accéder à Amazon CloudWatch,.

Les métriques fournissent des informations sur votre exécution de tâche, telles que :

ETL Data Movement (Mouvement de données ETL) — Nombre d'octets lus ou écrits dans Amazon S3.
Memory Profile: Heap used (Profil de la mémoire : tas utilisé) — Le nombre d'octets de mémoire utilisés par le tas de la machine virtuelle Java (JVM).
Memory Profile: heap usage (Profil mémoire : utilisation du tas) — La fraction de la mémoire (échelle : 0-1), indiquée en pourcentage, utilisée par le tas de la JVM.
CPU Load (Charge CPU) — La fraction de la charge du système CPU utilisée (échelle : 0-1), indiquée en pourcentage.

Afficher Amazon CloudWatch les statistiques relatives à l'exécution d'une tâche Ray

Note

Vous devez configurer votre compte pour y accéder Amazon CloudWatch, comme décrit dans.

Dans tâches Ray, vous pouvez afficher les graphiques de métriques agrégés suivants. Vous pouvez ainsi créer un profil de votre cluster et de vos tâches, ainsi qu'accéder à des informations détaillées sur chaque nœud. Les données des séries chronologiques qui soutiennent ces graphiques sont disponibles CloudWatch pour une analyse plus approfondie.

Profil de tâche : statut de la tâche: Indique le nombre de tâches Ray dans le système. Chaque cycle de vie d'une tâche se voit attribuer sa propre série temporelle.
Profil de tâche : nom de la tâche: Indique le nombre de tâches Ray dans le système. Seules les tâches en attente et actives sont affichées. Chaque type de tâche (par son nom) se voit attribuer sa propre série temporelle.
Profil du cluster : CPUs en cours d'utilisation: Indique le nombre de cœurs de processeur utilisés. Chaque nœud se voit attribuer sa propre série temporelle. Les nœuds sont identifiés par des adresses IP, qui sont éphémères et ne servent qu'à l'identification.
Profil du cluster : utilisation de la mémoire du magasin d'objets: Indique l'utilisation de la mémoire par le cache d'objets Ray. Chaque emplacement de mémoire (mémoire physique, mémoire mise en cache sur disque et déversée dans Amazon S3) reçoit sa propre série temporelle. Le magasin d'objets gère le stockage de données sur tous les nœuds du cluster. Pour en savoir plus, consultez Objects dans la documentation Ray.
Profil du cluster : nombre de nœuds: Affiche le nombre de nœuds provisionnés pour le cluster.
Détail du nœud : utilisation du processeur: Affiche l'utilisation du processeur sur chaque nœud sous forme de pourcentage. Chaque série affiche un pourcentage agrégé de l'utilisation du processeur sur tous les cœurs du nœud.
Détail du nœud : utilisation de la mémoire: Affiche l'utilisation de la mémoire sur chaque nœud en Go. Chaque série montre la mémoire agrégée entre tous les processus du nœud, y compris les tâches Ray et le processus de stockage Plasma. Cela ne reflète pas les objets stockés sur le disque ou déversés sur Amazon S3.
Détail du nœud : utilisation du disque: Affiche l'utilisation du disque sur chaque nœud en Go.
Détail du nœud : vitesse d'E/S du disque: Affiche les E/S du disque sur chaque nœud en Ko/s.
Détail du nœud : débit d'E/S du réseau: Affiche les E/S du réseau sur chaque nœud en Ko/s.
Détail du nœud : utilisation du processeur par le composant Ray: Affiche l'utilisation du processeur dans fractions d'un cœur. Chaque composant Ray sur chaque nœud se voit attribuer sa propre série temporelle.
Détail du nœud : utilisation de la mémoire par le composant Ray: Affiche l'utilisation de la mémoire en Gio. Chaque composant Ray sur chaque nœud se voit attribuer sa propre série temporelle.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.