Amazon EMR en cours d'exécution sur des tâches EC2 Applications Amazon EMR sans serveur Les tâches Amazon EMR sur EKS sont exécutées

Déboguer des applications et des tâches avec EMR Studio

Avec Amazon EMR Studio, vous pouvez lancer des interfaces d'applications de données pour analyser les applications et les exécutions de tâches dans le navigateur.

Vous pouvez également lancer les interfaces utilisateur persistantes hors cluster pour Amazon EMR exécuté sur des clusters EC2 depuis la console Amazon EMR. Pour de plus amples informations, veuillez consulter Afficher les interfaces utilisateur persistantes des applications dans Amazon EMR.

Note

Selon les paramètres de votre navigateur, il se peut que vous deviez activer les fenêtres contextuelles pour que l'interface utilisateur d'une application s'ouvre.

Pour plus d'informations sur la configuration et l'utilisation des interfaces d'application, consultez Serveur de chronologie YARN, Surveillance et instrumentation, ou Aperçu de l'interface utilisateur Tez.

Déboguer Amazon EMR en cours d'exécution sur des tâches Amazon EC2

Workspace UI

Lancer une interface utilisateur intégrée au cluster à partir d'un fichier de bloc-notes

Lorsque vous utilisez les versions 5.33.0 et ultérieures d'Amazon EMR, vous pouvez lancer l'interface utilisateur Web de Spark (l'interface utilisateur Spark ou le serveur d'historique Spark) depuis un bloc-notes de votre Workspace.

On-cluster Les interfaces utilisateur fonctionnent avec PySpark les noyaux Spark ou SparkR. La taille de fichier maximale consultable pour les journaux d'événements ou les journaux de conteneurs Spark est de 10 Mo. Si vos fichiers journaux dépassent 10 Mo, nous vous recommandons d'utiliser le serveur d'historique Spark persistant plutôt que l'interface utilisateur Spark intégrée au cluster pour déboguer les tâches.

Important

Pour qu'EMR Studio puisse lancer des interfaces utilisateur d'applications sur un cluster à partir d'un Workspace, le cluster doit être en mesure de communiquer avec Amazon API Gateway. Vous devez configurer le cluster EMR pour autoriser le trafic réseau sortant vers Amazon API Gateway et vous assurer qu'Amazon API Gateway est accessible depuis le cluster.

L'interface utilisateur de Spark accède aux journaux des conteneurs en résolvant les noms d'hôte. Si vous utilisez un nom de domaine personnalisé, vous devez vous assurer que les noms d'hôte de vos nœuds de cluster peuvent être résolus par Amazon DNS ou par le serveur DNS que vous spécifiez. Pour ce faire, définissez les options du protocole de configuration d'hôte dynamique (DHCP) pour le cloud privé virtuel (VPC) Amazon rattaché à votre cluster. Pour plus d'informations sur les options DHCP, consultez Ensembles d'options DHCP dans le Guide de l'utilisateur du cloud privé virtuel (VPC) Amazon.

Dans votre EMR Studio, ouvrez le Workspace que vous souhaitez utiliser et assurez-vous qu'il est rattaché à un cluster Amazon EMR exécuté sur EC2. Pour obtenir des instructions, veuillez consulter Attacher un calcul à un espace de travail EMR Studio.
Ouvrez un fichier bloc-notes et utilisez PySpark le noyau Spark ou SparkR. Pour sélectionner un noyau, choisissez le nom du noyau dans le coin supérieur droit de la barre d'outils du bloc-notes pour ouvrir la boîte de dialogue Sélectionner le noyau. Si aucun noyau n'a été sélectionné, le nom affiché est No Kernel!.
Exécutez le code de votre bloc-notes. Ce qui suit apparaît sous forme de sortie dans le bloc-notes lorsque vous démarrez le contexte Spark. L'affichage de l'information peut prendre quelques secondes. Si vous avez démarré le contexte Spark, vous pouvez exécuter la commande %%info pour accéder à un lien vers l'interface utilisateur de Spark à tout moment.

Note
Si les liens de l'interface utilisateur Spark ne fonctionnent pas ou n'apparaissent pas au bout de quelques secondes, créez une nouvelle cellule de bloc-notes et exécutez la commande %%info pour régénérer les liens.

Pour lancer l'interface utilisateur Spark, choisissez Lien sous Interface utilisateur Spark. Si votre application Spark est en cours d'exécution, l'interface utilisateur de Spark s'ouvre dans un nouvel onglet. Si l'application est terminée, le serveur d'historique Spark s'ouvre à la place.

Après avoir lancé l'interface utilisateur Spark, vous pouvez modifier l'URL dans le navigateur pour ouvrir le serveur YARN ResourceManager ou Yarn Timeline. Ajoutez ensuite l'un des chemins suivants après amazonaws.com.

Interface utilisateur Web	Chemin	Exemple d'URL modifiée
LAINE ResourceManager	/rm	https ://`j-examplebby5ij`.emrappui-prod. `eu-west-1`.amazonaws.com `/rm`
Serveur de chronologie YARN	/yts	https ://`j-examplebby5ij`.emrappui-prod. `eu-west-1`.amazonaws.com `/yts`
Serveur d'historique Spark	/shs	https ://`j-examplebby5ij`.emrappui-prod. `eu-west-1`.amazonaws.com `/shs`

Studio UI

Lancez le serveur de chronologie YARN persistant, le serveur d'historique Spark ou l'interface utilisateur Tez depuis l'interface utilisateur d'EMR Studio

Dans votre EMR Studio, sélectionnez Amazon EMR sur EC2 sur le côté gauche de la page pour ouvrir la liste des clusters Amazon EMR sur EC2.
Filtrez la liste des clusters par nom, état ou ID en saisissant des valeurs dans le champ de recherche. Vous pouvez également effectuer une recherche par plage horaire de création.
Sélectionnez un cluster, puis choisissez Lancer l'interface utilisateur de l'application pour sélectionner une interface utilisateur d'application. L'interface utilisateur de l'application s'ouvre dans un nouvel onglet de navigateur ; le chargement peut prendre un certain temps.

Déboguer EMR Studio exécuté sur EMR sans serveur

À l'instar d'Amazon EMR exécuté sur Amazon EC2, vous pouvez utiliser l'interface utilisateur de l'espace utilisateur pour analyser vos applications EMR sans serveur. Depuis l'interface utilisateur de l'espace de travail, lorsque vous utilisez les versions 6.14.0 et ultérieures d’Amazon EMR, vous pouvez lancer l'interface utilisateur web de Spark (l'interface utilisateur Spark ou le serveur d'historique Spark) depuis un bloc-notes de votre espace de travail. Pour vous faciliter la tâche, nous fournissons également un lien vers le journal de pilote pour accéder rapidement aux journaux de pilote Spark.

Déboguer Amazon EMR sur une tâche EKS exécutée avec le serveur d'historique Spark

Lorsque vous soumettez une tâche exécutée à un cluster Amazon EMR sur EKS, vous pouvez accéder aux journaux de cette tâche exécutée à l'aide du serveur d'historique Spark. Le serveur d'historique Spark fournit des outils pour surveiller les applications Spark, tels qu'une liste des étapes et des tâches du planificateur, un récapitulatif des tailles RDD et de l'utilisation de la mémoire, ainsi que des informations environnementales. Vous pouvez lancer le serveur d'historique Spark pour Amazon EMR lorsque les tâches EKS sont exécutées de la manière suivante :

Lorsque vous soumettez une tâche exécutée à l'aide d'EMR Studio avec un point de terminaison géré par Amazon EMR on EKS, vous pouvez lancer le serveur d'historique Spark à partir d'un fichier bloc-notes dans votre Workspace.
Lorsque vous soumettez une tâche exécutée à l'aide du AWS SDK AWS CLI ou du SDK pour Amazon EMR sur EKS, vous pouvez lancer le serveur Spark History depuis l'interface utilisateur d'EMR Studio.

Pour plus d'informations sur l'utilisation du serveur d'historique Spark, consultez Surveillance et instrumentation dans la documentation d'Apache Spark. Pour plus d'informations sur les exécutions de tâches, consultez Concepts et composants dans le Guide de développement Amazon EMR sur EKS.

Lancer le serveur d'historique Spark à partir d'un fichier bloc-notes dans votre Workspace EMR Studio

Ouvrez un Workspace connecté à un cluster Amazon EMR sur EKS.
Sélectionnez et ouvrez le fichier de votre bloc-notes dans le Workspace.
Choisissez Interface utilisateur Spark en haut du fichier de bloc-notes pour ouvrir le serveur d'historique Spark persistant dans un nouvel onglet.

Lancer le serveur d'historique Spark depuis l'interface utilisateur d'EMR Studio

Note

La liste des tâches dans l'interface utilisateur d'EMR Studio affiche uniquement les exécutions de tâches que vous soumettez à l'aide du AWS SDK AWS CLI ou du SDK pour Amazon EMR sur EKS.

Dans votre EMR Studio, sélectionnez Amazon EMR sur EKS sur le côté gauche de la page.
Recherchez le cluster virtuel Amazon EMR sur EKS que vous avez utilisé pour soumettre votre exécution de tâche. Vous pouvez filtrer la liste des clusters par état ou par ID en saisissant des valeurs dans le champ de recherche.
Sélectionnez le cluster pour ouvrir sa page de détails. La page détaillée affiche des informations sur le cluster, telles que l'ID, l'espace de noms et l'état. La page affiche également une liste de toutes les exécutions de tâches soumises à ce cluster.
Sur la page détaillée du cluster, sélectionnez une tâche à exécuter pour le déboguer.
Dans le coin supérieur droit de la liste des tâches, choisissez Lancer le serveur d'historique Spark pour ouvrir l'interface de l'application dans un nouvel onglet du navigateur.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

CodeWhisperer intégration

Installer les noyaux et les bibliothèques