Explorez le tableau de bord Amazon SageMaker Debugger Insights - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Explorez le tableau de bord Amazon SageMaker Debugger Insights

Lorsque vous lancez une tâche de SageMaker formation, SageMaker Debugger commence à surveiller l'utilisation des ressources des EC2 instances Amazon par défaut. Vous pouvez suivre les taux d'utilisation du système, l'aperçu des statistiques et l'analyse des règles intégrée via le tableau de bord Insights. Ce guide vous présente le contenu du tableau de bord SageMaker Debugger Insights sous les onglets suivants : System Metrics and Rules.

Note

Le tableau de bord SageMaker Debugger Insights exécute une application Studio Classic sur une ml.m5.4xlarge instance pour traiter et afficher les visualisations. Chaque onglet SageMaker Debugger Insights exécute une session de noyau Studio Classic. Plusieurs sessions de noyau pour plusieurs onglets de SageMaker Debugger Insights s'exécutent sur une seule instance. Lorsque vous fermez un onglet SageMaker Debugger Insights, la session de noyau correspondante est également fermée. L'application Studio Classic reste active et entraîne des frais pour l'utilisation de l'ml.m5.4xlargeinstance. Pour plus d'informations sur les tarifs, consultez la page de SageMaker tarification d'Amazon.

Important

Lorsque vous avez terminé d'utiliser le tableau de bord SageMaker Debugger Insights, arrêtez l'ml.m5.4xlargeinstance pour éviter d'accumuler des frais. Pour plus d'informations sur la façon d'arrêter une instance, consultez Arrêtez l'instance Amazon SageMaker Debugger Insights.

Important

Dans les rapports, les diagrammes et les recommandations sont fournis à titre informatif et ne sont pas définitifs. Vous êtes tenu de réaliser votre propre évaluation indépendante des informations.

Métriques du système

Dans l'onglet Métriques du système, vous pouvez utiliser le tableau récapitulatif et les diagrammes de séries chronologiques pour comprendre l'utilisation des ressources.

Synthèse d'utilisation des ressources

Ce tableau récapitulatif présente les statistiques des métriques d'utilisation des ressources de calcul de tous les nœuds (appelées algo-n). Les mesures d'utilisation des ressources incluent l'CPUutilisation totale, l'GPUutilisation totale, l'utilisation totale de la CPU mémoire, l'utilisation totale de la GPU mémoire, le temps d'attente total des E/S et le réseau total en octets. Le tableau affiche les valeurs minimales et maximales, ainsi que les percentiles p99, p90 et p50.

Un tableau récapitulatif de l'utilisation des ressources

Graphiques chronologiques de l'utilisation des ressources

Utilisez les graphiques de séries chronologiques pour obtenir plus de détails sur l'utilisation des ressources et identifier à quel intervalle de temps chaque instance affiche un taux d'utilisation indésirable, tel qu'un faible taux d'GPUutilisation et des goulots d'CPUétranglement susceptibles de provoquer le gaspillage d'une instance coûteuse.

L'interface utilisateur du contrôleur de graphiques chronologiques

La capture d'écran suivante montre le contrôleur de l'interface utilisateur pour ajuster les graphiques chronologiques.

Le contrôleur d'interface utilisateur dans le tableau de SageMaker bord Debugger Insights.
  • algo-1 : utilisez ce menu déroulant pour choisir le nœud que vous souhaitez examiner.

  • Zoom avant : utilisez ce bouton pour effectuer un zoom avant sur les graphiques chronologiques et afficher des intervalles de temps plus courts.

  • Zoom arrière : utilisez ce bouton pour effectuer un zoom arrière sur les graphiques chronologiques et afficher des intervalles de temps plus longs.

  • Panoramique vers la gauche : déplacez les graphiques chronologiques vers un intervalle de temps antérieur.

  • Panoramique vers la droite : déplacez les graphiques chronologiques vers un intervalle de temps futur.

  • Corriger le calendrier : utilisez cette case à cocher pour corriger ou rétablir les graphiques chronologiques afin d'afficher la vue complète, du premier point de données au dernier point de données.

CPUutilisation et temps d'attente des E/S

Les deux premiers graphiques montrent CPU l'utilisation et le temps d'attente des E/S au fil du temps. Par défaut, les graphiques indiquent le taux d'CPUutilisation moyen et le temps d'attente des E/S consacrés aux CPU cœurs. Vous pouvez sélectionner un ou plusieurs CPU cœurs en sélectionnant les étiquettes pour les représenter graphiquement sur un seul graphique et comparer l'utilisation entre les cœurs. Vous pouvez parcourir et faire un zoom avant et arrière pour voir de plus près des intervalles de temps spécifiques.

debugger-studio-insight-mockup

GPUutilisation et utilisation GPU de la mémoire

Les graphiques suivants montrent GPU l'utilisation et l'utilisation de GPU la mémoire au fil du temps. Par défaut, les graphiques indiquent le taux d'utilisation moyen dans le temps. Vous pouvez sélectionner les étiquettes de GPU base pour voir le taux d'utilisation de chaque cœur. La moyenne du taux d'utilisation par rapport au nombre total de GPU cœurs indique l'utilisation moyenne de l'ensemble des ressources matérielles du système. En examinant le taux d'utilisation moyen, vous pouvez vérifier l'utilisation globale des ressources système d'une EC2 instance Amazon. La figure suivante montre un exemple de tâche d'entraînement sur une ml.p3.16xlarge instance à 8 GPU cœurs. Vous pouvez vérifier si les tâches de formation sont bien réparties, en les utilisant pleinementGPUs.

debugger-studio-insight-mockup

Utilisation globale du système au fil du temps

La carte thermique suivante montre un exemple de l'utilisation totale du système d'une instance ml.p3.16xlarge dans le temps, projetée sur le diagramme bidimensionnel. Chaque CPU GPU noyau est répertorié dans l'axe vertical, et l'utilisation est enregistrée au fil du temps selon un schéma de couleurs, où les couleurs vives représentent une faible utilisation et les couleurs plus foncées une utilisation élevée. Consultez la barre de couleurs étiquetée sur le côté droit du graphique pour savoir quel niveau de couleur correspond à quel taux d'utilisation.

debugger-studio-insight-mockup

Règles

Utilisez l'onglet Règles pour trouver un résumé de l'analyse des règles de profilage sur votre tâche d'entraînement. Si la règle de profilage est activée avec la tâche d'entraînement, le texte apparaît surligné par un texte blanc uni. Les règles inactives sont grisées. Pour activer ces règles, suivez les instructions dans Utilisez des règles de profilage intégrées gérées par Amazon Debugger SageMaker .

L'onglet Règles du tableau de bord SageMaker Debugger Insights