Erkunden Sie das Amazon SageMaker Debugger Insights-Dashboard - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erkunden Sie das Amazon SageMaker Debugger Insights-Dashboard

Wenn Sie einen SageMaker Trainingsjob initiieren, beginnt SageMaker Debugger standardmäßig mit der Überwachung der Ressourcennutzung der EC2 Amazon-Instances. Sie können die Systemauslastungsraten, die Statistikübersicht und die integrierte Regelanalyse über das Insights-Dashboard verfolgen. Diese Anleitung führt Sie durch den Inhalt des SageMaker Debugger Insights-Dashboards auf den folgenden Registerkarten: Systemmetriken und Regeln.

Anmerkung

Das SageMaker Debugger Insights-Dashboard führt eine Studio Classic-Anwendung auf einer ml.m5.4xlarge Instanz aus, um die Visualisierungen zu verarbeiten und zu rendern. Auf jeder Registerkarte SageMaker Debugger Insights wird eine Studio Classic-Kernelsitzung ausgeführt. Auf einer einzigen Instanz werden mehrere Kernel-Sitzungen für mehrere SageMaker Debugger Insights-Tabs ausgeführt. Wenn Sie einen SageMaker Debugger Insights-Tab schließen, wird auch die entsprechende Kernel-Sitzung geschlossen. Die Studio Classic-Anwendung bleibt aktiv und es fallen Gebühren für die Instanznutzung anml.m5.4xlarge. Informationen zu den Preisen finden Sie auf der Seite mit den Amazon SageMaker AI-Preisen.

Wichtig

Wenn Sie das SageMaker Debugger Insights-Dashboard nicht mehr verwenden, fahren Sie die ml.m5.4xlarge Instance herunter, um Gebühren zu vermeiden. Anweisungen zum Herunterfahren der Instance finden Sie unter Fahren Sie die Amazon SageMaker Debugger Insights-Instanz herunter.

Wichtig

Die Berichte, Diagramme und Empfehlungen dienen zu Informationszwecken und sind nicht endgültig. Sie übernehmen die Verantwortung dafür, die Informationen eigenständig zu bewerten.

Systemmetriken

Auf der Registerkarte Systemmetriken können Sie die Übersichtstabelle und die Zeitreihendiagramme verwenden, um die Ressourcenauslastung zu verstehen.

Zusammenfassung der Ressourcenauslastung

Diese Übersichtstabelle zeigt die Statistiken der Metriken zur Compute-Ressourcenauslastung aller Knoten (als Algo-n bezeichnet). Die Kennzahlen zur Ressourcenauslastung umfassen die gesamte CPU-Auslastung, die gesamte GPU-Auslastung, die gesamte CPU-Speicherauslastung, die gesamte GPU-Speicherauslastung, die gesamte I/O-Wartezeit und das gesamte Netzwerk in Byte. Die Tabelle zeigt die Minimal- und Maximalwerte sowie die Perzentile p99, p90 und p50.

Eine Übersichtstabelle der Ressourcenauslastung

Zeitreihendiagramme zur Ressourcenauslastung

Verwenden Sie die Zeitreihendiagramme, um weitere Details zur Ressourcenauslastung zu erhalten und zu ermitteln, in welchem Zeitintervall jede Instance eine unerwünschte Auslastung aufweist, z. B. eine geringe GPU-Auslastung und CPU-Engpässe, die zu einer Verschwendung der teuren Instance führen können.

Die Benutzeroberfläche des Zeitreihendiagramm-Controllers

Im folgenden Screenshot sehen Sie den UI-Controller zum Anpassen der Zeitreihendiagramme.

Der UI-Controller im SageMaker Debugger Insights-Dashboard.
  • algo-1: Verwenden Sie dieses Dropdown-Menü, um den Knoten auszuwählen, den Sie untersuchen möchten.

  • Hineinzoomen: Verwenden Sie diese Schaltfläche, um die Zeitreihendiagramme zu vergrößern und kürzere Zeitintervalle anzuzeigen.

  • Herauszoomen: Verwenden Sie diese Schaltfläche, um die Zeitreihendiagramme zu verkleinern und größere Zeitintervalle anzuzeigen.

  • Nach links schwenken: Verschiebt die Zeitreihendiagramme in ein früheres Zeitintervall.

  • Nach rechts schwenken: Verschiebt die Zeitreihendiagramme in ein späteres Zeitintervall.

  • Zeitrahmen korrigieren: Verwenden Sie dieses Kontrollkästchen, um die Zeitreihendiagramme zu korrigieren oder wiederherzustellen, sodass die gesamte Ansicht vom ersten Datenpunkt bis zum letzten Datenpunkt angezeigt wird.

CPU-Auslastung und I/O-Wartezeit

Die ersten beiden Grafiken zeigen die CPU-Auslastung und die I/O-Wartezeit im Zeitverlauf. Standardmäßig zeigen die Diagramme die durchschnittliche CPU-Auslastung und die für die CPU-Kerne aufgewendete I/O-Wartezeit. Sie können einen oder mehrere CPU-Kerne auswählen, indem Sie die Beschriftungen auswählen, um sie in einem einzigen Diagramm grafisch darzustellen und die Auslastung zwischen den Kernen zu vergleichen. Sie können die Ansicht durch Ziehen und Verkleinern vergrößern und verkleinern, um sich spezifische Zeitintervalle genauer anzusehen.

debugger-studio-insight-mockup

GPU-Auslastung und GPU-Speicherauslastung

Die folgenden Diagramme zeigen die GPU-Auslastung und die GPU-Speicherauslastung im Zeitverlauf. Standardmäßig zeigen die Diagramme die durchschnittliche Nutzungsrate im Zeitverlauf. Sie können die GPU-Kernbezeichnungen auswählen, um die Auslastungsrate der einzelnen Kerne zu sehen. Nimmt man den Mittelwert der Nutzungsrate über die Gesamtzahl der GPU-Kerne, ergibt sich die durchschnittliche Auslastung der gesamten Hardwaresystemressource. Anhand der durchschnittlichen Nutzungsrate können Sie die Gesamtauslastung der Systemressourcen einer EC2 Amazon-Instance überprüfen. Die folgende Abbildung zeigt ein Beispiel für einen Trainingsauftrag auf einer ml.p3.16xlarge Instance mit 8 GPU-Kernen. Sie können überwachen, ob der Schulungsjob gut verteilt ist und alle Aufgaben voll ausgeschöpft GPUs werden.

debugger-studio-insight-mockup

Gesamtauslastung des Systems im Laufe der Zeit

Die folgende Heatmap zeigt ein Beispiel für die gesamte Systemauslastung einer ml.p3.16xlarge Instance im Zeitverlauf, projiziert auf das zweidimensionale Diagramm. Jeder CPU- und GPU-Kern ist auf der vertikalen Achse aufgeführt, und die Auslastung wird im Zeitverlauf anhand eines Farbschemas aufgezeichnet, wobei die hellen Farben für eine geringe Auslastung und die dunkleren Farben für eine hohe Auslastung stehen. Anhand der beschrifteten Farbleiste auf der rechten Seite des Diagramms können Sie herausfinden, welche Farbstufe welcher Auslastungsrate entspricht.

debugger-studio-insight-mockup

Regeln

Auf der Registerkarte Regeln finden Sie eine Zusammenfassung der Analyse der Profiling-Regeln für Ihren Trainingsauftrag. Wenn die Profilerstellungsregel zusammen mit dem Trainingsjob aktiviert wird, wird der Text durchgehend weiß hervorgehoben. Inaktive Regeln sind grau abgeblendet. Folgen Sie den Anweisungen unter, um diese Regeln zu Verwenden Sie integrierte Profiler-Regeln, die von Amazon SageMaker Debugger verwaltet werden aktivieren.

Die Registerkarte „Regeln“ im SageMaker Debugger Insights-Dashboard