SageMaker HyperPodAgent zur Überwachung des Systemzustands - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

SageMaker HyperPodAgent zur Überwachung des Systemzustands

SageMaker HyperPod Ein Agent zur Gesundheitsüberwachung überwacht kontinuierlich den Integritätsstatus jeder einzelnen GPU basierten oder Tranium-basierten Instanz. Wenn er eine Instanz oder GPU Ausfälle erkennt, markiert der Agent die Instanz als fehlerhaft.

Überprüfen Sie die vom SageMaker HyperPod Health Monitoring-Agenten gesammelten Ergebnisse

Der SageMaker HyperPod Health Monitoring Agent ist eine out-of-the-box Funktion zur Integritätsprüfung und wird kontinuierlich auf allen Clustern ausgeführt. HyperPod Der Health Monitoring Agent veröffentlicht erkannte Integritätsereignisse auf GPU oder Trn-Instances in der CloudWatch Cluster-Protokollgruppe. /aws/sagemaker/Clusters/

Die Erkennungsprotokolle des HyperPod Health Monitoring Agents werden als separate Protokolldatenströme erstellt, die SagemakerHealthMonitoringAgent nach jedem Knoten benannt sind. Sie können die Erkennungsprotokolle mithilfe von CloudWatch Log Insights wie folgt abfragen.

fields @timestamp, @message | filter @message like /HealthMonitoringAgentDetectionEvent/

Dies sollte eine Ausgabe ähnlich der folgenden zurückgeben.

2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"} 2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}