SageMaker HyperPodagent de surveillance de la santé - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

SageMaker HyperPodagent de surveillance de la santé

SageMaker HyperPod un agent de surveillance de l'état de santé surveille en permanence l'état de santé de chaque instance basée sur GPU Tranium ou basée sur Tranium. Lorsqu'il détecte une instance ou GPU des défaillances, l'agent marque l'instance comme étant défectueuse.

Vérifiez les résultats collectés par l'agent de SageMaker HyperPod surveillance de la santé

L'agent SageMaker HyperPod de surveillance de l'état est une fonctionnalité out-of-the-box de vérification de l'état qui s'exécute en continu sur tous les HyperPod clusters. L'agent de surveillance de l'état publie les événements de santé détectés sur les instances GPU ou Trn dans CloudWatch le groupe /aws/sagemaker/Clusters/ de journaux du cluster.

Les journaux de détection de l'agent de surveillance de l' HyperPod état sont créés sous forme de flux de journaux distincts nommés SagemakerHealthMonitoringAgent pour chaque nœud. Vous pouvez interroger les journaux de détection à l'aide des informations des CloudWatch journaux comme suit.

fields @timestamp, @message | filter @message like /HealthMonitoringAgentDetectionEvent/

Cela devrait renvoyer un résultat similaire à ce qui suit.

2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"} 2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}