SageMaker HyperPodagente di monitoraggio dello stato di salute - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

SageMaker HyperPodagente di monitoraggio dello stato di salute

SageMaker HyperPod l'agente di monitoraggio dello stato di salute monitora continuamente lo stato di salute di ciascuna GPU istanza basata su Tranium. Quando rileva un'istanza o un GPU errore, l'agente contrassegna l'istanza come non integra.

Controlla i risultati raccolti dall'agente di monitoraggio sanitario SageMaker HyperPod

L'agente di SageMaker HyperPod monitoraggio dello stato è una funzionalità di controllo dello stato di out-of-the-box salute e viene eseguito continuamente su tutti i cluster. HyperPod L'agente di monitoraggio dello stato pubblica gli eventi sanitari rilevati su GPU o Trn istanze all'interno del gruppo di log Cluster. CloudWatch /aws/sagemaker/Clusters/

I log di rilevamento dell'agente di HyperPod monitoraggio dello stato vengono creati come flussi di log separati denominati per ciascun nodo. SagemakerHealthMonitoringAgent È possibile interrogare i registri di rilevamento utilizzando CloudWatch log insights come segue.

fields @timestamp, @message | filter @message like /HealthMonitoringAgentDetectionEvent/

Questo dovrebbe restituire un output simile al seguente.

2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"} 2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}