SageMaker HyperPodagente de monitorización de la salud - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

SageMaker HyperPodagente de monitorización de la salud

SageMaker HyperPod el agente de monitoreo del estado monitorea continuamente el estado de salud de cada instancia basada en Tranium o GPU basada en Tranium. Cuando detecta una instancia o GPU un error, el agente marca la instancia como en mal estado.

Compruebe los resultados recopilados por el agente de SageMaker HyperPod monitorización del estado

El agente SageMaker HyperPod de monitorización del estado es una función de control de out-of-the-box estado y se ejecuta de forma continua en todos los clústeres. HyperPod El agente de supervisión del estado publica los eventos de estado detectados en las instancias del grupo de registros del clúster GPU o CloudWatch en las mismas. /aws/sagemaker/Clusters/

Los registros de detección del agente de supervisión del HyperPod estado se crean como flujos de registros independientes con el nombre SagemakerHealthMonitoringAgent de cada nodo. Puede consultar los registros de detección utilizando CloudWatch la información de los registros de la siguiente manera.

fields @timestamp, @message | filter @message like /HealthMonitoringAgentDetectionEvent/

Esto debería devolver un resultado similar al siguiente.

2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"} 2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}