As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
SageMaker HyperPodagente de monitoramento de saúde
SageMaker HyperPod o agente de monitoramento de saúde monitora continuamente o status de saúde de cada instância GPU baseada ou baseada em Trainium. Ao detectar qualquer instância ou GPU falha, o agente marca a instância como não íntegra.
Verificações de saúde feitas pelo agente de SageMaker HyperPod monitoramento de saúde
O agente de SageMaker HyperPod monitoramento de saúde verifica o seguinte.
NVIDIA GPUs
-
Erros na
nvidia-smi
saída -
Vários erros nos registros gerados pela plataforma Amazon Elastic Compute Cloud (EC2)
AWS Estágio
-
Erros na saída do monitor AWS Neuron
-
Saídas geradas pelo detector de problemas de nódulos neuronais (para obter mais informações sobre o detector de problemas de nodos AWS neurônios, consulte Detecção e recuperação de problemas de AWS nódulos de neurônios em clusters da Amazon
). EKS -
Vários erros nos registros gerados pela EC2 plataforma Amazon
Registros gerados pelo agente de SageMaker HyperPod monitoramento de saúde
O agente de SageMaker HyperPod monitoramento de integridade é um recurso de verificação de out-of-the-box integridade e é executado continuamente em todos os HyperPod clusters. O agente de monitoramento de integridade publica eventos de saúde detectados em GPU ou Trn instâncias CloudWatch sob o grupo de registros do Cluster. /aws/sagemaker/Clusters/
Os registros de detecção do agente de monitoramento de HyperPod integridade são criados como fluxos de registros separados nomeados SagemakerHealthMonitoringAgent
para cada nó. Você pode consultar os registros de detecção usando os insights de CloudWatch log da seguinte forma.
fields @timestamp, @message | filter @message like /HealthMonitoringAgentDetectionEvent/
Isso deve retornar uma saída semelhante à seguinte.
2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"} 2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}