SageMaker HyperPod 상태 모니터링 에이전트에서 수행하는 상태 확인 SageMaker HyperPod 상태 모니터링 에이전트에서 생성된 로그

SageMaker HyperPod 상태 모니터링 에이전트

SageMaker HyperPod 상태 모니터링 에이전트는 각 GPU 기반 또는 Trainium 기반 인스턴스의 상태를 지속적으로 모니터링합니다. 인스턴스 또는 GPU 실패를 감지하면 에이전트는 인스턴스를 비정상으로 표시합니다.

SageMaker HyperPod 상태 모니터링 에이전트에서 수행하는 상태 확인

SageMaker HyperPod 상태 모니터링 에이전트는 다음을 확인합니다.

NVIDIA GPU

DCGM 정책 위반 알림
nvidia-smi 출력 오류
Amazon Elastic Compute Cloud(EC2) 플랫폼에서 생성된 로그의 다양한 오류

AWS Trainium

AWS Neuron 모니터의 출력 오류
Neuron 노드 문제 감지기에서 생성된 출력(AWS Neruron 노드 문제 감지기에 대한 자세한 내용은 Amazon EKS 클러스터 내의 AWS Neuron 노드에 대한 노드 문제 감지 및 복구를 참조하세요.)
Amazon EC2 플랫폼에서 생성된 로그의 다양한 오류

SageMaker HyperPod 상태 모니터링 에이전트에서 생성된 로그

SageMaker HyperPod 상태 모니터링 에이전트는 즉시 사용 가능한 상태 확인 기능이며 모든 HyperPod 클러스터에서 지속적으로 실행됩니다. 상태 모니터링 에이전트는 클러스터 로그 그룹 /aws/sagemaker/Clusters/의 CloudWatch에 GPU 또는 Trn 인스턴스에서 감지된 상태 이벤트를 게시합니다.

HyperPod 상태 모니터링 에이전트의 감지 로그는 각 노드에 대해 SagemakerHealthMonitoringAgent 이름이 지정된 별도의 로그 스트림으로 생성됩니다. 다음과 같이 CloudWatch 로그 인사이트를 사용하여 감지 로그를 쿼리할 수 있습니다.


fields @timestamp, @message
| filter @message like /HealthMonitoringAgentDetectionEvent/

이는 다음과 비슷한 출력을 반환합니다.


2024-08-21T11:35:35.532-07:00
    {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}
2024-08-21T11:35:35.532-07:00
    {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

클러스터 복원력

기본 상태 확인