SageMaker HyperPod상태 모니터링 에이전트 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

SageMaker HyperPod상태 모니터링 에이전트

SageMaker HyperPod 상태 모니터링 에이전트는 각 GPU 기반 또는 Tranium 기반 인스턴스의 상태를 지속적으로 모니터링합니다. 인스턴스나 GPU 장애가 감지되면 에이전트는 해당 인스턴스를 비정상으로 표시합니다.

상태 모니터링 에이전트가 수집한 결과를 확인하십시오. SageMaker HyperPod

SageMaker HyperPod 상태 모니터링 에이전트는 out-of-the-box 상태 점검 기능이며 모든 클러스터에서 지속적으로 실행됩니다. HyperPod 상태 모니터링 에이전트는 감지된 상태 이벤트를 인스턴스 GPU 또는 Trn 인스턴스에 게시합니다 CloudWatch . /aws/sagemaker/Clusters/

HyperPod 상태 모니터링 에이전트의 탐지 로그는 각 SagemakerHealthMonitoringAgent 노드에 이름이 지정된 별도의 로그 스트림으로 생성됩니다. 다음과 같이 CloudWatch 로그 인사이트를 사용하여 탐지 로그를 쿼리할 수 있습니다.

fields @timestamp, @message | filter @message like /HealthMonitoringAgentDetectionEvent/

그러면 다음과 비슷한 출력이 반환될 것입니다.

2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"} 2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}