SageMaker HyperPod 運作狀態監控代理程式 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

SageMaker HyperPod 運作狀態監控代理程式

SageMaker HyperPod 運作狀態監控代理程式會持續監控每個 GPU型或 Trainium 型執行個體的運作狀態。當它偵測到任何執行個體或GPU失敗時,客服人員會將執行個體標記為運作狀態不佳。

運作狀態監控代理程式執行 SageMaker HyperPod 的運作狀態檢查

SageMaker HyperPod 運作狀態監控代理程式會檢查下列項目。

NVIDIA GPUs

  • DCGM 政策違規通知

  • nvidia-smi 輸出中的錯誤

  • Amazon Elastic Compute Cloud (EC2) 平台產生的日誌中各種錯誤

AWS 訓練

SageMaker HyperPod 運作狀態監控代理程式產生的日誌

SageMaker HyperPod 運作狀態監控代理程式是一種 out-of-the-box運作狀態檢查功能,並持續在所有 HyperPod 叢集上執行。運作狀態監控代理程式會將偵測到的運作狀態事件發佈在叢集日誌群組 CloudWatch 下的 GPU或 Trn 執行個體/aws/sagemaker/Clusters/上。

HyperPod 運作狀態監控代理程式的偵測日誌會建立為針對每個節點命名SagemakerHealthMonitoringAgent的個別日誌串流。您可以使用日誌洞察來查詢偵測 CloudWatch 日誌,如下所示。

fields @timestamp, @message | filter @message like /HealthMonitoringAgentDetectionEvent/

這應該會傳回類似下列的輸出。

2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"} 2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}