本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
SageMaker HyperPod 運作狀態監控代理程式
SageMaker HyperPod 運作狀態監控代理程式會持續監控每個 GPU型或 Trainium 型執行個體的運作狀態。當它偵測到任何執行個體或GPU失敗時,客服人員會將執行個體標記為運作狀態不佳。
運作狀態監控代理程式執行 SageMaker HyperPod 的運作狀態檢查
SageMaker HyperPod 運作狀態監控代理程式會檢查下列項目。
NVIDIA GPUs
-
nvidia-smi
輸出中的錯誤 -
Amazon Elastic Compute Cloud (EC2) 平台產生的日誌中各種錯誤
AWS 訓練
-
AWS Neuron 監視器
輸出中的錯誤 -
Neuron 節點問題偵測器產生的輸出 (如需 AWS Neuron 節點問題偵測器的詳細資訊,請參閱 Amazon EKS叢集中 AWS Neuron 節點的節點問題偵測和復原。
) -
Amazon EC2平台產生的日誌中各種錯誤
SageMaker HyperPod 運作狀態監控代理程式產生的日誌
SageMaker HyperPod 運作狀態監控代理程式是一種 out-of-the-box運作狀態檢查功能,並持續在所有 HyperPod 叢集上執行。運作狀態監控代理程式會將偵測到的運作狀態事件發佈在叢集日誌群組 CloudWatch 下的 GPU或 Trn 執行個體/aws/sagemaker/Clusters/
上。
HyperPod 運作狀態監控代理程式的偵測日誌會建立為針對每個節點命名SagemakerHealthMonitoringAgent
的個別日誌串流。您可以使用日誌洞察來查詢偵測 CloudWatch 日誌,如下所示。
fields @timestamp, @message | filter @message like /HealthMonitoringAgentDetectionEvent/
這應該會傳回類似下列的輸出。
2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"} 2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}