運作狀態監控代理程式執行 SageMaker HyperPod 的運作狀態檢查 SageMaker HyperPod 運作狀態監控代理程式產生的日誌

SageMaker HyperPod 運作狀態監控代理程式

SageMaker HyperPod 運作狀態監控代理程式會持續監控每個 GPU型或 Trainium 型執行個體的運作狀態。當它偵測到任何執行個體或GPU失敗時，客服人員會將執行個體標記為運作狀態不佳。

運作狀態監控代理程式執行 SageMaker HyperPod 的運作狀態檢查

SageMaker HyperPod 運作狀態監控代理程式會檢查下列項目。

NVIDIA GPUs

DCGM 政策違規通知
nvidia-smi 輸出中的錯誤
Amazon Elastic Compute Cloud （EC2）平台產生的日誌中各種錯誤

AWS 訓練

AWS Neuron 監視器輸出中的錯誤
Neuron 節點問題偵測器產生的輸出（如需 AWS Neuron 節點問題偵測器的詳細資訊，請參閱 Amazon EKS叢集中 AWS Neuron 節點的節點問題偵測和復原。）
Amazon EC2平台產生的日誌中各種錯誤

SageMaker HyperPod 運作狀態監控代理程式產生的日誌

SageMaker HyperPod 運作狀態監控代理程式是一種 out-of-the-box運作狀態檢查功能，並持續在所有 HyperPod 叢集上執行。運作狀態監控代理程式會將偵測到的運作狀態事件發佈在叢集日誌群組 CloudWatch 下的 GPU或 Trn 執行個體/aws/sagemaker/Clusters/上。

HyperPod 運作狀態監控代理程式的偵測日誌會建立為針對每個節點命名SagemakerHealthMonitoringAgent的個別日誌串流。您可以使用日誌洞察來查詢偵測 CloudWatch 日誌，如下所示。


fields @timestamp, @message
| filter @message like /HealthMonitoringAgentDetectionEvent/

這應該會傳回類似下列的輸出。


2024-08-21T11:35:35.532-07:00
    {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}
2024-08-21T11:35:35.532-07:00
    {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

叢集彈性

基本運作狀態檢查