SageMaker HyperPod ヘルスモニタリングエージェント - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker HyperPod ヘルスモニタリングエージェント

SageMaker HyperPod ヘルスモニタリングエージェントは、 ベースまたは Tranium GPUベースの各インスタンスのヘルスステータスを継続的にモニタリングします。インスタンスまたはGPU障害が検出されると、エージェントはインスタンスを異常としてマークします。

SageMaker HyperPod ヘルスモニタリングエージェントが収集した結果を確認する

SageMaker HyperPod ヘルスモニタリングエージェントは out-of-the-box ヘルスチェック機能であり、すべての HyperPod クラスターで継続的に実行されます。ヘルスモニタリングエージェントは、検出されたヘルスイベントをクラスターロググループ CloudWatch の GPUまたは Trn インスタンス に発行します/aws/sagemaker/Clusters/

HyperPod ヘルスモニタリングエージェントの検出ログは、ノードSagemakerHealthMonitoringAgentごとに という名前の個別のログストリームとして作成されます。ログインサイトを使用して、次のように検出 CloudWatch ログをクエリできます。

fields @timestamp, @message | filter @message like /HealthMonitoringAgentDetectionEvent/

これにより、次のような出力が返されます。

2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"} 2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}