翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
SageMaker HyperPod ヘルスモニタリングエージェント
SageMaker HyperPod ヘルスモニタリングエージェントは、各 GPU ベースまたは Trainium ベースのインスタンスのヘルスステータスを継続的にモニタリングします。インスタンスまたは GPU の障害を検出すると、エージェントはインスタンスを異常としてマークします。
SageMaker HyperPod ヘルスモニタリングエージェントが行うヘルスチェック
SageMaker HyperPod ヘルスモニタリングエージェントは以下をチェックします。
NVIDIA GPU
-
nvidia-smi
出力のエラー -
Amazon Elastic Compute Cloud (EC2) プラットフォームによって生成されたログのさまざまなエラー
AWS Trainium
-
AWS Neuron モニター
からの出力のエラー -
Neuron ノード問題ディテクターによって生成された出力 (AWS Neuron ノード問題ディテクターの詳細については、「Node problem detection and recovery for AWS Neuron nodes within Amazon EKS clusters
」を参照してください)。 -
Amazon EC2 プラットフォームによって生成されたログのさまざまなエラー
SageMaker HyperPod ヘルスモニタリングエージェントによって生成されたログ
SageMaker HyperPod ヘルスモニタリングエージェントは、すぐに使用可能なヘルスチェック機能であり、すべての HyperPod クラスターで継続的に実行されます。ヘルスモニタリングエージェントは、検出されたヘルスイベントを GPU または Trn インスタンスでクラスターロググループ /aws/sagemaker/Clusters/
の CloudWatch に発行します。
HyperPod ヘルスモニタリングエージェントの検出ログは、ノードごとに SagemakerHealthMonitoringAgent
という名前の別個のログストリームとして作成されます。CloudWatch ログインサイトを使用して、次のように検出ログをクエリできます。
fields @timestamp, @message | filter @message like /HealthMonitoringAgentDetectionEvent/
これにより、次のような出力が返されます。
2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"} 2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}