翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
SageMaker HyperPod による回復性関連の Kubernetes ラベル
ラベルは、Kubernetes オブジェクト
ノードのヘルスステータスラベル
node-health-status
ラベルはノードの状態を表しており、正常なノードのノードセレクタフィルターの一部として使用されます。
ラベル | [Description] (説明) |
---|---|
sagemaker.amazonaws.com/node-health-status:
Schedulable |
ノードが基本的なヘルスチェックに合格しており、実行中のワークロードで使用できます。このヘルスチェックは、Slurm クラスターで現在利用可能な SageMaker HyperPod 回復性機能と同じです。 |
sagemaker.amazonaws.com/node-health-status:
Unschedulable |
ノードがディープヘルスチェックを実行しており、実行中のワークロードでは使用できません。 |
sagemaker.amazonaws.com/node-health-status:
UnschedulablePendingReplacement |
ノードがディープヘルスチェックまたはヘルスモニタリングエージェントチェックで不合格となったため、置き換えが必要です。自動ノード復旧が有効になっている場合、ノードは自動的に SageMaker HyperPod に置き換えられます。 |
sagemaker.amazonaws.com/node-health-status:
UnschedulablePendingReboot |
ノードがディープヘルスチェックまたはヘルスモニタリングエージェントチェックで不合格となったため、再起動が必要です。自動ノード復旧が有効になっている場合、ノードは SageMaker HyperPod によって自動的に再起動されます。 |
ディープヘルスチェックのラベル
deep-health-check-status
ラベルは、特定のノードのディープヘルスチェックの進行状況を表しています。Kubernetes ユーザーが全体的なディープヘルスチェックの進行状況をすばやくフィルタリングするのに役立ちます。
ラベル | [Description] (説明) |
---|---|
sagemaker.amazonaws.com/deep-health-check-status:
InProgress |
ノードがディープヘルスチェックを実行しており、実行中のワークロードでは使用できません。 |
sagemaker.amazonaws.com/deep-health-check-status:
Passed |
ノードがディープヘルスチェックまたはヘルスモニタリングエージェントチェックで不合格となったため、置き換えが必要です。自動ノード復旧が有効になっている場合、ノードは自動的に SageMaker HyperPod に置き換えられます。 |
sagemaker.amazonaws.com/deep-health-check-status:
Failed |
ノードがディープヘルスチェックまたはヘルスモニタリングエージェントチェックで不合格となったため、再起動または置き換えが必要です。自動ノード復旧が有効になっている場合、ノードは SageMaker HyperPod によって自動的に再起動されます。 |
障害タイプと理由ラベル
以下は、fault-type
ラベルと fault-reason
ラベルの説明です。
-
fault-type
ラベルは、ヘルスチェックが失敗した場合の高レベルの障害カテゴリを表しています。これらは、ディープヘルスとヘルスモニタリングエージェントチェックの両方で特定された障害に対して入力されます。 -
fault-reason
ラベルは、fault-type
に関連付けられた詳細な障害理由を表しています。
SageMaker HyperPod のラベル付け方法
以下のトピックでは、さまざまなケースに応じてラベル付けを行う方法について説明します。
トピック
ディープヘルスチェック設定が無効になっている SageMaker HyperPod クラスターにノードを追加する場合
新しいノードがクラスターに追加され、インスタンスグループに対してディープヘルスチェックが有効になっていない場合、SageMaker HyperPod は、Slurm クラスター で現在利用可能な SageMaker HyperPod ヘルスチェックと同じヘルスチェックを実行します。
ヘルスチェックに合格した場合、ノードには次のラベルが付けられます。
sagemaker.amazonaws.com/node-health-status: Schedulable
ヘルスチェックに合格しない場合、ノードは終了して置き換えられます。この動作は、SageMaker HyperPod ヘルスチェックが Slurm クラスターで機能する方法と同じです。
ディープヘルスチェック設定が有効になっている SageMaker HyperPod クラスターにノードが追加された場合
新しいノードが SageMaker HyperPod クラスターに追加され、インスタンスグループに対してディープヘルスチェックテストが有効になっている場合、HyperPod はまずノードをテイントし、ノードで約 2 時間のディープヘルスチェック/ストレステストを開始します。ディープヘルスチェック後のノードラベルの出力は 3 つです。
-
ディープヘルスチェックテストに合格した場合
sagemaker.amazonaws.com/node-health-status: Schedulable
-
ディープヘルスチェックテストに不合格になり、インスタンスを置き換える必要がある場合
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
-
ディープヘルスチェックテストに不合格になり、ディープヘルスチェックを再実行するためにインスタンスを再起動する必要がある場合
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
インスタンスがディープヘルスチェックテストに不合格になった場合、インスタンスは必ず置き換えられます。ディープヘルスチェックテストが成功すると、ノードのテイントは削除されます。
ノードでコンピューティング障害が発生した場合
SageMaker HyperPod ヘルスモニターエージェントは、各ノードのヘルスステータスも継続的にモニタリングします。障害 (GPU の障害やドライバーのクラッシュなど) が検出されると、エージェントはノードに次のいずれかのラベルを付けます。
-
ノードに異常があり、置き換えが必要な場合
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
-
ノードに異常があり、再起動する必要がある場合
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
ヘルスモニターエージェントは、ノードのヘルスの問題を検出すると、ノードもテイントします。