ノードのヘルスステータスラベルディープヘルスチェックのラベル障害タイプと理由ラベル SageMaker HyperPod のラベル付け方法

SageMaker HyperPod による回復性関連の Kubernetes ラベル

ラベルは、Kubernetes オブジェクトにアタッチされるキーと値のペアです。SageMaker HyperPod は、提供するヘルスチェックに次のラベルを導入します。

ノードのヘルスステータスラベル

node-health-status ラベルはノードの状態を表しており、正常なノードのノードセレクタフィルターの一部として使用されます。

ラベル	[Description] (説明)
`sagemaker.amazonaws.com/node-health-status: Schedulable`	ノードが基本的なヘルスチェックに合格しており、実行中のワークロードで使用できます。このヘルスチェックは、Slurm クラスターで現在利用可能な SageMaker HyperPod 回復性機能と同じです。
`sagemaker.amazonaws.com/node-health-status: Unschedulable`	ノードがディープヘルスチェックを実行しており、実行中のワークロードでは使用できません。
`sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement`	ノードがディープヘルスチェックまたはヘルスモニタリングエージェントチェックで不合格となったため、置き換えが必要です。自動ノード復旧が有効になっている場合、ノードは自動的に SageMaker HyperPod に置き換えられます。
`sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot`	ノードがディープヘルスチェックまたはヘルスモニタリングエージェントチェックで不合格となったため、再起動が必要です。自動ノード復旧が有効になっている場合、ノードは SageMaker HyperPod によって自動的に再起動されます。

ディープヘルスチェックのラベル

deep-health-check-status ラベルは、特定のノードのディープヘルスチェックの進行状況を表しています。Kubernetes ユーザーが全体的なディープヘルスチェックの進行状況をすばやくフィルタリングするのに役立ちます。

ラベル	[Description] (説明)
`sagemaker.amazonaws.com/deep-health-check-status: InProgress`	ノードがディープヘルスチェックを実行しており、実行中のワークロードでは使用できません。
`sagemaker.amazonaws.com/deep-health-check-status: Passed`	ノードがディープヘルスチェックまたはヘルスモニタリングエージェントチェックで不合格となったため、置き換えが必要です。自動ノード復旧が有効になっている場合、ノードは自動的に SageMaker HyperPod に置き換えられます。
`sagemaker.amazonaws.com/deep-health-check-status: Failed`	ノードがディープヘルスチェックまたはヘルスモニタリングエージェントチェックで不合格となったため、再起動または置き換えが必要です。自動ノード復旧が有効になっている場合、ノードは SageMaker HyperPod によって自動的に再起動されます。

障害タイプと理由ラベル

以下は、fault-type ラベルと fault-reasonラベルの説明です。

fault-type ラベルは、ヘルスチェックが失敗した場合の高レベルの障害カテゴリを表しています。これらは、ディープヘルスとヘルスモニタリングエージェントチェックの両方で特定された障害に対して入力されます。
fault-reason ラベルは、fault-type に関連付けられた詳細な障害理由を表しています。

SageMaker HyperPod のラベル付け方法

以下のトピックでは、さまざまなケースに応じてラベル付けを行う方法について説明します。

トピック

ディープヘルスチェック設定が無効になっている SageMaker HyperPod クラスターにノードを追加する場合
ディープヘルスチェック設定が有効になっている SageMaker HyperPod クラスターにノードが追加された場合
ノードでコンピューティング障害が発生した場合

ディープヘルスチェック設定が無効になっている SageMaker HyperPod クラスターにノードを追加する場合

新しいノードがクラスターに追加され、インスタンスグループに対してディープヘルスチェックが有効になっていない場合、SageMaker HyperPod は、Slurm クラスターで現在利用可能な SageMaker HyperPod ヘルスチェックと同じヘルスチェックを実行します。

ヘルスチェックに合格した場合、ノードには次のラベルが付けられます。


sagemaker.amazonaws.com/node-health-status: Schedulable

ヘルスチェックに合格しない場合、ノードは終了して置き換えられます。この動作は、SageMaker HyperPod ヘルスチェックが Slurm クラスターで機能する方法と同じです。

ディープヘルスチェック設定が有効になっている SageMaker HyperPod クラスターにノードが追加された場合

新しいノードが SageMaker HyperPod クラスターに追加され、インスタンスグループに対してディープヘルスチェックテストが有効になっている場合、HyperPod はまずノードをテイントし、ノードで約 2 時間のディープヘルスチェック/ストレステストを開始します。ディープヘルスチェック後のノードラベルの出力は 3 つです。

ディープヘルスチェックテストに合格した場合


sagemaker.amazonaws.com/node-health-status: Schedulable

ディープヘルスチェックテストに不合格になり、インスタンスを置き換える必要がある場合
```
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
```
ディープヘルスチェックテストに不合格になり、ディープヘルスチェックを再実行するためにインスタンスを再起動する必要がある場合
```
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
```

インスタンスがディープヘルスチェックテストに不合格になった場合、インスタンスは必ず置き換えられます。ディープヘルスチェックテストが成功すると、ノードのテイントは削除されます。

ノードでコンピューティング障害が発生した場合

SageMaker HyperPod ヘルスモニターエージェントは、各ノードのヘルスステータスも継続的にモニタリングします。障害 (GPU の障害やドライバーのクラッシュなど) が検出されると、エージェントはノードに次のいずれかのラベルを付けます。

ノードに異常があり、置き換えが必要な場合


sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement

ノードに異常があり、再起動する必要がある場合


sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

ヘルスモニターエージェントは、ノードのヘルスの問題を検出すると、ノードもテイントします。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

自動ノード復旧

ノードを手動で隔離、置き換え、または再起動する