SageMaker HyperPod による回復性関連の Kubernetes ラベル - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker HyperPod による回復性関連の Kubernetes ラベル

ラベルは、Kubernetes オブジェクトにアタッチされるキーと値のペアです。SageMaker HyperPod は、提供するヘルスチェックに次のラベルを導入します。

ノードのヘルスステータスラベル

node-health-status ラベルはノードの状態を表しており、正常なノードのノードセレクタフィルターの一部として使用されます。

ラベル [Description] (説明)
sagemaker.amazonaws.com/node-health-status: Schedulable ノードが基本的なヘルスチェックに合格しており、実行中のワークロードで使用できます。このヘルスチェックは、Slurm クラスターで現在利用可能な SageMaker HyperPod 回復性機能と同じです。
sagemaker.amazonaws.com/node-health-status: Unschedulable ノードがディープヘルスチェックを実行しており、実行中のワークロードでは使用できません。
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement ノードがディープヘルスチェックまたはヘルスモニタリングエージェントチェックで不合格となったため、置き換えが必要です。自動ノード復旧が有効になっている場合、ノードは自動的に SageMaker HyperPod に置き換えられます。
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot ノードがディープヘルスチェックまたはヘルスモニタリングエージェントチェックで不合格となったため、再起動が必要です。自動ノード復旧が有効になっている場合、ノードは SageMaker HyperPod によって自動的に再起動されます。

ディープヘルスチェックのラベル

deep-health-check-status ラベルは、特定のノードのディープヘルスチェックの進行状況を表しています。Kubernetes ユーザーが全体的なディープヘルスチェックの進行状況をすばやくフィルタリングするのに役立ちます。

ラベル [Description] (説明)
sagemaker.amazonaws.com/deep-health-check-status: InProgress ノードがディープヘルスチェックを実行しており、実行中のワークロードでは使用できません。
sagemaker.amazonaws.com/deep-health-check-status: Passed ノードがディープヘルスチェックまたはヘルスモニタリングエージェントチェックで不合格となったため、置き換えが必要です。自動ノード復旧が有効になっている場合、ノードは自動的に SageMaker HyperPod に置き換えられます。
sagemaker.amazonaws.com/deep-health-check-status: Failed ノードがディープヘルスチェックまたはヘルスモニタリングエージェントチェックで不合格となったため、再起動または置き換えが必要です。自動ノード復旧が有効になっている場合、ノードは SageMaker HyperPod によって自動的に再起動されます。

障害タイプと理由ラベル

以下は、fault-type ラベルと fault-reasonラベルの説明です。

  • fault-type ラベルは、ヘルスチェックが失敗した場合の高レベルの障害カテゴリを表しています。これらは、ディープヘルスとヘルスモニタリングエージェントチェックの両方で特定された障害に対して入力されます。

  • fault-reason ラベルは、fault-type に関連付けられた詳細な障害理由を表しています。

SageMaker HyperPod のラベル付け方法

以下のトピックでは、さまざまなケースに応じてラベル付けを行う方法について説明します。

ディープヘルスチェック設定が無効になっている SageMaker HyperPod クラスターにノードを追加する場合

新しいノードがクラスターに追加され、インスタンスグループに対してディープヘルスチェックが有効になっていない場合、SageMaker HyperPod は、Slurm クラスター で現在利用可能な SageMaker HyperPod ヘルスチェックと同じヘルスチェックを実行します。

ヘルスチェックに合格した場合、ノードには次のラベルが付けられます。

sagemaker.amazonaws.com/node-health-status: Schedulable

ヘルスチェックに合格しない場合、ノードは終了して置き換えられます。この動作は、SageMaker HyperPod ヘルスチェックが Slurm クラスターで機能する方法と同じです。

ディープヘルスチェック設定が有効になっている SageMaker HyperPod クラスターにノードが追加された場合

新しいノードが SageMaker HyperPod クラスターに追加され、インスタンスグループに対してディープヘルスチェックテストが有効になっている場合、HyperPod はまずノードをテイントし、ノードで約 2 時間のディープヘルスチェック/ストレステストを開始します。ディープヘルスチェック後のノードラベルの出力は 3 つです。

  1. ディープヘルスチェックテストに合格した場合

    sagemaker.amazonaws.com/node-health-status: Schedulable
  2. ディープヘルスチェックテストに不合格になり、インスタンスを置き換える必要がある場合

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  3. ディープヘルスチェックテストに不合格になり、ディープヘルスチェックを再実行するためにインスタンスを再起動する必要がある場合

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

インスタンスがディープヘルスチェックテストに不合格になった場合、インスタンスは必ず置き換えられます。ディープヘルスチェックテストが成功すると、ノードのテイントは削除されます。

ノードでコンピューティング障害が発生した場合

SageMaker HyperPod ヘルスモニターエージェントは、各ノードのヘルスステータスも継続的にモニタリングします。障害 (GPU の障害やドライバーのクラッシュなど) が検出されると、エージェントはノードに次のいずれかのラベルを付けます。

  1. ノードに異常があり、置き換えが必要な場合

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  2. ノードに異常があり、再起動する必要がある場合

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

ヘルスモニターエージェントは、ノードのヘルスの問題を検出すると、ノードもテイントします。