による耐障害性関連の Kubernetes ラベル SageMaker HyperPod - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

による耐障害性関連の Kubernetes ラベル SageMaker HyperPod

ラベルは、Kubernetes オブジェクト に SageMaker HyperPod アタッチされるキーと値のペアです。 は、提供するヘルスチェックに次のラベルを導入します。

ノードのヘルスステータスラベル

node-health-status ラベルは、ノードの状態を表し、正常なノードのノードセレクタフィルターの一部として使用されます。

ラベル 説明
sagemaker.amazonaws.com/node-health-status: Schedulable ノードは基本的なヘルスチェックに合格し、実行中のワークロードで使用できます。このヘルスチェックは、Slurm クラスター で現在利用可能な障害 SageMaker HyperPod 耐性機能と同じです
sagemaker.amazonaws.com/node-health-status: Unschedulable ノードはディープヘルスチェックを実行しており、実行中のワークロードでは使用できません。
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement ノードがディープヘルスチェックまたはヘルスモニタリングエージェントのチェックに失敗し、置き換えが必要です。自動ノード復旧が有効になっている場合、ノードは自動的に に置き換えられます SageMaker HyperPod。
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot ノードがディープヘルスチェックまたはヘルスモニタリングエージェントチェックに失敗し、再起動が必要です。自動ノード復旧が有効になっている場合、ノードは によって自動的に再起動されます SageMaker HyperPod。

ディープヘルスチェックラベル

deep-health-check-status ラベルは、特定のノードでのディープヘルスチェックの進行状況を表します。Kubernetes ユーザーが全体的なディープヘルスチェックの進行状況をすばやくフィルタリングするのに役立ちます。

ラベル 説明
sagemaker.amazonaws.com/deep-health-check-status: InProgress ノードはディープヘルスチェックを実行しており、実行中のワークロードでは使用できません。
sagemaker.amazonaws.com/deep-health-check-status: Passed ノードがディープヘルスチェックまたはヘルスモニタリングエージェントのチェックに失敗し、置き換えが必要です。自動ノード復旧が有効になっている場合、ノードは自動的に に置き換えられます SageMaker HyperPod。
sagemaker.amazonaws.com/deep-health-check-status: Failed ノードがディープヘルスチェックまたはヘルスモニタリングエージェントのチェックに失敗し、再起動または交換が必要です。自動ノード復旧が有効になっている場合、ノードは によって自動的に再起動されます SageMaker HyperPod。

障害タイプと理由ラベル

ファロウイングは、 fault-typeおよび fault-reasonラベルを記述します。

  • fault-type ラベルは、ヘルスチェックが失敗した場合の高レベルの障害カテゴリを表します。これらは、ディープヘルスチェックとヘルスモニタリングエージェントチェックの両方で特定された障害に対して入力されます。

  • fault-reason ラベルは、 に関連する詳細な障害理由を表しますfault-type

SageMaker HyperPod ラベルの方法

以下のトピックでは、さまざまなケースに応じてラベル付けを行う方法について説明します。

ディープヘルスチェック設定が無効になっている SageMaker HyperPod クラスターにノードが追加された場合

新しいノードがクラスターに追加され、インスタンスグループでディープヘルスチェックが有効になっていない場合、 は Slurm クラスター で現在利用可能なヘルスチェックと同じ SageMaker HyperPod ヘルスチェック SageMaker HyperPod を実行します。

ヘルスチェックに合格すると、ノードは次のラベルでマークされます。

sagemaker.amazonaws.com/node-health-status: Schedulable

ヘルスチェックに合格しない場合、ノードは終了して置き換えられます。この動作は、Slurm クラスターの SageMaker HyperPod ヘルスチェックの仕組みと同じです。

ディープヘルスチェック設定が有効になっている SageMaker HyperPod クラスターにノードが追加された場合

新しいノードが SageMaker HyperPod クラスターに追加され、インスタンスグループに対してディープヘルスチェックテストが有効になっている場合、 HyperPod まずノードを汚染し、ノードで約 2 時間のディープヘルスチェック/ストレステストを開始します。ディープヘルスチェックの後、ノードラベルの出力は 3 つあります。

  1. ディープヘルスチェックテストに合格した場合

    sagemaker.amazonaws.com/node-health-status: Schedulable
  2. ディープヘルスチェックテストが失敗し、インスタンスを置き換える必要がある場合

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  3. ディープヘルスチェックテストが失敗し、ディープヘルスチェックを再実行するためにインスタンスを再起動する必要がある場合

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

インスタンスがディープヘルスチェックテストに失敗した場合、インスタンスは常に置き換えられます。ディープヘルスチェックテストが成功すると、ノードのテイントは削除されます。

ノードでコンピューティング障害が発生した場合

また、 SageMaker HyperPod ヘルスモニターエージェントは各ノードのヘルスステータスを継続的にモニタリングします。障害 (GPU障害やドライバーのクラッシュなど) が検出されると、エージェントはノードに次のいずれかのラベルを付けます。

  1. ノードに異常があり、交換する必要がある場合

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  2. ノードに異常があり、再起動が必要な場合

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

ヘルスモニターエージェントは、ノードのヘルス問題を検出すると、ノードを汚染します。