による耐障害性関連の Kubernetes ラベル SageMaker HyperPod - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

による耐障害性関連の Kubernetes ラベル SageMaker HyperPod

ラベルは、Kubernetes オブジェクト にアタッチされるキーと値のペアです。 は、提供するヘルスチェック用に次のラベル SageMaker HyperPod を紹介します。

ノードのヘルスステータスラベル

node-health-status ラベルは、ノードの状態を表し、正常なノードのノードセレクタフィルターの一部として使用されます。

ラベル 説明
sagemaker.amazonaws.com/node-health-status: Schedulable ノードは基本的なヘルスチェックに合格し、ワークロードの実行に使用できます。このヘルスチェックは、Slurm クラスター で現在利用可能な障害 SageMaker HyperPod 耐性機能と同じです
sagemaker.amazonaws.com/node-health-status: Unschedulable ノードはディープヘルスチェックを実行しており、ワークロードの実行には使用できません。
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement ノードがディープヘルスチェックまたはヘルスモニタリングエージェントチェックに失敗し、交換が必要です。自動ノードリカバリが有効になっている場合、ノードは自動的に に置き換えられます SageMaker HyperPod。
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot ノードのディープヘルスチェックまたはヘルスモニタリングエージェントのチェックに失敗し、再起動が必要です。自動ノードリカバリが有効になっている場合、ノードは によって自動的に再起動されます SageMaker HyperPod。

ディープヘルスチェックラベル

deep-health-check-status ラベルは、特定のノードのディープヘルスチェックの進行状況を表します。Kubernetes ユーザーが全体的なディープヘルスチェックの進行状況をすばやくフィルタリングするのに役立ちます。

ラベル 説明
sagemaker.amazonaws.com/deep-health-check-status: InProgress ノードはディープヘルスチェックを実行しており、ワークロードの実行には使用できません。
sagemaker.amazonaws.com/deep-health-check-status: Passed ノードがディープヘルスチェックまたはヘルスモニタリングエージェントチェックに失敗し、交換が必要です。自動ノードリカバリが有効になっている場合、ノードは自動的に に置き換えられます SageMaker HyperPod。
sagemaker.amazonaws.com/deep-health-check-status: Failed ノードのディープヘルスチェックまたはヘルスモニタリングエージェントのチェックに失敗し、再起動または交換が必要です。自動ノードリカバリが有効になっている場合、ノードは によって自動的に再起動されます SageMaker HyperPod。

障害タイプと理由ラベル

ファローイングは、 fault-typefault-reasonラベルを記述します。

  • fault-type ラベルは、ヘルスチェックが失敗した場合の高レベルの障害カテゴリを表します。これらは、ディープヘルスとヘルスモニタリングエージェントチェックの両方で特定された障害に対して入力されます。

  • fault-reason ラベルは、 に関連付けられた詳細な障害理由を表しますfault-type

SageMaker HyperPod ラベルの使用方法

以下のトピックでは、さまざまなケースに応じてラベル付けを行う方法について説明します。

ディープヘルスチェック設定が無効になっている SageMaker HyperPod クラスターにノードを追加する場合

新しいノードがクラスターに追加され、インスタンスグループに対してディープヘルスチェックが有効になっていない場合、 は Slurm クラスター で現在利用可能なヘルスチェックと同じ SageMaker HyperPod ヘルスチェック SageMaker HyperPod を実行します。

ヘルスチェックに合格すると、ノードには次のラベルが付けられます。

sagemaker.amazonaws.com/node-health-status: Schedulable

ヘルスチェックに合格しない場合、ノードは終了して置き換えられます。この動作は、Slurm クラスターの SageMaker HyperPod ヘルスチェックの仕組みと同じです。

ディープヘルスチェック設定が有効になっている SageMaker HyperPod クラスターにノードが追加された場合

新しいノードが SageMaker HyperPod クラスターに追加され、インスタンスグループに対してディープヘルスチェックテストが有効になっている場合、 HyperPod まずノードを汚染し、ノードで約 2 時間のディープヘルスチェック/ストレステストを開始します。ディープヘルスチェックの後に、ノードラベルの出力は 3 つあります。

  1. ディープヘルスチェックテストに合格した場合

    sagemaker.amazonaws.com/node-health-status: Schedulable
  2. ディープヘルスチェックテストが失敗し、インスタンスを交換する必要がある場合

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  3. ディープヘルスチェックテストが失敗し、ディープヘルスチェックを再実行するためにインスタンスを再起動する必要がある場合

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

インスタンスがディープヘルスチェックテストに失敗した場合、インスタンスは常に置き換えられます。ディープヘルスチェックテストが成功すると、ノードの汚れは削除されます。

ノードでコンピューティング障害が発生した場合

また、 SageMaker HyperPod ヘルスモニターエージェントは各ノードのヘルスステータスを継続的にモニタリングします。障害 (GPU障害やドライバーのクラッシュなど) を検出すると、エージェントはノードに次のいずれかのラベルを付けます。

  1. ノードに異常があり、置き換えが必要な場合

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  2. ノードが異常で再起動する必要がある場合

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

ヘルスモニターエージェントは、ノードのヘルス問題を検出すると、ノードも汚染します。