翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
による耐障害性関連の Kubernetes ラベル SageMaker HyperPod
ラベルは、Kubernetes オブジェクト
ノードのヘルスステータスラベル
node-health-status
ラベルは、ノードの状態を表し、正常なノードのノードセレクタフィルターの一部として使用されます。
ラベル | 説明 |
---|---|
sagemaker.amazonaws.com/node-health-status:
Schedulable |
ノードは基本的なヘルスチェックに合格し、ワークロードの実行に使用できます。このヘルスチェックは、Slurm クラスター で現在利用可能な障害 SageMaker HyperPod 耐性機能と同じです。 |
sagemaker.amazonaws.com/node-health-status:
Unschedulable |
ノードはディープヘルスチェックを実行しており、ワークロードの実行には使用できません。 |
sagemaker.amazonaws.com/node-health-status:
UnschedulablePendingReplacement |
ノードがディープヘルスチェックまたはヘルスモニタリングエージェントチェックに失敗し、交換が必要です。自動ノードリカバリが有効になっている場合、ノードは自動的に に置き換えられます SageMaker HyperPod。 |
sagemaker.amazonaws.com/node-health-status:
UnschedulablePendingReboot |
ノードのディープヘルスチェックまたはヘルスモニタリングエージェントのチェックに失敗し、再起動が必要です。自動ノードリカバリが有効になっている場合、ノードは によって自動的に再起動されます SageMaker HyperPod。 |
ディープヘルスチェックラベル
deep-health-check-status
ラベルは、特定のノードのディープヘルスチェックの進行状況を表します。Kubernetes ユーザーが全体的なディープヘルスチェックの進行状況をすばやくフィルタリングするのに役立ちます。
ラベル | 説明 |
---|---|
sagemaker.amazonaws.com/deep-health-check-status:
InProgress |
ノードはディープヘルスチェックを実行しており、ワークロードの実行には使用できません。 |
sagemaker.amazonaws.com/deep-health-check-status:
Passed |
ノードがディープヘルスチェックまたはヘルスモニタリングエージェントチェックに失敗し、交換が必要です。自動ノードリカバリが有効になっている場合、ノードは自動的に に置き換えられます SageMaker HyperPod。 |
sagemaker.amazonaws.com/deep-health-check-status:
Failed |
ノードのディープヘルスチェックまたはヘルスモニタリングエージェントのチェックに失敗し、再起動または交換が必要です。自動ノードリカバリが有効になっている場合、ノードは によって自動的に再起動されます SageMaker HyperPod。 |
障害タイプと理由ラベル
ファローイングは、 fault-type
と fault-reason
ラベルを記述します。
-
fault-type
ラベルは、ヘルスチェックが失敗した場合の高レベルの障害カテゴリを表します。これらは、ディープヘルスとヘルスモニタリングエージェントチェックの両方で特定された障害に対して入力されます。 -
fault-reason
ラベルは、 に関連付けられた詳細な障害理由を表しますfault-type
。
SageMaker HyperPod ラベルの使用方法
以下のトピックでは、さまざまなケースに応じてラベル付けを行う方法について説明します。
トピック
ディープヘルスチェック設定が無効になっている SageMaker HyperPod クラスターにノードを追加する場合
新しいノードがクラスターに追加され、インスタンスグループに対してディープヘルスチェックが有効になっていない場合、 は Slurm クラスター で現在利用可能なヘルスチェックと同じ SageMaker HyperPod ヘルスチェック SageMaker HyperPod を実行します。
ヘルスチェックに合格すると、ノードには次のラベルが付けられます。
sagemaker.amazonaws.com/node-health-status: Schedulable
ヘルスチェックに合格しない場合、ノードは終了して置き換えられます。この動作は、Slurm クラスターの SageMaker HyperPod ヘルスチェックの仕組みと同じです。
ディープヘルスチェック設定が有効になっている SageMaker HyperPod クラスターにノードが追加された場合
新しいノードが SageMaker HyperPod クラスターに追加され、インスタンスグループに対してディープヘルスチェックテストが有効になっている場合、 HyperPod まずノードを汚染し、ノードで約 2 時間のディープヘルスチェック/ストレステストを開始します。ディープヘルスチェックの後に、ノードラベルの出力は 3 つあります。
-
ディープヘルスチェックテストに合格した場合
sagemaker.amazonaws.com/node-health-status: Schedulable
-
ディープヘルスチェックテストが失敗し、インスタンスを交換する必要がある場合
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
-
ディープヘルスチェックテストが失敗し、ディープヘルスチェックを再実行するためにインスタンスを再起動する必要がある場合
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
インスタンスがディープヘルスチェックテストに失敗した場合、インスタンスは常に置き換えられます。ディープヘルスチェックテストが成功すると、ノードの汚れは削除されます。
ノードでコンピューティング障害が発生した場合
また、 SageMaker HyperPod ヘルスモニターエージェントは各ノードのヘルスステータスを継続的にモニタリングします。障害 (GPU障害やドライバーのクラッシュなど) を検出すると、エージェントはノードに次のいずれかのラベルを付けます。
-
ノードに異常があり、置き換えが必要な場合
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
-
ノードが異常で再起動する必要がある場合
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
ヘルスモニターエージェントは、ノードのヘルス問題を検出すると、ノードも汚染します。