ノードを手動で隔離、置き換え、または再起動する - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ノードを手動で隔離、置き換え、または再起動する

Amazon EKS とオーケストレーションされた SageMaker HyperPod クラスターの障害のあるノードを手動で隔離、置き換え、再起動する方法について説明します。

ノードを隔離し、トレーニングポッドを強制的に削除するには

kubectl cordon <node-name>

隔離後、ポッドを強制的に取り出します。これは、ポッドが 30 分以上終了状態のままになっているか、kubectl describe pod のイベントで「ノードの準備ができていません」と表示される場合に便利です。

kubectl delete pods <pod-name> --grace-period=0 --force

ノードを置き換えるには

sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement で置き換えて SageMaker HyperPod 自動ノード復旧 をトリガーするよう、ノードにラベルを付けます。クラスターの作成または更新中に自動ノード復旧をアクティブ化する必要もあることに注意してください。

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement

ノードを再起動するには

sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot で再起動して SageMaker HyperPod 自動ノード復旧 をトリガーするよう、ノードにラベルを付けます。クラスターの作成または更新中に自動ノード復旧をアクティブ化する必要もあることに注意してください。

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot

ラベル UnschedulablePendingReplacement または UnschedulablePendingReboot が適用されると、数分でノードが終了するか、再起動します。