翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
ノードを手動で隔離、置き換え、または再起動する
Amazon EKS とオーケストレーションされた SageMaker HyperPod クラスターの障害のあるノードを手動で隔離、置き換え、再起動する方法について説明します。
ノードを隔離し、トレーニングポッドを強制的に削除するには
kubectl cordon
<node-name>
隔離後、ポッドを強制的に取り出します。これは、ポッドが 30 分以上終了状態のままになっているか、kubectl describe pod
のイベントで「ノードの準備ができていません」と表示される場合に便利です。
kubectl delete pods
<pod-name>
--grace-period=0 --force
ノードを置き換えるには
sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
で置き換えて SageMaker HyperPod 自動ノード復旧 をトリガーするよう、ノードにラベルを付けます。クラスターの作成または更新中に自動ノード復旧をアクティブ化する必要もあることに注意してください。
kubectl label nodes
<node-name>
\ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
ノードを再起動するには
sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
で再起動して SageMaker HyperPod 自動ノード復旧 をトリガーするよう、ノードにラベルを付けます。クラスターの作成または更新中に自動ノード復旧をアクティブ化する必要もあることに注意してください。
kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
ラベル UnschedulablePendingReplacement
または UnschedulablePendingReboot
が適用されると、数分でノードが終了するか、再起動します。