翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
ノードを手動で隔離、置換、または再起動する
Amazon とオーケストレーションされたクラスター内の SageMaker HyperPod障害のあるノードを手動で隔離、置換、再起動する方法について説明しますEKS。
ノードを隔離し、トレーニングポッドを強制的に削除するには
kubectl cordon
<node-name>
隔離後、ポッドを強制的に取り出します。これは、ポッドが終了に 30 分以上停止している、またはイベントで「ノードの準備が整っていないkubectl describe pod
」と表示される場合に便利です。
kubectl delete pods
<pod-name>
--grace-period=0 --force
ノードを置き換えるには
をトリガーsagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
する に置き換えるノードにラベルを付けます SageMaker HyperPod 自動ノードリカバリ。また、クラスターの作成または更新中に自動ノードリカバリをアクティブ化する必要があることに注意してください。
kubectl label nodes
<node-name>
\ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
ノードを再起動するには
で再起動するノードにラベルを付けsagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
、 をトリガーします SageMaker HyperPod 自動ノードリカバリ。また、クラスターの作成または更新中に自動ノードリカバリをアクティブ化する必要があることに注意してください。
kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
ラベルUnschedulablePendingReplacement
または UnschedulablePendingReboot
が適用されたら、数分でノードが終了または再起動されるのを確認できます。