ノードを手動で隔離、置換、または再起動する - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ノードを手動で隔離、置換、または再起動する

Amazon とオーケストレーションされたクラスター内の SageMaker HyperPod障害のあるノードを手動で隔離、置換、再起動する方法について説明しますEKS。

ノードを隔離し、トレーニングポッドを強制的に削除するには

kubectl cordon <node-name>

隔離後、ポッドを強制的に取り出します。これは、ポッドが終了に 30 分以上停止している、またはイベントで「ノードの準備が整っていないkubectl describe pod」と表示される場合に便利です。

kubectl delete pods <pod-name> --grace-period=0 --force

ノードを置き換えるには

をトリガーsagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacementする に置き換えるノードにラベルを付けます SageMaker HyperPod 自動ノードリカバリ。また、クラスターの作成または更新中に自動ノードリカバリをアクティブ化する必要があることに注意してください。

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement

ノードを再起動するには

で再起動するノードにラベルを付けsagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot、 をトリガーします SageMaker HyperPod 自動ノードリカバリ。また、クラスターの作成または更新中に自動ノードリカバリをアクティブ化する必要があることに注意してください。

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot

ラベルUnschedulablePendingReplacementまたは UnschedulablePendingReboot が適用されたら、数分でノードが終了または再起動されるのを確認できます。