노드를 수동으로 격리, 교체 또는 - Amazon SageMaker

노드를 수동으로 격리, 교체 또는

Amazon EKS로 오케스트레이션된 SageMaker HyperPod 클러스터에서 결함이 있는 노드를 수동으로 격리, 교체 및 재부팅하는 방법을 알아봅니다.

노드를 격리하고 훈련 포드를 강제 삭제하려면

kubectl cordon <node-name>

격리 후 포드를 강제로 배출합니다. 포드가 30분 이상 종료되지 않았거나 이벤트에서 '노드가 준비되지 않음'을 kubectl describe pod가 표시할 때 유용합니다.

kubectl delete pods <pod-name> --grace-period=0 --force

노드를 교체하려면

SageMaker HyperPod 자동 노드 복구를 트리거하는 sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement로 교체할 노드에 레이블을 지정합니다. 클러스터 생성 또는 업데이트 중에도 자동 노드 복구를 활성화해야 합니다.

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement

디바이스를 재부팅하려면

SageMaker HyperPod 자동 노드 복구를 트리거하며 재부팅할 노드에 sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot로 레이블을 지정합니다. 클러스터 생성 또는 업데이트 중에도 자동 노드 복구를 활성화해야 합니다.

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot

레이블 UnschedulablePendingReplacement 또는 UnschedulablePendingReboot가 적용된 후 몇 분 내에 노드가 종료되거나 재부팅되는 것을 확인할 수 있습니다.