Poner en cuarentena, reemplazar o reiniciar manualmente un nodo - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Poner en cuarentena, reemplazar o reiniciar manualmente un nodo

Aprenda a poner en cuarentena, reemplazar y reiniciar manualmente un nodo defectuoso en SageMaker HyperPod clústeres organizados con AmazonEKS.

Para poner en cuarentena un nodo y forzar la eliminación de un módulo de entrenamiento

kubectl cordon <node-name>

Tras la cuarentena, fuerza la expulsión del pod. Esto resulta útil cuando ves que un pod ha estado atascado en la terminación durante más de 30 minutos o cuando kubectl describe pod aparece el mensaje «El nodo no está listo» en los eventos

kubectl delete pods <pod-name> --grace-period=0 --force

Para reemplazar un nodo

Etiquete el nodo por el que desea reemplazarlosagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement, lo que activa el SageMaker HyperPod Recuperación automática de nodos. Tenga en cuenta que también debe activar la recuperación automática de nodos durante la creación o actualización del clúster.

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement

Para reiniciar un nodo

Etiquete el nodo con el que se va a reiniciarsagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot, lo que activa el SageMaker HyperPod Recuperación automática de nodos. Tenga en cuenta que también debe activar la recuperación automática de nodos durante la creación o actualización del clúster.

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot

Una vez UnschedulablePendingReboot colocadas las etiquetasUnschedulablePendingReplacement, deberías poder ver que el nodo ha terminado o se ha reiniciado en unos minutos.