Cómo poner en cuarentena, reemplazar o reiniciar manualmente un nodo - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Cómo poner en cuarentena, reemplazar o reiniciar manualmente un nodo

Aprenda a poner en cuarentena, reemplazar y reiniciar manualmente un nodo defectuoso en los clústeres de SageMaker HyperPod orquestados con Amazon EKS.

Cómo poner en cuarentena un nodo y forzar la eliminación de un pod de entrenamiento

kubectl cordon <node-name>

Tras la cuarentena, fuerce la expulsión del pod. Esto es útil cuando un pod se queda atascado en la terminación durante más de 30 minutos o kubectl describe pod muestra El nodo no está listo en Eventos.

kubectl delete pods <pod-name> --grace-period=0 --force

Reemplazo de un nodo

Etiquete el nodo que desea reemplazar con sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement, lo que desencadena la Recuperación automática de nodos de SageMaker HyperPod. Tenga en cuenta que también debe activar la recuperación automática de nodos durante la creación o actualización del clúster.

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement

Reinicio de un nodo

Etiquete el nodo que desea reiniciar con sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot, lo que desencadena la Recuperación automática de nodos de SageMaker HyperPod. Tenga en cuenta que también debe activar la recuperación automática de nodos durante la creación o actualización del clúster.

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot

Una vez aplicadas las etiquetas UnschedulablePendingReplacement o UnschedulablePendingReboot, debería ver si el nodo se ha terminado o si se reinicia en unos minutos.