Colocar em quarentena, substituir ou reinicializar manualmente um nó - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Colocar em quarentena, substituir ou reinicializar manualmente um nó

Saiba como colocar em quarentena, substituir e reinicializar manualmente um nó com defeito em SageMaker HyperPod clusters orquestrados com a Amazon. EKS

Para colocar um nó em quarentena e forçar a exclusão de um pod de treinamento

kubectl cordon <node-name>

Após a quarentena, force a ejeção do Pod. Isso é útil quando você vê que um pod está preso na terminação por mais de 30 minutos ou kubectl describe pod mostra “O nó não está pronto” em Eventos

kubectl delete pods <pod-name> --grace-period=0 --force

Para substituir um nó

Identifique o nó a ser substituídosagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement, o que aciona o. SageMaker HyperPod Recuperação automática de nós Observe que você também precisa ativar a recuperação automática de nós durante a criação ou atualização do cluster.

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement

Para reinicializar um nó

Identifique o nó com o qual reinicializarsagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot, o que aciona o. SageMaker HyperPod Recuperação automática de nós Observe que você também precisa ativar a recuperação automática de nós durante a criação ou atualização do cluster.

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot

Depois que os rótulos UnschedulablePendingReplacement UnschedulablePendingReboot forem aplicados, você poderá ver o nó ser encerrado ou reinicializado em alguns minutos.