Mettre en quarantaine, remplacer ou redémarrer manuellement un nœud - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Mettre en quarantaine, remplacer ou redémarrer manuellement un nœud

Découvrez comment mettre en quarantaine, remplacer et redémarrer manuellement un nœud défectueux dans des SageMaker HyperPod clusters orchestrés avec AmazonEKS.

Pour mettre un nœud en quarantaine et forcer la suppression d'un module d'entraînement

kubectl cordon <node-name>

Après la quarantaine, expulsez de force le pod. Ceci est utile lorsque vous constatez qu'un pod est bloqué pendant plus de 30 minutes ou qu'il kubectl describe pod affiche « Le nœud n'est pas prêt » dans Événements

kubectl delete pods <pod-name> --grace-period=0 --force

Pour remplacer un nœud

Étiquetez le nœud à remplacersagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement, ce qui déclenche le SageMaker HyperPod Restauration automatique des nœuds. Notez que vous devez également activer la restauration automatique des nœuds lors de la création ou de la mise à jour du cluster.

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement

Pour redémarrer un nœud

Étiquetez le nœud avec lequel redémarrersagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot, ce qui déclenche le SageMaker HyperPod Restauration automatique des nœuds. Notez que vous devez également activer la restauration automatique des nœuds lors de la création ou de la mise à jour du cluster.

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot

Une fois les étiquettes UnschedulablePendingReplacement UnschedulablePendingReboot appliquées, vous devriez être en mesure de voir que le nœud est arrêté ou redémarré dans quelques minutes.