Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Einen Knoten manuell unter Quarantäne stellen, ersetzen oder neu starten
Erfahren Sie, wie Sie einen fehlerhaften Knoten in SageMaker HyperPod Clustern, die mit Amazon EKS orchestriert wurden, manuell unter Quarantäne stellen, ersetzen und neu starten können.
Um einen Knoten unter Quarantäne zu stellen und das Löschen eines Trainings-Pods zu erzwingen
kubectl cordon
<node-name>
Erzwingen Sie nach der Quarantäne das Auswerfen des Pods. Dies ist nützlich, wenn Sie sehen, dass ein Pod länger als 30 Minuten im Terminierungsmodus hängen geblieben ist oder wenn unter Ereignisse die Meldung „Der Knoten ist nicht bereit“ kubectl describe pod
angezeigt wird
kubectl delete pods
<pod-name>
--grace-period=0 --force
Um einen Knoten zu ersetzen
Benennen Sie den Knoten, durch den ersetzt werden sollsagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
, wodurch der ausgelöst wird SageMaker HyperPod Automatische Knotenwiederherstellung. Beachten Sie, dass Sie bei der Erstellung oder Aktualisierung des Clusters auch die automatische Knotenwiederherstellung aktivieren müssen.
kubectl label nodes
<node-name>
\ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
Um einen Knoten neu zu starten
Benennen Sie den Knoten, mit dem neu gestartet werden sollsagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
, wodurch der ausgelöst wird SageMaker HyperPod Automatische Knotenwiederherstellung. Beachten Sie, dass Sie bei der Erstellung oder Aktualisierung des Clusters auch die automatische Knotenwiederherstellung aktivieren müssen.
kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
Nachdem die Labels UnschedulablePendingReplacement
oder UnschedulablePendingReboot
hinzugefügt wurden, sollten Sie in wenigen Minuten sehen können, ob der Knoten beendet oder neu gestartet wurde.