Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Cluster-Resilienzfunktionen für SageMaker HyperPod Cluster-Orchestrierung mit Amazon EKS
SageMaker HyperPod bietet die folgenden Funktionen zur Cluster-Resilienz.
Themen
- SageMaker HyperPodAgent zur Überwachung des Systemzustands
- Grundlegende Gesundheitschecks
- Umfassende Integritätsprüfungen
- Automatische Knotenwiederherstellung
- Kubernetes-Labels im Zusammenhang mit Resilienz von SageMaker HyperPod
- Einen Knoten manuell unter Quarantäne stellen, ersetzen oder neu starten
- Vorgeschlagene Resilienz