Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Fonctionnalités de résilience des clusters pour l'orchestration des SageMaker HyperPod clusters avec Amazon EKS
SageMaker HyperPod fournit les fonctionnalités de résilience des clusters suivantes.
Rubriques
- SageMaker HyperPodagent de surveillance de la santé
- Contrôles de santé de base
- Contrôles de santé approfondis
- Restauration automatique des nœuds
- Étiquettes Kubernetes liées à la résilience par SageMaker HyperPod
- Mettre en quarantaine, remplacer ou redémarrer manuellement un nœud
- Configurations de résilience suggérées