Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Funzionalità di resilienza dei SageMaker HyperPod cluster per l'orchestrazione dei cluster con Amazon EKS
SageMaker HyperPod fornisce le seguenti funzionalità di resilienza del cluster.
Argomenti
- SageMaker HyperPodagente di monitoraggio dello stato di salute
- Controlli sanitari di base
- Controlli sanitari approfonditi
- Ripristino automatico dei nodi
- Etichette Kubernetes relative alla resilienza di SageMaker HyperPod
- Metti in quarantena, sostituisci o riavvia manualmente un nodo
- Configurazioni di resilienza consigliate