Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Orchestration de SageMaker HyperPod clusters avec Amazon EKS
SageMaker HyperPod est un service SageMaker géré qui permet de former à grande échelle des modèles de base sur des clusters de calcul résilients et durables, en s'intégrant à Amazon EKS pour orchestrer les HyperPod ressources de calcul. Vous pouvez exécuter des tâches de formation ininterrompues s'étalant sur des semaines ou des mois à grande échelle à l'aide de EKS clusters Amazon dotés de fonctionnalités de HyperPod résilience qui détectent les diverses défaillances matérielles et restaurent automatiquement les nœuds défectueux.
Les principales fonctionnalités pour les utilisateurs administrateurs du cluster sont les suivantes.
-
Provisionner HyperPod des clusters résilients et les associer à un plan EKS de contrôle
-
Permettre la gestion dynamique des capacités, comme l'ajout de nœuds supplémentaires, la mise à jour du logiciel et la suppression de clusters
-
Activation de l'accès aux instances du cluster directement via
kubectl
ouSSM/SSH -
Offrant des fonctionnalités de résilience, notamment des bilans de santé de base, des bilans de santé approfondis, un agent de surveillance de l'état de santé et une assistance pour PyTorch la reprise automatique des tâches
-
Intégration à des outils d'observabilité tels qu'Amazon CloudWatch Container Insights, Amazon Managed Service for Prometheus et Amazon Managed Grafana
Pour les utilisateurs de data scientists, la EKS prise en charge de in HyperPod permet les opérations suivantes.
-
Exécution de charges de travail conteneurisées pour la formation des modèles de base sur le cluster HyperPod
-
Exécution de l'inférence sur le EKS cluster, en tirant parti de l'intégration entre et HyperPod EKS
-
Tirer parti de la fonctionnalité de reprise automatique des tâches pour la formation Kubeflow PyTorch
() PyTorchJob
L'architecture de haut niveau du EKS support Amazon HyperPod implique un mappage 1 à 1 entre un EKS cluster (plan de contrôle) et un HyperPod cluster (nœuds de travail) au sein d'unVPC, comme le montre le schéma suivant.