Orchestration de SageMaker HyperPod clusters avec Amazon EKS - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Orchestration de SageMaker HyperPod clusters avec Amazon EKS

SageMaker HyperPod est un service SageMaker géré qui permet de former à grande échelle des modèles de base sur des clusters de calcul résilients et durables, en s'intégrant à Amazon EKS pour orchestrer les HyperPod ressources de calcul. Vous pouvez exécuter des tâches de formation ininterrompues s'étalant sur des semaines ou des mois à grande échelle à l'aide de EKS clusters Amazon dotés de fonctionnalités de HyperPod résilience qui détectent les diverses défaillances matérielles et restaurent automatiquement les nœuds défectueux.

Les principales fonctionnalités pour les utilisateurs administrateurs du cluster sont les suivantes.

Pour les utilisateurs de data scientists, la EKS prise en charge de in HyperPod permet les opérations suivantes.

  • Exécution de charges de travail conteneurisées pour la formation des modèles de base sur le cluster HyperPod

  • Exécution de l'inférence sur le EKS cluster, en tirant parti de l'intégration entre et HyperPod EKS

  • Tirer parti de la fonctionnalité de reprise automatique des tâches pour la formation Kubeflow PyTorch () PyTorchJob

L'architecture de haut niveau du EKS support Amazon HyperPod implique un mappage 1 à 1 entre un EKS cluster (plan de contrôle) et un HyperPod cluster (nœuds de travail) au sein d'unVPC, comme le montre le schéma suivant.