Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
SageMaker HyperPod vous permet de mettre en place des clusters résilients pour exécuter des charges de travail d'apprentissage automatique (ML) et développer state-of-the-art des modèles tels que de grands modèles linguistiques (LLMs), des modèles de diffusion et des modèles de base (FMs). Il accélère le développement FMs en supprimant les tâches indifférenciées liées à la création et à la maintenance de clusters de calcul à grande échelle alimentés par des milliers d'accélérateurs tels que AWS Trainium et les unités de traitement graphique NVIDIA A100 et H100 (). GPUs Lorsque les accélérateurs tombent en panne, les fonctionnalités de résilience des instances de SageMaker HyperPod surveillance du cluster détectent et remplacent automatiquement le matériel défectueux à la volée afin que vous puissiez vous concentrer sur l'exécution des charges de travail ML.
Pour commencer, vérifiez Conditions préalables pour l'utilisation du SageMaker HyperPod.AWS Identity and Access Management pour SageMaker HyperPod, configurez et choisissez l'une des options d'orchestrateur suivantes prises en charge par SageMaker HyperPod.
Support Slurm dans SageMaker HyperPod
SageMaker HyperPod prend en charge l'exécution de charges de travail d'apprentissage automatique sur des clusters résilients en s'intégrant à Slurm, un gestionnaire de charge de travail open source. La prise en charge de Slurm SageMaker HyperPod permet une orchestration fluide des clusters grâce à la configuration des clusters Slurm, ce qui vous permet de configurer des nœuds de tête, de connexion et de travail sur les SageMaker HyperPod clusters. Cette intégration facilite également la planification des tâches basée sur Slurm pour l'exécution de charges de travail ML sur le cluster, ainsi que l'accès direct aux nœuds du cluster pour la planification des tâches. Grâce à HyperPod la prise en charge de la configuration du cycle de vie, vous pouvez personnaliser l'environnement informatique des clusters en fonction de vos besoins spécifiques. En outre, en tirant parti des bibliothèques de formation distribuées d'Amazon SageMaker AI, vous pouvez optimiser les performances des clusters en termes de ressources AWS informatiques et réseau. Pour en savoir plus, consultez Orchestration de SageMaker HyperPod clusters avec Slurm.
Support d'Amazon EKS dans SageMaker HyperPod
SageMaker HyperPod s'intègre également à Amazon EKS pour permettre la formation à grande échelle de modèles de base sur des clusters de calcul résilients et de longue durée. Cela permet aux utilisateurs administrateurs de clusters de provisionner des HyperPod clusters et de les associer à un plan de contrôle EKS, ce qui permet une gestion dynamique des capacités, un accès direct aux instances de cluster et des fonctionnalités de résilience. Pour les data scientists, le support d'Amazon EKS HyperPod permet d'exécuter des charges de travail conteneurisées pour former des modèles de base, d'inférer des inférences sur le cluster EKS et de tirer parti de la fonctionnalité de reprise automatique des tâches pour la formation Kubeflow. PyTorch L'architecture implique un mappage 1 à 1 entre un cluster EKS (plan de contrôle) et un HyperPod cluster (nœuds de travail) au sein d'un VPC, fournissant ainsi une solution étroitement intégrée pour exécuter des charges de travail ML à grande échelle. Pour en savoir plus, consultez Orchestration de SageMaker HyperPod clusters avec Amazon EKS.
Régions AWS soutenu par SageMaker HyperPod
SageMaker HyperPod est disponible dans les versions suivantes Régions AWS.
-
us-east-1
-
us-east-2
-
us-west-1
-
us-west-2
-
eu-central-1
-
eu-north-1
-
eu-west-1
-
eu-west-2
-
ap-south-1
-
ap-southeast-1
-
ap-southeast-2
-
ap-southeast-4
-
ap-northeast-1
-
sa-east-1