Sélectionner vos préférences de cookies

Nous utilisons des cookies essentiels et des outils similaires qui sont nécessaires au fonctionnement de notre site et à la fourniture de nos services. Nous utilisons des cookies de performance pour collecter des statistiques anonymes afin de comprendre comment les clients utilisent notre site et d’apporter des améliorations. Les cookies essentiels ne peuvent pas être désactivés, mais vous pouvez cliquer sur « Personnaliser » ou « Refuser » pour refuser les cookies de performance.

Si vous êtes d’accord, AWS et les tiers approuvés utiliseront également des cookies pour fournir des fonctionnalités utiles au site, mémoriser vos préférences et afficher du contenu pertinent, y compris des publicités pertinentes. Pour accepter ou refuser tous les cookies non essentiels, cliquez sur « Accepter » ou « Refuser ». Pour effectuer des choix plus détaillés, cliquez sur « Personnaliser ».

Amazon SageMaker HyperPod

Mode de mise au point
Amazon SageMaker HyperPod - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

SageMaker HyperPod vous permet de mettre en place des clusters résilients pour exécuter des charges de travail d'apprentissage automatique (ML) et développer state-of-the-art des modèles tels que de grands modèles linguistiques (LLMs), des modèles de diffusion et des modèles de base (FMs). Il accélère le développement FMs en supprimant les tâches indifférenciées liées à la création et à la maintenance de clusters de calcul à grande échelle alimentés par des milliers d'accélérateurs tels que AWS Trainium et les unités de traitement graphique NVIDIA A100 et H100 (). GPUs Lorsque les accélérateurs tombent en panne, les fonctionnalités de résilience des instances de SageMaker HyperPod surveillance du cluster détectent et remplacent automatiquement le matériel défectueux à la volée afin que vous puissiez vous concentrer sur l'exécution des charges de travail ML.

Pour commencer, vérifiez Conditions préalables pour l'utilisation du SageMaker HyperPod.AWS Identity and Access Management pour SageMaker HyperPod, configurez et choisissez l'une des options d'orchestrateur suivantes prises en charge par SageMaker HyperPod.

Support Slurm dans SageMaker HyperPod

SageMaker HyperPod prend en charge l'exécution de charges de travail d'apprentissage automatique sur des clusters résilients en s'intégrant à Slurm, un gestionnaire de charge de travail open source. La prise en charge de Slurm SageMaker HyperPod permet une orchestration fluide des clusters grâce à la configuration des clusters Slurm, ce qui vous permet de configurer des nœuds de tête, de connexion et de travail sur les SageMaker HyperPod clusters. Cette intégration facilite également la planification des tâches basée sur Slurm pour l'exécution de charges de travail ML sur le cluster, ainsi que l'accès direct aux nœuds du cluster pour la planification des tâches. Grâce à HyperPod la prise en charge de la configuration du cycle de vie, vous pouvez personnaliser l'environnement informatique des clusters en fonction de vos besoins spécifiques. En outre, en tirant parti des bibliothèques de formation distribuées d'Amazon SageMaker AI, vous pouvez optimiser les performances des clusters en termes de ressources AWS informatiques et réseau. Pour en savoir plus, consultez Orchestration de SageMaker HyperPod clusters avec Slurm.

Support d'Amazon EKS dans SageMaker HyperPod

SageMaker HyperPod s'intègre également à Amazon EKS pour permettre la formation à grande échelle de modèles de base sur des clusters de calcul résilients et de longue durée. Cela permet aux utilisateurs administrateurs de clusters de provisionner des HyperPod clusters et de les associer à un plan de contrôle EKS, ce qui permet une gestion dynamique des capacités, un accès direct aux instances de cluster et des fonctionnalités de résilience. Pour les data scientists, le support d'Amazon EKS HyperPod permet d'exécuter des charges de travail conteneurisées pour former des modèles de base, d'inférer des inférences sur le cluster EKS et de tirer parti de la fonctionnalité de reprise automatique des tâches pour la formation Kubeflow. PyTorch L'architecture implique un mappage 1 à 1 entre un cluster EKS (plan de contrôle) et un HyperPod cluster (nœuds de travail) au sein d'un VPC, fournissant ainsi une solution étroitement intégrée pour exécuter des charges de travail ML à grande échelle. Pour en savoir plus, consultez Orchestration de SageMaker HyperPod clusters avec Amazon EKS.

Régions AWS soutenu par SageMaker HyperPod

SageMaker HyperPod est disponible dans les versions suivantes Régions AWS.

  • us-east-1

  • us-east-2

  • us-west-1

  • us-west-2

  • eu-central-1

  • eu-north-1

  • eu-west-1

  • eu-west-2

  • ap-south-1

  • ap-southeast-1

  • ap-southeast-2

  • ap-southeast-4

  • ap-northeast-1

  • sa-east-1

ConfidentialitéConditions d'utilisation du sitePréférences de cookies
© 2025, Amazon Web Services, Inc. ou ses affiliés. Tous droits réservés.