Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Orchestration de SageMaker HyperPod clusters avec Slurm
Le support de Slurm vous SageMaker HyperPod aide à mettre en place des clusters résilients pour exécuter des charges de travail d'apprentissage automatique (ML) et développer des state-of-the-art modèles tels que de grands modèles linguistiques (LLMs), des modèles de diffusion et des modèles de base (). FMs Il accélère le développement de FMs en supprimant les tâches indifférenciées liées à la création et à la maintenance de clusters de calcul à grande échelle alimentés par des milliers d'accélérateurs tels que AWS Unités de traitement graphique Trainium et NVIDIA A100 et H100 (). GPUs Lorsque les accélérateurs tombent en panne, les fonctionnalités de résilience des instances de SageMaker HyperPod monitoring du cluster détectent et remplacent automatiquement le matériel défectueux à la volée afin que vous puissiez vous concentrer sur l'exécution des charges de travail ML. En outre, grâce à la prise en charge de la configuration du cycle de vie SageMaker HyperPod, vous pouvez personnaliser votre environnement informatique en fonction de vos besoins et le configurer avec les bibliothèques de formation SageMaker distribuées d'Amazon afin d'obtenir des performances optimales sur AWS.
Clusters d'exploitation
Vous pouvez créer, configurer et gérer des SageMaker HyperPod clusters graphiquement via l'interface utilisateur (UI) de la console et par programmation via le AWS interface de ligne de commande (CLI) ou AWS SDK for Python (Boto3). Avec AmazonVPC, vous pouvez sécuriser le réseau du cluster et tirer parti de la configuration de votre cluster avec des ressourcesVPC, comme Amazon FSx for Lustre, qui offre le débit le plus rapide. Vous pouvez également attribuer différents IAM rôles aux groupes d'instances de cluster et limiter les actions que les ressources de votre cluster et les utilisateurs peuvent effectuer. Pour en savoir plus, consultez SageMaker HyperPod opération.
Configuration de votre environnement ML
SageMaker HyperPod runsSageMaker HyperPod DLAMI, qui configure un environnement ML sur les HyperPod clusters. Vous pouvez configurer des personnalisations supplémentaires DLAMI en fournissant des scripts de cycle de vie adaptés à votre cas d'utilisation. Pour en savoir plus sur la configuration des scripts de cycle de vie, consultez Tutoriel pour démarrer avec SageMaker HyperPod etPersonnalisez les SageMaker HyperPod clusters à l'aide de scripts de cycle.
Planification des tâches
Une fois que vous avez créé un HyperPod cluster avec succès, les utilisateurs du cluster peuvent se connecter aux nœuds du cluster (tels que le nœud principal ou contrôleur, le nœud de connexion et le nœud de travail) et planifier des tâches pour exécuter des charges de travail d'apprentissage automatique. Pour en savoir plus, consultez Offres d'emploi sur SageMaker HyperPod des clusters.
Résilience face aux défaillances matérielles
SageMaker HyperPod exécute des contrôles de santé sur les nœuds du cluster et fournit une fonctionnalité de reprise automatique de la charge de travail. Grâce aux fonctionnalités de résilience des clusters de HyperPod, vous pouvez reprendre votre charge de travail à partir du dernier point de contrôle enregistré, une fois que les nœuds défectueux ont été remplacés par des nœuds sains dans les clusters de plus de 16 nœuds. Pour en savoir plus, consultez SageMaker HyperPod résilience du cluster.
Journalisation et gestion des clusters
Vous pouvez trouver SageMaker HyperPod des indicateurs d'utilisation des ressources et des journaux de cycle de vie sur Amazon CloudWatch, et gérer les SageMaker HyperPod ressources en les balisant. Chaque CreateCluster
API exécution crée un flux de journal distinct, nommé selon le <cluster-name>-<timestamp>
format. Dans le flux de journal, vous pouvez vérifier les noms d'hôtes, le nom des scripts de cycle de vie ayant échoué et les résultats des scripts ayant échoué, tels que stdout
etstderr
. Pour de plus amples informations, veuillez consulter SageMaker HyperPod gestion des clusters.
Compatible avec les SageMaker outils
En utilisant SageMaker HyperPod, vous pouvez configurer des clusters avec AWS bibliothèques de communications collectives optimisées proposées par SageMaker, telles que la bibliothèque de parallélisme de données SageMaker distribué (SMDDP). La SMDDP bibliothèque implémente le AllGather
fonctionnement optimisé pour AWS infrastructure de calcul et de réseau pour les instances d'apprentissage SageMaker automatique les plus performantes basées sur l'NVIDIAA100GPUs. Pour en savoir plus, consultez Exécutez des charges de travail de formation distribuées avec Slurm on HyperPod.
Rubriques
- Tutoriel pour démarrer avec SageMaker HyperPod
- SageMaker HyperPod opération
- Personnalisez les SageMaker HyperPod clusters à l'aide de scripts de cycle
- Offres d'emploi sur SageMaker HyperPod des clusters
- SageMaker HyperPod surveillance des ressources du cluster
- SageMaker HyperPod résilience du cluster
- SageMaker HyperPod gestion des clusters
- SageMaker HyperPod FAQ