Orchestration de SageMaker HyperPod clusters avec Slurm - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Orchestration de SageMaker HyperPod clusters avec Slurm

Le support de Slurm vous SageMaker HyperPod aide à mettre en place des clusters résilients pour exécuter des charges de travail d'apprentissage automatique (ML) et développer des state-of-the-art modèles tels que de grands modèles linguistiques (LLMs), des modèles de diffusion et des modèles de base (). FMs Il accélère le développement de FMs en supprimant les tâches indifférenciées liées à la création et à la maintenance de clusters de calcul à grande échelle alimentés par des milliers d'accélérateurs tels que AWS Unités de traitement graphique Trainium et NVIDIA A100 et H100 (). GPUs Lorsque les accélérateurs tombent en panne, les fonctionnalités de résilience des instances de SageMaker HyperPod monitoring du cluster détectent et remplacent automatiquement le matériel défectueux à la volée afin que vous puissiez vous concentrer sur l'exécution des charges de travail ML. En outre, grâce à la prise en charge de la configuration du cycle de vie SageMaker HyperPod, vous pouvez personnaliser votre environnement informatique en fonction de vos besoins et le configurer avec les bibliothèques de formation SageMaker distribuées d'Amazon afin d'obtenir des performances optimales sur AWS.

Clusters d'exploitation

Vous pouvez créer, configurer et gérer des SageMaker HyperPod clusters graphiquement via l'interface utilisateur (UI) de la console et par programmation via le AWS interface de ligne de commande (CLI) ou AWS SDK for Python (Boto3). Avec AmazonVPC, vous pouvez sécuriser le réseau du cluster et tirer parti de la configuration de votre cluster avec des ressourcesVPC, comme Amazon FSx for Lustre, qui offre le débit le plus rapide. Vous pouvez également attribuer différents IAM rôles aux groupes d'instances de cluster et limiter les actions que les ressources de votre cluster et les utilisateurs peuvent effectuer. Pour en savoir plus, consultez Gestion des SageMaker HyperPod clusters orchestrés par Slurm.

Configuration de votre environnement ML

SageMaker HyperPod runsSageMaker HyperPod DLAMI, qui configure un environnement ML sur les HyperPod clusters. Vous pouvez configurer des personnalisations supplémentaires DLAMI en fournissant des scripts de cycle de vie adaptés à votre cas d'utilisation. Pour en savoir plus sur la configuration des scripts de cycle de vie, consultez Commencer à orchestrer avec SageMaker HyperPod Slurm etSageMaker HyperPod meilleures pratiques de configuration du cycle de vie.

Planification des tâches

Une fois que vous avez créé un HyperPod cluster avec succès, les utilisateurs du cluster peuvent se connecter aux nœuds du cluster (tels que le nœud principal ou contrôleur, le nœud de connexion et le nœud de travail) et planifier des tâches pour exécuter des charges de travail d'apprentissage automatique. Pour en savoir plus, consultez Exécuter des tâches sur SageMaker HyperPod des clusters.

Résilience face aux défaillances matérielles

SageMaker HyperPod exécute des contrôles de santé sur les nœuds du cluster et fournit une fonctionnalité de reprise automatique de la charge de travail. Grâce aux fonctionnalités de résilience des clusters de HyperPod, vous pouvez reprendre votre charge de travail à partir du dernier point de contrôle enregistré, une fois que les nœuds défectueux ont été remplacés par des nœuds sains dans les clusters de plus de 16 nœuds. Pour en savoir plus, consultez SageMaker HyperPod résilience du cluster.

Journalisation et gestion des clusters

Vous pouvez trouver SageMaker HyperPod des indicateurs d'utilisation des ressources et des journaux de cycle de vie sur Amazon CloudWatch, et gérer les SageMaker HyperPod ressources en les balisant. Chaque CreateCluster API exécution crée un flux de journal distinct, nommé selon le <cluster-name>-<timestamp> format. Dans le flux de journal, vous pouvez vérifier les noms d'hôtes, le nom des scripts de cycle de vie ayant échoué et les résultats des scripts ayant échoué, tels que stdout etstderr. Pour de plus amples informations, veuillez consulter SageMaker HyperPod gestion des clusters.

Compatible avec les SageMaker outils

En utilisant SageMaker HyperPod, vous pouvez configurer des clusters avec AWS bibliothèques de communications collectives optimisées proposées par SageMaker, telles que la bibliothèque de parallélisme de données SageMaker distribué (SMDDP). La SMDDP bibliothèque implémente le AllGather fonctionnement optimisé pour AWS infrastructure de calcul et de réseau pour les instances d'apprentissage SageMaker automatique les plus performantes basées sur l'NVIDIAA100GPUs. Pour en savoir plus, consultez Exécutez des charges de travail de formation distribuées avec Slurm on HyperPod.