Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Utilisation de l'interface utilisateur SageMaker HyperPod de la console
Créez votre premier SageMaker HyperPod cluster à l'aide de l'interface utilisateur de SageMaker HyperPod la console.
Créez votre premier SageMaker HyperPod cluster avec Slurm
Le didacticiel suivant explique comment créer un nouveau SageMaker HyperPod cluster et le configurer avec Slurm via l'interface utilisateur de la SageMaker console. À la suite du didacticiel, vous allez créer un HyperPod cluster avec trois nœuds Slurm, my-controller-group
my-login-group
, et. worker-group-1
Ouvrez la SageMaker console Amazon à l'adresse https://console.aws.amazon.com/sagemaker/
. -
Choisissez HyperPod Clusters dans le volet de navigation de gauche.
-
Sur la page SageMaker HyperPod Clusters, choisissez Create cluster.
-
Dans Étape 1 : Paramètres du cluster, spécifiez le nom du nouveau cluster. Ignorez la section Tags.
-
À l'étape 2 : Groupes d'instances, ajoutez des groupes d'instances. Chaque groupe d'instances peut être configuré différemment, et vous pouvez créer un cluster hétérogène composé de plusieurs groupes d'instances avec différents types d'instances. Pour que les scripts de configuration du cycle de vie s'exécutent sur le groupe d'instances lors de la création du cluster, vous pouvez commencer par utiliser les exemples de scripts de cycle de vie fournis dans le GitHub référentiel Awsome Distributed Training
. -
Pour Nom du groupe d'instances, spécifiez un nom pour le groupe d'instances. Pour ce didacticiel, créez trois groupes d'instances nommés
my-controller-group
my-login-group
, etworker-group-1
. -
Pour Sélectionner le type d'instance, choisissez l'instance pour le groupe d'instances. Pour ce didacticiel, sélectionnez
ml.c5.xlarge
ml.m5.4xlarge
pourmy-controller-group
my-login-group
, pour etml.trn1.32xlarge
pourworker-group-1
.Assurez-vous de choisir le type d'instance avec des quotas suffisants sur votre compte, ou demandez des quotas supplémentaires en suivant le lien surSageMaker HyperPod quotas.
-
Pour Quantité, spécifiez un entier ne dépassant pas le quota d'instance pour l'utilisation du cluster. Pour ce didacticiel, entrez 1 pour les trois groupes.
-
Pour les fichiers de script du chemin vers le cycle de vie S3, entrez le chemin Amazon S3 dans lequel vos scripts de cycle de vie sont stockés. Si vous ne disposez pas de scripts de cycle de vie, suivez les sous-étapes suivantes pour utiliser les scripts de cycle de vie de base fournis par l'équipe SageMaker HyperPod de service.
-
Clonez le GitHubréférentiel Awsome Distributed Training.
git clone https://github.com/aws-samples/awsome-distributed-training/
-
Vous trouverez ci-dessous un ensemble de scripts de cycle de vie de base.
1.architectures/5.sagemaker_hyperpods/LifecycleScripts/base-config
Pour en savoir plus sur les scripts de cycle de vie, consultez égalementPersonnalisez les SageMaker HyperPod clusters à l'aide de scripts de cycle. -
Écrivez un fichier de configuration Slurm et enregistrez-le sous.
provisioning_params.json
Dans le fichier, spécifiez les paramètres de configuration de base de Slurm pour attribuer correctement les nœuds Slurm aux groupes d'instances du SageMaker HyperPod cluster. Par exemple,provisioning_params.json
il doit être similaire à ce qui suit en fonction du groupe d'instances de HyperPod cluster configuré lors des étapes 5a, 5b et 5c précédentes.{ "version": "1.0.0", "workload_manager": "
slurm
", "controller_group": "my-controller-group
", "login_group": "my-login-group
", "worker_groups": [ { "instance_group_name": "worker-group-1
", "partition_name": "partition-1
" } ] } -
Téléchargez les scripts dans votre compartiment Amazon S3. Créez un compartiment S3 avec un chemin au format suivant :
s3://sagemaker-
. Vous pouvez créer ce compartiment à l'aide de la console Amazon S3.<unique-s3-bucket-name>
/<lifecycle-script-directory>
/srcNote
Vous devez
sagemaker-
préfixer le chemin du compartiment S3, car le IAMrôle pour SageMaker HyperPod with permetAmazonSageMakerClusterInstanceRolePolicy
uniquement aux principaux d'accéder aux compartiments S3 avec ce préfixe spécifique.
-
-
Pour le chemin du répertoire vers votre script de cycle de vie lors de la création, entrez le nom de fichier du script de cycle de vie sous Chemin S3 vers les fichiers de script de cycle de vie.
-
Pour IAMle rôle, choisissez le IAM rôle que vous avez créé
AmazonSageMakerClusterInstanceRolePolicy
à l'aide de la sectionIAMrôle pour SageMaker HyperPod. -
Sous Configuration avancée, vous pouvez configurer les configurations facultatives suivantes.
-
(Facultatif) Pour Threads par cœur, spécifiez
1
pour désactiver le multithreading et2
pour activer le multi-threading. Pour savoir quel type d'instance prend en charge le multithreading, consultez le tableau de référence des CPUcœurs et des threads par CPU cœur et par type d'instance dans le guide de l'utilisateur d'Amazon Elastic Compute Cloud. -
(Facultatif) Pour les configurations de stockage d'instance supplémentaires, spécifiez un entier compris entre 1 et 16384 pour définir la taille d'un volume Elastic Block Store (EBS) supplémentaire en gigaoctets (Go). Le EBS volume est attaché à chaque instance du groupe d'instances. Le chemin de montage par défaut pour le EBS volume supplémentaire est
/opt/sagemaker
. Une fois le cluster créé avec succès, vous pouvez accéder SSH aux instances du cluster (nœuds) et vérifier si le EBS volume est correctement monté en exécutant ladf -h
commande. L'attachement d'un EBS volume supplémentaire fournit un stockage stable, hors instance et persistant de manière indépendante, comme décrit dans la section Amazon EBS Volumes du guide de l'utilisateur Amazon Elastic Block Store.
-
-
-
À l'étape 3 : Configuration avancée, configurez les paramètres réseau à l'intérieur, à l'intérieur et à l'extérieur du cluster. Sélectionnez le vôtre VPC si vous en avez déjà un qui donne SageMaker accès à votreVPC. Si vous n'en avez pas mais que vous souhaitez en créer un nouveauVPC, suivez les instructions de la section Créer un VPC dans le guide de l'utilisateur d'Amazon Virtual Private Cloud. Vous pouvez laisser la valeur non VPC pour utiliser la valeur par défaut SageMaker VPC.
-
À l'étape 4 : révision et création, passez en revue la configuration que vous avez définie aux étapes 1 à 3 et terminez la soumission de la demande de création de cluster.
-
Le nouveau cluster doit apparaître sous Clusters dans le volet principal de la SageMaker HyperPod console. Vous pouvez vérifier son état affiché dans la colonne État.
-
Une fois que le statut du cluster est passé à « activé »
InService
, vous pouvez commencer à vous connecter aux nœuds du cluster. Pour accéder aux nœuds du cluster et commencer à exécuter des charges de travail ML, consultezOffres d'emploi sur SageMaker HyperPod des clusters.
Supprimer le cluster et nettoyer les ressources
Une fois que vous avez testé avec succès la création d'un SageMaker HyperPod cluster, celui-ci continue de fonctionner tel quel InService
jusqu'à ce que vous le supprimiez. Nous vous recommandons de supprimer tous les clusters créés à l'aide d' SageMaker instances à la demande lorsqu'ils ne sont pas utilisés afin d'éviter de devoir payer des frais de service continus basés sur la tarification à la demande. Dans ce didacticiel, vous avez créé un cluster composé de deux groupes d'instances. L'un d'eux utilise une instance C5. Veillez donc à supprimer le cluster en suivant les instructions deSupprimer un SageMaker HyperPod cluster.
Toutefois, si vous avez créé un cluster avec une capacité de calcul réservée, l'état des clusters n'a aucune incidence sur la facturation des services.
Pour nettoyer les scripts de cycle de vie du compartiment S3 utilisé pour ce didacticiel, accédez au compartiment S3 que vous avez utilisé lors de la création du cluster et supprimez complètement les fichiers.
Si vous avez testé l'exécution de charges de travail sur le cluster, vérifiez si vous avez téléchargé des données ou si votre tâche a enregistré des artefacts dans différents compartiments S3 ou services de système de fichiers tels qu'Amazon FSx for Lustre et Amazon Elastic File System. Pour éviter tout frais, supprimez tous les artefacts et données du système de stockage ou de fichiers.