Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Créer un cluster SageMaker HyperPod
Consultez les instructions suivantes pour créer un nouveau SageMaker HyperPod cluster à l'aide de l'interface utilisateur de la SageMaker HyperPod console.
-
Ouvrez la console Amazon SageMaker AI à l'adresse https://console.aws.amazon.com/sagemaker/
. -
Choisissez HyperPod des clusters dans le volet de navigation de gauche.
-
Sur la page SageMaker HyperPod d'accueil, choisissez Create HyperPod cluster.
-
Dans le menu déroulant de Create HyperPod cluster, choisissez Orchestrated by Amazon EKS.
-
Dans la liste des EKS clusters Amazon, choisissez le EKS cluster avec lequel vous souhaitez configurer le nouveau HyperPod cluster.
-
Si vous devez créer un nouveau EKS cluster, choisissez Create EKS cluster. Vous pouvez le créer à partir de la page de liste des EKS clusters sans avoir à ouvrir la EKS console Amazon.
Note
Le VPC sous-réseau que vous choisissez HyperPod doit être privé.
-
Après avoir soumis une nouvelle demande de création de EKS cluster, attendez que le EKS cluster devienne actif.
-
Installez le tableau Helm comme indiqué dans le manuelInstaller des packages sur le EKS cluster Amazon à l'aide de Helm.
-
Une fois la création du EKS cluster terminée, choisissez Create HyperPod cluster, puis Orchestrated by EKS à nouveau. Vous devriez être en mesure de trouver et de sélectionner le nouveau EKS cluster. Pour continuer, choisissez Sélectionner.
-
-
Sur la page Configurer un nouveau HyperPod cluster, configurez les informations de base du cluster, telles que le nom, les options permettant d'activer les fonctionnalités de résilience du HyperPod cluster et les balises.
-
Pour Nom du cluster, spécifiez le nom du nouveau cluster.
-
Pour Résilience du cluster : restauration des nœuds, indiquez si vous
Automatic
souhaitez activer la restauration automatique des nœuds. SageMaker HyperPodremplace ou redémarre les instances (nœuds) lorsque des problèmes sont détectés par l'agent de surveillance de l'état. -
Pour les balises, ajoutez des paires clé/valeur au nouveau cluster et gérez le cluster en tant que AWS ressource. Pour en savoir plus, consultez la section Marquage de vos AWS ressources.
-
À l'étape 2 : Configuration des groupes d'instances, choisissez Créer un groupe d'instances. Chaque groupe d'instances peut être configuré différemment, et vous pouvez créer un cluster hétérogène composé de plusieurs groupes d'instances avec différents types d'instances. Dans la fenêtre contextuelle Créer un groupe d'instances, renseignez les informations de configuration du groupe d'instances.
Créez une page contextuelle de groupe d'instances, configurez un nouveau groupe d'instances en suivant les instructions de l'interface utilisateur.
-
Pour Nom du groupe d'instances, spécifiez un nom pour le groupe d'instances.
-
Pour Sélectionner le type d'instance, choisissez l'instance pour le groupe d'instances.
-
Pour Quantité, spécifiez un entier ne dépassant pas le quota d'instance pour l'utilisation du cluster.
-
Préparez un script de configuration du cycle de vie et chargez-le dans un compartiment Amazon S3, tel que
s3://amzn-s3-demo-bucket-sagemaker>/<lifecycle-script-directory>/src/
.Pour démarrer rapidement, téléchargez l'exemple
on_create.sh
de script depuis le GitHub référentiel AWS ome Distributed Training et chargez-le dans le compartiment S3. Ce script configure le fichier de journalisation /var/log/provision/provisioning.log
requis CloudWatch pour collecter les journaux des conteneurs Pod. Vous pouvez également inclure des instructions de configuration supplémentaires, une série de scripts de configuration ou des commandes à exécuter pendant la phase de provisionnement du HyperPod cluster. -
Pour le compartiment S3 URI pour les scripts de cycle de vie, entrez le chemin Amazon S3 dans lequel les scripts de cycle de vie sont stockés.
-
Pour le chemin du répertoire vers le script du point d'entrée dans le chemin Amazon S3 de base, entrez le nom de fichier du script de cycle de vie sous le chemin Amazon S3 vers les fichiers de script de cycle de vie. Si vous utilisez l'exemple de script fourni, entrez
on_create.sh
. -
Pour IAM le rôle, choisissez le IAM rôle que vous avez créé pour les SageMaker HyperPod ressources, en suivant la sectionRôle IAM pour SageMaker HyperPod.
-
Sous Configuration avancée, vous pouvez configurer les configurations facultatives suivantes.
-
(Facultatif) Pour Threads par cœur, spécifiez
1
pour désactiver le multithreading et2
pour activer le multi-threading. Pour savoir quel type d'instance prend en charge le multithreading, consultez le tableau de référence des CPUcœurs et des threads par CPU cœur et par type d'instance dans le guide de EC2l'utilisateur Amazon. -
(Facultatif) Pour les configurations de stockage d'instance supplémentaires, spécifiez un entier compris entre 1 et 16384 pour définir la taille d'un volume Elastic Block Store (EBS) supplémentaire en gigaoctets (Go). Le EBS volume est attaché à chaque instance du groupe d'instances. Le chemin de montage par défaut pour le EBS volume supplémentaire est
/opt/sagemaker
. Une fois le cluster créé avec succès, vous pouvez SSH accéder aux instances du cluster (nœuds) et vérifier si le EBS volume est correctement monté en exécutant ladf -h
commande. L'attachement d'un EBS volume supplémentaire fournit un stockage stable, hors instance et persistant de manière indépendante, comme décrit dans la section Amazon EBS Volumes du guide de l'utilisateur Amazon Elastic Block Store.
-
-
-
Pour un contrôle de santé approfondi, sélectionnez les contrôles de santé avancés que vous souhaitez exécuter sur les instances. Pour en savoir plus, consultez Contrôles de santé approfondis.
-
À l'étape 3 : Configuration avancée, configurez les paramètres réseau au sein in-and-out du cluster et du cluster. Pour l'orchestration du SageMaker HyperPod cluster avec AmazonEKS, le paramètre VPC est automatiquement défini sur celui configuré avec le EKS cluster que vous avez sélectionné.
-
À l'étape 4 : révision et création, passez en revue la configuration que vous avez définie de l'étape 1 à l'étape 3 et terminez la soumission de la demande de création de cluster.
-
Une fois que le statut du cluster est passé à « activé »
InService
, vous pouvez commencer à vous connecter aux nœuds du cluster. Pour accéder aux nœuds du cluster et commencer à exécuter des charges de travail ML, consultezOffres d'emploi sur SageMaker HyperPod des clusters.