Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Exécutez des tâches à l'aide du SageMaker HyperPod CLI
Pour exécuter des tâches, assurez-vous d'avoir installé Kubeflow Training Operator dans les EKS clusters. Pour de plus amples informations, veuillez consulter Installer des packages sur le EKS cluster Amazon à l'aide de Helm.
Exécutez la hyperpod get-cluster
commande pour obtenir la liste des HyperPod clusters disponibles.
hyperpod get-clusters
Exécutez le hyperpod connect-cluster
pour le configurer SageMaker HyperPod CLI avec le EKS cluster qui orchestre le HyperPod cluster.
hyperpod connect-cluster --name <hyperpod-cluster-name>
Utilisez la hyperpod start-job
commande pour exécuter une tâche. La commande suivante montre la commande avec les options requises.
hyperpod start-job \ --job-name
<job-name>
--image<docker-image-uri>
--entry-script<entrypoint-script>
--instance-type<ml.instance.type>
--node-count<integer>
La hyperpod start-job
commande propose également diverses options pour la résilience au travail.
Activation de la reprise automatique des tâches
La hyperpod start-job
commande dispose également des options suivantes pour spécifier la reprise automatique des tâches. Pour que la reprise automatique des tâches fonctionne avec les fonctionnalités de résilience des SageMaker HyperPod nœuds, vous devez définir la valeur de l'restart-policy
option sur. OnFailure
La tâche doit être exécutée sous l'espace de kubeflow
noms ou sous un espace de noms préfixé par. hyperpod
-
[--auto-resume<bool>] #Optional, active la reprise automatique des tâches en cas d'échec, la valeur par défaut est false
-
[--max-retry<int>] #Optional, si la reprise automatique est vraie, la valeur par défaut de max-retry est 1 si elle n'est pas spécifiée
-
[--restart-policy<enum>] #Optional, PyTorchJob politique de redémarrage. Les valeurs disponibles sont
Always
OnFailure
,Never
ouExitCode
. La valeur par défaut estOnFailure
.
hyperpod start-job \ ... // required options \ --auto-resume true \ --max-retry 3 \ --restart-policy OnFailure
Exécution de tâches avec options de planification
La hyperpod start-job
commande dispose des options suivantes pour configurer la tâche avec des mécanismes de mise en file d'attente.
Note
Kueue
-
[--scheduler-type<enum>] #Optional, Spécifiez le type de planificateur. L’argument par défaut est
Kueue
. -
[--queue-name<string>] #Optional, Spécifiez le nom de la file d'attente locale ou de la file d'attente
de cluster que vous souhaitez soumettre avec le travail. La file d'attente doit être créée par les administrateurs du cluster. -
[--priority<string>] #Optional, Spécifiez le nom de la classe de priorité de charge
de travail, qui doit être créée par les administrateurs du cluster.
hyperpod start-job \ ... // required options --scheduler-type Kueue \ --queue-name high-priority-queue \ --priority high
Exécution de tâches à partir d'un fichier de configuration
Vous pouvez également créer un fichier de configuration de tâche contenant tous les paramètres requis par la tâche, puis transmettre ce fichier de configuration à la hyperpod
start-job
commande à l'aide de l'option --config-file. Dans ce cas :
-
Créez votre fichier de configuration de tâche avec les paramètres requis. Reportez-vous au fichier de configuration des tâches dans le SageMaker HyperPod CLI GitHub référentiel pour obtenir un fichier de configuration de base.
-
Démarrez le travail à l'aide du fichier de configuration comme suit.
hyperpod start-job --config-file
/path/to/test_job.yaml
Pour en savoir plus sur la liste des paramètres individuels de la hyperpod
start-job
commande, consultez la section Soumettre un JobREADME.md
SageMaker HyperPod CLI GitHub référentiel.