Exécuter des tâches à l'aide de la SageMaker HyperPod CLI

Mode de mise au point

Exécuter des tâches à l'aide de la SageMaker HyperPod CLI - Amazon SageMaker AI

Activation de la reprise automatique des tâches Exécution de tâches avec options de planification Exécution de tâches à partir d'un fichier de configuration

Pour exécuter des tâches, assurez-vous d'avoir installé Kubeflow Training Operator dans les clusters EKS. Pour de plus amples informations, veuillez consulter Installation de packages sur le cluster Amazon EKS à l'aide de Helm.

Exécutez la hyperpod get-cluster commande pour obtenir la liste des HyperPod clusters disponibles.


hyperpod get-clusters

Exécutez le hyperpod connect-cluster pour configurer la SageMaker HyperPod CLI avec le cluster EKS orchestrant le HyperPod cluster.


hyperpod connect-cluster --cluster-name <hyperpod-cluster-name>

Utilisez la hyperpod start-job commande pour exécuter une tâche. La commande suivante montre la commande avec les options requises.


hyperpod start-job \
    --job-name <job-name>
    --image <docker-image-uri>
    --entry-script <entrypoint-script>
    --instance-type <ml.instance.type>
    --node-count <integer>

La hyperpod start-job commande propose également diverses options telles que la reprise automatique des tâches et la planification des tâches.

Activation de la reprise automatique des tâches

La hyperpod start-job commande dispose également des options suivantes pour spécifier la reprise automatique des tâches. Pour que la reprise automatique des tâches fonctionne avec les fonctionnalités de résilience des SageMaker HyperPod nœuds, vous devez définir la valeur de l'restart-policyoption sur. OnFailure La tâche doit être exécutée sous l'espace de kubeflow noms ou sous un espace de noms préfixé par. hyperpod

[--auto-resume<bool>] #Optional, active la reprise automatique des tâches en cas d'échec, la valeur par défaut est false
[--max-retry<int>] #Optional, si la reprise automatique est vraie, la valeur par défaut de max-retry est 1 si elle n'est pas spécifiée
[--restart-policy<enum>] #Optional, PyTorchJob politique de redémarrage. Les valeurs disponibles sont AlwaysOnFailure, Never ouExitCode. La valeur par défaut est OnFailure.


hyperpod start-job \
    ... // required options \
    --auto-resume true \
    --max-retry 3 \
    --restart-policy OnFailure

Exécution de tâches avec options de planification

La hyperpod start-job commande dispose des options suivantes pour configurer la tâche avec des mécanismes de mise en file d'attente.

Note

Kueue doit être installé dans le cluster EKS. Si vous ne l'avez pas encore installé, suivez les instructions figurant dansConfiguration pour la gouvernance des SageMaker HyperPod tâches.

[--scheduler-type<enum>] #Optional, Spécifiez le type de planificateur. L’argument par défaut est Kueue.
[--queue-name<string>] #Optional, Spécifiez le nom de la file d'attente locale ou de la file d'attente de cluster que vous souhaitez soumettre avec le travail. La file d'attente doit être créée par les administrateurs du cluster à l'aide CreateComputeQuota de.
[--priority<string>] #Optional, Spécifiez le nom de la classe de priorité de charge de travail, qui doit être créée par les administrateurs du cluster.


hyperpod start-job \
    ... // required options
    --scheduler-type Kueue \
    --queue-name high-priority-queue \
    --priority high

Exécution de tâches à partir d'un fichier de configuration

Vous pouvez également créer un fichier de configuration de tâche contenant tous les paramètres requis par la tâche, puis transmettre ce fichier de configuration à la hyperpod start-job commande à l'aide de l'option --config-file. Dans ce cas :

Créez votre fichier de configuration de tâche avec les paramètres requis. Reportez-vous au fichier de configuration des tâches dans le GitHub référentiel de la SageMaker HyperPod CLI pour obtenir un fichier de configuration de base.
Démarrez le travail à l'aide du fichier de configuration comme suit.
```
hyperpod start-job --config-file /path/to/test_job.yaml
```

Astuce

Pour une liste complète des paramètres de la hyperpod start-job commande, consultez la section Soumission d'un Job dans le README.md GitHub référentiel SageMaker HyperPod CLI.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

SageMaker HyperPod Commandes CLI

Exécutez des tâches en utilisant kubectl

Sur cette page

Sélectionner vos préférences de cookies

Personnaliser les préférences de cookies

Essentiels

Performances

Fonctionnels

Publicitaires

Impossible d'enregistrer les préférences concernant les cookies

Exécuter des tâches à l'aide de la SageMaker HyperPod CLI

Activation de la reprise automatique des tâches

Exécution de tâches avec options de planification

Note

Exécution de tâches à partir d'un fichier de configuration

Astuce

Sur cette page

Cette page vous a-t-elle été utile ?

Rubrique suivante :

Rubrique précédente :

Avez-vous besoin d’aide ?