Esegui i lavori utilizzando il SageMaker HyperPod CLI - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esegui i lavori utilizzando il SageMaker HyperPod CLI

Per eseguire i lavori, assicurati di aver installato Kubeflow Training Operator nei cluster. EKS Per ulteriori informazioni, consulta Installa pacchetti sul EKS cluster Amazon utilizzando Helm.

Esegui il hyperpod get-cluster comando per ottenere l'elenco dei cluster disponibili. HyperPod

hyperpod get-clusters

Esegui hyperpod connect-cluster per configurarlo SageMaker HyperPod CLI con il EKS cluster che orchestra il cluster. HyperPod

hyperpod connect-cluster --name <hyperpod-cluster-name>

Usa il hyperpod start-job comando per eseguire un processo. Il comando seguente mostra il comando con le opzioni richieste.

hyperpod start-job \ --job-name <job-name> --image <docker-image-uri> --entry-script <entrypoint-script> --instance-type <ml.instance.type> --node-count <integer>

Il hyperpod start-job comando include anche varie opzioni per la resilienza del lavoro

Attivazione della ripresa automatica dei lavori

Il hyperpod start-job comando ha anche le seguenti opzioni per specificare la ripresa automatica del lavoro. Per abilitare la ripresa automatica del processo in modo che funzioni con le funzionalità di resilienza del SageMaker HyperPod nodo, è necessario impostare il valore dell'opzione su. restart-policy OnFailure Il processo deve essere eseguito nello spazio dei nomi o in uno spazio dei kubeflow nomi con il prefisso. hyperpod

  • [--auto-resume<bool>] #Optional, abilita la ripresa automatica del lavoro in caso di errore, l'impostazione predefinita è false

  • [--max-retry<int>] #Optional, se la ripresa automatica è vera, il valore predefinito di max-retry è 1 se non specificato

  • [<enum>--restart-policy] #Optional, PyTorchJob politica di riavvio. I valori disponibili sonoAlways, o. OnFailure Never ExitCode Il valore predefinito è OnFailure.

hyperpod start-job \ ... // required options \ --auto-resume true \ --max-retry 3 \ --restart-policy OnFailure

Esecuzione di lavori con opzioni di pianificazione

Il hyperpod start-job comando dispone delle seguenti opzioni per configurare il lavoro con meccanismi di accodamento.

Nota

È necessario che Kueue sia installato nel cluster. EKS Se non l'hai ancora installato, segui le istruzioni riportate all'indirizzo. Installa pacchetti sul EKS cluster Amazon utilizzando Helm

  • [--scheduler-type<enum>] #Optional, Specificare il tipo di scheduler. Il valore predefinito è Kueue.

  • [--queue-name<string>] #Optional, specifica il nome della coda locale o della coda del cluster che desideri inviare con il lavoro. La coda deve essere creata dagli amministratori del cluster.

  • [--priority<string>] #Optional, Specificare il nome della classe di priorità del carico di lavoro, che deve essere creata dagli amministratori del cluster.

hyperpod start-job \ ... // required options --scheduler-type Kueue \ --queue-name high-priority-queue \ --priority high

Esecuzione di lavori da un file di configurazione

In alternativa, è possibile creare un file di configurazione del lavoro contenente tutti i parametri richiesti dal processo e quindi passare questo file di configurazione al hyperpod start-job comando utilizzando l'opzione --config-file. In questo caso:

  1. Crea il tuo file di configurazione del lavoro con i parametri richiesti. Fate riferimento al file di configurazione del lavoro nel SageMaker HyperPod CLI GitHub repository per un file di configurazione di base.

  2. Avviate il job utilizzando il file di configurazione come segue.

    hyperpod start-job --config-file /path/to/test_job.yaml

Per ulteriori informazioni sull'elenco dei singoli parametri del hyperpod start-job comando, vedere la sezione Invio README.md di un Job nel SageMaker HyperPod CLI GitHub repository.