Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Esegui i lavori utilizzando il SageMaker HyperPod CLI
Per eseguire i lavori, assicurati di aver installato Kubeflow Training Operator nei cluster. EKS Per ulteriori informazioni, consulta Installa pacchetti sul EKS cluster Amazon utilizzando Helm.
Esegui il hyperpod get-cluster
comando per ottenere l'elenco dei cluster disponibili. HyperPod
hyperpod get-clusters
Esegui hyperpod connect-cluster
per configurarlo SageMaker HyperPod CLI con il EKS cluster che orchestra il cluster. HyperPod
hyperpod connect-cluster --name <hyperpod-cluster-name>
Usa il hyperpod start-job
comando per eseguire un processo. Il comando seguente mostra il comando con le opzioni richieste.
hyperpod start-job \ --job-name
<job-name>
--image<docker-image-uri>
--entry-script<entrypoint-script>
--instance-type<ml.instance.type>
--node-count<integer>
Il hyperpod start-job
comando include anche varie opzioni per la resilienza del lavoro
Attivazione della ripresa automatica dei lavori
Il hyperpod start-job
comando ha anche le seguenti opzioni per specificare la ripresa automatica del lavoro. Per abilitare la ripresa automatica del processo in modo che funzioni con le funzionalità di resilienza del SageMaker HyperPod nodo, è necessario impostare il valore dell'opzione su. restart-policy
OnFailure
Il processo deve essere eseguito nello spazio dei nomi o in uno spazio dei kubeflow
nomi con il prefisso. hyperpod
-
[--auto-resume<bool>] #Optional, abilita la ripresa automatica del lavoro in caso di errore, l'impostazione predefinita è false
-
[--max-retry<int>] #Optional, se la ripresa automatica è vera, il valore predefinito di max-retry è 1 se non specificato
-
[<enum>--restart-policy] #Optional, PyTorchJob politica di riavvio. I valori disponibili sono
Always
, o.OnFailure
Never
ExitCode
Il valore predefinito èOnFailure
.
hyperpod start-job \ ... // required options \ --auto-resume true \ --max-retry 3 \ --restart-policy OnFailure
Esecuzione di lavori con opzioni di pianificazione
Il hyperpod start-job
comando dispone delle seguenti opzioni per configurare il lavoro con meccanismi di accodamento.
Nota
È necessario che Kueue sia installato nel cluster
-
[--scheduler-type<enum>] #Optional, Specificare il tipo di scheduler. Il valore predefinito è
Kueue
. -
[--queue-name<string>] #Optional, specifica il nome della coda locale o della coda
del cluster che desideri inviare con il lavoro. La coda deve essere creata dagli amministratori del cluster. -
[--priority<string>] #Optional, Specificare il nome della classe di priorità del carico di lavoro
, che deve essere creata dagli amministratori del cluster.
hyperpod start-job \ ... // required options --scheduler-type Kueue \ --queue-name high-priority-queue \ --priority high
Esecuzione di lavori da un file di configurazione
In alternativa, è possibile creare un file di configurazione del lavoro contenente tutti i parametri richiesti dal processo e quindi passare questo file di configurazione al hyperpod
start-job
comando utilizzando l'opzione --config-file. In questo caso:
-
Crea il tuo file di configurazione del lavoro con i parametri richiesti. Fate riferimento al file di configurazione del lavoro nel SageMaker HyperPod CLI GitHub repository per un file di configurazione di base.
-
Avviate il job utilizzando il file di configurazione come segue.
hyperpod start-job --config-file
/path/to/test_job.yaml
Per ulteriori informazioni sull'elenco dei singoli parametri del hyperpod
start-job
comando, vedere la sezione Invio README.md
di un Job