As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Execute trabalhos usando o SageMaker HyperPod CLI
Para executar trabalhos, certifique-se de ter instalado o Kubeflow Training Operator nos EKS clusters. Para obter mais informações, consulte Instale pacotes no EKS cluster da Amazon usando o Helm.
Execute o hyperpod get-cluster
comando para obter a lista de HyperPod clusters disponíveis.
hyperpod get-clusters
Execute o hyperpod connect-cluster
para configurar o SageMaker HyperPod CLI com o EKS cluster orquestrando o HyperPod cluster.
hyperpod connect-cluster --cluster-name <hyperpod-cluster-name>
Use o hyperpod start-job
comando para executar um trabalho. O comando a seguir mostra o comando com as opções necessárias.
hyperpod start-job \ --job-name
<job-name>
--image<docker-image-uri>
--entry-script<entrypoint-script>
--instance-type<ml.instance.type>
--node-count<integer>
O hyperpod start-job
comando também vem com várias opções para resiliência no trabalho
Ativando a retomada automática do trabalho
O hyperpod start-job
comando também tem as seguintes opções para especificar a retomada automática do trabalho. Para permitir que a retomada automática de tarefas funcione com os recursos de resiliência do SageMaker HyperPod nó, você deve definir o valor da restart-policy
opção como. OnFailure
O trabalho deve ser executado sob o kubeflow
namespace ou com um namespace prefixado com. hyperpod
-
[--auto-resume<bool>] #Optional, habilita a retomada automática do trabalho após falhas, o padrão é false
-
[--max-retry<int>] #Optional, se a retomada automática for verdadeira, o valor padrão de repetição máxima será 1 se não for especificado
-
[--restart-policy<enum>] #Optional, política de reinicialização. PyTorchJob Os valores disponíveis são
Always
OnFailure
,Never
ouExitCode
. O valor padrão éOnFailure
.
hyperpod start-job \ ... // required options \ --auto-resume true \ --max-retry 3 \ --restart-policy OnFailure
Executando trabalhos com opções de agendamento
O hyperpod start-job
comando tem as seguintes opções para configurar o trabalho com mecanismos de enfileiramento.
nota
Você precisa do Kueue
-
[--scheduler-type<enum>] #Optional, Especifique o tipo de agendador. O padrão é
Kueue
. -
[--queue-name<string>] #Optional, Especifique o nome da fila local ou fila
de cluster que você deseja enviar com o trabalho. A fila deve ser criada pelos administradores do cluster. -
[--priority<string>] #Optional, Especifique o nome da classe de prioridade da carga de trabalho
, que deve ser criada pelos administradores do cluster.
hyperpod start-job \ ... // required options --scheduler-type Kueue \ --queue-name high-priority-queue \ --priority high
Executando trabalhos a partir de um arquivo de configuração
Como alternativa, você pode criar um arquivo de configuração do trabalho contendo todos os parâmetros exigidos pelo trabalho e, em seguida, passar esse arquivo de configuração para o hyperpod
start-job
comando usando a opção --config-file. Neste caso:
-
Crie seu arquivo de configuração de trabalho com os parâmetros necessários. Consulte o arquivo de configuração do trabalho no SageMaker HyperPod CLI GitHub repositório para obter um arquivo de configuração de linha de base.
-
Inicie o trabalho usando o arquivo de configuração da seguinte maneira.
hyperpod start-job --config-file
/path/to/test_job.yaml
Para saber mais sobre a lista de parâmetros individuais do hyperpod
start-job
comando, consulte a seção Submitting a JobREADME.md
SageMaker HyperPod CLI GitHub repositório.