Execute trabalhos usando o SageMaker HyperPod CLI - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Execute trabalhos usando o SageMaker HyperPod CLI

Para executar trabalhos, certifique-se de ter instalado o Kubeflow Training Operator nos EKS clusters. Para obter mais informações, consulte Instale pacotes no EKS cluster da Amazon usando o Helm.

Execute o hyperpod get-cluster comando para obter a lista de HyperPod clusters disponíveis.

hyperpod get-clusters

Execute o hyperpod connect-cluster para configurar o SageMaker HyperPod CLI com o EKS cluster orquestrando o HyperPod cluster.

hyperpod connect-cluster --cluster-name <hyperpod-cluster-name>

Use o hyperpod start-job comando para executar um trabalho. O comando a seguir mostra o comando com as opções necessárias.

hyperpod start-job \ --job-name <job-name> --image <docker-image-uri> --entry-script <entrypoint-script> --instance-type <ml.instance.type> --node-count <integer>

O hyperpod start-job comando também vem com várias opções para resiliência no trabalho

Ativando a retomada automática do trabalho

O hyperpod start-job comando também tem as seguintes opções para especificar a retomada automática do trabalho. Para permitir que a retomada automática de tarefas funcione com os recursos de resiliência do SageMaker HyperPod nó, você deve definir o valor da restart-policy opção como. OnFailure O trabalho deve ser executado sob o kubeflow namespace ou com um namespace prefixado com. hyperpod

  • [--auto-resume<bool>] #Optional, habilita a retomada automática do trabalho após falhas, o padrão é false

  • [--max-retry<int>] #Optional, se a retomada automática for verdadeira, o valor padrão de repetição máxima será 1 se não for especificado

  • [--restart-policy<enum>] #Optional, política de reinicialização. PyTorchJob Os valores disponíveis são AlwaysOnFailure, Never ouExitCode. O valor padrão é OnFailure.

hyperpod start-job \ ... // required options \ --auto-resume true \ --max-retry 3 \ --restart-policy OnFailure

Executando trabalhos com opções de agendamento

O hyperpod start-job comando tem as seguintes opções para configurar o trabalho com mecanismos de enfileiramento.

nota

Você precisa do Kueue instalado no EKS cluster. Se você não instalou, siga as instruções emInstale pacotes no EKS cluster da Amazon usando o Helm.

hyperpod start-job \ ... // required options --scheduler-type Kueue \ --queue-name high-priority-queue \ --priority high

Executando trabalhos a partir de um arquivo de configuração

Como alternativa, você pode criar um arquivo de configuração do trabalho contendo todos os parâmetros exigidos pelo trabalho e, em seguida, passar esse arquivo de configuração para o hyperpod start-job comando usando a opção --config-file. Neste caso:

  1. Crie seu arquivo de configuração de trabalho com os parâmetros necessários. Consulte o arquivo de configuração do trabalho no SageMaker HyperPod CLI GitHub repositório para obter um arquivo de configuração de linha de base.

  2. Inicie o trabalho usando o arquivo de configuração da seguinte maneira.

    hyperpod start-job --config-file /path/to/test_job.yaml

Para saber mais sobre a lista de parâmetros individuais do hyperpod start-job comando, consulte a seção Submitting a Job no README.md SageMaker HyperPod CLI GitHub repositório.