Execute um trabalho de treinamento no HyperPod k8s

SageMaker HyperPod O Recipes oferece suporte ao envio de um trabalho de treinamento para um cluster GPU/Trainium Kubernetes. Antes de enviar o trabalho de treinamento, faça o seguinte:

Modificar o arquivo de configuração do k8s.yaml cluster
Substitua a configuração do cluster por meio da linha de comando

Depois de executar qualquer uma das etapas anteriores, instale o ambiente correspondente.

Configure o cluster usando `k8s.yaml`

Para enviar um trabalho de treinamento para um cluster do Kubernetes, você especifica configurações específicas do Kubernetes. As configurações incluem o namespace do cluster ou a localização do volume persistente.


pullPolicy: Always
restartPolicy: Never
namespace: default
persistent_volume_claims:
  - null

pullPolicy: você pode especificar a política de pull ao enviar um trabalho de treinamento. Se você especificar “Sempre”, o cluster Kubernetes sempre extrairá sua imagem do repositório. Para obter mais informações, consulte Política de extração de imagens.
restartPolicy: especifique se deseja reiniciar seu trabalho de treinamento se ele falhar.
namespace: você pode especificar o namespace Kubernetes para o qual você está enviando o trabalho de treinamento.
persistent_volume_claims: você pode especificar um volume compartilhado para seu trabalho de treinamento para que todos os processos de treinamento acessem os arquivos no volume.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Execute um trabalho de treinamento no HyperPod Slurm

Execute um trabalho SageMaker de treinamento

Execute um trabalho de treinamento no HyperPod k8s

Configure o cluster usando k8s.yaml

Configure o cluster usando `k8s.yaml`