Execute um trabalho de treinamento no HyperPod k8s - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Execute um trabalho de treinamento no HyperPod k8s

SageMaker HyperPod O Recipes oferece suporte ao envio de um trabalho de treinamento para um cluster GPU/Trainium Kubernetes. Antes de enviar o trabalho de treinamento, faça o seguinte:

  • Modificar o arquivo de configuração do k8s.yaml cluster

  • Substitua a configuração do cluster por meio da linha de comando

Depois de executar qualquer uma das etapas anteriores, instale o ambiente correspondente.

Configure o cluster usando k8s.yaml

Para enviar um trabalho de treinamento para um cluster do Kubernetes, você especifica configurações específicas do Kubernetes. As configurações incluem o namespace do cluster ou a localização do volume persistente.

pullPolicy: Always restartPolicy: Never namespace: default persistent_volume_claims: - null
  1. pullPolicy: você pode especificar a política de pull ao enviar um trabalho de treinamento. Se você especificar “Sempre”, o cluster Kubernetes sempre extrairá sua imagem do repositório. Para obter mais informações, consulte Política de extração de imagens.

  2. restartPolicy: especifique se deseja reiniciar seu trabalho de treinamento se ele falhar.

  3. namespace: você pode especificar o namespace Kubernetes para o qual você está enviando o trabalho de treinamento.

  4. persistent_volume_claims: você pode especificar um volume compartilhado para seu trabalho de treinamento para que todos os processos de treinamento acessem os arquivos no volume.