As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Execute um trabalho de treinamento no HyperPod k8s
SageMaker HyperPod O Recipes oferece suporte ao envio de um trabalho de treinamento para um cluster GPU/Trainium Kubernetes. Antes de enviar o trabalho de treinamento, faça o seguinte:
-
Modificar o arquivo de configuração do
k8s.yaml
cluster -
Substitua a configuração do cluster por meio da linha de comando
Depois de executar qualquer uma das etapas anteriores, instale o ambiente correspondente.
Configure o cluster usando k8s.yaml
Para enviar um trabalho de treinamento para um cluster do Kubernetes, você especifica configurações específicas do Kubernetes. As configurações incluem o namespace do cluster ou a localização do volume persistente.
pullPolicy: Always restartPolicy: Never namespace: default persistent_volume_claims: - null
-
pullPolicy
: você pode especificar a política de pull ao enviar um trabalho de treinamento. Se você especificar “Sempre”, o cluster Kubernetes sempre extrairá sua imagem do repositório. Para obter mais informações, consulte Política de extração de imagens. -
restartPolicy
: especifique se deseja reiniciar seu trabalho de treinamento se ele falhar. -
namespace
: você pode especificar o namespace Kubernetes para o qual você está enviando o trabalho de treinamento. -
persistent_volume_claims
: você pode especificar um volume compartilhado para seu trabalho de treinamento para que todos os processos de treinamento acessem os arquivos no volume.