Executando trabalhos em SageMaker HyperPod clusters orquestrados pela Amazon EKS - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Executando trabalhos em SageMaker HyperPod clusters orquestrados pela Amazon EKS

Os tópicos a seguir fornecem procedimentos e exemplos de acesso a nós de computação e execução de cargas de trabalho de ML em clusters provisionados SageMaker HyperPod orquestrados com a Amazon. EKS Dependendo de como você configurou o ambiente em seu HyperPod cluster, há muitas maneiras de executar cargas de trabalho de ML em HyperPod clusters.

dica

Para uma experiência prática e orientação sobre como configurar e usar um SageMaker HyperPod cluster orquestrado com a Amazon, recomendamos que você EKS participe deste workshop do Amazon EKS Support. SageMaker HyperPod

Os usuários de cientistas de dados podem treinar modelos básicos usando o conjunto de EKS clusters como orquestrador do cluster. SageMaker HyperPod Os cientistas utilizam os kubectl comandos nativos SageMaker HyperPod CLIe os comandos nativos para encontrar SageMaker HyperPod clusters disponíveis, enviar trabalhos de treinamento (Pods) e gerenciar suas cargas de trabalho. O SageMaker HyperPod CLI permite o envio de trabalhos usando um arquivo de esquema de trabalho de treinamento e fornece recursos para listagem, descrição, cancelamento e execução de trabalhos. Os cientistas podem usar o Kubeflow Training Operator, o Kueue (ferramenta K8s para filas de trabalhos) e o Managed para gerenciar experimentos de ML e execuções SageMakerde MLflow treinamento.