Execução de trabalhos em clusters do SageMaker HyperPod orquestrados pelo Amazon EKS - Amazon SageMaker

Execução de trabalhos em clusters do SageMaker HyperPod orquestrados pelo Amazon EKS

Os tópicos a seguir fornecem procedimentos e exemplos de acesso a nós de computação e execução de workloads de ML em clusters provisionados do SageMaker HyperPod orquestrados com o Amazon EKS. Dependendo de como você configurou o ambiente em seu cluster HyperPod, há muitas maneiras de executar workloads de ML em clusters HyperPod.

Os usuários de cientistas de dados podem treinar modelos básicos usando o conjunto de clusters EKS como orquestrador do cluster SageMaker HyperPod. Os cientistas utilizam a CLI do SageMaker HyperPod e os comandos kubectl nativos para encontrar clusters disponíveis do SageMaker HyperPod, enviar trabalhos de treinamento (Pods) e gerenciar suas workloads. A CLI do SageMaker HyperPod permite o envio de trabalhos usando um arquivo de esquema de trabalho de treinamento e fornece recursos para anúncio, descrição, cancelamento e execução de trabalhos. Os cientistas podem usar o Kubeflow Training Operator, o Kueue (ferramenta K8s para filas de trabalhos) e o MLflow gerenciado pelo SageMaker para gerenciar experimentos de ML e execuções de treinamento.