Orquestrando SageMaker HyperPod clusters com o Amazon EKS

SageMaker HyperPod é um SageMaker AI-managed serviço que permite o treinamento em grande escala de modelos básicos em clusters computacionais resilientes e de longa duração, integrando-se ao Amazon EKS para orquestrar os recursos computacionais. HyperPod Você pode executar trabalhos de treinamento ininterruptos que abrangem semanas ou meses em grande escala usando clusters do Amazon EKS com recursos de HyperPod resiliência que verificam várias falhas de hardware e recuperam automaticamente os nós defeituosos.

Os principais atributos para usuários administradores de cluster incluem o seguinte:

Provisionando HyperPod clusters resilientes e conectando-os a um plano de controle EKS
Habilitar o gerenciamento dinâmico da capacidade, como adicionar mais nós, atualizar software e excluir clusters
Habilitando o acesso às instâncias do cluster diretamente por meio de kubectl ou SSM/SSH
Oferecendo recursos de resiliência, incluindo verificações básicas de saúde, verificações de saúde detalhadas, um agente de monitoramento de saúde e suporte para retomada automática de cargos PyTorch
Integração com ferramentas de observabilidade, como Amazon CloudWatchContainer Insights, Amazon Managed Service for Prometheus e Amazon Managed Grafana

Para usuários de cientistas de dados, o suporte do EKS HyperPod permite o seguinte.

Executando cargas de trabalho em contêineres para treinar modelos básicos no cluster HyperPod
Executando inferência no cluster EKS, aproveitando a integração entre HyperPod e o EKS
Aproveitando a capacidade de retomada automática de tarefas para o treinamento do Kubeflow PyTorch () PyTorchJob

nota

O Amazon EKS permite a orquestração gerenciada pelo usuário de tarefas e infraestrutura por meio do plano de SageMaker HyperPod controle do Amazon EKS. Garanta que o acesso do usuário ao cluster por meio do endpoint do Kubernetes API Server siga o princípio do privilégio mínimo e que a saída da rede do cluster seja protegida. HyperPod

Para saber mais sobre como proteger o acesso ao servidor de API do Amazon EKS, consulte Control network access to cluster API server endpoint.

Para saber mais sobre como proteger o acesso à rede em HyperPod, consulteConfiguração SageMaker HyperPod com uma Amazon VPC personalizada.

A arquitetura de alto nível do suporte do Amazon EKS HyperPod envolve um mapeamento de 1 para 1 entre um cluster EKS (plano de controle) e um HyperPod cluster (nós de trabalho) dentro de uma VPC, conforme mostrado no diagrama a seguir.

Plano de controle EKS conectado aos HyperPod cluster nós por meio de ENIs entre contas dentro de VPCs.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

HyperPod Perguntas frequentes

Gerenciar clusters do EKS