Orquestrando SageMaker HyperPod clusters com a Amazon EKS - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Orquestrando SageMaker HyperPod clusters com a Amazon EKS

SageMaker HyperPod é um serviço SageMaker gerenciado que permite o treinamento em grande escala de modelos básicos em clusters de computação resilientes e de longa duração, integrando-se à Amazon EKS para orquestrar os recursos computacionais. HyperPod Você pode executar trabalhos de treinamento ininterruptos que abrangem semanas ou meses em grande escala usando EKS clusters da Amazon com recursos de HyperPod resiliência que verificam várias falhas de hardware e recuperam automaticamente os nós defeituosos.

Os principais recursos para usuários administradores de cluster incluem o seguinte.

Para usuários de cientistas de dados, o EKS suporte em HyperPod permite o seguinte.

  • Executando cargas de trabalho em contêineres para treinar modelos básicos no cluster HyperPod

  • Executando inferência no EKS cluster, aproveitando a integração entre e HyperPod EKS

  • Aproveitando a capacidade de retomada automática de tarefas para o treinamento do Kubeflow PyTorch () PyTorchJob

A arquitetura de alto nível do EKS suporte da Amazon HyperPod envolve um mapeamento de 1 para 1 entre um EKS cluster (plano de controle) e um HyperPod cluster (nós de trabalho) dentro de umVPC, conforme mostrado no diagrama a seguir.

EKS and HyperPod VPC architecture with control plane, cluster nodes, and Serviços da AWS.