Organización de SageMaker HyperPod clústeres con Amazon EKS - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Organización de SageMaker HyperPod clústeres con Amazon EKS

SageMaker HyperPod es un servicio SageMaker gestionado que permite el entrenamiento a gran escala de modelos básicos en clústeres de cómputo resilientes y de larga duración, integrándose con Amazon EKS para organizar los HyperPod recursos de cómputo. Puede ejecutar tareas de formación ininterrumpidas que abarquen semanas o meses a gran escala utilizando EKS clústeres de Amazon con funciones de HyperPod resiliencia que comprueban diversos fallos de hardware y recuperan automáticamente los nodos defectuosos.

Entre las principales características para los usuarios administradores de clústeres se incluyen las siguientes.

Para los usuarios de científicos de datos, la EKS compatibilidad permite lo siguiente HyperPod .

  • Ejecutar cargas de trabajo en contenedores para entrenar los modelos básicos en el clúster HyperPod

  • Ejecutar inferencias en el EKS clúster, aprovechando la integración entre y HyperPod EKS

  • Aprovechar la capacidad de reanudación automática del trabajo para la formación de Kubeflow PyTorch () PyTorchJob

La arquitectura de alto nivel del EKS soporte de Amazon HyperPod implica un mapeo 1 a 1 entre un EKS clúster (plano de control) y un HyperPod clúster (nodos de trabajo) dentro de unVPC, como se muestra en el siguiente diagrama.

EKS and HyperPod VPC architecture with control plane, clúster nodes, and Servicios de AWS.