Organización de SageMaker HyperPod clústeres con Amazon EKS

Modo de enfoque

Organización de SageMaker HyperPod clústeres con Amazon EKS - Amazon SageMaker AI

SageMaker HyperPod es un servicio SageMaker gestionado por IA que permite el entrenamiento a gran escala de modelos básicos en clústeres de cómputo resilientes y de larga duración, integrándose con Amazon EKS para organizar los recursos de cómputo. HyperPod Puede ejecutar tareas de formación ininterrumpidas que abarquen semanas o meses a gran escala utilizando clústeres de Amazon EKS con características de HyperPod resiliencia que comprueban diversos fallos de hardware y recuperan automáticamente los nodos defectuosos.

Entre las principales características para los usuarios administradores de clústeres se incluyen las siguientes.

Aprovisionamiento de HyperPod clústeres resilientes y conexión a un plano de control de EKS
Administración dinámica de la capacidad, como, por ejemplo, la incorporación de más nodos, la actualización del software y la eliminación de clústeres
Acceso a las instancias del clúster directamente a través de kubectl o SSM/SSH
Ofrece capacidades de resiliencia, que incluyen controles de salud básicos, controles de salud profundos, un agente de monitoreo de salud y soporte para PyTorch la reanudación automática del trabajo
Integración con herramientas de observabilidad como Amazon CloudWatch Container Insights, Amazon Managed Service for Prometheus y Amazon Managed Grafana

Para los usuarios de científicos de datos, el soporte de EKS permite lo siguiente HyperPod .

Ejecutar cargas de trabajo en contenedores para entrenar los modelos básicos en el clúster HyperPod
Ejecutar inferencias en el clúster de EKS y aprovechar la integración entre EKS HyperPod
Aprovechar la capacidad de reanudación automática del trabajo para la formación de Kubeflow PyTorch () PyTorchJob

nota

Amazon EKS permite la organización de tareas e infraestructura gestionada por los usuarios SageMaker HyperPod a través del plano de control de Amazon EKS. Asegúrese de que el acceso de los usuarios al clúster a través del punto final del servidor API de Kubernetes siga el principio del mínimo privilegio y de que la salida de la red del clúster sea segura. HyperPod

Para obtener más información sobre cómo proteger el acceso al servidor de API de Amazon EKS, consulte Controlar el acceso de la red al punto final del servidor de API del clúster.

Para obtener más información sobre cómo proteger el acceso a la red HyperPod, consulteConfiguración SageMaker HyperPod con una Amazon VPC personalizada.

La arquitectura de alto nivel del soporte de Amazon EKS HyperPod implica un mapeo 1 a 1 entre un clúster de EKS (plano de control) y un HyperPod clúster (nodos de trabajo) dentro de una VPC, como se muestra en el siguiente diagrama.

EKS and HyperPod VPC architecture with control plane, clúster nodes, and Servicios de AWS.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

SageMaker HyperPod Preguntas frecuentes

Administración de clústeres HyperPod

Seleccione sus preferencias de cookies

Personalizar preferencias de cookies

Esenciales

De rendimiento

Funcionales

De publicidad

No se pueden guardar las preferencias de cookies

Organización de SageMaker HyperPod clústeres con Amazon EKS

nota

Related resources

¿Le ha servido de ayuda esta página?

Related resources

Tema siguiente:

Tema anterior:

¿Necesita ayuda?

EKS and HyperPod VPC architecture with control plane, clúster nodes, and Servicios de AWS.