

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Organización de SageMaker HyperPod clústeres con Amazon EKS
<a name="sagemaker-hyperpod-eks"></a>

SageMaker HyperPod es un servicio SageMaker gestionado por IA que permite el entrenamiento a gran escala de modelos básicos en clústeres de cómputo resilientes y de larga duración, integrándose con Amazon EKS para organizar los recursos de cómputo. HyperPod Puede ejecutar tareas de formación ininterrumpidas que abarquen semanas o meses a gran escala utilizando clústeres de Amazon EKS con características de HyperPod resiliencia que comprueban diversos fallos de hardware y recuperan automáticamente los nodos defectuosos. 

Entre las principales características para los usuarios administradores de clústeres se incluyen las siguientes.
+ Aprovisionamiento de HyperPod clústeres resilientes y conexión a un plano de control de EKS
+ Administración dinámica de la capacidad, como, por ejemplo, la incorporación de más nodos, la actualización del software y la eliminación de clústeres
+ Acceso a las instancias del clúster directamente a través de `kubectl` o SSM/SSH
+ Ofrece [capacidades de resiliencia](sagemaker-hyperpod-eks-resiliency.md), que incluyen controles de salud básicos, controles de salud profundos, un agente de monitoreo de salud y soporte para PyTorch la reanudación automática del trabajo
+ [Integración con herramientas de observabilidad como [Amazon CloudWatch Container Insights, Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html)[Managed Service for Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html) y Amazon Managed Grafana](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html)

Para los usuarios de científicos de datos, el soporte de EKS permite lo siguiente HyperPod .
+ Ejecutar cargas de trabajo en contenedores para entrenar los modelos básicos en el clúster HyperPod 
+ Ejecutar inferencias en el clúster de EKS y aprovechar la integración entre EKS HyperPod 
+ Aprovechar la capacidad de reanudación automática del trabajo para la formación de [Kubeflow PyTorch ](https://www.kubeflow.org/docs/components/training/user-guides/pytorch/) () PyTorchJob

**nota**  
Amazon EKS permite la organización de tareas e infraestructura gestionada por los usuarios SageMaker HyperPod a través del plano de control de Amazon EKS. Asegúrese de que el acceso de los usuarios al clúster a través del punto final del servidor API de Kubernetes siga el principio del mínimo privilegio y de que la salida de la red del clúster sea segura. HyperPod   
Para obtener más información sobre cómo proteger el acceso al servidor de API de Amazon EKS, consulte [Controlar el acceso de la red al punto de conexión del servidor de API del clúster](https://docs.aws.amazon.com/eks/latest/userguide/cluster-endpoint.html).  
Para obtener más información sobre cómo proteger el acceso a la red, consulte. HyperPod [Configuración SageMaker HyperPod con una Amazon VPC personalizada](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-optional-vpc)

La arquitectura de alto nivel del soporte de Amazon EKS HyperPod implica un mapeo 1 a 1 entre un clúster de EKS (plano de control) y un HyperPod clúster (nodos de trabajo) dentro de una VPC, como se muestra en el siguiente diagrama.

![\[EKS and HyperPod VPC architecture with control plane, clúster nodes, and Servicios de AWS.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/hyperpod-eks-diagram.png)
