Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Organización de SageMaker HyperPod clústeres con Amazon EKS

Modo de enfoque
Organización de SageMaker HyperPod clústeres con Amazon EKS - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

SageMaker HyperPod es un servicio SageMaker gestionado por IA que permite el entrenamiento a gran escala de modelos básicos en clústeres de cómputo resilientes y de larga duración, integrándose con Amazon EKS para organizar los recursos de cómputo. HyperPod Puede ejecutar tareas de formación ininterrumpidas que abarquen semanas o meses a gran escala utilizando clústeres de Amazon EKS con características de HyperPod resiliencia que comprueban diversos fallos de hardware y recuperan automáticamente los nodos defectuosos.

Entre las principales características para los usuarios administradores de clústeres se incluyen las siguientes.

Para los usuarios de científicos de datos, el soporte de EKS permite lo siguiente HyperPod .

  • Ejecutar cargas de trabajo en contenedores para entrenar los modelos básicos en el clúster HyperPod

  • Ejecutar inferencias en el clúster de EKS y aprovechar la integración entre EKS HyperPod

  • Aprovechar la capacidad de reanudación automática del trabajo para la formación de Kubeflow PyTorch () PyTorchJob

nota

Amazon EKS permite la organización de tareas e infraestructura gestionada por los usuarios SageMaker HyperPod a través del plano de control de Amazon EKS. Asegúrese de que el acceso de los usuarios al clúster a través del punto final del servidor API de Kubernetes siga el principio del mínimo privilegio y de que la salida de la red del clúster sea segura. HyperPod

Para obtener más información sobre cómo proteger el acceso al servidor de API de Amazon EKS, consulte Controlar el acceso de la red al punto final del servidor de API del clúster.

Para obtener más información sobre cómo proteger el acceso a la red HyperPod, consulteConfiguración SageMaker HyperPod con una Amazon VPC personalizada.

La arquitectura de alto nivel del soporte de Amazon EKS HyperPod implica un mapeo 1 a 1 entre un clúster de EKS (plano de control) y un HyperPod clúster (nodos de trabajo) dentro de una VPC, como se muestra en el siguiente diagrama.

EKS and HyperPod VPC architecture with control plane, clúster nodes, and Servicios de AWS.
PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.