Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Organización de SageMaker HyperPod clústeres con Amazon EKS
SageMaker HyperPod es un servicio SageMaker gestionado que permite el entrenamiento a gran escala de modelos básicos en clústeres de cómputo resilientes y de larga duración, integrándose con Amazon EKS para organizar los HyperPod recursos de cómputo. Puede ejecutar tareas de formación ininterrumpidas que abarquen semanas o meses a gran escala utilizando EKS clústeres de Amazon con funciones de HyperPod resiliencia que comprueban diversos fallos de hardware y recuperan automáticamente los nodos defectuosos.
Entre las principales características para los usuarios administradores de clústeres se incluyen las siguientes.
-
Aprovisionamiento de HyperPod clústeres resilientes y conexión de los mismos a un plano de control EKS
-
Permitir una administración dinámica de la capacidad, como agregar más nodos, actualizar el software y eliminar clústeres
-
Habilitar el acceso a las instancias del clúster directamente a través de
kubectl
oSSM/SSH -
Ofrece capacidades de resiliencia, que incluyen controles de salud básicos, controles de salud profundos, un agente de monitoreo de salud y soporte para PyTorch la reanudación automática del trabajo
-
Integración con herramientas de observabilidad como Amazon CloudWatch Container Insights, AmazonManaged Service for Prometheus y Amazon Managed Grafana
Para los usuarios de científicos de datos, la EKS compatibilidad permite lo siguiente HyperPod .
-
Ejecutar cargas de trabajo en contenedores para entrenar los modelos básicos en el clúster HyperPod
-
Ejecutar inferencias en el EKS clúster, aprovechando la integración entre y HyperPod EKS
-
Aprovechar la capacidad de reanudación automática del trabajo para la formación de Kubeflow PyTorch
() PyTorchJob
La arquitectura de alto nivel del EKS soporte de Amazon HyperPod implica un mapeo 1 a 1 entre un EKS clúster (plano de control) y un HyperPod clúster (nodos de trabajo) dentro de unVPC, como se muestra en el siguiente diagrama.