Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
SageMaker HyperPod le ayuda a aprovisionar clústeres resilientes para ejecutar cargas de trabajo de aprendizaje automático (ML) y desarrollar state-of-the-art modelos como modelos de lenguajes extensos (LLMs), modelos de difusión y modelos básicos (). FMs Acelera el desarrollo FMs al eliminar el trabajo pesado indiferenciado que implica la creación y el mantenimiento de clústeres de cómputo a gran escala alimentados por miles de aceleradores, como AWS Trainium y las unidades de procesamiento gráfico NVIDIA A100 y H100 (). GPUs Cuando los aceleradores fallan, las funciones de resiliencia de las instancias del SageMaker HyperPod clúster detectan y sustituyen automáticamente el hardware defectuoso sobre la marcha para que pueda centrarse en ejecutar las cargas de trabajo de aprendizaje automático.
Para empezar, compruebe Requisitos previos para utilizar SageMaker HyperPodAWS Identity and Access Management para SageMaker HyperPod, configure y elija una de las siguientes opciones de orquestación compatibles con. SageMaker HyperPod
Soporte para Slurm en SageMaker HyperPod
SageMaker HyperPod proporciona soporte para ejecutar cargas de trabajo de aprendizaje automático en clústeres resilientes mediante la integración con Slurm, un administrador de cargas de trabajo de código abierto. La compatibilidad con Slurm SageMaker HyperPod permite una organización fluida de los clústeres mediante la configuración de los clústeres de Slurm, lo que permite configurar nodos principales, de inicio de sesión y de trabajo en los SageMaker HyperPod clústeres. Esta integración también facilita la programación de tareas basada en SLURM para ejecutar cargas de trabajo de aprendizaje automático en el clúster, así como el acceso directo a los nodos del clúster para programar los trabajos. Gracias a la compatibilidad con HyperPod la configuración del ciclo de vida, puede personalizar el entorno informático de los clústeres para adaptarlo a sus requisitos específicos. Además, al aprovechar las bibliotecas de formación distribuidas de Amazon SageMaker AI, puede optimizar el rendimiento de los clústeres en los recursos AWS informáticos y de red. Para obtener más información, consulte Organización de SageMaker HyperPod clústeres con Slurm.
Soporte de Amazon EKS en SageMaker HyperPod
SageMaker HyperPod también se integra con Amazon EKS para permitir el entrenamiento a gran escala de modelos básicos en clústeres de cómputo resilientes y de larga duración. Esto permite a los usuarios administradores de HyperPod clústeres aprovisionar los clústeres y conectarlos a un plano de control de EKS, lo que permite una administración dinámica de la capacidad, el acceso directo a las instancias del clúster y las capacidades de resiliencia. Para los científicos de datos, el soporte de Amazon EKS HyperPod permite ejecutar cargas de trabajo en contenedores para entrenar modelos básicos, realizar inferencias en el clúster de EKS y aprovechar la capacidad de reanudación automática de tareas para la formación de Kubeflow. PyTorch La arquitectura implica un mapeo uno a uno entre un clúster EKS (plano de control) y un HyperPod clúster (nodos de trabajo) dentro de una VPC, lo que proporciona una solución perfectamente integrada para ejecutar cargas de trabajo de aprendizaje automático a gran escala. Para obtener más información, consulte Organización de SageMaker HyperPod clústeres con Amazon EKS.
Regiones de AWS con el apoyo de SageMaker HyperPod
SageMaker HyperPod está disponible de la siguiente manera Regiones de AWS.
-
us-east-1
-
us-east-2
-
us-west-1
-
us-west-2
-
eu-central-1
-
eu-north-1
-
eu-west-1
-
eu-west-2
-
ap-south-1
-
ap-southeast-1
-
ap-southeast-2
-
ap-southeast-4
-
ap-northeast-1
-
sa-east-1