Amazon SageMaker HyperPod - Amazon SageMaker

Amazon SageMaker HyperPod

SageMaker HyperPod le ayuda a aprovisionar clústeres resilientes para ejecutar cargas de trabajo de machine learning (ML) y desarrollar modelos de última generación, como modelos de lenguaje grandes (LLM), modelos de difusión y modelos fundacionales (FM). Acelera el desarrollo de FM al eliminar el trabajo pesado e indiferenciado que implica la creación y el mantenimiento de clústeres de computación a gran escala basados en miles de aceleradores, como AWS Trainium y las unidades de procesamiento gráfico (GPU) NVIDIA A100 y H100. Cuando los aceleradores fallan, las características de resiliencia de SageMaker HyperPod supervisan las instancias del clúster, detectan automáticamente el hardware defectuoso y lo sustituyen sobre la marcha para que pueda centrarse en ejecutar cargas de trabajo de ML.

Para empezar, compruebe Requisitos previos para utilizar SageMaker HyperPod, configure AWS Identity and Access Management para SageMaker HyperPod y elija una de las siguientes opciones de orquestador compatibles con SageMaker HyperPod.

Compatibilidad con Slurm en SageMaker HyperPod

SageMaker HyperPod permite ejecutar cargas de trabajo de machine learning en clústeres resilientes mediante la integración con Slurm, un administrador de cargas de trabajo de código abierto. La compatibilidad con Slurm en SageMaker HyperPod permite una orquestación de clústeres perfecta mediante la configuración de clústeres de Slurm, lo que le permite configurar nodos principales, de inicio de sesión y de trabajo en los clústeres de SageMaker HyperPod. Esta integración también facilita la programación de trabajos basados en Slurm para ejecutar cargas de trabajo de ML en el clúster, así como el acceso directo a los nodos del clúster para programar los trabajos. Gracias a la compatibilidad con la configuración del ciclo de vida de HyperPod, puede personalizar el entorno de computación de los clústeres de manera que se ajuste a sus requisitos específicos. Además, al aprovechar las bibliotecas de entrenamiento distribuido de Amazon SageMaker, puede optimizar el rendimiento de los clústeres en los recursos de red y computación de AWS. Para obtener más información, consulte Orquestación de clústeres de SageMaker HyperPod con Slurm.

Compatibilidad con Amazon EKS en SageMaker HyperPod

SageMaker HyperPod también se integra con Amazon EKS para permitir el entrenamiento a gran escala de modelos fundacionales en clústeres de computación resilientes y de larga duración. Esto permite a los usuarios administradores de clústeres aprovisionar clústeres de HyperPod y asociarlos a un plano de control de EKS, lo que permite una administración dinámica de la capacidad, el acceso directo a las instancias del clúster y capacidades de resiliencia. Para los científicos de datos, la compatibilidad con Amazon EKS en HyperPod permite ejecutar cargas de trabajo en contenedores para entrenar modelos fundacionales, realizar inferencias en el clúster de EKS y aprovechar la capacidad de reanudación automática de trabajos para el entrenamiento de Kubeflow PyTorch. La arquitectura implica una asignación 1 a 1 entre un clúster de EKS (plano de control) y un clúster de HyperPod (nodos de trabajo) dentro de una VPC, lo que proporciona una solución perfectamente integrada para ejecutar cargas de trabajo de ML a gran escala. Para obtener más información, consulte Orquestación de clústeres de SageMaker HyperPod con Amazon EKS.

Regiones de AWS compatibles con SageMaker HyperPod

SageMaker HyperPod está disponible en las siguientes Regiones de AWS.

  • us-east-1

  • us-east-2

  • us-west-2

  • eu-central-1

  • eu-west-1

  • eu-north-1

  • ap-southeast-1

  • ap-southeast-2

  • ap-northeast-1