Organización de SageMaker HyperPod clústeres con Slurm

Modo de enfoque

Organización de SageMaker HyperPod clústeres con Slurm - Amazon SageMaker AI

La compatibilidad con Slurm le SageMaker HyperPod ayuda a aprovisionar clústeres resilientes para ejecutar cargas de trabajo de aprendizaje automático (ML) y desarrollar state-of-the-art modelos, como modelos de lenguajes extensos (LLMs), modelos de difusión y modelos básicos (). FMs Acelera el desarrollo FMs al eliminar el trabajo pesado indiferenciado que implica la creación y el mantenimiento de clústeres de cómputo a gran escala alimentados por miles de aceleradores, como AWS Trainium y las unidades de procesamiento gráfico NVIDIA A100 y H100 (). GPUs Cuando los aceleradores fallan, las funciones de resiliencia de los SageMaker HyperPod monitores (las instancias del clúster) detectan y sustituyen automáticamente el hardware defectuoso sobre la marcha para que pueda centrarse en ejecutar cargas de trabajo de aprendizaje automático. Además, con el soporte de configuración del ciclo de vida incorporado SageMaker HyperPod, puede personalizar su entorno informático para que se adapte mejor a sus necesidades y configurarlo con las bibliotecas de formación distribuidas de Amazon SageMaker AI para lograr un rendimiento óptimo AWS.

Utilización de los clústeres

Puede crear, configurar y mantener SageMaker HyperPod clústeres de forma gráfica a través de la interfaz de usuario (UI) de la consola y mediante programación a través de la interfaz de línea de AWS comandos (CLI) o. AWS SDK para Python (Boto3) Con Amazon VPC, puede proteger la red de clústeres y, además, aprovechar la configuración del clúster con los recursos de la VPC, como Amazon FSx for Lustre, que ofrece el rendimiento más rápido. También puede asignar diferentes roles de IAM a los grupos de instancias del clúster y limitar las acciones que pueden llevar a cabo los usuarios y los recursos del clúster. Para obtener más información, consulte SageMaker HyperPod operación.

Configuración del entorno de ML

SageMaker HyperPod se ejecutaSageMaker HyperPod DLAMI, lo que configura un entorno de aprendizaje automático en los clústeres. HyperPod Puede configurar personalizaciones adicionales para la DLAMI proporcionando scripts de ciclo de vida que admitan su caso de uso. Para obtener más información sobre cómo configurar scripts de ciclo de vida, consulte Tutorial para empezar con SageMaker HyperPod y Personalice SageMaker HyperPod los clústeres mediante scripts de ciclo de vida.

Programación de trabajos

Tras crear correctamente un HyperPod clúster, los usuarios del clúster pueden iniciar sesión en los nodos del clúster (como el nodo principal o controlador, el nodo de inicio de sesión y el nodo de trabajo) y programar tareas para ejecutar cargas de trabajo de aprendizaje automático. Para obtener más información, consulte Puestos de trabajo en SageMaker HyperPod clústeres.

Resiliencia frente a los fallos de hardware

SageMaker HyperPod ejecuta comprobaciones de estado en los nodos del clúster y proporciona una funcionalidad de reanudación automática de la carga de trabajo. Con las funciones de resiliencia de los clústeres HyperPod, puede reanudar la carga de trabajo desde el último punto de control que haya guardado, después de reemplazar los nodos defectuosos por otros en buen estado en los clústeres de más de 16 nodos. Para obtener más información, consulte SageMaker HyperPod resiliencia de clústeres.

Registro y administración de clústeres

Puedes encontrar métricas de uso de SageMaker HyperPod recursos y registros del ciclo de vida en Amazon CloudWatch y gestionar SageMaker HyperPod los recursos etiquetándolos. Cada ejecución de la API CreateCluster crea un flujo de registro distinto, que se muestra en formato <cluster-name>-<timestamp>. En el flujo de registro, puede comprobar los nombres de los hosts, el nombre de los scripts de ciclo de vida fallidos y los resultados de los scripts fallidos, como stdout y stderr. Para obtener más información, consulte SageMaker HyperPod administración de clústeres.

Compatible con herramientas de SageMaker IA

Con él SageMaker HyperPod, puede configurar clústeres con las bibliotecas de comunicaciones colectivas AWS optimizadas que ofrece la SageMaker IA, como la biblioteca de paralelismo de datos distribuido (SMDDP) de SageMaker IA. La biblioteca SMDDP implementa la AllGather operación optimizada para la infraestructura AWS informática y de red para las instancias de aprendizaje automático de SageMaker IA de mayor rendimiento con tecnología NVIDIA A100. GPUs Para obtener más información, consulte Ejecute cargas de trabajo de formación distribuidas con Slurm activado HyperPod.

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Apéndice

Introducción a SageMaker HyperPod

Seleccione sus preferencias de cookies

Personalizar preferencias de cookies

Esenciales

De rendimiento

Funcionales

De publicidad

No se pueden guardar las preferencias de cookies

Organización de SageMaker HyperPod clústeres con Slurm

Temas

Related resources

¿Le ha servido de ayuda esta página?

Related resources

Tema siguiente:

Tema anterior:

¿Necesita ayuda?