Organización de SageMaker HyperPod clústeres con Slurm - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Organización de SageMaker HyperPod clústeres con Slurm

La compatibilidad con Slurm le SageMaker HyperPod ayuda a aprovisionar clústeres resilientes para ejecutar cargas de trabajo de aprendizaje automático (ML) y desarrollar state-of-the-art modelos, como modelos de lenguajes extensos (LLMs), modelos de difusión y modelos básicos (). FMs Acelera el desarrollo al eliminar el trabajo pesado indiferenciado que implica la creación y el mantenimiento de clústeres de cómputo a gran escala alimentados por miles de aceleradores, como FMs AWS Unidades de procesamiento gráfico Trainium y NVIDIA A100 y H100 (). GPUs Cuando los aceleradores fallan, las funciones de resiliencia de los SageMaker HyperPod monitores (las instancias del clúster) detectan y sustituyen automáticamente el hardware defectuoso sobre la marcha para que usted pueda centrarse en ejecutar las cargas de trabajo de aprendizaje automático. Además, con el soporte de configuración del ciclo de vida incorporado SageMaker HyperPod, puede personalizar su entorno informático para que se adapte mejor a sus necesidades y configurarlo con las bibliotecas de formación SageMaker distribuidas de Amazon para lograr un rendimiento óptimo en AWS.

Clústeres operativos

Puede crear, configurar y mantener los SageMaker HyperPod clústeres de forma gráfica a través de la interfaz de usuario (UI) de la consola y mediante programación a través del AWS interfaz de línea de comandos () o CLI AWS SDK for Python (Boto3). Con AmazonVPC, puede proteger la red de clústeres y, además, aprovechar la configuración del clúster con los recursos que tieneVPC, como Amazon FSx for Lustre, que ofrece el rendimiento más rápido. También puedes asignar diferentes IAM funciones a los grupos de instancias del clúster y limitar las acciones que los usuarios y los recursos del clúster pueden llevar a cabo. Para obtener más información, consulte Gestión de SageMaker HyperPod clústeres orquestados por Slurm.

Configurar tu entorno de aprendizaje automático

SageMaker HyperPod ejecutaSageMaker HyperPod DLAMI, lo que configura un entorno de aprendizaje automático en los HyperPod clústeres. Puede configurar personalizaciones adicionales DLAMI proporcionando scripts de ciclo de vida que se adapten a su caso de uso. Para obtener más información sobre cómo configurar los scripts de ciclo de vida, consulte Cómo empezar a orquestar con SageMaker HyperPod Slurm ySageMaker HyperPod prácticas recomendadas de configuración del ciclo de vida.

Programar trabajos

Una vez creado correctamente un HyperPod clúster, los usuarios del clúster pueden iniciar sesión en los nodos del clúster (como el nodo principal o controlador, el nodo de inicio de sesión y el nodo de trabajo) y programar tareas para ejecutar cargas de trabajo de aprendizaje automático. Para obtener más información, consulte Ejecute trabajos en SageMaker HyperPod clústeres.

Resiliencia frente a los fallos de hardware

SageMaker HyperPod ejecuta comprobaciones de estado en los nodos del clúster y proporciona una funcionalidad de reanudación automática de la carga de trabajo. Con las funciones de resiliencia de los clústeres HyperPod, puede reanudar la carga de trabajo desde el último punto de control que haya guardado, después de reemplazar los nodos defectuosos por otros en buen estado en los clústeres de más de 16 nodos. Para obtener más información, consulte SageMaker HyperPod resiliencia de clústeres.

Registro y administración de clústeres

Puedes encontrar métricas de uso de SageMaker HyperPod recursos y registros del ciclo de vida en Amazon CloudWatch, y gestionar SageMaker HyperPod los recursos etiquetándolos. Cada CreateCluster API ejecución crea un flujo de registro distinto, cuyo <cluster-name>-<timestamp> formato se denomina. En el flujo de registro, puede comprobar los nombres de los hosts, el nombre de los scripts del ciclo de vida fallidos y los resultados de los scripts fallidos, como stdout ystderr. Para obtener más información, consulte SageMaker HyperPod administración de clústeres.

Compatible con SageMaker herramientas

Con SageMaker HyperPod él, puede configurar clústeres con AWS bibliotecas de comunicaciones colectivas optimizadas que ofrece SageMaker, como la biblioteca de paralelismo de datos SageMaker distribuido () SMDDP. La SMDDP biblioteca implementa la AllGather operación optimizada para AWS infraestructura informática y de red para las instancias de aprendizaje SageMaker automático de mayor rendimiento con tecnología NVIDIA GPUs A100. Para obtener más información, consulte Ejecute cargas de trabajo de formación distribuidas con Slurm activado HyperPod.