Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Realice un entrenamiento distribuido con la biblioteca de paralelismo de datos SageMaker distribuidos
La biblioteca de paralelismo de datos SageMaker distribuido (SMDDP) amplía las capacidades de SageMaker formación en modelos de aprendizaje profundo con una eficiencia de escalado casi lineal al proporcionar implementaciones de operaciones de comunicación colectiva optimizadas para la infraestructura. AWS
Al entrenar modelos de aprendizaje automático (ML) de gran tamaño, como los modelos de lenguaje grandes (LLM) y los modelos de difusión, en un enorme conjunto de datos de entrenamiento, los profesionales del aprendizaje automático utilizan grupos de aceleradores y técnicas de entrenamiento distribuidas para reducir el tiempo de entrenamiento o resolver las restricciones de memoria de los modelos que no caben en la memoria de cada GPU. Los profesionales del aprendizaje automático suelen empezar con varios aceleradores en una sola instancia y, después, escalarlos a grupos de instancias a medida que aumentan sus requisitos de carga de trabajo. A medida que aumenta el tamaño del clúster, también aumenta la sobrecarga de comunicación entre varios nodos, lo que se traduce en una disminución del rendimiento computacional general.
Para solucionar estos problemas de sobrecarga y memoria, la biblioteca SMDDP ofrece lo siguiente.
-
La biblioteca SMDDP optimiza los trabajos de formación para la infraestructura de AWS red y la topología de instancias de Amazon SageMaker ML.
-
La biblioteca SMDDP mejora la comunicación entre los nodos con implementaciones
AllReduce
y operaciones de comunicaciónAllGather
colectiva optimizadas para la infraestructura. AWS
Para obtener más información sobre los detalles de las ofertas de bibliotecas SMDDP, consulte. Introducción a la biblioteca de paralelismo de datos SageMaker distribuidos
Para obtener más información sobre el entrenamiento con la estrategia modelo-paralelo que ofrece SageMaker, consulte también. Biblioteca de paralelismo de SageMaker modelos v1.x (Archivada)
Temas
- Introducción a la biblioteca de paralelismo de datos SageMaker distribuidos
- Marcos y tipos Regiones de AWS de instancias compatibles
- Capacitación distribuida con la biblioteca de paralelismo de datos SageMaker distribuidos
- Ejemplos de bibliotecas SageMaker de paralelismo de datos de Amazon
- Consejos de configuración para la biblioteca de paralelismo de datos SageMaker distribuidos
- Preguntas frecuentes sobre la SageMaker biblioteca de paralelismo de datos distribuidos de Amazon
- Solución de problemas para la formación distribuida en Amazon SageMaker
- SageMaker notas de publicación de la biblioteca de paralelismo de datos