Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
La biblioteca de paralelismo de datos distribuidos (SMDDP) de SageMaker IA amplía las capacidades de SageMaker formación en modelos de aprendizaje profundo con una eficiencia de escalado casi lineal al proporcionar implementaciones de operaciones de comunicación colectiva optimizadas para la infraestructura. AWS
Al entrenar modelos de machine learning (ML) de gran tamaño, como los modelos de lenguaje grandes (LLM) y los modelos de difusión, en un enorme conjunto de datos de entrenamiento, los profesionales de ML utilizan clústeres de aceleradores y técnicas de entrenamiento distribuido para reducir el tiempo de entrenamiento o resolver las limitaciones de memoria de los modelos que no caben en la memoria de cada GPU. Los profesionales de ML suelen empezar con varios aceleradores en una sola instancia y, después, escalarlos a clústeres de instancias a medida que aumentan sus requisitos de carga de trabajo. A medida que aumenta el tamaño del clúster, también lo hace la sobrecarga de comunicación entre varios nodos, lo que conduce a una disminución del rendimiento de computación general.
Para solucionar estos problemas de sobrecarga y memoria, la biblioteca de SMDDP ofrece lo siguiente.
-
La biblioteca SMDDP optimiza los trabajos de formación para la infraestructura de AWS red y la topología de instancias de Amazon SageMaker AI ML.
-
La biblioteca SMDDP mejora la comunicación entre los nodos con implementaciones
AllReduce
y operaciones de comunicaciónAllGather
colectiva optimizadas para la infraestructura. AWS
Para obtener más información sobre los detalles de las ofertas de bibliotecas de SMDDP, consulte Introducción a la biblioteca de paralelismo de datos distribuidos de SageMaker IA.
Para obtener más información sobre el entrenamiento con la estrategia de modelo paralelo que ofrece la SageMaker IA, consulte también. Biblioteca de paralelismo de SageMaker modelos v1.x (Archivada)
Temas
Introducción a la biblioteca de paralelismo de datos distribuidos de SageMaker IA
Entrenamiento distribuido con la biblioteca de paralelismo de datos distribuidos de SageMaker IA
Ejemplos de bibliotecas de paralelismo de datos de Amazon SageMaker AI
Consejos de configuración para la biblioteca de paralelismo de datos distribuidos de SageMaker IA
Preguntas frecuentes sobre la biblioteca de paralelismo de datos distribuidos de Amazon SageMaker AI
Solución de problemas para la formación distribuida en Amazon SageMaker AI
SageMaker Notas de publicación de la biblioteca de paralelismo de datos de IA