Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Realice un entrenamiento distribuido con la biblioteca de paralelismo de datos distribuidos de SageMaker IA

Modo de enfoque
Realice un entrenamiento distribuido con la biblioteca de paralelismo de datos distribuidos de SageMaker IA - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

La biblioteca de paralelismo de datos distribuidos (SMDDP) de SageMaker IA amplía las capacidades de SageMaker formación en modelos de aprendizaje profundo con una eficiencia de escalado casi lineal al proporcionar implementaciones de operaciones de comunicación colectiva optimizadas para la infraestructura. AWS

Al entrenar modelos de machine learning (ML) de gran tamaño, como los modelos de lenguaje grandes (LLM) y los modelos de difusión, en un enorme conjunto de datos de entrenamiento, los profesionales de ML utilizan clústeres de aceleradores y técnicas de entrenamiento distribuido para reducir el tiempo de entrenamiento o resolver las limitaciones de memoria de los modelos que no caben en la memoria de cada GPU. Los profesionales de ML suelen empezar con varios aceleradores en una sola instancia y, después, escalarlos a clústeres de instancias a medida que aumentan sus requisitos de carga de trabajo. A medida que aumenta el tamaño del clúster, también lo hace la sobrecarga de comunicación entre varios nodos, lo que conduce a una disminución del rendimiento de computación general.

Para solucionar estos problemas de sobrecarga y memoria, la biblioteca de SMDDP ofrece lo siguiente.

  • La biblioteca SMDDP optimiza los trabajos de formación para la infraestructura de AWS red y la topología de instancias de Amazon SageMaker AI ML.

  • La biblioteca SMDDP mejora la comunicación entre los nodos con implementaciones AllReduce y operaciones de comunicación AllGather colectiva optimizadas para la infraestructura. AWS

Para obtener más información sobre los detalles de las ofertas de bibliotecas de SMDDP, consulte Introducción a la biblioteca de paralelismo de datos distribuidos de SageMaker IA.

Para obtener más información sobre el entrenamiento con la estrategia de modelo paralelo que ofrece la SageMaker IA, consulte también. Biblioteca de paralelismo de SageMaker modelos v1.x (Archivada)

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.