Ejecute un trabajo de formación SageMaker distribuido con Model Paralelism

Modo de enfoque

Ejecute un trabajo de formación SageMaker distribuido con Model Paralelism - Amazon SageMaker AI

Aprenda a ejecutar un trabajo de entrenamiento en paralelo con un modelo con su propio script de entrenamiento utilizando el SDK de SageMaker Python con la biblioteca de paralelismo de SageMaker modelos.

Existen tres casos de uso para ejecutar un trabajo de formación. SageMaker

Puede utilizar uno de los contenedores de aprendizaje AWS profundo prediseñados para y. TensorFlow PyTorch Le recomendamos esta opción si es la primera vez que utiliza la biblioteca de paralelismo de modelos. Para encontrar un tutorial sobre cómo ejecutar un trabajo de formación en paralelo con SageMaker modelos, consulte los cuadernos de ejemplo de PyTorch entrenamiento con la biblioteca de paralelismo de modelos de Amazon SageMaker AI.
Puede ampliar los contenedores prediseñados para gestionar cualquier requisito funcional adicional de su algoritmo o modelo que no sea compatible con la imagen de Docker prediseñada SageMaker . Para ver un ejemplo de cómo ampliar un contenedor prediseñado, consulte Ampliar una contenedor precompilado.
Puedes adaptar tu propio contenedor de Docker para que funcione con la SageMaker IA mediante el kit de herramientas de formación. SageMaker Para ver un ejemplo, consulte Adaptación de su propio contenedor de entrenamiento.

Para ver las opciones 2 y 3 de la lista anterior, consulte Amplíe un contenedor Docker prediseñado que contiene SageMaker la biblioteca paralela de modelos distribuidos para obtener información sobre cómo instalar la biblioteca de paralelismo de modelos en un contenedor de Docker ampliado o personalizado.

En todos los casos, debe iniciar su trabajo de formación configurando un PyTorch estimador SageMaker TensorFlow o un estimador para activar la biblioteca. Para obtener más información, consulte los temas siguientes.

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Compatibilidad con FlashAttention

Paso 1: modifique su propio script de entrenamiento

Seleccione sus preferencias de cookies

Personalizar preferencias de cookies

Esenciales

De rendimiento

Funcionales

De publicidad

No se pueden guardar las preferencias de cookies

Ejecute un trabajo de formación SageMaker distribuido con Model Paralelism

Temas

Related resources

¿Le ha servido de ayuda esta página?

Related resources

Tema siguiente:

Tema anterior:

¿Necesita ayuda?