Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Ejecute un trabajo de formación SageMaker distribuido con Model Paralelism
Aprenda a ejecutar un trabajo de entrenamiento en paralelo con un modelo con su propio script de entrenamiento utilizando el SDK de SageMaker Python con la biblioteca de paralelismo de SageMaker modelos.
Existen tres casos de uso para ejecutar un trabajo de formación. SageMaker
-
Puede utilizar uno de los contenedores de aprendizaje AWS profundo prediseñados para y. TensorFlow PyTorch Le recomendamos esta opción si es la primera vez que utiliza la biblioteca de paralelismo de modelos. Para encontrar un tutorial sobre cómo ejecutar un trabajo de formación de SageMaker modelos en paralelo, consulta los ejemplos de cuadernos de PyTorch entrenamiento con la biblioteca de paralelismo SageMaker de modelos de Amazon
. -
Puedes ampliar los contenedores prediseñados para gestionar cualquier requisito funcional adicional de tu algoritmo o modelo que no sea compatible con la imagen de Docker prediseñada SageMaker . Para ver un ejemplo de cómo ampliar un contenedor prediseñado, consulte Ampliar una contenedor precompilado.
-
Puedes adaptar tu propio contenedor de Docker para que funcione con él SageMaker mediante el kit de herramientas de formación. SageMaker
Para ver un ejemplo, consulte Adaptación de su propio contenedor de entrenamiento.
Para ver las opciones 2 y 3 de la lista anterior, consulte Amplíe un contenedor Docker prediseñado que contiene SageMaker la biblioteca paralela de modelos distribuidos para obtener información sobre cómo instalar la biblioteca de paralelismo de modelos en un contenedor de Docker ampliado o personalizado.
En todos los casos, debe iniciar su trabajo de formación configurando un PyTorch
estimador SageMaker TensorFlow
o un estimador para activar la biblioteca. Para obtener más información, consulte los temas siguientes.