Lanzamiento de trabajos de formación distribuidos con SMDDP mediante el SDK de Python SageMaker

Para ejecutar un trabajo de entrenamiento distribuido con su script adaptadoAdaptación del script de entrenamiento para utilizar las operaciones colectivas de SMDDP, utilice el marco del SDK de SageMaker Python o estimadores genéricos especificando el script de entrenamiento preparado como un script de punto de entrada y la configuración de entrenamiento distribuida.

En esta página, se explica cómo utilizar el SDK de Python para SageMaker IA de dos maneras.

Si quieres adoptar rápidamente tu trabajo de formación distribuida en SageMaker IA, configura una clase de SageMaker IA PyTorcho de estimación de TensorFlowmarcos. El estimador del marco recoge el guion de entrenamiento y automáticamente coincide con el URI de imagen correcto de los Deep Learning Containers (DLC) prediseñados PyTorch o de los TensorFlow Deep Learning Containers (DLC), dado el valor especificado para el parámetro. framework_version
Si desea ampliar uno de los contenedores prediseñados o crear un contenedor personalizado para crear su propio entorno de aprendizaje automático con SageMaker IA, utilice la Estimator clase genérica SageMaker AI y especifique el URI de imagen del contenedor Docker personalizado alojado en su Amazon Elastic Container Registry (Amazon ECR).

Sus conjuntos de datos de entrenamiento deben almacenarse en Amazon S3 o Amazon FSx for Lustre Región de AWS en los que vaya a iniciar su trabajo de entrenamiento. Si utilizas los cuadernos de Jupyter, deberías tener una instancia de bloc de notas o una SageMaker aplicación de SageMaker Studio Classic ejecutándose en el mismo. Región de AWS Para obtener más información sobre cómo almacenar los datos de entrenamiento, consulta la documentación de entradas de datos del SDK de SageMaker Python.

sugerencia

Le recomendamos que utilice Amazon FSx for Lustre en lugar de Amazon S3 para mejorar el rendimiento del entrenamiento. Amazon FSx tiene un rendimiento más alto y una latencia más baja que Amazon S3.

sugerencia

Para ejecutar correctamente entrenamiento distribuido en los tipos de instancia habilitadas para EFA, debe habilitar tráfico entre las instancias mediante la configuración del grupo de seguridad de su VPC de forma que permita que todo el tráfico entrante y saliente hacia y desde el propio grupo de seguridad. Para obtener información sobre cómo configurar las reglas de los grupos de seguridad, consulte el paso 1: Preparar un grupo de seguridad habilitado para EFA en la Guía del EC2usuario de Amazon.

Seleccione uno de los siguientes temas para obtener instrucciones sobre cómo ejecutar un trabajo de entrenamiento distribuido de su script de entrenamiento. Tras iniciar un trabajo de formación, puede supervisar la utilización del sistema y el rendimiento del modelo mediante Amazon SageMaker Debugger Amazon CloudWatch.

Siga las instrucciones de los siguientes temas para obtener más información sobre los detalles técnicos, pero también le recomendamos que pruebe Ejemplos de bibliotecas de paralelismo de datos de Amazon SageMaker AI para empezar.

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

TensorFlow (obsoleto)

Usa los estimadores del PyTorch framework del SDK de Python SageMaker