Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Lanzamiento de trabajos de formación distribuidos con SMDDP mediante el SDK de Python SageMaker
Para ejecutar un trabajo de entrenamiento distribuido con su script adaptadoAdaptación del script de entrenamiento para utilizar las operaciones colectivas de SMDDP, utilice el marco del SDK de SageMaker Python o estimadores genéricos especificando el script de entrenamiento preparado como un script de punto de entrada y la configuración de entrenamiento distribuida.
En esta página, se explica cómo utilizar el SDK de Python para SageMaker IA
-
Si quieres adoptar rápidamente tu trabajo de formación distribuida en SageMaker IA, configura una clase de SageMaker IA PyTorch
o de estimación de TensorFlow marcos. El estimador del marco recoge el guion de entrenamiento y automáticamente coincide con el URI de imagen correcto de los Deep Learning Containers (DLC) prediseñados PyTorch o de los TensorFlow Deep Learning Containers (DLC) , dado el valor especificado para el parámetro. framework_version
-
Si desea ampliar uno de los contenedores prediseñados o crear un contenedor personalizado para crear su propio entorno de aprendizaje automático con SageMaker IA, utilice la
Estimator
clase genérica SageMaker AI y especifique el URI de imagen del contenedor Docker personalizado alojado en su Amazon Elastic Container Registry (Amazon ECR).
Sus conjuntos de datos de entrenamiento deben almacenarse en Amazon S3 o Amazon FSx for Lustre Región de AWS en los que vaya a iniciar su trabajo de entrenamiento. Si utilizas los cuadernos de Jupyter, deberías tener una instancia de bloc de notas o una SageMaker aplicación de SageMaker Studio Classic ejecutándose en el mismo. Región de AWS Para obtener más información sobre cómo almacenar los datos de entrenamiento, consulta la documentación de entradas de datos del SDK de SageMaker Python
sugerencia
Le recomendamos que utilice Amazon FSx for Lustre en lugar de Amazon S3 para mejorar el rendimiento del entrenamiento. Amazon FSx tiene un rendimiento más alto y una latencia más baja que Amazon S3.
sugerencia
Para ejecutar correctamente entrenamiento distribuido en los tipos de instancia habilitadas para EFA, debe habilitar tráfico entre las instancias mediante la configuración del grupo de seguridad de su VPC de forma que permita que todo el tráfico entrante y saliente hacia y desde el propio grupo de seguridad. Para obtener información sobre cómo configurar las reglas de los grupos de seguridad, consulte el paso 1: Preparar un grupo de seguridad habilitado para EFA en la Guía del EC2usuario de Amazon.
Seleccione uno de los siguientes temas para obtener instrucciones sobre cómo ejecutar un trabajo de entrenamiento distribuido de su script de entrenamiento. Tras iniciar un trabajo de formación, puede supervisar la utilización del sistema y el rendimiento del modelo mediante Amazon SageMaker Debugger Amazon CloudWatch.
Siga las instrucciones de los siguientes temas para obtener más información sobre los detalles técnicos, pero también le recomendamos que pruebe Ejemplos de bibliotecas de paralelismo de datos de Amazon SageMaker AI para empezar.