Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Lanzamiento de trabajos de formación distribuidos SMDDP con SageMaker Python SDK
Para ejecutar un trabajo de entrenamiento distribuido con su script adaptadoAdaptar tu guion de entrenamiento para utilizar las operaciones SMDDP colectivas, utilice el marco SDK de SageMaker Python o estimadores genéricos especificando el script de entrenamiento preparado como un script de punto de entrada y la configuración de entrenamiento distribuida.
En esta página se explica cómo utilizar SageMaker Python
-
Si desea lograr una adopción rápida de su trabajo de formación distribuida SageMaker, configure una clase SageMaker PyTorch
estimadora de nuestro TensorFlow framework. El estimador del marco recoge el guion de entrenamiento y automáticamente coincide con la imagen URI correcta del Deep Learning Containers () prediseñado PyTorch o TensorFlow Deep Learning Containers (DLC) , dado el valor especificado para el parámetro. framework_version
-
Si desea ampliar uno de los contenedores prediseñados o crear un contenedor personalizado para crear su propio entorno de aprendizaje automático SageMaker, utilice la
Estimator
clase SageMaker genérica y especifique la imagen URI del contenedor Docker personalizado alojado en su Amazon Elastic Container Registry (AmazonECR).
Sus conjuntos de datos de entrenamiento deben almacenarse en Amazon S3 o Amazon FSx for Lustre Región de AWS en los que vaya a iniciar su trabajo de entrenamiento. Si utilizas los cuadernos de Jupyter, deberías tener una instancia de bloc de notas o una SageMaker aplicación de SageMaker Studio Classic ejecutándose en el mismo. Región de AWS Para obtener más información sobre cómo almacenar los datos de entrenamiento, consulta la documentación de entradas SDK de datos de SageMaker Python
sugerencia
Le recomendamos que utilice Amazon FSx for Lustre en lugar de Amazon S3 para mejorar el rendimiento del entrenamiento. Amazon FSx tiene un rendimiento más alto y una latencia más baja que Amazon S3.
sugerencia
Para ejecutar correctamente la formación distribuida sobre los tipos de instancias EFA habilitadas, debe habilitar el tráfico entre las instancias configurando su grupo de seguridad VPC para permitir que todo el tráfico entrante y saliente entre y desde el propio grupo de seguridad. Para obtener información sobre cómo configurar las reglas de los grupos de seguridad, consulta el paso 1: Preparar un grupo de seguridad EFA habilitado en la Guía del EC2 usuario de Amazon.
Elija uno de los siguientes temas para obtener instrucciones sobre cómo ejecutar un trabajo de formación distribuido de su guion de formación. Tras iniciar un trabajo de formación, puede supervisar la utilización del sistema y el rendimiento del modelo mediante Amazon SageMaker Debugger Amazon CloudWatch.
Siga las instrucciones de los siguientes temas para obtener más información sobre los detalles técnicos, pero también le recomendamos que pruebe Ejemplos de bibliotecas SageMaker de paralelismo de datos de Amazon para empezar.