Características principales de la biblioteca de paralelismo de modelos de SageMaker - Amazon SageMaker

Características principales de la biblioteca de paralelismo de modelos de SageMaker

La biblioteca de paralelismo de modelos de Amazon SageMaker ofrece estrategias de distribución y técnicas de ahorro de memoria, como el paralelismo de datos partidos, el paralelismo de tensores, la división de modelos por capas para la programación de canalización y los puntos de control. Las estrategias y técnicas de paralelismo de modelos ayudan a distribuir modelos grandes en varios dispositivos, a la vez que optimizan la velocidad de entrenamiento y el consumo de memoria. La biblioteca también proporciona funciones auxiliares de Python, administradores de contexto y funciones contenedoras para adaptar su script de entrenamiento a la división automática o manual de su modelo.

Cuando implementa el paralelismo de modelos en su trabajo de entrenamiento, mantiene el mismo flujo de trabajo de dos pasos que se muestra en la sección Ejecución de un trabajo de entrenamiento distribuido de SageMaker con paralelismo de modelos. Para adaptar el script de su entrenamiento, debe agregar cero o pocas líneas de código adicionales a su script de entrenamiento. Para iniciar un trabajo de entrenamiento con el script de entrenamiento adaptado, debe configurar los parámetros de configuración de la distribución para activar las funciones de ahorro de memoria o transferir valores según el grado de paralelismo.

Si necesita algunos ejemplos, consulte los siguientes cuadernos de Jupyter que muestran cómo utilizar la biblioteca de paralelismo de modelos de SageMaker.

Para profundizar en las características principales de la biblioteca, consulte los siguientes temas.

nota

Las bibliotecas de entrenamiento distribuidas de SageMaker están disponibles a través de los contenedores de aprendizaje profundo AWS para PyTorch, Hugging Face y TensorFlow dentro de la plataforma de entrenamiento de SageMaker. Para utilizar las características de las bibliotecas de entrenamiento distribuidas, le recomendamos que utilice el SageMaker Python SDK. También puede configurarlo manualmente en la sintaxis de solicitud JSON si utiliza las API de SageMaker mediante el SDK para Python (Boto3) o AWS Command Line Interface. En toda de la documentación, las instrucciones y los ejemplos se centran en cómo utilizar las bibliotecas de entrenamiento distribuido con el SageMaker Python SDK.

importante

La biblioteca de paralelismo de modelos de SageMaker es compatible con todas las características principales de PyTorch y admite el paralelismo de canalización para TensorFlow.