Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Notas de publicación de la biblioteca de paralelismo de SageMaker modelos
Consulte las siguientes notas de la versión para realizar un seguimiento de las últimas actualizaciones de la biblioteca de paralelismo de SageMaker modelos (SMP). Si tiene más preguntas sobre la biblioteca de SMP, póngase en contacto con el equipo de servicio de SMP en sm-model-parallel-feedback@amazon.com
.
La SageMaker biblioteca de paralelismo de modelos, versión 2.7.0
Fecha: 4 de diciembre de 2024
Actualizaciones de la biblioteca de SMP
Nuevas características
-
Se agregó compatibilidad con SageMaker HyperPod recetas.
Contenedor de Docker de SMP
El equipo de la biblioteca SMP distribuye los contenedores Docker y Enroot en lugar de los contenedores Framework. SageMaker PyTorch Si utilizas la clase PyTorch estimador en el SDK de SageMaker Python y especificas la configuración de distribución para usar SMP v2, recogerá SageMaker automáticamente los contenedores Docker de SMP. Para usar esta versión de SMP v2, actualice su SDK de SageMaker Python a una v2.237.0
versión posterior.
Detalles del contenedor
-
Contenedor SMP Docker para la versión 2.4.1 con la versión 12.1 de PyTorch CUDA
658645717510.dkr.ecr.
<us-west-2>
.smdistributed-modelparallel:2.4.1-gpu-py311-cu121 -
Contenedor SMP Enroot para la versión 2.4.1 con CUDA v12.1 PyTorch
https://sagemaker-distributed-model-parallel.s3.
<us-west-2>
.amazonaws.com/enroot/2.4.1-gpu-py311-cu121.sqsh -
Paquetes preinstalados
-
La biblioteca SMP v2.7.0
-
La biblioteca SMDDP v2.5.0
-
CUDNN v9.4.0
-
FlashAttention v2.5.8
-
TransformerEngine v1.10
-
Megatron v0.8.0
-
Hugging Face Transformers v4.44.2
-
Biblioteca de conjuntos de datos Hugging Face v2.19.0
-
EFA v1.32.0
-
NCCL v2.21.5
-
Canal Conda de SMP
El siguiente bucket de S3 es el canal Conda público de la biblioteca de SMP alojado por el equipo de servicio de SMP. Si desea instalar la biblioteca SMP v2 en un entorno Conda, como SageMaker HyperPod clústeres, utilice este canal Conda para instalar correctamente la biblioteca SMP.
-
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/
Para obtener más información sobre los canales de Conda en general, consulte Canales
La SageMaker biblioteca de paralelismo de modelos v2.6.1
Fecha: 31 de octubre de 2024
Actualizaciones de la biblioteca de SMP
Correcciones de errores
-
Se ha corregido un
ImportError
problema que se producía al utilizar scripts de entrenamiento antiguos con SMP v2.6.0. Esto corrige la incompatibilidad con versiones anteriores de SMP v2.6.0. -
Se agregó un formulario.
DeprecationWarning
torch.sagemaker.distributed.fsdp.checkpoint
Este módulo quedará obsoleto y se eliminará en SMP v2.7.0. Si actualmente lo estás usandotorch.sagemaker.distributed.fsdp.checkpoint
en tu código, deberías planear actualizar tus scripts antes del lanzamiento de SMP v2.7.0 para evitar problemas en el futuro. -
Se ha corregido un problema de compatibilidad con versiones anteriores identificado en la versión 2.6.0 de SMP. Este problema estaba relacionado con la obsolescencia del método de
USE_PG_WITH_UTIL
puntos de control en la versión 2.6.0 de SMP, lo que impedía la compatibilidad con versiones anteriores de los guiones de entrenamiento. Para resolver este problema, vuelva a ejecutar los trabajos de PyTorch formación y elija el contenedor SMP más reciente incluido en la versión 2.6.1 de SMP.
Contenedor de Docker de SMP
El equipo de la biblioteca SMP distribuye contenedores Docker en lugar de los contenedores Framework. SageMaker PyTorch Si utilizas la clase PyTorch estimador en el SDK de SageMaker Python y especificas la configuración de distribución para usar SMP v2, SageMaker AI recoge automáticamente los contenedores Docker de SMP.
Detalles del contenedor
-
Contenedor SMP Docker para la versión 2.4.1 con CUDA versión 12.1 PyTorch
658645717510.dkr.ecr.
<us-west-2>
.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 -
Paquetes preinstalados
-
La biblioteca SMP v2.6.1
-
La biblioteca SMDDP v2.5.0
-
CUDNN v9.4.0
-
FlashAttention v2.5.8
-
TransformerEngine v1.10
-
Megatron v0.8.0
-
Hugging Face Transformers v4.44.2
-
Biblioteca de conjuntos de datos Hugging Face v2.19.0
-
EFA v1.32.0
-
NCCL v2.21.5
-
Canal Conda de SMP
El siguiente bucket de S3 es el canal Conda público de la biblioteca de SMP alojado por el equipo de servicio de SMP. Si desea instalar la biblioteca SMP v2 en un entorno de recursos informáticos altamente personalizables, como SageMaker HyperPod clústeres, utilice este canal de Conda para instalar correctamente la biblioteca SMP.
-
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/
Para obtener más información sobre los canales de Conda en general, consulte Canales
La biblioteca de paralelismo de SageMaker modelos v2.6.0
Fecha: 17 de octubre de 2024
Actualizaciones de la biblioteca de SMP
Nuevas características
-
Se ha agregado compatibilidad con las siguientes configuraciones del modelo LLM. Puede empezar a usar Paralelismo de contexto y Paralelismo de tensores.
-
Se ha agregado compatibilidad de Paralelismo de tensores con las siguientes configuraciones del modelo Mixtral.
-
Se agregó soporte para una implementación de paralelismo contextual AllGather basada en el contexto que utiliza el colectivo de AllGather comunicación para obtener la secuencia completa de tensores. key-and-value Las implementaciones disponibles son
p2p
yall_gather
. Lap2p
implementación utiliza llamadas de envío y peer-to-peer recepción para acumular tensores key-and-value (KV) durante el cálculo de la atención, lo que se ejecuta de forma asíncrona y permite que la comunicación se superponga con el cálculo. Por otro lado, la implementación deall_gather
emplea la operación colectiva de comunicación deAllGather
para la acumulación de tensores de KV. Para aprender a aplicar esta implementación del paralelismo contextual, consulte Paralelismo de contexto. -
Se ha añadido compatibilidad con el ajuste del valor theta de la incrustación de posición rotatoria (RoPE).
Correcciones de errores
-
Se ha corregido un error que provocaba que la incrustación de posición rotatoria (RoPE) no se inicializara correctamente durante el entrenamiento previo cuando el parámetro de retardo estaba habilitado.
Problemas conocidos
-
Actualmente, Transformer Engine no admite el paralelismo de contexto ni tiene habilitada la atención mediante ventanas correderas. FP8 Por lo tanto, la versión SMP de los transformadores Mistral no admite el paralelismo de contexto ni el FP8 entrenamiento cuando la configuración de la ventana deslizante se establece en un valor no nulo.
Contenedor de Docker de SMP
El equipo de la biblioteca SMP distribuye contenedores Docker en lugar de los contenedores Framework. SageMaker PyTorch Si utilizas la clase PyTorch estimador en el SDK de SageMaker Python y especificas la configuración de distribución para usar SMP v2, SageMaker AI recoge automáticamente los contenedores Docker de SMP.
Actualizaciones de divisas
-
PyTorch Se actualizó a la versión 2.4.1
-
Se ha actualizado Megatron a v0.8.0
-
Se actualizó la TransformerEngine biblioteca a la versión 1.10
-
Se ha actualizado Transformers a v4.44.2
-
Se ha actualizado cuDNN a v9.4.0.58
Detalles del contenedor
-
Contenedor SMP Docker para la versión 2.4.1 con la versión 12.1 de CUDA PyTorch
658645717510.dkr.ecr.
<us-west-2>
.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 -
Paquetes preinstalados
-
La biblioteca de SMP v2.6.0
-
La biblioteca SMDDP v2.5.0
-
CUDNN v9.4.0
-
FlashAttention v2.5.8
-
TransformerEngine v1.10
-
Megatron v0.8.0
-
Hugging Face Transformers v4.44.2
-
Biblioteca de conjuntos de datos Hugging Face v2.19.0
-
EFA v1.32.0
-
NCCL v2.21.5
-
Canal Conda de SMP
El siguiente bucket de S3 es el canal Conda público de la biblioteca de SMP alojado por el equipo de servicio de SMP. Si desea instalar la biblioteca SMP v2 en un entorno de recursos informáticos altamente personalizables, como SageMaker HyperPod clústeres, utilice este canal de Conda para instalar correctamente la biblioteca SMP.
-
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/
Para obtener más información sobre los canales de Conda en general, consulte Canales
La biblioteca de paralelismo de SageMaker modelos v2.5.0
Fecha: 28 de agosto de 2024
Actualizaciones de la biblioteca de SMP
Nuevas características
-
Se agregó soporte para el entrenamiento de precisión mixta utilizando el formato de FP8 datos en instancias P5 para el modelo Mixtral.
-
Las configuraciones de Mixtral compatibles son 8x7B y 8x22B. Para obtener más información, consulte Entrenamiento de precisión mixto con FP8 instancias P5 que utilizan Transformer Engine.
-
-
Se ha agregado compatibilidad con Paralelismo de contexto para las siguientes configuraciones del modelo.
-
Llama-v2: 7B y 70B
-
Llama-v3: 8B y 70B
-
GPT-NeoX: 20B
-
-
Se ha agregado compatibilidad para guardar puntos de comprobación de forma asíncrona. Para obtener más información, consulte Puntos de comprobación mediante SMP.
-
Compatibilidad para guardar puntos de comprobación directamente en S3 sin utilizar Amazon EBS ni servidores de archivos.
-
Correcciones de errores
-
Se ha solucionado un problema que provocaba una pérdida inicial inesperadamente elevada durante el afinamiento de Llama al cargar un punto de comprobación de un modelo previamente entrenado y utilizar paralelismo de tensores.
Notas
-
Para utilizar los puntos de control de activación de Mixtral con una precisión FP8 mixta, tendrá que comprobar las capas de atención y de experto por separado. Para ver un ejemplo de cómo configurarlo correctamente, consulta el ejemplo de script de entrenamiento
en el repositorio Amazon SageMaker AI Examples.
Problemas conocidos
-
El tipo de equilibrador de carga equilibrado de la configuración del MoE (torch.sagemaker.moe.moe_config.MoEConfig) no es compatible actualmente con los puntos de comprobación de activación.
-
Con paralelismo contextual, GPT-NeoX muestra regresión del rendimiento tanto en el entrenamiento previo como en el afinamiento.
-
Para GPT-NeoX en instancias P4, cargar directamente las ponderaciones de un modelo transformado inicializado con parámetros retardados en un modelo de transformador Hugging Face provoca un desajuste de pérdida en el primer paso.
Contenedor de Docker de SMP
El equipo de la biblioteca SMP distribuye contenedores Docker en lugar de los SageMaker PyTorch contenedores marco. Si utilizas la clase PyTorch estimador en el SDK de SageMaker Python y especificas la configuración de distribución para usar SMP v2, SageMaker AI recoge automáticamente los contenedores Docker de SMP. Para usar esta versión de SMP v2, actualice su SDK de SageMaker Python a la versión 2.224.0 o posterior.
Actualizaciones de divisas
-
Se actualizó la biblioteca a la versión 2.5.8 FlashAttention
-
Se ha actualizado la biblioteca Transformer Engine a la v1.8
Detalles del contenedor
-
Contenedor SMP Docker para la versión 2.3.1 con la versión 12.1 de CUDA PyTorch
658645717510.dkr.ecr.
<region>
.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121Para obtener una lista completa de las regiones admitidas, consulte Regiones de AWS.
-
Paquetes preinstalados
-
La biblioteca de SMP v2.5.0
-
La biblioteca SMDDP v2.3.0
-
CUDNN v8.9.7.29
-
FlashAttention v2.5.8
-
TransformerEngine v1.8
-
Megatron v0.7.0
-
Hugging Face Transformers v4.40.1
-
Biblioteca de conjuntos de datos Hugging Face v2.19.0
-
EFA v1.32.0
-
NCCL v2.21.5
-
Canal Conda de SMP
El siguiente bucket de S3 es el canal Conda público de la biblioteca de SMP alojado por el equipo de servicio de SMP. Si desea instalar la biblioteca SMP v2 en un entorno de recursos informáticos altamente personalizables, como SageMaker HyperPod clústeres, utilice este canal Conda para instalar correctamente la biblioteca SMP.
-
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/
Para obtener más información sobre los canales de Conda en general, consulte Canales
La biblioteca de paralelismo de SageMaker modelos v2.4.0
Fecha: 20 de junio de 2024
Actualizaciones de la biblioteca de SMP
Correcciones de errores
-
Se ha corregido un error que provocaba que las formas logit fueran incorrectas cuando no se pasaban etiquetas en la propagación hacia delante mientras se utilizaba el transformador de SMP.
Actualizaciones de divisas
-
Se agregó soporte para la versión 2.3.1. PyTorch
-
Se ha añadido compatibilidad con Python 3.11.
-
La biblioteca Hugging Face Transformers v4.40.1 ahora es compatible.
Obsolescencias
-
Se ha dejado de admitir Python v3.10.
-
Se han dejado de admitir las versiones de la biblioteca de Hugging Face Transformers anteriores a la v4.40.1.
Otros cambios
-
Se ha incluido un parche para activar y desactivar el almacenamiento de tensores deduplicados en diferentes rangos. Para obtener más información, consulta el hilo de discusión
del PyTorch GitHub repositorio.
Problemas conocidos
-
Existe un problema conocido que hace que la pérdida se dispare y luego se reanude con un valor de pérdida más alto mientras se afina Llama-3 70B con paralelismo de tensores.
Contenedor de Docker de SMP
El equipo de la biblioteca SMP distribuye los contenedores Docker en lugar de los contenedores del SageMaker PyTorch framework. Si utilizas la clase PyTorch estimador en el SDK de SageMaker Python y especificas la configuración de distribución para usar SMP v2, SageMaker AI recoge automáticamente los contenedores Docker de SMP. Para usar esta versión de SMP v2, actualice su SDK de SageMaker Python a la versión 2.224.0 o posterior.
Actualizaciones de divisas
-
Se ha actualizado la biblioteca SMDDP a la v2.3.0.
-
Se ha actualizado la biblioteca NCCL a la v2.21.5.
-
Se ha actualizado el software EFA a la v1.32.0.
Obsolescencias
-
Se ha dejado de admitir la instalación de la biblioteca de Torch Distributed Experimental (torchdistX)
.
Detalles del contenedor
-
Contenedor SMP Docker para la versión 2.3.1 con la versión 12.1 de CUDA PyTorch
658645717510.dkr.ecr.
us-west-2
.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121 -
Paquetes preinstalados
-
La biblioteca de SMP v2.4.0
-
La biblioteca SMDDP v2.3.0
-
CUDNN v8.9.7.29
-
FlashAttention v2.3.3
-
TransformerEngine v1.2.1
-
Hugging Face Transformers v4.40.1
-
Biblioteca de conjuntos de datos Hugging Face v2.19.0
-
EFA v1.32.0
-
NCCL v2.21.5
-
Canal Conda de SMP
El siguiente bucket de S3 es el canal Conda público de la biblioteca de SMP alojado por el equipo de servicio de SMP. Si desea instalar la biblioteca SMP v2 en un entorno de recursos informáticos altamente personalizables, como SageMaker HyperPod clústeres, utilice este canal Conda para instalar correctamente la biblioteca SMP.
-
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/
Para obtener más información sobre los canales de Conda en general, consulte Canales
La biblioteca de paralelismo de SageMaker modelos v2.3.1
Fecha: 9 de mayo de 2024
Correcciones de errores
-
Se ha corregido un error de
ImportError
que se producía al usarmoe_load_balancing=balanced
en torch.sagemaker.moe.moe_config.MoEConfig para paralelismo experto. -
Se ha corregido un error de afinamiento que provocaba que la llamada de torch.sagemaker.transform emitiera
KeyError
cuando estaba activadaload_state_dict_from_rank0
. -
Se ha corregido un error out-of-memory (OOM) que se producía al cargar modelos grandes de Mixture of Experts (MoE), como el Mixtral 8x22B, para realizar ajustes precisos.
Contenedor de Docker de SMP
El equipo de la biblioteca SMP distribuye contenedores Docker en lugar de los contenedores Framework. SageMaker PyTorch Esta versión incorpora las correcciones de errores mencionadas en la siguiente imagen de Docker de SMP.
-
Contenedor Docker SMP para la versión 2.2.0 con la versión 12.1 de CUDA PyTorch
658645717510.dkr.ecr.
us-west-2
.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
La SageMaker biblioteca de paralelismo de modelos v2.3.0
Fecha: 11 de abril de 2024
Nuevas características
-
Se ha agregado una nueva característica esencial, paralelismo experto, para admitir modelos de transformador de Mixture of Experts. Para obtener más información, consulte Paralelismo experto.
Contenedor de Docker de SMP
El equipo de la biblioteca SMP distribuye los contenedores Docker en lugar de los contenedores del framework. SageMaker PyTorch Si utilizas la clase PyTorch estimador en el SDK de SageMaker Python y especificas la configuración de distribución para usar SMP v2, recogerá SageMaker automáticamente los contenedores Docker de SMP. Para usar esta versión de SMP v2, actualice su SDK de SageMaker Python a la versión 2.214.4 o posterior.
-
Contenedor SMP Docker para la versión 2.2.0 con CUDA v12.1 PyTorch
658645717510.dkr.ecr.
us-west-2
.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121-
Paquetes preinstalados en este contenedor de Docker
-
La biblioteca SMDDP v2.2.0
-
CUDNN v8.9.5.29
-
FlashAttention v2.3.3
-
TransformerEngine v1.2.1
-
Hugging Face Transformers v4.37.1
-
Biblioteca de conjuntos de datos Hugging Face v2.16.1
-
Megatron-core 0.5.0
-
EFA v1.30.0
-
NCCL v2.19.4
-
-
La biblioteca de SageMaker modelos de paralelismo v2.2.0
Fecha: 7 de marzo de 2024
Nuevas características
-
Se agregó soporte para el FP8 entrenamiento de los siguientes modelos de transformadores Hugging Face en instancias P5 con integración de Transformer Engine:
-
GPT-NeoX
-
Llama 2
-
Correcciones de errores
-
Se ha corregido un error que impedía garantizar que los tensores fueran contiguos antes de la llamada colectiva de
AllGather
durante el entrenamiento de paralelismo de tensores.
Actualizaciones de divisas
-
Se agregó soporte para PyTorch la versión 2.2.0.
-
Se ha actualizado la biblioteca SMDDP a la v2.2.0.
-
Se actualizó la FlashAttention biblioteca a la versión 2.3.3.
-
Se ha actualizado la biblioteca NCCL a la v2.19.4.
Obsolescencia
-
Se han dejado de admitir las versiones de Transformer Engine anteriores a la v1.2.0.
Problemas conocidos
-
La característica Descarga de activación de SMP no funciona actualmente. En su lugar, utilice la descarga PyTorch de activación nativa.
Otros cambios
-
Se incluyó un parche para corregir la regresión del rendimiento descrita en el hilo de problemas en https://github.com/pytorch/pytorch/issues/117748
en el repositorio. PyTorch GitHub
Contenedor de Docker de SMP
El equipo de la biblioteca SMP distribuye contenedores Docker en lugar de los contenedores Framework. SageMaker PyTorch Si utilizas la clase PyTorch estimador en el SDK de SageMaker Python y especificas la configuración de distribución para usar SMP v2, SageMaker AI recoge automáticamente los contenedores Docker de SMP. Para usar esta versión de SMP v2, actualice el SDK de SageMaker Python a la versión 2.212.0 o posterior.
-
Contenedor SMP Docker para la versión 2.2.0 con CUDA v12.1 PyTorch
658645717510.dkr.ecr.
us-west-2
.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121-
Disponible para instancias P4d, P4de y P5
-
Paquetes preinstalados en este contenedor de Docker
-
La biblioteca SMDDP v2.2.0
-
CUDNN v8.9.5.29
-
FlashAttention v2.3.3
-
TransformerEngine v1.2.1
-
Hugging Face Transformers v4.37.1
-
Biblioteca de conjuntos de datos Hugging Face v2.16.1
-
EFA v1.30.0
-
NCCL v2.19.4
-
-
La biblioteca de SageMaker modelos de paralelismo v2.1.0
Fecha: 6 de febrero de 2024
Actualizaciones de divisas
-
Se agregó soporte para la versión 2.1.2. PyTorch
Obsolescencia
-
Se ha dejado de admitir Hugging Face Transformers v4.31.0.
Problemas conocidos
-
Se ha descubierto un problema por el cual el afinamiento del modelo de Hugging Face Llama 2 con
attn_implementation=flash_attention_2
y FSDP provoca que el modelo diverja. Como referencia, consulta el ticket de publicaciónen el repositorio de Hugging Face GitHub Transformers. Para evitar el problema de la divergencia, use attn_implementation=sdpa
. Como alternativa, utilice la implementación del modelo de transformador de SMP mediante la configuración deuse_smp_implementation=True
.
Contenedor de Docker de SMP
El equipo de la biblioteca SMP distribuye contenedores Docker en lugar de los contenedores Framework. SageMaker PyTorch Si utilizas la clase PyTorch estimador en el SDK de SageMaker Python y especificas la configuración de distribución para usar SMP v2, recogerá SageMaker automáticamente los contenedores Docker de SMP. Para usar esta versión de SMP v2, actualice el SDK de SageMaker Python a la versión 2.207.0 o posterior.
-
Contenedor SMP Docker para la versión 2.1.2 con la versión 12.1 de CUDA PyTorch
658645717510.dkr.ecr.
us-west-2
.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121-
Disponible para instancias P4d, P4de y P5
-
Paquetes preinstalados en este contenedor de Docker
-
La biblioteca SMDDP v2.1.0
-
CUDNN v8.9.5.29
-
FlashAttention v2.3.3
-
TransformerEngine v1.2.1
-
Hugging Face Transformers v4.37.1
-
Biblioteca de conjuntos de datos Hugging Face v2.16.1
-
EFA v1.30.0
-
-
Canal Conda de SMP
El siguiente bucket de S3 es el canal de Conda público alojado por el equipo de servicio de SMP. Si desea instalar la biblioteca SMP v2 en un entorno de recursos informáticos altamente personalizables, como SageMaker HyperPod clústeres, utilice este canal Conda para instalar correctamente la biblioteca SMP.
-
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/
Para obtener más información sobre los canales de Conda en general, consulte Canales
La biblioteca de paralelismo de SageMaker modelos v2.0.0
Fecha: 19 de diciembre de 2023
Nuevas características
Publicó la biblioteca de paralelismo de SageMaker modelos (SMP), versión 2.0.0, con las siguientes ofertas nuevas.
-
Un nuevo paquete de
torch.sagemaker
, completamente renovado respecto al paquete desmdistributed.modelparallel.torch
anterior en SMP v1.x. -
Support para PyTorch 2.0.1.
-
Support for PyTorch FSDP.
-
Implementación del paralelismo de tensores mediante la integración con la biblioteca de Transformer Engine
. -
Support for SageMaker Training y SageMaker HyperPod.
Cambios importantes
-
SMP v2 lo renovó APIs por completo y proporciona el paquete.
torch.sagemaker
Principalmente, solo necesita inicializar con el módulo detorch.sagemaker.init()
y pasar parámetros de configuración paralela de modelos. Con este nuevo paquete puede simplificar considerablemente las modificaciones de código en el script de entrenamiento. Para obtener más información sobre cómo adaptar su script de entrenamiento para usar SMP v2, consulte Utilice la biblioteca de paralelismo de SageMaker modelos v2. -
Si ha utilizado SMP v1 para entrenar modelos de Hugging Face Transformer y quiere reutilizarlos en SMP v2, consulte Actualización de SMP v1 a SMP v2.
-
Para la formación sobre el PyTorch FSDP, debe utilizar el SMP v2.
Problemas conocidos
-
Actualmente, los puntos de comprobación de activación solo funcionan con las siguientes políticas de encapsulamiento con FSDP.
-
auto_wrap_policy = functools.partial(transformer_auto_wrap_policy, ...)
-
-
Para utilizar Descarga de activación, el tipo de punto de comprobación de activación de FSDP debe ser REENTRANT
. -
Cuando se ejecuta con paralelismo de tensores habilitado con el grado de paralelo de datos particionados establecido en
1
, debe usarbackend = nccl
. La opción de backend desmddp
no es compatible en este escenario. -
Es necesario utilizar Transformer Engine
PyTorch con la biblioteca SMP incluso cuando no se utilice el paralelismo tensorial.
Otros cambios
-
A partir de esta versión, la documentación de la biblioteca de paralelismo de SageMaker modelos está totalmente disponible en esta guía para desarrolladores de Amazon SageMaker AI. A favor de esta guía completa para desarrolladores de SMP v2 en la Guía para desarrolladores de Amazon SageMaker AI, la referencia adicional para SMP v1.x en
la documentación del SDK de SageMaker Python está obsoleta. Si aún necesitas la documentación de SMP v1.x, la guía para desarrolladores de SMP v1.x está disponible en Biblioteca de paralelismo de SageMaker modelos v1.x (Archivada) y la referencia de la biblioteca SMP Python v1.x está disponible en la documentación del SDK de Python v2.199.0. SageMaker
Obsolescencias
-
TensorFlowSe dejó de ofrecer soporte para.
-
SMP v2 no admite paralelismo de canalización.
-
No hay soporte para la DeepSpeed biblioteca a favor del PyTorch FSDP nativo.
Contenedor de Docker de SMP
El equipo de la biblioteca SMP distribuye contenedores Docker en lugar de los contenedores del framework. SageMaker PyTorch Si utilizas la clase PyTorch estimador en el SDK de SageMaker Python y especificas la configuración de distribución para usar SMP v2, SageMaker AI recoge automáticamente los contenedores Docker de SMP. Para usar esta versión de SMP v2, actualice el SDK de SageMaker Python a la versión 2.207.0 o posterior.
-
Contenedor SMP Docker para la versión 2.0.1 con la versión 12.1 de CUDA PyTorch
658645717510.dkr.ecr.
us-west-2
.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121