Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Notas de publicación de la biblioteca de paralelismo de SageMaker modelos
Consulte las siguientes notas de la versión para realizar un seguimiento de las últimas actualizaciones de la biblioteca SageMaker model parallelism (). SMP Si tiene más preguntas sobre la SMP biblioteca, póngase en contacto con el equipo de SMP servicio en. sm-model-parallel-feedback@amazon.com
La biblioteca de SageMaker modelos de paralelismo v2.5.0
Fecha: 28 de agosto de 2024
SMPactualizaciones de la biblioteca
Nuevas características
-
Se agregó soporte para el entrenamiento de precisión mixta utilizando el formato de FP8 datos en instancias P5 para el modelo Mixtral.
-
Las configuraciones de Mixtral compatibles son 8x7B y 8x22B. Para obtener más información, consulte Entrenamiento de precisión mixto con instancias P5 que FP8 utilizan Transformer Engine.
-
-
Se agregó soporte para las siguientes configuraciones de modelos. Paralelismo de contexto
-
Llama-v2:7B y 70B
-
Llama-v3:8B y 70B
-
GPT-NeoX: 20 B
-
-
Se agregó soporte para guardar los puntos de control de forma asíncrona. Para obtener más información, consulte Compruebe la posición utilizando SMP.
-
Support para guardar puntos de control directamente en S3 sin utilizar Amazon EBS ni servidores de archivos.
-
Correcciones de errores
-
Se solucionó un problema que provocaba una pérdida inicial inesperadamente elevada durante el ajuste de Llama al cargar un punto de control de un modelo previamente entrenado y utilizar el paralelismo tensorial.
Notas
-
Para utilizar los puntos de control de activación de Mixtral con una precisión FP8 mixta, tendrás que controlar las capas de atención y de experto por separado. Para ver un ejemplo de cómo configurarlo correctamente, consulta el ejemplo de script de entrenamiento
en el repositorio de Amazon SageMaker Examples.
Problemas conocidos
-
El tipo de equilibrio de carga equilibrado de la configuración del MoE (torch.sagemaker.moe.moe_config.MoEConfig) no es compatible actualmente con los puntos de control de activación.
-
Con el paralelismo contextual, GPT -NeoX muestra una regresión del rendimiento tanto en el entrenamiento previo como en el ajuste fino.
-
Para instancias de GPT -NeoX en P4, cargar directamente los pesos de un modelo transformado inicializado con parámetros retardados en un modelo de transformador Hugging Face provoca un desajuste de pérdidas en el primer paso.
SMPContenedor Docker
El equipo de la SMP biblioteca distribuye contenedores Docker en lugar de los contenedores Framework. SageMaker PyTorch Si usa la clase PyTorch estimador en SageMaker Python SDK y especifica la configuración de distribución para usar la SMP v2, recoge SageMaker automáticamente los contenedores de SMP Docker. Para usar esta versión de la versión SMP 2, actualice SageMaker Python SDK a la versión 2.224.0 o posterior.
Actualizaciones de divisas
-
Se actualizó la FlashAttention biblioteca a la versión 2.5.8
-
Se actualizó la biblioteca de Transformer Engine a la versión 1.8
Detalles del contenedor
-
SMPCUDAContenedor Docker para las versiones 2.3.1 y 12.1 PyTorch
658645717510.dkr.ecr.
<region>
.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121Para obtener una lista completa de las regiones admitidas, consulte Regiones de AWS.
-
Paquetes preinstalados
-
La SMP biblioteca v2.5.0
-
La SMDDP biblioteca v2.3.0
-
CUDNNv8.9.7.29
-
FlashAttention v2.5.8
-
TransformerEngine v1.8
-
Megatron v0.7.0
-
Hugging Face Transformers v4.40.1
-
Biblioteca de conjuntos de datos Hugging Face v2.19.0
-
EFAv1.32.0
-
NCCLv2.21.5
-
SMPCanal Conda
El siguiente bucket de S3 es el canal Conda público de la SMP biblioteca hospedado por el equipo de SMP servicio. Si desea instalar la biblioteca SMP v2 en un entorno de recursos informáticos altamente personalizables, como SageMaker HyperPod clústeres, utilice este canal de Conda para instalar la SMP biblioteca correctamente.
-
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/
Para obtener más información sobre los canales de Conda en general, consulte los canales
La biblioteca de SageMaker modelos de paralelismo v2.4.0
Fecha: 20 de junio de 2024
SMPactualizaciones de la biblioteca
Correcciones de errores
-
Se ha corregido un error que provocaba que las formas logit fueran incorrectas cuando no se pasaban etiquetas en la pasada hacia delante mientras se utilizaba el SMP Transformer.
Actualizaciones de divisas
-
Se agregó soporte para la PyTorch versión 2.3.1.
-
Se agregó soporte para Python v3.11.
-
Se agregó soporte para la biblioteca Hugging Face Transformers v4.40.1.
Depreciaciones
-
Se ha interrumpido el soporte para Python v3.10.
-
Se suspendió el soporte para las versiones de la biblioteca Hugging Face Transformers anteriores a la v4.40.1.
Otros cambios
-
Se ha incluido un parche que permite guardar los tensores deduplicados en diferentes rangos. Para obtener más información, consulta el hilo de discusión en el repositorio.
PyTorch GitHub
Problemas conocidos
-
Existe un problema conocido que hace que la pérdida se dispare y luego se reanude a un valor de pérdida más alto al ajustar el Llama-3 70B con paralelismo tensorial.
SMPContenedor Docker
El equipo de la SMP biblioteca distribuye contenedores Docker en lugar de los contenedores Framework. SageMaker PyTorch Si usa la clase PyTorch estimador en SageMaker Python SDK y especifica la configuración de distribución para usar la SMP v2, recoge SageMaker automáticamente los contenedores de SMP Docker. Para usar esta versión de la versión SMP 2, actualice SageMaker Python SDK a la versión 2.224.0 o posterior.
Actualizaciones de divisas
-
Se actualizó la SMDDP biblioteca a la versión 2.3.0.
-
Se actualizó la NCCL biblioteca a la versión 2.21.5.
-
Se actualizó el EFA software a la versión 1.32.0.
Depreciaciones
-
Se interrumpió la instalación de la biblioteca Torch Distributed Experimental (TorchDistX
).
Detalles del contenedor
-
SMPContenedor Docker para las versiones 2.3.1 y 12.1 PyTorch CUDA
658645717510.dkr.ecr.
us-west-2
.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121 -
Paquetes preinstalados
-
La SMP biblioteca v2.4.0
-
La SMDDP biblioteca v2.3.0
-
CUDNNv8.9.7.29
-
FlashAttention v2.3.3
-
TransformerEngine v1.2.1
-
Hugging Face Transformers v4.40.1
-
Biblioteca de conjuntos de datos Hugging Face v2.19.0
-
EFAv1.32.0
-
NCCLv2.21.5
-
SMPCanal Conda
El siguiente bucket de S3 es el canal Conda público de la SMP biblioteca hospedado por el equipo de SMP servicio. Si desea instalar la biblioteca SMP v2 en un entorno de recursos informáticos altamente personalizables, como SageMaker HyperPod clústeres, utilice este canal de Conda para instalar la SMP biblioteca correctamente.
-
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/
Para obtener más información sobre los canales de Conda en general, consulte los canales
La biblioteca de SageMaker modelos de paralelismo v2.3.1
Fecha: 9 de mayo de 2024
Correcciones de errores
-
Se ha
ImportError
corregido un error que se producía al usarlomoe_load_balancing=balanced
como paralelismo experto. torch.sagemaker.moe.moe_config.MoEConfig -
Se ha corregido un error de ajuste que provocaba que la torch.sagemaker.transform llamada se emitiera cuando estaba activada.
KeyError
load_state_dict_from_rank0
-
Se ha corregido un error out-of-memory (OOM) que se producía al cargar modelos de Mixture of Experts (MoE) de gran tamaño, como el Mixtral 8x22B, para realizar ajustes precisos.
SMPContenedor Docker
El equipo de la SMP biblioteca distribuye contenedores Docker en lugar de los contenedores Framework. SageMaker PyTorch Esta versión incorpora las correcciones de errores antes mencionadas en la siguiente imagen de SMP Docker.
-
SMPContenedor Docker para la versión 2.2.0 con la PyTorch versión 12.1 CUDA
658645717510.dkr.ecr.
us-west-2
.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
La biblioteca de modelos de paralelismo v2.3.0 SageMaker
Fecha: 11 de abril de 2024
Nuevas características
-
Se agregó una nueva función principal, el paralelismo experto, para admitir los modelos de transformadores Mixture of Experts. Para obtener más información, consulte Paralelismo experto.
SMPContenedor Docker
El equipo de la SMP biblioteca distribuye contenedores Docker en lugar de los contenedores Framework. SageMaker PyTorch Si usa la clase PyTorch estimador en SageMaker Python SDK y especifica la configuración de distribución para usar la SMP v2, recoge SageMaker automáticamente los contenedores de SMP Docker. Para usar esta versión de la versión SMP 2, actualice SageMaker Python SDK a la versión 2.214.4 o posterior.
-
SMPContenedor Docker para la versión 2.2.0 con la versión 12.1 PyTorch CUDA
658645717510.dkr.ecr.
us-west-2
.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121-
Paquetes preinstalados en este contenedor de Docker
-
La SMDDP biblioteca v2.2.0
-
CUDNNv8.9.5.29
-
FlashAttention v2.3.3
-
TransformerEngine v1.2.1
-
Hugging Face Transformers v4.37.1
-
Biblioteca de conjuntos de datos Hugging Face v2.16.1
-
Megatron-Core 0.5.0
-
EFAv1.30.0
-
NCCLv2.19.4
-
-
La biblioteca de SageMaker modelos de paralelismo v2.2.0
Fecha: 7 de marzo de 2024
Nuevas funciones
-
Se agregó soporte para el FP8entrenamiento de los siguientes modelos de transformadores Hugging Face en instancias P5 con integración de Transformer Engine:
-
GPT-NeoX
-
Llama 2
-
Correcciones de errores
-
Se ha corregido un error que impedía garantizar que los tensores fueran contiguos antes de la llamada
AllGather
colectiva durante el entrenamiento de paralelismo tensorial.
Actualizaciones de divisas
-
Se agregó soporte para la PyTorch versión 2.2.0.
-
Se actualizó la SMDDP biblioteca a la versión 2.2.0.
-
Se actualizó la FlashAttention biblioteca a la versión 2.3.3.
-
Se actualizó la NCCL biblioteca a la versión 2.19.4.
Obsolescencia
-
Se suspendió el soporte para las versiones de Transformer Engine anteriores a la v1.2.0.
Problemas conocidos
-
La SMP Descarga de activación función no funciona actualmente. En su lugar, utilice la descarga de PyTorch activación nativa.
Otros cambios
-
Se incluyó un parche para corregir la regresión del rendimiento discutida en el hilo de problemas en https://github.com/pytorch/pytorch/issues/117748
en el repositorio. PyTorch GitHub
SMPContenedor Docker
El equipo de la SMP biblioteca distribuye contenedores Docker en lugar de los contenedores Framework. SageMaker PyTorch Si usa la clase PyTorch estimador en SageMaker Python SDK y especifica la configuración de distribución para usar la SMP v2, recoge SageMaker automáticamente los contenedores de SMP Docker. Para usar esta versión de la versión SMP 2, actualice SageMaker Python SDK a la versión 2.212.0 o posterior.
-
SMPContenedor Docker para la versión 2.2.0 con la versión 12.1 PyTorch CUDA
658645717510.dkr.ecr.
us-west-2
.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121-
Disponible para instancias P4d, P4de y P5
-
Paquetes preinstalados en este contenedor de Docker
-
La SMDDP biblioteca v2.2.0
-
CUDNNv8.9.5.29
-
FlashAttention v2.3.3
-
TransformerEngine v1.2.1
-
Hugging Face Transformers v4.37.1
-
Biblioteca de conjuntos de datos Hugging Face v2.16.1
-
EFAv1.30.0
-
NCCLv2.19.4
-
-
La biblioteca de SageMaker modelos de paralelismo v2.1.0
Fecha: 6 de febrero de 2024
Actualizaciones de divisas
-
Se agregó soporte para la PyTorch versión 2.1.2.
Depreciación
-
Se ha interrumpido el soporte para Hugging Face Transformers v4.31.0.
Problemas conocidos
-
Se descubre un problema que al ajustar el modelo Hugging Face Llama 2
attn_implementation=flash_attention_2
con FSDP y provoca que el modelo diverja. Como referencia, consulta el ticket de publicaciónen el repositorio de Hugging Face GitHub Transformers. Para evitar el problema de la divergencia, utilice. attn_implementation=sdpa
Como alternativa, utilice la implementación del modelo de SMP transformador mediante la configuración.use_smp_implementation=True
SMPContenedor Docker
El equipo de la SMP biblioteca distribuye contenedores Docker en lugar de los contenedores Framework. SageMaker PyTorch Si usa la clase PyTorch estimador en SageMaker Python SDK y especifica la configuración de distribución para usar la SMP v2, recoge SageMaker automáticamente los contenedores de SMP Docker. Para usar esta versión de la versión SMP 2, actualice SageMaker Python SDK a la versión 2.207.0 o posterior.
-
SMPContenedor Docker para la v2.1.2 con la v12.1 PyTorch CUDA
658645717510.dkr.ecr.
us-west-2
.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121-
Disponible para instancias P4d, P4de y P5
-
Paquetes preinstalados en este contenedor de Docker
-
La SMDDP biblioteca v2.1.0
-
CUDNNv8.9.5.29
-
FlashAttention v2.3.3
-
TransformerEngine v1.2.1
-
Hugging Face Transformers v4.37.1
-
Biblioteca de conjuntos de datos Hugging Face v2.16.1
-
EFAv1.30.0
-
-
SMPCanal Conda
El siguiente bucket de S3 es un canal público de Conda alojado por el equipo de SMP servicio. Si desea instalar la biblioteca SMP v2 en un entorno de recursos informáticos altamente personalizables, como SageMaker HyperPod clústeres, utilice este canal de Conda para instalar la SMP biblioteca correctamente.
-
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/
Para obtener más información sobre los canales de Conda en general, consulte los canales
La biblioteca de SageMaker modelos de paralelismo v2.0.0
Fecha: 19 de diciembre de 2023
Nuevas características
Publicamos la biblioteca SageMaker model parallelism (SMP), versión 2.0.0, con las siguientes ofertas nuevas.
-
Un
torch.sagemaker
paquete nuevo, completamente renovado con respecto al paquete anterior de la versión 1.x.smdistributed.modelparallel.torch
SMP -
Support para PyTorch 2.0.1.
-
Support for PyTorch FSDP.
-
Support for SageMaker Training y SageMaker HyperPod.
Cambios importantes
-
SMPLa versión 2 lo renovó por APIs completo y proporciona el
torch.sagemaker
paquete. Principalmente, solo necesita inicializar con eltorch.sagemaker.init()
módulo y pasar los parámetros de configuración paralela del modelo. Con este nuevo paquete, puede simplificar considerablemente las modificaciones del código en su guion de entrenamiento. Para obtener más información sobre cómo adaptar su script de entrenamiento para usar la SMP versión 2, consulteUtilice la biblioteca de paralelismo de SageMaker modelos v2. -
Si has utilizado la SMP versión 1 para entrenar a los modelos de Hugging Face Transformer y quieres reutilizarlos SMP en la versión 2, Actualización de la versión SMP 1 a la SMP versión 2 consulta.
-
Para el PyTorch FSDP entrenamiento, debes usar la SMP versión 2.
Problemas conocidos
-
Actualmente, los puntos de control de activación solo funcionan con las siguientes políticas de empaquetado. FSDP
-
auto_wrap_policy = functools.partial(transformer_auto_wrap_policy, ...)
-
-
Para poder utilizarlosDescarga de activación, el tipo FSDP de punto de control de activación debe ser. REENTRANT
-
Cuando se ejecuta con el tensor paralelo habilitado con el grado de paralelo de datos fragmentados establecido en
1
, debe usar.backend = nccl
La opciónsmddp
de backend no es compatible en este escenario. -
Es necesario utilizar Transformer Engine
PyTorch con la SMP biblioteca incluso cuando no se utilice el paralelismo tensorial.
Otros cambios
-
A partir de esta versión, la documentación de la biblioteca de paralelismo de SageMaker modelos está totalmente disponible en esta guía para desarrolladores de Amazon SageMaker . A favor de esta guía completa para desarrolladores de la SMP versión 2 en la Guía para SageMaker desarrolladores de Amazon, la referencia adicional para la SMP versión 1.x
en la SDKdocumentación de SageMaker Python está obsoleta. Si aún necesitas la documentación de la versión SMP 1.x, la guía para desarrolladores de la versión 1.x está disponible en Biblioteca de paralelismo de SageMaker modelos v1.x (Archivada) y la referencia de la biblioteca de Python de la versión SMP 1.x está disponible en la documentación de SMP Python de la versión 2.199.0. SageMaker SDK
Obsologaciones
-
Se interrumpió el soporte para. TensorFlow
-
En la versión 2 no se admite el paralelismo entre canalizaciones. SMP
-
No hay soporte para la DeepSpeed biblioteca en favor de la nativa. PyTorch FSDP
SMPContenedor Docker
El equipo de la SMP biblioteca distribuye contenedores Docker en lugar de los contenedores Framework. SageMaker PyTorch Si usa la clase PyTorch estimador en SageMaker Python SDK y especifica la configuración de distribución para usar la SMP v2, recoge SageMaker automáticamente los contenedores de SMP Docker. Para usar esta versión de la versión SMP 2, actualice SageMaker Python SDK a la versión 2.207.0 o posterior.
-
SMPContenedor Docker para la v2.0.1 con la v12.1 PyTorch CUDA
658645717510.dkr.ecr.
us-west-2
.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121