Notas de publicación de la biblioteca de paralelismo de SageMaker modelos - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Notas de publicación de la biblioteca de paralelismo de SageMaker modelos

Consulte las siguientes notas de la versión para realizar un seguimiento de las últimas actualizaciones de la biblioteca SageMaker model parallelism (). SMP Si tiene más preguntas sobre la SMP biblioteca, póngase en contacto con el equipo de SMP servicio en. sm-model-parallel-feedback@amazon.com

La biblioteca de SageMaker modelos de paralelismo v2.5.0

Fecha: 28 de agosto de 2024

SMPactualizaciones de la biblioteca

Nuevas características

  • Se agregó soporte para el entrenamiento de precisión mixta utilizando el formato de FP8 datos en instancias P5 para el modelo Mixtral.

  • Se agregó soporte para las siguientes configuraciones de modelos. Paralelismo de contexto

    • Llama-v2:7B y 70B

    • Llama-v3:8B y 70B

    • GPT-NeoX: 20 B

  • Se agregó soporte para guardar los puntos de control de forma asíncrona. Para obtener más información, consulte Compruebe la posición utilizando SMP.

    • Support para guardar puntos de control directamente en S3 sin utilizar Amazon EBS ni servidores de archivos.

Correcciones de errores

  • Se solucionó un problema que provocaba una pérdida inicial inesperadamente elevada durante el ajuste de Llama al cargar un punto de control de un modelo previamente entrenado y utilizar el paralelismo tensorial.

Notas

  • Para utilizar los puntos de control de activación de Mixtral con una precisión FP8 mixta, tendrás que controlar las capas de atención y de experto por separado. Para ver un ejemplo de cómo configurarlo correctamente, consulta el ejemplo de script de entrenamiento en el repositorio de Amazon SageMaker Examples.

Problemas conocidos

  • El tipo de equilibrio de carga equilibrado de la configuración del MoE (torch.sagemaker.moe.moe_config.MoEConfig) no es compatible actualmente con los puntos de control de activación.

  • Con el paralelismo contextual, GPT -NeoX muestra una regresión del rendimiento tanto en el entrenamiento previo como en el ajuste fino.

  • Para instancias de GPT -NeoX en P4, cargar directamente los pesos de un modelo transformado inicializado con parámetros retardados en un modelo de transformador Hugging Face provoca un desajuste de pérdidas en el primer paso.

SMPContenedor Docker

El equipo de la SMP biblioteca distribuye contenedores Docker en lugar de los contenedores Framework. SageMaker PyTorch Si usa la clase PyTorch estimador en SageMaker Python SDK y especifica la configuración de distribución para usar la SMP v2, recoge SageMaker automáticamente los contenedores de SMP Docker. Para usar esta versión de la versión SMP 2, actualice SageMaker Python SDK a la versión 2.224.0 o posterior.

Actualizaciones de divisas

Detalles del contenedor

  • SMPCUDAContenedor Docker para las versiones 2.3.1 y 12.1 PyTorch

    658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121

    Para obtener una lista completa de las regiones admitidas, consulte Regiones de AWS.

  • Paquetes preinstalados

    • La SMP biblioteca v2.5.0

    • La SMDDP biblioteca v2.3.0

    • CUDNNv8.9.7.29

    • FlashAttention v2.5.8

    • TransformerEngine v1.8

    • Megatron v0.7.0

    • Hugging Face Transformers v4.40.1

    • Biblioteca de conjuntos de datos Hugging Face v2.19.0

    • EFAv1.32.0

    • NCCLv2.21.5

SMPCanal Conda

El siguiente bucket de S3 es el canal Conda público de la SMP biblioteca hospedado por el equipo de SMP servicio. Si desea instalar la biblioteca SMP v2 en un entorno de recursos informáticos altamente personalizables, como SageMaker HyperPod clústeres, utilice este canal de Conda para instalar la SMP biblioteca correctamente.

  • https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Para obtener más información sobre los canales de Conda en general, consulte los canales en la documentación de Conda.

La biblioteca de SageMaker modelos de paralelismo v2.4.0

Fecha: 20 de junio de 2024

SMPactualizaciones de la biblioteca

Correcciones de errores

  • Se ha corregido un error que provocaba que las formas logit fueran incorrectas cuando no se pasaban etiquetas en la pasada hacia delante mientras se utilizaba el SMP Transformer.

Actualizaciones de divisas

  • Se agregó soporte para la PyTorch versión 2.3.1.

  • Se agregó soporte para Python v3.11.

  • Se agregó soporte para la biblioteca Hugging Face Transformers v4.40.1.

Depreciaciones

  • Se ha interrumpido el soporte para Python v3.10.

  • Se suspendió el soporte para las versiones de la biblioteca Hugging Face Transformers anteriores a la v4.40.1.

Otros cambios

  • Se ha incluido un parche que permite guardar los tensores deduplicados en diferentes rangos. Para obtener más información, consulta el hilo de discusión en el repositorio. PyTorch GitHub

Problemas conocidos

  • Existe un problema conocido que hace que la pérdida se dispare y luego se reanude a un valor de pérdida más alto al ajustar el Llama-3 70B con paralelismo tensorial.

SMPContenedor Docker

El equipo de la SMP biblioteca distribuye contenedores Docker en lugar de los contenedores Framework. SageMaker PyTorch Si usa la clase PyTorch estimador en SageMaker Python SDK y especifica la configuración de distribución para usar la SMP v2, recoge SageMaker automáticamente los contenedores de SMP Docker. Para usar esta versión de la versión SMP 2, actualice SageMaker Python SDK a la versión 2.224.0 o posterior.

Actualizaciones de divisas

  • Se actualizó la SMDDP biblioteca a la versión 2.3.0.

  • Se actualizó la NCCL biblioteca a la versión 2.21.5.

  • Se actualizó el EFA software a la versión 1.32.0.

Depreciaciones

Detalles del contenedor

  • SMPContenedor Docker para las versiones 2.3.1 y 12.1 PyTorch CUDA

    658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121
  • Paquetes preinstalados

    • La SMP biblioteca v2.4.0

    • La SMDDP biblioteca v2.3.0

    • CUDNNv8.9.7.29

    • FlashAttention v2.3.3

    • TransformerEngine v1.2.1

    • Hugging Face Transformers v4.40.1

    • Biblioteca de conjuntos de datos Hugging Face v2.19.0

    • EFAv1.32.0

    • NCCLv2.21.5

SMPCanal Conda

El siguiente bucket de S3 es el canal Conda público de la SMP biblioteca hospedado por el equipo de SMP servicio. Si desea instalar la biblioteca SMP v2 en un entorno de recursos informáticos altamente personalizables, como SageMaker HyperPod clústeres, utilice este canal de Conda para instalar la SMP biblioteca correctamente.

  • https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Para obtener más información sobre los canales de Conda en general, consulte los canales en la documentación de Conda.

La biblioteca de SageMaker modelos de paralelismo v2.3.1

Fecha: 9 de mayo de 2024

Correcciones de errores

  • Se ha ImportError corregido un error que se producía al usarlo moe_load_balancing=balanced como paralelismo experto. torch.sagemaker.moe.moe_config.MoEConfig

  • Se ha corregido un error de ajuste que provocaba que la torch.sagemaker.transform llamada se emitiera cuando estaba activada. KeyError load_state_dict_from_rank0

  • Se ha corregido un error out-of-memory (OOM) que se producía al cargar modelos de Mixture of Experts (MoE) de gran tamaño, como el Mixtral 8x22B, para realizar ajustes precisos.

SMPContenedor Docker

El equipo de la SMP biblioteca distribuye contenedores Docker en lugar de los contenedores Framework. SageMaker PyTorch Esta versión incorpora las correcciones de errores antes mencionadas en la siguiente imagen de SMP Docker.

  • SMPContenedor Docker para la versión 2.2.0 con la PyTorch versión 12.1 CUDA

    658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121

La biblioteca de modelos de paralelismo v2.3.0 SageMaker

Fecha: 11 de abril de 2024

Nuevas características

  • Se agregó una nueva función principal, el paralelismo experto, para admitir los modelos de transformadores Mixture of Experts. Para obtener más información, consulte Paralelismo experto.

SMPContenedor Docker

El equipo de la SMP biblioteca distribuye contenedores Docker en lugar de los contenedores Framework. SageMaker PyTorch Si usa la clase PyTorch estimador en SageMaker Python SDK y especifica la configuración de distribución para usar la SMP v2, recoge SageMaker automáticamente los contenedores de SMP Docker. Para usar esta versión de la versión SMP 2, actualice SageMaker Python SDK a la versión 2.214.4 o posterior.

  • SMPContenedor Docker para la versión 2.2.0 con la versión 12.1 PyTorch CUDA

    658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
    • Paquetes preinstalados en este contenedor de Docker

      • La SMDDP biblioteca v2.2.0

      • CUDNNv8.9.5.29

      • FlashAttention v2.3.3

      • TransformerEngine v1.2.1

      • Hugging Face Transformers v4.37.1

      • Biblioteca de conjuntos de datos Hugging Face v2.16.1

      • Megatron-Core 0.5.0

      • EFAv1.30.0

      • NCCLv2.19.4

La biblioteca de SageMaker modelos de paralelismo v2.2.0

Fecha: 7 de marzo de 2024

Nuevas funciones

  • Se agregó soporte para el FP8entrenamiento de los siguientes modelos de transformadores Hugging Face en instancias P5 con integración de Transformer Engine:

    • GPT-NeoX

    • Llama 2

Correcciones de errores

  • Se ha corregido un error que impedía garantizar que los tensores fueran contiguos antes de la llamada AllGather colectiva durante el entrenamiento de paralelismo tensorial.

Actualizaciones de divisas

  • Se agregó soporte para la PyTorch versión 2.2.0.

  • Se actualizó la SMDDP biblioteca a la versión 2.2.0.

  • Se actualizó la FlashAttention biblioteca a la versión 2.3.3.

  • Se actualizó la NCCL biblioteca a la versión 2.19.4.

Obsolescencia

  • Se suspendió el soporte para las versiones de Transformer Engine anteriores a la v1.2.0.

Problemas conocidos

  • La SMP Descarga de activación función no funciona actualmente. En su lugar, utilice la descarga de PyTorch activación nativa.

Otros cambios

SMPContenedor Docker

El equipo de la SMP biblioteca distribuye contenedores Docker en lugar de los contenedores Framework. SageMaker PyTorch Si usa la clase PyTorch estimador en SageMaker Python SDK y especifica la configuración de distribución para usar la SMP v2, recoge SageMaker automáticamente los contenedores de SMP Docker. Para usar esta versión de la versión SMP 2, actualice SageMaker Python SDK a la versión 2.212.0 o posterior.

  • SMPContenedor Docker para la versión 2.2.0 con la versión 12.1 PyTorch CUDA

    658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
    • Disponible para instancias P4d, P4de y P5

    • Paquetes preinstalados en este contenedor de Docker

      • La SMDDP biblioteca v2.2.0

      • CUDNNv8.9.5.29

      • FlashAttention v2.3.3

      • TransformerEngine v1.2.1

      • Hugging Face Transformers v4.37.1

      • Biblioteca de conjuntos de datos Hugging Face v2.16.1

      • EFAv1.30.0

      • NCCLv2.19.4

La biblioteca de SageMaker modelos de paralelismo v2.1.0

Fecha: 6 de febrero de 2024

Actualizaciones de divisas

  • Se agregó soporte para la PyTorch versión 2.1.2.

Depreciación

  • Se ha interrumpido el soporte para Hugging Face Transformers v4.31.0.

Problemas conocidos

  • Se descubre un problema que al ajustar el modelo Hugging Face Llama 2 attn_implementation=flash_attention_2 con FSDP y provoca que el modelo diverja. Como referencia, consulta el ticket de publicación en el repositorio de Hugging Face GitHub Transformers. Para evitar el problema de la divergencia, utilice. attn_implementation=sdpa Como alternativa, utilice la implementación del modelo de SMP transformador mediante la configuración. use_smp_implementation=True

SMPContenedor Docker

El equipo de la SMP biblioteca distribuye contenedores Docker en lugar de los contenedores Framework. SageMaker PyTorch Si usa la clase PyTorch estimador en SageMaker Python SDK y especifica la configuración de distribución para usar la SMP v2, recoge SageMaker automáticamente los contenedores de SMP Docker. Para usar esta versión de la versión SMP 2, actualice SageMaker Python SDK a la versión 2.207.0 o posterior.

  • SMPContenedor Docker para la v2.1.2 con la v12.1 PyTorch CUDA

    658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121
    • Disponible para instancias P4d, P4de y P5

    • Paquetes preinstalados en este contenedor de Docker

      • La SMDDP biblioteca v2.1.0

      • CUDNNv8.9.5.29

      • FlashAttention v2.3.3

      • TransformerEngine v1.2.1

      • Hugging Face Transformers v4.37.1

      • Biblioteca de conjuntos de datos Hugging Face v2.16.1

      • EFAv1.30.0

SMPCanal Conda

El siguiente bucket de S3 es un canal público de Conda alojado por el equipo de SMP servicio. Si desea instalar la biblioteca SMP v2 en un entorno de recursos informáticos altamente personalizables, como SageMaker HyperPod clústeres, utilice este canal de Conda para instalar la SMP biblioteca correctamente.

  • https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Para obtener más información sobre los canales de Conda en general, consulte los canales en la documentación de Conda.

La biblioteca de SageMaker modelos de paralelismo v2.0.0

Fecha: 19 de diciembre de 2023

Nuevas características

Publicamos la biblioteca SageMaker model parallelism (SMP), versión 2.0.0, con las siguientes ofertas nuevas.

Cambios importantes

  • SMPLa versión 2 lo renovó por APIs completo y proporciona el torch.sagemaker paquete. Principalmente, solo necesita inicializar con el torch.sagemaker.init() módulo y pasar los parámetros de configuración paralela del modelo. Con este nuevo paquete, puede simplificar considerablemente las modificaciones del código en su guion de entrenamiento. Para obtener más información sobre cómo adaptar su script de entrenamiento para usar la SMP versión 2, consulteUtilice la biblioteca de paralelismo de SageMaker modelos v2.

  • Si has utilizado la SMP versión 1 para entrenar a los modelos de Hugging Face Transformer y quieres reutilizarlos SMP en la versión 2, Actualización de la versión SMP 1 a la SMP versión 2 consulta.

  • Para el PyTorch FSDP entrenamiento, debes usar la SMP versión 2.

Problemas conocidos

  • Actualmente, los puntos de control de activación solo funcionan con las siguientes políticas de empaquetado. FSDP

    • auto_wrap_policy = functools.partial(transformer_auto_wrap_policy, ...)

  • Para poder utilizarlosDescarga de activación, el tipo FSDP de punto de control de activación debe ser. REENTRANT

  • Cuando se ejecuta con el tensor paralelo habilitado con el grado de paralelo de datos fragmentados establecido en1, debe usar. backend = nccl La opción smddp de backend no es compatible en este escenario.

  • Es necesario utilizar Transformer Engine PyTorch con la SMP biblioteca incluso cuando no se utilice el paralelismo tensorial.

Otros cambios

Obsologaciones

  • Se interrumpió el soporte para. TensorFlow

  • En la versión 2 no se admite el paralelismo entre canalizaciones. SMP

  • No hay soporte para la DeepSpeed biblioteca en favor de la nativa. PyTorch FSDP

SMPContenedor Docker

El equipo de la SMP biblioteca distribuye contenedores Docker en lugar de los contenedores Framework. SageMaker PyTorch Si usa la clase PyTorch estimador en SageMaker Python SDK y especifica la configuración de distribución para usar la SMP v2, recoge SageMaker automáticamente los contenedores de SMP Docker. Para usar esta versión de la versión SMP 2, actualice SageMaker Python SDK a la versión 2.207.0 o posterior.

  • SMPContenedor Docker para la v2.0.1 con la v12.1 PyTorch CUDA

    658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121