SMP v2.7.0 SMP v2.6.1 SMP v2.6.0 SMP v2.5.0 SMP v2.4.0 SMP v2.3.1 SMP v2.3.0 SMP v2.2.0 SMP v2.1.0 SMP v2.0.0

Notas de publicación de la biblioteca de paralelismo de SageMaker modelos

Consulte las siguientes notas de la versión para realizar un seguimiento de las últimas actualizaciones de la biblioteca de paralelismo de SageMaker modelos (SMP). Si tiene más preguntas sobre la biblioteca de SMP, póngase en contacto con el equipo de servicio de SMP en sm-model-parallel-feedback@amazon.com.

La SageMaker biblioteca de paralelismo de modelos, versión 2.7.0

Fecha: 4 de diciembre de 2024

Actualizaciones de la biblioteca de SMP

Nuevas características

Se agregó compatibilidad con SageMaker HyperPod recetas.

Contenedor de Docker de SMP

El equipo de la biblioteca SMP distribuye los contenedores Docker y Enroot en lugar de los contenedores Framework. SageMaker PyTorch Si utilizas la clase PyTorch estimador en el SDK de SageMaker Python y especificas la configuración de distribución para usar SMP v2, recogerá SageMaker automáticamente los contenedores Docker de SMP. Para usar esta versión de SMP v2, actualice su SDK de SageMaker Python a una v2.237.0 versión posterior.

Detalles del contenedor

Contenedor SMP Docker para la versión 2.4.1 con la versión 12.1 de PyTorch CUDA
```
658645717510.dkr.ecr.<us-west-2>.smdistributed-modelparallel:2.4.1-gpu-py311-cu121
```

Contenedor SMP Enroot para la versión 2.4.1 con CUDA v12.1 PyTorch


https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.4.1-gpu-py311-cu121.sqsh

Paquetes preinstalados
- La biblioteca SMP v2.7.0
- La biblioteca SMDDP v2.5.0
- CUDNN v9.4.0
- FlashAttention v2.5.8
- TransformerEngine v1.10
- Megatron v0.8.0
- Hugging Face Transformers v4.44.2
- Biblioteca de conjuntos de datos Hugging Face v2.19.0
- EFA v1.32.0
- NCCL v2.21.5

Canal Conda de SMP

El siguiente bucket de S3 es el canal Conda público de la biblioteca de SMP alojado por el equipo de servicio de SMP. Si desea instalar la biblioteca SMP v2 en un entorno Conda, como SageMaker HyperPod clústeres, utilice este canal Conda para instalar correctamente la biblioteca SMP.

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Para obtener más información sobre los canales de Conda en general, consulte Canales en la documentación de Conda.

La SageMaker biblioteca de paralelismo de modelos v2.6.1

Fecha: 31 de octubre de 2024

Actualizaciones de la biblioteca de SMP

Correcciones de errores

Se ha corregido un ImportError problema que se producía al utilizar scripts de entrenamiento antiguos con SMP v2.6.0. Esto corrige la incompatibilidad con versiones anteriores de SMP v2.6.0.
Se agregó un formulario. DeprecationWarning torch.sagemaker.distributed.fsdp.checkpoint Este módulo quedará obsoleto y se eliminará en SMP v2.7.0. Si actualmente lo estás usando torch.sagemaker.distributed.fsdp.checkpoint en tu código, deberías planear actualizar tus scripts antes del lanzamiento de SMP v2.7.0 para evitar problemas en el futuro.
Se ha corregido un problema de compatibilidad con versiones anteriores identificado en la versión 2.6.0 de SMP. Este problema estaba relacionado con la obsolescencia del método de USE_PG_WITH_UTIL puntos de control en la versión 2.6.0 de SMP, lo que impedía la compatibilidad con versiones anteriores de los guiones de entrenamiento. Para resolver este problema, vuelva a ejecutar los trabajos de PyTorch formación y elija el contenedor SMP más reciente incluido en la versión 2.6.1 de SMP.

Contenedor de Docker de SMP

El equipo de la biblioteca SMP distribuye contenedores Docker en lugar de los contenedores Framework. SageMaker PyTorch Si utilizas la clase PyTorch estimador en el SDK de SageMaker Python y especificas la configuración de distribución para usar SMP v2, SageMaker AI recoge automáticamente los contenedores Docker de SMP.

Detalles del contenedor

Contenedor SMP Docker para la versión 2.4.1 con CUDA versión 12.1 PyTorch


658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121

Paquetes preinstalados
- La biblioteca SMP v2.6.1
- La biblioteca SMDDP v2.5.0
- CUDNN v9.4.0
- FlashAttention v2.5.8
- TransformerEngine v1.10
- Megatron v0.8.0
- Hugging Face Transformers v4.44.2
- Biblioteca de conjuntos de datos Hugging Face v2.19.0
- EFA v1.32.0
- NCCL v2.21.5

Canal Conda de SMP

El siguiente bucket de S3 es el canal Conda público de la biblioteca de SMP alojado por el equipo de servicio de SMP. Si desea instalar la biblioteca SMP v2 en un entorno de recursos informáticos altamente personalizables, como SageMaker HyperPod clústeres, utilice este canal de Conda para instalar correctamente la biblioteca SMP.

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Para obtener más información sobre los canales de Conda en general, consulte Canales en la documentación de Conda.

La biblioteca de paralelismo de SageMaker modelos v2.6.0

Fecha: 17 de octubre de 2024

Actualizaciones de la biblioteca de SMP

Nuevas características

Se ha agregado compatibilidad con las siguientes configuraciones del modelo LLM. Puede empezar a usar Paralelismo de contexto y Paralelismo de tensores.
Se ha agregado compatibilidad de Paralelismo de tensores con las siguientes configuraciones del modelo Mixtral.
- Mixtral 8x7B
- Mixtral 8x22B
Se agregó soporte para una implementación de paralelismo contextual AllGather basada en el contexto que utiliza el colectivo de AllGather comunicación para obtener la secuencia completa de tensores. key-and-value Las implementaciones disponibles son p2p y all_gather. La p2p implementación utiliza llamadas de envío y peer-to-peer recepción para acumular tensores key-and-value (KV) durante el cálculo de la atención, lo que se ejecuta de forma asíncrona y permite que la comunicación se superponga con el cálculo. Por otro lado, la implementación de all_gather emplea la operación colectiva de comunicación de AllGather para la acumulación de tensores de KV. Para aprender a aplicar esta implementación del paralelismo contextual, consulte Paralelismo de contexto.
Se ha añadido compatibilidad con el ajuste del valor theta de la incrustación de posición rotatoria (RoPE).

Correcciones de errores

Se ha corregido un error que provocaba que la incrustación de posición rotatoria (RoPE) no se inicializara correctamente durante el entrenamiento previo cuando el parámetro de retardo estaba habilitado.

Problemas conocidos

Actualmente, Transformer Engine no admite el paralelismo de contexto ni tiene habilitada la atención mediante ventanas correderas. FP8 Por lo tanto, la versión SMP de los transformadores Mistral no admite el paralelismo de contexto ni el FP8 entrenamiento cuando la configuración de la ventana deslizante se establece en un valor no nulo.

Contenedor de Docker de SMP

Actualizaciones de divisas

PyTorch Se actualizó a la versión 2.4.1
Se ha actualizado Megatron a v0.8.0
Se actualizó la TransformerEngine biblioteca a la versión 1.10
Se ha actualizado Transformers a v4.44.2
Se ha actualizado cuDNN a v9.4.0.58

Detalles del contenedor

Contenedor SMP Docker para la versión 2.4.1 con la versión 12.1 de CUDA PyTorch


658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121

Paquetes preinstalados
- La biblioteca de SMP v2.6.0
- La biblioteca SMDDP v2.5.0
- CUDNN v9.4.0
- FlashAttention v2.5.8
- TransformerEngine v1.10
- Megatron v0.8.0
- Hugging Face Transformers v4.44.2
- Biblioteca de conjuntos de datos Hugging Face v2.19.0
- EFA v1.32.0
- NCCL v2.21.5

Canal Conda de SMP

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Para obtener más información sobre los canales de Conda en general, consulte Canales en la documentación de Conda.

La biblioteca de paralelismo de SageMaker modelos v2.5.0

Fecha: 28 de agosto de 2024

Actualizaciones de la biblioteca de SMP

Nuevas características

Se agregó soporte para el entrenamiento de precisión mixta utilizando el formato de FP8 datos en instancias P5 para el modelo Mixtral.
- Las configuraciones de Mixtral compatibles son 8x7B y 8x22B. Para obtener más información, consulte Entrenamiento de precisión mixto con FP8 instancias P5 que utilizan Transformer Engine.
Se ha agregado compatibilidad con Paralelismo de contexto para las siguientes configuraciones del modelo.
- Llama-v2: 7B y 70B
- Llama-v3: 8B y 70B
- GPT-NeoX: 20B
Se ha agregado compatibilidad para guardar puntos de comprobación de forma asíncrona. Para obtener más información, consulte Puntos de comprobación mediante SMP.
- Compatibilidad para guardar puntos de comprobación directamente en S3 sin utilizar Amazon EBS ni servidores de archivos.

Correcciones de errores

Se ha solucionado un problema que provocaba una pérdida inicial inesperadamente elevada durante el afinamiento de Llama al cargar un punto de comprobación de un modelo previamente entrenado y utilizar paralelismo de tensores.

Notas

Para utilizar los puntos de control de activación de Mixtral con una precisión FP8 mixta, tendrá que comprobar las capas de atención y de experto por separado. Para ver un ejemplo de cómo configurarlo correctamente, consulta el ejemplo de script de entrenamiento en el repositorio Amazon SageMaker AI Examples.

Problemas conocidos

El tipo de equilibrador de carga equilibrado de la configuración del MoE (torch.sagemaker.moe.moe_config.MoEConfig) no es compatible actualmente con los puntos de comprobación de activación.
Con paralelismo contextual, GPT-NeoX muestra regresión del rendimiento tanto en el entrenamiento previo como en el afinamiento.
Para GPT-NeoX en instancias P4, cargar directamente las ponderaciones de un modelo transformado inicializado con parámetros retardados en un modelo de transformador Hugging Face provoca un desajuste de pérdida en el primer paso.

Contenedor de Docker de SMP

El equipo de la biblioteca SMP distribuye contenedores Docker en lugar de los SageMaker PyTorch contenedores marco. Si utilizas la clase PyTorch estimador en el SDK de SageMaker Python y especificas la configuración de distribución para usar SMP v2, SageMaker AI recoge automáticamente los contenedores Docker de SMP. Para usar esta versión de SMP v2, actualice su SDK de SageMaker Python a la versión 2.224.0 o posterior.

Actualizaciones de divisas

Se actualizó la biblioteca a la versión 2.5.8 FlashAttention
Se ha actualizado la biblioteca Transformer Engine a la v1.8
- Si desea instalar Transformer Engine en un entorno de Conda, debe compilar desde el código fuente y seleccionar cuidadosamente las correcciones iniciales específicas (744624d, 27c6342, 7669bf3).

Detalles del contenedor

Contenedor SMP Docker para la versión 2.3.1 con la versión 12.1 de CUDA PyTorch
```
658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121
```
Para obtener una lista completa de las regiones admitidas, consulte Regiones de AWS.
Paquetes preinstalados
- La biblioteca de SMP v2.5.0
- La biblioteca SMDDP v2.3.0
- CUDNN v8.9.7.29
- FlashAttention v2.5.8
- TransformerEngine v1.8
- Megatron v0.7.0
- Hugging Face Transformers v4.40.1
- Biblioteca de conjuntos de datos Hugging Face v2.19.0
- EFA v1.32.0
- NCCL v2.21.5

Canal Conda de SMP

El siguiente bucket de S3 es el canal Conda público de la biblioteca de SMP alojado por el equipo de servicio de SMP. Si desea instalar la biblioteca SMP v2 en un entorno de recursos informáticos altamente personalizables, como SageMaker HyperPod clústeres, utilice este canal Conda para instalar correctamente la biblioteca SMP.

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Para obtener más información sobre los canales de Conda en general, consulte Canales en la documentación de Conda.

La biblioteca de paralelismo de SageMaker modelos v2.4.0

Fecha: 20 de junio de 2024

Actualizaciones de la biblioteca de SMP

Correcciones de errores

Se ha corregido un error que provocaba que las formas logit fueran incorrectas cuando no se pasaban etiquetas en la propagación hacia delante mientras se utilizaba el transformador de SMP.

Actualizaciones de divisas

Se agregó soporte para la versión 2.3.1. PyTorch
Se ha añadido compatibilidad con Python 3.11.
La biblioteca Hugging Face Transformers v4.40.1 ahora es compatible.

Obsolescencias

Se ha dejado de admitir Python v3.10.
Se han dejado de admitir las versiones de la biblioteca de Hugging Face Transformers anteriores a la v4.40.1.

Otros cambios

Se ha incluido un parche para activar y desactivar el almacenamiento de tensores deduplicados en diferentes rangos. Para obtener más información, consulta el hilo de discusión del PyTorch GitHub repositorio.

Problemas conocidos

Existe un problema conocido que hace que la pérdida se dispare y luego se reanude con un valor de pérdida más alto mientras se afina Llama-3 70B con paralelismo de tensores.

Contenedor de Docker de SMP

El equipo de la biblioteca SMP distribuye los contenedores Docker en lugar de los contenedores del SageMaker PyTorch framework. Si utilizas la clase PyTorch estimador en el SDK de SageMaker Python y especificas la configuración de distribución para usar SMP v2, SageMaker AI recoge automáticamente los contenedores Docker de SMP. Para usar esta versión de SMP v2, actualice su SDK de SageMaker Python a la versión 2.224.0 o posterior.

Actualizaciones de divisas

Se ha actualizado la biblioteca SMDDP a la v2.3.0.
Se ha actualizado la biblioteca NCCL a la v2.21.5.
Se ha actualizado el software EFA a la v1.32.0.

Obsolescencias

Se ha dejado de admitir la instalación de la biblioteca de Torch Distributed Experimental (torchdistX).

Detalles del contenedor

Contenedor SMP Docker para la versión 2.3.1 con la versión 12.1 de CUDA PyTorch


658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121

Paquetes preinstalados
- La biblioteca de SMP v2.4.0
- La biblioteca SMDDP v2.3.0
- CUDNN v8.9.7.29
- FlashAttention v2.3.3
- TransformerEngine v1.2.1
- Hugging Face Transformers v4.40.1
- Biblioteca de conjuntos de datos Hugging Face v2.19.0
- EFA v1.32.0
- NCCL v2.21.5

Canal Conda de SMP

El siguiente bucket de S3 es el canal Conda público de la biblioteca de SMP alojado por el equipo de servicio de SMP. Si desea instalar la biblioteca SMP v2 en un entorno de recursos informáticos altamente personalizables, como SageMaker HyperPod clústeres, utilice este canal Conda para instalar correctamente la biblioteca SMP.

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Para obtener más información sobre los canales de Conda en general, consulte Canales en la documentación de Conda.

La biblioteca de paralelismo de SageMaker modelos v2.3.1

Fecha: 9 de mayo de 2024

Correcciones de errores

Se ha corregido un error de ImportError que se producía al usar moe_load_balancing=balanced en torch.sagemaker.moe.moe_config.MoEConfig para paralelismo experto.
Se ha corregido un error de afinamiento que provocaba que la llamada de torch.sagemaker.transform emitiera KeyError cuando estaba activada load_state_dict_from_rank0.
Se ha corregido un error out-of-memory (OOM) que se producía al cargar modelos grandes de Mixture of Experts (MoE), como el Mixtral 8x22B, para realizar ajustes precisos.

Contenedor de Docker de SMP

El equipo de la biblioteca SMP distribuye contenedores Docker en lugar de los contenedores Framework. SageMaker PyTorch Esta versión incorpora las correcciones de errores mencionadas en la siguiente imagen de Docker de SMP.

Contenedor Docker SMP para la versión 2.2.0 con la versión 12.1 de CUDA PyTorch


658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121

La SageMaker biblioteca de paralelismo de modelos v2.3.0

Fecha: 11 de abril de 2024

Nuevas características

Se ha agregado una nueva característica esencial, paralelismo experto, para admitir modelos de transformador de Mixture of Experts. Para obtener más información, consulte Paralelismo experto.

Contenedor de Docker de SMP

El equipo de la biblioteca SMP distribuye los contenedores Docker en lugar de los contenedores del framework. SageMaker PyTorch Si utilizas la clase PyTorch estimador en el SDK de SageMaker Python y especificas la configuración de distribución para usar SMP v2, recogerá SageMaker automáticamente los contenedores Docker de SMP. Para usar esta versión de SMP v2, actualice su SDK de SageMaker Python a la versión 2.214.4 o posterior.

Contenedor SMP Docker para la versión 2.2.0 con CUDA v12.1 PyTorch
```
658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
```
- Paquetes preinstalados en este contenedor de Docker
  - La biblioteca SMDDP v2.2.0
  - CUDNN v8.9.5.29
  - FlashAttention v2.3.3
  - TransformerEngine v1.2.1
  - Hugging Face Transformers v4.37.1
  - Biblioteca de conjuntos de datos Hugging Face v2.16.1
  - Megatron-core 0.5.0
  - EFA v1.30.0
  - NCCL v2.19.4

La biblioteca de SageMaker modelos de paralelismo v2.2.0

Fecha: 7 de marzo de 2024

Nuevas características

Se agregó soporte para el FP8 entrenamiento de los siguientes modelos de transformadores Hugging Face en instancias P5 con integración de Transformer Engine:
- GPT-NeoX
- Llama 2

Correcciones de errores

Se ha corregido un error que impedía garantizar que los tensores fueran contiguos antes de la llamada colectiva de AllGather durante el entrenamiento de paralelismo de tensores.

Actualizaciones de divisas

Se agregó soporte para PyTorch la versión 2.2.0.
Se ha actualizado la biblioteca SMDDP a la v2.2.0.
Se actualizó la FlashAttention biblioteca a la versión 2.3.3.
Se ha actualizado la biblioteca NCCL a la v2.19.4.

Obsolescencia

Se han dejado de admitir las versiones de Transformer Engine anteriores a la v1.2.0.

Problemas conocidos

La característica Descarga de activación de SMP no funciona actualmente. En su lugar, utilice la descarga PyTorch de activación nativa.

Otros cambios

Se incluyó un parche para corregir la regresión del rendimiento descrita en el hilo de problemas en https://github.com/pytorch/pytorch/issues/117748 en el repositorio. PyTorch GitHub

Contenedor de Docker de SMP

Contenedor SMP Docker para la versión 2.2.0 con CUDA v12.1 PyTorch
```
658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
```
- Disponible para instancias P4d, P4de y P5
- Paquetes preinstalados en este contenedor de Docker
  - La biblioteca SMDDP v2.2.0
  - CUDNN v8.9.5.29
  - FlashAttention v2.3.3
  - TransformerEngine v1.2.1
  - Hugging Face Transformers v4.37.1
  - Biblioteca de conjuntos de datos Hugging Face v2.16.1
  - EFA v1.30.0
  - NCCL v2.19.4

La biblioteca de SageMaker modelos de paralelismo v2.1.0

Fecha: 6 de febrero de 2024

Actualizaciones de divisas

Se agregó soporte para la versión 2.1.2. PyTorch

Obsolescencia

Se ha dejado de admitir Hugging Face Transformers v4.31.0.

Problemas conocidos

Se ha descubierto un problema por el cual el afinamiento del modelo de Hugging Face Llama 2 con attn_implementation=flash_attention_2 y FSDP provoca que el modelo diverja. Como referencia, consulta el ticket de publicación en el repositorio de Hugging Face GitHub Transformers. Para evitar el problema de la divergencia, use attn_implementation=sdpa. Como alternativa, utilice la implementación del modelo de transformador de SMP mediante la configuración de use_smp_implementation=True.

Contenedor de Docker de SMP

El equipo de la biblioteca SMP distribuye contenedores Docker en lugar de los contenedores Framework. SageMaker PyTorch Si utilizas la clase PyTorch estimador en el SDK de SageMaker Python y especificas la configuración de distribución para usar SMP v2, recogerá SageMaker automáticamente los contenedores Docker de SMP. Para usar esta versión de SMP v2, actualice el SDK de SageMaker Python a la versión 2.207.0 o posterior.

Contenedor SMP Docker para la versión 2.1.2 con la versión 12.1 de CUDA PyTorch
```
658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121
```
- Disponible para instancias P4d, P4de y P5
- Paquetes preinstalados en este contenedor de Docker
  - La biblioteca SMDDP v2.1.0
  - CUDNN v8.9.5.29
  - FlashAttention v2.3.3
  - TransformerEngine v1.2.1
  - Hugging Face Transformers v4.37.1
  - Biblioteca de conjuntos de datos Hugging Face v2.16.1
  - EFA v1.30.0

Canal Conda de SMP

El siguiente bucket de S3 es el canal de Conda público alojado por el equipo de servicio de SMP. Si desea instalar la biblioteca SMP v2 en un entorno de recursos informáticos altamente personalizables, como SageMaker HyperPod clústeres, utilice este canal Conda para instalar correctamente la biblioteca SMP.

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Para obtener más información sobre los canales de Conda en general, consulte Canales en la documentación de Conda.

La biblioteca de paralelismo de SageMaker modelos v2.0.0

Fecha: 19 de diciembre de 2023

Nuevas características

Publicó la biblioteca de paralelismo de SageMaker modelos (SMP), versión 2.0.0, con las siguientes ofertas nuevas.

Un nuevo paquete de torch.sagemaker, completamente renovado respecto al paquete de smdistributed.modelparallel.torch anterior en SMP v1.x.
Support para PyTorch 2.0.1.
Support for PyTorch FSDP.
Implementación del paralelismo de tensores mediante la integración con la biblioteca de Transformer Engine.
Support for SageMaker Training y SageMaker HyperPod.

Cambios importantes

SMP v2 lo renovó APIs por completo y proporciona el paquete. torch.sagemaker Principalmente, solo necesita inicializar con el módulo de torch.sagemaker.init() y pasar parámetros de configuración paralela de modelos. Con este nuevo paquete puede simplificar considerablemente las modificaciones de código en el script de entrenamiento. Para obtener más información sobre cómo adaptar su script de entrenamiento para usar SMP v2, consulte Utilice la biblioteca de paralelismo de SageMaker modelos v2.
Si ha utilizado SMP v1 para entrenar modelos de Hugging Face Transformer y quiere reutilizarlos en SMP v2, consulte Actualización de SMP v1 a SMP v2.
Para la formación sobre el PyTorch FSDP, debe utilizar el SMP v2.

Problemas conocidos

Actualmente, los puntos de comprobación de activación solo funcionan con las siguientes políticas de encapsulamiento con FSDP.
- auto_wrap_policy = functools.partial(transformer_auto_wrap_policy, ...)
Para utilizar Descarga de activación, el tipo de punto de comprobación de activación de FSDP debe ser REENTRANT.
Cuando se ejecuta con paralelismo de tensores habilitado con el grado de paralelo de datos particionados establecido en 1, debe usar backend = nccl. La opción de backend de smddp no es compatible en este escenario.
Es necesario utilizar Transformer Engine PyTorch con la biblioteca SMP incluso cuando no se utilice el paralelismo tensorial.

Otros cambios

A partir de esta versión, la documentación de la biblioteca de paralelismo de SageMaker modelos está totalmente disponible en esta guía para desarrolladores de Amazon SageMaker AI. A favor de esta guía completa para desarrolladores de SMP v2 en la Guía para desarrolladores de Amazon SageMaker AI, la referencia adicional para SMP v1.x en la documentación del SDK de SageMaker Python está obsoleta. Si aún necesitas la documentación de SMP v1.x, la guía para desarrolladores de SMP v1.x está disponible en Biblioteca de paralelismo de SageMaker modelos v1.x (Archivada) y la referencia de la biblioteca SMP Python v1.x está disponible en la documentación del SDK de Python v2.199.0. SageMaker

Obsolescencias

TensorFlowSe dejó de ofrecer soporte para.
SMP v2 no admite paralelismo de canalización.
No hay soporte para la DeepSpeed biblioteca a favor del PyTorch FSDP nativo.

Contenedor de Docker de SMP

El equipo de la biblioteca SMP distribuye contenedores Docker en lugar de los contenedores del framework. SageMaker PyTorch Si utilizas la clase PyTorch estimador en el SDK de SageMaker Python y especificas la configuración de distribución para usar SMP v2, SageMaker AI recoge automáticamente los contenedores Docker de SMP. Para usar esta versión de SMP v2, actualice el SDK de SageMaker Python a la versión 2.207.0 o posterior.

Contenedor SMP Docker para la versión 2.0.1 con la versión 12.1 de CUDA PyTorch


658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Referencia de SMP v2

Biblioteca de paralelismo de modelos v1.x (Archivada) SageMaker