

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Marcos y tipos Regiones de AWS de instancias compatibles
<a name="distributed-data-parallel-support"></a>

Antes de usar la biblioteca de paralelismo de datos distribuidos por SageMaker IA (SMDDP), comprueba cuáles son los marcos de aprendizaje automático y los tipos de instancias compatibles y si hay suficientes cuotas en tu cuenta y. AWS Región de AWS

## Marcos admitidos
<a name="distributed-data-parallel-supported-frameworks"></a>

En las tablas siguientes se muestran los marcos de aprendizaje profundo y sus versiones compatibles con la IA y el SMDDP SageMaker . La biblioteca SMDDP está disponible en contenedores [SageMaker AI Framework, integrada en contenedores](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only) [Docker distribuidos por la biblioteca de paralelismo de SageMaker modelos (SMP)](distributed-model-parallel-support-v2.md#distributed-model-parallel-supported-frameworks-v2) v2 o se puede descargar como un archivo binario.

**nota**  
Para ver las últimas actualizaciones y notas de la versión de la biblioteca de SMDDP, consulte las [SageMaker Notas de publicación de la biblioteca de paralelismo de datos de IA](data-parallel-release-notes.md).

**Topics**
+ [PyTorch](#distributed-data-parallel-supported-frameworks-pytorch)
+ [PyTorch Lightning](#distributed-data-parallel-supported-frameworks-lightning)
+ [Hugging Face Transformers](#distributed-data-parallel-supported-frameworks-transformers)
+ [TensorFlow (obsoleto)](#distributed-data-parallel-supported-frameworks-tensorflow)

### PyTorch
<a name="distributed-data-parallel-supported-frameworks-pytorch"></a>


| PyTorch versión | Versión de la biblioteca de SMDDP | SageMaker Imágenes de AI Framework Container preinstaladas con SMDDP | Imágenes de Docker de SMP preinstaladas con SMDDP | URL del archivo binario\$1\$1 | 
| --- | --- | --- | --- | --- | 
| v2.3.1 | smdistributed-dataparallel==v2.5.0 | No disponible | 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed\$1dataparallel-2.5.0-cp311-cp311-linux\$1x86\$164.whl | 
| v2.3.0 | smdistributed-dataparallel==v2.3.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker | No disponible actualmente | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed\$1dataparallel-2.3.0-cp311-cp311-linux\$1x86\$164.whl | 
| v2.2.0 | smdistributed-dataparallel==v2.2.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed\$1dataparallel-2.2.0-cp310-cp310-linux\$1x86\$164.whl | 
| v2.1.0 | smdistributed-dataparallel==v2.1.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed\$1dataparallel-2.1.0-cp310-cp310-linux\$1x86\$164.whl | 
| v2.0.1 | smdistributed-dataparallel==v2.0.1 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker | No disponible | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed\$1dataparallel-2.0.2-cp310-cp310-linux\$1x86\$164.whl | 
| v2.0.0 | smdistributed-dataparallel==v1.8.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker | No disponible | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed\$1dataparallel-1.8.0-cp310-cp310-linux\$1x86\$164.whl | 
| Versión 1.13.1 | smdistributed-dataparallel==v1.7.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker | No disponible | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed\$1dataparallel-1.7.0-cp39-cp39-linux\$1x86\$164.whl | 
| v1.12.1 | smdistributed-dataparallel==v1.6.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker | No disponible | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed\$1dataparallel-1.6.0-cp38-cp38-linux\$1x86\$164.whl | 
| Versión 1.12.0 | smdistributed-dataparallel==v1.5.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker | No disponible | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed\$1dataparallel-1.5.0-cp38-cp38-linux\$1x86\$164.whl | 
| v1.11.0 | smdistributed-dataparallel==v1.4.1 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker | No disponible | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed\$1dataparallel-1.4.1-cp38-cp38-linux\$1x86\$164.whl | 

\$1\$1 Los URLs archivos binarios son para instalar la biblioteca SMDDP en contenedores personalizados. Para obtener más información, consulte [Cree su propio contenedor Docker con la biblioteca paralela de datos distribuidos de SageMaker IA](data-parallel-bring-your-own-container.md).

**nota**  
La biblioteca SMDDP está disponible Regiones de AWS donde están en servicio los [contenedores de SageMaker AI Framework](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only) y las imágenes de [Docker SMP](distributed-model-parallel-support-v2.md).

**nota**  
La biblioteca SMDDP, versión 1.4.0 y versiones posteriores, funciona como un servidor de paralelismo de datos distribuidos (torch.distributed) (torch.parallel). PyTorch DistributedDataParallel). De acuerdo con el cambio, el siguiente [smdistributed APIs](https://sagemaker.readthedocs.io/en/stable/api/training/sdp_versions/latest/smd_data_parallel_pytorch.html#pytorch-api) para el paquete PyTorch distribuido ha quedado obsoleto.  
`smdistributed.dataparallel.torch.distributed` está en desuso. Utilice el paquete [torch.distributed](https://pytorch.org/docs/stable/distributed.html) en su lugar.
`smdistributed.dataparallel.torch.parallel.DistributedDataParallel` está en desuso. [Usa torch.nn.parallel. DistributedDataParallel](https://pytorch.org/docs/stable/generated/torch.nn.parallel.DistributedDataParallel.html) API en su lugar.
*Si necesitas usar las versiones anteriores de la biblioteca (v1.3.0 o anteriores), consulta la documentación [archivada sobre el paralelismo de datos distribuidos de SageMaker IA en la documentación](https://sagemaker.readthedocs.io/en/stable/api/training/sdp_versions/latest.html#documentation-archive) del SDK de Python para IA. SageMaker *

### PyTorch Lightning
<a name="distributed-data-parallel-supported-frameworks-lightning"></a>

La biblioteca SMDDP está disponible para PyTorch Lightning en los siguientes contenedores de SageMaker AI Framework PyTorch y en los contenedores SMP Docker.

**PyTorch Lightning v2**


| PyTorch Versión Lightning | PyTorch versión | Versión de la biblioteca de SMDDP | SageMaker Imágenes de AI Framework Container preinstaladas con SMDDP | Imágenes de Docker de SMP preinstaladas con SMDDP | URL del archivo binario\$1\$1 | 
| --- | --- | --- | --- | --- | --- | 
| 2.2.5 | 2.3.0 | smdistributed-dataparallel==v2.3.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker | No disponible actualmente | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed\$1dataparallel-2.3.0-cp311-cp311-linux\$1x86\$164.whl | 
| 2.2.0 | 2.2.0 | smdistributed-dataparallel==v2.2.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed\$1dataparallel-2.2.0-cp310-cp310-linux\$1x86\$164.whl | 
| 2.1.2 | 2.1.0 | smdistributed-dataparallel==v2.1.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed\$1dataparallel-2.1.0-cp310-cp310-linux\$1x86\$164.whl | 
| 2.1.0 | 2.0.1 | smdistributed-dataparallel==v2.0.1 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker | No disponible | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed\$1dataparallel-2.0.2-cp310-cp310-linux\$1x86\$164.whl | 

**PyTorch Lightning v1**


| PyTorch Versión Lightning | PyTorch versión | Versión de la biblioteca de SMDDP | SageMaker Imágenes de AI Framework Container preinstaladas con SMDDP | URL del archivo binario\$1\$1 | 
| --- | --- | --- | --- | --- | 
|  1.7.2 1.7.0 1.6.4 1.6.3 1.5.10  | 1.12.0 | smdistributed-dataparallel==v1.5.0 | 763104351884.dkr.ecr. <region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed\$1dataparallel-1.5.0-cp38-cp38-linux\$1x86\$164.whl | 

\$1\$1 Los archivos binarios son para instalar la biblioteca SMDDP en contenedores personalizados. URLs Para obtener más información, consulte [Cree su propio contenedor Docker con la biblioteca paralela de datos distribuidos de SageMaker IA](data-parallel-bring-your-own-container.md).

**nota**  
PyTorch Lightning y sus bibliotecas de utilidades, como Lightning Bolts, no vienen preinstaladas en el. PyTorch DLCs Cuando crees un PyTorch estimador de SageMaker IA y envíes una solicitud de trabajo de formación en el [paso 2](https://docs.aws.amazon.com/sagemaker/latest/dg/data-parallel-use-api.html#data-parallel-framework-estimator), tendrás que proporcionarlo para instalarlo `pytorch-lightning` e `requirements.txt` incluirlo `lightning-bolts` en el contenedor de formación sobre SageMaker IA PyTorch.  

```
# requirements.txt
pytorch-lightning
lightning-bolts
```
Para obtener más información sobre cómo especificar el directorio de origen para colocar el `requirements.txt` archivo junto con el guion de entrenamiento y el envío de un trabajo, consulte [Uso de bibliotecas de terceros](https://sagemaker.readthedocs.io/en/stable/frameworks/pytorch/using_pytorch.html#id12) en la *documentación del SDK de Python de Amazon SageMaker AI*.

### Hugging Face Transformers
<a name="distributed-data-parallel-supported-frameworks-transformers"></a>

Los AWS Deep Learning Containers de Hugging Face utilizan SageMaker los contenedores PyTorch de TensorFlow formación como imágenes base. Para buscar las versiones y versiones PyTorch combinadas de la biblioteca Hugging Face Transformers, consulta las versiones más recientes de [Hugging Face Containers TensorFlow y las versiones anteriores de Hugging](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#huggingface-training-containers) [Face Container](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#prior-hugging-face-container-versions).

### TensorFlow (obsoleto)
<a name="distributed-data-parallel-supported-frameworks-tensorflow"></a>

**importante**  
La biblioteca SMDDP dejó de ofrecer soporte para la versión TensorFlow 2.11.0 y ya no estará disponible a partir de DLCs esa fecha TensorFlow . En la siguiente tabla se enumeran las versiones anteriores TensorFlow con la biblioteca DLCs SMDDP instalada.


| TensorFlow versión | Versión de la biblioteca de SMDDP | 
| --- | --- | 
| 2.9.1, 2.10.1, 2.11.0 |  smdistributed-dataparallel==v1.4.1  | 
| 2.8.3 |  smdistributed-dataparallel==v1.3.0  | 

## Regiones de AWS
<a name="distributed-data-parallel-availablity-zone"></a>

La biblioteca SMDDP está disponible en todos los Regiones de AWS lugares donde estén en servicio los [AWS Deep Learning Containers for SageMaker AI](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only) y las [imágenes SMP Docker](distributed-model-parallel-support-v2.md).

## Tipos de instancias admitidas
<a name="distributed-data-parallel-supported-instance-types"></a>

La biblioteca de SMDDP requiere uno de los siguientes tipos de instancia.


| Tipo de instancia | 
| --- | 
| ml.p3dn.24xlarge\$1 | 
| ml.p4d.24xlarge | 
| ml.p4de.24xlarge | 

**sugerencia**  
Para ejecutar correctamente entrenamiento distribuido en los tipos de instancia habilitadas para EFA, debe habilitar tráfico entre las instancias mediante la configuración del grupo de seguridad de su VPC que permita todo el tráfico entrante y saliente hacia y desde el propio grupo de seguridad. Para obtener información sobre cómo configurar reglas de grupo de seguridad, consulte [Paso 1: preparar un grupo de seguridad habilitado para EFA](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/efa-start.html#efa-start-security) en la *Guía del usuario de Amazon EC2*.

**importante**  
\$1 Se ha dejado de admitir la biblioteca de SMDDP para la optimización de sus operaciones de comunicación colectiva en las instancias P3. Si bien puede seguir utilizando el colectivo `AllReduce` optimizado para SMDDP en instancias de `ml.p3dn.24xlarge`, no habrá más compatibilidad de desarrollo para mejorar el rendimiento en este tipo de instancias. Tenga en cuenta que el colectivo `AllGather` optimizado para SMDDP solo está disponible para instancias P4.

Para ver las especificaciones de los tipos de instancias, consulte la sección **Computación acelerada** en la [página de tipos de instancias de Amazon EC2](https://aws.amazon.com/ec2/instance-types/). Para obtener información sobre los precios de las instancias, consulta [Amazon SageMaker Pricing](https://aws.amazon.com/sagemaker/pricing/).

Si te aparece un mensaje de error similar al siguiente, sigue las instrucciones que se indican en [Solicitar un aumento de la cuota de servicio para los recursos de SageMaker IA](https://docs.aws.amazon.com/sagemaker/latest/dg/regions-quotas.html#service-limit-increase-request-procedure).

```
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling
the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge
for training job usage' is 0 Instances, with current utilization of 0 Instances
and a request delta of 1 Instances.
Please contact AWS support to request an increase for this limit.
```