

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Estruturas e tipos Regiões da AWS de instâncias compatíveis
<a name="distributed-data-parallel-support"></a>

Antes de usar a biblioteca de paralelismo de dados distribuídos de SageMaker IA (SMDDP), verifique quais são as estruturas de ML e os tipos de instância compatíveis e se há cotas suficientes em sua conta e. AWS Região da AWS

## Frameworks compatíveis
<a name="distributed-data-parallel-supported-frameworks"></a>

As tabelas a seguir mostram as estruturas de aprendizado profundo e suas versões compatíveis com SageMaker IA e SMDDP. A biblioteca SMDDP está disponível nos contêineres do [SageMaker AI Framework, integrada aos contêineres](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only) do [Docker distribuídos pela biblioteca de paralelismo de SageMaker modelos (SMP) v2](distributed-model-parallel-support-v2.md#distributed-model-parallel-supported-frameworks-v2) ou pode ser baixada como um arquivo binário.

**nota**  
Para verificar as atualizações e notas da versão mais recentes da biblioteca SMDDP, consulte [SageMaker Notas de lançamento da biblioteca de paralelismo de dados de IA](data-parallel-release-notes.md).

**Topics**
+ [PyTorch](#distributed-data-parallel-supported-frameworks-pytorch)
+ [PyTorch Relâmpago](#distributed-data-parallel-supported-frameworks-lightning)
+ [Transformadores Hugging Face](#distributed-data-parallel-supported-frameworks-transformers)
+ [TensorFlow (obsoleto)](#distributed-data-parallel-supported-frameworks-tensorflow)

### PyTorch
<a name="distributed-data-parallel-supported-frameworks-pytorch"></a>


| PyTorch versão | Versão da biblioteca SMDDP | SageMaker Imagens do AI Framework Container pré-instaladas com SMDDP | Imagens do Docker da SMP pré-instaladas com a SMDDP | URL do arquivo binário\$1\$1 | 
| --- | --- | --- | --- | --- | 
| v2.3.1 | smdistributed-dataparallel==v2.5.0 | Indisponível | 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed\$1dataparallel-2.5.0-cp311-cp311-linux\$1x86\$164.whl | 
| v2.3.0 | smdistributed-dataparallel==v2.3.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker | Indisponível no momento | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed\$1dataparallel-2.3.0-cp311-cp311-linux\$1x86\$164.whl | 
| v2.2.0 | smdistributed-dataparallel==v2.2.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed\$1dataparallel-2.2.0-cp310-cp310-linux\$1x86\$164.whl | 
| v2.1.0 | smdistributed-dataparallel==v2.1.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed\$1dataparallel-2.1.0-cp310-cp310-linux\$1x86\$164.whl | 
| v2.0.1 | smdistributed-dataparallel==v2.0.1 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker | Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed\$1dataparallel-2.0.2-cp310-cp310-linux\$1x86\$164.whl | 
| v2.0.0 | smdistributed-dataparallel==v1.8.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker | Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed\$1dataparallel-1.8.0-cp310-cp310-linux\$1x86\$164.whl | 
| v1.13.1 | smdistributed-dataparallel==v1.7.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker | Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed\$1dataparallel-1.7.0-cp39-cp39-linux\$1x86\$164.whl | 
| v1.12.1 | smdistributed-dataparallel==v1.6.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker | Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed\$1dataparallel-1.6.0-cp38-cp38-linux\$1x86\$164.whl | 
| v1.12.0 | smdistributed-dataparallel==v1.5.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker | Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed\$1dataparallel-1.5.0-cp38-cp38-linux\$1x86\$164.whl | 
| v1.11.0 | smdistributed-dataparallel==v1.4.1 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker | Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed\$1dataparallel-1.4.1-cp38-cp38-linux\$1x86\$164.whl | 

\$1\$1 Os URLs arquivos binários são para instalar a biblioteca SMDDP em contêineres personalizados. Para obter mais informações, consulte [Crie seu próprio contêiner Docker com a biblioteca paralela de dados distribuídos de SageMaker IA](data-parallel-bring-your-own-container.md).

**nota**  
A biblioteca SMDDP está disponível Regiões da AWS onde os [contêineres do SageMaker AI Framework](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only) e as [imagens do SMP Docker](distributed-model-parallel-support-v2.md) estão em serviço.

**nota**  
A biblioteca SMDDP v1.4.0 e posterior funciona como um back-end do paralelismo de dados distribuído ( PyTorch torch.distributed) (torch.parallel). DistributedDataParallel). De acordo com a alteração, os seguintes [smdistributes APIs](https://sagemaker.readthedocs.io/en/stable/api/training/sdp_versions/latest/smd_data_parallel_pytorch.html#pytorch-api) para o pacote PyTorch distribuído foram descontinuados.  
`smdistributed.dataparallel.torch.distributed` está obsoleto. Em vez disso, use o [pacote torch.distributed.](https://pytorch.org/docs/stable/distributed.html)
`smdistributed.dataparallel.torch.parallel.DistributedDataParallel` está obsoleto. Use o [torch.nn.parallel. DistributedDataParallel](https://pytorch.org/docs/stable/generated/torch.nn.parallel.DistributedDataParallel.html) Em vez disso, API.
*Se você precisar usar as versões anteriores da biblioteca (v1.3.0 ou anterior), consulte a documentação [arquivada de paralelismo de dados distribuídos de SageMaker IA na documentação](https://sagemaker.readthedocs.io/en/stable/api/training/sdp_versions/latest.html#documentation-archive) do SDK do AI Python. SageMaker *

### PyTorch Relâmpago
<a name="distributed-data-parallel-supported-frameworks-lightning"></a>

A biblioteca SMDDP está disponível para o PyTorch Lightning nos seguintes contêineres do SageMaker AI Framework PyTorch e nos contêineres SMP Docker.

**PyTorch Lightning versão 2**


| PyTorch Versão Lightning | PyTorch versão | Versão da biblioteca SMDDP | SageMaker Imagens do AI Framework Container pré-instaladas com SMDDP | Imagens do Docker da SMP pré-instaladas com a SMDDP | URL do arquivo binário\$1\$1 | 
| --- | --- | --- | --- | --- | --- | 
| 2.2.5 | 2.3.0 | smdistributed-dataparallel==v2.3.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker | Indisponível no momento | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed\$1dataparallel-2.3.0-cp311-cp311-linux\$1x86\$164.whl | 
| 2.2.0 | 2.2.0 | smdistributed-dataparallel==v2.2.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed\$1dataparallel-2.2.0-cp310-cp310-linux\$1x86\$164.whl | 
| 2.1.2 | 2.1.0 | smdistributed-dataparallel==v2.1.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed\$1dataparallel-2.1.0-cp310-cp310-linux\$1x86\$164.whl | 
| 2.1.0 | 2.0.1 | smdistributed-dataparallel==v2.0.1 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker | Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed\$1dataparallel-2.0.2-cp310-cp310-linux\$1x86\$164.whl | 

**PyTorch Lightning versão 1**


| PyTorch Versão Lightning | PyTorch versão | Versão da biblioteca SMDDP | SageMaker Imagens do AI Framework Container pré-instaladas com SMDDP | URL do arquivo binário\$1\$1 | 
| --- | --- | --- | --- | --- | 
|  1.7.2 1.7.0 1.6.4 1.6.3 1.5.10  | 1.12.0 | smdistributed-dataparallel==v1.5.0 | 763104351884.dkr.ecr. <region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed\$1dataparallel-1.5.0-cp38-cp38-linux\$1x86\$164.whl | 

\$1\$1 Os URLs arquivos binários são para instalar a biblioteca SMDDP em contêineres personalizados. Para obter mais informações, consulte [Crie seu próprio contêiner Docker com a biblioteca paralela de dados distribuídos de SageMaker IA](data-parallel-bring-your-own-container.md).

**nota**  
PyTorch O Lightning e suas bibliotecas de utilitários, como o Lightning Bolts, não estão pré-instalados no. PyTorch DLCs Ao criar um PyTorch estimador de SageMaker IA e enviar uma solicitação de trabalho de treinamento na [Etapa 2](https://docs.aws.amazon.com/sagemaker/latest/dg/data-parallel-use-api.html#data-parallel-framework-estimator), você precisa fornecer `requirements.txt` para instalação `pytorch-lightning` e `lightning-bolts` no contêiner de PyTorch treinamento de SageMaker IA.  

```
# requirements.txt
pytorch-lightning
lightning-bolts
```
Para obter mais informações sobre como especificar o diretório de origem para colocar o `requirements.txt` arquivo junto com seu script de treinamento e o envio de um trabalho, consulte [Uso de bibliotecas de terceiros](https://sagemaker.readthedocs.io/en/stable/frameworks/pytorch/using_pytorch.html#id12) na documentação do *Amazon SageMaker AI Python SDK*.

### Transformadores Hugging Face
<a name="distributed-data-parallel-supported-frameworks-transformers"></a>

Os Contêineres de AWS Deep Learning para Hugging Face usam os Contêineres SageMaker de Treinamento TensorFlow como PyTorch imagens base. [Para consultar as versões e as versões emparelhadas da biblioteca Hugging Face Transformers, consulte as versões mais recentes do Hugging Face Containers PyTorch e TensorFlow as versões anteriores do [Hugging Face Container](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#huggingface-training-containers).](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#prior-hugging-face-container-versions)

### TensorFlow (obsoleto)
<a name="distributed-data-parallel-supported-frameworks-tensorflow"></a>

**Importante**  
A biblioteca SMDDP interrompeu o suporte TensorFlow e não está mais disponível para versões TensorFlow posteriores à DLCs v2.11.0. A tabela a seguir lista as versões anteriores DLCs TensorFlow com a biblioteca SMDDP instalada.


| TensorFlow versão | Versão da biblioteca SMDDP | 
| --- | --- | 
| 2.9.1, 2.10.1, 2.11.0 |  smdistributed-dataparallel==v1.4.1  | 
| 2.8.3 |  smdistributed-dataparallel==v1.3.0  | 

## Regiões da AWS
<a name="distributed-data-parallel-availablity-zone"></a>

A biblioteca SMDDP está disponível em todos os Regiões da AWS lugares em que as [imagens do [AWS Deep Learning Containers for SageMaker AI](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only) e do SMP Docker](distributed-model-parallel-support-v2.md) estão em serviço.

## Tipos de instâncias compatíveis
<a name="distributed-data-parallel-supported-instance-types"></a>

A biblioteca SMDDP exige um dos seguintes tipos de instância:


| Tipo de instância | 
| --- | 
| ml.p3dn.24xlarge\$1 | 
| ml.p4d.24xlarge | 
| ml.p4de.24xlarge | 

**dica**  
Para executar o treinamento distribuído de forma adequada nos tipos de instâncias habilitados para o EFA, você deve habilitar o tráfego entre as instâncias configurando o grupo de segurança de sua VPC para permitir todo o tráfego de entrada e saída de ida e volta para o próprio grupo de segurança. Para saber como configurar as regras do grupo de segurança, consulte [Etapa 1: preparar um grupo de segurança habilitado para EFA](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/efa-start.html#efa-start-security) no *Guia do usuário do Amazon EC2*.

**Importante**  
\$1 A biblioteca SMDDP interrompeu o compatibilidade com otimização de suas operações de comunicação coletiva em instâncias P3. Embora você ainda possa utilizar o coletivo `AllReduce` otimizado SMDDP em instâncias `ml.p3dn.24xlarge`, não haverá mais compatibilidade com desenvolvimento para aprimorar o desempenho nesse tipo de instância. Observe que o coletivo `AllGather` otimizado SMDDP se encontra disponível somente para instâncias P4.

Para especificações dos tipos de instância, consulte a seção **Computação acelerada** na [página Tipos de instância do Amazon EC2](https://aws.amazon.com/ec2/instance-types/). Para obter informações sobre preços de instâncias, consulte [Amazon SageMaker Pricing](https://aws.amazon.com/sagemaker/pricing/).

Se você encontrou uma mensagem de erro semelhante à seguinte, siga as instruções em [Solicitar um aumento da cota de serviço para recursos de SageMaker IA](https://docs.aws.amazon.com/sagemaker/latest/dg/regions-quotas.html#service-limit-increase-request-procedure).

```
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling
the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge
for training job usage' is 0 Instances, with current utilization of 0 Instances
and a request delta of 1 Instances.
Please contact AWS support to request an increase for this limit.
```