As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Estruturas e tipos Regiões da AWS de instâncias compatíveis
Antes de usar a biblioteca de paralelismo de dados SageMaker distribuídos (SMDDP), verifique quais são as estruturas de ML e os tipos de instância compatíveis e se há cotas suficientes em sua conta e. AWS Região da AWS
Estruturas compatíveis
As tabelas a seguir mostram as estruturas de aprendizado profundo e suas versões compatíveis SageMaker com SMDDP. A biblioteca SMDDP está disponível em SageMaker Framework Containers, integrada em contêineres
nota
Para verificar as atualizações e notas de lançamento mais recentes da biblioteca SMDDP, consulte o. SageMaker notas de lançamento da biblioteca de paralelismo de dados
PyTorch
PyTorch versão | Versão da biblioteca SMDDP | SageMaker Imagens do Framework Container pré-instaladas com SMDDP | Imagens SMP Docker pré-instaladas com SMDDP | URL do arquivo binário** |
---|---|---|---|---|
v2.3.0 | smdistributed-dataparallel==v2.3.0 |
763104351884.dkr.ecr. |
Atualmente não disponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl |
v2.2.0 | smdistributed-dataparallel==v2.2.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl |
v2.1.0 | smdistributed-dataparallel==v2.1.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl |
v2.0.1 | smdistributed-dataparallel==v2.0.1 |
763104351884.dkr.ecr. |
Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl |
v2.0.0 | smdistributed-dataparallel==v1.8.0 |
763104351884.dkr.ecr. |
Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl |
v1.13.1 | smdistributed-dataparallel==v1.7.0 |
763104351884.dkr.ecr. |
Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl |
v1.12.1 | smdistributed-dataparallel==v1.6.0 |
763104351884.dkr.ecr. |
Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl |
v1.12.0 | smdistributed-dataparallel==v1.5.0 |
763104351884.dkr.ecr. |
Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl |
v1.11.0 | smdistributed-dataparallel==v1.4.1 |
763104351884.dkr.ecr. |
Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl |
** Os URLs dos arquivos binários são para instalar a biblioteca SMDDP em contêineres personalizados. Para ter mais informações, consulte Crie seu próprio contêiner Docker com a biblioteca paralela de dados SageMaker distribuídos.
nota
A biblioteca SMDDP está disponível Regiões da AWS onde os SageMaker Framework Containers
nota
A biblioteca SMDDP v1.4.0 e posterior funciona como um back-end do paralelismo de dados distribuído ( PyTorch torch.distributed) (torch.parallel). DistributedDataParalelo). De acordo com a alteração, as seguintes APIs smdistributed para o
-
smdistributed.dataparallel.torch.distributed
está obsoleto. Em vez disso, use o pacote torch.distributed. -
smdistributed.dataparallel.torch.parallel.DistributedDataParallel
está obsoleto. Use o torch.nn.parallel. DistributedDataEm vez disso, API paralela.
Se você precisar usar as versões anteriores da biblioteca (v1.3.0 ou anterior), consulte a documentação arquivada de paralelismo de dados SageMaker distribuídos na documentação
PyTorch Relâmpago
A biblioteca SMDDP está disponível para o PyTorch Lightning nos seguintes contêineres SageMaker Framework PyTorch e SMP Docker.
PyTorch Lightning versão 2
PyTorch Versão Lightning | PyTorch versão | Versão da biblioteca SMDDP | SageMaker Imagens do Framework Container pré-instaladas com SMDDP | Imagens SMP Docker pré-instaladas com SMDDP | URL do arquivo binário** |
---|---|---|---|---|---|
2.2.5 | 2.3.0 | smdistributed-dataparallel==v2.3.0 |
763104351884.dkr.ecr. |
Atualmente não disponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl |
2.2.0 | 2.2.0 | smdistributed-dataparallel==v2.2.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl |
2.1.2 | 2.1.0 | smdistributed-dataparallel==v2.1.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl |
2.1.0 | 2.0.1 | smdistributed-dataparallel==v2.0.1 |
763104351884.dkr.ecr. |
Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl |
PyTorch Lightning versão 1
PyTorch Versão Lightning | PyTorch versão | Versão da biblioteca SMDDP | SageMaker Imagens do Framework Container pré-instaladas com SMDDP | URL do arquivo binário** |
---|---|---|---|---|
1.7.2 1.7.0 1.6.4 1.6.3 1.5.10 |
1.12.0 | smdistributed-dataparallel==v1.5.0 |
763104351884.dkr.ecr.<region> .amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl |
** Os URLs dos arquivos binários são para instalar a biblioteca SMDDP em contêineres personalizados. Para ter mais informações, consulte Crie seu próprio contêiner Docker com a biblioteca paralela de dados SageMaker distribuídos.
nota
PyTorch O Lightning e suas bibliotecas de utilitários, como o Lightning Bolts, não estão pré-instalados nos DLCs. PyTorch Ao criar um SageMaker PyTorch estimador e enviar uma solicitação de trabalho de treinamento na Etapa 2, você precisa fornecer requirements.txt
para instalação pytorch-lightning
e lightning-bolts
no contêiner de SageMaker PyTorch treinamento.
# requirements.txt pytorch-lightning lightning-bolts
Para obter mais informações sobre como especificar o diretório de origem para colocar o requirements.txt
arquivo junto com seu script de treinamento e o envio de um trabalho, consulte Uso de bibliotecas de terceiros na documentação
Transformadores Hugging Face
Os AWS Deep Learning Containers for Hugging Face usam os SageMaker Training Containers para PyTorch e TensorFlow como suas imagens base. Para consultar as versões e as versões emparelhadas da biblioteca Hugging Face Transformers, consulte as versões mais recentes do Hugging Face Containers PyTorch e TensorFlow as versões anteriores do Hugging Face Container
TensorFlow (obsoleto)
Importante
A biblioteca SMDDP interrompeu o suporte TensorFlow e não está mais disponível em DLCs posteriores à versão 2.11.0. TensorFlow A tabela a seguir lista os DLCs anteriores TensorFlow com a biblioteca SMDDP instalada.
TensorFlow versão | Versão da biblioteca SMDDP |
---|---|
2.9.1, 2.10.1, 2.11.0 |
smdistributed-dataparallel==v1.4.1
|
2.8.3 |
smdistributed-dataparallel==v1.3.0
|
Regiões da AWS
A biblioteca SMDDP está disponível em todos os locais em Regiões da AWS que os AWS Deep Learning Containers SageMaker e as
Tipos de instâncias compatíveis
A biblioteca SMDDP exige um dos seguintes tipos de instância.
Tipo de instância |
---|
ml.p3dn.24xlarge * |
ml.p4d.24xlarge |
ml.p4de.24xlarge |
dica
Para executar adequadamente o treinamento distribuído nos tipos de instância habilitados para EFA, você deve habilitar o tráfego entre as instâncias configurando o grupo de segurança da sua VPC para permitir todo o tráfego de entrada e saída de e para o próprio grupo de segurança. Para saber como configurar as regras do grupo de segurança, consulte Etapa 1: Preparar um grupo de segurança habilitado para EFA no Guia do usuário do Amazon EC2.
Importante
* A biblioteca SMDDP interrompeu o suporte para otimizar suas operações de comunicação coletiva em instâncias P3. Embora você ainda possa utilizar o AllReduce
coletivo otimizado SMDDP em ml.p3dn.24xlarge
instâncias, não haverá mais suporte de desenvolvimento para aprimorar o desempenho nesse tipo de instância. Observe que o AllGather
coletivo otimizado para SMDDP só está disponível para instâncias P4.
Para especificações dos tipos de instância, consulte a seção Computação acelerada na página Tipos de instância do Amazon EC2
Se você encontrou uma mensagem de erro semelhante à seguinte, siga as instruções em Solicitar um aumento da cota de serviço para SageMaker recursos.
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.