As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Estruturas e tipos Regiões da AWS de instâncias compatíveis
Antes de usar a biblioteca de paralelismo de dados distribuídos de SageMaker IA (SMDDP), verifique quais são as estruturas de ML e os tipos de instância compatíveis e se há cotas suficientes em sua conta e. AWS Região da AWS
Estruturas compatíveis
As tabelas a seguir mostram as estruturas de aprendizado profundo e suas versões compatíveis com SageMaker IA e SMDDP. A biblioteca SMDDP está disponível nos contêineres do SageMaker AI Framework, integrada aos contêineres
nota
Para verificar as atualizações e notas da versão mais recentes da biblioteca SMDDP, consulte SageMaker Notas de lançamento da biblioteca de paralelismo de dados de IA.
PyTorch
PyTorch versão | Versão da biblioteca SMDDP | SageMaker Imagens do AI Framework Container pré-instaladas com SMDDP | Imagens do Docker SMP pré-instaladas com SMDDP | URL do arquivo binário** |
---|---|---|---|---|
v2.3.1 | smdistributed-dataparallel==v2.5.0 |
Indisponível | 658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed_dataparallel-2.5.0-cp311-cp311-linux_x86_64.whl |
v2.3.0 | smdistributed-dataparallel==v2.3.0 |
763104351884.dkr.ecr. |
Indisponível no momento | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl |
v2.2.0 | smdistributed-dataparallel==v2.2.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl |
v2.1.0 | smdistributed-dataparallel==v2.1.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl |
v2.0.1 | smdistributed-dataparallel==v2.0.1 |
763104351884.dkr.ecr. |
Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl |
v2.0.0 | smdistributed-dataparallel==v1.8.0 |
763104351884.dkr.ecr. |
Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl |
v1.13.1 | smdistributed-dataparallel==v1.7.0 |
763104351884.dkr.ecr. |
Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl |
v1.12.1 | smdistributed-dataparallel==v1.6.0 |
763104351884.dkr.ecr. |
Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl |
v1.12.0 | smdistributed-dataparallel==v1.5.0 |
763104351884.dkr.ecr. |
Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl |
v1.11.0 | smdistributed-dataparallel==v1.4.1 |
763104351884.dkr.ecr. |
Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl |
** Os URLs arquivos binários são para instalar a biblioteca SMDDP em contêineres personalizados. Para obter mais informações, consulte Crie seu próprio contêiner Docker com a biblioteca paralela de dados distribuídos de SageMaker IA.
nota
A biblioteca SMDDP está disponível Regiões da AWS onde os contêineres do SageMaker AI Framework
nota
A biblioteca SMDDP v1.4.0 e posterior funciona como um back-end do paralelismo de dados distribuído ( PyTorch torch.distributed) (torch.parallel). DistributedDataParallel). De acordo com a alteração, os seguintes smdistributes APIs
-
smdistributed.dataparallel.torch.distributed
está obsoleto. Em vez disso, use o pacote torch.distributed. -
smdistributed.dataparallel.torch.parallel.DistributedDataParallel
está obsoleto. Use o torch.nn.parallel. DistributedDataParallelEm vez disso, API.
Se você precisar usar as versões anteriores da biblioteca (v1.3.0 ou anterior), consulte a documentação arquivada de paralelismo de dados distribuídos de SageMaker IA na documentação
PyTorch Relâmpago
A biblioteca SMDDP está disponível para o PyTorch Lightning nos seguintes contêineres do SageMaker AI Framework PyTorch e nos contêineres SMP Docker.
PyTorch Lightning versão 2
PyTorch Versão Lightning | PyTorch versão | Versão da biblioteca SMDDP | SageMaker Imagens do AI Framework Container pré-instaladas com SMDDP | Imagens do Docker SMP pré-instaladas com SMDDP | URL do arquivo binário** |
---|---|---|---|---|---|
2.2.5 | 2.3.0 | smdistributed-dataparallel==v2.3.0 |
763104351884.dkr.ecr. |
Indisponível no momento | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl |
2.2.0 | 2.2.0 | smdistributed-dataparallel==v2.2.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl |
2.1.2 | 2.1.0 | smdistributed-dataparallel==v2.1.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl |
2.1.0 | 2.0.1 | smdistributed-dataparallel==v2.0.1 |
763104351884.dkr.ecr. |
Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl |
PyTorch Lightning versão 1
PyTorch Versão Lightning | PyTorch versão | Versão da biblioteca SMDDP | SageMaker Imagens do AI Framework Container pré-instaladas com SMDDP | URL do arquivo binário** |
---|---|---|---|---|
1.7.2 1.7.0 1.6.4 1.6.3 1.5.10 |
1.12.0 | smdistributed-dataparallel==v1.5.0 |
763104351884.dkr.ecr. <region> .amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl |
** Os URLs arquivos binários são para instalar a biblioteca SMDDP em contêineres personalizados. Para obter mais informações, consulte Crie seu próprio contêiner Docker com a biblioteca paralela de dados distribuídos de SageMaker IA.
nota
PyTorch O Lightning e suas bibliotecas de utilitários, como o Lightning Bolts, não estão pré-instalados no. PyTorch DLCs Ao criar um PyTorch estimador de SageMaker IA e enviar uma solicitação de trabalho de treinamento na Etapa 2, você precisa fornecer requirements.txt
para instalação pytorch-lightning
e lightning-bolts
no contêiner de PyTorch treinamento de SageMaker IA.
# requirements.txt pytorch-lightning lightning-bolts
Para obter mais informações sobre como especificar o diretório de origem para colocar o requirements.txt
arquivo junto com seu script de treinamento e o envio de um trabalho, consulte Uso de bibliotecas de terceiros
Transformadores Hugging Face
Os Contêineres de AWS Deep Learning para Hugging Face usam os Contêineres SageMaker de Treinamento TensorFlow como PyTorch imagens base. Para consultar as versões e as versões emparelhadas da biblioteca Hugging Face Transformers, consulte as versões mais recentes do Hugging Face Containers PyTorch e TensorFlow as versões anteriores do Hugging Face Container
TensorFlow (obsoleto)
Importante
A biblioteca SMDDP interrompeu o suporte TensorFlow e não está mais disponível para versões TensorFlow posteriores à DLCs v2.11.0. A tabela a seguir lista as versões anteriores DLCs TensorFlow com a biblioteca SMDDP instalada.
TensorFlow versão | Versão da biblioteca SMDDP |
---|---|
2.9.1, 2.10.1, 2.11.0 |
smdistributed-dataparallel==v1.4.1
|
2.8.3 |
smdistributed-dataparallel==v1.3.0
|
Regiões da AWS
A biblioteca SMDDP está disponível em todos os Regiões da AWS lugares em que as imagens do AWS Deep Learning Containers for SageMaker AI e do SMP Docker estão em serviço.
Tipos de instâncias compatíveis
A biblioteca SMDDP exige um dos seguintes tipos de instância:
Tipo de instância |
---|
ml.p3dn.24xlarge * |
ml.p4d.24xlarge |
ml.p4de.24xlarge |
dica
Para executar o treinamento distribuído de forma adequada nos tipos de instâncias habilitados para o EFA, você deve habilitar o tráfego entre as instâncias configurando o grupo de segurança de sua VPC para permitir todo o tráfego de entrada e saída de ida e volta para o próprio grupo de segurança. Para saber como configurar as regras do grupo de segurança, consulte Etapa 1: Preparar um grupo de segurança habilitado para EFA no Guia EC2 do usuário da Amazon.
Importante
* A biblioteca SMDDP interrompeu o compatibilidade com otimização de suas operações de comunicação coletiva em instâncias P3. Embora você ainda possa utilizar o coletivo AllReduce
otimizado SMDDP em instâncias ml.p3dn.24xlarge
, não haverá mais compatibilidade com desenvolvimento para aprimorar o desempenho nesse tipo de instância. Observe que o coletivo AllGather
otimizado SMDDP se encontra disponível somente para instâncias P4.
Para especificações dos tipos de instância, consulte a seção Computação acelerada na página Tipos de EC2 instância da Amazon
Se você encontrou uma mensagem de erro semelhante à seguinte, siga as instruções em Solicitar um aumento da cota de serviço para recursos de SageMaker IA.
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.