Estruturas e tipos Regiões da AWS de instâncias compatíveis - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Estruturas e tipos Regiões da AWS de instâncias compatíveis

Antes de usar a biblioteca de paralelismo de dados distribuídos de SageMaker IA (SMDDP), verifique quais são as estruturas de ML e os tipos de instância compatíveis e se há cotas suficientes em sua conta e. AWS Região da AWS

Estruturas compatíveis

As tabelas a seguir mostram as estruturas de aprendizado profundo e suas versões compatíveis com SageMaker IA e SMDDP. A biblioteca SMDDP está disponível nos contêineres do SageMaker AI Framework, integrada aos contêineres do Docker distribuídos pela biblioteca de paralelismo de SageMaker modelos (SMP) v2 ou pode ser baixada como um arquivo binário.

nota

Para verificar as atualizações e notas da versão mais recentes da biblioteca SMDDP, consulte SageMaker Notas de lançamento da biblioteca de paralelismo de dados de IA.

PyTorch

PyTorch versão Versão da biblioteca SMDDP SageMaker Imagens do AI Framework Container pré-instaladas com SMDDP Imagens do Docker SMP pré-instaladas com SMDDP URL do arquivo binário**
v2.3.1 smdistributed-dataparallel==v2.5.0 Indisponível 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed_dataparallel-2.5.0-cp311-cp311-linux_x86_64.whl
v2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker Indisponível no momento https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
v2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
v2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
v2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker Indisponível https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl
v2.0.0 smdistributed-dataparallel==v1.8.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker Indisponível https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-dataparallel==v1.7.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker Indisponível https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-dataparallel==v1.6.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker Indisponível https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker Indisponível https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-dataparallel==v1.4.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker Indisponível https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl

** Os URLs arquivos binários são para instalar a biblioteca SMDDP em contêineres personalizados. Para obter mais informações, consulte Crie seu próprio contêiner Docker com a biblioteca paralela de dados distribuídos de SageMaker IA.

nota

A biblioteca SMDDP está disponível Regiões da AWS onde os contêineres do SageMaker AI Framework e as imagens do SMP Docker estão em serviço.

nota

A biblioteca SMDDP v1.4.0 e posterior funciona como um back-end do paralelismo de dados distribuído ( PyTorch torch.distributed) (torch.parallel). DistributedDataParallel). De acordo com a alteração, os seguintes smdistributes APIs para o pacote PyTorch distribuído foram descontinuados.

Se você precisar usar as versões anteriores da biblioteca (v1.3.0 ou anterior), consulte a documentação arquivada de paralelismo de dados distribuídos de SageMaker IA na documentação do SDK do AI Python. SageMaker

PyTorch Relâmpago

A biblioteca SMDDP está disponível para o PyTorch Lightning nos seguintes contêineres do SageMaker AI Framework PyTorch e nos contêineres SMP Docker.

PyTorch Lightning versão 2

PyTorch Versão Lightning PyTorch versão Versão da biblioteca SMDDP SageMaker Imagens do AI Framework Container pré-instaladas com SMDDP Imagens do Docker SMP pré-instaladas com SMDDP URL do arquivo binário**
2.2.5 2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker Indisponível no momento https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
2.2.0 2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
2.1.2 2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
2.1.0 2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker Indisponível https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl

PyTorch Lightning versão 1

PyTorch Versão Lightning PyTorch versão Versão da biblioteca SMDDP SageMaker Imagens do AI Framework Container pré-instaladas com SMDDP URL do arquivo binário**

1.7.2

1.7.0

1.6.4

1.6.3

1.5.10

1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr. <region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl

** Os URLs arquivos binários são para instalar a biblioteca SMDDP em contêineres personalizados. Para obter mais informações, consulte Crie seu próprio contêiner Docker com a biblioteca paralela de dados distribuídos de SageMaker IA.

nota

PyTorch O Lightning e suas bibliotecas de utilitários, como o Lightning Bolts, não estão pré-instalados no. PyTorch DLCs Ao criar um PyTorch estimador de SageMaker IA e enviar uma solicitação de trabalho de treinamento na Etapa 2, você precisa fornecer requirements.txt para instalação pytorch-lightning e lightning-bolts no contêiner de PyTorch treinamento de SageMaker IA.

# requirements.txt pytorch-lightning lightning-bolts

Para obter mais informações sobre como especificar o diretório de origem para colocar o requirements.txt arquivo junto com seu script de treinamento e o envio de um trabalho, consulte Uso de bibliotecas de terceiros na documentação do Amazon SageMaker AI Python SDK.

Transformadores Hugging Face

Os Contêineres de AWS Deep Learning para Hugging Face usam os Contêineres SageMaker de Treinamento TensorFlow como PyTorch imagens base. Para consultar as versões e as versões emparelhadas da biblioteca Hugging Face Transformers, consulte as versões mais recentes do Hugging Face Containers PyTorch e TensorFlow as versões anteriores do Hugging Face Container.

TensorFlow (obsoleto)

Importante

A biblioteca SMDDP interrompeu o suporte TensorFlow e não está mais disponível para versões TensorFlow posteriores à DLCs v2.11.0. A tabela a seguir lista as versões anteriores DLCs TensorFlow com a biblioteca SMDDP instalada.

TensorFlow versão Versão da biblioteca SMDDP
2.9.1, 2.10.1, 2.11.0 smdistributed-dataparallel==v1.4.1
2.8.3 smdistributed-dataparallel==v1.3.0

Regiões da AWS

A biblioteca SMDDP está disponível em todos os Regiões da AWS lugares em que as imagens do AWS Deep Learning Containers for SageMaker AI e do SMP Docker estão em serviço.

Tipos de instâncias compatíveis

A biblioteca SMDDP exige um dos seguintes tipos de instância:

Tipo de instância
ml.p3dn.24xlarge*
ml.p4d.24xlarge
ml.p4de.24xlarge
dica

Para executar o treinamento distribuído de forma adequada nos tipos de instâncias habilitados para o EFA, você deve habilitar o tráfego entre as instâncias configurando o grupo de segurança de sua VPC para permitir todo o tráfego de entrada e saída de ida e volta para o próprio grupo de segurança. Para saber como configurar as regras do grupo de segurança, consulte Etapa 1: Preparar um grupo de segurança habilitado para EFA no Guia EC2 do usuário da Amazon.

Importante

* A biblioteca SMDDP interrompeu o compatibilidade com otimização de suas operações de comunicação coletiva em instâncias P3. Embora você ainda possa utilizar o coletivo AllReduce otimizado SMDDP em instâncias ml.p3dn.24xlarge, não haverá mais compatibilidade com desenvolvimento para aprimorar o desempenho nesse tipo de instância. Observe que o coletivo AllGather otimizado SMDDP se encontra disponível somente para instâncias P4.

Para especificações dos tipos de instância, consulte a seção Computação acelerada na página Tipos de EC2 instância da Amazon. Para obter informações sobre preços de instâncias, consulte Amazon SageMaker AI Pricing.

Se você encontrou uma mensagem de erro semelhante à seguinte, siga as instruções em Solicitar um aumento da cota de serviço para recursos de SageMaker IA.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.