Frameworks compatíveis e Regiões da AWS - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Frameworks compatíveis e Regiões da AWS

Antes de usar a biblioteca de paralelismo de SageMaker modelos, verifique as estruturas e os tipos de instância compatíveis e determine se há cotas suficientes em sua conta e. AWS Região da AWS

nota

Para verificar as atualizações e notas de lançamento mais recentes da biblioteca, consulte as Notas de versão do SageMaker Model Parallel na documentação do SageMaker Python SDK.

Estruturas compatíveis

A biblioteca de paralelismo de SageMaker modelos oferece suporte às seguintes estruturas de aprendizado profundo e está disponível em AWS Deep Learning Containers (DLC) ou pode ser baixada como um arquivo binário.

PyTorch versões suportadas pela biblioteca SageMaker de SageMaker paralelismo de modelos

PyTorch versão SageMaker versão da biblioteca de paralelismo do modelo smdistributed-modelparallelDLCimagem integrada URI URLdo arquivo binário**
v2.0.0 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-2.0.0/build-artifacts/2023-04-14-20-14/smdistributed_modelparallel-1.15.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.13.1/build-artifacts/2023-04-17-15-49/smdistributed_modelparallel-1.15.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-modelparallel==v1.13.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.1/build-artifacts/2022-12-08-21-34/smdistributed_modelparallel-1.13.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-modelparallel==v1.11.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.0/build-artifacts/2022-08-12-16-58/smdistributed_modelparallel-1.11.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-modelparallel==v1.10.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.11.0/build-artifacts/2022-07-11-19-23/smdistributed_modelparallel-1.10.0-cp38-cp38-linux_x86_64.whl
v1.10.2 smdistributed-modelparallel==v1.7.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.2-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.10.0 smdistributed-modelparallel==v1.5.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.0-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.9.1 smdistributed-modelparallel==v1.4.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.9.1-gpu-py38-cu111-ubuntu20.04

-
v1.8.1* smdistributed-modelparallel==v1.6.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.8.1-gpu-py36-cu111-ubuntu18.04

-
nota

A biblioteca de paralelismo de SageMaker modelos v1.6.0 e versões posteriores fornece recursos estendidos para o. PyTorch Para obter mais informações, consulte Principais características da biblioteca de SageMaker paralelismo de modelos.

** Os URLs arquivos binários são para instalar a biblioteca de paralelismo de SageMaker modelos em contêineres personalizados. Para obter mais informações, consulte Crie seu próprio contêiner Docker com a biblioteca paralela de modelos SageMaker distribuídos.

TensorFlow versões suportadas pela biblioteca SageMaker de SageMaker paralelismo de modelos

TensorFlow versão SageMaker versão da biblioteca de paralelismo do modelo smdistributed-modelparallelDLCimagem integrada URI
v2.6.0 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.6.0-gpu-py38-cu112-ubuntu20.04
v2.5.1 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.5.1-gpu-py37-cu112-ubuntu18.04

Versões do Hugging Face Transformers suportadas pela biblioteca paralela de dados SageMaker distribuídos SageMaker

Os Contêineres de AWS Deep Learning para Hugging Face usam os Contêineres de SageMaker Treinamento para PyTorch e TensorFlow como suas imagens base. Para consultar as versões e as versões emparelhadas da biblioteca Hugging Face Transformers, consulte as versões mais recentes do Hugging Face Containers PyTorch e TensorFlow as versões anteriores do Hugging Face Container.

Regiões da AWS

A biblioteca paralela de SageMaker dados está disponível em todos os locais em Regiões da AWS que os AWS Deep Learning Containers SageMaker estão em serviço. Para obter mais informações, consulte as Imagens disponíveis de contêineres de aprendizado profundo.

Tipos de instâncias compatíveis

A biblioteca de paralelismo de SageMaker modelos exige um dos seguintes tipos de instância de ML.

Tipo de instância
ml.g4dn.12xlarge
ml.p3.16xlarge
ml.p3dn.24xlarge
ml.p4d.24xlarge
ml.p4de.24xlarge

Para especificações dos tipos de instância, consulte a seção Computação acelerada na página Tipos de EC2 instância da Amazon. Para obter informações sobre preços de instâncias, consulte Amazon SageMaker Pricing.

Se você encontrou uma mensagem de erro semelhante à seguinte, siga as instruções em Solicitar um aumento da cota de serviço para SageMaker recursos.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.