Marcos admitidos y Regiones de AWS - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Marcos admitidos y Regiones de AWS

Antes de usar la biblioteca de paralelismo de SageMaker modelos, comprueba los marcos y tipos de instancias compatibles y determina si hay suficientes cuotas en tu cuenta y. AWS Región de AWS

nota

Para consultar las últimas actualizaciones y notas de la versión de la biblioteca, consulta las notas de la versión de SageMaker Model Parallel en la documentación del SDK de SageMaker Python.

Marcos admitidos

La biblioteca de SageMaker modelos de paralelismo es compatible con los siguientes marcos de aprendizaje profundo y está disponible en AWS Deep Learning Containers (DLC) o se puede descargar como un archivo binario.

PyTorch versiones compatibles con SageMaker AI y la biblioteca de modelos de paralelismo SageMaker

PyTorch versión SageMaker versión de la biblioteca de paralelismo de modelos URI de imagen DLC integrada smdistributed-modelparallel URL del archivo binario**
v2.0.0 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-2.0.0/build-artifacts/2023-04-14-20-14/smdistributed_modelparallel-1.15.0-cp310-cp310-linux_x86_64.whl
Versión 1.13.1 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.13.1/build-artifacts/2023-04-17-15-49/smdistributed_modelparallel-1.15.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-modelparallel==v1.13.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.1/build-artifacts/2022-12-08-21-34/smdistributed_modelparallel-1.13.0-cp38-cp38-linux_x86_64.whl
Versión 1.12.0 smdistributed-modelparallel==v1.11.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.0/build-artifacts/2022-08-12-16-58/smdistributed_modelparallel-1.11.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-modelparallel==v1.10.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.11.0/build-artifacts/2022-07-11-19-23/smdistributed_modelparallel-1.10.0-cp38-cp38-linux_x86_64.whl
v1.10.2 smdistributed-modelparallel==v1.7.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.2-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.10.0 smdistributed-modelparallel==v1.5.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.0-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.9.1 smdistributed-modelparallel==v1.4.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.9.1-gpu-py38-cu111-ubuntu20.04

-
v1.8.1* smdistributed-modelparallel==v1.6.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.8.1-gpu-py36-cu111-ubuntu18.04

-
nota

La biblioteca de paralelismo de modelos v1.6.0 y versiones posteriores proporciona funciones ampliadas para. SageMaker PyTorch Para obtener más información, consulte Características principales de la biblioteca de paralelismo de SageMaker modelos.

** Los URLs archivos binarios sirven para instalar la biblioteca de paralelismo de SageMaker modelos en contenedores personalizados. Para obtener más información, consulte Cree su propio contenedor Docker con la biblioteca paralela de modelos distribuidos SageMaker .

TensorFlow versiones compatibles con SageMaker AI y la biblioteca de modelos de SageMaker paralelismo

TensorFlow versión SageMaker versión de la biblioteca de paralelismo de modelos URI de imagen DLC integrada smdistributed-modelparallel
v2.6.0 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.6.0-gpu-py38-cu112-ubuntu20.04
v2.5.1 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.5.1-gpu-py37-cu112-ubuntu18.04

Versiones de Hugging Face Transformers SageMaker compatibles con AI y SageMaker la biblioteca paralela de datos distribuidos

Los AWS Deep Learning Containers de Hugging Face utilizan SageMaker los contenedores PyTorch de TensorFlow formación como imágenes base. Para buscar las versiones y versiones PyTorch combinadas de la biblioteca Hugging Face Transformers, consulta las versiones más recientes de Hugging Face Containers TensorFlow y las versiones anteriores de Hugging Face Container.

Regiones de AWS

La biblioteca paralela de SageMaker datos está disponible en todos los Regiones de AWS lugares para los que SageMaker están en servicio los AWS Deep Learning Containers. Para obtener más información, consulte Imágenes de contenedores de aprendizaje profundo disponibles.

Tipos de instancias admitidos

La biblioteca de paralelismo de SageMaker modelos requiere uno de los siguientes tipos de instancias de ML.

Tipo de instancia
ml.g4dn.12xlarge
ml.p3.16xlarge
ml.p3dn.24xlarge
ml.p4d.24xlarge
ml.p4de.24xlarge

Para ver las especificaciones de los tipos de instancias, consulta la sección Computación acelerada en la página de tipos de EC2 instancias de Amazon. Para obtener información sobre los precios de las instancias, consulta Amazon SageMaker AI Pricing.

Si encuentra un mensaje de error similar al siguiente, siga las instrucciones que se indican en Solicitar un aumento de la cuota de servicio para los recursos de SageMaker IA.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.