Marcos admitidos y Regiones de AWS - Amazon SageMaker

Marcos admitidos y Regiones de AWS

Antes de utilizar la biblioteca de paralelismo de modelos de SageMaker, compruebe los marcos y tipos de instancias compatibles y determine si hay suficientes cuotas en su cuenta de AWS y en Región de AWS.

nota

Para consultar las últimas actualizaciones y notas de la versión de la biblioteca, consulte las notas de la versión de Notas de la versión paralela del modelo SageMaker en la documentación del SageMaker Python SDK.

Marcos admitidos

La biblioteca de paralelismo de modelos de SageMaker es compatible con los siguientes marcos de aprendizaje profundo y está disponible en los contenedores de aprendizaje profundo (DLC) de AWS o bien es posible descargarlo como un archivo binario.

Versiones de PyTorch compatibles con SageMaker y la biblioteca de paralelismo de modelos SageMaker

Versión PyTorch Versión de la biblioteca de paralelismo de modelos de SageMaker URI de imagen DLC integrada smdistributed-modelparallel URL del archivo binario**
v2.0.0 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-2.0.0/build-artifacts/2023-04-14-20-14/smdistributed_modelparallel-1.15.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.13.1/build-artifacts/2023-04-17-15-49/smdistributed_modelparallel-1.15.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-modelparallel==v1.13.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.1/build-artifacts/2022-12-08-21-34/smdistributed_modelparallel-1.13.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-modelparallel==v1.11.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.0/build-artifacts/2022-08-12-16-58/smdistributed_modelparallel-1.11.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-modelparallel==v1.10.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.11.0/build-artifacts/2022-07-11-19-23/smdistributed_modelparallel-1.10.0-cp38-cp38-linux_x86_64.whl
v1.10.2 smdistributed-modelparallel==v1.7.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.2-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.10.0 smdistributed-modelparallel==v1.5.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.0-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.9.1 smdistributed-modelparallel==v1.4.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.9.1-gpu-py38-cu111-ubuntu20.04

-
v1.8.1* smdistributed-modelparallel==v1.6.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.8.1-gpu-py36-cu111-ubuntu18.04

-
nota

La biblioteca de paralelismo de modelos de SageMaker v1.6.0 y versiones posteriores proporciona funciones ampliadas para PyTorch. Para obtener más información, consulte Características principales de la biblioteca de paralelismo de modelos de SageMaker.

** Las direcciones URL de los archivos binarios sirven para instalar la biblioteca de paralelismo de modelos de SageMaker en contenedores personalizados. Para obtener más información, consulte Cree su propio contenedor de Docker con la biblioteca de paralelismo de modelos distribuidos de SageMaker.

Versiones de TensorFlow compatibles con SageMaker y la biblioteca de paralelismo de modelos SageMaker

TensorFlow, versión 1.12 Versión de la biblioteca de paralelismo de modelos de SageMaker URI de imagen DLC integrada smdistributed-modelparallel
v2.6.0 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.6.0-gpu-py38-cu112-ubuntu20.04
v2.5.1 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.5.1-gpu-py37-cu112-ubuntu18.04

Versiones de Hugging Face Transformers compatibles con SageMaker y la biblioteca de paralelismo de datos distribuidos SageMaker

Los contenedores de aprendizaje profundo de AWS de Hugging Face utilizan los contenedores de entrenamiento de SageMaker para PyTorch y TensorFlow como imágenes base. Para buscar las versiones de la biblioteca Hugging Face Transformers y las versiones emparejadas de PyTorch y TensorFlow, consulte las versiones más recientes de los contenedores de Hugging Face y las versiones anteriores de los contenedores de Hugging Face.

Regiones de AWS

La biblioteca de paralelismo de datos de SageMaker está disponible en todos los sitios en los que los contenedores de aprendizaje profundo de AWS para SageMaker están en funcionamiento. Para obtener más información, consulte Imágenes de contenedores de aprendizaje profundo disponibles.

Tipos de instancias admitidos

La biblioteca de paralelismo de modelos de SageMaker requiere uno de los siguientes tipos de instancias de machine learning.

Tipo de instancia
ml.g4dn.12xlarge
ml.p3.16xlarge
ml.p3dn.24xlarge
ml.p4d.24xlarge
ml.p4de.24xlarge

Para ver las especificaciones de los tipos de instancias, consulte la sección Computación acelerada en la página de tipos de instancias de Amazon EC2. Para obtener información acerca de los precios de las instancias, consulte Precios de Amazon SageMaker.

Si encuentra un mensaje de error similar al siguiente, siga las instrucciones de Solicitar un aumento de la cuota de servicio para los recursos de SageMaker.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.