Marcos admitidos y Regiones de AWS
Antes de utilizar la biblioteca de paralelismo de modelos de SageMaker, compruebe los marcos y tipos de instancias compatibles y determine si hay suficientes cuotas en su cuenta de AWS y en Región de AWS.
nota
Para consultar las últimas actualizaciones y notas de la versión de la biblioteca, consulte las notas de la versión de Notas de la versión paralela del modelo SageMaker
Marcos admitidos
La biblioteca de paralelismo de modelos de SageMaker es compatible con los siguientes marcos de aprendizaje profundo y está disponible en los contenedores de aprendizaje profundo (DLC) de AWS o bien es posible descargarlo como un archivo binario.
Versiones de PyTorch compatibles con SageMaker y la biblioteca de paralelismo de modelos SageMaker
Versión PyTorch | Versión de la biblioteca de paralelismo de modelos de SageMaker | URI de imagen DLC integrada smdistributed-modelparallel |
URL del archivo binario** |
---|---|---|---|
v2.0.0 | smdistributed-modelparallel==v1.15.0 |
|
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-2.0.0/build-artifacts/2023-04-14-20-14/smdistributed_modelparallel-1.15.0-cp310-cp310-linux_x86_64.whl |
v1.13.1 | smdistributed-modelparallel==v1.15.0 |
|
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.13.1/build-artifacts/2023-04-17-15-49/smdistributed_modelparallel-1.15.0-cp39-cp39-linux_x86_64.whl |
v1.12.1 | smdistributed-modelparallel==v1.13.0 |
|
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.1/build-artifacts/2022-12-08-21-34/smdistributed_modelparallel-1.13.0-cp38-cp38-linux_x86_64.whl |
v1.12.0 | smdistributed-modelparallel==v1.11.0 |
|
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.0/build-artifacts/2022-08-12-16-58/smdistributed_modelparallel-1.11.0-cp38-cp38-linux_x86_64.whl |
v1.11.0 | smdistributed-modelparallel==v1.10.0 |
|
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.11.0/build-artifacts/2022-07-11-19-23/smdistributed_modelparallel-1.10.0-cp38-cp38-linux_x86_64.whl |
v1.10.2 |
smdistributed-modelparallel==v1.7.0 |
|
- |
v1.10.0 |
smdistributed-modelparallel==v1.5.0 |
|
- |
v1.9.1 |
smdistributed-modelparallel==v1.4.0 |
|
- |
v1.8.1* |
smdistributed-modelparallel==v1.6.0 |
|
- |
nota
La biblioteca de paralelismo de modelos de SageMaker v1.6.0 y versiones posteriores proporciona funciones ampliadas para PyTorch. Para obtener más información, consulte Características principales de la biblioteca de paralelismo de modelos de SageMaker.
** Las direcciones URL de los archivos binarios sirven para instalar la biblioteca de paralelismo de modelos de SageMaker en contenedores personalizados. Para obtener más información, consulte Cree su propio contenedor de Docker con la biblioteca de paralelismo de modelos distribuidos de SageMaker.
Versiones de TensorFlow compatibles con SageMaker y la biblioteca de paralelismo de modelos SageMaker
TensorFlow, versión 1.12 | Versión de la biblioteca de paralelismo de modelos de SageMaker | URI de imagen DLC integrada smdistributed-modelparallel |
---|---|---|
v2.6.0 | smdistributed-modelparallel==v1.4.0 |
763104351884.dkr.ecr. |
v2.5.1 | smdistributed-modelparallel==v1.4.0
|
763104351884.dkr.ecr.
|
Versiones de Hugging Face Transformers compatibles con SageMaker y la biblioteca de paralelismo de datos distribuidos SageMaker
Los contenedores de aprendizaje profundo de AWS de Hugging Face utilizan los contenedores de entrenamiento de SageMaker para PyTorch y TensorFlow como imágenes base. Para buscar las versiones de la biblioteca Hugging Face Transformers y las versiones emparejadas de PyTorch y TensorFlow, consulte las versiones más recientes de los contenedores de Hugging Face
Regiones de AWS
La biblioteca de paralelismo de datos de SageMaker está disponible en todos los sitios en los que los contenedores de aprendizaje profundo de AWS para SageMaker
Tipos de instancias admitidos
La biblioteca de paralelismo de modelos de SageMaker requiere uno de los siguientes tipos de instancias de machine learning.
Tipo de instancia |
---|
ml.g4dn.12xlarge |
ml.p3.16xlarge |
ml.p3dn.24xlarge
|
ml.p4d.24xlarge |
ml.p4de.24xlarge |
Para ver las especificaciones de los tipos de instancias, consulte la sección Computación acelerada en la página de tipos de instancias de Amazon EC2
Si encuentra un mensaje de error similar al siguiente, siga las instrucciones de Solicitar un aumento de la cuota de servicio para los recursos de SageMaker.
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.