Cadres pris en et Régions AWS - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Cadres pris en et Régions AWS

Avant d'utiliser la bibliothèque de SageMaker modèles de parallélisme, vérifiez les frameworks et les types d'instances pris en charge, et déterminez s'il y a suffisamment de quotas dans votre AWS compte et. Région AWS

Note

Pour consulter les dernières mises à jour et notes de publication de la bibliothèque, consultez les notes de version de SageMaker Model Parallel dans la documentation du SDK SageMaker Python.

Cadres pris en charge

La bibliothèque de SageMaker modèles de parallélisme prend en charge les frameworks d'apprentissage profond suivants et est disponible dans AWS Deep Learning Containers (DLC) ou téléchargeable sous forme de fichier binaire.

PyTorch versions prises en charge par l' SageMaker IA et la bibliothèque de parallélisme des SageMaker modèles

PyTorch version SageMaker version de la bibliothèque de parallélisme des modèles URI de l'image intégrée smdistributed-modelparallel URL du fichier binaire**
v2.0.0 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-2.0.0/build-artifacts/2023-04-14-20-14/smdistributed_modelparallel-1.15.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.13.1/build-artifacts/2023-04-17-15-49/smdistributed_modelparallel-1.15.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-modelparallel==v1.13.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.1/build-artifacts/2_12-08-21-34/smdistributed_modelparallel-1.13.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-modelparallel==v1.11.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.0/build-artifacts/▲ 08-12-16-58/smdistributed_modelparallel-1.11.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-modelparallel==v1.10.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.11.0/build-artifacts/▲ 07-11-19-23/smdistributed_modelparallel-1.10.0-cp38-cp38-linux_x86_64.whl
v1.10.2 smdistributed-modelparallel==v1.7.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.2-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.10.0 smdistributed-modelparallel==v1.5.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.0-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.9.1 smdistributed-modelparallel==v1.4.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.9.1-gpu-py38-cu111-ubuntu20.04

-
v1.8.1* smdistributed-modelparallel==v1.6.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.8.1-gpu-py36-cu111-ubuntu18.04

-
Note

La bibliothèque de parallélisme des SageMaker modèles v1.6.0 et versions ultérieures fournit des fonctionnalités étendues pour. PyTorch Pour de plus amples informations, veuillez consulter Principales fonctionnalités de la bibliothèque de parallélisme des SageMaker modèles.

** Les URLs fichiers binaires sont destinés à installer la bibliothèque de parallélisme du SageMaker modèle dans des conteneurs personnalisés. Pour de plus amples informations, veuillez consulter Créez votre propre conteneur Docker avec la bibliothèque parallèle de modèles SageMaker distribués.

TensorFlow versions prises en charge par l' SageMaker IA et la bibliothèque de parallélisme des SageMaker modèles

TensorFlow version SageMaker version de la bibliothèque de parallélisme des modèles URI de l'image DLC intégrée smdistributed-modelparallel
v2.6.0 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.6.0-gpu-py38-cu112-ubuntu20.04
v2.5.1 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.5.1-gpu-py37-cu112-ubuntu18.04

Versions de Hugging Face Transformers prises en charge SageMaker par l'IA et SageMaker la bibliothèque parallèle de données distribuées

Les AWS Deep Learning Containers for Hugging Face utilisent SageMaker les Training Containers PyTorch pour TensorFlow et comme images de base. Pour consulter les versions et les versions PyTorch associées de la bibliothèque Hugging Face Transformers, consultez les dernières versions de Hugging Face Containers TensorFlow et les versions précédentes de Hugging Face Container.

Régions AWS

La bibliothèque SageMaker Data Parallel est disponible partout Régions AWS où les AWS Deep Learning Containers for SageMaker sont en service. Pour de plus amples informations, veuillez consulter Available Deep Learning Containers Images.

Types d'instance pris en charge

La bibliothèque de parallélisme de SageMaker modèles nécessite l'un des types d'instances ML suivants.

Type d’instance
ml.g4dn.12xlarge
ml.p3.16xlarge
ml.p3dn.24xlarge
ml.p4d.24xlarge
ml.p4de.24xlarge

Pour les spécifications des types d'instances, consultez la section Accelerated Computing de la page Amazon EC2 Instance Types. Pour plus d'informations sur la tarification des instances, consultez Amazon SageMaker AI Pricing.

Si vous avez rencontré un message d'erreur similaire au suivant, suivez les instructions de la section Demander une augmentation du quota de service pour les ressources d' SageMaker IA.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.