Unterstützte Frameworks AWS-Regionen Unterstützte Instance-Typen

Unterstützte Frameworks und AWS-Regionen

Bevor Sie die SageMaker Model Parallelism Library v2 (SMP v2) verwenden, überprüfen Sie die unterstützten Frameworks und Instance-Typen und stellen Sie fest, ob in Ihrem Konto genügend Kontingente vorhanden sind und. AWS AWS-Region

Anmerkung

Die neuesten Updates und Versionshinweise der Bibliothek finden Sie unter. Versionshinweise für die SageMaker Modellparallelitätsbibliothek

Unterstützte Frameworks

SMP v2 unterstützt die folgenden Deep-Learning-Frameworks und ist über SMP Docker-Container und einen SMP Conda-Kanal verfügbar. Wenn Sie die Framework-Schätzerklassen im SageMaker Python-SDK verwenden und die Verteilungskonfiguration für die Verwendung von SMP v2 angeben, nimmt SageMaker KI die SMP-Docker-Container automatisch auf. Um SMP v2 zu verwenden, empfehlen wir, dass Sie das SageMaker Python-SDK in Ihrer Entwicklungsumgebung immer auf dem neuesten Stand halten.

PyTorch Versionen, die die SageMaker Modellparallelismus-Bibliothek unterstützt

PyTorch Version	SageMaker Version der Bibliothek für Modellparallelität	SMP Docker-Image-URI	URI für das SMP Enroot-Bild
v2.4.1	`smdistributed-modelparallel==v2.7.0`	`658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121`	`https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.4.1-gpu-py311-cu121.sqsh`
	`smdistributed-modelparallel==v2.6.1`		N/A
	`smdistributed-modelparallel==v2.6.0`		N/A
v2.3.1	`smdistributed-modelparallel==v2.5.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121`	N/A
v2.3.1	`smdistributed-modelparallel==v2.4.0`		N/A
v2.2.0	`smdistributed-modelparallel==v2.3.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121`	N/A
v2.2.0	`smdistributed-modelparallel==v2.2.0`		N/A
v2.1.2	`smdistributed-modelparallel==v2.1.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121`	N/A
v2.0.1	`smdistributed-modelparallel==v2.0.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121`	N/A

SMP Conda-Kanal

Der folgende Amazon S3 S3-Bucket ist ein öffentlicher Conda-Kanal, der vom SMP-Serviceteam gehostet wird. Wenn Sie die SMP v2-Bibliothek in einer Umgebung wie SageMaker HyperPod Clustern installieren möchten, verwenden Sie diesen Conda-Kanal, um die SMP-Bibliothek ordnungsgemäß zu installieren.


https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Weitere Informationen zu Conda-Kanälen im Allgemeinen finden Sie unter Kanäle in der Conda-Dokumentation.

Anmerkung

Frühere Versionen der SMP-Bibliothek v1.x und vorkonfigurierte DLCs Versionen finden Sie Unterstützte Frameworks in der SMP v1-Dokumentation.

Verwenden Sie SMP v2 mit Open-Source-Bibliotheken

Die SMP v2-Bibliothek funktioniert mit anderen PyTorch basierten Open-Source-Bibliotheken wie PyTorch Lightning, Hugging Face Transformers und Hugging Face Accelerate, da SMP v2 mit dem FSDP kompatibel ist. PyTorch APIs Wenn Sie weitere Fragen zur Verwendung der SMP-Bibliothek mit anderen Bibliotheken von Drittanbietern haben, wenden Sie sich an das SMP-Serviceteam unter. sm-model-parallel-feedback@amazon.com

AWS-Regionen

SMP v2 ist im Folgenden verfügbar. AWS-Regionen Wenn Sie das SMP Docker-Image URIs oder den SMP Conda-Kanal verwenden möchten, überprüfen Sie die folgende Liste und wählen Sie das AWS-Region passende aus. Aktualisieren Sie die Image-URI oder die Kanal-URL entsprechend.

ap-northeast-1
ap-northeast-2
ap-northeast-3
ap-south-1
ap-southeast-1
ap-southeast-2
ca-central-1
eu-central-1
eu-north-1
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-1
us-west-2

Unterstützte Instance-Typen

SMP v2 erfordert einen der folgenden ML-Instanztypen.

Instance-Typ
`ml.p4d.24xlarge`
`ml.p4de.24xlarge`
`ml.p5.48xlarge`
`ml.p5e.48xlarge`

Tipp

Ab SMP v2.2.0 ist Unterstützung für v2.2.0 und PyTorch höher verfügbar. Training mit gemischter Präzision FP8 auf P5-Instanzen mithilfe der Transformer Engine

Allgemeine Spezifikationen der Instance-Typen für SageMaker maschinelles Lernen finden Sie im Abschnitt Accelerated Computing auf der EC2 Amazon-Instance-Types-Seite. Informationen zu den Instance-Preisen finden Sie unter Amazon SageMaker AI-Preise.

Wenn Sie auf eine Fehlermeldung gestoßen sind, die der folgenden ähnelt, folgen Sie den Anweisungen unter Eine Erhöhung des Kontingents beantragen im AWS Servicekontingents-Benutzerhandbuch.


ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling
    the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge
    for training job usage' is 0 Instances, with current utilization of 0 Instances
    and a request delta of 1 Instances.
    Please contact AWS support to request an increase for this limit.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Konzepte der Modellparallelität

Verwenden Sie SMP v2