Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Unterstützte Frameworks und AWS-Regionen
Bevor Sie die SageMaker Model Parallelism Library v2 (SMP v2) verwenden, überprüfen Sie die unterstützten Frameworks und Instance-Typen und stellen Sie fest, ob in Ihrem Konto genügend Kontingente vorhanden sind und. AWS AWS-Region
Anmerkung
Die neuesten Updates und Versionshinweise der Bibliothek finden Sie unter. Versionshinweise für die SageMaker Modellparallelitätsbibliothek
Unterstützte Frameworks
SMP v2 unterstützt die folgenden Deep-Learning-Frameworks und ist über SMP Docker-Container und einen SMP Conda-Kanal verfügbar. Wenn Sie die Framework-Schätzerklassen im SageMaker Python-SDK verwenden und die Verteilungskonfiguration für die Verwendung von SMP v2 angeben, nimmt SageMaker KI die SMP-Docker-Container automatisch auf. Um SMP v2 zu verwenden, empfehlen wir, dass Sie das SageMaker Python-SDK in Ihrer Entwicklungsumgebung immer auf dem neuesten Stand halten.
PyTorch Versionen, die die SageMaker Modellparallelismus-Bibliothek unterstützt
PyTorch Version | SageMaker Version der Bibliothek für Modellparallelität | SMP Docker-Image-URI | URI für das SMP Enroot-Bild |
---|---|---|---|
v2.4.1 | smdistributed-modelparallel==v2.7.0 |
658645717510.dkr.ecr. |
https://sagemaker-distributed-model-parallel.s3. |
smdistributed-modelparallel==v2.6.1 |
N/A | ||
smdistributed-modelparallel==v2.6.0 |
N/A | ||
v2.3.1 | smdistributed-modelparallel==v2.5.0 |
658645717510.dkr.ecr. |
N/A |
smdistributed-modelparallel==v2.4.0 |
|||
v2.2.0 | smdistributed-modelparallel==v2.3.0 |
658645717510.dkr.ecr. |
N/A |
smdistributed-modelparallel==v2.2.0 |
|||
v2.1.2 | smdistributed-modelparallel==v2.1.0 |
658645717510.dkr.ecr. |
N/A |
v2.0.1 | smdistributed-modelparallel==v2.0.0 |
658645717510.dkr.ecr. |
N/A |
SMP Conda-Kanal
Der folgende Amazon S3 S3-Bucket ist ein öffentlicher Conda-Kanal, der vom SMP-Serviceteam gehostet wird. Wenn Sie die SMP v2-Bibliothek in einer Umgebung wie SageMaker HyperPod Clustern installieren möchten, verwenden Sie diesen Conda-Kanal, um die SMP-Bibliothek ordnungsgemäß zu installieren.
https://sagemaker-distributed-model-parallel.s3.
us-west-2
.amazonaws.com/smp-v2/
Weitere Informationen zu Conda-Kanälen im Allgemeinen finden Sie unter Kanäle
Anmerkung
Frühere Versionen der SMP-Bibliothek v1.x und vorkonfigurierte DLCs Versionen finden Sie Unterstützte Frameworks in der SMP v1-Dokumentation.
Verwenden Sie SMP v2 mit Open-Source-Bibliotheken
Die SMP v2-Bibliothek funktioniert mit anderen PyTorch basierten Open-Source-Bibliotheken wie PyTorch Lightning, Hugging Face Transformers und Hugging Face Accelerate, da SMP v2 mit dem FSDP kompatibel ist. PyTorch APIs Wenn Sie weitere Fragen zur Verwendung der SMP-Bibliothek mit anderen Bibliotheken von Drittanbietern haben, wenden Sie sich an das SMP-Serviceteam unter. sm-model-parallel-feedback@amazon.com
AWS-Regionen
SMP v2 ist im Folgenden verfügbar. AWS-Regionen Wenn Sie das SMP Docker-Image URIs oder den SMP Conda-Kanal verwenden möchten, überprüfen Sie die folgende Liste und wählen Sie das AWS-Region passende aus. Aktualisieren Sie die Image-URI oder die Kanal-URL entsprechend.
-
ap-northeast-1
-
ap-northeast-2
-
ap-northeast-3
-
ap-south-1
-
ap-southeast-1
-
ap-southeast-2
-
ca-central-1
-
eu-central-1
-
eu-north-1
-
eu-west-1
-
eu-west-2
-
eu-west-3
-
sa-east-1
-
us-east-1
-
us-east-2
-
us-west-1
-
us-west-2
Unterstützte Instance-Typen
SMP v2 erfordert einen der folgenden ML-Instanztypen.
Instance-Typ |
---|
ml.p4d.24xlarge |
ml.p4de.24xlarge |
ml.p5.48xlarge |
ml.p5e.48xlarge |
Tipp
Ab SMP v2.2.0 ist Unterstützung für v2.2.0 und PyTorch höher verfügbar. Training mit gemischter Präzision FP8 auf P5-Instanzen mithilfe der Transformer Engine
Allgemeine Spezifikationen der Instance-Typen für SageMaker maschinelles Lernen finden Sie im Abschnitt Accelerated Computing auf der EC2 Amazon-Instance-Types-Seite
Wenn Sie auf eine Fehlermeldung gestoßen sind, die der folgenden ähnelt, folgen Sie den Anweisungen unter Eine Erhöhung des Kontingents beantragen im AWS Servicekontingents-Benutzerhandbuch.
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.