Unterstützte Frameworks AWS-Regionen und Instanztypen - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Unterstützte Frameworks AWS-Regionen und Instanztypen

Bevor Sie die SageMaker AI Distributed Data Parallelism (SMDDP) -Bibliothek verwenden, überprüfen Sie, welche ML-Frameworks und Instanztypen unterstützt werden und ob in Ihrem Konto genügend Kontingente vorhanden sind und. AWS AWS-Region

Unterstützte Frameworks

In den folgenden Tabellen sind die Deep-Learning-Frameworks und ihre Versionen aufgeführt, die von SageMaker KI und SMDDP unterstützt werden. Die SMDDP-Bibliothek ist in SageMaker AI Framework-Containern verfügbar, in Docker-Container integriert, die über die SageMaker Model Parallelism (SMP) -Bibliothek v2 vertrieben werden, oder als Binärdatei heruntergeladen werden.

Anmerkung

Die neuesten Updates und Versionshinweise der SMDDP-Bibliothek finden Sie unter. SageMaker Versionshinweise zur Bibliothek für KI-Datenparallelität

PyTorch

PyTorch Version Version der SMDDP-Bibliothek SageMaker Mit SMDDP vorinstallierte AI Framework-Container-Images Mit SMDDP vorinstallierte SMP-Docker-Images URL der Binärdatei**
v2.3.1 smdistributed-dataparallel==v2.5.0 Nicht verfügbar 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed_dataparallel-2.5.0-cp311-cp311-linux_x86_64.whl
v2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker Derzeit nicht verfügbar https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
v2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
v2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
v2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker Nicht verfügbar https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl
v2.0.0 smdistributed-dataparallel==v1.8.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker Nicht verfügbar https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-dataparallel==v1.7.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker Nicht verfügbar https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-dataparallel==v1.6.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker Nicht verfügbar https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker Nicht verfügbar https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-dataparallel==v1.4.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker Nicht verfügbar https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl

** Die Binärdateien dienen URLs der Installation der SMDDP-Bibliothek in benutzerdefinierten Containern. Weitere Informationen finden Sie unter Erstellen Sie Ihren eigenen Docker-Container mit der SageMaker AI Distributed Data Parallel Library.

Anmerkung

Die SMDDP-Bibliothek ist dort verfügbar, AWS-Regionen wo die SageMaker AI Framework-Container und die SMP-Docker-Images im Einsatz sind.

Anmerkung

Die SMDDP-Bibliothek v1.4.0 und höher funktioniert als Backend für PyTorch verteilte (torch.distributed) Datenparallelität (torch.parallel). DistributedDataParallel). Entsprechend der Änderung sind die folgenden smdistributed APIs für das PyTorch verteilte Paket veraltet.

Wenn Sie die vorherigen Versionen der Bibliothek (v1.3.0 oder früher) verwenden müssen, finden Sie in der archivierten Dokumentation zum SageMaker AI Distributed Data Parallelism in der SageMaker AI Python SDK-Dokumentation weitere Informationen.

PyTorch Lightning

Die SMDDP-Bibliothek ist für PyTorch Lightning in den folgenden SageMaker AI Framework-Containern für PyTorch und den SMP-Docker-Containern verfügbar.

PyTorch Lightning v2

PyTorch Lightning-Version PyTorch Version Version der SMDDP-Bibliothek SageMaker Mit SMDDP vorinstallierte AI Framework-Container-Images Mit SMDDP vorinstallierte SMP-Docker-Images URL der Binärdatei**
2.2.5 2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker Derzeit nicht verfügbar https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
2.2.0 2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
2.1.2 2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
2.1.0 2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker Nicht verfügbar https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl

PyTorch Lightning v1

PyTorch Lightning-Version PyTorch Version Version der SMDDP-Bibliothek SageMaker Mit SMDDP vorinstallierte AI Framework-Container-Images URL der Binärdatei**

1.7.2

1.7.0

1.6.4

1.6.3

1.5.10

1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr. <region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl

** Die Binärdateien dienen zur Installation der SMDDP-Bibliothek in benutzerdefinierten Containern. URLs Weitere Informationen finden Sie unter Erstellen Sie Ihren eigenen Docker-Container mit der SageMaker AI Distributed Data Parallel Library.

Anmerkung

PyTorch Lightning und seine Hilfsbibliotheken wie Lightning Bolts sind in der nicht vorinstalliert. PyTorch DLCs Wenn Sie in Schritt 2 einen SageMaker PyTorch KI-Schätzer erstellen und eine Anfrage für eine Schulungsstelle einreichen, müssen Sie die Informationen requirements.txt zur Installation pytorch-lightning und lightning-bolts im SageMaker PyTorch KI-Schulungscontainer angeben.

# requirements.txt pytorch-lightning lightning-bolts

Weitere Informationen zur Angabe des Quellverzeichnisses, in dem die requirements.txt Datei zusammen mit Ihrem Schulungsskript und einer Jobübermittlung platziert werden soll, finden Sie unter Verwenden von Bibliotheken von Drittanbietern in der Amazon SageMaker AI Python SDK-Dokumentation.

Hugging Face Transformer

Die AWS Deep Learning Containers für Hugging Face verwenden die SageMaker Training Container für PyTorch und TensorFlow als Basisimages. Die Versionen der Hugging Face Transformers-Bibliothek und die zugehörigen Versionen finden Sie in PyTorch den neuesten Hugging Face Containers und den vorherigen Hugging Face TensorFlow Container-Versionen.

TensorFlow (veraltet)

Wichtig

Die SMDDP-Bibliothek hat die Unterstützung für Versionen ab Version 2.11.0 eingestellt TensorFlow und ist ab Version 2.11.0 nicht mehr verfügbar. DLCs TensorFlow In der folgenden Tabelle sind frühere Versionen von aufgeführt, bei denen DLCs die SMDDP-Bibliothek installiert TensorFlow war.

TensorFlow Version Version der SMDDP-Bibliothek
2.9.1, 2.10.1, 2.11.0 smdistributed-dataparallel==v1.4.1
2.8.3 smdistributed-dataparallel==v1.3.0

AWS-Regionen

Die SMDDP-Bibliothek ist überall dort verfügbar, AWS-Regionen wo die AWS Deep Learning Containers for SageMaker AI und die SMP Docker-Images im Einsatz sind.

Unterstützte Instance-Typen

Die SMDDP-Bibliothek erfordert einen der folgenden Instanztypen.

Instance-Typ
ml.p3dn.24xlarge*
ml.p4d.24xlarge
ml.p4de.24xlarge
Tipp

Um verteilte Schulungen für die EFA-fähigen Instance-Typen ordnungsgemäß durchzuführen, sollten Sie den Datenverkehr zwischen den Instances aktivieren, indem Sie die Sicherheitsgruppe Ihrer VPC so einrichten, dass der gesamte ein- und ausgehende Datenverkehr zur und von der Sicherheitsgruppe selbst zugelassen wird. Informationen zum Einrichten der Sicherheitsgruppenregeln finden Sie unter Schritt 1: Vorbereiten einer EFA-fähigen Sicherheitsgruppe im EC2 Amazon-Benutzerhandbuch.

Wichtig

* Die SMDDP-Bibliothek hat die Unterstützung für die Optimierung ihrer kollektiven Kommunikationsvorgänge auf P3-Instances eingestellt. Sie können das SMDDP-optimierte AllReduce kollektive System zwar weiterhin auf ml.p3dn.24xlarge Instances verwenden, es wird jedoch keine weitere Entwicklungsunterstützung zur Verbesserung der Leistung auf diesem Instance-Typ geben. Beachten Sie, dass das SMDDP-optimierte AllGather Kollektiv nur für P4-Instances verfügbar ist.

Die Spezifikationen der Instance-Typen finden Sie im Abschnitt Accelerated Computing auf der EC2Amazon-Instance-Types-Seite. Informationen zu den Instance-Preisen finden Sie unter Amazon SageMaker AI-Preise.

Wenn Sie auf eine Fehlermeldung gestoßen sind, die der folgenden ähnelt, folgen Sie den Anweisungen unter Beantragen Sie eine Erhöhung des Servicekontingents für SageMaker KI-Ressourcen.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.