Starten verteilter Trainingsjobs SMDDP mit SageMaker Python SDK - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Starten verteilter Trainingsjobs SMDDP mit SageMaker Python SDK

Um einen verteilten Trainingsjob mit Ihrem angepassten Skript von auszuführenPassen Sie Ihr Trainingsskript an die Verwendung der SMDDP kollektiven Operationen an, verwenden Sie das SageMaker SDK Python-Framework oder generische Schätzer, indem Sie das vorbereitete Trainingsskript als Einstiegsskript und die verteilte Trainingskonfiguration angeben.

Diese Seite führt Sie auf zwei Arten durch die Verwendung von SageMaker Python SDK.

  • Wenn Sie eine schnelle Einführung in Ihre verteilte Trainingsaufgabe erreichen möchten SageMaker, konfigurieren Sie eine SageMaker PyTorchoder TensorFlowFramework-Estimator-Klasse. Der Framework-Schätzer nimmt Ihr Trainingsskript auf und gleicht automatisch das richtige Bild URI der vorgefertigten Container PyTorch oder TensorFlow Deep Learning Containers (DLC) ab, wenn der für den Parameter angegebene Wert gegeben ist. framework_version

  • Wenn Sie einen der vorgefertigten Container erweitern oder einen benutzerdefinierten Container erstellen möchten, um damit Ihre eigene ML-Umgebung zu erstellen SageMaker, verwenden Sie die SageMaker generische Estimator Klasse und geben Sie das Image URI des benutzerdefinierten Docker-Containers an, der in Ihrer Amazon Elastic Container Registry (AmazonECR) gehostet wird.

Ihre Trainingsdatensätze sollten in Amazon S3 oder Amazon FSx for Lustre in dem Land gespeichert werden, AWS-Region in dem Sie Ihren Trainingsjob starten. Wenn Sie Jupyter-Notebooks verwenden, sollte auf derselben Instanz eine SageMaker Notebook-Instance oder eine SageMaker Studio Classic-App ausgeführt werden. AWS-Region Weitere Informationen zum Speichern deiner Trainingsdaten findest du in der Dokumentation zu SageMaker SDKPython-Dateneingaben.

Tipp

Wir empfehlen, Amazon FSx for Lustre anstelle von Amazon S3 zu verwenden, um die Trainingsleistung zu verbessern. Amazon FSx hat einen höheren Durchsatz und eine geringere Latenz als Amazon S3.

Tipp

Um verteilte Schulungen für die Instance-Typen mit EFA aktiviertem Status ordnungsgemäß durchzuführen, sollten Sie den Datenverkehr zwischen den Instances aktivieren, indem Sie Ihre VPC Sicherheitsgruppe so einrichten, dass der gesamte eingehende und ausgehende Datenverkehr zur und von der Sicherheitsgruppe selbst zugelassen wird. Informationen zum Einrichten der Sicherheitsgruppenregeln finden Sie unter Schritt 1: Vorbereiten einer EFA -aktivierten Sicherheitsgruppe im EC2Amazon-Benutzerhandbuch.

Wählen Sie eines der folgenden Themen aus, um Anweisungen zur Ausführung eines verteilten Trainingsjobs anhand Ihres Schulungsskripts zu erhalten. Nachdem Sie einen Schulungsjob gestartet haben, können Sie die Systemauslastung und die Modellleistung mithilfe von SageMaker Amazon-Debugger Amazon überwachen CloudWatch.

Folgen Sie den Anweisungen in den folgenden Themen, um mehr über technische Details zu erfahren. Wir empfehlen Ihnen jedoch, zunächst Beispiele für SageMaker die Amazon-Datenparallelismus-Bibliothek das auszuprobieren.