Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Versionshinweise SageMaker zum Amazon Training Compiler
Wichtig
Amazon Web Services (AWS) gibt bekannt, dass es keine neuen Releases oder Versionen von SageMaker Training Compiler geben wird. Sie können SageMaker Training Compiler weiterhin über die vorhandenen AWS Deep Learning Containers (DLCs) für SageMaker Schulungen verwenden. Es ist wichtig zu beachten, dass auf die vorhandenen DLCs zwar weiterhin zugegriffen werden kann, sie jedoch gemäß der Support-Richtlinie für AWS Deep Learning Containers Framework keine Patches oder Updates mehr erhalten. AWS
In den folgenden Versionshinweisen finden Sie Informationen zu den neuesten Updates für Amazon SageMaker Training Compiler.
SageMaker Versionshinweise zum Training Compiler: 13. Februar 2023
Aktualisierungen der Währungen
Unterstützung für PyTorch v1.13.1 wurde hinzugefügt
Fehlerbehebungen
-
Es wurde ein Problem mit den Rennbedingungen auf der GPU behoben, das bei einigen Modellen wie Vision Transformer (ViT) zu einem Verlust von NAN führte.
Weitere Änderungen
-
SageMaker Training Compiler verbessert die Leistung, indem PyTorch /XLA die Optimierer (wie SGD, Adam, AdamW) in
torch.optim
odertransformers.optimization
mit ihren syncfree-Versionen (wie,,) automatisch überschreibt.torch_xla.amp.syncfree
torch_xla.amp.syncfree.SGD
torch_xla.amp.syncfree.Adam
torch_xla.amp.syncfree.AdamW
Sie müssen die Codezeilen, in denen Sie Optimizer in Ihrem Trainingsskript definieren, nicht ändern.
Migration zu AWS Deep Learning Containers
Diese Version hat die Benchmark-Tests bestanden und wurde auf den folgenden AWS Deep Learning-Container migriert:
-
PyTorch v1.13.1
763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-trcomp-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker
Eine vollständige Liste der vorkonfigurierten Container mit Amazon SageMaker Training Compiler finden Sie unter. Unterstützte Frameworks AWS-Regionen, Instanztypen und getestete Modelle
SageMaker Versionshinweise zum Training Compiler: 9. Januar 2023
Abwärtskompatible Änderungen
-
tf.keras.optimizers.Optimizer
verweist auf einen neuen Optimierer in TensorFlow 2.11.0 und höher. Die alten Optimierer wurden verschoben.tf.keras.optimizers.legacy
Wenn Sie wie folgt vorgehen, kann es aufgrund der bahnbrechenden Änderung zu einem Fehlschlagen des Auftrags kommen.-
Laden Sie Checkpoints aus einem alten Optimizer. Wir empfehlen Ihnen, zu den älteren Optimierern zu wechseln.
-
Benutze v1. TensorFlow Wir empfehlen Ihnen, auf TensorFlow Version 2 zu migrieren oder zu den älteren Optimierern zu wechseln, wenn Sie Version 1 weiterhin verwenden TensorFlow müssen.
Eine detailliertere Liste der wichtigsten Änderungen aufgrund der Optimizer-Änderungen finden Sie in den offiziellen Versionshinweisen zu Version TensorFlow 2.11.0
im Repository. TensorFlow GitHub -
Migration zu AWS Deep Learning Containers
Diese Version hat die Benchmark-Tests bestanden und wurde auf den folgenden AWS Deep Learning-Container migriert:
-
TensorFlow v2.11.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/tensorflow-training:2.11.0-gpu-py39-cu112-ubuntu20.04-sagemakerEine vollständige Liste der vorkonfigurierten Container mit Amazon SageMaker Training Compiler finden Sie unter. Unterstützte Frameworks AWS-Regionen, Instanztypen und getestete Modelle
SageMaker Versionshinweise zum Training Compiler: 8. Dezember 2022
Fehlerbehebungen
-
Der Startwert für PyTorch Trainingsjobs ab PyTorch Version 1.12 wurde korrigiert, um sicherzustellen, dass es bei der Modellinitialisierung zwischen verschiedenen Prozessen keine Diskrepanz gibt. Siehe auch Reproduzierbarkeit. PyTorch
Bekannte Probleme
-
Die unsachgemäße Verwendung von PyTorch /XLA-APIs in den Bildverarbeitungstransformatoren von Hugging Face kann zu Konvergenzproblemen führen.
Weitere Änderungen
-
Wenn Sie die
Trainer
Klasse Hugging Face Transformers verwenden, stellen Sie sicher, dass Sie SyncFree Optimierer verwenden, indem Sie das Argument auf setzen.optim
adamw_torch_xla
Weitere Informationen finden Sie unter Große Sprachmodelle, die die Hugging Face Transformers-Trainer Klasse verwenden. Siehe auch Optimizerin der Dokumentation zu Hugging Face Transformers.
Migration zu AWS Deep Learning Containers
Diese Version hat die Benchmark-Tests bestanden und wurde auf den folgenden AWS Deep Learning-Container migriert:
-
PyTorch v1.12.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/pytorch-trcomp-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemakerEine vollständige Liste der vorkonfigurierten Container mit Amazon SageMaker Training Compiler finden Sie unter. Unterstützte Frameworks AWS-Regionen, Instanztypen und getestete Modelle
SageMaker Versionshinweise zum Training Compiler: 4. Oktober 2022
Aktualisierungen der Währungen
-
Unterstützung für TensorFlow v2.10.0 hinzugefügt.
Weitere Änderungen
-
Hugging Face NLP-Modelle, die die Transformers-Bibliothek verwenden, wurden zu TensorFlow Framework-Tests hinzugefügt. Informationen zu den getesteten Transformer-Modellen finden Sie unter. Getestete Modelle
Migration zu AWS Deep Learning Containers
Diese Version hat die Benchmark-Tests bestanden und wurde auf den folgenden AWS Deep Learning-Container migriert:
-
TensorFlow v2.10.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/tensorflow-training:2.10.0-gpu-py39-cu112-ubuntu20.04-sagemakerEine vollständige Liste der vorkonfigurierten Container mit Amazon SageMaker Training Compiler finden Sie unter. Unterstützte Frameworks AWS-Regionen, Instanztypen und getestete Modelle
SageMaker Versionshinweise zum Training Compiler: 1. September 2022
Aktualisierungen der Währungen
-
Unterstützung für Hugging Face Transformers v4.21.1 mit v1.11.0 hinzugefügt. PyTorch
Verbesserungen
-
Es wurde ein neuer verteilter Trainingsstartmechanismus implementiert, mit dem der SageMaker Training Compiler für Hugging Face Transformer-Modelle aktiviert werden kann. PyTorch Weitere Informationen finden Sie unter PyTorchTrainingsjobs mit dem Training Compiler for SageMaker Distributed Training ausführen.
-
Integriert in EFA, um die kollektive Kommunikation bei verteilten Trainings zu verbessern.
-
Unterstützung für G5-Instances für PyTorch Trainingsjobs hinzugefügt. Weitere Informationen finden Sie unter Unterstützte Frameworks AWS-Regionen, Instanztypen und getestete Modelle.
Migration zu AWS Deep Learning Containers
Diese Version hat die Benchmark-Tests bestanden und wurde auf den folgenden AWS Deep Learning-Container migriert:
-
HuggingFace v4.21.1 mit v1.11.0 PyTorch
763104351884.dkr.ecr.us-west-2.amazonaws.com/huggingface-pytorch-trcomp-training:1.11.0-transformers4.21.1-gpu-py38-cu113-ubuntu20.04
Eine vollständige Liste der vorkonfigurierten Container mit Amazon SageMaker Training Compiler finden Sie unter. Unterstützte Frameworks AWS-Regionen, Instanztypen und getestete Modelle
SageMaker Versionshinweise zum Training Compiler: 14. Juni 2022
Neue Features
-
Unterstützung für TensorFlow v2.9.1 hinzugefügt. SageMaker Training Compiler unterstützt das Kompilieren von TensorFlow Modulen (
tf.*
) und TensorFlow Keras-Modulen () vollständig.tf.keras.*
-
Unterstützung für benutzerdefinierte Container hinzugefügt, die durch die Erweiterung von AWS Deep Learning Containers für erstellt wurden TensorFlow. Weitere Informationen finden Sie unter Aktivieren des SageMaker Trainingscompilers mithilfe des SageMaker Python-SDK und Erweitern von SageMaker Framework-Deep-Learning-Containern.
-
Unterstützung für G5-Instanzen für TensorFlow Trainingsjobs hinzugefügt.
Migration zu AWS Deep Learning Containers
Diese Version hat die Benchmark-Tests bestanden und wurde auf den folgenden AWS Deep Learning-Container migriert:
-
TensorFlow 2.9.1
763104351884.dkr.ecr.
<region>
.amazonaws.com/tensorflow-training:2.9.1-gpu-py39-cu112-ubuntu20.04-sagemakerEine vollständige Liste der vorgefertigten Container mit Amazon SageMaker Training Compiler finden Sie unter. Unterstützte Frameworks AWS-Regionen, Instanztypen und getestete Modelle
SageMaker Versionshinweise zum Training Compiler: 26. April 2022
Verbesserungen
-
Unterstützung für alle Bereiche hinzugefügt, in AWS-Regionen denen AWS Deep Learning Containers
im Einsatz sind, mit Ausnahme der Regionen China.
SageMaker Versionshinweise zum Training Compiler: 12. April 2022
Aktualisierungen der Währungen
-
Unterstützung für Hugging Face Transformers v4.17.0 mit v2.6.3 und v1.10.2 hinzugefügt. TensorFlow PyTorch
SageMaker Versionshinweise zum Training Compiler: 21. Februar 2022
Verbesserungen
-
Der Benchmark-Test wurde abgeschlossen und die Trainingsbeschleunigung für die Instance-Typen bestätigt.
ml.g4dn
Eine vollständige Liste der getestetenml
Instances finden Sie unter. Unterstützte Instance-Typen
SageMaker Versionshinweise zum Training Compiler: 01. Dezember 2021
Neue Features
Amazon SageMaker Training Compiler wurde auf der AWS re:Invent 2021 vorgestellt.
Migration zu AWS Deep Learning Containers
Amazon SageMaker Training Compiler hat die Benchmark-Tests bestanden und wurde auf AWS Deep Learning Containers migriert. Eine vollständige Liste der vorkonfigurierten Container mit Amazon SageMaker Training Compiler finden Sie unter. Unterstützte Frameworks AWS-Regionen, Instanztypen und getestete Modelle