Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Notes de mise à jour SageMaker d'Amazon Training Compiler
Important
Amazon Web Services (AWS) annonce qu'il n'y aura aucune nouvelle version ou version de SageMaker Training Compiler. Vous pouvez continuer à utiliser SageMaker Training Compiler via les AWS Deep Learning Containers (DLC) existants pour la SageMaker formation. Il est important de noter que même si les DLC existants restent accessibles, ils ne recevront plus de correctifs ni de mises à jour AWS, conformément à la politique de support du AWS Deep Learning Containers Framework.
Consultez les notes de publication suivantes pour suivre les dernières mises à jour d'Amazon SageMaker Training Compiler.
SageMaker Notes de publication de Training Compiler : 13 février 2023
Mises à jour des devises
Ajout du support pour la PyTorch v1.13.1
Correctifs de bogue
-
Correction d'un problème lié aux conditions de concurrence sur le GPU qui entraînait une perte de NAN sur certains modèles, tels que les modèles à transformateur de vision (ViT).
Autres modifications
-
SageMaker Training Compiler améliore les performances en permettant à PyTorch /XLA de remplacer automatiquement les optimiseurs (tels que SGD, Adam, AdamW) dans
torch.optim
outransformers.optimization
avec leurs versions sans synchronisation (telles que,,).torch_xla.amp.syncfree
torch_xla.amp.syncfree.SGD
torch_xla.amp.syncfree.Adam
torch_xla.amp.syncfree.AdamW
Vous n'avez pas besoin de modifier les lignes de code dans lesquelles vous définissez les optimiseurs dans votre script d'entraînement.
Migration vers les AWS Deep Learning Containers
Cette version a passé avec succès les tests de référence et a été migrée vers le conteneur de AWS Deep Learning suivant :
-
PyTorch v1.13.1
763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-trcomp-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker
Pour obtenir la liste complète des conteneurs prédéfinis avec Amazon SageMaker Training Compiler, consultezFrameworks Régions AWS, types d'instances et modèles testés pris en charge.
SageMaker Notes de publication de Training Compiler : 9 janvier 2023
Évolutions
-
tf.keras.optimizers.Optimizer
pointe vers un nouvel optimiseur dans la version TensorFlow 2.11.0 et versions ultérieures. Les anciens optimiseurs sont déplacés verstf.keras.optimizers.legacy
. Vous risquez de rencontrer un échec de tâche en raison de cette évolution lorsque vous effectuez les opérations suivantes.-
Chargement de points de contrôle à partir d'un ancien optimiseur. Nous vous recommandons de passer aux optimiseurs hérités.
-
Utilisez la TensorFlow version 1. Nous vous recommandons de migrer vers la TensorFlow version v2 ou de passer aux optimiseurs existants si vous devez continuer à utiliser la version TensorFlow 1.
Pour une liste plus détaillée des principales modifications apportées par rapport aux modifications apportées à l'optimiseur, consultez les notes de publication officielles de la TensorFlow version 2.11.0
dans le référentiel. TensorFlow GitHub -
Migration vers les AWS Deep Learning Containers
Cette version a passé avec succès les tests de référence et a été migrée vers le conteneur de AWS Deep Learning suivant :
-
TensorFlow v2.11.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/tensorflow-training:2.11.0-gpu-py39-cu112-ubuntu20.04-sagemakerPour obtenir la liste complète des conteneurs prédéfinis avec Amazon SageMaker Training Compiler, consultezFrameworks Régions AWS, types d'instances et modèles testés pris en charge.
SageMaker Notes de mise à jour de Training Compiler : 8 décembre 2022
Correctifs de bogue
-
Correction du point de départ pour les tâches de PyTorch formation à partir de la PyTorch version 1.12 afin de garantir qu'il n'y ait aucune différence dans l'initialisation du modèle entre les différents processus. Voir également PyTorchReproductibilité
.
Problèmes connus
-
Une mauvaise utilisation des API PyTorch /XLA dans les transformateurs de vision de Hugging Face peut entraîner des problèmes de convergence.
Autres modifications
-
Lorsque vous utilisez la classe Hugging Face
Trainer
Transformers, assurez-vous d' SyncFree utiliser des optimiseurs en définissantoptim
l'argument sur.adamw_torch_xla
Pour plus d’informations, consultez Modèles linguistiques de grande taille utilisant la classe Trainer de Hugging Face Transformers. Voir également Optimizer(Optimiseur) dans la documentation de Hugging Face Transformers.
Migration vers les AWS Deep Learning Containers
Cette version a passé avec succès les tests de référence et a été migrée vers le conteneur de AWS Deep Learning suivant :
-
PyTorch v1.12.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/pytorch-trcomp-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemakerPour obtenir la liste complète des conteneurs prédéfinis avec Amazon SageMaker Training Compiler, consultezFrameworks Régions AWS, types d'instances et modèles testés pris en charge.
SageMaker Notes de mise à jour de Training Compiler : 4 octobre 2022
Mises à jour des devises
-
Ajout du support pour la version TensorFlow 2.10.0.
Autres modifications
-
Ajout de modèles Hugging Face NLP utilisant la bibliothèque TensorFlow Transformers pour les tests de framework. Pour trouver les modèles de transformateur testés, consultez la section Modèles testés.
Migration vers les AWS Deep Learning Containers
Cette version a passé avec succès les tests de référence et a été migrée vers le conteneur de AWS Deep Learning suivant :
-
TensorFlow v2.10.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/tensorflow-training:2.10.0-gpu-py39-cu112-ubuntu20.04-sagemakerPour obtenir la liste complète des conteneurs prédéfinis avec Amazon SageMaker Training Compiler, consultezFrameworks Régions AWS, types d'instances et modèles testés pris en charge.
SageMaker Notes de mise à jour de Training Compiler : 1er septembre 2022
Mises à jour des devises
-
Ajout du support pour Hugging Face Transformers PyTorch v4.21.1 avec v1.11.0.
Améliorations
-
Mise en œuvre d'un nouveau mécanisme de lancement d'entraînement distribué pour activer le compilateur SageMaker d'entraînement pour les modèles Hugging Face Transformer avec. PyTorch Pour en savoir plus, voir Exécuter des tâches d' PyTorchentraînement avec le compilateur d' SageMaker entraînement pour l'entraînement distribué.
-
Intégration à EFA pour améliorer la communication collective dans le cadre de l'entraînement distribué.
-
Ajout de la prise en charge des instances G5 pour les tâches PyTorch de formation. Pour plus d’informations, consultez Frameworks Régions AWS, types d'instances et modèles testés pris en charge.
Migration vers les AWS Deep Learning Containers
Cette version a passé avec succès les tests de référence et a été migrée vers le conteneur de AWS Deep Learning suivant :
-
HuggingFace v4.21.1 avec v1.11.0 PyTorch
763104351884.dkr.ecr.us-west-2.amazonaws.com/huggingface-pytorch-trcomp-training:1.11.0-transformers4.21.1-gpu-py38-cu113-ubuntu20.04
Pour obtenir la liste complète des conteneurs prédéfinis avec Amazon SageMaker Training Compiler, consultezFrameworks Régions AWS, types d'instances et modèles testés pris en charge.
SageMaker Notes de mise à jour de Training Compiler : 14 juin 2022
Nouvelles fonctions
-
Ajout du support pour la TensorFlow version 2.9.1. SageMaker Training Compiler prend entièrement en charge la compilation TensorFlow des modules (
tf.*
) et des modules TensorFlow Keras (tf.keras.*
). -
Ajout de la prise en charge des conteneurs personnalisés créés en étendant AWS Deep Learning Containers for TensorFlow. Pour plus d'informations, consultez Activer le compilateur d' SageMaker entraînement à l'aide du SDK SageMaker Python et Extend SageMaker Framework Deep Learning Containers.
-
Ajout de la prise en charge des instances G5 pour les tâches TensorFlow de formation.
Migration vers les AWS Deep Learning Containers
Cette version a passé avec succès les tests de référence et a été migrée vers le conteneur de AWS Deep Learning suivant :
-
TensorFlow 2.9.1
763104351884.dkr.ecr.
<region>
.amazonaws.com/tensorflow-training:2.9.1-gpu-py39-cu112-ubuntu20.04-sagemakerPour obtenir la liste complète des conteneurs prédéfinis avec Amazon SageMaker Training Compiler, consultezFrameworks Régions AWS, types d'instances et modèles testés pris en charge.
SageMaker Notes de mise à jour de Training Compiler : 26 avril 2022
Améliorations
-
Ajout de la prise en charge de tous les sites Régions AWS où les AWS Deep Learning Containers
sont en service, à l'exception de la Chine.
SageMaker Notes de mise à jour de Training Compiler : 12 avril 2022
Mises à jour des devises
-
Ajout du support pour Hugging Face Transformers v4.17.0 avec v2.6.3 TensorFlow et v1.10.2. PyTorch
SageMaker Notes de mise à jour de Training Compiler : 21 février 2022
Améliorations
-
Test d'évaluation terminé et accélérations de formation confirmées sur les types d'instances
ml.g4dn
. Pour une liste complète des instancesml
testées, consultez Types d'instance pris en charge.
SageMaker Notes de mise à jour de Training Compiler : 1er décembre 2021
Nouvelles fonctions
Nous avons lancé Amazon SageMaker Training Compiler à l'occasion AWS de re:Invent 2021.
Migration vers les AWS Deep Learning Containers
Amazon SageMaker Training Compiler a passé avec succès les tests de référence et a été migré vers AWS Deep Learning Containers. Pour obtenir la liste complète des conteneurs prédéfinis avec Amazon SageMaker Training Compiler, consultezFrameworks Régions AWS, types d'instances et modèles testés pris en charge.