Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
importante
Amazon Web Services (AWS) anuncia que no habrá nuevas versiones o versiones de SageMaker Training Compiler. Puede seguir utilizando SageMaker Training Compiler a través de los AWS Deep Learning Containers (DLCs) existentes para SageMaker formación. Es importante tener en cuenta que, si bien los existentes DLCs permanecen accesibles, ya no recibirán parches ni actualizaciones de ellos AWS, de acuerdo con la Política de soporte de AWS Deep Learning Containers Framework.
Consulte las siguientes notas de la versión para realizar un seguimiento de las últimas actualizaciones de Amazon SageMaker Training Compiler.
SageMaker Notas de la versión de Training Compiler: 13 de febrero de 2023
Actualizaciones de divisas
Se agregó soporte para PyTorch la versión 1.13.1
Correcciones de errores
-
Se ha corregido un problema relacionado con las condiciones de carrera de la GPU que provocaba la pérdida de NAN en algunos modelos, como los modelos con transformador de visión (ViT).
Otros cambios:
-
SageMaker Training Compiler mejora el rendimiento al permitir que PyTorch /XLA anule automáticamente los optimizadores (como SGD, Adam, AdamW) incluidos en
torch.optim
sus versionestransformers.optimization
sin sincronización (como,,).torch_xla.amp.syncfree
torch_xla.amp.syncfree.SGD
torch_xla.amp.syncfree.Adam
torch_xla.amp.syncfree.AdamW
No tiene que cambiar las líneas de código en las que define los optimizadores en su script de entrenamiento.
Migración a AWS Deep Learning Containers
Esta versión ha superado las pruebas comparativas y se ha migrado al siguiente contenedor de aprendizaje AWS profundo:
-
PyTorch v1.13.1
763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-trcomp-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker
Para obtener una lista completa de los contenedores prediseñados con Amazon SageMaker Training Compiler, consulte. Marcos Regiones de AWS, tipos de instancias y modelos probados compatibles
SageMaker Notas de lanzamiento del compilador de formación: 9 de enero de 2023
Cambios bruscos
-
tf.keras.optimizers.Optimizer
apunta a un nuevo optimizador en la versión TensorFlow 2.11.0 y versiones posteriores. Los antiguos optimizadores se trasladan atf.keras.optimizers.legacy
. Es posible que se produzca un fallo en el trabajo debido al cambio de ruptura cuando haga lo siguiente.-
Cargar puntos de control de un optimizador antiguo. Le recomendamos que cambie a utilizar los optimizadores heredados.
-
Utilice la versión 1. TensorFlow Le recomendamos que migre a la TensorFlow versión 2 o que cambie a los optimizadores antiguos si necesita seguir utilizando la TensorFlow versión 1.
Para obtener una lista más detallada de los cambios más importantes relacionados con los cambios del optimizador, consulta las notas oficiales de la TensorFlow versión 2.11.0
en el repositorio. TensorFlow GitHub -
Migración a AWS Deep Learning Containers
Esta versión ha superado las pruebas comparativas y se ha migrado al siguiente contenedor de aprendizaje AWS profundo:
-
TensorFlow v2.11.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/tensorflow-training:2.11.0-gpu-py39-cu112-ubuntu20.04-sagemakerPara obtener una lista completa de los contenedores prediseñados con Amazon SageMaker Training Compiler, consulte. Marcos Regiones de AWS, tipos de instancias y modelos probados compatibles
SageMaker Notas de la versión de Training Compiler: 8 de diciembre de 2022
Correcciones de errores
-
Se ha corregido la raíz de los trabajos de PyTorch formación a partir de la PyTorch versión 1.12 para garantizar que no haya discrepancias en la inicialización del modelo en los distintos procesos. Consulte también Reproducibilidad. PyTorch
-
Se solucionó el problema que provocaba que los trabajos de formación PyTorch distribuidos en las instancias G4dn y G5 no se comunicaran de forma predeterminada. PCIe
Problemas conocidos
-
El uso incorrecto de PyTorch /XLA APIs en los transformadores de visión de Hugging Face podía provocar problemas de convergencia.
Otros cambios
-
Cuando utilices la clase Hugging Face
Trainer
Transformers, asegúrate de SyncFree usar optimizadoresoptim
configurando el argumento en.adamw_torch_xla
Para obtener más información, consulte Grandes modelos lingüísticos mediante la clase Trainer de Hugging Face Transformers. Consulte también Optimizeren la documentación de Hugging Face Transformers.
Migración a AWS Deep Learning Containers
Esta versión ha superado las pruebas comparativas y se ha migrado al siguiente contenedor de aprendizaje AWS profundo:
-
PyTorch v1.12.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/pytorch-trcomp-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemakerPara obtener una lista completa de los contenedores prediseñados con Amazon SageMaker Training Compiler, consulte. Marcos Regiones de AWS, tipos de instancias y modelos probados compatibles
SageMaker Notas de la versión de Training Compiler: 4 de octubre de 2022
Actualizaciones de divisas
-
Se agregó soporte para la versión TensorFlow 2.10.0.
Otros cambios:
-
Se agregaron modelos de PNL de Hugging Face utilizando la biblioteca TensorFlow Transformers para estructurar las pruebas. Para encontrar los modelos de Transformer probados, consulte Modelos probados.
Migración a AWS Deep Learning Containers
Esta versión ha superado las pruebas comparativas y se ha migrado al siguiente contenedor de aprendizaje AWS profundo:
-
TensorFlow v2.10.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/tensorflow-training:2.10.0-gpu-py39-cu112-ubuntu20.04-sagemakerPara obtener una lista completa de los contenedores prediseñados con Amazon SageMaker Training Compiler, consulte. Marcos Regiones de AWS, tipos de instancias y modelos probados compatibles
SageMaker Notas de la versión de Training Compiler: 1 de septiembre de 2022
Actualizaciones de divisas
-
Se agregó soporte para Hugging Face Transformers v4.21.1 con v1.11.0 PyTorch.
Mejoras
-
Se implementó un nuevo mecanismo de lanzamiento de entrenamiento distribuido para activar los modelos SageMaker Training Compiler for Hugging Face Transformer con. PyTorch Para obtener más información, consulte Ejecute trabajos de formación con PyTorch Training Compiler para una SageMaker formación distribuida.
-
Se ha integrado con EFA para mejorar la comunicación colectiva en el entrenamiento distribuido.
-
Se ha añadido compatibilidad con las instancias G5 para los trabajos de PyTorch formación. Para obtener más información, consulte Marcos Regiones de AWS, tipos de instancias y modelos probados compatibles.
Migración a AWS Deep Learning Containers
Esta versión ha superado las pruebas comparativas y se ha migrado al siguiente contenedor de aprendizaje AWS profundo:
-
HuggingFace v4.21.1 con v1.11.0 PyTorch
763104351884.dkr.ecr.us-west-2.amazonaws.com/huggingface-pytorch-trcomp-training:1.11.0-transformers4.21.1-gpu-py38-cu113-ubuntu20.04
Para obtener una lista completa de los contenedores prediseñados con Amazon SageMaker Training Compiler, consulte. Marcos Regiones de AWS, tipos de instancias y modelos probados compatibles
SageMaker Notas de la versión de Training Compiler: 14 de junio de 2022
Nuevas características
-
Se agregó soporte para la versión TensorFlow 2.9.1. SageMaker Training Compiler es totalmente compatible con la compilación de TensorFlow módulos (
tf.*
) y módulos de TensorFlow Keras ().tf.keras.*
-
Se agregó soporte para contenedores personalizados creados al extender AWS Deep Learning Containers for TensorFlow. Para obtener más información, consulte Habilitar el compilador de SageMaker entrenamiento mediante el SDK de SageMaker Python y Ampliación de los Deep Learning Containers de SageMaker AI Framework.
-
Se ha añadido compatibilidad con las instancias G5 para trabajos de TensorFlow formación.
Migración a AWS Deep Learning Containers
Esta versión ha superado las pruebas comparativas y se ha migrado al siguiente contenedor de aprendizaje AWS profundo:
-
TensorFlow 2.9.1
763104351884.dkr.ecr.
<region>
.amazonaws.com/tensorflow-training:2.9.1-gpu-py39-cu112-ubuntu20.04-sagemakerPara obtener una lista completa de los contenedores prediseñados con Amazon SageMaker Training Compiler, consulte. Marcos Regiones de AWS, tipos de instancias y modelos probados compatibles
SageMaker Notas de la versión de Training Compiler: 26 de abril de 2022
Mejoras
-
Se agregó soporte para todos los Regiones de AWS lugares en los que AWS Deep Learning Containers
está en servicio, excepto en las regiones de China.
SageMaker Notas de lanzamiento del compilador de formación: 12 de abril de 2022
Actualizaciones de divisas
-
Se agregó soporte para Hugging Face Transformers v4.17.0 con v2.6.3 y v1.10.2 TensorFlow . PyTorch
SageMaker Notas de lanzamiento de Training Compiler: 21 de febrero de 2022
Mejoras
-
Se ha completado la prueba comparativa y se ha confirmado la aceleración del entrenamiento en los tipos de instancia de
ml.g4dn
. Para obtener una lista completa de las instancias deml
probadas, consulte Tipos de instancias admitidos.
SageMaker Notas de lanzamiento de Training Compiler: 1 de diciembre de 2021
Nuevas características
Se lanzó Amazon SageMaker Training Compiler en AWS re:Invent 2021.
Migración a AWS Deep Learning Containers
Amazon SageMaker Training Compiler ha superado las pruebas de referencia y se ha migrado a AWS Deep Learning Containers. Para obtener una lista completa de los contenedores prediseñados con Amazon SageMaker Training Compiler, consulte. Marcos Regiones de AWS, tipos de instancias y modelos probados compatibles