Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Puntos de control en Amazon AI SageMaker
Utilice los puntos de control de Amazon SageMaker AI para guardar el estado de los modelos de aprendizaje automático (ML) durante el entrenamiento. Los puntos de control son instantáneas del modelo y se pueden configurar mediante las funciones de devolución de llamadas de los marcos de ML. Puede utilizar los puntos de control guardados para reiniciar un trabajo de entrenamiento desde el último punto de control guardado.
Con los puntos de control, puede hacer lo siguiente:
-
Guarde las instantáneas de sus modelos durante el entrenamiento por una interrupción inesperada del trabajo o instancia de entrenamiento.
-
Reanude el entrenamiento del modelo en el futuro desde un punto de control.
-
Analice el modelo en las etapas intermedias de entrenamiento.
-
Utilice puntos de comprobación con S3 Express One Zone para aumentar las velocidades de acceso.
-
Utilice los puntos de control con la formación puntual gestionada por SageMaker IA para ahorrar costes de formación.
El mecanismo de SageMaker entrenamiento usa contenedores de entrenamiento en EC2 las instancias de Amazon y los archivos de puntos de control se guardan en un directorio local de contenedores (el predeterminado es/opt/ml/checkpoints
). SageMaker La IA proporciona la funcionalidad de copiar los puntos de control de la ruta local a Amazon S3 y sincroniza automáticamente los puntos de control de ese directorio con S3. Los puntos de control existentes en S3 se escriben en el contenedor de SageMaker IA al inicio del trabajo, lo que permite que los trabajos se reanuden desde un punto de control. Los puntos de control que se añaden a la carpeta S3 una vez iniciado el trabajo no se copian en el contenedor de formación. SageMaker La IA también escribe nuevos puntos de control desde el contenedor en S3 durante el entrenamiento. Si se elimina un punto de control del contenedor de SageMaker IA, también se eliminará de la carpeta S3.
Puede utilizar los puntos de control en Amazon SageMaker AI con la clase de almacenamiento Amazon S3 Express One Zone (S3 Express One Zone) para acceder más rápido a los puntos de control. Al activar los puntos de control y especificar el S3 URI como destino de almacenamiento del punto de control, puede proporcionar un S3 URI para una carpeta de un depósito de uso general de S3 o un depósito de directorio de S3. Los buckets de directorio de S3 que están integrados con la SageMaker IA solo se pueden cifrar del lado del servidor con claves administradas de Amazon S3 (SSE-S3). Actualmente, no se admite el cifrado del lado del servidor con AWS KMS claves (SSE-KMS). Para obtener más información sobre S3 Express One Zone y los buckets de directorios de S3, consulte Buckets de directorio y S3 Express One Zone.
Si utiliza puntos de control con una formación puntual gestionada por la SageMaker IA, la SageMaker IA se encarga de controlar la formación de su modelo en una instancia puntual y reanudar el trabajo de formación en la siguiente instancia puntual. Con la formación puntual gestionada por SageMaker IA, puedes reducir considerablemente el tiempo facturable que se dedica al entrenamiento de modelos de aprendizaje automático. Para obtener más información, consulte Formación puntual gestionada en Amazon SageMaker AI.
Temas
- Puntos de control para marcos y algoritmos en IA SageMaker
- Aspectos que hay que tener en cuenta a la hora de establecer puntos de comprobación
- Habilitación de puntos de comprobación
- Exploración de los archivos de puntos de comprobación
- Reanudación del entrenamiento a partir de un punto de comprobación
- El clúster repara GPU errores
Puntos de control para marcos y algoritmos en IA SageMaker
Utilice los puntos de control para guardar instantáneas de los modelos de aprendizaje automático creados en sus marcos preferidos dentro de la IA. SageMaker
SageMaker Marcos y algoritmos de IA que admiten los puntos de control
SageMaker La IA admite puntos de control para AWS Deep Learning Containers y un subconjunto de algoritmos integrados sin necesidad de cambiar el guion de entrenamiento. SageMaker La IA guarda los puntos de control en la ruta local predeterminada '/opt/ml/checkpoints'
y los copia en Amazon S3.
-
Deep Learning Containers: TensorFlowPyTorch
, MXNet , y HuggingFace nota
Si utiliza el estimador de HuggingFace marcos, debe especificar la ruta de salida de un punto de control a través de hiperparámetros. Para obtener más información, consulte Ejecutar formación en Amazon SageMaker AI
en la HuggingFacedocumentación. -
Algoritmos integrados: clasificación de imágenes, detección de objetos, segmentación semántica y XGBoost(0.90-1 o posterior)
nota
Si utilizas el XGBoost algoritmo en modo marco (modo script), necesitas traer un guion de XGBoost entrenamiento con puntos de control que se configure manualmente. Para obtener más información sobre los métodos de XGBoost entrenamiento para guardar instantáneas de modelos, consulte Entrenamiento XGBoost
en la SDK documentación de XGBoost Python.
Si se utiliza un algoritmo prediseñado que no admite puntos de control en un trabajo de formación puntual gestionado, la SageMaker IA no permite un tiempo máximo de espera superior a una hora para realizar el trabajo, a fin de limitar el tiempo de formación desperdiciado debido a las interrupciones.
Para contenedores de entrenamiento personalizados y otros marcos
Si utiliza sus propios contenedores de formación, guiones de formación u otros marcos que no figuran en la sección anterior, debe configurar correctamente su guion de formación mediante llamadas o formación APIs para guardar los puntos de control en la ruta local ('/opt/ml/checkpoints'
) y cargarlos desde la ruta local en su guion de formación. SageMaker Los estimadores de IA pueden sincronizarse con la ruta local y guardar los puntos de control en Amazon S3.
Aspectos que hay que tener en cuenta a la hora de establecer puntos de comprobación
Tenga en cuenta lo siguiente cuando utilice puntos de control en SageMaker la IA.
-
Para evitar sobrescribir en un entrenamiento distribuido con varias instancias, debe configurar manualmente los nombres y las rutas de los archivos de puntos de control en su script de entrenamiento. La configuración de puntos de control de SageMaker IA de alto nivel especifica una única ubicación de Amazon S3 sin sufijos ni prefijos adicionales para etiquetar los puntos de control de varias instancias.
-
SageMaker Python no SDK admite una configuración de alto nivel para la frecuencia de los puntos de control. Para controlar la frecuencia de los puntos de control, modifique el script de entrenamiento mediante las funciones de guardado del modelo o las llamadas de puntos de control del marco.
-
Si utilizas puntos de control de SageMaker IA con SageMaker Debugger y SageMaker AI distribuidos y tienes problemas, consulta las siguientes páginas para obtener información sobre la solución de problemas y las consideraciones.