Puntos de control en Amazon SageMaker - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Puntos de control en Amazon SageMaker

Usa los puntos de control de Amazon SageMaker para guardar el estado de los modelos de aprendizaje automático (ML) durante el entrenamiento. Los puntos de control son instantáneas del modelo y se pueden configurar mediante las funciones de devolución de llamadas de los marcos de ML. Puede utilizar los puntos de control guardados para reiniciar un trabajo de entrenamiento desde el último punto de control guardado.

Con los puntos de control, puede hacer lo siguiente:

  • Guarde las instantáneas de sus modelos durante el entrenamiento por una interrupción inesperada del trabajo o instancia de entrenamiento.

  • Reanude el entrenamiento del modelo en el futuro desde un punto de control.

  • Analice el modelo en las etapas intermedias de entrenamiento.

  • Utilice los puntos de control con S3 Express One Zone para aumentar las velocidades de acceso.

  • Utilice los puntos de control con formación puntual SageMaker gestionada para ahorrar costes de formación.

El mecanismo de SageMaker entrenamiento usa contenedores de entrenamiento en EC2 las instancias de Amazon y los archivos de puntos de control se guardan en un directorio local de contenedores (el predeterminado es/opt/ml/checkpoints). SageMaker proporciona la funcionalidad de copiar los puntos de control de la ruta local a Amazon S3 y sincroniza automáticamente los puntos de control de ese directorio con S3. Los puntos de control existentes en S3 se escriben en el SageMaker contenedor al inicio del trabajo, lo que permite que los trabajos se reanuden desde un punto de control. Los puntos de control que se añaden a la carpeta S3 una vez iniciado el trabajo no se copian en el contenedor de formación. SageMaker también escribe nuevos puntos de control del contenedor en S3 durante el entrenamiento. Si se elimina un punto de control del SageMaker contenedor, también se eliminará de la carpeta S3.

Puede usar puntos de control en Amazon SageMaker con la clase de almacenamiento Amazon S3 Express One Zone (S3 Express One Zone) para acceder más rápido a los puntos de control. Al activar los puntos de control y especificar el S3 URI como destino de almacenamiento del punto de control, puede proporcionar un S3 URI para una carpeta de un depósito de uso general de S3 o un depósito de directorio de S3. Los buckets de directorio S3 integrados solo se SageMaker pueden cifrar con cifrado del lado del servidor con claves administradas de Amazon S3 (SSE-S3). Actualmente, no se admite el cifrado del lado del servidor con AWS KMS claves (SSE-KMS). Para obtener más información sobre los buckets de directorio S3 Express One Zone y S3, consulte Qué es S3 Express One Zone.

Si utiliza puntos de control con una formación puntual SageMaker gestionada, SageMaker gestiona la formación de su modelo en una instancia puntual y la reanudación del trabajo de formación en la siguiente instancia puntual. Con la formación puntual SageMaker gestionada, puede reducir considerablemente el tiempo facturable dedicado al entrenamiento de modelos de aprendizaje automático. Para obtener más información, consulte Formación presencial gestionada en Amazon SageMaker.

Puntos de control para marcos y algoritmos en SageMaker

Utilice los puntos de control para guardar instantáneas de los modelos de aprendizaje automático creados en sus marcos preferidos. SageMaker

SageMaker marcos y algoritmos que admiten los puntos de control

SageMaker admite puntos de control para AWS Deep Learning Containers y un subconjunto de algoritmos integrados sin necesidad de cambiar el guion de entrenamiento. SageMaker guarda los puntos de control en la ruta local predeterminada '/opt/ml/checkpoints' y los copia en Amazon S3.

Si se utiliza un algoritmo prediseñado que no admite puntos de control en un trabajo de formación puntual gestionado, SageMaker no se permite un tiempo máximo de espera superior a una hora para realizar el trabajo a fin de limitar el tiempo de formación desperdiciado debido a las interrupciones.

Para contenedores de entrenamiento personalizados y otros marcos

Si utiliza sus propios contenedores de formación, guiones de formación u otros marcos que no figuran en la sección anterior, debe configurar correctamente su guion de formación mediante llamadas o formación APIs para guardar los puntos de control en la ruta local ('/opt/ml/checkpoints') y cargarlos desde la ruta local en su guion de formación. SageMaker los estimadores pueden sincronizarse con la ruta local y guardar los puntos de control en Amazon S3.

Consideraciones sobre los puntos de control

Tenga en cuenta lo siguiente al utilizar puntos de control en. SageMaker

  • Para evitar sobrescribir en un entrenamiento distribuido con varias instancias, debe configurar manualmente los nombres y las rutas de los archivos de puntos de control en su script de entrenamiento. La configuración de SageMaker puntos de control de alto nivel especifica una única ubicación de Amazon S3 sin sufijos ni prefijos adicionales para etiquetar los puntos de control de varias instancias.

  • SageMaker Python no SDK admite una configuración de alto nivel para la frecuencia de los puntos de control. Para controlar la frecuencia de los puntos de control, modifique el script de entrenamiento mediante las funciones de guardado del modelo o las llamadas de puntos de control del marco.

  • Si utiliza SageMaker puntos de control con SageMaker Debugger y SageMaker Distributed y tiene problemas, consulte las páginas siguientes para obtener información sobre la solución de problemas y las consideraciones.