Habilite los puntos de control - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Habilite los puntos de control

Tras activar los puntos de control, SageMaker guarda los puntos de control en Amazon S3 y sincroniza el trabajo de entrenamiento con el bucket de puntos de control S3. Puede usar buckets S3 de uso general o de directorio S3 para su bucket S3 de puntos de control.

Diagrama de arquitectura en el que se escriben los puntos de control durante el entrenamiento.

El siguiente ejemplo muestra cómo configurar las rutas de los puntos de control al construir un estimador. SageMaker Para activar los puntos de control, añada los parámetros checkpoint_s3_uri y checkpoint_local_path a su estimador.

La siguiente plantilla de ejemplo muestra cómo crear un SageMaker estimador genérico y habilitar los puntos de control. Puede utilizar esta plantilla para los algoritmos compatibles especificando el parámetro image_uri. Para encontrar una imagen de Docker URIs para algoritmos compatibles con puntos de control SageMaker, consulta las rutas de registro y el código de ejemplo de Docker. También puede reemplazar estimator y por Estimator las clases principales y SageMaker estimadoras de otros marcos, como, y. TensorFlow PyTorch MXNet HuggingFace XGBoost

import sagemaker from sagemaker.estimator import Estimator bucket=sagemaker.Session().default_bucket() base_job_name="sagemaker-checkpoint-test" checkpoint_in_bucket="checkpoints" # The S3 URI to store the checkpoints checkpoint_s3_bucket="s3://{}/{}/{}".format(bucket, base_job_name, checkpoint_in_bucket) # The local path where the model will save its checkpoints in the training container checkpoint_local_path="/opt/ml/checkpoints" estimator = Estimator( ... image_uri="<ecr_path>/<algorithm-name>:<tag>" # Specify to use built-in algorithms output_path=bucket, base_job_name=base_job_name, # Parameters required to enable checkpointing checkpoint_s3_uri=checkpoint_s3_bucket, checkpoint_local_path=checkpoint_local_path )

Los dos parámetros siguientes especifican las rutas para los puntos de control:

  • checkpoint_local_path — Especifique la ruta local en la que el modelo guarda los puntos de control periódicamente en un contenedor de entrenamiento. El valor predeterminado se establece en '/opt/ml/checkpoints'. Si va a utilizar otros marcos o va a traer su propio contenedor de entrenamiento, asegúrese de que la configuración de puntos de control de su script de entrenamiento especifique la ruta a '/opt/ml/checkpoints'.

    nota

    Recomendamos especificar las rutas locales para que sean coherentes con la configuración predeterminada de '/opt/ml/checkpoints' los puntos de control. SageMaker Si prefieres especificar tu propia ruta local, asegúrate de hacer coincidir la ruta de guardado del punto de control que aparece en tu guion de entrenamiento y el checkpoint_local_path parámetro de los SageMaker estimadores.

  • checkpoint_s3_uri— URI A un depósito de S3 donde se almacenan los puntos de control en tiempo real. Puede especificar un depósito de S3 de uso general o de directorio de S3 para almacenar los puntos de control. Para obtener más información sobre los depósitos de directorio de S3, consulte los depósitos de directorio en la Guía del usuario de Amazon Simple Storage Service.

Para obtener una lista completa de los parámetros del SageMaker estimador, consulte el Estimador en la documentación de API Amazon Python. SageMaker SDK