Activer le point de contrôle - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Activer le point de contrôle

Une fois que vous avez activé le point de contrôle, l' SageMaker IA enregistre les points de contrôle sur Amazon S3 et synchronise votre tâche de formation avec le compartiment de point de contrôle S3. Vous pouvez utiliser des compartiments S3 à usage général ou des compartiments de répertoire S3 pour votre compartiment S3 de point de contrôle.

Diagramme d'architecture de l'écriture des points de contrôle pendant l'entraînement.

L'exemple suivant montre comment configurer les chemins des points de contrôle lorsque vous créez un estimateur SageMaker AI. Pour activer la création de points de reprise, ajoutez les paramètres checkpoint_s3_uri et checkpoint_local_path à votre estimateur.

L'exemple de modèle suivant montre comment créer un estimateur SageMaker IA générique et activer le point de contrôle. Vous pouvez utiliser ce modèle pour les algorithmes pris en charge en spécifiant le paramètre image_uri. Pour trouver une image Docker URIs pour les algorithmes dont le point de contrôle est pris en charge par l' SageMaker IA, voir Chemins de registre Docker et exemple de code. Vous pouvez également remplacer estimator et par les classes Estimator parentes d'estimateurs et les classes d'estimateurs d'autres frameworks d' SageMaker IA, telles que,, et. TensorFlow PyTorch MXNet HuggingFace XGBoost

import sagemaker from sagemaker.estimator import Estimator bucket=sagemaker.Session().default_bucket() base_job_name="sagemaker-checkpoint-test" checkpoint_in_bucket="checkpoints" # The S3 URI to store the checkpoints checkpoint_s3_bucket="s3://{}/{}/{}".format(bucket, base_job_name, checkpoint_in_bucket) # The local path where the model will save its checkpoints in the training container checkpoint_local_path="/opt/ml/checkpoints" estimator = Estimator( ... image_uri="<ecr_path>/<algorithm-name>:<tag>" # Specify to use built-in algorithms output_path=bucket, base_job_name=base_job_name, # Parameters required to enable checkpointing checkpoint_s3_uri=checkpoint_s3_bucket, checkpoint_local_path=checkpoint_local_path )

Les deux paramètres suivants spécifient les chemins d'accès pour la création de points de reprise :

  • checkpoint_local_path : spécifiez le chemin d'accès local où le modèle enregistre les points de contrôle périodiquement dans un conteneur d'entraînement. Le chemin d'accès par défaut est défini sur '/opt/ml/checkpoints'. Si vous utilisez d'autres cadres ou que vous importez votre propre conteneur d'entraînement, veillez à ce que la configuration de point de contrôle de votre script d'entraînement spécifie le chemin d'accès à '/opt/ml/checkpoints'.

    Note

    Nous vous recommandons de spécifier les chemins locaux de manière '/opt/ml/checkpoints' à ce qu'ils soient cohérents avec les paramètres de point de contrôle par défaut de l' SageMaker IA. Si vous préférez spécifier votre propre chemin local, assurez-vous de faire correspondre le chemin de sauvegarde des points de contrôle dans votre script d'entraînement et les checkpoint_local_path paramètres des estimateurs d' SageMaker IA.

  • checkpoint_s3_uri : l'URI vers un compartiment S3 où les points de contrôle sont stockés en temps réel. Vous pouvez spécifier un compartiment S3 à usage général ou un compartiment de répertoire S3 pour stocker vos points de contrôle. Pour plus d'informations sur les compartiments d'annuaire S3, consultez la section Buckets de répertoire dans le guide de l'utilisateur d'Amazon Simple Storage Service.

Pour obtenir la liste complète des paramètres de l'estimateur SageMaker AI, consultez l'API Estimator dans la documentation du SDK Amazon Python SageMaker .