Ativar ponto de verificação - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Ativar ponto de verificação

Depois de ativar o ponto de verificação, SageMaker salva os pontos de verificação no Amazon S3 e sincroniza seu trabalho de treinamento com o bucket do ponto de verificação S3. Você pode usar buckets S3 de uso geral ou buckets de diretório S3 para seu bucket S3 de ponto de verificação.

Diagrama de arquitetura dos pontos de verificação de escrita durante o treinamento.

O exemplo a seguir mostra como configurar caminhos de ponto de verificação ao criar um SageMaker estimador. Para habilitar pontos de verificação, adicione os parâmetros checkpoint_s3_uri e checkpoint_local_path ao seu estimador.

O modelo de exemplo a seguir mostra como criar um SageMaker estimador genérico e ativar o checkpoint. Você pode usar esse modelo para os algoritmos compatíveis especificando o parâmetro image_uri. Para encontrar uma imagem do Docker URIs para algoritmos com checkpoint suportado por SageMaker, consulte Docker Registry Paths and Example Code. Você também pode Estimator substituir estimator e por classes principais SageMaker de estimadores e classes de estimadores de outras estruturas, como,, e. TensorFlow PyTorch MXNet HuggingFace XGBoost

import sagemaker from sagemaker.estimator import Estimator bucket=sagemaker.Session().default_bucket() base_job_name="sagemaker-checkpoint-test" checkpoint_in_bucket="checkpoints" # The S3 URI to store the checkpoints checkpoint_s3_bucket="s3://{}/{}/{}".format(bucket, base_job_name, checkpoint_in_bucket) # The local path where the model will save its checkpoints in the training container checkpoint_local_path="/opt/ml/checkpoints" estimator = Estimator( ... image_uri="<ecr_path>/<algorithm-name>:<tag>" # Specify to use built-in algorithms output_path=bucket, base_job_name=base_job_name, # Parameters required to enable checkpointing checkpoint_s3_uri=checkpoint_s3_bucket, checkpoint_local_path=checkpoint_local_path )

Os dois parâmetros a seguir especificam caminhos para pontos de verificação:

  • checkpoint_local_path – Especifique o caminho local em que o modelo salva os pontos de verificação periodicamente em um contêiner de treinamento. O caminho padrão é definido como '/opt/ml/checkpoints'. Se você estiver usando outros frameworks ou trazendo seu próprio contêiner de treinamento, certifique-se de que a configuração do ponto de verificação do seu script de treinamento especifique o caminho para '/opt/ml/checkpoints'.

    nota

    Recomendamos especificar os caminhos locais '/opt/ml/checkpoints' para que sejam consistentes com as configurações padrão do SageMaker ponto de verificação. Se você preferir especificar seu próprio caminho local, certifique-se de combinar o caminho de salvamento do ponto de verificação em seu script de treinamento e o checkpoint_local_path parâmetro dos SageMaker estimadores.

  • checkpoint_s3_uri— URI Para um bucket S3 onde os pontos de verificação são armazenados em tempo real. Você pode especificar um bucket de uso geral do S3 ou um bucket de diretório do S3 para armazenar seus pontos de verificação. Para obter mais informações sobre buckets de diretório do S3, consulte Buckets de diretório no Guia do usuário do Amazon Simple Storage Service.

Para encontrar uma lista completa dos parâmetros do SageMaker estimador, consulte o Estimador na documentação do API Amazon Python. SageMaker SDK