As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Pontos de verificação na Amazon SageMaker
Use pontos de verificação na Amazon SageMaker para salvar o estado dos modelos de aprendizado de máquina (ML) durante o treinamento. Os pontos de verificação são snapshots do modelo e podem ser configurados pelas funções de retorno de chamada dos frameworks de ML. Você pode usar pontos de verificação salvos para reiniciar um trabalho de treinamento a partir do ponto de verificação salvo pela última vez.
Usando pontos de verificação, você pode fazer o seguinte:
-
Salvar os snapshots do seu modelo durante o treinamento devido a uma interrupção inesperada na instância ou trabalho de treinamento.
-
Retome o treinamento do modelo no futuro a partir de um ponto de verificação.
-
Analise o modelo em estágios intermediários de treinamento.
-
Use pontos de verificação com o S3 Express One Zone para aumentar as velocidades de acesso.
-
Use pontos de verificação com treinamento local SageMaker gerenciado para economizar nos custos de treinamento.
O mecanismo de SageMaker treinamento usa contêineres de treinamento em EC2 instâncias da Amazon, e os arquivos do ponto de verificação são salvos em um diretório local dos contêineres (o padrão é/opt/ml/checkpoints
). SageMaker fornece a funcionalidade de copiar os pontos de verificação do caminho local para o Amazon S3 e sincroniza automaticamente os pontos de verificação desse diretório com o S3. Os pontos de verificação existentes no S3 são gravados no SageMaker contêiner no início do trabalho, permitindo que os trabalhos sejam retomados a partir de um ponto de verificação. Os pontos de verificação adicionados à pasta S3 após o início do trabalho não são copiados para o contêiner de treinamento. SageMaker também grava novos pontos de verificação do contêiner no S3 durante o treinamento. Se um ponto de verificação for excluído no SageMaker contêiner, ele também será excluído na pasta S3.
Você pode usar pontos de verificação na Amazon SageMaker com a classe de armazenamento Amazon S3 Express One Zone (S3 Express One Zone) para acesso mais rápido aos pontos de verificação. Ao ativar o ponto de verificação e especificar o S3 URI para o destino de armazenamento do ponto de verificação, você pode fornecer um S3 URI para uma pasta em um bucket de uso geral do S3 ou em um bucket de diretório do S3. Os buckets de diretório do S3 integrados só SageMaker podem ser criptografados com criptografia do lado do servidor com chaves gerenciadas do Amazon S3 (-S3). SSE Atualmente, a criptografia do lado do servidor com AWS KMS chaves (SSE-KMS) não é suportada. Para obter mais informações sobre o S3 Express One Zone e os buckets de diretório do S3, consulte O que é o S3 Express One Zone.
Se você estiver usando pontos de verificação com treinamento spot SageMaker gerenciado, SageMaker gerencia a verificação do seu modelo de treinamento em uma instância spot e a retomada do trabalho de treinamento na próxima instância spot. Com o treinamento local SageMaker gerenciado, você pode reduzir significativamente o tempo faturável para treinar modelos de ML. Para obter mais informações, consulte Treinamento local gerenciado na Amazon SageMaker.
Tópicos
Pontos de verificação para estruturas e algoritmos em SageMaker
Use pontos de verificação para salvar instantâneos de modelos de ML criados em suas estruturas preferidas. SageMaker
SageMaker estruturas e algoritmos que suportam pontos de verificação
SageMaker suporta pontos de verificação para AWS Deep Learning Containers e um subconjunto de algoritmos integrados sem exigir alterações no script de treinamento. SageMaker salva os pontos de verificação no caminho local padrão '/opt/ml/checkpoints'
e os copia para o Amazon S3.
-
Deep Learning Containers: TensorFlowPyTorch
, MXNet ,, e HuggingFace nota
Se você estiver usando o estimador de HuggingFace estrutura, precisará especificar um caminho de saída do ponto de verificação por meio de hiperparâmetros. Para obter mais informações, consulte Executar treinamento SageMaker na Amazon
na HuggingFacedocumentação. -
Algoritmos integrados: classificação de imagens, detecção de objetos, segmentação semântica e XGBoost(0,90-1 ou posterior)
nota
Se você estiver usando o XGBoost algoritmo no modo de estrutura (modo script), precisará trazer um script de XGBoost treinamento com ponto de verificação configurado manualmente. Para obter mais informações sobre os métodos XGBoost de treinamento para salvar instantâneos do modelo, consulte Treinamento XGBoost
na documentação do XGBoost SDK Python.
Se um algoritmo pré-criado que não suporta pontos de verificação for usado em um trabalho de treinamento local gerenciado, SageMaker não permita um tempo máximo de espera superior a uma hora pelo trabalho, a fim de limitar o tempo de treinamento desperdiçado devido a interrupções.
Para contêineres de treinamento personalizados e outros frameworks
Se você estiver usando seus próprios contêineres de treinamento, scripts de treinamento ou outras estruturas não listadas na seção anterior, deverá configurar adequadamente seu script de treinamento usando retornos de chamada ou treinamento APIs para salvar pontos de verificação no caminho local ('/opt/ml/checkpoints'
) e carregar a partir do caminho local em seu script de treinamento. SageMaker os estimadores podem se sincronizar com o caminho local e salvar os pontos de verificação no Amazon S3.
Considerações sobre pontos de verificação
Considere o seguinte ao usar pontos de verificação em SageMaker.
-
Para evitar substituições em treinamentos distribuídos com várias instâncias, você deve configurar manualmente os nomes e caminhos dos arquivos do ponto de verificação em seu script de treinamento. A configuração de alto nível do SageMaker ponto de verificação especifica um único local do Amazon S3 sem sufixos ou prefixos adicionais para marcar pontos de verificação de várias instâncias.
-
O SageMaker Python não SDK suporta configuração de alto nível para frequência de checkpoint. Para controlar a frequência de pontos de verificação, modifique seu script de treinamento usando as funções de salvamento do modelo ou os retornos de chamada do ponto de verificação do framekwork.
-
Se você usa SageMaker pontos de verificação com o SageMaker Debugger e SageMaker distribuídos e está enfrentando problemas, consulte as páginas a seguir para solução de problemas e considerações.