Hiperparâmetros para otimizar o processo de aprendizado de seus modelos de geração de texto - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Hiperparâmetros para otimizar o processo de aprendizado de seus modelos de geração de texto

Você pode otimizar o processo de aprendizado do seu modelo básico ajustando qualquer combinação dos seguintes hiperparâmetros. Esses parâmetros estão disponíveis para todos os modelos.

  • Contagem de épocas: o epochCount hiperparâmetro determina quantas vezes o modelo passa por todo o conjunto de dados de treinamento. Ela influencia a duração do treinamento e pode evitar o ajuste excessivo quando configurada de forma adequada. Um grande número de épocas pode aumentar o tempo de execução geral dos trabalhos de ajuste fino. Recomendamos definir um grande MaxAutoMLJobRuntimeInSeconds dentro do TextGenerationJobConfig para evitar que os trabalhos CompletionCriteria de ajuste fino sejam interrompidos prematuramente.

  • Tamanho do lote: o batchSize hiperparâmetro define o número de amostras de dados usadas em cada iteração do treinamento. Isso pode afetar a velocidade de convergência e o uso da memória. Com um lote grande, o risco de erros de falta de memória (OOM) aumenta, o que pode surgir como um erro interno do servidor no piloto automático. Para verificar esse erro, verifique o grupo de /aws/sagemaker/TrainingJobs registros dos trabalhos de treinamento iniciados pelo seu trabalho de piloto automático. Você pode acessar esses CloudWatch logins no console AWS de gerenciamento. Escolha Registros e, em seguida, escolha o grupo de /aws/sagemaker/TrainingJobs registros. Para corrigir OOM erros, reduza o tamanho do lote.

    Recomendamos começar com um tamanho de lote de 1 e aumentá-lo incrementalmente até que ocorra um erro de falta de memória. Como referência, 10 épocas normalmente levam até 72h para serem concluídas.

  • Taxa de aprendizado: o learningRate hiperparâmetro controla o tamanho da etapa na qual os parâmetros de um modelo são atualizados durante o treinamento. Ele determina com que rapidez ou lentidão os parâmetros do modelo são atualizados durante o treinamento. Uma alta taxa de aprendizado significa que os parâmetros são atualizados por um grande tamanho de etapa, o que pode levar a uma convergência mais rápida, mas também pode fazer com que o processo de otimização ultrapasse a solução ideal e se torne instável. Uma baixa taxa de aprendizado significa que os parâmetros são atualizados em etapas pequenas, o que pode levar a uma convergência mais estável, mas ao custo de um aprendizado mais lento.

  • Etapas de aquecimento da taxa de aprendizado: O learningRateWarmupSteps hiperparâmetro especifica o número de etapas de treinamento durante as quais a taxa de aprendizado aumenta gradualmente antes de atingir sua meta ou valor máximo. Isso ajuda o modelo a convergir com mais eficiência e evitar problemas como divergência ou convergência lenta que podem ocorrer com uma taxa de aprendizado inicialmente alta.

Para saber como ajustar os hiperparâmetros para seu experimento de ajuste fino no piloto automático e descobrir seus possíveis valores, consulte. Como definir hiperparâmetros para otimizar o processo de aprendizado de um modelo