Otimização de treinamento distribuído - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Otimização de treinamento distribuído

Personalizar hiperparâmetros para seu caso de uso e seus dados para obter a melhor eficiência de escalabilidade. Na discussão a seguir, destacamos algumas das variáveis de treinamento mais impactantes e fornecemos referências às state-of-the-art implementações para que você possa aprender mais sobre suas opções. Além disso, recomendamos que você consulte a documentação de treinamento distribuído do seu framework preferido.

Tamanho do lote

SageMaker kits de ferramentas distribuídos geralmente permitem que você treine em lotes maiores. Por exemplo, se um modelo cabe em um único dispositivo, mas só pode ser treinado com um lote pequeno, o uso do treinamento de paralelismo do modelos ou do treinamento de paralelismo de dados permite que você experimente lotes maiores.

Esteja ciente de que o tamanho do lote influencia diretamente na precisão do modelo, controlando a quantidade de ruído na atualização do modelo a cada iteração. O aumento do tamanho do lote reduz a quantidade de ruído na estimativa do gradiente, o que pode ser benéfico ao aumentar de tamanhos de lote muito pequenos, mas pode resultar em uma precisão de modelo degradada à medida que o tamanho do lote aumenta para valores grandes. 

dica

Ajuste seus hiperparâmetros para garantir que seu modelo treine até uma convergência satisfatória à medida que você aumenta o tamanho do lote.

Uma série de técnicas foram desenvolvidas para manter uma boa convergência do modelo quando o tamanho do lote é aumentado.

Tamanho do minilote

EmSGD, o tamanho do minilote quantifica a quantidade de ruído presente na estimativa do gradiente. Um minilote pequeno resulta em um gradiente de minilote muito ruidoso, que não é representativo do verdadeiro gradiente sobre o conjunto de dados. Um minilote grande resulta em um gradiente de minilote próximo ao gradiente verdadeiro sobre o conjunto de dados e potencialmente não barulhento o suficiente, provavelmente permanecerá preso em mínimos irrelevantes.

Para saber mais sobre essas técnicas, consulte os seguintes documentos: