Como a aprendizagem linear funciona - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Como a aprendizagem linear funciona

Há três etapas envolvidas na implementação do algoritmo de aprendizagem linear: pré-processar, treinar e validar.

Etapa 1: Pré-processar

A normalização, ou o dimensionamento de recursos, é uma etapa de pré-processamento importante para determinadas funções de perda que garante que o modelo que está sendo treinado em um conjunto de dados não se torne dominado pelo peso de um único recurso. O algoritmo Amazon SageMaker Linear Learner tem uma opção de normalização para auxiliar nessa etapa de pré-processamento. Se a normalização estiver ativada, o algoritmo primeiro passará por uma pequena amostra dos dados para aprender o valor médio e o desvio padrão para cada recurso e para o rótulo. Cada um dos recursos no conjunto de dados completo é, então, deslocado para ter a média de zero e é dimensionado para ter um desvio padrão de unidade.

nota

Para obter melhores resultados, garanta que seus dados sejam embaralhados antes do treinamento. O treinamento com dados não embaralhados pode apresentar falha.

É possível configurar se o algoritmo de aprendizagem linear normaliza os dados do recurso e os rótulos usando os hiperparâmetros normalize_data e normalize_label, respectivamente. A normalização é habilitada por padrão para recursos e rótulos para regressão. Somente os recursos podem ser normalizados para classificação binária e esse é o comportamento padrão.

Etapa 2: Treinar

Com o algoritmo de aprendizagem linear, você treina com uma implementação distribuída de descida de gradiente estocástica (SGD). É possível controlar o processo de otimização escolhendo o algoritmo de otimização. Por exemplo, você pode optar por usar Adam AdaGrad, gradiente descendente estocástico ou outros algoritmos de otimização. Você também especifica seus hiperparâmetros, como dinâmica, taxa de aprendizagem e programação de taxa de aprendizagem. Se não tiver certeza de qual algoritmo ou valor de hiperparâmetro usar, escolha um padrão que funcione para a maioria dos conjuntos de dados.

Durante o treinamento, otimize simultaneamente vários modelos, cada um com os objetivos levemente diferentes. Por exemplo, é possível variar a regularização L1 ou L2 e testar diferentes configurações de otimizador.

Etapa 3: Validar e definir o limite

Ao treinar vários modelos em paralelo, os modelos serão avaliados com relação a um conjunto de validações para selecionar o melhor modelo após a conclusão do treinamento. Para regressão, o melhor modelo é aquele que atinge a melhor perda no conjunto de validações. Para classificação, uma amostra do conjunto de validações é usada para calibrar o limite de classificação. O melhor modelo selecionado é aquele que atende aos melhores critérios da seleção de classificação binária no conjunto de validações. Exemplos desses critérios incluem a medida F1, a acurácia e a perda de entropia cruzada.

nota

Se o algoritmo não receber um conjunto de validações, não será possível avaliar e selecionar o melhor modelo. Para aproveitar o treinamento paralelo e a seleção de modelos, forneça um conjunto de validações ao algoritmo.