Ajuste do modelo: subajuste x sobreajuste - Amazon Machine Learning

Não estamos mais atualizando o serviço Amazon Machine Learning nem aceitando novos usuários para ele. Essa documentação está disponível para usuários existentes, mas não estamos mais atualizando-a. Para obter mais informações, consulte O que é o Amazon Machine Learning.

Ajuste do modelo: subajuste x sobreajuste

Compreender o ajuste de modelo é importante para entender a causa raiz da precisão de modelo insatisfatória. Essa compreensão orientará você a tomar medidas corretivas. Podemos determinar se um modelo preditivo está fazendo o subajuste ou o sobreajuste dos dados de treinamento consultando o erro de previsão nos dados de treinamento e nos dados de avaliação.

Three graphs showing underfitting, balanced, and overfitting models with data points and trend lines.

O modelo está fazendo o subajuste dos dados de treinamento quando o modelo desempenha de modo insatisfatório nos dados de treinamento. Isso ocorre porque o modelo não consegue capturar o relacionamento entre os exemplos de entrada (geralmente denominado X) e os valores de destino (geralmente denominado Y). O modelo está fazendo o sobreajuste dos dados de treinamento quando você percebe que ele desempenha de modo satisfatório nos dados de treinamento, mas não nos dados de avaliação. Isso acontece porque o modelo está memorizando os dados reconhecidos e não consegue fazer a generalização nos exemplos não vistos.

O desempenho insatisfatório nos dados de treinamento pode ocorrer porque o modelo é muito simples (os recursos de entrada não são suficientemente expressivos) para descrever o destino. É possível melhorar o desempenho aumentando a flexibilidade do modelo. Para aumentar a flexibilidade do modelo, tente o seguinte:

  • Adicione novos recursos específicos de domínio e mais produtos cartesianos de recursos, e altere os tipos de processamento de recursos usados (por exemplo, aumentando o tamanho dos n-grams)

  • Diminua o volume de regularização usado

Se o modelo estiver fazendo o sobreajuste dos dados de treinamento, faz sentido realizar ações que reduzam sua flexibilidade. Para reduzir a flexibilidade do modelo, tente o seguinte:

  • Seleção de recurso: é recomendável usar algumas combinações de recursos, diminuir o tamanho dos n-grams e diminuir a quantidade de agrupamentos de atributos numéricos.

  • Aumente o volume de regularização usado.

A precisão nos dados de treinamento e de teste pode ser insatisfatória porque o algoritmo de aprendizagem não tem dados suficientes para serem aprendidos. Melhore o desempenho fazendo o seguinte:

  • Aumente a quantidade de exemplos de dados de treinamento.

  • Aumente o número de passagens nos dados de treinamento existentes.