AutoGluon-Hiperparâmetros tabulares - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

AutoGluon-Hiperparâmetros tabulares

A tabela a seguir contém o subconjunto de hiperparâmetros que são necessários ou mais comumente usados para o algoritmo Amazon SageMaker AutoGluon -Tabular. Os usuários definem esses parâmetros para facilitar a estimativa dos parâmetros do modelo a partir dos dados. O algoritmo SageMaker AutoGluon -Tabular é uma implementação do pacote -Tabular de código abertoAutoGluon.

nota

Os hiperparâmetros padrão são baseados em conjuntos de dados de exemplo no AutoGluon-Amostras tabulares de cadernos.

Por padrão, o algoritmo SageMaker AutoGluon -Tabular escolhe automaticamente uma métrica de avaliação com base no tipo de problema de classificação. O algoritmo detecta o tipo de problema de classificação com base no número de rótulos nos seus dados. Para problemas de regressão, a métrica de avaliação é a raiz do erro quadrático médio. Para problemas de classificação binária, a métrica de avaliação é a área sob a curva característica de operação do receptor (AUC). Para problemas de classificação multiclasse, a métrica de avaliação é a precisão. Você pode usar o hiperparâmetro eval_metric para alterar a métrica de avaliação padrão. Consulte a tabela a seguir para obter mais informações sobre hiperparâmetros AutoGluon -Tabulares, incluindo descrições, valores válidos e valores padrão.

Nome do parâmetro Descrição
eval_metric

A métrica de avaliação para os dados de validação. Se eval_metric for definido como o valor padrão "auto", o algoritmo escolherá automaticamente uma métrica de avaliação com base no tipo de problema de classificação:

  • "root_mean_squared_error" para regressão

  • "roc_auc" para classificação binária

  • "accuracy" para classificação de várias classes

Valores válidos: string, consulte a AutoGluon documentação para valores válidos.

Valor padrão: "auto".

presets

Lista de configurações predefinidas para vários argumentos em fit().

  • "best_quality": alta precisão preditiva, tempos de inferência mais lentos e maior uso do disco

  • "high_quality": alta precisão preditiva e inferência rápida

  • "good_quality": boa precisão preditiva e inferência muito rápida

  • "medium_quality": precisão preditiva média, inferência e tempo de treinamento muito rápidos

  • "optimize_for_deployment": exclua modelos não utilizados e remova artefatos de treinamento

  • "interpretable": ajusta-se apenas a modelos interpretáveis baseados em regras do pacote imodels

Para obter mais detalhes, consulte AutoGluon Preditores.

Valores válidos: string, qualquer um dos seguintes ("best_quality", "high_quality", good_quality", "medium_quality", "optimize_for_deployment", or "interpretable").

Valor padrão: "medium_quality".

auto_stack

Se AutoGluon deve utilizar automaticamente o ensacamento e o conjunto de pilhas de várias camadas para aumentar a precisão preditiva. Defina auto_stack como "True" se você está disposto a tolerar tempos de treinamento mais longos para maximizar a precisão preditiva. Isso define automaticamente os argumentos num_bag_folds e num_stack_levels baseado nas propriedades do conjunto de dados.

Valores válidos: string: "True" ou "False".

Valor padrão: "False".

num_bag_folds

Número de dobras usadas para ensacamento dos modelos. Quando num_bag_folds é igual a k, o tempo de treinamento é aproximadamente aumentado em um fator de k. Defina num_bag_folds como 0 para desativar o ensacamento. Isso está desativado por padrão, mas recomendamos o uso de valores entre 5 e 10 para maximizar o desempenho preditivo. O aumento de num_bag_folds resulta em modelos com menor viés, mas que são mais propensos a sobreajustes. Um é um valor inválido para esse parâmetro e gerará um ValueError. Valores maiores que 10 podem produzir retornos decrescentes e até mesmo prejudicar os resultados gerais devido ao sobreajuste. Para melhorar ainda mais as previsões, evite aumentar num_bag_folds e, em vez disso, aumente num_bag_sets.

Valores válidos: string, qualquer número inteiro entre (e incluindo) "0" e "10".

Valor padrão: "0".

num_bag_sets

Número de repetições do ensacamento de kfold a serem realizadas (os valores devem ser maiores ou iguais a 1). O número total de modelos treinados durante o ensacamento é igual a num_bag_folds * num_bag_sets. Este parâmetro é padronizado como um se time_limit não for especificado. Este parâmetro é desativado se num_bag_folds não for especificado. Valores maiores que um resultam em desempenho preditivo superior, especialmente em problemas menores e com empilhamento habilitado.

Valores válidos: inteiro, intervalo: [1, 20].

Valor padrão: 1.

num_stack_levels

Número de níveis de empilhamento a serem usados no conjunto de pilhas. Aumenta aproximadamente o tempo de treinamento de modelos em um fator de num_stack_levels + 1. Defina esse parâmetro como 0 para desativar o agrupamento de pilhas. Este parâmetro está desativado por padrão, mas recomendamos usar valores entre 1 e 3 para maximizar o desempenho preditivo. Para evitar o sobreajuste e a ValueError, num_bag_folds deve ser maiores ou iguais a 2.

Valores válidos: flutuante, intervalo: [0, 3].

Valor padrão: 0.

refit_full

Se deve ou não treinar novamente todos os modelos em todos os dados (treinamento e validação) após o procedimento normal de treinamento. Para obter mais detalhes, consulte AutoGluon Preditores.

Valores válidos: string: "True" ou "False".

Valor padrão: "False".

set_best_to_refit_full

Se deve ou não alterar o modelo padrão que o preditor usa para previsão. Se set_best_to_refit_full estiver definido como "True", o modelo padrão mudará para o modelo que exibiu a maior pontuação de validação como resultado da remontagem (ativada por refit_full). Válido somente se refit_full estiver definido.

Valores válidos: String: "True" ou "False".

Valor padrão: "False".

save_space

Se deve ou não reduzir a memória e o tamanho do disco do preditor, excluindo arquivos de modelo auxiliares que não são necessários para previsão de novos dados. Isso não tem impacto na precisão da inferência. Recomendamos definir save_space como "True" se o único objetivo é usar o modelo treinado para previsão. Certas funcionalidades avançadas podem não estar mais disponíveis save_space se estiverem definidas como "True". Consulte a documentação predictor.save_space() para obter mais detalhes.

Valores válidos: string: "True" ou "False".

Valor padrão: "False".

verbosity

A verbosidade das mensagens impressas. Os níveis verbosity variam de 0 a 4, com níveis mais altos correspondendo a instruções de impressão mais detalhadas. Um verbosity de 0 suprime os avisos.

Valores válidos: número inteiro, qualquer um dos seguintes: (0, 1, 2, 3 ou 4).

Valor padrão: 2.