Hiperparâmetros da aprendizagem linear - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Hiperparâmetros da aprendizagem linear

A tabela a seguir contém os hiperparâmetros para o algoritmo de aprendizagem linear. Esses parâmetros são definidos pelos usuários para facilitar a estimativa dos parâmetros do modelo a partir dos dados. Os hiperparâmetros necessários que devem ser definidos são listados primeiro, em ordem alfabética. Os hiperparâmetros opcionais que podem ser configurados são listados em seguida, também em ordem alfabética. Quando um hiperparâmetro é definido comoauto, a Amazon calcula e define SageMaker automaticamente o valor desse hiperparâmetro.

Nome do parâmetro Descrição
num_classes

O número de classes para a variável de resposta. O algoritmo assume que as classes estejam rotuladas como 0, ..., num_classes - 1.

Obrigatório quando predictor_type é multiclass_classifier. Caso contrário, o algoritmo o ignorará.

Valores válidos: números inteiros de 3 a 1.000.000

predictor_type

Especifica o tipo de variável de destino como uma classificação binária, classificação multiclasse ou regressão.

Obrigatório

Valores válidos: binary_classifier, multiclass_classifier ou regressor

accuracy_top_k

Ao calcular a métrica de precisão top-k para classificação multiclasse, o valor de k. Se o modelo atribuir uma das pontuações top-k ao rótulo true, um exemplo será pontuado como correto.

Opcional

Valores válidos: números inteiros positivos

Valor padrão: 3

balance_multiclass_weights

Especifica se pesos de classe devem ser usados, que dão a cada classe uma importância igual na função de perda. Usado somente quando predictor_type é multiclass_classifier.

Opcional

Valores válidos: true, false

Valor padrão: false

beta_1

A taxa de degradação exponencial para estimativas de primeiro momento. Aplica-se apenas quando o valor optimizer é adam.

Opcional

Valores válidos: auto ou um valor de ponto flutuante entre 0 e 1,0

Valor padrão: auto

beta_2

A taxa de degradação exponencial para estimativas de segundo momento. Aplica-se apenas quando o valor optimizer é adam.

Opcional

Valores válidos: auto ou um número inteiro de ponto flutuante entre 0 e 1,0

Valor padrão: auto

bias_lr_mult

Permite uma taxa de aprendizagem diferente para o termo de desvio. A taxa real de aprendizagem para a polarização é learning_rate * bias_lr_mult.

Opcional

Valores válidos: auto ou um número inteiro positivo de ponto flutuante

Valor padrão: auto

bias_wd_mult

Permite regularização diferente para o termo de desvio. O peso da regularização L2 real para a polarização é wd * bias_wd_mult. Por padrão, não há regularização no termo de polarização.

Opcional

Valores válidos: auto ou um número inteiro não negativo de ponto flutuante

Valor padrão: auto

binary_classifier_model_selection_criteria

Quando predictor_type está definido como binary_classifier, o critério de avaliação do modelo para o conjunto de dados de validação (ou para o conjunto de dados de treinamento, se você não fornecer um conjunto de dados de validação). Os critérios incluem:

  • accuracy—O modelo com a maior precisão.

  • f_beta—O modelo com a maior pontuação F1. O padrão é F1.

  • precision_at_target_recall—O modelo com a maior precisão em um determinado destino de recall.

  • recall_at_target_precision—O modelo com o maior recall em um determinado destino de precisão.

  • loss_function—O modelo com o valor mais baixo da função de perda usada no treinamento.

Opcional

Valores válidos: accuracy, f_beta, precision_at_target_recall, recall_at_target_precision ou loss_function

Valor padrão: accuracy

early_stopping_patience Se nenhuma melhoria for feita na métrica relevante, o número de epochs a aguardar antes de terminar o treinamento. Se você forneceu um valor para binary_classifier_model_selection_criteria, a métrica é esse valor. Caso contrário, a métrica é igual ao valor especificado para o hiperparâmetro loss.

A métrica é avaliada nos dados de validação. Se você não forneceu dados de validação, a métrica é sempre o mesmo que o valor especificado para o hiperparâmetro loss e é avaliada nos dados de treinamento. Para desabilitar a interrupção precoce, defina early_stopping_patience como um valor maior que o valor especificado para epochs.

Opcional

Valores válidos: inteiro positivo

Valor padrão: 3

early_stopping_tolerance

A tolerância relativa para medir uma melhoria na perda. Se a proporção for menor que esse valor (em relação à melhora na perda quando dividida pela melhor perda anterior), a interrupção precoce considerará que não houve melhora.

Opcional

Valores válidos: número inteiro positivo de ponto flutuante

Valor padrão: 0.001

epochs

O número máximo de passagens nos dados de treinamento.

Opcional

Valores válidos: inteiro positivo

Valor padrão: 15

f_beta

O valor do beta a ser usado ao calcular métricas de pontuação F para classificação binária ou de várias classes. Também usado se o valor especificado para binary_classifier_model_selection_criteria for f_beta.

Opcional

Valores válidos: números inteiros positivos de ponto flutuante

Valor padrão: 1.0

feature_dim

O número de recursos nos dados de entrada.

Opcional

Valores válidos: auto ou um número inteiro positivo

Valores padrão: auto

huber_delta

O parâmetro para a perda de Huber. Durante o treinamento e a avaliação da métrica, calcula a perda L2 para erros menores do que delta, bem como a perda L1 para erros maiores do que delta.

Opcional

Valores válidos: número inteiro positivo de ponto flutuante

Valor padrão: 1.0

init_bias

Peso inicial para o termo de polarização.

Opcional

Valores válidos: número inteiro de ponto flutuante

Valor padrão: 0

init_method

Define a função de distribuição inicial usada para pesos de modelo. As funções incluem:

  • uniform—Distribuído uniformemente entre (escala -, escala +)

  • normal—Distribuição normal, com média 0 e sigma

Opcional

Valores válidos: uniform ou normal

Valor padrão: uniform

init_scale

Dimensiona uma distribuição uniforme inicial para pesos de modelo. Aplicável apenas quando o hiperparâmetro init_method está definido como uniform.

Opcional

Valores válidos: número inteiro positivo de ponto flutuante

Valor padrão: 0.07

init_sigma

O desvio padrão inicial para a distribuição normal. Aplicável apenas quando o hiperparâmetro init_method está definido como normal.

Opcional

Valores válidos: número inteiro positivo de ponto flutuante

Valor padrão: 0,01

l1

O parâmetro de regularização L1. Se você não quiser usar a regularização L1, defina o valor como 0.

Opcional

Valores válidos: auto ou flutuante não negativo

Valor padrão: auto

learning_rate

O tamanho da etapa usado pelo otimizador para atualizações de parâmetros.

Opcional

Valores válidos: auto ou um número inteiro positivo de ponto flutuante

Valor padrão: auto, cujo valor depende do otimizador escolhido.

loss

Especifica a função de perda.

As funções de perda disponíveis e seus valores padrão dependem do valor de predictor_type:

  • Se predictor_type estiver definido como regressor, as opções disponíveis serão auto, squared_loss, absolute_loss, eps_insensitive_squared_loss, eps_insensitive_absolute_loss, quantile_loss e huber_loss. O valor padrão para auto é squared_loss.

  • Se predictor_type estiver definido como binary_classifier, as opções disponíveis serão auto,logistic e hinge_loss. O valor padrão para auto é logistic.

  • Se predictor_type estiver definido como multiclass_classifier, as opções disponíveis serão auto e softmax_loss. O valor padrão para auto é softmax_loss.

Valores válidos: auto, logistic, squared_loss, absolute_loss, hinge_loss, eps_insensitive_squared_loss, eps_insensitive_absolute_loss, quantile_loss ou huber_loss

Opcional

Valor padrão: auto

loss_insensitivity

O parâmetro para o tipo de perda insensível a épsilon. Durante o treinamento e a avaliação da métrica, qualquer erro menor do que esse valor será considerado zero.

Opcional

Valores válidos: número inteiro positivo de ponto flutuante

Valor padrão: 0,01

lr_scheduler_factor

Para cada hiperparâmetro lr_scheduler_step, a taxa de aprendizagem é diminuída por essa quantidade. Aplicável apenas quando o hiperparâmetro use_lr_scheduler está definido como true.

Opcional

Valores válidos: auto ou um número inteiro positivo de ponto flutuante entre 0 e 1

Valor padrão: auto

lr_scheduler_minimum_lr

A taxa de aprendizagem nunca diminui para um valor menor que o valor definido para lr_scheduler_minimum_lr. Aplicável apenas quando o hiperparâmetro use_lr_scheduler está definido como true.

Opcional

Valores válidos: auto ou um número inteiro positivo de ponto flutuante

Valores padrão: auto

lr_scheduler_step

O número de passos entre as diminuições da taxa de aprendizagem. Aplicável apenas quando o hiperparâmetro use_lr_scheduler está definido como true.

Opcional

Valores válidos: auto ou um número inteiro positivo

Valor padrão: auto

margin

A margem para a função hinge_loss.

Opcional

Valores válidos: número inteiro positivo de ponto flutuante

Valor padrão: 1.0

mini_batch_size

O número de observações por minilote para o iterador de dados.

Opcional

Valores válidos: inteiro positivo

Valor padrão: 1000

momentum

A dinâmica do otimizador sgd.

Opcional

Valores válidos: auto ou um número inteiro de ponto flutuante entre 0 e 1,0

Valor padrão: auto

normalize_data

Normaliza os dados do recurso antes do treinamento. A normalização de dados desloca os dados de cada recurso para ter uma média de zero e os dimensiona para ter um desvio padrão de unidade.

Opcional

Valores válidos: auto, true ou false

Valor padrão: true

normalize_label

Normaliza o rótulo. A normalização de rótulos desloca o rótulo para ter uma média de zero e o dimensiona para ter um desvio padrão de unidade.

O valor auto padrão normaliza o rótulo para problemas de regressão, mas não para problemas de classificação. Se você definir o hiperparâmetro normalize_label como true para problemas de classificação, o algoritmo o ignorará.

Opcional

Valores válidos: auto, true ou false

Valor padrão: auto

num_calibration_samples

O número de observações do conjunto de dados de validação a ser usado para calibração do modelo (ao encontrar o melhor limite).

Opcional

Valores válidos: auto ou um número inteiro positivo

Valor padrão: auto

num_models

O número de modelos para treinar em paralelo. Para o padrão, auto, o algoritmo decide o número de modelos paralelos a ser treinado. Um modelo é treinado de acordo com o parâmetro de treinamento indicado (regularização, otimizador e perda), e o restante, por parâmetros aproximados.

Opcional

Valores válidos: auto ou um número inteiro positivo

Valores padrão: auto

num_point_for_scaler

O número de pontos de dados a serem usados para calcular a normalização ou a imparcialidade de termos.

Opcional

Valores válidos: inteiro positivo

Valor padrão: 10,000

optimizer

O algoritmo de otimização a ser usado.

Opcional

Valores válidos:

  • auto—O valor padrão.

  • sgd—Descida de gradiente estocástica.

  • adamEstimativa de dinâmica adaptativa.

  • rmsprop—Uma técnica de otimização baseada em gradiente que usa uma média móvel de gradientes quadrados para normalizar o gradiente.

Valor padrão: auto. A configuração padrão para auto é adam.

positive_example_weight_mult

O peso atribuído a exemplos positivos ao treinar um classificador binário. O peso de exemplos negativos é fixado em 1. Se quiser que o algoritmo escolha um peso, de forma que os erros na classificação de exemplos negativos vs. positivos tenham impacto igual na perda de treinamento, especifique balanced. Se quiser que o algoritmo escolha o peso que otimiza o desempenho, especifique auto.

Opcional

Valores válidos: balanced, auto ou um número inteiro positivo de ponto flutuante

Valor padrão: 1.0

quantile

O quantil para perda de quantil. Para o quantil q, o modelo tenta produzir previsões de modo que o valor de true_label seja maior que a previsão com probabilidade q.

Opcional

Valores válidos: Número inteiro de ponto flutuante entre 0 e 1

Valor padrão: 0.5

target_precision

A precisão de destino. Se binary_classifier_model_selection_criteria for recall_at_target_precision, a precisão será mantida nesse valor enquanto o recall for maximizada.

Opcional

Valores válidos: Número inteiro de ponto flutuante entre 0 e 1,0

Valor padrão: 0.8

target_recall

O recall de destino. Se binary_classifier_model_selection_criteria for precision_at_target_recall , o recall será mantido nesse valor enquanto a precisão estiver maximizada.

Opcional

Valores válidos: Número inteiro de ponto flutuante entre 0 e 1,0

Valor padrão: 0.8

unbias_data

Imparcializa os recursos antes do treinamento para que a média seja 0. Por padrão, os dados são imparciais quando o hiperparâmetro use_bias está definido como true.

Opcional

Valores válidos: auto, true ou false

Valor padrão: auto

unbias_label

Imparcializa os rótulos antes do treinamento para que a média seja 0. Aplica-se à regressão somente se o hiperparâmetro use_bias estiver definido como true.

Opcional

Valores válidos: auto, true ou false

Valor padrão: auto

use_bias

Especifica se o modelo deve incluir um termo de polarização, que é o termo de interceptação na equação linear.

Opcional

Valores válidos: true ou false

Valor padrão: true

use_lr_scheduler

Se um programador deve ou não ser usado para a taxa de aprendizagem. Se quiser usar um agendador, especifique true.

Opcional

Valores válidos: true ou false

Valor padrão: true

wd

O parâmetro de degradação de peso, também conhecido como o parâmetro de regularização L2. Se você não quiser usar a regularização L2, defina o valor como 0.

Opcional

Valores válidos: auto ou um número inteiro não negativo de ponto flutuante

Valor padrão: auto