Hiperparâmetros Sequence-to-Sequence - Amazon SageMaker

Hiperparâmetros Sequence-to-Sequence

A tabela a seguir lista os hiperparâmetros que você pode definir no treinamento com o algoritmo Sequence-to-Sequence (seq2seq) do Amazon SageMaker.

Nome do parâmetro Descrição
batch_size

Tamanho de minilote para a descida do gradiente.

Opcional

Valores válidos: inteiro positivo

Valor padrão: 64

beam_size

Comprimento do feixe de pesquisa de feixe. Usado durante o treinamento para calcular bleu e usado durante a inferência.

Opcional

Valores válidos: inteiro positivo

Valor padrão: 5

bleu_sample_size

Número de instâncias a escolher do conjunto de dados de validação para decodificar e calcular a pontuação bleu durante o treinamento. Defina como -1 para usar o conjunto de validação completo (se bleu for escolhido como optimized_metric).

Opcional

Valores válidos: inteiro

Valor padrão: 0

bucket_width

Retorna os buckets (de origem e destino) até o (max_seq_len_source, max_seq_len_target). O lado mais longo dos dados utiliza passos de bucket_width, enquanto o mais curto utiliza passos reduzidos pela média da proporção de comprimento da origem e do destino. Se um dos lados atingir seu comprimento máximo antes do outro, a largura dos buckets adicionais do lado em questão será fixada em max_len.

Opcional

Valores válidos: inteiro positivo

Valor padrão: 10

bucketing_enabled

Defina como false para desabilitar o armazenamento em buckets e desenrolar até o comprimento máximo.

Opcional

Valores válidos: true ou false

Valor padrão: true

checkpoint_frequency_num_batches

Ponto de verificação e avaliação a cada x lotes. Esse hiperparâmetro de ponto de verificação é passado para o algoritmo seq2seq do SageMaker para interromper antecipadamente e recuperar o melhor modelo. O ponto de verificação do algoritmo é executado localmente no contêiner de treinamento do algoritmo e não é compatível com o ponto de verificação do SageMaker. O algoritmo salva temporariamente os pontos de verificação em um caminho local e armazena o melhor artefato do modelo no caminho de saída do modelo no S3 após a interrupção do trabalho de treinamento.

Opcional

Valores válidos: inteiro positivo

Valor padrão: 1000

checkpoint_threshold

O número máximo de pontos de verificação permitido no modelo para que não haja aumento de optimized_metric no conjunto de dados de validação antes de o treinamento ser interrompido. Esse hiperparâmetro de ponto de verificação é passado para o algoritmo seq2seq do SageMaker para interromper antecipadamente e recuperar o melhor modelo. O ponto de verificação do algoritmo é executado localmente no contêiner de treinamento do algoritmo e não é compatível com o ponto de verificação do SageMaker. O algoritmo salva temporariamente os pontos de verificação em um caminho local e armazena o melhor artefato do modelo no caminho de saída do modelo no S3 após a interrupção do trabalho de treinamento.

Opcional

Valores válidos: inteiro positivo

Valor padrão: 3

clip_gradient

Corta os valores de gradiente absoluto maiores que o especificado aqui. Defina como valor negativo para desativar.

Opcional

Valores válidos: flutuante

Valor padrão: 1

cnn_activation_type

O tipo de ativação cnn a ser usado.

Opcional

Valores válidos: string. Um destes glu, relu, softrelu, sigmoid ou tanh.

Valor padrão: glu

cnn_hidden_dropout

Probabilidade de dropout entre as camadas convolucionais.

Opcional

Valores válidos: flutuante. Intervalo em [0,1].

Valor padrão: 0

cnn_kernel_width_decoder

Largura do kernel para o decodificador cnn.

Opcional

Valores válidos: inteiro positivo

Valor padrão: 5

cnn_kernel_width_encoder

Largura do kernel para o codificador cnn.

Opcional

Valores válidos: inteiro positivo

Valor padrão: 3

cnn_num_hidden

O número de unidades cnn ocultas para o codificador e o decodificador.

Opcional

Valores válidos: inteiro positivo

Valor padrão: 512

decoder_type

Tipo de decodificador.

Opcional

Valores válidos: string. rnn ou cnn.

Valor padrão: rnn

embed_dropout_source

Probabilidade de dropout para as incorporações na origem.

Opcional

Valores válidos: flutuante. Intervalo em [0,1].

Valor padrão: 0

embed_dropout_target

Probabilidade de dropout para as incorporações no destino.

Opcional

Valores válidos: flutuante. Intervalo em [0,1].

Valor padrão: 0

encoder_type

Tipo de codificador. A arquitetura rnn baseia-se no mecanismo de atenção de Bahdanau e outros cientistas de dados, enquanto a arquitetura cnn, no de Gehring e outros cientistas.

Opcional

Valores válidos: string. rnn ou cnn.

Valor padrão: rnn

fixed_rate_lr_half_life

Meia-vida da taxa de aprendizado em termos de número de pontos de verificação para programadores fixed_rate_*.

Opcional

Valores válidos: inteiro positivo

Valor padrão: 10

learning_rate

A taxa de aprendizado inicial.

Opcional

Valores válidos: flutuante

Valor padrão: 0.0003

loss_type

Função de perda para treinamento.

Opcional

Valores válidos: string. cross-entropy

Valor padrão: cross-entropy

lr_scheduler_type

Tipo de agendador de taxa de aprendizado. plateau_reduce significa reduzir a taxa de aprendizado sempre que optimized_metric em validation_accuracy atingir um platô. inv_t é a degradação de tempo inversa. learning_rate/(1+decay_rate*t)

Opcional

Valores válidos: string. plateau_reduce, fixed_rate_inv_t ou fixed_rate_inv_sqrt_t.

Valor padrão: plateau_reduce

max_num_batches

Número máximo de atualizações/lotes a serem processados. -1 para infinito.

Opcional

Valores válidos: inteiro

Valor padrão: -1

max_num_epochs

O número máximo de epochs a passar pelos dados de treinamento antes que o ajuste seja interrompido. O treinamento continua até atingir esse número de epochs, mesmo se a precisão da validação não estiver melhorando com esse parâmetro passado. Ignorado se não for passado.

Opcional

Valores válidos: inteiro positivo e menor que ou igual a max_num_epochs.

Valor padrão: nenhum

max_seq_len_source

Comprimento máximo da sequência de origem. Sequências maiores do que o estabelecido são truncadas para atender a esse comprimento.

Opcional

Valores válidos: inteiro positivo

Valor padrão: 100

max_seq_len_target

Comprimento máximo da sequência de destino. Sequências maiores do que o estabelecido são truncadas para atender a esse comprimento.

Opcional

Valores válidos: inteiro positivo

Valor padrão: 100

min_num_epochs

Número mínimo de epochs que o treinamento deve executar antes de ser interrompido por condições early_stopping.

Opcional

Valores válidos: inteiro positivo

Valor padrão: 0

momentum

Constante de dinâmica usada para sgd. Não passe esse parâmetro se estiver usando adam ou rmsprop.

Opcional

Valores válidos: flutuante

Valor padrão: nenhum

num_embed_source

Tamanho da incorporação para tokens de origem.

Opcional

Valores válidos: inteiro positivo

Valor padrão: 512

num_embed_target

Tamanho da incorporação para tokens de destino.

Opcional

Valores válidos: inteiro positivo

Valor padrão: 512

num_layers_decoder

Número de camadas do decodificador rnn ou cnn.

Opcional

Valores válidos: inteiro positivo

Valor padrão: 1

num_layers_encoder

Número de camadas para o codificador rnn ou cnn.

Opcional

Valores válidos: inteiro positivo

Valor padrão: 1

optimized_metric

Métricas a otimizar com a interrupção precoce.

Opcional

Valores válidos: string. perplexity, accuracy ou bleu.

Valor padrão: perplexity

optimizer_type

Otimizador a ser escolhido.

Opcional

Valores válidos: string. adam, sgd ou rmsprop.

Valor padrão: adam

plateau_reduce_lr_factor

Fator de multiplicação da taxa de aprendizado (para plateau_reduce).

Opcional

Valores válidos: flutuante

Valor padrão: 0.5

plateau_reduce_lr_threshold

Para o programador plateau_reduce, multiplique a taxa de aprendizado com fator de redução se optimized_metric não melhorar para essa quantidade de pontos de verificação.

Opcional

Valores válidos: inteiro positivo

Valor padrão: 3

rnn_attention_in_upper_layers

Passa a atenção para as camadas superiores da rnn, como no whitepaper sobre NMT do Google. Aplicável somente no uso de mais de uma camada.

Opcional

Valores válidos: booliano (true ou false)

Valor padrão: true

rnn_attention_num_hidden

Número de unidades ocultas para camadas de atenção. O padrão é rnn_num_hidden.

Opcional

Valores válidos: inteiro positivo

Valor padrão: rnn_num_hidden

rnn_attention_type

Modelo de atenção para codificadores. mlp refere-se a concat e bilinear refere-se ao geral de Luong et al. paper.

Opcional

Valores válidos: string. Um destes: dot, fixed, mlp ou bilinear.

Valor padrão: mlp

rnn_cell_type

Tipo específico de arquitetura rnn.

Opcional

Valores válidos: string. lstm ou gru.

Valor padrão: lstm

rnn_decoder_state_init

Como os estados do decodificador rnn devem ser inicializados nos codificadores.

Opcional

Valores válidos: string. last, avg ou zero.

Valor padrão: last

rnn_first_residual_layer

A primeira camada rnn a ter uma conexão residual; aplicável apenas se o número de camadas no codificador ou decodificador for maior que 1.

Opcional

Valores válidos: inteiro positivo

Valor padrão: 2

rnn_num_hidden

O número de unidades rnn ocultas para o codificador e o decodificador. O valor deve ser um múltiplo de 2 porque o algoritmo usa LSTM (Bi-directional Long Term Short Term Memory) por padrão.

Opcional

Valores válidos: inteiro positivo par

Valor padrão: 1024

rnn_residual_connections

Conexão residual a ser adicionada à rnn empilhada. O número de camadas deve ser maior que 1.

Opcional

Valores válidos: booliano (true ou false)

Valor padrão: false

rnn_decoder_hidden_dropout

Probabilidade de abandono para estado oculto que combina o contexto com o estado oculto da rnn no decodificador.

Opcional

Valores válidos: flutuante. Intervalo em [0,1].

Valor padrão: 0

training_metric

Métricas a acompanhar no treinamento de dados de validação.

Opcional

Valores válidos: string. perplexity ou accuracy.

Valor padrão: perplexity

weight_decay

Constante da degradação de peso.

Opcional

Valores válidos: flutuante

Valor padrão: 0

weight_init_scale

Escala da inicialização de peso (para as inicializações uniform e xavier).

Opcional

Valores válidos: flutuante

Valor padrão: 2.34

weight_init_type

Tipo de inicialização de peso.

Opcional

Valores válidos: string. uniform ou xavier.

Valor padrão: xavier

xavier_factor_type

Tipo de fator Xavier.

Opcional

Valores válidos: string. in, out ou avg.

Valor padrão: in