Hiperparâmetros Sequence-to-Sequence
A tabela a seguir lista os hiperparâmetros que você pode definir no treinamento com o algoritmo Sequence-to-Sequence (seq2seq) do Amazon SageMaker.
Nome do parâmetro | Descrição |
---|---|
batch_size |
Tamanho de minilote para a descida do gradiente. Opcional Valores válidos: inteiro positivo Valor padrão: 64 |
beam_size |
Comprimento do feixe de pesquisa de feixe. Usado durante o treinamento para calcular Opcional Valores válidos: inteiro positivo Valor padrão: 5 |
bleu_sample_size |
Número de instâncias a escolher do conjunto de dados de validação para decodificar e calcular a pontuação Opcional Valores válidos: inteiro Valor padrão: 0 |
bucket_width |
Retorna os buckets (de origem e destino) até o ( Opcional Valores válidos: inteiro positivo Valor padrão: 10 |
bucketing_enabled |
Defina como Opcional Valores válidos: Valor padrão: |
checkpoint_frequency_num_batches |
Ponto de verificação e avaliação a cada x lotes. Esse hiperparâmetro de ponto de verificação é passado para o algoritmo seq2seq do SageMaker para interromper antecipadamente e recuperar o melhor modelo. O ponto de verificação do algoritmo é executado localmente no contêiner de treinamento do algoritmo e não é compatível com o ponto de verificação do SageMaker. O algoritmo salva temporariamente os pontos de verificação em um caminho local e armazena o melhor artefato do modelo no caminho de saída do modelo no S3 após a interrupção do trabalho de treinamento. Opcional Valores válidos: inteiro positivo Valor padrão: 1000 |
checkpoint_threshold |
O número máximo de pontos de verificação permitido no modelo para que não haja aumento de Opcional Valores válidos: inteiro positivo Valor padrão: 3 |
clip_gradient |
Corta os valores de gradiente absoluto maiores que o especificado aqui. Defina como valor negativo para desativar. Opcional Valores válidos: flutuante Valor padrão: 1 |
cnn_activation_type |
O tipo de ativação Opcional Valores válidos: string. Um destes Valor padrão: |
cnn_hidden_dropout |
Probabilidade de dropout entre as camadas convolucionais. Opcional Valores válidos: flutuante. Intervalo em [0,1]. Valor padrão: 0 |
cnn_kernel_width_decoder |
Largura do kernel para o decodificador Opcional Valores válidos: inteiro positivo Valor padrão: 5 |
cnn_kernel_width_encoder |
Largura do kernel para o codificador Opcional Valores válidos: inteiro positivo Valor padrão: 3 |
cnn_num_hidden |
O número de unidades Opcional Valores válidos: inteiro positivo Valor padrão: 512 |
decoder_type |
Tipo de decodificador. Opcional Valores válidos: string. Valor padrão: rnn |
embed_dropout_source |
Probabilidade de dropout para as incorporações na origem. Opcional Valores válidos: flutuante. Intervalo em [0,1]. Valor padrão: 0 |
embed_dropout_target |
Probabilidade de dropout para as incorporações no destino. Opcional Valores válidos: flutuante. Intervalo em [0,1]. Valor padrão: 0 |
encoder_type |
Tipo de codificador. A arquitetura Opcional Valores válidos: string. Valor padrão: |
fixed_rate_lr_half_life |
Meia-vida da taxa de aprendizado em termos de número de pontos de verificação para programadores Opcional Valores válidos: inteiro positivo Valor padrão: 10 |
learning_rate |
A taxa de aprendizado inicial. Opcional Valores válidos: flutuante Valor padrão: 0.0003 |
loss_type |
Função de perda para treinamento. Opcional Valores válidos: string. Valor padrão: |
lr_scheduler_type |
Tipo de agendador de taxa de aprendizado. Opcional Valores válidos: string. Valor padrão: |
max_num_batches |
Número máximo de atualizações/lotes a serem processados. -1 para infinito. Opcional Valores válidos: inteiro Valor padrão: -1 |
max_num_epochs |
O número máximo de epochs a passar pelos dados de treinamento antes que o ajuste seja interrompido. O treinamento continua até atingir esse número de epochs, mesmo se a precisão da validação não estiver melhorando com esse parâmetro passado. Ignorado se não for passado. Opcional Valores válidos: inteiro positivo e menor que ou igual a max_num_epochs. Valor padrão: nenhum |
max_seq_len_source |
Comprimento máximo da sequência de origem. Sequências maiores do que o estabelecido são truncadas para atender a esse comprimento. Opcional Valores válidos: inteiro positivo Valor padrão: 100 |
max_seq_len_target |
Comprimento máximo da sequência de destino. Sequências maiores do que o estabelecido são truncadas para atender a esse comprimento. Opcional Valores válidos: inteiro positivo Valor padrão: 100 |
min_num_epochs |
Número mínimo de epochs que o treinamento deve executar antes de ser interrompido por condições Opcional Valores válidos: inteiro positivo Valor padrão: 0 |
momentum |
Constante de dinâmica usada para Opcional Valores válidos: flutuante Valor padrão: nenhum |
num_embed_source |
Tamanho da incorporação para tokens de origem. Opcional Valores válidos: inteiro positivo Valor padrão: 512 |
num_embed_target |
Tamanho da incorporação para tokens de destino. Opcional Valores válidos: inteiro positivo Valor padrão: 512 |
num_layers_decoder |
Número de camadas do decodificador rnn ou cnn. Opcional Valores válidos: inteiro positivo Valor padrão: 1 |
num_layers_encoder |
Número de camadas para o codificador Opcional Valores válidos: inteiro positivo Valor padrão: 1 |
optimized_metric |
Métricas a otimizar com a interrupção precoce. Opcional Valores válidos: string. Valor padrão: |
optimizer_type |
Otimizador a ser escolhido. Opcional Valores válidos: string. Valor padrão: |
plateau_reduce_lr_factor |
Fator de multiplicação da taxa de aprendizado (para Opcional Valores válidos: flutuante Valor padrão: 0.5 |
plateau_reduce_lr_threshold |
Para o programador Opcional Valores válidos: inteiro positivo Valor padrão: 3 |
rnn_attention_in_upper_layers |
Passa a atenção para as camadas superiores da rnn, como no whitepaper sobre NMT do Google. Aplicável somente no uso de mais de uma camada. Opcional Valores válidos: booliano ( Valor padrão: |
rnn_attention_num_hidden |
Número de unidades ocultas para camadas de atenção. O padrão é Opcional Valores válidos: inteiro positivo Valor padrão: |
rnn_attention_type |
Modelo de atenção para codificadores. Opcional Valores válidos: string. Um destes: Valor padrão: |
rnn_cell_type |
Tipo específico de arquitetura Opcional Valores válidos: string. Valor padrão: |
rnn_decoder_state_init |
Como os estados do decodificador Opcional Valores válidos: string. Valor padrão: |
rnn_first_residual_layer |
A primeira camada rnn a ter uma conexão residual; aplicável apenas se o número de camadas no codificador ou decodificador for maior que 1. Opcional Valores válidos: inteiro positivo Valor padrão: 2 |
rnn_num_hidden |
O número de unidades rnn ocultas para o codificador e o decodificador. O valor deve ser um múltiplo de 2 porque o algoritmo usa LSTM (Bi-directional Long Term Short Term Memory) por padrão. Opcional Valores válidos: inteiro positivo par Valor padrão: 1024 |
rnn_residual_connections |
Conexão residual a ser adicionada à rnn empilhada. O número de camadas deve ser maior que 1. Opcional Valores válidos: booliano ( Valor padrão: |
rnn_decoder_hidden_dropout |
Probabilidade de abandono para estado oculto que combina o contexto com o estado oculto da rnn no decodificador. Opcional Valores válidos: flutuante. Intervalo em [0,1]. Valor padrão: 0 |
training_metric |
Métricas a acompanhar no treinamento de dados de validação. Opcional Valores válidos: string. Valor padrão: |
weight_decay |
Constante da degradação de peso. Opcional Valores válidos: flutuante Valor padrão: 0 |
weight_init_scale |
Escala da inicialização de peso (para as inicializações Opcional Valores válidos: flutuante Valor padrão: 2.34 |
weight_init_type |
Tipo de inicialização de peso. Opcional Valores válidos: string. Valor padrão: |
xavier_factor_type |
Tipo de fator Xavier. Opcional Valores válidos: string. Valor padrão: |