Sequence-to-Sequence Hiperparâmetros

A tabela a seguir lista os hiperparâmetros que você pode definir ao treinar com o algoritmo Amazon SageMaker AI Sequence-to-Sequence (seq2seq).

Nome do parâmetro	Descrição
`batch_size`	Tamanho de minilote para a descida do gradiente. Opcional Valores válidos: inteiro positivo Valor padrão: 64
`beam_size`	Comprimento do feixe de pesquisa de feixe. Usado durante o treinamento para calcular `bleu` e usado durante a inferência. Opcional Valores válidos: inteiro positivo Valor padrão: 5
`bleu_sample_size`	Número de instâncias a escolher do conjunto de dados de validação para decodificar e calcular a pontuação `bleu` durante o treinamento. Defina como -1 para usar o conjunto de validação completo (se `bleu` for escolhido como `optimized_metric`). Opcional Valores válidos: inteiro Valor padrão: 0
`bucket_width`	Retorna os buckets (de origem e destino) até o (`max_seq_len_source`, `max_seq_len_target`). O lado mais longo dos dados utiliza passos de `bucket_width`, enquanto o mais curto utiliza passos reduzidos pela média da proporção de comprimento da origem e do destino. Se um dos lados atingir seu comprimento máximo antes do outro, a largura dos buckets adicionais do lado em questão será fixada em `max_len`. Opcional Valores válidos: inteiro positivo Valor padrão: 10
`bucketing_enabled`	Defina como `false` para desabilitar o armazenamento em buckets e desenrolar até o comprimento máximo. Opcional Valores válidos: `true` ou `false` Valor padrão: `true`
`checkpoint_frequency_num_batches`	Ponto de verificação e avaliação a cada x lotes. Esse hiperparâmetro de ponto de verificação é passado para o algoritmo seq2seq da SageMaker IA para interromper precocemente e recuperar o melhor modelo. O ponto de verificação do algoritmo é executado localmente no contêiner de treinamento do algoritmo e não é compatível com o ponto de verificação de SageMaker IA. O algoritmo salva temporariamente os pontos de verificação em um caminho local e armazena o melhor artefato do modelo no caminho de saída do modelo no S3 após a interrupção do trabalho de treinamento. Opcional Valores válidos: inteiro positivo Valor padrão: 1000
`checkpoint_threshold`	O número máximo de pontos de verificação permitido no modelo para que não haja aumento de `optimized_metric` no conjunto de dados de validação antes de o treinamento ser interrompido. Esse hiperparâmetro de ponto de verificação é passado para o algoritmo seq2seq da SageMaker IA para interromper precocemente e recuperar o melhor modelo. O ponto de verificação do algoritmo é executado localmente no contêiner de treinamento do algoritmo e não é compatível com o ponto de verificação de SageMaker IA. O algoritmo salva temporariamente os pontos de verificação em um caminho local e armazena o melhor artefato do modelo no caminho de saída do modelo no S3 após a interrupção do trabalho de treinamento. Opcional Valores válidos: inteiro positivo Valor padrão: 3
`clip_gradient`	Corta os valores de gradiente absoluto maiores que o especificado aqui. Defina como valor negativo para desativar. Opcional Valores válidos: flutuante Valor padrão: 1
`cnn_activation_type`	O tipo de ativação `cnn` a ser usado. Opcional Valores válidos: string. Um destes `glu`, `relu`, `softrelu`, `sigmoid` ou `tanh`. Valor padrão: `glu`
`cnn_hidden_dropout`	Probabilidade de dropout entre as camadas convolucionais. Opcional Valores válidos: flutuante. Intervalo em [0,1]. Valor padrão: 0
`cnn_kernel_width_decoder`	Largura do kernel para o decodificador `cnn`. Opcional Valores válidos: inteiro positivo Valor padrão: 5
`cnn_kernel_width_encoder`	Largura do kernel para o codificador `cnn`. Opcional Valores válidos: inteiro positivo Valor padrão: 3
`cnn_num_hidden`	O número de unidades `cnn` ocultas para o codificador e o decodificador. Opcional Valores válidos: inteiro positivo Valor padrão: 512
`decoder_type`	Tipo de decodificador. Opcional Valores válidos: string. `rnn` ou `cnn`. Valor padrão: rnn
`embed_dropout_source`	Probabilidade de dropout para as incorporações na origem. Opcional Valores válidos: flutuante. Intervalo em [0,1]. Valor padrão: 0
`embed_dropout_target`	Probabilidade de dropout para as incorporações no destino. Opcional Valores válidos: flutuante. Intervalo em [0,1]. Valor padrão: 0
`encoder_type`	Tipo de codificador. A arquitetura `rnn` baseia-se no mecanismo de atenção de Bahdanau e outros cientistas de dados, enquanto a arquitetura cnn, no de Gehring e outros cientistas. Opcional Valores válidos: string. `rnn` ou `cnn`. Valor padrão: `rnn`
`fixed_rate_lr_half_life`	Meia-vida da taxa de aprendizado em termos de número de pontos de verificação para programadores `fixed_rate_`. Opcional* Valores válidos: inteiro positivo Valor padrão: 10
`learning_rate`	A taxa de aprendizado inicial. Opcional Valores válidos: flutuante Valor padrão: 0.0003
`loss_type`	Função de perda para treinamento. Opcional Valores válidos: string. `cross-entropy` Valor padrão: `cross-entropy`
`lr_scheduler_type`	Tipo de agendador de taxa de aprendizado. `plateau_reduce` significa reduzir a taxa de aprendizado sempre que `optimized_metric` em `validation_accuracy` atingir um platô. `inv_t` é a degradação de tempo inversa. `learning_rate`/(1+`decay_rate`t) Opcional* Valores válidos: string. `plateau_reduce`, `fixed_rate_inv_t` ou `fixed_rate_inv_sqrt_t`. Valor padrão: `plateau_reduce`
`max_num_batches`	Número máximo de atualizações/lotes a serem processados. -1 para infinito. Opcional Valores válidos: inteiro Valor padrão: -1
`max_num_epochs`	O número máximo de epochs a passar pelos dados de treinamento antes que o ajuste seja interrompido. O treinamento continua até atingir esse número de epochs, mesmo se a precisão da validação não estiver melhorando com esse parâmetro passado. Ignorado se não for passado. Opcional Valores válidos: inteiro positivo e menor que ou igual a max_num_epochs. Valor padrão: nenhum
`max_seq_len_source`	Comprimento máximo da sequência de origem. Sequências maiores do que o estabelecido são truncadas para atender a esse comprimento. Opcional Valores válidos: inteiro positivo Valor padrão: 100
`max_seq_len_target`	Comprimento máximo da sequência de destino. Sequências maiores do que o estabelecido são truncadas para atender a esse comprimento. Opcional Valores válidos: inteiro positivo Valor padrão: 100
`min_num_epochs`	Número mínimo de epochs que o treinamento deve executar antes de ser interrompido por condições `early_stopping`. Opcional Valores válidos: inteiro positivo Valor padrão: 0
`momentum`	Constante de dinâmica usada para `sgd`. Não passe esse parâmetro se estiver usando `adam` ou `rmsprop`. Opcional Valores válidos: flutuante Valor padrão: nenhum
`num_embed_source`	Tamanho da incorporação para tokens de origem. Opcional Valores válidos: inteiro positivo Valor padrão: 512
`num_embed_target`	Tamanho da incorporação para tokens de destino. Opcional Valores válidos: inteiro positivo Valor padrão: 512
`num_layers_decoder`	Número de camadas do decodificador rnn ou cnn. Opcional Valores válidos: inteiro positivo Valor padrão: 1
`num_layers_encoder`	Número de camadas para o codificador `rnn` ou `cnn`. Opcional Valores válidos: inteiro positivo Valor padrão: 1
`optimized_metric`	Métricas a otimizar com a interrupção precoce. Opcional Valores válidos: string. `perplexity`, `accuracy` ou `bleu`. Valor padrão: `perplexity`
`optimizer_type`	Otimizador a ser escolhido. Opcional Valores válidos: string. `adam`, `sgd` ou `rmsprop`. Valor padrão: `adam`
`plateau_reduce_lr_factor`	Fator de multiplicação da taxa de aprendizado (para `plateau_reduce`). Opcional Valores válidos: flutuante Valor padrão: 0.5
`plateau_reduce_lr_threshold`	Para o programador `plateau_reduce`, multiplique a taxa de aprendizado com fator de redução se `optimized_metric` não melhorar para essa quantidade de pontos de verificação. Opcional Valores válidos: inteiro positivo Valor padrão: 3
`rnn_attention_in_upper_layers`	Passa a atenção para as camadas superiores da rnn, como no whitepaper sobre NMT do Google. Aplicável somente no uso de mais de uma camada. Opcional Valores válidos: booliano (`true` ou `false`) Valor padrão: `true`
`rnn_attention_num_hidden`	Número de unidades ocultas para camadas de atenção. O padrão é `rnn_num_hidden`. Opcional Valores válidos: inteiro positivo Valor padrão: `rnn_num_hidden`
`rnn_attention_type`	Modelo de atenção para codificadores. `mlp` refere-se a concat e bilinear refere-se ao geral de Luong et al. paper. Opcional Valores válidos: string. Um destes: `dot`, `fixed`, `mlp` ou `bilinear`. Valor padrão: `mlp`
`rnn_cell_type`	Tipo específico de arquitetura `rnn`. Opcional Valores válidos: string. `lstm` ou `gru`. Valor padrão: `lstm`
`rnn_decoder_state_init`	Como os estados do decodificador `rnn` devem ser inicializados nos codificadores. Opcional Valores válidos: string. `last`, `avg` ou `zero`. Valor padrão: `last`
`rnn_first_residual_layer`	A primeira camada rnn a ter uma conexão residual; aplicável apenas se o número de camadas no codificador ou decodificador for maior que 1. Opcional Valores válidos: inteiro positivo Valor padrão: 2
`rnn_num_hidden`	O número de unidades rnn ocultas para o codificador e o decodificador. O valor deve ser um múltiplo de 2 porque o algoritmo usa LSTM (Bi-directional Long Term Short Term Memory) por padrão. Opcional Valores válidos: inteiro positivo par Valor padrão: 1024
`rnn_residual_connections`	Conexão residual a ser adicionada à rnn empilhada. O número de camadas deve ser maior que 1. Opcional Valores válidos: booliano (`true` ou `false`) Valor padrão: `false`
`rnn_decoder_hidden_dropout`	Probabilidade de abandono para estado oculto que combina o contexto com o estado oculto da rnn no decodificador. Opcional Valores válidos: flutuante. Intervalo em [0,1]. Valor padrão: 0
`training_metric`	Métricas a acompanhar no treinamento de dados de validação. Opcional Valores válidos: string. `perplexity` ou `accuracy`. Valor padrão: `perplexity`
`weight_decay`	Constante da degradação de peso. Opcional Valores válidos: flutuante Valor padrão: 0
`weight_init_scale`	Escala da inicialização de peso (para as inicializações `uniform` e `xavier`). Opcional Valores válidos: flutuante Valor padrão: 2.34
`weight_init_type`	Tipo de inicialização de peso. Opcional Valores válidos: string. `uniform` ou `xavier`. Valor padrão: `xavier`
`xavier_factor_type`	Tipo de fator Xavier. Opcional Valores válidos: string. `in`, `out` ou `avg`. Valor padrão: `in`

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Como funciona

Ajuste de modelos