

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Sequence-to-Sequence Hiperparâmetros
<a name="seq-2-seq-hyperparameters"></a>

A tabela a seguir lista os hiperparâmetros que você pode definir ao treinar com o algoritmo Amazon SageMaker AI Sequence-to-Sequence (seq2seq).


| Nome do parâmetro | Description | 
| --- | --- | 
| batch\$1size | Tamanho de minilote para a descida do gradiente. **Opcional** Valores válidos: inteiro positivo Valor padrão: 64 | 
| beam\$1size | Comprimento do feixe de pesquisa de feixe. Usado durante o treinamento para calcular `bleu` e usado durante a inferência. **Opcional** Valores válidos: inteiro positivo Valor padrão: 5 | 
| bleu\$1sample\$1size | Número de instâncias a escolher do conjunto de dados de validação para decodificar e calcular a pontuação `bleu` durante o treinamento. Defina como -1 para usar o conjunto de validação completo (se `bleu` for escolhido como `optimized_metric`). **Opcional** Valores válidos: inteiro Valor padrão: 0 | 
| bucket\$1width | Retorna os buckets (de origem e destino) até o (`max_seq_len_source`, `max_seq_len_target`). O lado mais longo dos dados usa etapas de, `bucket_width` enquanto o lado mais curto usa etapas reduzidas pela proporção média de target/source comprimento. Se um dos lados atingir seu comprimento máximo antes do outro, a largura dos buckets adicionais do lado em questão será fixada em `max_len`. **Opcional** Valores válidos: inteiro positivo Valor padrão: 10 | 
| bucketing\$1enabled | Defina como `false` para desabilitar o armazenamento em buckets e desenrolar até o comprimento máximo. **Opcional** Valores válidos: `true` ou `false` Valor padrão: `true` | 
| checkpoint\$1frequency\$1num\$1batches | Ponto de verificação e avaliação a cada x lotes. Esse hiperparâmetro de ponto de verificação é passado para o algoritmo seq2seq da SageMaker IA para interromper precocemente e recuperar o melhor modelo. O ponto de verificação do algoritmo é executado localmente no contêiner de treinamento do algoritmo e não é compatível com o ponto de verificação de SageMaker IA. O algoritmo salva temporariamente os pontos de verificação em um caminho local e armazena o melhor artefato do modelo no caminho de saída do modelo no S3 após a interrupção do trabalho de treinamento. **Opcional** Valores válidos: inteiro positivo Valor padrão: 1000 | 
| checkpoint\$1threshold | O número máximo de pontos de verificação permitido no modelo para que não haja aumento de `optimized_metric` no conjunto de dados de validação antes de o treinamento ser interrompido. Esse hiperparâmetro de ponto de verificação é passado para o algoritmo seq2seq da SageMaker IA para interromper precocemente e recuperar o melhor modelo. O ponto de verificação do algoritmo é executado localmente no contêiner de treinamento do algoritmo e não é compatível com o ponto de verificação de SageMaker IA. O algoritmo salva temporariamente os pontos de verificação em um caminho local e armazena o melhor artefato do modelo no caminho de saída do modelo no S3 após a interrupção do trabalho de treinamento. **Opcional** Valores válidos: inteiro positivo Valor padrão: 3 | 
| clip\$1gradient | Corta os valores de gradiente absoluto maiores que o especificado aqui. Defina como valor negativo para desativar. **Opcional** Valores válidos: flutuante Valor padrão: 1 | 
| cnn\$1activation\$1type | O tipo de ativação `cnn` a ser usado. **Opcional** Valores válidos: string. Um destes `glu`, `relu`, `softrelu`, `sigmoid` ou `tanh`. Valor padrão: `glu` | 
| cnn\$1hidden\$1dropout | Probabilidade de dropout entre as camadas convolucionais. **Opcional** Valores válidos: flutuante. Intervalo em [0,1]. Valor padrão: 0 | 
| cnn\$1kernel\$1width\$1decoder | Largura do kernel para o decodificador `cnn`. **Opcional** Valores válidos: inteiro positivo Valor padrão: 5 | 
| cnn\$1kernel\$1width\$1encoder | Largura do kernel para o codificador `cnn`. **Opcional** Valores válidos: inteiro positivo Valor padrão: 3 | 
| cnn\$1num\$1hidden | O número de unidades `cnn` ocultas para o codificador e o decodificador. **Opcional** Valores válidos: inteiro positivo Valor padrão: 512 | 
| decoder\$1type | Tipo de decodificador. **Opcional** Valores válidos: string. `rnn` ou `cnn`. Valor padrão: *rnn* | 
| embed\$1dropout\$1source | Probabilidade de dropout para as incorporações na origem. **Opcional** Valores válidos: flutuante. Intervalo em [0,1]. Valor padrão: 0 | 
| embed\$1dropout\$1target | Probabilidade de dropout para as incorporações no destino. **Opcional** Valores válidos: flutuante. Intervalo em [0,1]. Valor padrão: 0 | 
| encoder\$1type | Tipo de codificador. A arquitetura `rnn` baseia-se no mecanismo de atenção de Bahdanau e outros cientistas de dados, enquanto a arquitetura *cnn*, no de Gehring e outros cientistas. **Opcional** Valores válidos: string. `rnn` ou `cnn`. Valor padrão: `rnn` | 
| fixed\$1rate\$1lr\$1half\$1life | Meia-vida da taxa de aprendizado em termos de número de pontos de verificação para programadores `fixed_rate_`\$1. **Opcional** Valores válidos: inteiro positivo Valor padrão: 10 | 
| learning\$1rate | A taxa de aprendizado inicial. **Opcional** Valores válidos: flutuante Valor padrão: 0.0003 | 
| loss\$1type | Função de perda para treinamento. **Opcional** Valores válidos: string. `cross-entropy` Valor padrão: `cross-entropy` | 
| lr\$1scheduler\$1type | Tipo de agendador de taxa de aprendizado. `plateau_reduce` significa reduzir a taxa de aprendizado sempre que `optimized_metric` em `validation_accuracy` atingir um platô. `inv_t` é a degradação de tempo inversa. `learning_rate`/(1\$1`decay_rate`\$1t) **Opcional** Valores válidos: string. `plateau_reduce`, `fixed_rate_inv_t` ou `fixed_rate_inv_sqrt_t`. Valor padrão: `plateau_reduce` | 
| max\$1num\$1batches | Número máximo de updates/batches para processar. -1 para infinito. **Opcional** Valores válidos: inteiro Valor padrão: -1 | 
| max\$1num\$1epochs | O número máximo de epochs a passar pelos dados de treinamento antes que o ajuste seja interrompido. O treinamento continua até atingir esse número de epochs, mesmo se a precisão da validação não estiver melhorando com esse parâmetro passado. Ignorado se não for passado. **Opcional** Valores válidos: inteiro positivo e menor que ou igual a max\$1num\$1epochs. Valor padrão: nenhum | 
| max\$1seq\$1len\$1source | Comprimento máximo da sequência de origem. Sequências maiores do que o estabelecido são truncadas para atender a esse comprimento. **Opcional** Valores válidos: inteiro positivo Valor padrão: 100  | 
| max\$1seq\$1len\$1target | Comprimento máximo da sequência de destino. Sequências maiores do que o estabelecido são truncadas para atender a esse comprimento. **Opcional** Valores válidos: inteiro positivo Valor padrão: 100 | 
| min\$1num\$1epochs | Número mínimo de epochs que o treinamento deve executar antes de ser interrompido por condições `early_stopping`. **Opcional** Valores válidos: inteiro positivo Valor padrão: 0 | 
| momentum | Constante de dinâmica usada para `sgd`. Não passe esse parâmetro se estiver usando `adam` ou `rmsprop`. **Opcional** Valores válidos: flutuante Valor padrão: nenhum | 
| num\$1embed\$1source | Tamanho da incorporação para tokens de origem. **Opcional** Valores válidos: inteiro positivo Valor padrão: 512 | 
| num\$1embed\$1target | Tamanho da incorporação para tokens de destino. **Opcional** Valores válidos: inteiro positivo Valor padrão: 512 | 
| num\$1layers\$1decoder | Número de camadas do decodificador *rnn* ou *cnn*. **Opcional** Valores válidos: inteiro positivo Valor padrão: 1 | 
| num\$1layers\$1encoder | Número de camadas para o codificador `rnn` ou `cnn`. **Opcional** Valores válidos: inteiro positivo Valor padrão: 1 | 
| optimized\$1metric | Métricas a otimizar com a interrupção precoce. **Opcional** Valores válidos: string. `perplexity`, `accuracy` ou `bleu`. Valor padrão: `perplexity` | 
| optimizer\$1type | Otimizador a ser escolhido. **Opcional** Valores válidos: string. `adam`, `sgd` ou `rmsprop`. Valor padrão: `adam` | 
| plateau\$1reduce\$1lr\$1factor | Fator de multiplicação da taxa de aprendizado (para `plateau_reduce`). **Opcional** Valores válidos: flutuante Valor padrão: 0.5 | 
| plateau\$1reduce\$1lr\$1threshold | Para o programador `plateau_reduce`, multiplique a taxa de aprendizado com fator de redução se `optimized_metric` não melhorar para essa quantidade de pontos de verificação. **Opcional** Valores válidos: inteiro positivo Valor padrão: 3 | 
| rnn\$1attention\$1in\$1upper\$1layers | Passa a atenção para as camadas superiores da *rnn*, como no whitepaper sobre NMT do Google. Aplicável somente no uso de mais de uma camada. **Opcional** Valores válidos: booliano (`true` ou `false`) Valor padrão: `true` | 
| rnn\$1attention\$1num\$1hidden | Número de unidades ocultas para camadas de atenção. O padrão é `rnn_num_hidden`. **Opcional** Valores válidos: inteiro positivo Valor padrão: `rnn_num_hidden` | 
| rnn\$1attention\$1type | Modelo de atenção para codificadores. `mlp` refere-se a concat e bilinear refere-se ao geral de Luong et al. paper. **Opcional** Valores válidos: string. Um destes: `dot`, `fixed`, `mlp` ou `bilinear`. Valor padrão: `mlp` | 
| rnn\$1cell\$1type | Tipo específico de arquitetura `rnn`. **Opcional** Valores válidos: string. `lstm` ou `gru`. Valor padrão: `lstm` | 
| rnn\$1decoder\$1state\$1init | Como os estados do decodificador `rnn` devem ser inicializados nos codificadores. **Opcional** Valores válidos: string. `last`, `avg` ou `zero`. Valor padrão: `last` | 
| rnn\$1first\$1residual\$1layer | A primeira camada *rnn* a ter uma conexão residual; aplicável apenas se o número de camadas no codificador ou decodificador for maior que 1. **Opcional** Valores válidos: inteiro positivo Valor padrão: 2 | 
| rnn\$1num\$1hidden | O número de unidades *rnn* ocultas para o codificador e o decodificador. O valor deve ser um múltiplo de 2 porque o algoritmo usa LSTM (Bi-directional Long Term Short Term Memory) por padrão. **Opcional** Valores válidos: inteiro positivo par Valor padrão: 1024 | 
| rnn\$1residual\$1connections | Conexão residual a ser adicionada à *rnn* empilhada. O número de camadas deve ser maior que 1. **Opcional** Valores válidos: booliano (`true` ou `false`) Valor padrão: `false` | 
| rnn\$1decoder\$1hidden\$1dropout | Probabilidade de abandono para estado oculto que combina o contexto com o estado oculto da *rnn* no decodificador. **Opcional** Valores válidos: flutuante. Intervalo em [0,1]. Valor padrão: 0 | 
| training\$1metric | Métricas a acompanhar no treinamento de dados de validação. **Opcional** Valores válidos: string. `perplexity` ou `accuracy`. Valor padrão: `perplexity` | 
| weight\$1decay | Constante da degradação de peso. **Opcional** Valores válidos: flutuante Valor padrão: 0 | 
| weight\$1init\$1scale | Escala da inicialização de peso (para as inicializações `uniform` e `xavier`).  **Opcional** Valores válidos: flutuante Valor padrão: 2.34 | 
| weight\$1init\$1type | Tipo de inicialização de peso.  **Opcional** Valores válidos: string. `uniform` ou `xavier`. Valor padrão: `xavier` | 
| xavier\$1factor\$1type | Tipo de fator Xavier. **Opcional** Valores válidos: string. `in`, `out` ou `avg`. Valor padrão: `in` | 