Hiperparámetros de secuencia a secuencia

Nombre del parámetro	Descripción
`batch_size`	Tamaño del minilote para el gradiente descendiente. Opcional Valores válidos: número entero positivo Valor predeterminado: 64
`beam_size`	Longitud del haz para la búsqueda de haces. Se utiliza durante la capacitación de la computación `bleu` y se utiliza durante la inferencia. Opcional Valores válidos: número entero positivo Valor predeterminado: 5
`bleu_sample_size`	Número de instancias que elegir desde el conjunto de datos de validación para decodificar y calcular la puntuación `bleu` durante la capacitación. Establézcala en -1 para utilizar el conjunto de validación completo (si se elige `bleu` como `optimized_metric`). Opcional Valores válidos: número entero Valor predeterminado: 0
`bucket_width`	Devuelve buckets (origen, destino) hasta (`max_seq_len_source`, `max_seq_len_target`). El lado más largo de los datos utiliza pasos de `bucket_width` mientras que el más corto usa pasos reducidos automáticamente por la proporción de longitud de origen/destino media. Si uno de los lados alcanza la longitud máxima antes que el otro, el ancho de los buckets adicionales de ese lado se fija a ese lado de `max_len`. Opcional Valores válidos: número entero positivo Valor predeterminado: 10
`bucketing_enabled`	Establézcalo en `false` para deshabilitar la creación de buckets y expandirlos con la longitud máxima. Opcional Valores válidos: `true` o `false` Valor predeterminado: `true`
`checkpoint_frequency_num_batches`	Punto de comprobación y evaluación cada x lotes. Este hiperparámetro de puntos de control se transfiere al algoritmo seq2seq para SageMaker detenerlo anticipadamente y recuperar el mejor modelo. Los puntos de control del algoritmo se ejecutan localmente en el contenedor de entrenamiento del algoritmo y no son compatibles con los puntos de control. SageMaker El algoritmo guarda temporalmente los puntos de control en una ruta local y guarda el mejor artefacto del modelo en la ruta de salida del modelo en S3 una vez finalizado el trabajo de entrenamiento. Opcional Valores válidos: número entero positivo Valor predeterminado: 1000
`checkpoint_threshold`	Se permite que el número máximo de modelo de puntos de comprobación no mejore en `optimized_metric` en el conjunto de datos de validación antes de que se detenga la capacitación. Este hiperparámetro de puntos de control se pasa al algoritmo seq2seq SageMaker del mismo para detenerlo anticipadamente y recuperar el mejor modelo. Los puntos de control del algoritmo se ejecutan localmente en el contenedor de entrenamiento del algoritmo y no son compatibles con los puntos de control. SageMaker El algoritmo guarda temporalmente los puntos de control en una ruta local y guarda el mejor artefacto del modelo en la ruta de salida del modelo en S3 una vez finalizado el trabajo de entrenamiento. Opcional Valores válidos: número entero positivo Valor predeterminado: 3
`clip_gradient`	Los valores de gradiente absolutos de clips son superiores a este. Establézcalo en negativo para deshabilitar. Opcional Valores válidos: número flotante Valor predeterminado: 1
`cnn_activation_type`	El tipo de activación `cnn` que se va a utilizar. Opcional Valores válidos: Cadena. Puede ser uno de los siguientes: `glu`, `relu`, `softrelu`, `sigmoid` o bien `tanh`. Valor predeterminado: `glu`
`cnn_hidden_dropout`	Probabilidad de abandono para al abandono entre capas convolucionales. Opcional Valores válidos: número flotante. Rango en [0,1]. Valor predeterminado: 0
`cnn_kernel_width_decoder`	Ancho de kernel para el decodificador `cnn`. Opcional Valores válidos: número entero positivo Valor predeterminado: 5
`cnn_kernel_width_encoder`	Ancho de kernel para el codificador `cnn`. Opcional Valores válidos: número entero positivo Valor predeterminado: 3
`cnn_num_hidden`	Número de unidades ocultas `cnn` para el codificador y decodificador. Opcional Valores válidos: número entero positivo Valor predeterminado: 512
`decoder_type`	Tipo de decodificador. Opcional Valores válidos: Cadena. `rnn` o `cnn`. Valor predeterminado: rnn
`embed_dropout_source`	Probabilidad de abandono para las incrustaciones del lado del origen. Opcional Valores válidos: número flotante. Rango en [0,1]. Valor predeterminado: 0
`embed_dropout_target`	Probabilidad de abandono para las incrustaciones del lado del destino. Opcional Valores válidos: número flotante. Rango en [0,1]. Valor predeterminado: 0
`encoder_type`	Tipo de codificador. La arquitectura `rnn` se basa en el mecanismo de atención de Bahdanau et al. y la arquitectura cnn se basa en Gehring et al. Opcional Valores válidos: Cadena. `rnn` o `cnn`. Valor predeterminado: `rnn`
`fixed_rate_lr_half_life`	Vida media de la tasa de aprendizaje en términos de número de puntos de comprobación para programadores `fixed_rate_`. Opcional* Valores válidos: número entero positivo Valor predeterminado: 10
`learning_rate`	Tasa de aprendizaje inicial. Opcional Valores válidos: número flotante Valor predeterminado: 0.0003
`loss_type`	Función de pérdida para la capacitación. Opcional Valores válidos: Cadena. `cross-entropy` Valor predeterminado: `cross-entropy`
`lr_scheduler_type`	El tipo de programador de la tasa de aprendizaje. `plateau_reduce` conlleva la reducción de la tasa de aprendizaje cuando `optimized_metric` está con `validation_accuracy` detenido. `inv_t` es la decadencia de tiempo inversa. `learning_rate`/(1+`decay_rate`t) Opcional* Valores válidos: Cadena. Uno de los valores de entre `plateau_reduce`, `fixed_rate_inv_t` o `fixed_rate_inv_sqrt_t`. Valor predeterminado: `plateau_reduce`
`max_num_batches`	Número máximo de actualizaciones/lotes que procesar. -1 para infinito. Opcional Valores válidos: número entero Valor predeterminado: -1
`max_num_epochs`	Número máximo de fechas de inicio por los que pasan los datos de capacitación antes de que se detenga la adaptación. La capacitación continúa hasta este número de fechas de inicio incluso si la precisión de la validación no mejora si se aprueba el parámetro. Se ignora si no se aprueba. Opcional Valores válidos: entero positivo y menor o igual que max_num_epochs. Valor predeterminado: ninguno
`max_seq_len_source`	La longitud máxima para la longitud de secuencia de origen. Las secuencias que superen esta longitud se truncarán con esa longitud. Opcional Valores válidos: número entero positivo Valor predeterminado: 100
`max_seq_len_target`	La longitud máxima para la longitud de secuencia de destino. Las secuencias que superen esta longitud se truncarán con esa longitud. Opcional Valores válidos: número entero positivo Valor predeterminado: 100
`min_num_epochs`	Número mínimo de fechas de inicio que la capacitación debe ejecutar antes de que se detenga a través de las condiciones `early_stopping`. Opcional Valores válidos: número entero positivo Valor predeterminado: 0
`momentum`	Constante de momento utilizada para `sgd`. No apruebe este parámetro si está usando `adam` o `rmsprop`. Opcional Valores válidos: número flotante Valor predeterminado: ninguno
`num_embed_source`	Tamaño de integración para tokens de origen. Opcional Valores válidos: número entero positivo Valor predeterminado: 512
`num_embed_target`	Tamaño de integración para tokens de destino. Opcional Valores válidos: número entero positivo Valor predeterminado: 512
`num_layers_decoder`	Número de capas para el decodificador rnn o cnn. Opcional Valores válidos: número entero positivo Valor predeterminado: 1
`num_layers_encoder`	Número de capas para el codificador `rnn` o `cnn`. Opcional Valores válidos: número entero positivo Valor predeterminado: 1
`optimized_metric`	Métricas que optimizar con una detención temprana. Opcional Valores válidos: Cadena. Uno de los valores de entre `perplexity`, `accuracy` o `bleu`. Valor predeterminado: `perplexity`
`optimizer_type`	Optimizador de entre el que elegir. Opcional Valores válidos: Cadena. Uno de los valores de entre `adam`, `sgd` o `rmsprop`. Valor predeterminado: `adam`
`plateau_reduce_lr_factor`	Factor con el que multiplicar la tasa de aprendizaje (para `plateau_reduce`). Opcional Valores válidos: número flotante Valor predeterminado: 0,5
`plateau_reduce_lr_threshold`	Para el programador `plateau_reduce`, multiplique la tasa de aprendizaje por el factor de reducción si `optimized_metric` no mejoró para estos puntos de comprobación distintos. Opcional Valores válidos: número entero positivo Valor predeterminado: 3
`rnn_attention_in_upper_layers`	Propague la atención a las capas superiores de rnn, como en el documento de Google NMT. Solo es aplicable si se utiliza más de una capa. Opcional Valores válidos: booleano (`true` o `false`) Valor predeterminado: `true`
`rnn_attention_num_hidden`	El valor predeterminado del número de unidades ocultas para capas de atención es `rnn_num_hidden`. Opcional Valores válidos: número entero positivo Valor predeterminado: `rnn_num_hidden`
`rnn_attention_type`	Modelo de atención para codificadores. `mlp` hace referencia a concat y bilineal hace referencia a general en el documento Luong et al. Opcional Valores válidos: Cadena. Puede ser uno de los siguientes: `dot`, `fixed`, `mlp` o bien `bilinear`. Valor predeterminado: `mlp`
`rnn_cell_type`	Tipo específico de arquitectura `rnn`. Opcional Valores válidos: Cadena. `lstm` o `gru`. Valor predeterminado: `lstm`
`rnn_decoder_state_init`	Cómo inicializar estados del decodificador `rnn` a partir de codificadores. Opcional Valores válidos: Cadena. Uno de los valores de entre `last`, `avg` o `zero`. Valor predeterminado: `last`
`rnn_first_residual_layer`	La primera capa rnn que tiene una conexión residual, solo aplicable si el número de capas del codificador o decodificador es superior a 1. Opcional Valores válidos: número entero positivo Valor predeterminado: 2
`rnn_num_hidden`	El número de unidades ocultas rnn para el codificador y el decodificador. Debe ser múltiplo de 2 porque el algoritmo utiliza la memoria a corto y largo plazo (LSTM) bidireccional de forma predeterminada. Opcional Valores válidos: número par entero positivo Valor predeterminado: 1024
`rnn_residual_connections`	Agregue la conexión residual al rnn apilado. El número de capas debe ser superior a 1. Opcional Valores válidos: booleano (`true` o `false`) Valor predeterminado: `false`
`rnn_decoder_hidden_dropout`	La probabilidad de abandono para el estado oculto que combina el contexto con el estado oculto rnn en el decodificador. Opcional Valores válidos: número flotante. Rango en [0,1]. Valor predeterminado: 0
`training_metric`	Las métricas para realizar un seguimiento de la capacitación en los datos de validación. Opcional Valores válidos: Cadena. `perplexity` o `accuracy`. Valor predeterminado: `perplexity`
`weight_decay`	Constante de decadencia de ponderación. Opcional Valores válidos: número flotante Valor predeterminado: 0
`weight_init_scale`	Escala de la inicialización de la ponderación (para la inicialización `uniform` y `xavier`). Opcional Valores válidos: número flotante Valor predeterminado: 2.34
`weight_init_type`	Tipo de inicialización de la ponderación. Opcional Valores válidos: Cadena. `uniform` o `xavier`. Valor predeterminado: `xavier`
`xavier_factor_type`	Tipo de factor de xavier. Opcional Valores válidos: Cadena. Uno de los valores de entre `in`, `out` o `avg`. Valor predeterminado: `in`

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Cómo funciona

Ajuste de modelo