Sequence-to-Sequence Hiperparámetros - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Sequence-to-Sequence Hiperparámetros

En la siguiente tabla se enumeran los hiperparámetros que puedes configurar al entrenar con el algoritmo Amazon SageMaker Sequence-to-Sequence (seq2seq).

Nombre del parámetro Descripción
batch_size

Tamaño del minilote para el gradiente descendiente.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 64

beam_size

Longitud del haz para la búsqueda de haces. Se utiliza durante la capacitación de la computación bleu y se utiliza durante la inferencia.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 5

bleu_sample_size

Número de instancias que elegir desde el conjunto de datos de validación para decodificar y calcular la puntuación bleu durante la capacitación. Establézcala en -1 para utilizar el conjunto de validación completo (si se elige bleu como optimized_metric).

Opcional

Valores válidos: número entero

Valor predeterminado: 0

bucket_width

Devuelve buckets (origen, destino) hasta (max_seq_len_source, max_seq_len_target). El lado más largo de los datos utiliza pasos de bucket_width mientras que el más corto usa pasos reducidos automáticamente por la proporción de longitud de origen/destino media. Si uno de los lados alcanza la longitud máxima antes que el otro, el ancho de los buckets adicionales de ese lado se fija a ese lado de max_len.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 10

bucketing_enabled

Establézcalo en false para deshabilitar la creación de buckets y expandirlos con la longitud máxima.

Opcional

Valores válidos: true o false

Valor predeterminado: true

checkpoint_frequency_num_batches

Punto de comprobación y evaluación cada x lotes. Este hiperparámetro de puntos de control se pasa al algoritmo seq2seq SageMaker del mismo para detenerlo anticipadamente y recuperar el mejor modelo. Los puntos de control del algoritmo se ejecutan localmente en el contenedor de entrenamiento del algoritmo y no son compatibles con los puntos de control. SageMaker El algoritmo guarda temporalmente los puntos de control en una ruta local y guarda el mejor artefacto del modelo en la ruta de salida del modelo en S3 una vez finalizado el trabajo de entrenamiento.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 1000

checkpoint_threshold

Se permite que el número máximo de modelo de puntos de comprobación no mejore en optimized_metric en el conjunto de datos de validación antes de que se detenga la capacitación. Este hiperparámetro de puntos de control se pasa al algoritmo seq2seq SageMaker del mismo para detenerlo anticipadamente y recuperar el mejor modelo. Los puntos de control del algoritmo se ejecutan localmente en el contenedor de entrenamiento del algoritmo y no son compatibles con los puntos de control. SageMaker El algoritmo guarda temporalmente los puntos de control en una ruta local y guarda el mejor artefacto del modelo en la ruta de salida del modelo en S3 una vez finalizado el trabajo de entrenamiento.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 3

clip_gradient

Los valores de gradiente absolutos de clips son superiores a este. Establézcalo en negativo para deshabilitar.

Opcional

Valores válidos: número flotante

Valor predeterminado: 1

cnn_activation_type

El tipo de activación cnn que se va a utilizar.

Opcional

Valores válidos: Cadena. Puede ser uno de los siguientes: glu, relu, softrelu, sigmoid o bien tanh.

Valor predeterminado: glu

cnn_hidden_dropout

Probabilidad de abandono para al abandono entre capas convolucionales.

Opcional

Valores válidos: número flotante. Rango en [0,1].

Valor predeterminado: 0

cnn_kernel_width_decoder

Ancho de kernel para el decodificador cnn.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 5

cnn_kernel_width_encoder

Ancho de kernel para el codificador cnn.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 3

cnn_num_hidden

Número de unidades ocultas cnn para el codificador y decodificador.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 512

decoder_type

Tipo de decodificador.

Opcional

Valores válidos: Cadena. rnn o cnn.

Valor predeterminado: rnn

embed_dropout_source

Probabilidad de abandono para las incrustaciones del lado del origen.

Opcional

Valores válidos: número flotante. Rango en [0,1].

Valor predeterminado: 0

embed_dropout_target

Probabilidad de abandono para las incrustaciones del lado del destino.

Opcional

Valores válidos: número flotante. Rango en [0,1].

Valor predeterminado: 0

encoder_type

Tipo de codificador. La arquitectura rnn se basa en el mecanismo de atención de Bahdanau et al. y la arquitectura cnn se basa en Gehring et al.

Opcional

Valores válidos: Cadena. rnn o cnn.

Valor predeterminado: rnn

fixed_rate_lr_half_life

Vida media de la tasa de aprendizaje en términos de número de puntos de comprobación para programadores fixed_rate_*.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 10

learning_rate

Tasa de aprendizaje inicial.

Opcional

Valores válidos: número flotante

Valor predeterminado: 0.0003

loss_type

Función de pérdida para la capacitación.

Opcional

Valores válidos: Cadena. cross-entropy

Valor predeterminado: cross-entropy

lr_scheduler_type

El tipo de programador de la tasa de aprendizaje. plateau_reduce conlleva la reducción de la tasa de aprendizaje cuando optimized_metric está con validation_accuracy detenido. inv_t es la decadencia de tiempo inversa. learning_rate/(1+decay_rate*t)

Opcional

Valores válidos: Cadena. Uno de los valores de entre plateau_reduce, fixed_rate_inv_t o fixed_rate_inv_sqrt_t.

Valor predeterminado: plateau_reduce

max_num_batches

Número máximo de actualizaciones/lotes que procesar. -1 para infinito.

Opcional

Valores válidos: número entero

Valor predeterminado: -1

max_num_epochs

Número máximo de fechas de inicio por los que pasan los datos de capacitación antes de que se detenga la adaptación. La capacitación continúa hasta este número de fechas de inicio incluso si la precisión de la validación no mejora si se aprueba el parámetro. Se ignora si no se aprueba.

Opcional

Valores válidos: entero positivo y menor o igual que max_num_epochs.

Valor predeterminado: ninguno

max_seq_len_source

La longitud máxima para la longitud de secuencia de origen. Las secuencias que superen esta longitud se truncarán con esa longitud.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 100

max_seq_len_target

La longitud máxima para la longitud de secuencia de destino. Las secuencias que superen esta longitud se truncarán con esa longitud.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 100

min_num_epochs

Número mínimo de fechas de inicio que la capacitación debe ejecutar antes de que se detenga a través de las condiciones early_stopping.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 0

momentum

Constante de momento utilizada para sgd. No apruebe este parámetro si está usando adam o rmsprop.

Opcional

Valores válidos: número flotante

Valor predeterminado: ninguno

num_embed_source

Tamaño de integración para tokens de origen.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 512

num_embed_target

Tamaño de integración para tokens de destino.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 512

num_layers_decoder

Número de capas para el decodificador rnn o cnn.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 1

num_layers_encoder

Número de capas para el codificador rnn o cnn.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 1

optimized_metric

Métricas que optimizar con una detención temprana.

Opcional

Valores válidos: Cadena. Uno de los valores de entre perplexity, accuracy o bleu.

Valor predeterminado: perplexity

optimizer_type

Optimizador de entre el que elegir.

Opcional

Valores válidos: Cadena. Uno de los valores de entre adam, sgd o rmsprop.

Valor predeterminado: adam

plateau_reduce_lr_factor

Factor con el que multiplicar la tasa de aprendizaje (para plateau_reduce).

Opcional

Valores válidos: número flotante

Valor predeterminado: 0,5

plateau_reduce_lr_threshold

Para el programador plateau_reduce, multiplique la tasa de aprendizaje por el factor de reducción si optimized_metric no mejoró para estos puntos de comprobación distintos.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 3

rnn_attention_in_upper_layers

Presta atención a las capas superiores de rnn, como Google NMT Paper. Solo es aplicable si se utiliza más de una capa.

Opcional

Valores válidos: booleano (true o false)

Valor predeterminado: true

rnn_attention_num_hidden

El valor predeterminado del número de unidades ocultas para capas de atención es rnn_num_hidden.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: rnn_num_hidden

rnn_attention_type

Modelo de atención para codificadores. mlp hace referencia a concat y bilineal hace referencia a general en el documento Luong et al.

Opcional

Valores válidos: Cadena. Puede ser uno de los siguientes: dot, fixed, mlp o bien bilinear.

Valor predeterminado: mlp

rnn_cell_type

Tipo específico de arquitectura rnn.

Opcional

Valores válidos: Cadena. lstm o gru.

Valor predeterminado: lstm

rnn_decoder_state_init

Cómo inicializar estados del decodificador rnn a partir de codificadores.

Opcional

Valores válidos: Cadena. Uno de los valores de entre last, avg o zero.

Valor predeterminado: last

rnn_first_residual_layer

La primera capa rnn que tiene una conexión residual, solo aplicable si el número de capas del codificador o decodificador es superior a 1.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 2

rnn_num_hidden

El número de unidades ocultas rnn para el codificador y el decodificador. Debe ser un múltiplo de 2 porque el algoritmo usa memoria bidireccional a largo plazo y corto plazo (LSTM) de forma predeterminada.

Opcional

Valores válidos: número par entero positivo

Valor predeterminado: 1024

rnn_residual_connections

Agregue la conexión residual al rnn apilado. El número de capas debe ser superior a 1.

Opcional

Valores válidos: booleano (true o false)

Valor predeterminado: false

rnn_decoder_hidden_dropout

La probabilidad de abandono para el estado oculto que combina el contexto con el estado oculto rnn en el decodificador.

Opcional

Valores válidos: número flotante. Rango en [0,1].

Valor predeterminado: 0

training_metric

Las métricas para realizar un seguimiento de la capacitación en los datos de validación.

Opcional

Valores válidos: Cadena. perplexity o accuracy.

Valor predeterminado: perplexity

weight_decay

Constante de decadencia de ponderación.

Opcional

Valores válidos: número flotante

Valor predeterminado: 0

weight_init_scale

Escala de la inicialización de la ponderación (para la inicialización uniform y xavier).

Opcional

Valores válidos: número flotante

Valor predeterminado: 2.34

weight_init_type

Tipo de inicialización de la ponderación.

Opcional

Valores válidos: Cadena. uniform o xavier.

Valor predeterminado: xavier

xavier_factor_type

Tipo de factor de xavier.

Opcional

Valores válidos: Cadena. Uno de los valores de entre in, out o avg.

Valor predeterminado: in