Ajustar un modelo de secuencia a secuencia - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Ajustar un modelo de secuencia a secuencia

El ajuste de modelo automático, también conocido como ajuste de hiperparámetros, encuentra la mejor versión de un modelo ejecutando muchas tareas que probar una serie de hiperparámetros en su conjunto de datos. Usted elige los hiperparámetros que pueden ajustarse, un rango de valores para cada uno de ellos y una métrica objetiva. Puede elegir la métrica objetiva de las métricas que el algoritmo computa. El ajuste de modelo automático busca los hiperparámetros elegidos para encontrar la combinación de valores que obtienen el modelo que optimiza la métrica objetiva.

Para obtener más información acerca del ajuste de modelos, consulte Realice un ajuste automático del modelo con SageMaker.

Métricas calculadas por el algoritmo de secuencia a secuencia

El algoritmo de secuencia a secuencia informa sobre tres métricas que se calculan durante la capacitación. Elija una de ellas como objetivo para optimizar al ajustar los valores de hiperparámetro.

Nombre de métrica Descripción Dirección de optimización
validation:accuracy

Precisión calculada en el conjunto de datos de validación.

Maximizar

validation:bleu

Puntuación bleu calculada en el conjunto de datos de validación. Como la computación BLEU es cara, puede elegir computar BLEU en una submuestra aleatoria del conjunto de datos de validación para acelerar el proceso de capacitación general. Use el parámetro bleu_sample_size para especificar la submuestra.

Maximizar

validation:perplexity

Perplejidad, es una función de pérdida computada en el conjunto de datos de validación. La perplejidad mide la entropía cruzada entre una muestra empírica y la distribución prevista por un modelo y de esta forma proporciona una medida de lo bien que un modelo predice los valores de muestra. Los modelos que son buenos prediciendo una muestra tienen una perplejidad baja.

Minimizar

Hiperparámetros de Secuencia a secuencia ajustables

Puede ajustar los siguientes hiperparámetros para el algoritmo de SageMaker secuencia a secuencia. Los hiperparámetros que mayor impacto tienen en las métricas objetivas de secuencia a secuencia: batch_size, optimizer_type, learning_rate, num_layers_encoder y num_layers_decoder.

Nombre del parámetro Tipo de parámetro Intervalos recomendados
num_layers_encoder

IntegerParameterRange

[1-10]

num_layers_decoder

IntegerParameterRange

[1-10]

batch_size

CategoricalParameterRange

[16,32,64,128,256,512,1024,2048]

optimizer_type

CategoricalParameterRange

['adam', 'sgd', 'rmsprop']

weight_init_type

CategoricalParameterRange

['xavier', 'uniform']

weight_init_scale

ContinuousParameterRange

Para el tipo xavier, escriba MinValue: 2.0, MaxValue: 3.0 Para el tipo uniforme: MinValue: -1.0, MaxValue: 1.0

learning_rate

ContinuousParameterRange

MinValue: 0,00005, 0,2 MaxValue

weight_decay

ContinuousParameterRange

MinValue: 0,0, 0,1 MaxValue

momentum

ContinuousParameterRange

MinValue: 0,5, MaxValue 0,9

clip_gradient

ContinuousParameterRange

MinValue: 1,0, MaxValue 5,0

rnn_num_hidden

CategoricalParameterRange

Solo aplicable a redes neuronales recurrentes (RNN). [128,256,512,1024,2048]

cnn_num_hidden

CategoricalParameterRange

Solo aplicable a redes neuronales convolucionales (CNN). [128,256,512,1024,2048]

num_embed_source

IntegerParameterRange

[256-512]

num_embed_target

IntegerParameterRange

[256-512]

embed_dropout_source

ContinuousParameterRange

MinValue: 0,0, MaxValue 0,5

embed_dropout_target

ContinuousParameterRange

MinValue: 0,0, MaxValue 0,5

rnn_decoder_hidden_dropout

ContinuousParameterRange

MinValue: 0,0, MaxValue 0,5

cnn_hidden_dropout

ContinuousParameterRange

MinValue: 0,0, MaxValue 0,5

lr_scheduler_type

CategoricalParameterRange

['plateau_reduce', 'fixed_rate_inv_t', 'fixed_rate_inv_sqrt_t']

plateau_reduce_lr_factor

ContinuousParameterRange

MinValue: 0,1, MaxValue 0,5

plateau_reduce_lr_threshold

IntegerParameterRange

[1-5]

fixed_rate_lr_half_life

IntegerParameterRange

[10-30]