序列到序列超参数 - Amazon SageMaker

序列到序列超参数

下表列出了使用 Amazon SageMaker Sequence-to-Sequence (seq2seq) 算法进行训练时可以设置的超参数。

参数名称 描述
batch_size

用于梯度下降的小批次大小。

可选

有效值:正整数

默认值:64

beam_size

光束搜索的光束的长度。在训练期间用于计算 bleu,以及在推理期间使用。

可选

有效值:正整数

默认值:5

bleu_sample_size

在训练过程中从验证数据集中选取以解码并计算 bleu 分数的实例数。设置为 -1 可使用完整验证集(如果选择 bleu 作为 optimized_metric)。

可选

有效值:整数

默认值:0

bucket_width

返回最多 (max_seq_len_sourcemax_seq_len_target) 个 (源、目标) 存储桶。数据的较长一侧使用 bucket_width 的步骤,而较短的一侧使用按平均目标/源长度比例缩减的步骤。如果一侧的最大长度超过另一侧,则该侧额外存储桶的宽度固定在 max_len 的那一侧。

可选

有效值:正整数

默认值:10

bucketing_enabled

设置为 false 可禁用分桶,展开到最大长度。

可选

有效值:truefalse

默认值:true

checkpoint_frequency_num_batches

检查点并评估每个 x 批处理。此检查点超参数会传递给 SageMaker 的 seq2seq 算法,以便提前停止和检索最佳模型。算法的检查点在算法的训练容器中本地运行,并且与 SageMaker 检查点不兼容。该算法暂时将检查点保存到本地路径,并在训练作业停止后将最佳模型构件存储到 S3 中的模型输出路径中。

可选

有效值:正整数

默认值:1000

checkpoint_threshold

在停止训练之前,允许在验证数据集上的 optimized_metric 中不改进检查点模型的最大数量。此检查点超参数会传递给 SageMaker 的 seq2seq 算法,以便提前停止和检索最佳模型。算法的检查点在算法的训练容器中本地运行,并且与 SageMaker 检查点不兼容。该算法暂时将检查点保存到本地路径,并在训练作业停止后将最佳模型构件存储到 S3 中的模型输出路径中。

可选

有效值:正整数

默认值:3

clip_gradient

大于此的剪辑绝对梯度值。设置为负表示禁用。

可选

有效值:浮点值

默认值:1

cnn_activation_type

要使用的 cnn 激活类型。

可选

有效值:字符串。以下值之一:glurelusoftrelusigmoidtanh

默认值:glu

cnn_hidden_dropout

卷积层之间的退出的丢弃概率。

可选

有效值:浮点值。范围为 [0,1]。

默认值:0

cnn_kernel_width_decoder

cnn 解码器的内核宽度。

可选

有效值:正整数

默认值:5

cnn_kernel_width_encoder

cnn 编码器的内核宽度。

可选

有效值:正整数

默认值:3

cnn_num_hidden

编码器和解码器的 cnn 隐藏单元的数量。

可选

有效值:正整数

默认值:512

decoder_type

解码器类型。

可选

有效值:字符串。rnncnn

默认值:rnn

embed_dropout_source

源端嵌入的丢弃概率。

可选

有效值:浮点值。范围为 [0,1]。

默认值:0

embed_dropout_target

目标端嵌入的丢弃概率。

可选

有效值:浮点值。范围为 [0,1]。

默认值:0

encoder_type

编码器类型。rnn 架构基于 Bahdanau 等人提出的关注机制,cnn 架构基于 Gehring 等人提出的关注机制。

可选

有效值:字符串。rnncnn

默认值:rnn

fixed_rate_lr_half_life

fixed_rate_* 计划程序的检查点数量来说,学习率的半生命周期。

可选

有效值:正整数

默认值:10

learning_rate

初始学习率。

可选

有效值:浮点值

默认值:0.0003

loss_type

训练的损失函数。

可选

有效值:字符串。cross-entropy

默认值:cross-entropy

lr_scheduler_type

学习率计划程序类型。plateau_reduce 表示每当 validation_accuracy 稳定状态上有 optimized_metric 时,就降低学习率。inv_t 是反时衰减。learning_rate/(1+decay_rate*t)

可选

有效值:字符串。plateau_reducefixed_rate_inv_tfixed_rate_inv_sqrt_t

默认值:plateau_reduce

max_num_batches

要处理的更新/批处理的最大数量。-1 表示不限次数。

可选

有效值:整数

默认值:-1

max_num_epochs

在停止调整之前通过训练数据传递的最大纪元数。如果传递此参数,则即使验证准确性没有提高,训练仍将持续到此数量纪元。如果不传递,则会忽略。

可选

有效值:小于或等于 max_num_epochs 的正整数。

默认值:无

max_seq_len_source

源序列长度的最大长度。比此长度长的序列被截断为此长度。

可选

有效值:正整数

默认值:100

max_seq_len_target

目标序列长度的最大长度。比此长度长的序列被截断为此长度。

可选

有效值:正整数

默认值:100

min_num_epochs

在通过 early_stopping 条件停止之前,训练必须运行的最少纪元数。

可选

有效值:正整数

默认值:0

momentum

用于 sgd 的动量常量。如果您使用的是 adamrmsprop,请不要传递此参数。

可选

有效值:浮点值

默认值:无

num_embed_source

源标记的嵌入大小。

可选

有效值:正整数

默认值:512

num_embed_target

目标标记的嵌入大小。

可选

有效值:正整数

默认值:512

num_layers_decoder

解码器 rnncnn 的层数。

可选

有效值:正整数

默认值:1

num_layers_encoder

编码器 rnncnn 的层数。

可选

有效值:正整数

默认值:1

optimized_metric

用于使用早期停止进行优化的指标。

可选

有效值:字符串。perplexityaccuracybleu

默认值:perplexity

optimizer_type

可供从中选择的优化程序。

可选

有效值:字符串。adamsgdrmsprop

默认值:adam

plateau_reduce_lr_factor

与学习率相乘的系数 (对于 plateau_reduce)。

可选

有效值:浮点值

默认值:0.5

plateau_reduce_lr_threshold

对于 plateau_reduce 计划程序,如果 optimized_metric 未改善这很多检查点,则用学习率乘以降低系数。

可选

有效值:正整数

默认值:3

rnn_attention_in_upper_layers

将关注传递到 rnn 的上层,如 Google NMT 文章中所述。仅在使用多个层时才适用。

可选

有效值:布尔值(truefalse

默认值:true

rnn_attention_num_hidden

关注层的隐藏单元数量。默认值为 rnn_num_hidden

可选

有效值:正整数

默认值:rnn_num_hidden

rnn_attention_type

编码器的关注模型。mlp 是指 concat,bilinear 是指 general(源自 Luong 等人的论文)。

可选

有效值:字符串。以下值之一:dotfixedmlpbilinear

默认值:mlp

rnn_cell_type

特定类型的 rnn 架构。

可选

有效值:字符串。lstmgru

默认值:lstm

rnn_decoder_state_init

如何从编码器初始化 rnn 解码器状态。

可选

有效值:字符串。lastavgzero

默认值:last

rnn_first_residual_layer

第一个具有剩余连接的 rnn 层,只有在编码器或解码器中的层数超过 1 时才适用。

可选

有效值:正整数

默认值:2

rnn_num_hidden

编码器和解码器的 rnn 隐藏单元的数量。这必须是 2 的倍数,因为默认情况下该算法使用双向长短期记忆 (LSTM)。

可选

有效值:正偶数

默认值:1024

rnn_residual_connections

将剩余连接添加到堆叠的 rnn。层数应超过 1。

可选

有效值:布尔值(truefalse

默认值:false

rnn_decoder_hidden_dropout

将上下文与解码器中的 rnn 隐藏状态结合的隐藏状态的丢弃概率。

可选

有效值:浮点值。范围为 [0,1]。

默认值:0

training_metric

用于跟踪验证数据训练的指标。

可选

有效值:字符串。perplexityaccuracy

默认值:perplexity

weight_decay

权重衰减常量。

可选

有效值:浮点值

默认值:0

weight_init_scale

权重初始化规模(对于 uniformxavier 初始化)。

可选

有效值:浮点值

默认值:2.34

weight_init_type

权重初始化的类型。

可选

有效值:字符串。uniformxavier

默认值:xavier

xavier_factor_type

Xavier 系数类型。

可选

有效值:字符串。inoutavg

默认值:in