序列到序列超参数
下表列出了使用 Amazon SageMaker Sequence-to-Sequence (seq2seq) 算法进行训练时可以设置的超参数。
参数名称 | 描述 |
---|---|
batch_size |
用于梯度下降的小批次大小。 可选 有效值:正整数 默认值:64 |
beam_size |
光束搜索的光束的长度。在训练期间用于计算 可选 有效值:正整数 默认值:5 |
bleu_sample_size |
在训练过程中从验证数据集中选取以解码并计算 可选 有效值:整数 默认值:0 |
bucket_width |
返回最多 ( 可选 有效值:正整数 默认值:10 |
bucketing_enabled |
设置为 可选 有效值: 默认值: |
checkpoint_frequency_num_batches |
检查点并评估每个 x 批处理。此检查点超参数会传递给 SageMaker 的 seq2seq 算法,以便提前停止和检索最佳模型。算法的检查点在算法的训练容器中本地运行,并且与 SageMaker 检查点不兼容。该算法暂时将检查点保存到本地路径,并在训练作业停止后将最佳模型构件存储到 S3 中的模型输出路径中。 可选 有效值:正整数 默认值:1000 |
checkpoint_threshold |
在停止训练之前,允许在验证数据集上的 可选 有效值:正整数 默认值:3 |
clip_gradient |
大于此的剪辑绝对梯度值。设置为负表示禁用。 可选 有效值:浮点值 默认值:1 |
cnn_activation_type |
要使用的 可选 有效值:字符串。以下值之一: 默认值: |
cnn_hidden_dropout |
卷积层之间的退出的丢弃概率。 可选 有效值:浮点值。范围为 [0,1]。 默认值:0 |
cnn_kernel_width_decoder |
可选 有效值:正整数 默认值:5 |
cnn_kernel_width_encoder |
可选 有效值:正整数 默认值:3 |
cnn_num_hidden |
编码器和解码器的 可选 有效值:正整数 默认值:512 |
decoder_type |
解码器类型。 可选 有效值:字符串。 默认值:rnn |
embed_dropout_source |
源端嵌入的丢弃概率。 可选 有效值:浮点值。范围为 [0,1]。 默认值:0 |
embed_dropout_target |
目标端嵌入的丢弃概率。 可选 有效值:浮点值。范围为 [0,1]。 默认值:0 |
encoder_type |
编码器类型。 可选 有效值:字符串。 默认值: |
fixed_rate_lr_half_life |
就 可选 有效值:正整数 默认值:10 |
learning_rate |
初始学习率。 可选 有效值:浮点值 默认值:0.0003 |
loss_type |
训练的损失函数。 可选 有效值:字符串。 默认值: |
lr_scheduler_type |
学习率计划程序类型。 可选 有效值:字符串。 默认值: |
max_num_batches |
要处理的更新/批处理的最大数量。-1 表示不限次数。 可选 有效值:整数 默认值:-1 |
max_num_epochs |
在停止调整之前通过训练数据传递的最大纪元数。如果传递此参数,则即使验证准确性没有提高,训练仍将持续到此数量纪元。如果不传递,则会忽略。 可选 有效值:小于或等于 max_num_epochs 的正整数。 默认值:无 |
max_seq_len_source |
源序列长度的最大长度。比此长度长的序列被截断为此长度。 可选 有效值:正整数 默认值:100 |
max_seq_len_target |
目标序列长度的最大长度。比此长度长的序列被截断为此长度。 可选 有效值:正整数 默认值:100 |
min_num_epochs |
在通过 可选 有效值:正整数 默认值:0 |
momentum |
用于 可选 有效值:浮点值 默认值:无 |
num_embed_source |
源标记的嵌入大小。 可选 有效值:正整数 默认值:512 |
num_embed_target |
目标标记的嵌入大小。 可选 有效值:正整数 默认值:512 |
num_layers_decoder |
解码器 rnn 或 cnn 的层数。 可选 有效值:正整数 默认值:1 |
num_layers_encoder |
编码器 可选 有效值:正整数 默认值:1 |
optimized_metric |
用于使用早期停止进行优化的指标。 可选 有效值:字符串。 默认值: |
optimizer_type |
可供从中选择的优化程序。 可选 有效值:字符串。 默认值: |
plateau_reduce_lr_factor |
与学习率相乘的系数 (对于 可选 有效值:浮点值 默认值:0.5 |
plateau_reduce_lr_threshold |
对于 可选 有效值:正整数 默认值:3 |
rnn_attention_in_upper_layers |
将关注传递到 rnn 的上层,如 Google NMT 文章中所述。仅在使用多个层时才适用。 可选 有效值:布尔值( 默认值: |
rnn_attention_num_hidden |
关注层的隐藏单元数量。默认值为 可选 有效值:正整数 默认值: |
rnn_attention_type |
编码器的关注模型。 可选 有效值:字符串。以下值之一: 默认值: |
rnn_cell_type |
特定类型的 可选 有效值:字符串。 默认值: |
rnn_decoder_state_init |
如何从编码器初始化 可选 有效值:字符串。 默认值: |
rnn_first_residual_layer |
第一个具有剩余连接的 rnn 层,只有在编码器或解码器中的层数超过 1 时才适用。 可选 有效值:正整数 默认值:2 |
rnn_num_hidden |
编码器和解码器的 rnn 隐藏单元的数量。这必须是 2 的倍数,因为默认情况下该算法使用双向长短期记忆 (LSTM)。 可选 有效值:正偶数 默认值:1024 |
rnn_residual_connections |
将剩余连接添加到堆叠的 rnn。层数应超过 1。 可选 有效值:布尔值( 默认值: |
rnn_decoder_hidden_dropout |
将上下文与解码器中的 rnn 隐藏状态结合的隐藏状态的丢弃概率。 可选 有效值:浮点值。范围为 [0,1]。 默认值:0 |
training_metric |
用于跟踪验证数据训练的指标。 可选 有效值:字符串。 默认值: |
weight_decay |
权重衰减常量。 可选 有效值:浮点值 默认值:0 |
weight_init_scale |
权重初始化规模(对于 可选 有效值:浮点值 默认值:2.34 |
weight_init_type |
权重初始化的类型。 可选 有效值:字符串。 默认值: |
xavier_factor_type |
Xavier 系数类型。 可选 有效值:字符串。 默认值: |