本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Sequence-to-Sequence 超參數
下表列出使用 Amazon SageMaker Sequence-to-Sequence (seq2seq) 演算法進行訓練時可設定的超參數。
參數名稱 | 描述 |
---|---|
batch_size |
梯度下降的最低批次大小。 選用 有效值:正整數 預設值:64 |
beam_size |
光束搜尋的光速長度。用於訓練期間以運算 選用 有效值:正整數 預設值:5 |
bleu_sample_size |
從驗證資料集挑選的執行個體數量,用來在訓練期間解碼並運算 選用 有效值:整數 預設值:0 |
bucket_width |
傳回 (來源、目標) 儲存貯體高達 ( 選用 有效值:正整數 預設值:10 |
bucketing_enabled |
設為 選用 有效值: 預設值: |
checkpoint_frequency_num_batches |
檢查點並評估每 x 批次。此檢查點超參數會傳遞至 SageMaker的 seq2seq 演算法,以提早停止和擷取最佳模型。演算法的檢查點會在本機於演算法的訓練容器中執行,且與 SageMaker 檢查點不相容。演算法會暫時將檢查點存放到本機路徑,並在訓練任務停止後,將最佳模型成品存放到 S3 中的模型輸出路徑。 選用 有效值:正整數 預設值:1000 |
checkpoint_threshold |
允許最大檢查點數量模型在訓練停止前不會在驗證資料集中的 選用 有效值:正整數 預設值:3 |
clip_gradient |
剪裁絕對梯度值大於此。設定為負以停用。 選用 有效值:浮點數 預設值:1 |
cnn_activation_type |
要使用的 選用 有效值:字串。下列其中一項: 預設值: |
cnn_hidden_dropout |
卷積層之間的退出機率。 選用 有效值:浮點數。範圍在 [0,1] 之間。 預設值:0 |
cnn_kernel_width_decoder |
選用 有效值:正整數 預設值:5 |
cnn_kernel_width_encoder |
選用 有效值:正整數 預設值:3 |
cnn_num_hidden |
用於編碼器與解碼器的 選用 有效值:正整數 預設值:512 |
decoder_type |
解碼器類型。 選用 有效值:字串。 預設值:rnn |
embed_dropout_source |
來源端內嵌的退出機率。 選用 有效值:浮點數。範圍在 [0,1] 之間。 預設值:0 |
embed_dropout_target |
目標端內嵌的退出機率。 選用 有效值:浮點數。範圍在 [0,1] 之間。 預設值:0 |
encoder_type |
編碼器類型。 選用 有效值:字串。 預設值: |
fixed_rate_lr_half_life |
考量用於 選用 有效值:正整數 預設值:10 |
learning_rate |
初始學習率。 選用 有效值:浮點數 預設值:0.0003 |
loss_type |
訓練的損失函式。 選用 有效值:字串。 預設值: |
lr_scheduler_type |
學習率排程器類型。 選用 有效值:字串。 預設值: |
max_num_batches |
更新數/要處理的批次數上限。-1 表示無限次。 選用 有效值:整數 預設值:-1 |
max_num_epochs |
擬合停止前透過訓練資料傳遞的最大 epoch 數量。若此參數傳遞後,即使驗證精確度未提升,訓練也將持續直到達到此 epoch 數量。如果未傳遞則忽略。 選用 有效值:正整數,且小於或等於 max_num_epochs。 預設值:無 |
max_seq_len_source |
來源序列長度的最大長度。超過此長度的序列將會截斷為此長度。 選用 有效值:正整數 預設值:100 |
max_seq_len_target |
目標序列長度的最大長度。超過此長度的序列將會截斷為此長度。 選用 有效值:正整數 預設值:100 |
min_num_epochs |
在訓練透過 選用 有效值:正整數 預設值:0 |
momentum |
用於 選用 有效值:浮點數 預設值:無 |
num_embed_source |
來源符記的內嵌大小。 選用 有效值:正整數 預設值:512 |
num_embed_target |
目標符記的內嵌大小。 選用 有效值:正整數 預設值:512 |
num_layers_decoder |
解碼器 rnn 或 cnn 的層數。 選用 有效值:正整數 預設值:1 |
num_layers_encoder |
編碼器 選用 有效值:正整數 預設值:1 |
optimized_metric |
最佳化提早停止的指標。 選用 有效值:字串。 預設值: |
optimizer_type |
選出最佳化器。 選用 有效值:字串。 預設值: |
plateau_reduce_lr_factor |
與學習速率相乘的因素 (適用於 選用 有效值:浮點數 預設值:0.5 |
plateau_reduce_lr_threshold |
對於 選用 有效值:正整數 預設值:3 |
rnn_attention_in_upper_layers |
將注意力傳遞至上層 rnn ,例如 Google NMT 紙張。只會在使用超過一層時使用。 選用 有效值:布林值 ( 預設值: |
rnn_attention_num_hidden |
焦點層的隱藏單位數量。預設為 選用 有效值:正整數 預設值: |
rnn_attention_type |
編碼器的焦點模型。 選用 有效值:字串。 預設值: |
rnn_cell_type |
選用 有效值:字串。 預設值: |
rnn_decoder_state_init |
如何從編碼器初始化 選用 有效值:字串。 預設值: |
rnn_first_residual_layer |
第一個 rnn 層有剩餘連線,僅在編碼器或解碼器中的層數大於 1 時適用。 選用 有效值:正整數 預設值:2 |
rnn_num_hidden |
用於編碼器與解碼器的 rnn 隱藏單位數量。這必須是 2 的倍數,因為演算法預設使用雙向長期短期記憶體 (LSTM)。 選用 有效值:正整數,偶數 預設值:1024 |
rnn_residual_connections |
新增剩餘連線到堆疊的 rnn。層級數量應大於 1。 選用 有效值:布林值 ( 預設值: |
rnn_decoder_hidden_dropout |
結合解碼器中含有 rnn 內容隱藏狀態的隱藏狀態退出機率。 選用 有效值:浮點數。範圍在 [0,1] 之間。 預設值:0 |
training_metric |
追蹤在驗證資料上的訓練之指標。 選用 有效值:字串。 預設值: |
weight_decay |
重量衰減不變。 選用 有效值:浮點數 預設值:0 |
weight_init_scale |
加權初始化尺度 (適用於 選用 有效值:浮點數 預設值:2.34 |
weight_init_type |
重量初始化的類型。 選用 有效值:字串。 預設值: |
xavier_factor_type |
Xavier 因素類型。 選用 有效值:字串。 預設值: |