Menyetel Sequence-to-Sequence Model - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menyetel Sequence-to-Sequence Model

Penyetelan model otomatis, juga dikenal sebagai tuning hyperparameter, menemukan versi terbaik dari model dengan menjalankan banyak pekerjaan yang menguji berbagai hiperparameter pada kumpulan data Anda. Anda memilih hyperparameters yang dapat disetel, rentang nilai untuk masing-masing, dan metrik objektif. Anda memilih metrik objektif dari metrik yang dihitung algoritme. Penyetelan model otomatis mencari hiperparameter yang dipilih untuk menemukan kombinasi nilai yang menghasilkan model yang mengoptimalkan metrik objektif.

Untuk informasi lebih lanjut tentang penyetelan model, lihatPenyetelan model otomatis dengan SageMaker.

Metrik yang Dihitung oleh Algoritma Sequence-to-Sequence

Algoritma urutan ke urutan melaporkan tiga metrik yang dihitung selama pelatihan. Pilih salah satunya sebagai tujuan untuk mengoptimalkan saat menyetel nilai hyperparameter.

Nama Metrik Deskripsi Arah Optimasi
validation:accuracy

Akurasi dihitung pada dataset validasi.

Maksimalkan

validation:bleu

Skor Bleu dihitung pada dataset validasi. Karena BLEU komputasi mahal, Anda dapat memilih untuk menghitung BLEU pada subsampel acak dari kumpulan data validasi untuk mempercepat proses pelatihan secara keseluruhan. Gunakan bleu_sample_size parameter untuk menentukan subsampel.

Maksimalkan

validation:perplexity

Perplexity, adalah fungsi kerugian yang dihitung pada dataset validasi. Kebingungan mengukur entropi silang antara sampel empiris dan distribusi yang diprediksi oleh model dan dengan demikian memberikan ukuran seberapa baik model memprediksi nilai sampel, Model yang pandai memprediksi sampel memiliki kebingungan yang rendah.

Minimalkan

Hiperparameter yang dapat disetel Sequence-to-Sequence

Anda dapat menyetel hyperparameters berikut untuk algoritma SageMaker Sequence to Sequence. Hiperparameter yang memiliki dampak terbesar pada metrik objektif urutan ke urutan adalah:batch_size,,, optimizer_type learning_ratenum_layers_encoder, dan. num_layers_decoder

Nama Parameter Jenis Parameter Rentang yang Direkomendasikan
num_layers_encoder

IntegerParameterRange

[1-10]

num_layers_decoder

IntegerParameterRange

[1-10]

batch_size

CategoricalParameterRange

[16,32,64,128,256,512,1024,2048]

optimizer_type

CategoricalParameterRange

['adam', 'sgd', 'rmsprop']

weight_init_type

CategoricalParameterRange

['xavier', 'seragam']

weight_init_scale

ContinuousParameterRange

Untuk tipe xavier: MinValue: 2.0, MaxValue: 3.0 Untuk tipe seragam: MinValue: -1.0, MaxValue: 1.0

learning_rate

ContinuousParameterRange

MinValue: 0.00005, MaxValue: 0.2

weight_decay

ContinuousParameterRange

MinValue: 0.0, MaxValue: 0.1

momentum

ContinuousParameterRange

MinValue: 0,5, MaxValue: 0,9

clip_gradient

ContinuousParameterRange

MinValue: 1.0, MaxValue: 5.0

rnn_num_hidden

CategoricalParameterRange

Hanya berlaku untuk jaringan saraf berulang (RNNs). [128,256,512,1024,2048]

cnn_num_hidden

CategoricalParameterRange

Hanya berlaku untuk jaringan saraf convolutional (). CNNs [128,256,512,1024,2048]

num_embed_source

IntegerParameterRange

[256-512]

num_embed_target

IntegerParameterRange

[256-512]

embed_dropout_source

ContinuousParameterRange

MinValue: 0.0, MaxValue: 0.5

embed_dropout_target

ContinuousParameterRange

MinValue: 0.0, MaxValue: 0.5

rnn_decoder_hidden_dropout

ContinuousParameterRange

MinValue: 0.0, MaxValue: 0.5

cnn_hidden_dropout

ContinuousParameterRange

MinValue: 0.0, MaxValue: 0.5

lr_scheduler_type

CategoricalParameterRange

['plateau_reduce', 'fixed_rate_inv_t', 'fixed_rate_inv_sqrt_t']

plateau_reduce_lr_factor

ContinuousParameterRange

MinValue: 0,1, MaxValue: 0,5

plateau_reduce_lr_threshold

IntegerParameterRange

[1-5]

fixed_rate_lr_half_life

IntegerParameterRange

[10-30]