Sequence-to-Sequence Hiperparameter - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Sequence-to-Sequence Hiperparameter

Tabel berikut mencantumkan hyperparameters yang dapat Anda atur saat berlatih dengan algoritma Amazon SageMaker Sequence-to-Sequence (seq2seq).

Nama Parameter Deskripsi
batch_size

Ukuran batch mini untuk penurunan gradien.

Opsional

Nilai yang valid: bilangan bulat positif

Nilai default: 64

beam_size

Panjang balok untuk pencarian balok. Digunakan selama pelatihan untuk komputasi bleu dan digunakan selama inferensi.

Opsional

Nilai yang valid: bilangan bulat positif

Nilai default: 5

bleu_sample_size

Jumlah instance untuk dipilih dari kumpulan data validasi untuk memecahkan kode dan menghitung bleu skor selama pelatihan. Setel ke -1 untuk menggunakan set validasi lengkap (jika bleu dipilih sebagaioptimized_metric).

Opsional

Nilai yang valid: integer

Nilai default: 0

bucket_width

Mengembalikan (sumber, target) ember hingga (max_seq_len_source,max_seq_len_target). Sisi data yang lebih panjang menggunakan langkah-langkah bucket_width sementara sisi yang lebih pendek menggunakan langkah-langkah yang diperkecil dengan rasio panjang target/sumber rata-rata. Jika satu sisi mencapai panjang maksimum sebelum yang lain, lebar ember ekstra di sisi itu tetap ke sisi itu. max_len

Opsional

Nilai yang valid: bilangan bulat positif

Nilai default: 10

bucketing_enabled

Setel false untuk menonaktifkan bucketing, buka gulungan ke panjang maksimum.

Opsional

Nilai yang valid: true or false

Nilai default: true

checkpoint_frequency_num_batches

Checkpoint dan evaluasi setiap x batch. Hyperparameter checkpointing ini diteruskan ke algoritme seq2seq untuk menghentikan lebih awal dan mengambil model terbaik. SageMaker Checkpointing algoritma berjalan secara lokal di wadah pelatihan algoritme dan tidak kompatibel dengan checkpointing. SageMaker Algoritma untuk sementara menyimpan pos pemeriksaan ke jalur lokal dan menyimpan artefak model terbaik ke jalur keluaran model di S3 setelah pekerjaan pelatihan dihentikan.

Opsional

Nilai yang valid: bilangan bulat positif

Nilai default: 1000

checkpoint_threshold

Jumlah maksimum model pos pemeriksaan diizinkan untuk tidak meningkatkan dataset validasi sebelum pelatihan dihentikan. optimized_metric Hyperparameter checkpointing ini diteruskan ke algoritme seq2seq untuk menghentikan lebih awal dan mengambil model terbaik. SageMaker Checkpointing algoritma berjalan secara lokal di wadah pelatihan algoritme dan tidak kompatibel dengan checkpointing. SageMaker Algoritma untuk sementara menyimpan pos pemeriksaan ke jalur lokal dan menyimpan artefak model terbaik ke jalur keluaran model di S3 setelah pekerjaan pelatihan dihentikan.

Opsional

Nilai yang valid: bilangan bulat positif

Nilai default: 3

clip_gradient

Klip nilai gradien absolut lebih besar dari ini. Setel ke negatif untuk menonaktifkan.

Opsional

Nilai yang valid: float

Nilai default: 1

cnn_activation_type

Jenis cnn aktivasi yang akan digunakan.

Opsional

Nilai yang valid: String. Salah satuglu,relu,softrelu,sigmoid, atautanh.

Nilai default: glu

cnn_hidden_dropout

Probabilitas putus sekolah untuk putus sekolah di antara lapisan konvolusi.

Opsional

Nilai yang valid: Float. Rentang di [0,1].

Nilai default: 0

cnn_kernel_width_decoder

Lebar kernel untuk cnn decoder.

Opsional

Nilai yang valid: bilangan bulat positif

Nilai default: 5

cnn_kernel_width_encoder

Lebar kernel untuk cnn encoder.

Opsional

Nilai yang valid: bilangan bulat positif

Nilai default: 3

cnn_num_hidden

Jumlah unit cnn tersembunyi untuk encoder dan decoder.

Opsional

Nilai yang valid: bilangan bulat positif

Nilai default: 512

decoder_type

Jenis decoder.

Opsional

Nilai yang valid: String. Baik rnn atau cnn.

Nilai default: rnn

embed_dropout_source

Probabilitas putus sekolah untuk penyematan sisi sumber.

Opsional

Nilai yang valid: Float. Rentang di [0,1].

Nilai default: 0

embed_dropout_target

Probabilitas putus sekolah untuk penyematan sisi target.

Opsional

Nilai yang valid: Float. Rentang di [0,1].

Nilai default: 0

encoder_type

Jenis encoder. rnnArsitektur didasarkan pada mekanisme perhatian oleh Bahdanau et al. dan arsitektur cnn didasarkan pada Gehring et al.

Opsional

Nilai yang valid: String. Baik rnn atau cnn.

Nilai default: rnn

fixed_rate_lr_half_life

Waktu paruh untuk tingkat pembelajaran dalam hal jumlah pos pemeriksaan untuk fixed_rate_ * penjadwal.

Opsional

Nilai yang valid: bilangan bulat positif

Nilai default: 10

learning_rate

Tingkat pembelajaran awal.

Opsional

Nilai yang valid: float

Nilai default: 0,0003

loss_type

Fungsi kerugian untuk pelatihan.

Opsional

Nilai yang valid: String. cross-entropy

Nilai default: cross-entropy

lr_scheduler_type

Jenis penjadwal tingkat pembelajaran. plateau_reduceberarti mengurangi tingkat pembelajaran setiap kali optimized_metric di validation_accuracy dataran tinggi. inv_tadalah peluruhan waktu terbalik. learning_rate/(decay_rate1+*t)

Opsional

Nilai yang valid: String. Salah satuplateau_reduce,fixed_rate_inv_t, ataufixed_rate_inv_sqrt_t.

Nilai default: plateau_reduce

max_num_batches

Jumlah maksimum pembaruan/batch untuk diproses. -1 untuk tak terbatas.

Opsional

Nilai yang valid: integer

Nilai default: -1

max_num_epochs

Jumlah maksimum epoch untuk melewati data pelatihan sebelum pemasangan dihentikan. Pelatihan berlanjut hingga jumlah zaman ini bahkan jika akurasi validasi tidak membaik jika parameter ini dilewatkan. Diabaikan jika tidak dilewati.

Opsional

Nilai yang valid: Bilangan bulat positif dan kurang dari atau sama dengan max_num_epochs.

Nilai default: tidak ada.

max_seq_len_source

Panjang maksimum untuk panjang urutan sumber. Urutan yang lebih panjang dari panjang ini terpotong hingga panjang ini.

Opsional

Nilai yang valid: bilangan bulat positif

Nilai default: 100

max_seq_len_target

Panjang maksimum untuk panjang urutan target. Urutan yang lebih panjang dari panjang ini terpotong hingga panjang ini.

Opsional

Nilai yang valid: bilangan bulat positif

Nilai default: 100

min_num_epochs

Jumlah minimum epoch pelatihan harus dijalankan sebelum dihentikan melalui early_stopping kondisi.

Opsional

Nilai yang valid: bilangan bulat positif

Nilai default: 0

momentum

Konstanta momentum digunakan untuksgd. Jangan lewatkan parameter ini jika Anda menggunakan adam ataurmsprop.

Opsional

Nilai yang valid: float

Nilai default: tidak ada.

num_embed_source

Ukuran penyematan untuk token sumber.

Opsional

Nilai yang valid: bilangan bulat positif

Nilai default: 512

num_embed_target

Ukuran penyematan untuk token target.

Opsional

Nilai yang valid: bilangan bulat positif

Nilai default: 512

num_layers_decoder

Jumlah lapisan untuk Decoder rnn atau cnn.

Opsional

Nilai yang valid: bilangan bulat positif

Nilai default: 1

num_layers_encoder

Jumlah lapisan untuk Encoder rnn atau. cnn

Opsional

Nilai yang valid: bilangan bulat positif

Nilai default: 1

optimized_metric

Metrik untuk dioptimalkan dengan penghentian awal.

Opsional

Nilai yang valid: String. Salah satuperplexity,accuracy, ataubleu.

Nilai default: perplexity

optimizer_type

Optimizer untuk dipilih.

Opsional

Nilai yang valid: String. Salah satuadam,sgd, ataurmsprop.

Nilai default: adam

plateau_reduce_lr_factor

Faktor untuk mengalikan tingkat pembelajaran dengan (untukplateau_reduce).

Opsional

Nilai yang valid: float

Nilai default: 0,5

plateau_reduce_lr_threshold

Untuk plateau_reduce penjadwal, kalikan tingkat pembelajaran dengan faktor pengurangan jika optimized_metric tidak ditingkatkan untuk banyak pos pemeriksaan ini.

Opsional

Nilai yang valid: bilangan bulat positif

Nilai default: 3

rnn_attention_in_upper_layers

Berikan perhatian ke lapisan atas rnn, seperti Google paperNMT. Hanya berlaku jika lebih dari satu lapisan digunakan.

Opsional

Nilai yang valid: boolean (trueataufalse)

Nilai default: true

rnn_attention_num_hidden

Jumlah unit tersembunyi untuk lapisan perhatian. default ke. rnn_num_hidden

Opsional

Nilai yang valid: bilangan bulat positif

Nilai default: rnn_num_hidden

rnn_attention_type

Model perhatian untuk encoder. mlpmengacu pada concat dan bilinear mengacu pada umum dari Luong et al. paper.

Opsional

Nilai yang valid: String. Salah satudot,fixed,mlp, ataubilinear.

Nilai default: mlp

rnn_cell_type

Jenis rnn arsitektur tertentu.

Opsional

Nilai yang valid: String. Baik lstm atau gru.

Nilai default: lstm

rnn_decoder_state_init

Cara menginisialisasi status rnn decoder dari encoder.

Opsional

Nilai yang valid: String. Salah satulast,avg, atauzero.

Nilai default: last

rnn_first_residual_layer

Lapisan rnn pertama yang memiliki koneksi residual, hanya berlaku jika jumlah lapisan dalam encoder atau decoder lebih dari 1.

Opsional

Nilai yang valid: bilangan bulat positif

Nilai default: 2

rnn_num_hidden

Jumlah unit tersembunyi rnn untuk encoder dan decoder. Ini harus kelipatan 2 karena algoritme menggunakan Memori Jangka Pendek Jangka Panjang (LSTM) bi-directional secara default.

Opsional

Nilai yang valid: bilangan bulat genap positif

Nilai default: 1024

rnn_residual_connections

Tambahkan koneksi sisa ke rnn bertumpuk. Jumlah lapisan harus lebih dari 1.

Opsional

Nilai yang valid: boolean (trueataufalse)

Nilai default: false

rnn_decoder_hidden_dropout

Probabilitas putus sekolah untuk keadaan tersembunyi yang menggabungkan konteks dengan status tersembunyi rnn di decoder.

Opsional

Nilai yang valid: Float. Rentang di [0,1].

Nilai default: 0

training_metric

Metrik untuk melacak pelatihan tentang data validasi.

Opsional

Nilai yang valid: String. Baik perplexity atau accuracy.

Nilai default: perplexity

weight_decay

Konstanta peluruhan berat badan.

Opsional

Nilai yang valid: float

Nilai default: 0

weight_init_scale

Skala inisialisasi berat (untuk uniform dan xavier inisialisasi).

Opsional

Nilai yang valid: float

Nilai default: 2.34

weight_init_type

Jenis inisialisasi berat badan.

Opsional

Nilai yang valid: String. Baik uniform atau xavier.

Nilai default: xavier

xavier_factor_type

Jenis faktor Xavier.

Opsional

Nilai yang valid: String. Salah satuin,out, atauavg.

Nilai default: in