Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Sequence-to-Sequence Hiperparameter
Tabel berikut mencantumkan hyperparameters yang dapat Anda atur saat berlatih dengan algoritma Amazon SageMaker Sequence-to-Sequence (seq2seq).
Nama Parameter | Deskripsi |
---|---|
batch_size |
Ukuran batch mini untuk penurunan gradien. Opsional Nilai yang valid: bilangan bulat positif Nilai default: 64 |
beam_size |
Panjang balok untuk pencarian balok. Digunakan selama pelatihan untuk komputasi Opsional Nilai yang valid: bilangan bulat positif Nilai default: 5 |
bleu_sample_size |
Jumlah instance untuk dipilih dari kumpulan data validasi untuk memecahkan kode dan menghitung Opsional Nilai yang valid: integer Nilai default: 0 |
bucket_width |
Mengembalikan (sumber, target) ember hingga ( Opsional Nilai yang valid: bilangan bulat positif Nilai default: 10 |
bucketing_enabled |
Setel Opsional Nilai yang valid: Nilai default: |
checkpoint_frequency_num_batches |
Checkpoint dan evaluasi setiap x batch. Hyperparameter checkpointing ini diteruskan ke algoritme seq2seq untuk menghentikan lebih awal dan mengambil model terbaik. SageMaker Checkpointing algoritma berjalan secara lokal di wadah pelatihan algoritme dan tidak kompatibel dengan checkpointing. SageMaker Algoritma untuk sementara menyimpan pos pemeriksaan ke jalur lokal dan menyimpan artefak model terbaik ke jalur keluaran model di S3 setelah pekerjaan pelatihan dihentikan. Opsional Nilai yang valid: bilangan bulat positif Nilai default: 1000 |
checkpoint_threshold |
Jumlah maksimum model pos pemeriksaan diizinkan untuk tidak meningkatkan dataset validasi sebelum pelatihan dihentikan. Opsional Nilai yang valid: bilangan bulat positif Nilai default: 3 |
clip_gradient |
Klip nilai gradien absolut lebih besar dari ini. Setel ke negatif untuk menonaktifkan. Opsional Nilai yang valid: float Nilai default: 1 |
cnn_activation_type |
Jenis Opsional Nilai yang valid: String. Salah satu Nilai default: |
cnn_hidden_dropout |
Probabilitas putus sekolah untuk putus sekolah di antara lapisan konvolusi. Opsional Nilai yang valid: Float. Rentang di [0,1]. Nilai default: 0 |
cnn_kernel_width_decoder |
Lebar kernel untuk Opsional Nilai yang valid: bilangan bulat positif Nilai default: 5 |
cnn_kernel_width_encoder |
Lebar kernel untuk Opsional Nilai yang valid: bilangan bulat positif Nilai default: 3 |
cnn_num_hidden |
Jumlah unit Opsional Nilai yang valid: bilangan bulat positif Nilai default: 512 |
decoder_type |
Jenis decoder. Opsional Nilai yang valid: String. Baik Nilai default: rnn |
embed_dropout_source |
Probabilitas putus sekolah untuk penyematan sisi sumber. Opsional Nilai yang valid: Float. Rentang di [0,1]. Nilai default: 0 |
embed_dropout_target |
Probabilitas putus sekolah untuk penyematan sisi target. Opsional Nilai yang valid: Float. Rentang di [0,1]. Nilai default: 0 |
encoder_type |
Jenis encoder. Opsional Nilai yang valid: String. Baik Nilai default: |
fixed_rate_lr_half_life |
Waktu paruh untuk tingkat pembelajaran dalam hal jumlah pos pemeriksaan untuk Opsional Nilai yang valid: bilangan bulat positif Nilai default: 10 |
learning_rate |
Tingkat pembelajaran awal. Opsional Nilai yang valid: float Nilai default: 0,0003 |
loss_type |
Fungsi kerugian untuk pelatihan. Opsional Nilai yang valid: String. Nilai default: |
lr_scheduler_type |
Jenis penjadwal tingkat pembelajaran. Opsional Nilai yang valid: String. Salah satu Nilai default: |
max_num_batches |
Jumlah maksimum pembaruan/batch untuk diproses. -1 untuk tak terbatas. Opsional Nilai yang valid: integer Nilai default: -1 |
max_num_epochs |
Jumlah maksimum epoch untuk melewati data pelatihan sebelum pemasangan dihentikan. Pelatihan berlanjut hingga jumlah zaman ini bahkan jika akurasi validasi tidak membaik jika parameter ini dilewatkan. Diabaikan jika tidak dilewati. Opsional Nilai yang valid: Bilangan bulat positif dan kurang dari atau sama dengan max_num_epochs. Nilai default: tidak ada. |
max_seq_len_source |
Panjang maksimum untuk panjang urutan sumber. Urutan yang lebih panjang dari panjang ini terpotong hingga panjang ini. Opsional Nilai yang valid: bilangan bulat positif Nilai default: 100 |
max_seq_len_target |
Panjang maksimum untuk panjang urutan target. Urutan yang lebih panjang dari panjang ini terpotong hingga panjang ini. Opsional Nilai yang valid: bilangan bulat positif Nilai default: 100 |
min_num_epochs |
Jumlah minimum epoch pelatihan harus dijalankan sebelum dihentikan melalui Opsional Nilai yang valid: bilangan bulat positif Nilai default: 0 |
momentum |
Konstanta momentum digunakan untuk Opsional Nilai yang valid: float Nilai default: tidak ada. |
num_embed_source |
Ukuran penyematan untuk token sumber. Opsional Nilai yang valid: bilangan bulat positif Nilai default: 512 |
num_embed_target |
Ukuran penyematan untuk token target. Opsional Nilai yang valid: bilangan bulat positif Nilai default: 512 |
num_layers_decoder |
Jumlah lapisan untuk Decoder rnn atau cnn. Opsional Nilai yang valid: bilangan bulat positif Nilai default: 1 |
num_layers_encoder |
Jumlah lapisan untuk Encoder Opsional Nilai yang valid: bilangan bulat positif Nilai default: 1 |
optimized_metric |
Metrik untuk dioptimalkan dengan penghentian awal. Opsional Nilai yang valid: String. Salah satu Nilai default: |
optimizer_type |
Optimizer untuk dipilih. Opsional Nilai yang valid: String. Salah satu Nilai default: |
plateau_reduce_lr_factor |
Faktor untuk mengalikan tingkat pembelajaran dengan (untuk Opsional Nilai yang valid: float Nilai default: 0,5 |
plateau_reduce_lr_threshold |
Untuk Opsional Nilai yang valid: bilangan bulat positif Nilai default: 3 |
rnn_attention_in_upper_layers |
Berikan perhatian ke lapisan atas rnn, seperti Google paperNMT. Hanya berlaku jika lebih dari satu lapisan digunakan. Opsional Nilai yang valid: boolean ( Nilai default: |
rnn_attention_num_hidden |
Jumlah unit tersembunyi untuk lapisan perhatian. default ke. Opsional Nilai yang valid: bilangan bulat positif Nilai default: |
rnn_attention_type |
Model perhatian untuk encoder. Opsional Nilai yang valid: String. Salah satu Nilai default: |
rnn_cell_type |
Jenis Opsional Nilai yang valid: String. Baik Nilai default: |
rnn_decoder_state_init |
Cara menginisialisasi status Opsional Nilai yang valid: String. Salah satu Nilai default: |
rnn_first_residual_layer |
Lapisan rnn pertama yang memiliki koneksi residual, hanya berlaku jika jumlah lapisan dalam encoder atau decoder lebih dari 1. Opsional Nilai yang valid: bilangan bulat positif Nilai default: 2 |
rnn_num_hidden |
Jumlah unit tersembunyi rnn untuk encoder dan decoder. Ini harus kelipatan 2 karena algoritme menggunakan Memori Jangka Pendek Jangka Panjang (LSTM) bi-directional secara default. Opsional Nilai yang valid: bilangan bulat genap positif Nilai default: 1024 |
rnn_residual_connections |
Tambahkan koneksi sisa ke rnn bertumpuk. Jumlah lapisan harus lebih dari 1. Opsional Nilai yang valid: boolean ( Nilai default: |
rnn_decoder_hidden_dropout |
Probabilitas putus sekolah untuk keadaan tersembunyi yang menggabungkan konteks dengan status tersembunyi rnn di decoder. Opsional Nilai yang valid: Float. Rentang di [0,1]. Nilai default: 0 |
training_metric |
Metrik untuk melacak pelatihan tentang data validasi. Opsional Nilai yang valid: String. Baik Nilai default: |
weight_decay |
Konstanta peluruhan berat badan. Opsional Nilai yang valid: float Nilai default: 0 |
weight_init_scale |
Skala inisialisasi berat (untuk Opsional Nilai yang valid: float Nilai default: 2.34 |
weight_init_type |
Jenis inisialisasi berat badan. Opsional Nilai yang valid: String. Baik Nilai default: |
xavier_factor_type |
Jenis faktor Xavier. Opsional Nilai yang valid: String. Salah satu Nilai default: |