Sequence-to-Sequence Hiperparameter

Tabel berikut mencantumkan hyperparameters yang dapat Anda atur saat berlatih dengan algoritma Amazon SageMaker AI Sequence-to-Sequence (seq2seq).

Nama Parameter	Deskripsi
`batch_size`	Ukuran batch mini untuk penurunan gradien. Opsional Nilai yang valid: bilangan bulat positif Nilai default: 64
`beam_size`	Panjang balok untuk pencarian balok. Digunakan selama pelatihan untuk komputasi `bleu` dan digunakan selama inferensi. Opsional Nilai yang valid: bilangan bulat positif Nilai default: 5
`bleu_sample_size`	Jumlah instance untuk dipilih dari kumpulan data validasi untuk memecahkan kode dan menghitung `bleu` skor selama pelatihan. Setel ke -1 untuk menggunakan set validasi lengkap (jika `bleu` dipilih sebagai`optimized_metric`). Opsional Nilai yang valid: integer Nilai default: 0
`bucket_width`	Mengembalikan (sumber, target) ember hingga (`max_seq_len_source`,`max_seq_len_target`). Sisi data yang lebih panjang menggunakan langkah-langkah `bucket_width` sementara sisi yang lebih pendek menggunakan langkah-langkah yang diperkecil dengan rasio target/source panjang rata-rata. Jika satu sisi mencapai panjang maksimum sebelum yang lain, lebar ember ekstra di sisi itu tetap ke sisi itu. `max_len` Opsional Nilai yang valid: bilangan bulat positif Nilai default: 10
`bucketing_enabled`	Setel `false` untuk menonaktifkan bucketing, buka gulungan ke panjang maksimum. Opsional Nilai yang valid: `true` or `false` Nilai default: `true`
`checkpoint_frequency_num_batches`	Checkpoint dan evaluasi setiap x batch. Hyperparameter checkpointing ini diteruskan ke algoritme seq2seq SageMaker AI untuk menghentikan lebih awal dan mengambil model terbaik. Checkpointing algoritme berjalan secara lokal di wadah pelatihan algoritme dan tidak kompatibel dengan SageMaker checkpointing AI. Algoritma untuk sementara menyimpan pos pemeriksaan ke jalur lokal dan menyimpan artefak model terbaik ke jalur keluaran model di S3 setelah pekerjaan pelatihan dihentikan. Opsional Nilai yang valid: bilangan bulat positif Nilai default: 1000
`checkpoint_threshold`	Jumlah maksimum model pos pemeriksaan diizinkan untuk tidak meningkatkan dataset validasi sebelum pelatihan dihentikan. `optimized_metric` Hyperparameter checkpointing ini diteruskan ke algoritme seq2seq SageMaker AI untuk menghentikan lebih awal dan mengambil model terbaik. Checkpointing algoritme berjalan secara lokal di wadah pelatihan algoritme dan tidak kompatibel dengan SageMaker checkpointing AI. Algoritma untuk sementara menyimpan pos pemeriksaan ke jalur lokal dan menyimpan artefak model terbaik ke jalur keluaran model di S3 setelah pekerjaan pelatihan dihentikan. Opsional Nilai yang valid: bilangan bulat positif Nilai default: 3
`clip_gradient`	Klip nilai gradien absolut lebih besar dari ini. Setel ke negatif untuk menonaktifkan. Opsional Nilai yang valid: float Nilai default: 1
`cnn_activation_type`	Jenis `cnn` aktivasi yang akan digunakan. Opsional Nilai yang valid: String. Salah satu`glu`,`relu`,`softrelu`,`sigmoid`, atau`tanh`. Nilai default: `glu`
`cnn_hidden_dropout`	Probabilitas putus sekolah untuk putus sekolah di antara lapisan konvolusi. Opsional Nilai yang valid: Float. Rentang di [0,1]. Nilai default: 0
`cnn_kernel_width_decoder`	Lebar kernel untuk `cnn` decoder. Opsional Nilai yang valid: bilangan bulat positif Nilai default: 5
`cnn_kernel_width_encoder`	Lebar kernel untuk `cnn` encoder. Opsional Nilai yang valid: bilangan bulat positif Nilai default: 3
`cnn_num_hidden`	Jumlah unit `cnn` tersembunyi untuk encoder dan decoder. Opsional Nilai yang valid: bilangan bulat positif Nilai default: 512
`decoder_type`	Jenis decoder. Opsional Nilai yang valid: String. Baik `rnn` atau `cnn`. Nilai default: rnn
`embed_dropout_source`	Probabilitas putus sekolah untuk penyematan sisi sumber. Opsional Nilai yang valid: Float. Rentang di [0,1]. Nilai default: 0
`embed_dropout_target`	Probabilitas putus sekolah untuk penyematan sisi target. Opsional Nilai yang valid: Float. Rentang di [0,1]. Nilai default: 0
`encoder_type`	Jenis encoder. `rnn`Arsitektur didasarkan pada mekanisme perhatian oleh Bahdanau et al. dan arsitektur cnn didasarkan pada Gehring et al. Opsional Nilai yang valid: String. Baik `rnn` atau `cnn`. Nilai default: `rnn`
`fixed_rate_lr_half_life`	Waktu paruh untuk tingkat pembelajaran dalam hal jumlah pos pemeriksaan untuk `fixed_rate_` * penjadwal. Opsional Nilai yang valid: bilangan bulat positif Nilai default: 10
`learning_rate`	Tingkat pembelajaran awal. Opsional Nilai yang valid: float Nilai default: 0,0003
`loss_type`	Fungsi kerugian untuk pelatihan. Opsional Nilai yang valid: String. `cross-entropy` Nilai default: `cross-entropy`
`lr_scheduler_type`	Jenis penjadwal tingkat pembelajaran. `plateau_reduce`berarti mengurangi tingkat pembelajaran setiap kali `optimized_metric` di `validation_accuracy` dataran tinggi. `inv_t`adalah peluruhan waktu terbalik. `learning_rate`/(`decay_rate`1+t) Opsional* Nilai yang valid: String. Salah satu`plateau_reduce`,`fixed_rate_inv_t`, atau`fixed_rate_inv_sqrt_t`. Nilai default: `plateau_reduce`
`max_num_batches`	Jumlah maksimum updates/batches untuk diproses. -1 untuk tak terbatas. Opsional Nilai yang valid: integer Nilai default: -1
`max_num_epochs`	Jumlah maksimum epoch untuk melewati data pelatihan sebelum pemasangan dihentikan. Pelatihan berlanjut hingga jumlah zaman ini bahkan jika akurasi validasi tidak membaik jika parameter ini dilewatkan. Diabaikan jika tidak dilewati. Opsional Nilai yang valid: Bilangan bulat positif dan kurang dari atau sama dengan max_num_epochs. Nilai default: tidak ada.
`max_seq_len_source`	Panjang maksimum untuk panjang urutan sumber. Urutan yang lebih panjang dari panjang ini terpotong hingga panjang ini. Opsional Nilai yang valid: bilangan bulat positif Nilai default: 100
`max_seq_len_target`	Panjang maksimum untuk panjang urutan target. Urutan yang lebih panjang dari panjang ini terpotong hingga panjang ini. Opsional Nilai yang valid: bilangan bulat positif Nilai default: 100
`min_num_epochs`	Jumlah minimum epoch pelatihan harus dijalankan sebelum dihentikan melalui `early_stopping` kondisi. Opsional Nilai yang valid: bilangan bulat positif Nilai default: 0
`momentum`	Konstanta momentum digunakan untuk`sgd`. Jangan lewatkan parameter ini jika Anda menggunakan `adam` atau`rmsprop`. Opsional Nilai yang valid: float Nilai default: tidak ada.
`num_embed_source`	Ukuran penyematan untuk token sumber. Opsional Nilai yang valid: bilangan bulat positif Nilai default: 512
`num_embed_target`	Ukuran penyematan untuk token target. Opsional Nilai yang valid: bilangan bulat positif Nilai default: 512
`num_layers_decoder`	Jumlah lapisan untuk Decoder rnn* atau cnn.* Opsional Nilai yang valid: bilangan bulat positif Nilai default: 1
`num_layers_encoder`	Jumlah lapisan untuk Encoder `rnn` atau. `cnn` Opsional Nilai yang valid: bilangan bulat positif Nilai default: 1
`optimized_metric`	Metrik untuk dioptimalkan dengan penghentian awal. Opsional Nilai yang valid: String. Salah satu`perplexity`,`accuracy`, atau`bleu`. Nilai default: `perplexity`
`optimizer_type`	Optimizer untuk dipilih. Opsional Nilai yang valid: String. Salah satu`adam`,`sgd`, atau`rmsprop`. Nilai default: `adam`
`plateau_reduce_lr_factor`	Faktor untuk mengalikan tingkat pembelajaran dengan (untuk`plateau_reduce`). Opsional Nilai yang valid: float Nilai default: 0,5
`plateau_reduce_lr_threshold`	Untuk `plateau_reduce` penjadwal, kalikan tingkat pembelajaran dengan faktor pengurangan jika `optimized_metric` tidak ditingkatkan untuk banyak pos pemeriksaan ini. Opsional Nilai yang valid: bilangan bulat positif Nilai default: 3
`rnn_attention_in_upper_layers`	Berikan perhatian ke lapisan atas rnn, seperti Google NMT paper. Hanya berlaku jika lebih dari satu lapisan digunakan. Opsional Nilai yang valid: boolean (`true`atau`false`) Nilai default: `true`
`rnn_attention_num_hidden`	Jumlah unit tersembunyi untuk lapisan perhatian. default ke. `rnn_num_hidden` Opsional Nilai yang valid: bilangan bulat positif Nilai default: `rnn_num_hidden`
`rnn_attention_type`	Model perhatian untuk encoder. `mlp`mengacu pada concat dan bilinear mengacu pada umum dari Luong et al. paper. Opsional Nilai yang valid: String. Salah satu`dot`,`fixed`,`mlp`, atau`bilinear`. Nilai default: `mlp`
`rnn_cell_type`	Jenis `rnn` arsitektur tertentu. Opsional Nilai yang valid: String. Baik `lstm` atau `gru`. Nilai default: `lstm`
`rnn_decoder_state_init`	Cara menginisialisasi status `rnn` decoder dari encoder. Opsional Nilai yang valid: String. Salah satu`last`,`avg`, atau`zero`. Nilai default: `last`
`rnn_first_residual_layer`	Lapisan rnn pertama yang memiliki koneksi residual, hanya berlaku jika jumlah lapisan dalam encoder atau decoder lebih dari 1. Opsional Nilai yang valid: bilangan bulat positif Nilai default: 2
`rnn_num_hidden`	Jumlah unit tersembunyi rnn untuk encoder dan decoder. Ini harus kelipatan 2 karena algoritme menggunakan Memori Jangka Pendek Jangka Panjang (LSTM) bi-directional secara default. Opsional Nilai yang valid: bilangan bulat genap positif Nilai default: 1024
`rnn_residual_connections`	Tambahkan koneksi sisa ke rnn bertumpuk. Jumlah lapisan harus lebih dari 1. Opsional Nilai yang valid: boolean (`true`atau`false`) Nilai default: `false`
`rnn_decoder_hidden_dropout`	Probabilitas putus sekolah untuk keadaan tersembunyi yang menggabungkan konteks dengan status tersembunyi rnn di decoder. Opsional Nilai yang valid: Float. Rentang di [0,1]. Nilai default: 0
`training_metric`	Metrik untuk melacak pelatihan tentang data validasi. Opsional Nilai yang valid: String. Baik `perplexity` atau `accuracy`. Nilai default: `perplexity`
`weight_decay`	Konstanta peluruhan berat badan. Opsional Nilai yang valid: float Nilai default: 0
`weight_init_scale`	Skala inisialisasi berat (untuk `uniform` dan `xavier` inisialisasi). Opsional Nilai yang valid: float Nilai default: 2.34
`weight_init_type`	Jenis inisialisasi berat badan. Opsional Nilai yang valid: String. Baik `uniform` atau `xavier`. Nilai default: `xavier`
`xavier_factor_type`	Jenis faktor Xavier. Opsional Nilai yang valid: String. Salah satu`in`,`out`, atau`avg`. Nilai default: `in`

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Cara Kerjanya

Penyetelan Model