Hiperparameter Object2Vec - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Hiperparameter Object2Vec

Dalam CreateTrainingJob permintaan, Anda menentukan algoritma pelatihan. Anda juga dapat menentukan hyperparameter khusus algoritme sebagai peta. string-to-string Tabel berikut mencantumkan hyperparameters untuk algoritma pelatihan Object2Vec.

Nama Parameter Deskripsi
enc0_max_seq_len

Panjang urutan maksimum untuk encoder enc0.

Diperlukan

Nilai yang valid: 1 ≤ bilangan bulat ≤ 5000

enc0_vocab_size

Ukuran kosakata token enc0.

Diperlukan

Nilai yang valid: 2 ≤ integer ≤ 3000000

bucket_width

Perbedaan yang diizinkan antara panjang urutan data saat bucketing diaktifkan. Untuk mengaktifkan bucketing, tentukan nilai bukan nol untuk parameter ini.

Opsional

Nilai yang valid: 0 ≤ bilangan bulat ≤ 100

Nilai default: 0 (tidak ada ember)

comparator_list

Daftar yang digunakan untuk menyesuaikan cara di mana dua embeddings dibandingkan. Lapisan operator komparator Object2Vec mengambil pengkodean dari kedua encoder sebagai input dan output satu vektor. Vektor ini adalah rangkaian subvektor. Nilai string yang diteruskan ke comparator_list dan urutan di mana mereka dilewatkan menentukan bagaimana subvektor ini dirakit. Misalnya, jikacomparator_list="hadamard, concat", maka operator komparator membangun vektor dengan menggabungkan produk Hadamard dari dua pengkodean dan penggabungan dua pengkodean. Jika, di sisi laincomparator_list="hadamard", maka operator komparator membangun vektor sebagai produk hadamard dari hanya dua pengkodean.

Opsional

Nilai yang valid: Sebuah string yang berisi kombinasi dari nama-nama dari tiga operator biner:hadamard,concat, atauabs_diff. Algoritma Object2Vec saat ini mensyaratkan bahwa dua pengkodean vektor memiliki dimensi yang sama. Operator ini menghasilkan subvektor sebagai berikut:

Nilai default: "hadamard, concat, abs_diff"

dropout

Probabilitas putus sekolah untuk lapisan jaringan. Putus sekolah adalah bentuk regularisasi yang digunakan dalam jaringan saraf yang mengurangi overfitting dengan memangkas neuron kodependen.

Opsional

Nilai yang valid: 0.0 ≤ float ≤ 1.0

Nilai default: 0.0

early_stopping_patience

Jumlah zaman berturut-turut tanpa perbaikan diperbolehkan sebelum penghentian awal diterapkan. Perbaikan didefinisikan oleh dengan early_stopping_tolerance hyperparameter.

Opsional

Nilai yang valid: 1 ≤ bilangan bulat ≤ 5

Nilai default: 3

early_stopping_tolerance

Pengurangan fungsi kerugian yang harus dicapai oleh suatu algoritma antara zaman berurutan untuk menghindari penghentian awal setelah jumlah zaman berturut-turut yang ditentukan dalam hyperparameter disimpulkan. early_stopping_patience

Opsional

Nilai yang valid: 0,000001 ≤ float ≤ 0,1

Nilai default: 0,01

enc_dim

Dimensi output dari lapisan embedding.

Opsional

Nilai yang valid: 4 ≤ bilangan bulat ≤ 10000

Nilai default: 4096

enc0_network

Model jaringan untuk encoder enc0.

Opsional

Nilai valid: hcnn, bilstm, atau pooled_embedding

  • hcnn: Jaringan saraf konvolusional hierarkis.

  • bilstm: Jaringan memori jangka pendek dua arah (biLSTM), di mana sinyal merambat mundur dan maju dalam waktu. Ini adalah arsitektur jaringan saraf berulang (RNN) yang sesuai untuk tugas pembelajaran berurutan.

  • pooled_embedding: Rata-rata embeddings dari semua token dalam input.

Nilai default: hcnn

enc0_cnn_filter_width

Lebar filter dari convolutional neural network (CNN) enc0 encoder.

Bersyarat

Nilai yang valid: 1 ≤ bilangan bulat ≤ 9

Nilai default: 3

enc0_freeze_pretrained_embedding

Apakah akan membekukan bobot penyematan enc0 yang telah dilatih sebelumnya.

Bersyarat

Nilai yang valid: True or False

Nilai default: True

enc0_layers

Jumlah lapisan dalam encoder enc0.

Bersyarat

Nilai yang valid: auto atau 1 ≤ bilangan bulat ≤ 4

  • Untukhcnn, auto berarti 4.

  • Untukbilstm, auto berarti 1.

  • Untukpooled_embedding, auto mengabaikan jumlah lapisan.

Nilai default: auto

enc0_pretrained_embedding_file

Nama file file embedding token enc0 yang telah dilatih sebelumnya di saluran data tambahan.

Bersyarat

Nilai yang valid: String dengan karakter alfanumerik, garis bawah, atau titik. [A-ZA-Z0-9\.\ _]

Nilai default: “” (string kosong)

enc0_token_embedding_dim

Dimensi output dari layer embedding token enc0.

Bersyarat

Nilai yang valid: 2 ≤ bilangan bulat ≤ 1000

Nilai default: 300

enc0_vocab_file

File kosakata untuk memetakan vektor penyematan token enc0 yang telah dilatih sebelumnya ke kosakata numerik. IDs

Bersyarat

Nilai yang valid: String dengan karakter alfanumerik, garis bawah, atau titik. [A-ZA-Z0-9\.\ _]

Nilai default: “” (string kosong)

enc1_network

Model jaringan untuk encoder enc1. Jika Anda ingin encoder enc1 menggunakan model jaringan yang sama dengan enc0, termasuk nilai hyperparameter, tetapkan nilainya ke. enc0

catatan

Bahkan ketika jaringan encoder enc0 dan enc1 memiliki arsitektur simetris, Anda tidak dapat berbagi nilai parameter untuk jaringan ini.

Opsional

Nilai yang benar: enc0, hcnn, bilstm, atau pooled_embedding

  • enc0: Model jaringan untuk encoder enc0.

  • hcnn: Jaringan saraf konvolusional hierarkis.

  • bilstm: Dua arahLSTM, di mana sinyal merambat mundur dan maju dalam waktu. Ini adalah arsitektur jaringan saraf berulang (RNN) yang sesuai untuk tugas pembelajaran berurutan.

  • pooled_embedding: Rata-rata penyematan semua token dalam input.

Nilai default: enc0

enc1_cnn_filter_width

Lebar filter encoder CNN enc1.

Bersyarat

Nilai yang valid: 1 ≤ bilangan bulat ≤ 9

Nilai default: 3

enc1_freeze_pretrained_embedding

Apakah akan membekukan bobot penyematan enc1 yang telah dilatih sebelumnya.

Bersyarat

Nilai yang valid: True or False

Nilai default: True

enc1_layers

Jumlah lapisan dalam encoder enc1.

Bersyarat

Nilai yang valid: auto atau 1 ≤ bilangan bulat ≤ 4

  • Untukhcnn, auto berarti 4.

  • Untukbilstm, auto berarti 1.

  • Untukpooled_embedding, auto mengabaikan jumlah lapisan.

Nilai default: auto

enc1_max_seq_len

Panjang urutan maksimum untuk encoder enc1.

Bersyarat

Nilai yang valid: 1 ≤ bilangan bulat ≤ 5000

enc1_pretrained_embedding_file

Nama file embedding token enc1 yang telah dilatih sebelumnya di saluran data tambahan.

Bersyarat

Nilai yang valid: String dengan karakter alfanumerik, garis bawah, atau titik. [A-ZA-Z0-9\.\ _]

Nilai default: “” (string kosong)

enc1_token_embedding_dim

Dimensi output dari layer embedding token enc1.

Bersyarat

Nilai yang valid: 2 ≤ bilangan bulat ≤ 1000

Nilai default: 300

enc1_vocab_file

File kosakata untuk memetakan embeddings token enc1 yang telah dilatih sebelumnya ke kosakata. IDs

Bersyarat

Nilai yang valid: String dengan karakter alfanumerik, garis bawah, atau titik. [A-ZA-Z0-9\.\ _]

Nilai default: “” (string kosong)

enc1_vocab_size

Ukuran kosakata token enc0.

Bersyarat

Nilai yang valid: 2 ≤ integer ≤ 3000000

epochs

Jumlah zaman yang harus dijalankan untuk pelatihan.

Opsional

Nilai yang valid: 1 ≤ bilangan bulat ≤ 100

Nilai default: 30

learning_rate

Tingkat pembelajaran untuk pelatihan.

Opsional

Nilai yang valid: 1.0E-6 ≤ float ≤ 1.0

Nilai default: 0,0004

mini_batch_size

Ukuran batch tempat kumpulan data dibagi menjadi optimizer selama pelatihan.

Opsional

Nilai yang valid: 1 ≤ bilangan bulat ≤ 10000

Nilai default: 32

mlp_activation

Jenis fungsi aktivasi untuk lapisan multilayer perceptron ()MLP.

Opsional

Nilai valid: tanh, relu, atau linear

  • tanh: Tangen hiperbolik

  • relu: Unit linier yang diperbaiki (ReLU)

  • linear: Fungsi linier

Nilai default: linear

mlp_dim

Dimensi output dari MLP lapisan.

Opsional

Nilai yang valid: 2 ≤ bilangan bulat ≤ 10000

Nilai default: 512

mlp_layers

Jumlah MLP lapisan dalam jaringan.

Opsional

Nilai yang valid: 0 ≤ bilangan bulat ≤ 10

Nilai default: 2

negative_sampling_rate

Rasio sampel negatif, yang dihasilkan untuk membantu melatih algoritme, dengan sampel positif yang disediakan oleh pengguna. Sampel negatif mewakili data yang tidak mungkin terjadi dalam kenyataan dan diberi label negatif untuk pelatihan. Mereka memfasilitasi pelatihan model untuk membedakan antara sampel positif yang diamati dan sampel negatif yang tidak. Untuk menentukan rasio sampel negatif terhadap sampel positif yang digunakan untuk pelatihan, tetapkan nilainya ke bilangan bulat positif. Misalnya, jika Anda melatih algoritme pada data input di mana semua sampel positif dan disetel negative_sampling_rate ke 2, algoritma Object2Vec secara internal menghasilkan dua sampel negatif per sampel positif. Jika Anda tidak ingin menghasilkan atau menggunakan sampel negatif selama pelatihan, tetapkan nilainya ke 0.

Opsional

Nilai yang valid: 0 ≤ integer

Nilai default: 0 (off)

num_classes

Jumlah kelas untuk pelatihan klasifikasi. Amazon SageMaker AI mengabaikan hyperparameter ini untuk masalah regresi.

Opsional

Nilai yang valid: 2 ≤ bilangan bulat ≤ 30

Nilai default: 2

optimizer

Jenis pengoptimal.

Opsional

Nilai yang valid:adadelta,adagrad,adam,sgd, ataurmsprop.

Nilai default: adam

output_layer

Jenis lapisan keluaran tempat Anda menentukan bahwa tugasnya adalah regresi atau klasifikasi.

Opsional

Nilai yang valid: softmax atau mean_squared_error

  • softmax: Fungsi Softmax digunakan untuk klasifikasi.

  • mean_squared_error: MSEDigunakan untuk regresi.

Nilai default: softmax

tied_token_embedding_weight

Apakah akan menggunakan layer embedding bersama untuk kedua encoder. Jika input ke kedua encoder menggunakan unit tingkat token yang sama, gunakan layer embedding token bersama. Misalnya, untuk kumpulan dokumen, jika satu encoder mengkodekan kalimat dan yang lain mengkodekan seluruh dokumen, Anda dapat menggunakan lapisan penyematan token bersama. Itu karena kalimat dan dokumen terdiri dari token kata dari kosakata yang sama.

Opsional

Nilai yang valid: True or False

Nilai default: False

token_embedding_storage_type

Mode pembaruan gradien yang digunakan selama pelatihan: ketika dense mode digunakan, pengoptimal menghitung matriks gradien penuh untuk lapisan penyematan token meskipun sebagian besar baris gradien bernilai nol. Saat sparse mode digunakan, pengoptimal hanya menyimpan baris gradien yang sebenarnya digunakan dalam batch mini. Jika Anda ingin algoritme melakukan pembaruan gradien malas, yang menghitung gradien hanya di baris bukan nol dan yang mempercepat pelatihan, tentukan. row_sparse Menyetel nilai untuk row_sparse membatasi nilai yang tersedia untuk hiperparameter lainnya, sebagai berikut:

  • optimizerHyperparameter harus diatur keadam,adagrad, atausgd. Jika tidak, algoritme melempar a. CustomerValueError

  • Algoritma secara otomatis menonaktifkan bucketing, mengatur hyperparameter ke bucket_width 0.

Opsional

Nilai yang valid: dense or row_sparse

Nilai default: dense

weight_decay

Parameter peluruhan berat yang digunakan untuk optimasi.

Opsional

Nilai yang valid: 0 ≤ float ≤ 10000

Nilai default: 0 (tidak ada pembusukan)