K-Berarti Hyperparameter - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

K-Berarti Hyperparameter

Dalam CreateTrainingJobpermintaan, Anda menentukan algoritma pelatihan yang ingin Anda gunakan. Anda juga dapat menentukan hyperparameter khusus algoritme sebagai peta. string-to-string Tabel berikut mencantumkan hyperparameters untuk algoritma pelatihan k-means yang disediakan oleh Amazon. SageMaker Untuk informasi lebih lanjut tentang cara kerja k-means clustering, lihat. Bagaimana K-Means Clustering Bekerja

Nama Parameter Deskripsi
feature_dim

Jumlah fitur dalam data input.

Diperlukan

Nilai yang valid: Bilangan bulat positif

k

Jumlah cluster yang dibutuhkan.

Diperlukan

Nilai yang valid: Bilangan bulat positif

epochs

Jumlah pass yang dilakukan atas data pelatihan.

Opsional

Nilai yang valid: Bilangan bulat positif

Nilai default: 1

eval_metrics

Daftar tipe metrik JSON yang digunakan untuk melaporkan skor untuk model. Nilai yang diizinkan adalah msd untuk Means Square Deviation dan ssd untuk Sum of Square Distance. Jika data pengujian disediakan, skor dilaporkan untuk setiap metrik yang diminta.

Opsional

Nilai yang valid: Entah [\"msd\"] atau [\"ssd\"] atau[\"msd\",\"ssd\"].

Nilai default: [\"msd\"]

extra_center_factor

Algoritma membuat K center = num_clusters * extra_center_factor saat berjalan dan mengurangi jumlah pusat dari K hingga k saat menyelesaikan model.

Opsional

Nilai yang valid: Entah bilangan bulat positif atauauto.

Nilai default: auto

half_life_time_size

Digunakan untuk menentukan bobot yang diberikan untuk pengamatan saat menghitung rata-rata cluster. Bobot ini meluruh secara eksponensial karena lebih banyak titik diamati. Ketika suatu titik pertama kali diamati, itu diberi bobot 1 saat menghitung rata-rata cluster. Konstanta peluruhan untuk fungsi peluruhan eksponensial dipilih sehingga setelah half_life_time_size titik pengamatan, beratnya adalah 1/2. Jika disetel ke 0, tidak ada pembusukan.

Opsional

Nilai yang valid: Bilangan bulat non-negatif

Nilai default: 0

init_method

Metode dimana algoritma memilih pusat cluster awal. Pendekatan k-means standar memilihnya secara acak. Metode alternatif k-means++ memilih pusat cluster pertama secara acak. Kemudian menyebar posisi cluster awal yang tersisa dengan menimbang pemilihan pusat dengan distribusi probabilitas yang sebanding dengan kuadrat jarak titik data yang tersisa dari pusat yang ada.

Opsional

Nilai yang valid: Entah random ataukmeans++.

Nilai default: random

local_lloyd_init_method

Metode inisialisasi untuk prosedur ekspektasi-maksimisasi (EM) Lloyd digunakan untuk membangun model akhir yang berisi pusat. k

Opsional

Nilai yang valid: Entah random ataukmeans++.

Nilai default: kmeans++

local_lloyd_max_iter

Jumlah maksimum iterasi untuk prosedur ekspektasi-maksimalisasi (EM) Lloyd yang digunakan untuk membangun model akhir yang berisi pusat. k

Opsional

Nilai yang valid: Bilangan bulat positif

Nilai default: 300

local_lloyd_num_trials

Berapa kali prosedur ekspektasi-maksimisasi (EM) Lloyd dengan kerugian paling sedikit dijalankan saat membangun model akhir yang berisi pusat. k

Opsional

Nilai yang valid: Entah bilangan bulat positif atauauto.

Nilai default: auto

local_lloyd_tol

Toleransi untuk perubahan kerugian untuk penghentian awal prosedur maksimalisasi ekspektasi (EM) Lloyd yang digunakan untuk membangun model akhir yang berisi pusat. k

Opsional

Nilai yang valid: Float. Rentang dalam [0, 1].

Nilai default: 0,0001

mini_batch_size

Jumlah pengamatan per mini-batch untuk iterator data.

Opsional

Nilai yang valid: Bilangan bulat positif

Nilai default: 5000