Klasifikasi Gambar Hyperparameters - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Klasifikasi Gambar Hyperparameters

Hyperparameters adalah parameter yang ditetapkan sebelum model pembelajaran mesin mulai belajar. Hyperparameter berikut didukung oleh algoritma Klasifikasi Gambar SageMaker bawaan Amazon. Lihat Menyetel Model Klasifikasi Gambar untuk informasi tentang penyetelan hiperparameter klasifikasi gambar.

Nama Parameter Deskripsi
num_classes

Jumlah kelas output. Parameter ini mendefinisikan dimensi output jaringan dan biasanya diatur ke jumlah kelas dalam dataset.

Selain klasifikasi multi-kelas, klasifikasi multi-label juga didukung. Silakan merujuk ke Antarmuka Input/Output untuk Algoritma Klasifikasi Gambar untuk detail tentang cara bekerja dengan klasifikasi multi-label dengan file manifes tambahan.

Diperlukan

Nilai yang valid: bilangan bulat positif

num_training_samples

Jumlah contoh pelatihan dalam dataset input.

Jika ada ketidakcocokan antara nilai ini dan jumlah sampel dalam set pelatihan, maka perilaku lr_scheduler_step parameter tidak ditentukan dan akurasi pelatihan terdistribusi mungkin terpengaruh.

Diperlukan

Nilai yang valid: bilangan bulat positif

augmentation_type

Jenis augmentasi data. Gambar input dapat ditambah dengan berbagai cara seperti yang ditentukan di bawah ini.

  • crop: Pangkas gambar secara acak dan balikkan gambar secara horizontal

  • crop_color: Selain 'crop', tiga nilai acak dalam kisaran [-36, 36], [-50, 50], dan [-50, 50] ditambahkan ke saluran Hue-Saturation-Lightness yang sesuai masing-masing

  • crop_color_transform: Selain itucrop_color, transformasi acak, termasuk variasi rotasi, geser, dan rasio aspek diterapkan pada gambar. Sudut rotasi maksimum adalah 10 derajat, rasio geser maksimum adalah 0,1, dan rasio perubahan aspek maksimum adalah 0,25.

Opsional

Nilai yang valid:crop,crop_color, ataucrop_color_transform.

Nilai default: tidak ada nilai default

beta_1

Beta1 untukadam, yaitu laju peluruhan eksponensial untuk perkiraan momen pertama.

Opsional

Nilai yang valid: float. Rentang dalam [0, 1].

Nilai default: 0,9

beta_2

Beta2 untukadam, yaitu laju peluruhan eksponensial untuk perkiraan momen kedua.

Opsional

Nilai yang valid: float. Rentang dalam [0, 1].

Nilai default: 0,999

checkpoint_frequency

Periode untuk menyimpan parameter model (dalam jumlah zaman).

Perhatikan bahwa semua file pos pemeriksaan disimpan sebagai bagian dari file model akhir "model.tar.gz" dan diunggah ke S3 ke lokasi model yang ditentukan. Ini meningkatkan ukuran file model secara proporsional dengan jumlah pos pemeriksaan yang disimpan selama pelatihan.

Opsional

Nilai yang valid: bilangan bulat positif tidak lebih besar dariepochs.

Nilai default: tidak ada nilai default (Simpan pos pemeriksaan pada zaman yang memiliki akurasi validasi terbaik)

early_stopping

Trueuntuk menggunakan logika penghentian awal selama pelatihan. Falsetidak menggunakannya.

Opsional

Nilai yang valid: True or False

Nilai default: False

early_stopping_min_epochs

Jumlah minimum epoch yang harus dijalankan sebelum logika penghentian awal dapat dipanggil. Ini hanya digunakan ketika early_stopping =True.

Opsional

Nilai yang valid: bilangan bulat positif

Nilai default: 10

early_stopping_patience

Jumlah zaman yang harus menunggu sebelum mengakhiri pelatihan jika tidak ada perbaikan yang dilakukan dalam metrik yang relevan. Ini hanya digunakan ketika early_stopping =True.

Opsional

Nilai yang valid: bilangan bulat positif

Nilai default: 5

early_stopping_tolerance

Toleransi relatif untuk mengukur peningkatan metrik validasi akurasi. Jika rasio peningkatan akurasi dibagi dengan akurasi terbaik sebelumnya lebih kecil dari early_stopping_tolerance nilai yang ditetapkan, penghentian awal menganggap tidak ada perbaikan. Ini hanya digunakan ketika early_stopping =True.

Opsional

Nilai yang valid: 0 ≤ float ≤ 1

Nilai default: 0.0

epochs

Jumlah zaman pelatihan.

Opsional

Nilai yang valid: bilangan bulat positif

Nilai default: 30

eps

Epsilon untuk adam dan. rmsprop Biasanya diatur ke nilai kecil untuk menghindari pembagian dengan 0.

Opsional

Nilai yang valid: float. Rentang dalam [0, 1].

Nilai default: 1e-8

gamma

Gamma untukrmsprop, faktor peluruhan untuk rata-rata bergerak gradien kuadrat.

Opsional

Nilai yang valid: float. Rentang dalam [0, 1].

Nilai default: 0,9

image_shape

Dimensi gambar input, yang ukurannya sama dengan lapisan input jaringan. Format didefinisikan sebagai 'num_channels, tinggi, lebar'. Dimensi gambar dapat mengambil nilai apa pun karena jaringan dapat menangani berbagai dimensi input. Namun, mungkin ada kendala memori jika dimensi gambar yang lebih besar digunakan. Model terlatih hanya dapat menggunakan ukuran gambar 224 x 224 tetap. Dimensi gambar khas untuk klasifikasi gambar adalah '3.224.224'. Ini mirip dengan ImageNet dataset.

Untuk pelatihan, jika ada gambar input yang lebih kecil dari parameter ini dalam dimensi apa pun, pelatihan gagal. Jika gambar lebih besar, sebagian gambar dipotong, dengan area yang dipotong ditentukan oleh parameter ini. Jika hyperparameter augmentation_type diatur, tanaman acak diambil; jika tidak, tanaman sentral diambil.

Pada kesimpulan, gambar input diubah ukurannya menjadi image_shape yang digunakan selama pelatihan. Rasio aspek tidak dipertahankan, dan gambar tidak dipotong.

Opsional

Nilai yang valid: string

Nilai default: '3.224.224'

kv_store

Mode sinkronisasi pembaruan berat selama pelatihan terdistribusi. Pembaruan bobot dapat diperbarui baik secara sinkron atau asinkron di seluruh mesin. Pembaruan sinkron biasanya memberikan akurasi yang lebih baik daripada pembaruan asinkron tetapi bisa lebih lambat. Lihat pelatihan terdistribusi MXNet untuk lebih jelasnya.

Parameter ini tidak berlaku untuk pelatihan mesin tunggal.

  • dist_sync: Gradien disinkronkan setelah setiap batch dengan semua pekerja. Dengandist_sync, ukuran batch sekarang berarti ukuran batch yang digunakan pada setiap mesin. Jadi jika ada n mesin dan kami menggunakan ukuran batch b, maka dist_sync berperilaku seperti lokal dengan ukuran batch n* b

  • dist_async: Melakukan pembaruan asinkron. Bobot diperbarui setiap kali gradien diterima dari mesin mana pun dan pembaruan bobotnya bersifat atom. Namun, pesanan tidak dijamin.

Opsional

Nilai yang valid: dist_sync atau dist_async

Nilai default: tidak ada nilai default

learning_rate

Tingkat pembelajaran awal.

Opsional

Nilai yang valid: float. Rentang dalam [0, 1].

Nilai default: 0,1

lr_scheduler_factor

Rasio untuk mengurangi tingkat pembelajaran yang digunakan bersama dengan lr_scheduler_step parameter, didefinisikan sebagai lr_new = lr_old *lr_scheduler_factor.

Opsional

Nilai yang valid: float. Rentang dalam [0, 1].

Nilai default: 0,1

lr_scheduler_step

Zaman untuk mengurangi tingkat pembelajaran. Seperti yang dijelaskan dalam lr_scheduler_factor parameter, tingkat pembelajaran berkurang lr_scheduler_factor pada zaman ini. Misalnya, jika nilainya diatur ke “10, 20", maka tingkat pembelajaran dikurangi lr_scheduler_factor setelah zaman ke-10 dan lagi lr_scheduler_factor setelah zaman ke-20. Zaman dibatasi oleh “,”.

Opsional

Nilai yang valid: string

Nilai default: tidak ada nilai default

mini_batch_size

Ukuran batch untuk pelatihan. Dalam GPU pengaturan multi mesin tunggal, masing-masing GPU menangani sampel pelatihan mini_batch_size /num_gpu. Untuk pelatihan multi-mesin dalam mode dist_sync, ukuran batch sebenarnya mini_batch_size adalah* jumlah mesin. Lihat MXNet dokumen untuk detail selengkapnya.

Opsional

Nilai yang valid: bilangan bulat positif

Nilai default: 32

momentum

Momentum untuk sgd dannag, diabaikan untuk pengoptimal lainnya.

Opsional

Nilai yang valid: float. Rentang dalam [0, 1].

Nilai default: 0,9

multi_label

Tandai untuk digunakan untuk klasifikasi multi-label di mana setiap sampel dapat diberi beberapa label. Akurasi rata-rata di semua kelas dicatat.

Opsional

Nilai yang valid: 0 atau 1

Nilai default: 0

num_layers

Jumlah lapisan untuk jaringan. Untuk data dengan ukuran gambar besar (misalnya, 224x224 - seperti ImageNet), kami sarankan memilih jumlah lapisan dari set [18, 34, 50, 101, 152, 200]. Untuk data dengan ukuran gambar kecil (misalnya, 28x28 - sepertiCIFAR), kami sarankan memilih jumlah lapisan dari set [20, 32, 44, 56, 110]. Jumlah lapisan di setiap set didasarkan pada ResNet paper. Untuk pembelajaran transfer, jumlah lapisan mendefinisikan arsitektur jaringan dasar dan karenanya hanya dapat dipilih dari himpunan [18, 34, 50, 101, 152, 200].

Opsional

Nilai yang valid: bilangan bulat positif dalam [18, 34, 50, 101, 152, 200] atau [20, 32, 44, 56, 110]

Nilai default: 152

optimizer

Jenis pengoptimal. Untuk detail lebih lanjut tentang parameter untuk pengoptimal, silakan lihat's. MXNet API

Opsional

Nilai yang valid: Salah satusgd,adam,rmsprop, ataunag.

Nilai default: sgd

precision_dtype

Ketepatan bobot yang digunakan untuk pelatihan. Algoritma dapat menggunakan presisi tunggal (float32) atau setengah presisi (float16) untuk bobot. Menggunakan setengah presisi untuk bobot menghasilkan pengurangan konsumsi memori.

Opsional

Nilai yang valid: float32 or float16

Nilai default: float32

resize

Jumlah piksel di sisi terpendek gambar setelah mengubah ukurannya untuk pelatihan. Jika parameter tidak diatur, maka data pelatihan digunakan tanpa mengubah ukuran. Parameter harus lebih besar dari komponen lebar dan tinggi image_shape untuk mencegah kegagalan pelatihan.

Diperlukan saat menggunakan jenis konten gambar

Opsional saat menggunakan jenis konten RecorDio

Nilai yang valid: bilangan bulat positif

Nilai default: tidak ada nilai default

top_k

Melaporkan akurasi top-k selama pelatihan. Parameter ini harus lebih besar dari 1, karena akurasi pelatihan top-1 sama dengan akurasi pelatihan reguler yang telah dilaporkan.

Opsional

Nilai valid: bilangan bulat positif lebih besar dari 1.

Nilai default: tidak ada nilai default

use_pretrained_model

Bendera untuk menggunakan model pra-terlatih untuk pelatihan. Jika disetel ke 1, maka model yang telah dilatih sebelumnya dengan jumlah lapisan yang sesuai dimuat dan digunakan untuk pelatihan. Hanya lapisan FC atas yang diinisialisasi ulang dengan bobot acak. Jika tidak, jaringan dilatih dari awal.

Opsional

Nilai yang valid: 0 atau 1

Nilai default: 0

use_weighted_loss

Tandai untuk menggunakan kehilangan entropi silang tertimbang untuk klasifikasi multi-label (hanya digunakan ketika multi_label = 1), di mana bobot dihitung berdasarkan distribusi kelas.

Opsional

Nilai yang valid: 0 atau 1

Nilai default: 0

weight_decay

Peluruhan berat koefisien untuk sgd dannag, diabaikan untuk pengoptimal lainnya.

Opsional

Nilai yang valid: float. Rentang dalam [0, 1].

Nilai default: 0,0001