AutoGluon-Hiperparameter tabel - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

AutoGluon-Hiperparameter tabel

Tabel berikut berisi subset hiperparameter yang diperlukan atau paling umum digunakan untuk algoritma Amazon SageMaker AI AutoGluon -Tabular. Pengguna mengatur parameter ini untuk memfasilitasi estimasi parameter model dari data. Algoritma SageMaker AI AutoGluon -Tabular adalah implementasi dari paket -Tabular open-sourceAutoGluon.

catatan

Hyperparameter default didasarkan pada contoh kumpulan data di file. AutoGluon-Notebook sampel tabel

Secara default, algoritma SageMaker AI AutoGluon -Tabular secara otomatis memilih metrik evaluasi berdasarkan jenis masalah klasifikasi. Algoritma mendeteksi jenis masalah klasifikasi berdasarkan jumlah label dalam data Anda. Untuk masalah regresi, metrik evaluasi adalah kesalahan kuadrat rata-rata akar. Untuk masalah klasifikasi biner, metrik evaluasi adalah area di bawah kurva karakteristik operasi penerima (AUC). Untuk masalah klasifikasi multikelas, metrik evaluasi adalah akurasi. Anda dapat menggunakan eval_metric hyperparameter untuk mengubah metrik evaluasi default. Lihat tabel berikut untuk informasi lebih lanjut tentang hiperparameter AutoGluon -Tabular, termasuk deskripsi, nilai yang valid, dan nilai default.

Nama Parameter Deskripsi
eval_metric

Metrik evaluasi untuk data validasi. Jika eval_metric diatur ke "auto" nilai default, maka algoritme secara otomatis memilih metrik evaluasi berdasarkan jenis masalah klasifikasi:

  • "root_mean_squared_error"untuk regresi

  • "roc_auc"untuk klasifikasi biner

  • "accuracy"untuk klasifikasi multi-kelas

Nilai yang valid: string, lihat AutoGluon dokumentasi untuk nilai yang valid.

Nilai default:"auto".

presets

Daftar konfigurasi preset untuk berbagai argumen di. fit()

  • "best_quality": akurasi prediktif tinggi, waktu inferensi lebih lambat dan penggunaan disk yang lebih tinggi

  • "high_quality": akurasi prediktif tinggi dan inferensi cepat

  • "good_quality": akurasi prediktif yang baik dan inferensi yang sangat cepat

  • "medium_quality": akurasi prediktif sedang, inferensi dan waktu pelatihan yang sangat cepat

  • "optimize_for_deployment": hapus model yang tidak digunakan dan hapus artefak pelatihan

  • "interpretable": hanya cocok dengan model berbasis aturan yang dapat ditafsirkan dari paket imodels

Untuk lebih jelasnya, lihat AutoGluon Prediktor.

Nilai yang valid: string, salah satu dari berikut ini: ("best_quality""high_quality",,good_quality","medium_quality","optimize_for_deployment", or "interpretable").

Nilai default:"medium_quality".

auto_stack

Apakah AutoGluon harus secara otomatis menggunakan bagging dan multi-layer stack ansambling untuk meningkatkan akurasi prediktif. Atur auto_stack ke "True" jika Anda bersedia mentolerir waktu pelatihan yang lebih lama untuk memaksimalkan akurasi prediktif. Ini secara otomatis menetapkan num_stack_levels argumen num_bag_folds dan berdasarkan properti dataset.

Nilai yang valid: string, "True" atau"False".

Nilai default:"False".

num_bag_folds

Jumlah lipatan yang digunakan untuk mengantongi model. num_bag_foldsKapan sama dengank, waktu pelatihan secara kasar meningkat dengan faktork. Setel num_bag_folds ke 0 untuk menonaktifkan bagging. Ini dinonaktifkan secara default, tetapi kami sarankan menggunakan nilai antara 5 dan 10 untuk memaksimalkan kinerja prediktif. Peningkatan num_bag_folds hasil dalam model dengan bias yang lebih rendah, tetapi itu lebih rentan terhadap overfitting. Salah satunya adalah nilai yang tidak valid untuk parameter ini, dan akan menaikkan nilai. ValueError Nilai yang lebih besar dari 10 dapat menghasilkan pengembalian yang berkurang dan bahkan dapat merusak hasil keseluruhan karena overfitting. Untuk lebih meningkatkan prediksi, hindari peningkatan num_bag_folds dan sebaliknya tingkatkannum_bag_sets.

Nilai yang valid: string, bilangan bulat apa pun antara (dan termasuk) "0" dan"10".

Nilai default:"0".

num_bag_sets

Jumlah pengulangan kfold bagging untuk dilakukan (nilai harus lebih besar dari atau sama dengan 1). Jumlah total model yang dilatih selama pengantongan sama num_bag_folds dengan*num_bag_sets. Parameter ini default ke satu jika time_limit tidak ditentukan. Parameter ini dinonaktifkan num_bag_folds jika tidak ditentukan. Nilai yang lebih besar dari satu menghasilkan kinerja prediktif yang unggul, terutama pada masalah yang lebih kecil dan dengan penumpukan diaktifkan.

Nilai yang valid: integer, range: [1,20].

Nilai default:1.

num_stack_levels

Jumlah tingkat susun untuk digunakan dalam ansambel tumpukan. Secara kasar meningkatkan waktu pelatihan model dengan faktor num_stack_levels + 1. Setel parameter ini ke 0 untuk menonaktifkan ansambel tumpukan. Parameter ini dinonaktifkan secara default, tetapi kami sarankan menggunakan nilai antara 1 dan 3 untuk memaksimalkan kinerja prediktif. Untuk mencegah overfitting dan aValueError, num_bag_folds harus lebih besar dari atau sama dengan 2.

Nilai yang valid: float, range: [0,3].

Nilai default:0.

refit_full

Apakah akan melatih ulang semua model pada semua data (pelatihan dan validasi) setelah prosedur pelatihan normal atau tidak. Untuk lebih jelasnya, lihat AutoGluon Prediktor.

Nilai yang valid: string, "True" atau"False".

Nilai default:"False".

set_best_to_refit_full

Apakah akan mengubah model default yang digunakan prediktor untuk prediksi atau tidak. Jika set_best_to_refit_full disetel ke"True", model default berubah ke model yang menunjukkan skor validasi tertinggi sebagai hasil dari refitting (diaktifkan oleh). refit_full Hanya valid jika refit_full disetel.

Nilai yang valid: string, "True" atau"False".

Nilai default:"False".

save_space

Apakah atau perhatikan untuk mengurangi memori dan ukuran disk prediktor dengan menghapus file model tambahan yang tidak diperlukan untuk prediksi pada data baru. Ini tidak berdampak pada akurasi inferensi. Kami merekomendasikan pengaturan save_space "True" apakah satu-satunya tujuan adalah menggunakan model terlatih untuk prediksi. Fungsionalitas lanjutan tertentu mungkin tidak lagi tersedia jika save_space disetel ke"True". Lihat predictor.save_space() dokumentasi untuk lebih jelasnya.

Nilai yang valid: string, "True" atau"False".

Nilai default:"False".

verbosity

Verbositas pesan cetak. verbositytingkat berkisar dari 0 ke4, dengan tingkat yang lebih tinggi sesuai dengan pernyataan cetak yang lebih rinci. Sebuah verbosity dari 0 menekan peringatan.

Nilai yang valid: bilangan bulat, salah satu dari berikut ini: (0,1,2,3, atau4).

Nilai default:2.