Hiperparameter XGBoost - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Hiperparameter XGBoost

Tabel berikut berisi subset hiperparameter yang diperlukan atau paling umum digunakan untuk algoritma Amazon SageMaker XGBoost. Ini adalah parameter yang ditetapkan oleh pengguna untuk memfasilitasi estimasi parameter model dari data. Hyperparameter yang diperlukan yang harus ditetapkan terdaftar terlebih dahulu, dalam urutan abjad. Hyperparameter opsional yang dapat diatur tercantum berikutnya, juga dalam urutan abjad. Algoritma SageMaker XGBoost adalah implementasi dari paket DMLC XGBoost open-source. Untuk detail tentang set lengkap hyperparameter yang dapat dikonfigurasi untuk versi XGBoost ini, lihat Parameter XGBoost.

Nama Parameter Deskripsi
num_class

Jumlah kelas.

Diperlukan jika objective diatur ke multi:softmax atau multi:softprob.

Nilai yang valid: Integer.

num_round

Jumlah putaran untuk menjalankan pelatihan.

Diperlukan

Nilai yang valid: Integer.

alpha

Istilah regularisasi L1 pada bobot. Meningkatkan nilai ini membuat model lebih konservatif.

Opsional

Nilai yang valid: Float.

Nilai default: 0

base_score

Skor prediksi awal dari semua contoh, bias global.

Opsional

Nilai yang valid: Float.

Nilai default: 0,5

booster

Booster mana yang akan digunakan. dartNilai gbtree dan menggunakan model berbasis pohon, sementara gblinear menggunakan fungsi linier.

Opsional

Nilai yang valid: String. Salah satu"gbtree","gblinear", atau"dart".

Nilai default: "gbtree"

colsample_bylevel

Rasio subsampel kolom untuk setiap split, di setiap level.

Opsional

Nilai yang valid: Float. Rentang: [0,1].

Nilai default: 1

colsample_bynode

Rasio subsampel kolom dari setiap node.

Opsional

Nilai yang valid: Float. Rentang: (0,1].

Nilai default: 1

colsample_bytree

Rasio subsampel kolom saat membangun setiap pohon.

Opsional

Nilai yang valid: Float. Rentang: [0,1].

Nilai default: 1

csv_weights

Saat flag ini diaktifkan, XGBoost membedakan pentingnya instance untuk input csv dengan mengambil kolom kedua (kolom setelah label) dalam data pelatihan sebagai bobot instance.

Opsional

Nilai yang valid: 0 atau 1

Nilai default: 0

deterministic_histogram

Saat flag ini diaktifkan, XGBoost membangun histogram pada GPU secara deterministik. Digunakan hanya jika tree_method diatur kegpu_hist.

Untuk daftar lengkap input yang valid, silakan lihat Parameter XGBoost.

Opsional

Nilai yang valid: String. Rentang: "true" atau"false".

Nilai default: "true"

early_stopping_rounds

Model berlatih sampai skor validasi berhenti membaik. Kesalahan validasi perlu dikurangi setidaknya setiap early_stopping_rounds untuk melanjutkan pelatihan. SageMakerhosting menggunakan model terbaik untuk inferensi.

Opsional

Nilai yang valid: Integer.

Nilai default: -

eta

Penyusutan ukuran langkah yang digunakan dalam pembaruan untuk mencegah overfitting. Setelah setiap langkah peningkatan, Anda bisa langsung mendapatkan bobot fitur baru. etaParameter sebenarnya mengecilkan bobot fitur untuk membuat proses peningkatan lebih konservatif.

Opsional

Nilai yang valid: Float. Rentang: [0,1].

Nilai default: 0,3

eval_metric

Metrik evaluasi untuk data validasi. Metrik default ditetapkan sesuai dengan tujuan:

  • rmse: untuk regresi

  • error: untuk klasifikasi

  • map: untuk peringkat

Untuk daftar input yang valid, lihat Parameter Tugas Pembelajaran XGBoost.

Opsional

Nilai yang valid: String.

Nilai default: Default sesuai dengan tujuan.

gamma

Pengurangan kerugian minimum diperlukan untuk membuat partisi lebih lanjut pada simpul daun pohon. Semakin besar, semakin konservatif algoritmanya.

Opsional

Nilai yang valid: Float. Rentang: [0, ∞).

Nilai default: 0

grow_policy

Mengontrol cara node baru ditambahkan ke pohon. Saat ini didukung hanya jika tree_method disetel kehist.

Opsional

Nilai yang valid: String. Baik "depthwise" atau "lossguide".

Nilai default: "depthwise"

interaction_constraints

Tentukan kelompok variabel yang diizinkan untuk berinteraksi.

Opsional

Nilai yang valid: Daftar bilangan bulat bersarang. Setiap bilangan bulat mewakili fitur, dan setiap daftar bersarang berisi fitur yang diizinkan untuk berinteraksi misalnya, [[1,2], [3,4,5]].

Nilai default: Tidak ada

lambda

Istilah regularisasi L2 pada bobot. Meningkatkan nilai ini membuat model lebih konservatif.

Opsional

Nilai yang valid: Float.

Nilai default: 1

lambda_bias

Istilah regularisasi L2 pada bias.

Opsional

Nilai yang valid: Float. Rentang: [0.0, 1.0].

Nilai default: 0

max_bin

Jumlah maksimum tempat sampah diskrit ke fitur kontinu ember. Digunakan hanya jika tree_method diatur kehist.

Opsional

Nilai yang valid: Integer.

Nilai default: 256

max_delta_step

Langkah delta maksimum diperbolehkan untuk estimasi berat setiap pohon. Ketika bilangan bulat positif digunakan, ini membantu membuat pembaruan lebih konservatif. Pilihan yang lebih disukai adalah menggunakannya dalam regresi logistik. Setel ke 1-10 untuk membantu mengontrol pembaruan.

Opsional

Nilai yang valid: Integer. Rentang: [0, ∞).

Nilai default: 0

max_depth

Kedalaman maksimum pohon. Meningkatkan nilai ini membuat model lebih kompleks dan cenderung overfit. 0 menunjukkan tidak ada batas. Batas diperlukan ketika grow_policy =depth-wise.

Opsional

Nilai yang valid: Integer. Rentang: [0, ∞)

Nilai default: 6

max_leaves

Jumlah maksimum node yang akan ditambahkan. Relevan hanya jika grow_policy disetel kelossguide.

Opsional

Nilai yang valid: Integer.

Nilai default: 0

min_child_weight

Jumlah minimum berat badan contoh (hessian) yang dibutuhkan pada anak. Jika langkah partisi pohon menghasilkan simpul daun dengan jumlah bobot instance kurang darimin_child_weight, proses pembangunan melepaskan partisi lebih lanjut. Dalam model regresi linier, ini hanya sesuai dengan jumlah minimum instance yang diperlukan di setiap node. Semakin besar algoritme, semakin konservatif itu.

Opsional

Nilai yang valid: Float. Rentang: [0, ∞).

Nilai default: 1

monotone_constraints

Menentukan kendala monotonisitas pada fitur apapun.

Opsional

Nilai yang valid: Tuple of Integers. Bilangan bulat yang valid: -1 (kendala menurun), 0 (tidak ada kendala), 1 (meningkatkan kendala).

Misalnya, (0, 1): Tidak ada kendala pada prediktor pertama, dan kendala yang meningkat pada prediktor kedua. (-1, 1): Mengurangi kendala pada prediktor pertama, dan kendala yang meningkat pada prediktor kedua.

Nilai default: (0, 0)

normalize_type

Jenis algoritma normalisasi.

Opsional

Nilai yang valid: Baik pohon atau hutan.

Nilai default: pohon

nthread

Jumlah thread paralel yang digunakan untuk menjalankan xgboost.

Opsional

Nilai yang valid: Integer.

Nilai default: Jumlah utas maksimum.

objective

Menentukan tugas pembelajaran dan tujuan pembelajaran yang sesuai. Contoh:reg:logistic,multi:softmax,reg:squarederror. Untuk daftar lengkap input yang valid, lihat Parameter Tugas Pembelajaran XGBoost.

Opsional

Nilai valid: String

Nilai default: "reg:squarederror"

one_drop

Saat flag ini diaktifkan, setidaknya satu pohon selalu dijatuhkan selama putus sekolah.

Opsional

Nilai yang valid: 0 atau 1

Nilai default: 0

process_type

Jenis proses boosting untuk dijalankan.

Opsional

Nilai yang valid: String. Baik "default" atau "update".

Nilai default: "default"

rate_drop

Tingkat putus sekolah yang menentukan fraksi pohon sebelumnya yang akan jatuh selama putus sekolah.

Opsional

Nilai yang valid: Float. Rentang: [0.0, 1.0].

Nilai default: 0.0

refresh_leaf

Ini adalah parameter dari plug-in updater 'refresh'. Ketika diatur ke true (1), daun pohon dan statistik simpul pohon diperbarui. Saat disetel ke false (0), hanya statistik simpul pohon yang diperbarui.

Opsional

Nilai yang valid: 0/1

Nilai default: 1

sample_type

Jenis algoritma sampling.

Opsional

Nilai yang valid: Entah uniform atauweighted.

Nilai default: uniform

scale_pos_weight

Mengontrol keseimbangan bobot positif dan negatif. Ini berguna untuk kelas yang tidak seimbang. Nilai khas untuk dipertimbangkan:sum(negative cases)/sum(positive cases).

Opsional

Nilai yang valid: float

Nilai default: 1

seed

Benih nomor acak.

Opsional

Nilai yang valid: integer

Nilai default: 0

single_precision_histogram

Saat flag ini diaktifkan, XGBoost menggunakan presisi tunggal untuk membangun histogram, bukan presisi ganda. Digunakan hanya jika tree_method diatur ke hist ataugpu_hist.

Untuk daftar lengkap input yang valid, silakan lihat Parameter XGBoost.

Opsional

Nilai yang valid: String. Rentang: "true" atau "false"

Nilai default: "false"

sketch_eps

Digunakan hanya untuk perkiraan algoritma serakah. Ini diterjemahkan menjadi O (1/sketch_eps) jumlah tempat sampah. Dibandingkan dengan jumlah tempat sampah yang dipilih secara langsung, ini dilengkapi dengan jaminan teoritis dengan akurasi sketsa.

Opsional

Nilai yang valid: Float, Range: [0, 1].

Nilai default: 0,03

skip_drop

Probabilitas melewatkan prosedur putus sekolah selama iterasi peningkatan.

Opsional

Nilai yang valid: Float. Rentang: [0.0, 1.0].

Nilai default: 0.0

subsample

Rasio subsampel dari contoh pelatihan. Mengaturnya ke 0,5 berarti XGBoost secara acak mengumpulkan setengah dari instance data untuk menumbuhkan pohon. Ini mencegah overfitting.

Opsional

Nilai yang valid: Float. Rentang: [0,1].

Nilai default: 1

tree_method

Algoritma konstruksi pohon yang digunakan dalam XGBoost.

Opsional

Nilai yang valid: Salah satuauto,exact,approx,hist, ataugpu_hist.

Nilai default: auto

tweedie_variance_power

Parameter yang mengontrol varians distribusi Tweedie.

Opsional

Nilai yang valid: Float. Rentang: (1, 2).

Nilai default: 1.5

updater

String yang dipisahkan koma yang mendefinisikan urutan pembaru pohon untuk dijalankan. Ini menyediakan cara modular untuk membangun dan memodifikasi pohon.

Untuk daftar lengkap input yang valid, silakan lihat Parameter XGBoost.

Opsional

Nilai yang valid: string dipisahkan koma.

Nilai default:grow_colmaker, pangkas

use_dask_gpu_training

Setel use_dask_gpu_training ke "true" jika Anda ingin menjalankan pelatihan GPU terdistribusi dengan Dask. Pelatihan GPU Dask hanya didukung untuk versi 1.5-1 dan yang lebih baru. Jangan setel nilai ini "true" untuk versi sebelumnya 1.5-1. Untuk informasi selengkapnya, lihat Pelatihan GPU terdistribusi.

Opsional

Nilai yang valid: String. Rentang: "true" atau "false"

Nilai default: "false"

verbosity

Verbositas pesan pencetakan.

Nilai yang valid: 0 (diam), 1 (peringatan), 2 (info), 3 (debug).

Opsional

Nilai default: 1