Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Mode pelatihan dan dukungan algoritme
Autopilot mendukung berbagai mode pelatihan dan algoritma untuk mengatasi masalah pembelajaran mesin, melaporkan metrik kualitas dan objektif, dan menggunakan validasi silang secara otomatis, bila diperlukan.
Mode pelatihan
SageMaker Autopilot dapat secara otomatis memilih metode pelatihan berdasarkan ukuran dataset, atau Anda dapat memilihnya secara manual. Pilihannya adalah sebagai berikut:
-
Ensembling — Autopilot menggunakan AutoGluon
perpustakaan untuk melatih beberapa model dasar. Untuk menemukan kombinasi terbaik untuk kumpulan data Anda, mode ansambel menjalankan 10 uji coba dengan pengaturan model dan parameter meta yang berbeda. Kemudian Autopilot menggabungkan model-model ini menggunakan metode ansambel susun untuk membuat model prediktif yang optimal. Untuk daftar algoritma yang didukung Autopilot dalam mode ensembling untuk data tabular, lihat bagian dukungan Algoritma berikut. -
Optimasi Hyperparameter (HPO) - Autopilot menemukan versi terbaik dari model dengan menyetel hyperparameters menggunakan optimasi Bayesian atau optimasi multi-fidelity saat menjalankan pekerjaan pelatihan pada dataset Anda. HPOmode memilih algoritme yang paling relevan dengan kumpulan data Anda dan memilih rentang hiperparameter terbaik untuk menyetel model Anda. Untuk menyetel model Anda, HPO mode berjalan hingga 100 uji coba (default) untuk menemukan pengaturan hiperparameter optimal dalam rentang yang dipilih. Jika ukuran dataset Anda kurang dari 100 MB, Autopilot menggunakan optimasi Bayesian. Autopilot memilih optimasi multi-fidelity jika dataset Anda lebih besar dari 100 MB.
Dalam optimasi multi-fidelity, metrik terus dipancarkan dari wadah pelatihan. Uji coba yang berkinerja buruk terhadap metrik objektif yang dipilih dihentikan lebih awal. Uji coba yang berkinerja baik dialokasikan lebih banyak sumber daya.
Untuk daftar algoritma yang didukung Autopilot dalam HPO mode, lihat bagian Dukungan algoritma berikut.
-
Otomatis — Autopilot secara otomatis memilih mode atau HPO mode ensembling berdasarkan ukuran dataset Anda. Jika dataset Anda lebih besar dari 100 MB, Autopilot memilih. HPO Jika tidak, ia memilih mode ansambel. Autopilot dapat gagal membaca ukuran kumpulan data Anda dalam kasus berikut.
-
Jika Anda mengaktifkan mode Virtual Private Cloud (VPC), untuk pekerjaan AutoML tetapi bucket S3 yang berisi kumpulan data hanya mengizinkan akses dari file. VPC
-
Input S3 DataType dari dataset Anda adalah a.
ManifestFile
-
Masukan S3Uri berisi lebih dari 1000 item.
Jika Autopilot tidak dapat membaca ukuran dataset Anda, default untuk memilih mode. HPO
-
catatan
Untuk runtime dan kinerja yang optimal, gunakan mode pelatihan ansambel untuk kumpulan data yang lebih kecil dari 100 MB.
Dukungan algoritma
Dalam HPOmode, Autopilot mendukung jenis algoritma pembelajaran mesin berikut:
-
Linear learner — Algoritma pembelajaran yang diawasi yang dapat memecahkan masalah klasifikasi atau regresi.
-
XGBoost— Algoritma pembelajaran yang diawasi yang mencoba memprediksi variabel target secara akurat dengan menggabungkan ansambel perkiraan dari serangkaian model yang lebih sederhana dan lebih lemah.
-
Algoritma pembelajaran mendalam — Sebuah perceptron multilayer (MLP) dan jaringan saraf tiruan feedforward. Algoritma ini dapat menangani data yang tidak dapat dipisahkan secara linier.
catatan
Anda tidak perlu menentukan algoritma yang akan digunakan untuk masalah pembelajaran mesin Anda. Autopilot secara otomatis memilih algoritma yang sesuai untuk dilatih.
Dalam mode ansambel, Autopilot mendukung jenis algoritma pembelajaran mesin berikut:
-
Cahaya GBM - Kerangka kerja yang dioptimalkan yang menggunakan algoritme berbasis pohon dengan peningkatan gradien. Algoritma ini menggunakan pohon yang tumbuh dalam lebar, bukan kedalaman, dan sangat dioptimalkan untuk kecepatan.
-
CatBoost— Kerangka kerja yang menggunakan algoritme berbasis pohon dengan peningkatan gradien. Dioptimalkan untuk menangani variabel kategoris.
-
XGBoost— Kerangka kerja yang menggunakan algoritme berbasis pohon dengan peningkatan gradien yang tumbuh secara mendalam, bukan luasnya.
-
Random Forest
— Algoritma berbasis pohon yang menggunakan beberapa pohon keputusan pada sub-sampel acak data dengan penggantian. Pohon-pohon dibagi menjadi simpul optimal di setiap tingkat. Keputusan setiap pohon dirata-ratakan bersama untuk mencegah overfitting dan meningkatkan prediksi. -
Pohon Ekstra
— Algoritma berbasis pohon yang menggunakan beberapa pohon keputusan di seluruh kumpulan data. Pohon-pohon dibelah secara acak di setiap tingkat. Keputusan setiap pohon dirata-ratakan untuk mencegah overfitting dan untuk meningkatkan prediksi. Pohon tambahan menambahkan tingkat pengacakan dibandingkan dengan algoritma hutan acak. -
Model Linear
— Kerangka kerja yang menggunakan persamaan linier untuk memodelkan hubungan antara dua variabel dalam data yang diamati. -
Obor jaringan saraf — Model jaringan saraf yang diimplementasikan menggunakan Pytorch
. -
Neural network fast.ai — Model jaringan saraf yang diimplementasikan menggunakan fast.ai
.