SageMaker Algoritma Bawaan untuk Data Tabular - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

SageMaker Algoritma Bawaan untuk Data Tabular

Amazon SageMaker menyediakan algoritma bawaan yang disesuaikan dengan analisis data tabular. Data tabular mengacu pada kumpulan data apa pun yang diatur dalam tabel yang terdiri dari baris (pengamatan) dan kolom (fitur). SageMaker Algoritma bawaan untuk data tabular dapat digunakan untuk masalah klasifikasi atau regresi.

  • AutoGluon-Tabular—kerangka AutoML open-source yang berhasil dengan menyamai model dan menumpuknya dalam beberapa lapisan.

  • CatBoost—implementasi algoritme pohon yang ditingkatkan gradien yang memperkenalkan peningkatan berurutan dan algoritme inovatif untuk memproses fitur kategoris.

  • Algoritma Mesin Faktorisasi—perpanjangan dari model linier yang dirancang untuk menangkap interaksi secara ekonomis antara fitur dalam kumpulan data jarang berdimensi tinggi.

  • Algoritma K-Nearest Neighbors (k-NN)—metode non-parametrik yang menggunakan k titik berlabel terdekat untuk menetapkan label ke titik data baru untuk klasifikasi atau nilai target yang diprediksi dari rata-rata k titik terdekat untuk regresi.

  • Cahaya GBM—implementasi algoritma pohon yang ditingkatkan gradien yang menambahkan dua teknik baru untuk meningkatkan efisiensi dan skalabilitas: Pengambilan Sampel Satu Sisi Berbasis Gradien (GOSS) dan Bundling Fitur Eksklusif (EFB).

  • Algoritma Pembelajar Linear—mempelajari fungsi linier untuk regresi atau fungsi ambang linier untuk klasifikasi.

  • TabTransformer—arsitektur pemodelan data tabular mendalam baru yang dibangun di atas self-attention-based Transformers.

  • XGBoostalgoritma dengan Amazon SageMaker—implementasi algoritma pohon yang ditingkatkan gradien yang menggabungkan ansambel perkiraan dari serangkaian model yang lebih sederhana dan lebih lemah.

Nama algoritma Nama saluran Mode masukan pelatihan Tipe file Kelas instans Dapat diparalelkan
AutoGluon-Tabular pelatihan dan validasi (opsional) File CSV CPU atau GPU (hanya satu contoh) Tidak
CatBoost pelatihan dan validasi (opsional) File CSV CPU (hanya satu contoh) Tidak
Mesin Faktorisasi melatih dan (opsional) tes File atau Pipa Protobuf Recordio CPU (GPU untuk data padat) Ya
K-Tetangga Terdekat (K-nn) melatih dan (opsional) tes File atau Pipa Recordio-protobuf atau CSV CPU atau GPU (perangkat GPU tunggal pada satu atau beberapa instance) Ya
LightGBM pelatihan dan validasi (opsional) File CSV CPU (hanya satu contoh) Tidak
Linear Learner melatih dan (opsional) validasi, tes, atau keduanya File atau Pipa Recordio-protobuf atau CSV CPU atau GPU Ya
TabTransformer pelatihan dan validasi (opsional) File CSV CPU atau GPU (hanya satu contoh) Tidak
XGBoost (0,90-1, 0,90-2, 1,0-1, 1,2-1, 1,2-21) melatih dan (opsional) validasi File atau Pipa CSV, LibSVM, atau Parket CPU (atau GPU untuk 1.2-1) Ya