Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Algoritma bawaan dan model yang telah dilatih sebelumnya di Amazon SageMaker
Amazon SageMaker menyediakan rangkaian algoritme bawaan, model pra-terlatih, dan templat solusi pra-bangun untuk membantu ilmuwan data dan praktisi pembelajaran mesin memulai pelatihan dan penerapan model pembelajaran mesin dengan cepat. Bagi seseorang yang baru mengenal SageMaker, memilih algoritma yang tepat untuk kasus penggunaan khusus Anda bisa menjadi tugas yang menantang. Tabel berikut menyediakan lembar contekan cepat yang menunjukkan bagaimana Anda dapat memulai dengan contoh masalah atau kasus penggunaan dan menemukan algoritma bawaan yang sesuai yang ditawarkan oleh SageMaker yang valid untuk jenis masalah tersebut. Panduan tambahan yang diselenggarakan oleh paradigma pembelajaran (diawasi dan tidak diawasi) dan domain data penting (teks dan gambar) disediakan di bagian berikut tabel.
Tabel: Memetakan kasus penggunaan ke algoritme bawaan
Contoh masalah dan kasus penggunaan | Paradigma atau domain pembelajaran | Jenis masalah | Format masukan data | Algoritma bawaan |
---|---|---|---|---|
Berikut beberapa contoh dari 15 jenis masalah yang dapat diatasi oleh model pra-terlatih dan templat solusi pra-bangun yang disediakan oleh: SageMaker JumpStart Penjawab pertanyaan: chatbot yang menghasilkan jawaban untuk pertanyaan yang diberikan. Analisis teks: menganalisis teks dari model khusus untuk domain industri seperti keuangan. |
Model pra-terlatih dan templat solusi pra-bangun |
Klasifikasi Gambar Klasifikasi Tabular Regresi Tabular Klasifikasi Teks Deteksi Objek Penyematan Teks Menjawab Pertanyaan Klasifikasi Pasangan Kalimat Penyematan Gambar Pengakuan Entitas Bernama Segmentasi Instance Generasi Teks Ringkasan Teks Segmentasi Semantik Terjemahan Mesin |
Gambar, Teks, Tabular | Model populer, termasuk Mobilenet,YOLO, Faster R-CNN,, light BERTGBM, dan CatBoost Untuk daftar model pra-terlatih yang tersedia, lihat JumpStart Model. Untuk daftar templat solusi bawaan yang tersedia, lihat JumpStart Solusi. |
Memprediksi jika item termasuk dalam kategori: filter spam email |
Klasifikasi biner/multi-kelas |
Tabular |
AutoGluon-Tabular, CatBoost, Algoritma Mesin Faktorisasi, Algoritma K-Nearest Neighbors (k-NN), Cahaya GBM, Algoritma Pembelajar Linear, TabTransformer, XGBoostalgoritma dengan Amazon SageMaker |
|
Memprediksi nilai numerik/kontinu: perkirakan nilai rumah |
Regresi |
Tabular |
AutoGluon-Tabular, CatBoost, Algoritma Mesin Faktorisasi, Algoritma K-Nearest Neighbors (k-NN), Cahaya GBM, Algoritma Pembelajar Linear, TabTransformer, XGBoostalgoritma dengan Amazon SageMaker |
|
Berdasarkan data historis untuk suatu perilaku, prediksi perilaku masa depan: memprediksi penjualan pada produk baru berdasarkan data penjualan sebelumnya. |
Peramalan deret waktu |
Tabular | ||
Tingkatkan penyematan data objek dimensi tinggi: identifikasi tiket dukungan duplikat atau temukan perutean yang benar berdasarkan kesamaan teks dalam tiket |
Embeddings: mengubah objek berdimensi tinggi menjadi ruang dimensi rendah. | Tabular | Algoritma Object2Vec | |
Jatuhkan kolom tersebut dari kumpulan data yang memiliki hubungan lemah dengan variabel label/target: warna mobil saat memprediksi jarak tempuhnya. |
Pembelajaran tanpa pengawasan |
Rekayasa fitur: pengurangan dimensi |
Tabular | |
Mendeteksi perilaku abnormal dalam aplikasi: temukan saat sensor IoT mengirimkan pembacaan abnormal |
Deteksi anomali |
Tabular | ||
Lindungi aplikasi Anda dari pengguna yang mencurigakan: deteksi jika alamat IP yang mengakses layanan mungkin berasal dari aktor yang buruk |
Deteksi anomali IP |
Tabular | ||
Kelompokkan objek/data serupa bersama-sama: temukan pelanggan dengan pengeluaran tinggi, menengah, dan rendah dari riwayat transaksi mereka |
Pengelompokan atau pengelompokan |
Tabular | ||
Atur satu set dokumen ke dalam topik (tidak diketahui sebelumnya): tandai dokumen sebagai milik kategori medis berdasarkan istilah yang digunakan dalam dokumen. |
Pemodelan topik |
Teks |
Algoritma Alokasi Dirichlet Laten (LDA), Model Topik Saraf (NTM) Algoritma |
|
Tetapkan kategori yang telah ditentukan sebelumnya ke dokumen dalam korpus: kategorikan buku di perpustakaan ke dalam disiplin akademis |
Klasifikasi teks |
Teks | ||
Konversi teks dari satu bahasa ke bahasa lain: Spanyol ke Inggris |
Terjemahan mesin algoritma |
Teks | ||
Meringkas korpus teks panjang: abstrak untuk paper penelitian |
Ringkasan teks |
Teks | ||
Konversi file audio menjadi teks: transkripsikan percakapan pusat panggilan untuk analisis lebih lanjut |
S peech-to-text |
Teks | ||
Label/tag gambar berdasarkan konten gambar: peringatan tentang konten dewasa dalam gambar |
Pemrosesan gambar |
Klasifikasi gambar dan multi-label |
Citra | |
Klasifikasi sesuatu dalam gambar menggunakan pembelajaran transfer. |
Klasifikasi gambar | Citra | ||
Mendeteksi orang dan objek dalam gambar: polisi meninjau galeri foto besar untuk orang hilang |
Deteksi dan klasifikasi objek |
Citra | ||
Tandai setiap piksel gambar satu per satu dengan kategori: mobil self-driving bersiap untuk mengidentifikasi objek dengan cara mereka |
Visi komputer |
Citra |
Untuk informasi penting tentang item berikut yang umum untuk semua algoritma bawaan yang disediakan oleh SageMaker, lihatParameter untuk Algoritma Bawaan.
-
Jalur registri Docker
-
format data
-
jenis EC2 instans Amazon yang direkomendasikan
-
CloudWatch log
Bagian berikut memberikan panduan tambahan untuk algoritme SageMaker bawaan Amazon yang dikelompokkan berdasarkan paradigma pembelajaran yang diawasi dan tidak diawasi. Untuk deskripsi paradigma pembelajaran ini dan jenis masalah terkaitnya, lihat. Jenis Algoritma Bagian juga disediakan untuk algoritme SageMaker bawaan yang tersedia untuk menangani dua domain pembelajaran mesin penting: analisis tekstual dan pemrosesan gambar.
Model dan templat solusi yang telah dilatih sebelumnya
SageMaker JumpStart menyediakan berbagai model pra-terlatih, templat solusi pra-bangun, dan contoh untuk jenis masalah populer. Ini menggunakan SageMaker SDK serta Studio Classic. Untuk informasi lebih lanjut tentang model ini, solusi, dan contoh notebook yang disediakan oleh SageMaker JumpStart, lihatSageMaker JumpStart model terlatih.
Pembelajaran yang diawasi
Amazon SageMaker menyediakan beberapa algoritma tujuan umum bawaan yang dapat digunakan untuk masalah klasifikasi atau regresi.
-
AutoGluon-Tabular—kerangka AutoML open-source yang berhasil dengan menyamai model dan menumpuknya dalam beberapa lapisan.
-
CatBoost—implementasi algoritma pohon yang ditingkatkan gradien yang memperkenalkan peningkatan berurutan dan algoritme inovatif untuk memproses fitur kategoris.
-
Algoritma Mesin Faktorisasi—perpanjangan dari model linier yang dirancang untuk menangkap interaksi secara ekonomis antara fitur dalam kumpulan data jarang berdimensi tinggi.
-
Algoritma K-Nearest Neighbors (k-NN)—metode non-parametrik yang menggunakan k titik berlabel terdekat untuk menetapkan nilai. Untuk klasifikasi, ini adalah label ke titik data baru. Untuk regresi, ini adalah nilai target yang diprediksi dari rata-rata k titik terdekat.
-
Cahaya GBM—implementasi algoritma pohon yang ditingkatkan gradien yang menambahkan dua teknik baru untuk meningkatkan efisiensi dan skalabilitas. Kedua teknik baru ini adalah Gradient berbasis One-Side Sampling (GOSS) dan Exclusive Feature Bundling (). EFB
-
Algoritma Pembelajar Linear—mempelajari fungsi linier untuk regresi atau fungsi ambang linier untuk klasifikasi.
-
TabTransformer—arsitektur pemodelan data tabular mendalam baru yang dibangun di atas self-attention-based Transformers.
-
XGBoostalgoritma dengan Amazon SageMaker—implementasi algoritma pohon yang ditingkatkan gradien yang menggabungkan ansambel perkiraan dari serangkaian model yang lebih sederhana dan lebih lemah.
Amazon SageMaker juga menyediakan beberapa algoritma pembelajaran terawasi bawaan yang digunakan untuk tugas yang lebih khusus selama rekayasa fitur dan peramalan dari data deret waktu.
-
Algoritma Object2Vec—algoritma multi-tujuan baru yang sangat dapat disesuaikan yang digunakan untuk rekayasa fitur. Ini dapat mempelajari penyematan padat dimensi rendah dari objek dimensi tinggi untuk menghasilkan fitur yang meningkatkan efisiensi pelatihan untuk model hilir. Meskipun ini adalah algoritma yang diawasi, ada banyak skenario di mana label hubungan dapat diperoleh murni dari pengelompokan alami dalam data. Meskipun memerlukan data berlabel untuk pelatihan, ini dapat terjadi tanpa anotasi manusia yang eksplisit.
-
Gunakan algoritma SageMaker peramalan DeepAR—algoritma pembelajaran yang diawasi untuk meramalkan deret waktu skalar (satu dimensi) menggunakan jaringan saraf berulang (). RNN
Pembelajaran tanpa pengawasan
Amazon SageMaker menyediakan beberapa algoritma bawaan yang dapat digunakan untuk berbagai tugas pembelajaran tanpa pengawasan. Tugas-tugas ini mencakup hal-hal seperti pengelompokan, pengurangan dimensi, pengenalan pola, dan deteksi anomali.
-
Analisis Komponen Utama (PCA) Algoritma—mengurangi dimensi (jumlah fitur) dalam kumpulan data dengan memproyeksikan titik data ke beberapa komponen utama pertama. Tujuannya adalah untuk menyimpan informasi atau variasi sebanyak mungkin. Untuk matematikawan, komponen utama adalah vektor eigen dari matriks kovarians data.
-
Algoritma K-Means—menemukan pengelompokan diskrit dalam data. Ini terjadi di mana anggota kelompok semirip mungkin satu sama lain dan berbeda mungkin dari anggota kelompok lain.
-
Wawasan IP—mempelajari pola penggunaan untuk IPv4 alamat. Ini dirancang untuk menangkap asosiasi antara IPv4 alamat dan berbagai entitas, seperti nomor pengguna IDs atau akun.
-
Algoritma Random Cut Forest (RCF)—mendeteksi titik data anomali dalam kumpulan data yang menyimpang dari data yang terstruktur atau berpola dengan baik.
Analisis tekstual
SageMaker menyediakan algoritma yang disesuaikan dengan analisis dokumen tekstual. Ini termasuk teks yang digunakan dalam pemrosesan bahasa alami, klasifikasi atau ringkasan dokumen, pemodelan atau klasifikasi topik, dan transkripsi atau terjemahan bahasa.
-
BlazingText algoritma—implementasi yang sangat dioptimalkan dari Word2vec dan algoritma klasifikasi teks yang menskalakan ke kumpulan data besar dengan mudah. Ini berguna untuk banyak tugas pemrosesan bahasa alami hilir (NLP).
-
Sequence-to-Sequence Algoritma—algoritma yang diawasi yang biasa digunakan untuk terjemahan mesin saraf.
-
Algoritma Alokasi Dirichlet Laten (LDA)Sebuah algoritma yang cocok untuk menentukan topik dalam satu set dokumen. Ini adalah algoritma tanpa pengawasan, yang berarti tidak menggunakan data contoh dengan jawaban selama pelatihan.
-
Model Topik Saraf (NTM) Algoritma—teknik lain yang tidak diawasi untuk menentukan topik dalam satu set dokumen, menggunakan pendekatan jaringan saraf.
-
Klasifikasi Teks - TensorFlow—algoritma yang diawasi yang mendukung pembelajaran transfer dengan model terlatih yang tersedia untuk klasifikasi teks.
Pemrosesan gambar
SageMaker juga menyediakan algoritma pemrosesan gambar yang digunakan untuk klasifikasi gambar, deteksi objek, dan visi komputer.
-
Klasifikasi Gambar - MXNetMenggunakan contoh data dengan jawaban (disebut sebagai algoritma yang diawasi). Gunakan algoritma ini untuk mengklasifikasikan gambar.
-
Klasifikasi Gambar - TensorFlow—menggunakan model TensorFlow Hub terlatih untuk menyempurnakan tugas-tugas tertentu (disebut sebagai algoritma yang diawasi). Gunakan algoritma ini untuk mengklasifikasikan gambar.
-
Algoritma Segmentasi Semantik—menyediakan pendekatan tingkat piksel berbutir halus untuk mengembangkan aplikasi visi komputer.
-
Deteksi Objek - MXNet—mendeteksi dan mengklasifikasikan objek dalam gambar menggunakan satu jaringan saraf dalam. Ini adalah algoritma pembelajaran yang diawasi yang mengambil gambar sebagai input dan mengidentifikasi semua contoh objek dalam adegan gambar.
-
Deteksi Objek - TensorFlow—mendeteksi kotak pembatas dan label objek dalam gambar. Ini adalah algoritma pembelajaran yang diawasi yang mendukung pembelajaran transfer dengan model terlatih TensorFlow yang tersedia.