JumpStart model dan templat solusi Algoritma pembelajaran yang diawasi Pembelajaran tanpa pengawasan Analisis tekstual Pemrosesan gambar

Built-in algoritma dan model terlatih di Amazon SageMaker

Amazon SageMaker menyediakan rangkaian algoritme bawaan, model pra-terlatih, dan templat solusi pra-bangun untuk membantu ilmuwan data dan praktisi pembelajaran mesin memulai pelatihan dan penerapan model pembelajaran mesin dengan cepat. Bagi seseorang yang baru mengenal SageMaker, memilih algoritma yang tepat untuk kasus penggunaan khusus Anda bisa menjadi tugas yang menantang. Tabel berikut menyediakan lembar contekan cepat yang menunjukkan bagaimana Anda dapat memulai dengan contoh masalah atau kasus penggunaan dan menemukan algoritma bawaan yang sesuai yang ditawarkan oleh SageMaker yang valid untuk jenis masalah tersebut. Panduan tambahan yang diselenggarakan oleh paradigma pembelajaran (diawasi dan tidak diawasi) dan domain data penting (teks dan gambar) disediakan di bagian berikut tabel.

Tabel: Memetakan kasus penggunaan ke algoritme bawaan

Paradigma atau domain pembelajaran	Jenis masalah	Contoh masalah dan kasus penggunaan	Format masukan data	Built-in algoritma
Pre-trained model dan templat solusi pra-bangun	Klasifikasi Gambar Klasifikasi Tabular Regresi Tabular Klasifikasi Teks Deteksi Objek Penyematan Teks Menjawab Pertanyaan Klasifikasi Pasangan Kalimat Penyematan Gambar Pengakuan Entitas Bernama Segmentasi Instance Generasi Teks Ringkasan Teks Segmentasi Semantik Terjemahan Mesin	Berikut beberapa contoh dari 15 jenis masalah yang dapat diatasi oleh model pra-terlatih dan templat solusi pra-bangun yang disediakan oleh Amazon: SageMaker JumpStart Penjawab pertanyaan: chatbot yang menghasilkan jawaban untuk pertanyaan yang diberikan. Analisis teks: menganalisis teks dari model khusus untuk domain industri seperti keuangan.	Gambar, Teks, Tabular	Model populer, termasuk Mobilenet, YOLO, Faster, BERT, R-CNN LightGBM, dan CatBoost Untuk daftar model pra-terlatih yang tersedia, lihat JumpStart Model. Untuk daftar templat solusi bawaan yang tersedia, lihat JumpStart Solusi.
Pembelajaran yang diawasi	Binary/multi-class klasifikasi	Memprediksi jika item termasuk dalam kategori: filter spam email	Tabular	AutoGluon-Tabular, CatBoost, Algoritma Mesin Faktorisasi, K-Nearest Algoritma Tetangga (k-NN), LightGBM, Algoritma Pembelajar Linear, TabTransformer, Algoritma XGBoost dengan Amazon AI SageMaker
	Regresi	Memprediksi numeric/continuous nilai: perkirakan nilai rumah	Tabular	AutoGluon-Tabular, CatBoost, Algoritma Mesin Faktorisasi, K-Nearest Algoritma Tetangga (k-NN), LightGBM, Algoritma Pembelajar Linear, TabTransformer, Algoritma XGBoost dengan Amazon AI SageMaker
	Time-series peramalan	Berdasarkan data historis untuk suatu perilaku, prediksi perilaku masa depan: memprediksi penjualan pada produk baru berdasarkan data penjualan sebelumnya.	Tabular	Gunakan algoritme peramalan SageMaker AI DeepAR
	Embeddings: mengubah objek berdimensi tinggi menjadi ruang dimensi rendah.	Tingkatkan penyematan data objek dimensi tinggi: identifikasi tiket dukungan duplikat atau temukan perutean yang benar berdasarkan kesamaan teks dalam tiket	Tabular	Algoritma Object2Vec
Pembelajaran tanpa pengawasan	Rekayasa fitur: pengurangan dimensi	Jatuhkan kolom tersebut dari kumpulan data yang memiliki hubungan lemah dengan label/target variabel: warna mobil saat memprediksi jarak tempuhnya.	Tabular	Algoritma Analisis Komponen Utama (PCA)
	Deteksi anomali	Mendeteksi perilaku abnormal dalam aplikasi: temukan saat sensor IoT mengirimkan pembacaan abnormal	Tabular	Algoritma Random Cut Forest (RCF)
	Deteksi anomali IP	Lindungi aplikasi Anda dari pengguna yang mencurigakan: deteksi jika alamat IP yang mengakses layanan mungkin berasal dari aktor yang buruk	Tabular	Wawasan IP
	Pengelompokan atau pengelompokan	Kelompokkan yang serupa objects/data : temukan pelanggan dengan pengeluaran tinggi, menengah, dan rendah dari riwayat transaksi mereka	Tabular	K-Means Algoritma
	Pemodelan topik	Atur satu set dokumen ke dalam topik (tidak diketahui sebelumnya): tandai dokumen sebagai milik kategori medis berdasarkan istilah yang digunakan dalam dokumen.	Teks	Algoritma Alokasi Dirichlet Laten (LDA), Algoritma Model Topik Saraf (NTM)
Analisis tekstual	Klasifikasi teks	Tetapkan kategori yang telah ditentukan sebelumnya ke dokumen dalam korpus: kategorikan buku di perpustakaan ke dalam disiplin akademis	Teks	BlazingText algoritma, Klasifikasi Teks - TensorFlow
	Terjemahan mesin algoritma	Konversi teks dari satu bahasa ke bahasa lain: Spanyol ke Inggris	Teks	Sequence-to-Sequence Algoritma
	Ringkasan teks	Meringkas korpus teks panjang: abstrak untuk paper penelitian	Teks	Sequence-to-Sequence Algoritma
	Speech-to-text	Konversi file audio menjadi teks: transkripsikan percakapan pusat panggilan untuk analisis lebih lanjut	Teks	Sequence-to-Sequence Algoritma
Pemrosesan gambar	Klasifikasi gambar dan multi-label	Label/tag gambar berdasarkan konten gambar: peringatan tentang konten dewasa dalam gambar	Citra	Klasifikasi Gambar - MXNet
	Klasifikasi gambar	Klasifikasi sesuatu dalam gambar menggunakan pembelajaran transfer.	Citra	Klasifikasi Gambar - TensorFlow
	Deteksi dan klasifikasi objek	Mendeteksi orang dan objek dalam gambar: polisi meninjau galeri foto besar untuk orang hilang	Citra	Deteksi Objek - MxNet, Deteksi Objek - TensorFlow
	Visi komputer	Tandai setiap piksel gambar satu per satu dengan kategori: mobil self-driving bersiap untuk mengidentifikasi objek dengan cara mereka	Citra	Algoritma Segmentasi Semantik

Untuk informasi penting tentang item berikut yang umum untuk semua algoritme bawaan yang disediakan oleh SageMaker AI, lihatParameter untuk Built-in Algoritma.

Jalur registri Docker
format data
jenis instans Amazon EC2 yang direkomendasikan
CloudWatch log

Bagian berikut memberikan panduan tambahan untuk algoritme bawaan Amazon SageMaker AI yang dikelompokkan berdasarkan paradigma pembelajaran yang diawasi dan tidak diawasi. Untuk deskripsi paradigma pembelajaran ini dan jenis masalah terkaitnya, lihat. Jenis Algoritma Bagian juga disediakan untuk algoritme bawaan SageMaker AI yang tersedia untuk menangani dua domain pembelajaran mesin penting: analisis tekstual dan pemrosesan gambar.

Pre-trained model dan templat solusi
Pembelajaran yang diawasi
Pembelajaran tanpa pengawasan
Analisis tekstual
Pemrosesan gambar

Pre-trained model dan templat solusi

Amazon SageMaker JumpStart menyediakan berbagai model pra-terlatih, templat solusi pra-bangun, dan contoh untuk jenis masalah populer. Ini menggunakan SageMaker SDK serta Studio Classic. Untuk informasi selengkapnya tentang model ini, solusi, dan contoh notebook yang disediakan oleh Amazon SageMaker JumpStart, lihatSageMaker JumpStart model terlatih.

Pembelajaran yang diawasi

Amazon SageMaker AI menyediakan beberapa algoritma tujuan umum bawaan yang dapat digunakan untuk masalah klasifikasi atau regresi.

AutoGluon-Tabular—kerangka AutoML open-source yang berhasil dengan menyamai model dan menumpuknya dalam beberapa lapisan.
CatBoost—implementasi algoritma pohon yang ditingkatkan gradien yang memperkenalkan peningkatan berurutan dan algoritme inovatif untuk memproses fitur kategoris.
Algoritma Mesin Faktorisasi—perpanjangan dari model linier yang dirancang untuk menangkap interaksi secara ekonomis antara fitur dalam kumpulan data jarang dimensi tinggi.
K-Nearest Algoritma Tetangga (k-NN)—metode non-parametrik yang menggunakan k titik berlabel terdekat untuk menetapkan nilai. Untuk klasifikasi, ini adalah label ke titik data baru. Untuk regresi, ini adalah nilai target yang diprediksi dari rata-rata k titik terdekat.
LightGBM—implementasi algoritma pohon yang ditingkatkan gradien yang menambahkan dua teknik baru untuk meningkatkan efisiensi dan skalabilitas. Kedua teknik baru ini adalah Gradient-based One-Side Sampling (GOSS) dan Exclusive Feature Bundling (EFB).
Algoritma Pembelajar Linear—mempelajari fungsi linier untuk regresi atau fungsi ambang linier untuk klasifikasi.
TabTransformer—arsitektur pemodelan data tabular mendalam baru yang dibangun di atas Transformers berbasis perhatian diri.
Algoritma XGBoost dengan Amazon AI SageMaker—implementasi algoritma pohon yang ditingkatkan gradien yang menggabungkan ansambel perkiraan dari serangkaian model yang lebih sederhana dan lebih lemah.

Amazon SageMaker AI juga menyediakan beberapa algoritma pembelajaran terawasi bawaan yang digunakan untuk tugas yang lebih khusus selama rekayasa fitur dan peramalan dari data deret waktu.

Algoritma Object2Vec—algoritma multi-tujuan baru yang sangat dapat disesuaikan yang digunakan untuk rekayasa fitur. Ini dapat mempelajari penyematan padat dimensi rendah dari objek dimensi tinggi untuk menghasilkan fitur yang meningkatkan efisiensi pelatihan untuk model hilir. Meskipun ini adalah algoritma yang diawasi, ada banyak skenario di mana label hubungan dapat diperoleh murni dari pengelompokan alami dalam data. Meskipun memerlukan data berlabel untuk pelatihan, ini dapat terjadi tanpa anotasi manusia yang eksplisit.
Gunakan algoritme peramalan SageMaker AI DeepAR—algoritma pembelajaran yang diawasi untuk meramalkan deret waktu skalar (satu dimensi) menggunakan jaringan saraf berulang (RNN).

Pembelajaran tanpa pengawasan

Amazon SageMaker AI menyediakan beberapa algoritma bawaan yang dapat digunakan untuk berbagai tugas pembelajaran tanpa pengawasan. Tugas-tugas ini mencakup hal-hal seperti pengelompokan, pengurangan dimensi, pengenalan pola, dan deteksi anomali.

Algoritma Analisis Komponen Utama (PCA)—mengurangi dimensi (jumlah fitur) dalam kumpulan data dengan memproyeksikan titik data ke beberapa komponen utama pertama. Tujuannya adalah untuk menyimpan informasi atau variasi sebanyak mungkin. Untuk matematikawan, komponen utama adalah vektor eigen dari matriks kovarians data.
K-Means Algoritma—menemukan pengelompokan diskrit dalam data. Ini terjadi di mana anggota kelompok semirip mungkin satu sama lain dan berbeda mungkin dari anggota kelompok lain.
Wawasan IP—mempelajari pola penggunaan untuk alamat IPv4. Ini dirancang untuk menangkap asosiasi antara alamat IPv4 dan berbagai entitas, seperti ID pengguna atau nomor akun.
Algoritma Random Cut Forest (RCF)—mendeteksi titik data anomali dalam kumpulan data yang menyimpang dari data yang terstruktur atau berpola dengan baik.

Analisis tekstual

SageMaker AI menyediakan algoritma yang disesuaikan dengan analisis dokumen tekstual. Ini termasuk teks yang digunakan dalam pemrosesan bahasa alami, klasifikasi atau ringkasan dokumen, pemodelan atau klasifikasi topik, dan transkripsi atau terjemahan bahasa.

BlazingText algoritma—implementasi yang sangat dioptimalkan dari Word2vec dan algoritma klasifikasi teks yang menskalakan ke kumpulan data besar dengan mudah. Ini berguna untuk banyak tugas pemrosesan bahasa alami hilir (NLP).
Sequence-to-Sequence Algoritma—algoritma yang diawasi yang biasa digunakan untuk terjemahan mesin saraf.
Algoritma Alokasi Dirichlet Laten (LDA)Sebuah algoritma yang cocok untuk menentukan topik dalam satu set dokumen. Ini adalah algoritma tanpa pengawasan, yang berarti tidak menggunakan data contoh dengan jawaban selama pelatihan.
Algoritma Model Topik Saraf (NTM)—teknik lain yang tidak diawasi untuk menentukan topik dalam satu set dokumen, menggunakan pendekatan jaringan saraf.
Klasifikasi Teks - TensorFlow—algoritma yang diawasi yang mendukung pembelajaran transfer dengan model terlatih yang tersedia untuk klasifikasi teks.

Pemrosesan gambar

SageMaker AI juga menyediakan algoritma pemrosesan gambar yang digunakan untuk klasifikasi gambar, deteksi objek, dan visi komputer.

Klasifikasi Gambar - MXNetMenggunakan contoh data dengan jawaban (disebut sebagai algoritma yang diawasi). Gunakan algoritma ini untuk mengklasifikasikan gambar.
Klasifikasi Gambar - TensorFlow—menggunakan model TensorFlow Hub terlatih untuk menyempurnakan tugas-tugas tertentu (disebut sebagai algoritma yang diawasi). Gunakan algoritma ini untuk mengklasifikasikan gambar.
Algoritma Segmentasi Semantik—menyediakan pendekatan tingkat piksel berbutir halus untuk mengembangkan aplikasi visi komputer.
Deteksi Objek - MxNet—mendeteksi dan mengklasifikasikan objek dalam gambar menggunakan satu jaringan saraf dalam. Ini adalah algoritma pembelajaran yang diawasi yang mengambil gambar sebagai input dan mengidentifikasi semua contoh objek dalam adegan gambar.
Deteksi Objek - TensorFlow—mendeteksi kotak pembatas dan label objek dalam gambar. Ini adalah algoritma pembelajaran yang diawasi yang mendukung pembelajaran transfer dengan model terlatih TensorFlow yang tersedia.

Topik

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Jenis Algoritma

Informasi Umum