Algoritma bawaan dan model yang telah dilatih sebelumnya di Amazon SageMaker - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Algoritma bawaan dan model yang telah dilatih sebelumnya di Amazon SageMaker

Amazon SageMaker menyediakan rangkaian algoritme bawaan, model pra-terlatih, dan templat solusi pra-bangun untuk membantu ilmuwan data dan praktisi pembelajaran mesin memulai pelatihan dan penerapan model pembelajaran mesin dengan cepat. Bagi seseorang yang baru mengenal SageMaker, memilih algoritma yang tepat untuk kasus penggunaan khusus Anda bisa menjadi tugas yang menantang. Tabel berikut menyediakan lembar contekan cepat yang menunjukkan bagaimana Anda dapat memulai dengan contoh masalah atau kasus penggunaan dan menemukan algoritma bawaan yang sesuai yang ditawarkan oleh SageMaker yang valid untuk jenis masalah tersebut. Panduan tambahan yang diselenggarakan oleh paradigma pembelajaran (diawasi dan tidak diawasi) dan domain data penting (teks dan gambar) disediakan di bagian berikut tabel.

Tabel: Memetakan kasus penggunaan ke algoritme bawaan

Contoh masalah dan kasus penggunaan Paradigma atau domain pembelajaran Jenis masalah Format masukan data Algoritma bawaan

Berikut beberapa contoh dari 15 jenis masalah yang dapat diatasi oleh model pra-terlatih dan templat solusi pra-bangun yang disediakan oleh: SageMaker JumpStart

Penjawab pertanyaan: chatbot yang menghasilkan jawaban untuk pertanyaan yang diberikan.

Analisis teks: menganalisis teks dari model khusus untuk domain industri seperti keuangan.

Model pra-terlatih dan templat solusi pra-bangun

Klasifikasi Gambar

Klasifikasi Tabular

Regresi Tabular

Klasifikasi Teks

Deteksi Objek

Penyematan Teks

Menjawab Pertanyaan

Klasifikasi Pasangan Kalimat

Penyematan Gambar

Pengakuan Entitas Bernama

Segmentasi Instance

Generasi Teks

Ringkasan Teks

Segmentasi Semantik

Terjemahan Mesin

Gambar, Teks, Tabular

Model populer, termasuk Mobilenet,YOLO, Faster R-CNN,, light BERTGBM, dan CatBoost

Untuk daftar model pra-terlatih yang tersedia, lihat JumpStart Model.

Untuk daftar templat solusi bawaan yang tersedia, lihat JumpStart Solusi.

Memprediksi jika item termasuk dalam kategori: filter spam email

Pembelajaran yang diawasi

Klasifikasi biner/multi-kelas

Tabular

AutoGluon-Tabular, CatBoost, Algoritma Mesin Faktorisasi, Algoritma K-Nearest Neighbors (k-NN), Cahaya GBM, Algoritma Pembelajar Linear, TabTransformer, XGBoostalgoritma dengan Amazon SageMaker

Memprediksi nilai numerik/kontinu: perkirakan nilai rumah

Regresi

Tabular

AutoGluon-Tabular, CatBoost, Algoritma Mesin Faktorisasi, Algoritma K-Nearest Neighbors (k-NN), Cahaya GBM, Algoritma Pembelajar Linear, TabTransformer, XGBoostalgoritma dengan Amazon SageMaker

Berdasarkan data historis untuk suatu perilaku, prediksi perilaku masa depan: memprediksi penjualan pada produk baru berdasarkan data penjualan sebelumnya.

Peramalan deret waktu

Tabular

Gunakan algoritma SageMaker peramalan DeepAR

Tingkatkan penyematan data objek dimensi tinggi: identifikasi tiket dukungan duplikat atau temukan perutean yang benar berdasarkan kesamaan teks dalam tiket

Embeddings: mengubah objek berdimensi tinggi menjadi ruang dimensi rendah. Tabular Algoritma Object2Vec

Jatuhkan kolom tersebut dari kumpulan data yang memiliki hubungan lemah dengan variabel label/target: warna mobil saat memprediksi jarak tempuhnya.

Pembelajaran tanpa pengawasan

Rekayasa fitur: pengurangan dimensi

Tabular

Analisis Komponen Utama (PCA) Algoritma

Mendeteksi perilaku abnormal dalam aplikasi: temukan saat sensor IoT mengirimkan pembacaan abnormal

Deteksi anomali

Tabular

Algoritma Random Cut Forest (RCF)

Lindungi aplikasi Anda dari pengguna yang mencurigakan: deteksi jika alamat IP yang mengakses layanan mungkin berasal dari aktor yang buruk

Deteksi anomali IP

Tabular

Wawasan IP

Kelompokkan objek/data serupa bersama-sama: temukan pelanggan dengan pengeluaran tinggi, menengah, dan rendah dari riwayat transaksi mereka

Pengelompokan atau pengelompokan

Tabular

Algoritma K-Means

Atur satu set dokumen ke dalam topik (tidak diketahui sebelumnya): tandai dokumen sebagai milik kategori medis berdasarkan istilah yang digunakan dalam dokumen.

Pemodelan topik

Teks

Algoritma Alokasi Dirichlet Laten (LDA), Model Topik Saraf (NTM) Algoritma

Tetapkan kategori yang telah ditentukan sebelumnya ke dokumen dalam korpus: kategorikan buku di perpustakaan ke dalam disiplin akademis

Analisis tekstual

Klasifikasi teks

Teks

BlazingText algoritma, Klasifikasi Teks - TensorFlow

Konversi teks dari satu bahasa ke bahasa lain: Spanyol ke Inggris

Terjemahan mesin

algoritma
Teks

Sequence-to-Sequence Algoritma

Meringkas korpus teks panjang: abstrak untuk paper penelitian

Ringkasan teks

Teks

Sequence-to-Sequence Algoritma

Konversi file audio menjadi teks: transkripsikan percakapan pusat panggilan untuk analisis lebih lanjut

S peech-to-text

Teks

Sequence-to-Sequence Algoritma

Label/tag gambar berdasarkan konten gambar: peringatan tentang konten dewasa dalam gambar

Pemrosesan gambar

Klasifikasi gambar dan multi-label

Citra

Klasifikasi Gambar - MXNet

Klasifikasi sesuatu dalam gambar menggunakan pembelajaran transfer.

Klasifikasi gambar Citra

Klasifikasi Gambar - TensorFlow

Mendeteksi orang dan objek dalam gambar: polisi meninjau galeri foto besar untuk orang hilang

Deteksi dan klasifikasi objek

Citra

Deteksi Objek - MXNet, Deteksi Objek - TensorFlow

Tandai setiap piksel gambar satu per satu dengan kategori: mobil self-driving bersiap untuk mengidentifikasi objek dengan cara mereka

Visi komputer

Citra

Algoritma Segmentasi Semantik

Untuk informasi penting tentang item berikut yang umum untuk semua algoritma bawaan yang disediakan oleh SageMaker, lihatParameter untuk Algoritma Bawaan.

  • Jalur registri Docker

  • format data

  • jenis EC2 instans Amazon yang direkomendasikan

  • CloudWatch log

Bagian berikut memberikan panduan tambahan untuk algoritme SageMaker bawaan Amazon yang dikelompokkan berdasarkan paradigma pembelajaran yang diawasi dan tidak diawasi. Untuk deskripsi paradigma pembelajaran ini dan jenis masalah terkaitnya, lihat. Jenis Algoritma Bagian juga disediakan untuk algoritme SageMaker bawaan yang tersedia untuk menangani dua domain pembelajaran mesin penting: analisis tekstual dan pemrosesan gambar.

Model dan templat solusi yang telah dilatih sebelumnya

SageMaker JumpStart menyediakan berbagai model pra-terlatih, templat solusi pra-bangun, dan contoh untuk jenis masalah populer. Ini menggunakan SageMaker SDK serta Studio Classic. Untuk informasi lebih lanjut tentang model ini, solusi, dan contoh notebook yang disediakan oleh SageMaker JumpStart, lihatSageMaker JumpStart model terlatih.

Pembelajaran yang diawasi

Amazon SageMaker menyediakan beberapa algoritma tujuan umum bawaan yang dapat digunakan untuk masalah klasifikasi atau regresi.

  • AutoGluon-Tabular—kerangka AutoML open-source yang berhasil dengan menyamai model dan menumpuknya dalam beberapa lapisan.

  • CatBoost—implementasi algoritma pohon yang ditingkatkan gradien yang memperkenalkan peningkatan berurutan dan algoritme inovatif untuk memproses fitur kategoris.

  • Algoritma Mesin Faktorisasi—perpanjangan dari model linier yang dirancang untuk menangkap interaksi secara ekonomis antara fitur dalam kumpulan data jarang berdimensi tinggi.

  • Algoritma K-Nearest Neighbors (k-NN)—metode non-parametrik yang menggunakan k titik berlabel terdekat untuk menetapkan nilai. Untuk klasifikasi, ini adalah label ke titik data baru. Untuk regresi, ini adalah nilai target yang diprediksi dari rata-rata k titik terdekat.

  • Cahaya GBM—implementasi algoritma pohon yang ditingkatkan gradien yang menambahkan dua teknik baru untuk meningkatkan efisiensi dan skalabilitas. Kedua teknik baru ini adalah Gradient berbasis One-Side Sampling (GOSS) dan Exclusive Feature Bundling (). EFB

  • Algoritma Pembelajar Linear—mempelajari fungsi linier untuk regresi atau fungsi ambang linier untuk klasifikasi.

  • TabTransformer—arsitektur pemodelan data tabular mendalam baru yang dibangun di atas self-attention-based Transformers.

  • XGBoostalgoritma dengan Amazon SageMaker—implementasi algoritma pohon yang ditingkatkan gradien yang menggabungkan ansambel perkiraan dari serangkaian model yang lebih sederhana dan lebih lemah.

Amazon SageMaker juga menyediakan beberapa algoritma pembelajaran terawasi bawaan yang digunakan untuk tugas yang lebih khusus selama rekayasa fitur dan peramalan dari data deret waktu.

  • Algoritma Object2Vec—algoritma multi-tujuan baru yang sangat dapat disesuaikan yang digunakan untuk rekayasa fitur. Ini dapat mempelajari penyematan padat dimensi rendah dari objek dimensi tinggi untuk menghasilkan fitur yang meningkatkan efisiensi pelatihan untuk model hilir. Meskipun ini adalah algoritma yang diawasi, ada banyak skenario di mana label hubungan dapat diperoleh murni dari pengelompokan alami dalam data. Meskipun memerlukan data berlabel untuk pelatihan, ini dapat terjadi tanpa anotasi manusia yang eksplisit.

  • Gunakan algoritma SageMaker peramalan DeepAR—algoritma pembelajaran yang diawasi untuk meramalkan deret waktu skalar (satu dimensi) menggunakan jaringan saraf berulang (). RNN

Pembelajaran tanpa pengawasan

Amazon SageMaker menyediakan beberapa algoritma bawaan yang dapat digunakan untuk berbagai tugas pembelajaran tanpa pengawasan. Tugas-tugas ini mencakup hal-hal seperti pengelompokan, pengurangan dimensi, pengenalan pola, dan deteksi anomali.

  • Analisis Komponen Utama (PCA) Algoritma—mengurangi dimensi (jumlah fitur) dalam kumpulan data dengan memproyeksikan titik data ke beberapa komponen utama pertama. Tujuannya adalah untuk menyimpan informasi atau variasi sebanyak mungkin. Untuk matematikawan, komponen utama adalah vektor eigen dari matriks kovarians data.

  • Algoritma K-Means—menemukan pengelompokan diskrit dalam data. Ini terjadi di mana anggota kelompok semirip mungkin satu sama lain dan berbeda mungkin dari anggota kelompok lain.

  • Wawasan IP—mempelajari pola penggunaan untuk IPv4 alamat. Ini dirancang untuk menangkap asosiasi antara IPv4 alamat dan berbagai entitas, seperti nomor pengguna IDs atau akun.

  • Algoritma Random Cut Forest (RCF)—mendeteksi titik data anomali dalam kumpulan data yang menyimpang dari data yang terstruktur atau berpola dengan baik.

Analisis tekstual

SageMaker menyediakan algoritma yang disesuaikan dengan analisis dokumen tekstual. Ini termasuk teks yang digunakan dalam pemrosesan bahasa alami, klasifikasi atau ringkasan dokumen, pemodelan atau klasifikasi topik, dan transkripsi atau terjemahan bahasa.

  • BlazingText algoritma—implementasi yang sangat dioptimalkan dari Word2vec dan algoritma klasifikasi teks yang menskalakan ke kumpulan data besar dengan mudah. Ini berguna untuk banyak tugas pemrosesan bahasa alami hilir (NLP).

  • Sequence-to-Sequence Algoritma—algoritma yang diawasi yang biasa digunakan untuk terjemahan mesin saraf.

  • Algoritma Alokasi Dirichlet Laten (LDA)Sebuah algoritma yang cocok untuk menentukan topik dalam satu set dokumen. Ini adalah algoritma tanpa pengawasan, yang berarti tidak menggunakan data contoh dengan jawaban selama pelatihan.

  • Model Topik Saraf (NTM) Algoritma—teknik lain yang tidak diawasi untuk menentukan topik dalam satu set dokumen, menggunakan pendekatan jaringan saraf.

  • Klasifikasi Teks - TensorFlow—algoritma yang diawasi yang mendukung pembelajaran transfer dengan model terlatih yang tersedia untuk klasifikasi teks.

Pemrosesan gambar

SageMaker juga menyediakan algoritma pemrosesan gambar yang digunakan untuk klasifikasi gambar, deteksi objek, dan visi komputer.

  • Klasifikasi Gambar - MXNetMenggunakan contoh data dengan jawaban (disebut sebagai algoritma yang diawasi). Gunakan algoritma ini untuk mengklasifikasikan gambar.

  • Klasifikasi Gambar - TensorFlow—menggunakan model TensorFlow Hub terlatih untuk menyempurnakan tugas-tugas tertentu (disebut sebagai algoritma yang diawasi). Gunakan algoritma ini untuk mengklasifikasikan gambar.

  • Algoritma Segmentasi Semantik—menyediakan pendekatan tingkat piksel berbutir halus untuk mengembangkan aplikasi visi komputer.

  • Deteksi Objek - MXNet—mendeteksi dan mengklasifikasikan objek dalam gambar menggunakan satu jaringan saraf dalam. Ini adalah algoritma pembelajaran yang diawasi yang mengambil gambar sebagai input dan mengidentifikasi semua contoh objek dalam adegan gambar.

  • Deteksi Objek - TensorFlow—mendeteksi kotak pembatas dan label objek dalam gambar. Ini adalah algoritma pembelajaran yang diawasi yang mendukung pembelajaran transfer dengan model terlatih TensorFlow yang tersedia.