Konsep Kunci Amazon Machine Learning

Mode fokus

Konsep Kunci Amazon Machine Learning - Amazon Machine Learning

Sumber Data Model ML Evaluasi Prediksi Batch Prediksi Waktu Nyata

Kami tidak lagi memperbarui layanan Amazon Machine Learning atau menerima pengguna baru untuk itu. Dokumentasi ini tersedia untuk pengguna yang sudah ada, tetapi kami tidak lagi memperbaruinya. Untuk informasi selengkapnya, lihat Apa itu Amazon Machine Learning.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Bagian ini merangkum konsep-konsep kunci berikut dan menjelaskan secara lebih rinci bagaimana mereka digunakan dalam Amazon ML:

Sumber Databerisi metadata yang terkait dengan input data ke Amazon
Model MLmenghasilkan prediksi menggunakan pola yang diekstraksi dari data input
Evaluasimengukur kualitas model ML
Prediksi Batchmenghasilkan prediksi secara asinkron untuk beberapa pengamatan data input
Prediksi Waktu Nyatasecara sinkron menghasilkan prediksi untuk pengamatan data individu

Sumber Data

Sumber data adalah objek yang berisi metadata tentang data masukan Anda. Amazon ML membaca data input Anda, menghitung statistik deskriptif pada atributnya, dan menyimpan statistik—bersama dengan skema dan informasi lainnya—sebagai bagian dari objek sumber data. Selanjutnya, Amazon ML menggunakan sumber data untuk melatih dan mengevaluasi model ML dan menghasilkan prediksi batch.

penting

Sumber data tidak menyimpan salinan data masukan Anda. Sebagai gantinya, ia menyimpan referensi ke lokasi Amazon S3 tempat data input Anda berada. Jika Anda memindahkan atau mengubah file Amazon S3, Amazon ML tidak dapat mengakses atau menggunakannya untuk membuat model ML, menghasilkan evaluasi, atau menghasilkan prediksi.

Tabel berikut mendefinisikan istilah yang terkait dengan sumber data.

Jangka Waktu	Definisi
Atribut	Properti unik bernama dalam pengamatan. Dalam data berformat tabel seperti spreadsheet atau file nilai dipisahkan koma (CSV), judul kolom mewakili atribut, dan baris berisi nilai untuk setiap atribut. Sinonim: variabel, nama variabel, bidang, kolom
Nama Datasource	(Opsional) Memungkinkan Anda menentukan nama yang dapat dibaca manusia untuk sumber data. Nama-nama ini memungkinkan Anda menemukan dan mengelola sumber data Anda di konsol Amazon Amazon.
Masukan Data	Nama kolektif untuk semua pengamatan yang disebut oleh sumber data.
Lokasi	Lokasi data input. Saat ini, Amazon ML dapat menggunakan data yang disimpan dalam bucket Amazon S3, database Amazon Redshift, atau database MySQL di Amazon Relational Database Service (RDS).
Observasi	Unit data input tunggal. Misalnya, jika Anda membuat model ML untuk mendeteksi transaksi penipuan, data input Anda akan terdiri dari banyak pengamatan, masing-masing mewakili transaksi individual. Sinonim: rekam, contoh, contoh, baris
ID Baris	(Opsional) Bendera yang, jika ditentukan, mengidentifikasi atribut dalam data input untuk dimasukkan dalam output prediksi. Atribut ini memudahkan untuk mengaitkan prediksi mana yang sesuai dengan pengamatan mana. Sinonim: pengidentifikasi baris
Skema	Informasi yang diperlukan untuk menafsirkan data input, termasuk nama atribut dan tipe data yang ditetapkan, dan nama atribut khusus.
Statistik	Ringkasan statistik untuk setiap atribut dalam data input. Statistik ini melayani dua tujuan: Konsol Amazon ML menampilkannya dalam grafik untuk membantu Anda memahami data at-a-glance dan mengidentifikasi penyimpangan atau kesalahan. Amazon ML menggunakannya selama proses pelatihan untuk meningkatkan kualitas model ML yang dihasilkan.
Status	Menunjukkan status sumber data saat ini, seperti Sedang Berlangsung, Selesai, atau Gagal.
Atribut Target	Dalam konteks pelatihan model ML, atribut target mengidentifikasi nama atribut dalam data input yang berisi jawaban “benar”. Amazon ML menggunakan ini untuk menemukan pola dalam data input dan menghasilkan model ML. Dalam konteks mengevaluasi dan menghasilkan prediksi, atribut target adalah atribut yang nilainya akan diprediksi oleh model ML terlatih. Sinonim: target

Model ML

Model ML adalah model matematika yang menghasilkan prediksi dengan menemukan pola dalam data Anda. Amazon ML mendukung tiga jenis model ML: klasifikasi biner, klasifikasi multiclass dan regresi.

Tabel berikut mendefinisikan istilah yang terkait dengan model ML.

Jangka Waktu	Definisi
Regresi	Tujuan pelatihan model regresi ML adalah untuk memprediksi nilai numerik.
Multiclass	Tujuan pelatihan model MLmulticlass adalah untuk memprediksi nilai-nilai yang termasuk dalam serangkaian nilai yang diizinkan yang terbatas dan telah ditentukan sebelumnya.
Biner	Tujuan pelatihan model ML biner adalah untuk memprediksi nilai yang hanya dapat memiliki satu dari dua keadaan, seperti benar atau salah.
Ukuran Model	Model ML menangkap dan menyimpan pola. Semakin banyak pola yang disimpan model ML, semakin besar jadinya. Ukuran model ML dijelaskan dalam Mbytes.
Jumlah Pass	Saat Anda melatih model ML, Anda menggunakan data dari sumber data. Terkadang bermanfaat untuk menggunakan setiap catatan data dalam proses pembelajaran lebih dari sekali. Berapa kali Anda membiarkan Amazon ML menggunakan catatan data yang sama disebut jumlah lintasan.
Regularisasi	Regularisasi adalah teknik pembelajaran mesin yang dapat Anda gunakan untuk mendapatkan model berkualitas lebih tinggi. Amazon ML menawarkan pengaturan default yang berfungsi dengan baik untuk sebagian besar kasus.

Evaluasi

Evaluasi mengukur kualitas model ML Anda dan menentukan apakah kinerjanya baik.

Tabel berikut mendefinisikan istilah yang terkait dengan evaluasi.

Jangka Waktu	Definisi
Wawasan Model	Amazon ML memberi Anda metrik dan sejumlah wawasan yang dapat Anda gunakan untuk mengevaluasi kinerja prediktif model Anda.
AUC	Area Di Bawah Kurva ROC (AUC) mengukur kemampuan model ML biner untuk memprediksi skor yang lebih tinggi untuk contoh positif dibandingkan dengan contoh negatif.
Skor F1 rata-rata makro	Skor F1 rata-rata makro digunakan untuk mengevaluasi kinerja prediktif model Multiclass Multiclass.
RMSE	Root Mean Square Error (RMSE) adalah metrik yang digunakan untuk mengevaluasi kinerja prediktif model regresi ML.
Cut-off	Model ML bekerja dengan menghasilkan skor prediksi numerik. Dengan menerapkan nilai cut-off, sistem mengubah skor ini menjadi 0 dan 1 label.
Akurasi	Akurasi mengukur persentase prediksi yang benar.
presisi	Presisi menunjukkan persentase contoh positif aktual (sebagai lawan dari positif palsu) di antara contoh-contoh yang telah diambil (yang diprediksi positif). Dengan kata lain, berapa banyak item yang dipilih yang positif?
Ingat	Ingat menunjukkan persentase positif aktual di antara jumlah total contoh yang relevan (positif aktual). Dengan kata lain, berapa banyak item positif yang dipilih?

Prediksi Batch

Prediksi Batch adalah untuk serangkaian pengamatan yang dapat dijalankan sekaligus. Ini sangat ideal untuk analisis prediktif yang tidak memiliki persyaratan waktu nyata.

Tabel berikut mendefinisikan istilah yang terkait dengan prediksi batch.

Jangka Waktu	Definisi
Lokasi Keluaran	Hasil prediksi batch disimpan di lokasi keluaran bucket S3.
Berkas Manifes	File ini menghubungkan setiap file data input dengan hasil prediksi batch terkait. Itu disimpan di lokasi output bucket S3.

Prediksi Waktu Nyata

Prediksi real-time adalah untuk aplikasi dengan persyaratan latensi rendah, seperti web interaktif, seluler, atau aplikasi desktop. Model ML apa pun dapat ditanyakan untuk prediksi dengan menggunakan API prediksi real-time latensi rendah.

Tabel berikut mendefinisikan istilah yang terkait dengan prediksi real-time.

Jangka Waktu	Definisi
API Prediksi Waktu Nyata	Real-time Prediction API menerima observasi input tunggal dalam payload permintaan dan mengembalikan prediksi dalam respons.
Titik Akhir Prediksi Waktu Nyata	Untuk menggunakan model ML dengan API prediksi real-time, Anda perlu membuat titik akhir prediksi real-time. Setelah dibuat, titik akhir berisi URL yang dapat Anda gunakan untuk meminta prediksi waktu nyata.