Konsep Kunci Amazon Machine Learning - Amazon Machine Learning

Kami tidak lagi memperbarui layanan Amazon Machine Learning atau menerima pengguna baru untuk itu. Dokumentasi ini tersedia untuk pengguna yang sudah ada, tetapi kami tidak lagi memperbaruinya. Untuk informasi selengkapnya, lihat Apa itu Amazon Machine Learning.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Konsep Kunci Amazon Machine Learning

Bagian ini merangkum konsep-konsep kunci berikut dan menjelaskan secara lebih rinci bagaimana mereka digunakan dalam Amazon ML-nya:

  • Sumber datamengandung metadata yang terkait dengan input data ke Amazon ML-nya

  • Model MLmenghasilkan prediksi menggunakan pola yang diekstrak dari data input

  • evaluasimengukur kualitas model ML-nya

  • Prediksi Batch asinkronmenghasilkan prediksi untuk beberapa pengamatan data masukan

  • Prediksi waktu nyata serentakmenghasilkan prediksi untuk pengamatan data individual

Sumber data

Sumber data adalah objek yang berisi metadata tentang data input Anda. Amazon IL membaca data input Anda, menghitung statistik deskriptif pada atributnya, dan menyimpan statistik—bersama dengan skema dan informasi lainnya—sebagai bagian dari objek sumber data. Selanjutnya, Amazon MLnya menggunakan sumber data untuk melatih dan mengevaluasi model ML. dan menghasilkan prediksi batch.

penting

Sebuah datasource tidak menyimpan salinan data masukan Anda. Sebagai gantinya, referensi ke lokasi Amazon S3 tempat data input Anda berada. Jika Anda memindahkan atau mengubah file Amazon S3, Amazon IL tidak dapat mengakses atau menggunakannya untuk membuat model ML-nya, menghasilkan evaluasi, atau menghasilkan prediksi.

Tabel berikut mendefinisikan istilah yang terkait dengan sumber data.

Jangka waktu Definisi
Atribut

Properti unik dan dinamakan dalam pengamatan. Dalam data tabular seperti spreadsheet atau file dengan nilai yang dipisahkan koma (CSV), judul kolom mewakili atribut, dan barisnya berisi nilai-nilai untuk setiap atribut.

Sinonim: variabel, nama variabel, bidang, kolom

Nama sumber data (Opsional) Memungkinkan Anda untuk menentukan nama yang dapat dibaca manusia untuk sumber data. Nama-nama ini memungkinkan Anda menemukan dan mengelola sumber data Anda di konsol Amazon ML-nya.
Data input Nama kolektif untuk semua pengamatan yang disebut oleh sumber data.
Lokasi Lokasi data input. Saat ini, Amazon IL dapat menggunakan data yang disimpan dalam bucket Amazon S3, database Amazon Redshift, atau database MySQL di Amazon Relational Database Service (RDS).
observasi

Sebuah unit data input tunggal. Misalnya, jika Anda membuat model ML untuk mendeteksi transaksi penipuan, data input Anda akan terdiri dari banyak pengamatan, masing-masing mewakili transaksi individual.

Sinonim: catatan, contoh, contoh, baris

ID baris

(Opsional) Sebuah bendera yang, jika ditentukan, mengidentifikasi atribut dalam data input untuk dimasukkan dalam output prediksi. Atribut ini membuatnya lebih mudah untuk mengasosiasikan prediksi mana yang sesuai dengan pengamatan mana.

Sinonim: pengidentifikasi baris

Skema Informasi yang diperlukan untuk menafsirkan data input, termasuk nama atribut dan jenis data yang ditugaskannya, dan nama-nama atribut khusus.
Statistik

Ringkasan statistik untuk setiap atribut dalam data input. Statistik ini melayani dua tujuan:

Konsol Amazon XML menampilkannya dalam grafik untuk membantu Anda memahami data Anda secara sekilas dan mengidentifikasi penyimpangan atau kesalahan.

Amazon ML-nya menggunakannya selama proses pelatihan untuk meningkatkan kualitas model ML-nya.

Status Menunjukkan status sumber data saat ini, sepertiDalam Progres,Completed (Lengkap), atauGagal.
Atribut target

Dalam konteks pelatihan model L, atribut target mengidentifikasi nama atribut dalam data input yang berisi jawaban “benar”. Amazon IL menggunakan ini untuk menemukan pola dalam data input dan menghasilkan model ML-nya. Dalam konteks mengevaluasi dan menghasilkan prediksi, atribut target adalah atribut yang nilainya akan diprediksi oleh model ML-terlatih.

Sinonim: target

Model ML

Model MLadalah model matematika yang menghasilkan prediksi dengan menemukan pola dalam data Anda. Amazon ML-model: klasifikasi biner, klasifikasi multikelas, klasifikasi multikelas, dan regresi.

Tabel berikut mendefinisikan istilah yang terkait dengan model ML.

Jangka waktu Definisi
Regresi Tujuan dari pelatihan model ML-regresi adalah untuk memprediksi nilai numerik.
Multiclass Tujuan pelatihan model multikelas adalah untuk memprediksi nilai-nilai yang termasuk dalam rangkaian nilai yang diizinkan yang terbatas dan telah ditentukan.
Biner Tujuan pelatihan model biner ML adalah untuk memprediksi nilai-nilai yang hanya dapat memiliki satu dari dua negara, seperti true atau false.
Ukuran model Model ML-menangkap dan menyimpan pola. Semakin banyak pola model ML-toko, semakin besar akan. Ukuran model L dijelaskan dalam Mbytes.
Jumlah Pass Saat Anda melatih model ML-nya, Anda menggunakan data dari sumber data. Kadang-kadang bermanfaat untuk menggunakan setiap catatan data dalam proses pembelajaran lebih dari satu kali. Jumlah berapa kali Anda membiarkan Amazon menggunakan catatan data yang sama disebut jumlah pass.
Regularisasi Regularisasi adalah teknik machine learning yang dapat Anda gunakan untuk mendapatkan model berkualitas tinggi. Amazon ML-menawarkan pengaturan default yang berfungsi dengan baik untuk sebagian besar kasus.

evaluasi

Evaluasi mengukur kualitas model ML Anda dan menentukan apakah itu berkinerja baik.

Tabel berikut mendefinisikan istilah yang terkait dengan evaluasi.

Jangka waktu Definisi
Wawasan Model Amazon IL memberi Anda metrik dan sejumlah wawasan yang dapat Anda gunakan untuk mengevaluasi kinerja prediktif model Anda.
AUC Area Under the ROC Curve (AUC) mengukur kemampuan model biner untuk memprediksi skor yang lebih tinggi untuk contoh-contoh positif dibandingkan dengan contoh-contoh negatif.
Makro-rata-rata F1 skor Skor F1-rata-rata makro digunakan untuk mengevaluasi kinerja prediktif model ML multiclass.
RMSE Root Mean Square Error (RMSE) adalah metrik yang digunakan untuk mengevaluasi kinerja prediktif model regresi ML-nya.
Memotong Model L bekerja dengan menghasilkan skor prediksi numerik. Dengan menerapkan nilai cut-off, sistem mengubah skor ini menjadi 0 dan 1 label.
Akurasi Akurasi mengukur persentase prediksi yang benar.
Presisi Presisi menunjukkan persentase contoh positif aktual (sebagai lawan positif palsu) di antara contoh-contoh yang telah diambil (yang diperkirakan positif). Dengan kata lain, berapa banyak item yang dipilih yang positif?
Recall Ingat menunjukkan persentase positif aktual di antara jumlah total kasus yang relevan (aktual positif). Dengan kata lain, berapa banyak item positif yang dipilih?

Prediksi Batch

Prediksi Batch adalah untuk satu set pengamatan yang dapat dijalankan sekaligus. Ini sangat ideal untuk analisis prediktif yang tidak memiliki persyaratan real-time.

Tabel berikut mendefinisikan istilah yang terkait dengan prediksi batch.

Jangka waktu Definisi
Lokasi output Hasil prediksi batch disimpan di lokasi output bucket S3.
File Manifes File ini terkait setiap file input dengan hasil prediksi batch yang terkait. Ini disimpan di lokasi keluaran bucket S3.

Prediksi waktu nyata

Prediksi real-time adalah untuk aplikasi dengan persyaratan latensi rendah, seperti aplikasi web interaktif, seluler, atau desktop. Setiap model ML-nya dapat dipertanyakan untuk prediksi dengan menggunakan API prediksi real-time latensi rendah.

Tabel berikut mendefinisikan istilah yang terkait dengan prediksi real-time.

Jangka waktu Definisi
API prediksi waktu nyata Real-time Prediction API menerima observasi masukan tunggal dalam payload permintaan dan mengembalikan prediksi dalam respon.
Titik akhir prediksi Untuk menggunakan model L dengan API prediksi real-time, Anda perlu membuat titik akhir prediksi real-time. Setelah dibuat, endpoint berisi URL yang dapat Anda gunakan untuk meminta prediksi real-time.