Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Cara kerja model khusus
Gunakan Amazon SageMaker Canvas untuk membuat model kustom pada kumpulan data yang telah Anda impor. Gunakan model yang telah Anda buat untuk membuat prediksi pada data baru. SageMaker Canvas menggunakan informasi dalam kumpulan data untuk membangun hingga 250 model dan memilih salah satu yang berkinerja terbaik.
Saat Anda mulai membuat model, Canvas secara otomatis merekomendasikan satu atau lebih jenis model. Jenis model termasuk dalam salah satu kategori berikut:
-
Prediksi numerik — Ini dikenal sebagai regresi dalam pembelajaran mesin. Gunakan tipe model prediksi numerik saat Anda ingin membuat prediksi untuk data numerik. Misalnya, Anda mungkin ingin memprediksi harga rumah berdasarkan fitur seperti luas persegi rumah.
-
Prediksi kategoris — Ini dikenal sebagai klasifikasi dalam pembelajaran mesin. Saat Anda ingin mengkategorikan data ke dalam grup, gunakan jenis model prediksi kategoris:
-
Prediksi kategori 2 — Gunakan tipe model prediksi kategori 2 (juga dikenal sebagai klasifikasi biner dalam pembelajaran mesin) ketika Anda memiliki dua kategori yang ingin Anda prediksi untuk data Anda. Misalnya, Anda mungkin ingin menentukan apakah pelanggan cenderung melakukan churn.
-
Prediksi kategori 3+ — Gunakan tipe model prediksi kategori 3+ (juga dikenal sebagai klasifikasi multi-kelas dalam pembelajaran mesin) ketika Anda memiliki tiga atau lebih kategori yang ingin Anda prediksi untuk data Anda. Misalnya, Anda mungkin ingin memprediksi status pinjaman pelanggan berdasarkan fitur seperti pembayaran sebelumnya.
-
-
Peramalan deret waktu — Gunakan perkiraan deret waktu saat Anda ingin membuat prediksi selama periode waktu tertentu. Misalnya, Anda mungkin ingin memprediksi jumlah barang yang akan Anda jual pada kuartal berikutnya. Untuk informasi tentang perkiraan deret waktu, lihat Prakiraan Deret Waktu di Amazon SageMaker Canvas.
-
Prediksi gambar - Gunakan jenis model prediksi gambar label tunggal (juga dikenal sebagai klasifikasi gambar label tunggal dalam pembelajaran mesin) saat Anda ingin menetapkan label ke gambar. Misalnya, Anda mungkin ingin mengklasifikasikan berbagai jenis cacat produksi dalam gambar produk Anda.
-
Prediksi teks — Gunakan jenis model prediksi teks multi-kategori (juga dikenal sebagai klasifikasi teks multi-kelas dalam pembelajaran mesin) saat Anda ingin menetapkan label ke bagian teks. Misalnya, Anda mungkin memiliki kumpulan data ulasan pelanggan untuk suatu produk, dan Anda ingin menentukan apakah pelanggan menyukai atau tidak menyukai produk tersebut. Anda mungkin meminta model Anda memprediksi apakah bagian teks tertentu adalah
Positive
,Negative
, atauNeutral
.
Untuk tabel tipe data input yang didukung untuk setiap jenis model, lihatModel kustom.
Untuk setiap model data tabular yang Anda buat (yang mencakup model prediksi numerik, kategoris, deret waktu, dan prediksi teks), Anda memilih kolom Target. Kolom Target adalah kolom yang berisi informasi yang ingin Anda prediksi. Misalnya, jika Anda membuat model untuk memprediksi apakah orang telah membatalkan langganan mereka, kolom Target berisi titik data yang merupakan status pembatalan seseorang yes
atau no
tentang status pembatalan seseorang.
Untuk model prediksi gambar, Anda membuat model dengan kumpulan data gambar yang telah diberi label. Untuk gambar tak berlabel yang Anda berikan, model memprediksi label. Misalnya, jika Anda membuat model untuk memprediksi apakah gambar itu kucing atau kucing, Anda memberikan gambar berlabel kucing atau kucing saat membuat model. Kemudian, model dapat menerima gambar yang tidak berlabel dan memprediksinya sebagai kucing atau kucing.
Apa yang terjadi ketika Anda membangun model
Untuk membangun model Anda, Anda dapat memilih Quick build atau Standard build. Quick build memiliki waktu pembuatan yang lebih singkat, tetapi build Standar umumnya memiliki akurasi yang lebih tinggi.
Untuk model peramalan tabular dan deret waktu, Canvas menggunakan downsampling untuk mengurangi ukuran kumpulan data yang masing-masing lebih besar dari 5 GB atau 30 GB. Canvas downsamples dengan metode stratified sampling. Tabel di bawah ini mencantumkan ukuran downsample menurut jenis model. Untuk mengontrol proses pengambilan sampel, Anda dapat menggunakan Data Wrangler di Canvas untuk mengambil sampel menggunakan teknik pengambilan sampel pilihan Anda. Untuk data deret waktu, Anda dapat mengambil sampel ulang ke titik data agregat. Untuk informasi lebih lanjut tentang pengambilan sampel, lihatPengambilan sampel. Untuk informasi selengkapnya tentang pengambilan sampel ulang data deret waktu, lihat. Sampel Ulang Data Seri Waktu
Jika Anda memilih untuk membuat Quick build pada kumpulan data dengan lebih dari 50.000 baris, Canvas mengambil sampel data Anda hingga 50.000 baris untuk waktu pelatihan model yang lebih singkat.
Tabel berikut merangkum karakteristik utama dari proses pembuatan model, termasuk waktu pembuatan rata-rata untuk setiap model dan tipe build, ukuran downsample saat membuat model dengan kumpulan data besar, dan jumlah titik data minimum dan maksimum yang harus Anda miliki untuk setiap tipe build.
Kuota | Prediksi numerik dan kategoris | Peramalan deret waktu | Prediksi gambar | Prediksi teks |
---|---|---|---|---|
Waktu pembuatan cepat |
2-20 menit |
2-20 menit |
15-30 menit |
15-30 menit |
Waktu pembuatan standar |
2‐4 jam |
2‐4 jam |
2‐5 jam |
2‐5 jam |
Ukuran downsample (ukuran yang diperkecil dari kumpulan data besar setelah sampel bawah Canvas) |
5 GB |
30 GB |
N/A |
N/A |
Jumlah minimum entri (baris) untuk build Cepat |
2 kategori: 500 baris 3+ kategori, numerik, deret waktu: N/A |
N/A |
N/A |
N/A |
Jumlah minimum entri (baris, gambar, atau dokumen) untuk build Standar |
250 |
50 |
50 |
N/A |
Jumlah maksimum entri (baris, gambar, atau dokumen) untuk build Cepat |
N/A |
N/A |
5000 |
7500 |
Jumlah maksimum entri (baris, gambar, atau dokumen) untuk build Standar |
N/A |
150.000 |
180.000 |
N/A |
Jumlah kolom maksimum |
1.000 |
1.000 |
N/A |
N/A |
Canvas memprediksi nilai dengan menggunakan informasi di sisa kumpulan data, tergantung pada jenis model:
-
Untuk prediksi kategoris, Canvas menempatkan setiap baris ke dalam salah satu kategori yang tercantum di kolom Target.
-
Untuk prediksi numerik, Canvas menggunakan informasi dalam kumpulan data untuk memprediksi nilai numerik di kolom Target.
-
Untuk peramalan deret waktu, Canvas menggunakan data historis untuk memprediksi nilai kolom Target di masa depan.
-
Untuk prediksi gambar, Canvas menggunakan gambar yang telah diberi label untuk memprediksi label untuk gambar yang tidak berlabel.
-
Untuk prediksi teks, Canvas menganalisis data teks yang telah diberi label untuk memprediksi label untuk bagian teks yang tidak berlabel.
Fitur tambahan untuk membantu Anda membangun model
Sebelum membuat model Anda, Anda dapat menggunakan Data Wrangler di Canvas untuk menyiapkan data Anda menggunakan 300+ transformasi dan operator bawaan. Data Wrangler mendukung transformasi untuk kumpulan data tabel dan gambar. Selain itu, Anda dapat terhubung ke sumber data di luar Canvas, membuat pekerjaan untuk menerapkan transformasi ke seluruh kumpulan data Anda, dan mengekspor data yang telah disiapkan dan dibersihkan sepenuhnya untuk digunakan dalam alur kerja ML di luar Canvas. Untuk informasi selengkapnya, lihat Persiapan data.
Untuk melihat visualisasi dan analitik untuk menjelajahi data Anda dan menentukan fitur mana yang akan disertakan dalam model Anda, Anda dapat menggunakan analisis bawaan Data Wrangler. Anda juga dapat mengakses Laporan Kualitas Data dan Wawasan yang menyoroti potensi masalah dengan kumpulan data Anda dan memberikan rekomendasi tentang cara memperbaikinya. Untuk informasi selengkapnya, lihat Lakukan analisis data eksplorasi (EDA).
Selain fungsionalitas persiapan dan eksplorasi data yang lebih canggih yang disediakan melalui Data Wrangler, Canvas menyediakan beberapa fitur dasar yang dapat Anda gunakan:
Untuk memfilter data Anda dan mengakses serangkaian transformasi data dasar, lihatSiapkan data untuk pembuatan model.
Untuk mengakses visualisasi dan analitik sederhana untuk eksplorasi fitur, lihat. Eksplorasi dan analisis data
Untuk mempelajari lebih lanjut tentang fitur tambahan seperti melihat pratinjau model, memvalidasi kumpulan data, dan mengubah ukuran sampel acak yang digunakan untuk membuat model, lihat. Pratinjau model Anda
Untuk kumpulan data tabular dengan beberapa kolom (seperti kumpulan data untuk membangun tipe model peramalan kategoris, numerik, atau deret waktu), Anda mungkin memiliki baris dengan titik data yang hilang. Sementara Canvas membangun model, secara otomatis menambahkan nilai yang hilang. Canvas menggunakan nilai dalam kumpulan data Anda untuk melakukan pendekatan matematis untuk nilai yang hilang. Untuk akurasi model tertinggi, kami sarankan menambahkan data yang hilang jika Anda dapat menemukannya. Perhatikan bahwa fitur data yang hilang tidak didukung untuk prediksi teks atau model prediksi gambar.
Memulai
Untuk memulai membangun model kustom, lihat Membangun model dan ikuti prosedur untuk jenis model yang ingin Anda bangun.