Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Siapkan data untuk pembuatan model
catatan
Anda sekarang dapat melakukan persiapan data lanjutan di SageMaker Canvas dengan Data Wrangler, yang memberi Anda antarmuka bahasa alami dan lebih dari 300 transformasi bawaan. Untuk informasi selengkapnya, lihat Persiapan data.
Dataset pembelajaran mesin Anda mungkin memerlukan persiapan data sebelum Anda membuat model Anda. Anda mungkin ingin membersihkan data Anda karena berbagai masalah, yang mungkin termasuk nilai atau outlier yang hilang, dan melakukan rekayasa fitur untuk meningkatkan akurasi model Anda. Amazon SageMaker Canvas menyediakan transformasi data ML yang dapat digunakan untuk membersihkan, mengubah, dan menyiapkan data untuk pembuatan model. Anda dapat menggunakan transformasi ini pada kumpulan data Anda tanpa kode apa pun. SageMaker Canvas menambahkan transformasi yang Anda gunakan ke resep Model, yang merupakan catatan persiapan data yang dilakukan pada data Anda sebelum membuat model. Transformasi data apa pun yang Anda gunakan hanya memodifikasi data input untuk pembuatan model dan tidak memodifikasi sumber data asli Anda.
Pratinjau kumpulan data Anda menunjukkan 100 baris pertama dari kumpulan data. Jika kumpulan data Anda memiliki lebih dari 20.000 baris, Canvas mengambil sampel acak 20.000 baris dan mempratinjau 100 baris pertama dari sampel tersebut. Anda hanya dapat mencari dan menentukan nilai dari baris yang dipratinjau, dan fungsionalitas filter hanya menyaring baris yang dipratinjau dan bukan seluruh kumpulan data.
Transformasi berikut tersedia di SageMaker Canvas bagi Anda untuk mempersiapkan data Anda untuk membangun.
catatan
Anda hanya dapat menggunakan transformasi lanjutan untuk model yang dibangun di atas kumpulan data tabel. Model prediksi teks multi-kategori juga dikecualikan.
Jatuhkan kolom
Anda dapat mengecualikan kolom dari build model Anda dengan menjatuhkannya di tab Build aplikasi SageMaker Canvas. Hapus pilihan kolom yang ingin Anda jatuhkan, dan tidak disertakan saat membuat model.
catatan
Jika Anda menjatuhkan kolom dan kemudian membuat prediksi batch dengan model Anda, SageMaker Canvas menambahkan kolom yang dijatuhkan kembali ke kumpulan data ouput yang tersedia untuk Anda unduh. Namun, SageMaker Canvas tidak menambahkan kolom yang dijatuhkan kembali untuk model deret waktu.
Filter baris
Fungsionalitas filter menyaring baris yang dipratinjau (100 baris pertama dari kumpulan data Anda) sesuai dengan kondisi yang Anda tentukan. Baris pemfilteran membuat pratinjau sementara data dan tidak memengaruhi pembuatan model. Anda dapat memfilter untuk melihat pratinjau baris yang memiliki nilai yang hilang, berisi outlier, atau memenuhi kondisi khusus di kolom yang Anda pilih.
Filter baris dengan nilai yang hilang
Nilai yang hilang adalah kejadian umum dalam kumpulan data pembelajaran mesin. Jika Anda memiliki baris dengan nilai nol atau kosong di kolom tertentu, Anda mungkin ingin memfilter dan melihat pratinjau baris tersebut.
Untuk memfilter nilai yang hilang dari data pratinjau Anda, lakukan hal berikut.
-
Di tab Build aplikasi SageMaker Canvas, pilih Filter by rows ( ).
-
Pilih Kolom yang ingin Anda periksa untuk nilai yang hilang.
-
Untuk Operasi, pilih Tidak ada.
SageMaker Filter kanvas untuk baris yang berisi nilai yang hilang di Kolom yang Anda pilih dan memberikan pratinjau baris yang difilter.
Filter baris dengan outlier
Outlier, atau nilai langka dalam distribusi dan jangkauan data Anda, dapat berdampak negatif pada akurasi model dan menyebabkan waktu pembuatan yang lebih lama. SageMaker Canvas memungkinkan Anda mendeteksi dan memfilter baris yang berisi outlier di kolom numerik. Anda dapat memilih untuk menentukan outlier dengan standar deviasi atau rentang kustom.
Untuk memfilter outlier dalam data Anda, lakukan hal berikut.
-
Di tab Build aplikasi SageMaker Canvas, pilih Filter by rows ( ).
-
Pilih Kolom yang ingin Anda periksa untuk outlier.
-
Untuk Operasi, pilih Is outlier.
-
Atur rentang Outlier ke Deviasi standar atau rentang Kustom.
-
Jika Anda memilih Standar deviasi, tentukan nilai SD (standar deviasi) dari 1-3. Jika Anda memilih Rentang kustom, pilih Persentil atau Angka, lalu tentukan nilai Min dan Maks.
Opsi standar deviasi mendeteksi dan menyaring outlier di kolom numerik menggunakan mean dan standar deviasi. Anda menentukan jumlah standar deviasi suatu nilai harus bervariasi dari rata-rata untuk dianggap sebagai outlier. Misalnya, jika Anda menentukan 3
untuk SD, nilai harus jatuh lebih dari 3 standar deviasi dari mean untuk dianggap sebagai outlier.
Opsi rentang Kustom mendeteksi dan memfilter outlier di kolom numerik menggunakan nilai minimum dan maksimum. Gunakan metode ini jika Anda mengetahui nilai ambang batas yang membatasi outlier. Anda dapat mengatur Jenis rentang ke Persentil atau Angka. Jika Anda memilih Persentil, nilai Min dan Maks harus menjadi minimum dan maksimum rentang persentil (0-100) yang ingin Anda izinkan. Jika Anda memilih Angka, nilai Min dan Maks harus menjadi nilai numerik minimum dan maksimum yang ingin Anda filter dalam data.
Filter baris berdasarkan nilai kustom
Anda dapat memfilter baris dengan nilai yang memenuhi kondisi khusus. Misalnya, Anda mungkin ingin melihat pratinjau baris yang memiliki nilai harga lebih besar dari 100 sebelum menghapusnya. Dengan fungsi ini, Anda dapat memfilter baris yang melebihi ambang batas yang Anda tetapkan dan melihat pratinjau data yang difilter.
Untuk menggunakan fungsionalitas filter khusus, lakukan hal berikut.
-
Di tab Build aplikasi SageMaker Canvas, pilih Filter by rows ( ).
-
Pilih Kolom yang ingin Anda periksa.
-
Pilih jenis Operasi yang ingin Anda gunakan, lalu tentukan nilai untuk kondisi yang dipilih.
Untuk Operasi, Anda dapat memilih salah satu opsi berikut. Perhatikan bahwa operasi yang tersedia bergantung pada tipe data kolom yang Anda pilih. Misalnya, Anda tidak dapat membuat is greater than
operasi untuk kolom yang berisi nilai teks.
Operasi | Tipe data yang didukung | Jenis fitur yang didukung | Fungsi |
---|---|---|---|
Sama dengan |
Numerik, Teks |
Biner, Kategoris |
Filter baris di mana nilai di Kolom sama dengan nilai yang Anda tentukan. |
Tidak sama dengan |
Numerik, Teks |
Biner, Kategoris |
Memfilter baris di mana nilai di Kolom tidak sama dengan nilai yang Anda tentukan. |
Kurang dari |
Numerik |
N/A |
Filter baris di mana nilai di Kolom kurang dari nilai yang Anda tentukan. |
Kurang dari atau sama dengan |
Numerik |
N/A |
Memfilter baris di mana nilai di Kolom kurang dari atau sama dengan nilai yang Anda tentukan. |
Lebih besar dari |
Numerik |
N/A |
Filter baris di mana nilai di Kolom lebih besar dari nilai yang Anda tentukan. |
Lebih besar dari atau sama dengan |
Numerik |
N/A |
Filter baris di mana nilai di Kolom lebih besar dari atau sama dengan nilai yang Anda tentukan. |
Adalah antara |
Numerik |
N/A |
Memfilter baris di mana nilai di Kolom berada di antara atau sama dengan dua nilai yang Anda tentukan. |
Contains |
Teks |
Kategoris |
Filter baris di mana nilai di Kolom berisi nilai yang Anda tentukan. |
Starts with |
Teks |
Kategoris |
Filter baris di mana nilai di Kolom dimulai dengan nilai yang Anda tentukan. |
Ends with |
Kategoris |
Kategoris |
Filter baris di mana nilai di Kolom berakhir dengan nilai yang Anda tentukan. |
Setelah Anda mengatur operasi filter, SageMaker Canvas memperbarui pratinjau kumpulan data untuk menunjukkan kepada Anda data yang difilter.
Fungsi dan operator
Anda dapat menggunakan fungsi matematika dan operator untuk mengeksplorasi dan mendistribusikan data Anda. Anda dapat menggunakan fungsi yang didukung SageMaker Canvas atau membuat rumus Anda sendiri dengan data yang ada dan membuat kolom baru dengan hasil rumus. Misalnya, Anda dapat menambahkan nilai yang sesuai dari dua kolom dan menyimpan hasilnya ke kolom baru.
Anda dapat membuat pernyataan sarang untuk membuat fungsi yang lebih kompleks. Berikut ini adalah beberapa contoh fungsi bersarang yang mungkin Anda gunakan.
-
Untuk menghitungBMI, Anda bisa menggunakan fungsi
weight / (height ^ 2)
. -
Untuk mengklasifikasikan usia, Anda dapat menggunakan fungsi
Case(age < 18, 'child', age < 65, 'adult', 'senior')
ini.
Anda dapat menentukan fungsi dalam tahap persiapan data sebelum Anda membangun model Anda. Untuk menggunakan fungsi, lakukan hal berikut.
-
Di tab Build aplikasi SageMaker Canvas, pilih Lihat semua dan kemudian pilih Rumus khusus untuk membuka panel rumus Kustom.
-
Di panel Formula khusus, Anda dapat memilih Formula untuk ditambahkan ke Resep Model Anda. Setiap rumus diterapkan ke semua nilai di kolom yang Anda tentukan. Untuk rumus yang menerima dua atau lebih kolom sebagai argumen, gunakan kolom dengan tipe data yang cocok; jika tidak, Anda mendapatkan kesalahan atau
null
nilai di kolom baru. -
Setelah Anda menentukan Formula, tambahkan nama kolom di bidang Nama Kolom Baru. SageMaker Canvas menggunakan nama ini untuk kolom baru yang dibuat.
(Opsional) Pilih Pratinjau untuk melihat pratinjau transformasi Anda.
-
Untuk menambahkan fungsi ke Resep Model Anda, pilih Tambah.
SageMaker Canvas menyimpan hasil fungsi Anda ke kolom baru menggunakan nama yang Anda tentukan di Nama Kolom Baru. Anda dapat melihat atau menghapus fungsi dari panel Resep Model.
SageMaker Canvas mendukung operator berikut untuk fungsi. Anda dapat menggunakan format teks atau format in-line untuk menentukan fungsi Anda.
Operator | Deskripsi | Jenis data yang didukung | Format teks | Format in-line |
---|---|---|---|---|
Tambahkan |
Mengembalikan jumlah nilai |
Numerik |
Tambahkan (penjualan1, penjualan2) |
penjualan1 + penjualan2 |
Kurangi |
Mengembalikan perbedaan antara nilai-nilai |
Numerik |
Kurangi (penjualan1, penjualan2) |
penjualan1 - penjualan2 |
Lipat gandakan |
Mengembalikan produk dari nilai-nilai |
Numerik |
Kalikan (penjualan1, penjualan2) |
penjualan1 * penjualan2 |
Membagi |
Mengembalikan hasil bagi nilai |
Numerik |
Membagi (penjualan1, penjualan2) |
penjualan1/penjualan2 |
Mod |
Mengembalikan hasil dari operator modulo (sisanya setelah membagi dua nilai) |
Numerik |
Mod (penjualan1, penjualan2) |
penjualan1% penjualan2 |
Abs |
Mengembalikan nilai absolut dari nilai |
Numerik |
Abs (penjualan1) |
N/A |
Menegasikan |
Mengembalikan nilai negatif |
Numerik |
Menegasikan (c1) |
-c1 |
Exp |
Mengembalikan e (nomor Euler) dinaikkan ke kekuatan nilai |
Numerik |
Exp (penjualan1) |
N/A |
Log |
Mengembalikan logaritma (basis 10) dari nilai |
Numerik |
Log (penjualan1) |
N/A |
PjM |
Mengembalikan logaritma natural (basis e) dari nilai |
Numerik |
Ln (penjualan1) |
N/A |
Pow |
Mengembalikan nilai yang dinaikkan ke daya |
Numerik |
Pow (penjualan1, 2) |
penjualan1 ^ 2 |
Jika |
Mengembalikan label benar atau salah berdasarkan kondisi yang Anda tentukan |
Boolean, Numerik, Teks |
Jika (penjualan1> 7000, 'truelabel, 'falselabel') |
N/A |
Atau |
Mengembalikan nilai Boolean apakah salah satu nilai tertentu atau kondisi adalah benar atau tidak |
Boolean |
Atau (fullprice, discount) |
fullprice || discount |
Dan |
Mengembalikan nilai Boolean apakah dua nilai atau kondisi yang ditentukan benar atau tidak |
Boolean |
Dan (penjualan1, penjualan2) |
penjualan1 && penjualan2 |
Bukan |
Mengembalikan nilai Boolean yang merupakan kebalikan dari nilai tertentu atau kondisi |
Boolean |
Tidak (penjualan1) |
! penjualan1 |
Kasus |
Mengembalikan nilai Boolean berdasarkan pernyataan bersyarat (mengembalikan c1 jika cond1 adalah true, mengembalikan c2 jika cond2 adalah true, else mengembalikan c3) |
Boolean, Numerik, Teks |
Kasus (cond1, c1, cond2, c2, c3) |
N/A |
Sama |
Mengembalikan nilai Boolean apakah dua nilai sama |
Boolean, Numerik, Teks |
N/A |
c1 = c2 c1 == c2 |
Tidak sama |
Mengembalikan nilai Boolean apakah dua nilai tidak sama |
Boolean, Numerik, Teks |
N/A |
c1! = c2 |
Kurang dari |
Mengembalikan nilai Boolean apakah c1 kurang dari c2 |
Boolean, Numerik, Teks |
N/A |
c1 < c2 |
Lebih besar dari |
Mengembalikan nilai Boolean apakah c1 lebih besar dari c2 |
Boolean, Numerik, Teks |
N/A |
c1 > c2 |
Kurang dari atau sama |
Mengembalikan nilai Boolean apakah c1 kurang dari atau sama dengan c2 |
Boolean, Numerik, Teks |
N/A |
c1 <= c2 |
Lebih besar dari atau sama |
Mengembalikan nilai Boolean apakah c1 lebih besar dari atau sama dengan c2 |
Boolean, Numerik, Teks |
N/A |
c1 >= c2 |
SageMaker Canvas juga mendukung operator agregat, yang dapat melakukan operasi seperti menghitung jumlah semua nilai atau menemukan nilai minimum dalam kolom. Anda dapat menggunakan operator agregat dalam kombinasi dengan operator standar dalam fungsi Anda. Misalnya, untuk menghitung selisih nilai dari mean, Anda bisa menggunakan fungsi tersebutAbs(height –
avg(height))
. SageMaker Canvas mendukung operator agregat berikut.
Operator agregat | Deskripsi | format | Contoh |
---|---|---|---|
sum |
Mengembalikan jumlah semua nilai dalam kolom |
sum |
jumlah (c1) |
minimum |
Mengembalikan nilai minimum kolom |
min |
min (c2) |
maksimum |
Mengembalikan nilai maksimum kolom |
max |
maks (c3) |
rata-rata |
Mengembalikan nilai rata-rata kolom |
rata-rata |
rata-rata (c4) |
std |
Mengembalikan standar deviasi sampel kolom | std |
std (c1) |
stddev |
Mengembalikan standar deviasi dari nilai-nilai dalam kolom | stddev |
stddev (c1) |
perbedaan |
Mengembalikan varians nilai yang tidak bias dalam kolom |
perbedaan |
varians (c1) |
kira-kira_count_distinct |
Mengembalikan perkiraan jumlah item yang berbeda dalam kolom | kira-kira_count_distinct |
kira-kira_count_distinct (c1) |
count |
Mengembalikan jumlah item dalam kolom | count |
menghitung (c1) |
first |
Mengembalikan nilai pertama dari kolom |
first |
pertama (c1) |
last |
Mengembalikan nilai terakhir dari kolom |
last |
terakhir (c1) |
stddev_pop |
Mengembalikan standar deviasi populasi kolom | stddev_pop |
stddev_pop (c1) |
variance_pop |
Mengembalikan varians populasi dari nilai-nilai dalam kolom |
variance_pop |
variance_pop (c1) |
Kelola baris
Dengan transformasi Kelola baris, Anda dapat melakukan pengurutan, acak acak, dan menghapus baris data dari kumpulan data.
Urutkan baris
Untuk mengurutkan baris dalam kumpulan data dengan kolom tertentu, lakukan hal berikut.
-
Di tab Build aplikasi SageMaker Canvas, pilih Kelola baris dan kemudian pilih Urutkan baris.
-
Untuk Urutkan Kolom, pilih kolom yang ingin Anda urutkan berdasarkan.
-
Untuk Urutan Urutan, pilih Ascending atau Descending.
-
Pilih Tambah untuk menambahkan transformasi ke resep Model.
Kocokkan baris
Untuk mengacak baris dalam kumpulan data secara acak, lakukan hal berikut.
-
Di tab Build aplikasi SageMaker Canvas, pilih Manage rows dan kemudian pilih Shuffle rows.
-
Pilih Tambah untuk menambahkan transformasi ke resep Model.
Jatuhkan baris duplikat
Untuk menghapus baris duplikat dalam kumpulan data, lakukan hal berikut.
-
Di tab Build aplikasi SageMaker Canvas, pilih Kelola baris dan kemudian pilih Jatuhkan baris duplikat.
-
Pilih Tambah untuk menambahkan transformasi ke resep Model.
Hapus baris dengan nilai yang hilang
Nilai yang hilang adalah kejadian umum dalam kumpulan data pembelajaran mesin dan dapat memengaruhi akurasi model. Gunakan transformasi ini jika Anda ingin menjatuhkan baris dengan nilai nol atau kosong di kolom tertentu.
Untuk menghapus baris yang berisi nilai yang hilang di kolom tertentu, lakukan hal berikut.
-
Di tab Build aplikasi SageMaker Canvas, pilih Kelola baris.
Pilih Jatuhkan baris dengan nilai yang hilang.
-
Pilih Tambah untuk menambahkan transformasi ke resep Model.
SageMaker Kanvas menjatuhkan baris yang berisi nilai yang hilang di Kolom yang Anda pilih. Setelah menghapus baris dari dataset, SageMaker Canvas menambahkan transformasi di bagian resep Model. Jika Anda menghapus transformasi dari bagian Resep model, baris kembali ke kumpulan data Anda.
Hapus baris dengan outlier
Outlier, atau nilai langka dalam distribusi dan jangkauan data Anda, dapat berdampak negatif pada akurasi model dan menyebabkan waktu pembuatan yang lebih lama. Dengan SageMaker Canvas, Anda dapat mendeteksi dan menghapus baris yang berisi outlier di kolom numerik. Anda dapat memilih untuk menentukan outlier dengan standar deviasi atau rentang kustom.
Untuk menghapus outlier dari data Anda, lakukan hal berikut.
-
Di tab Build aplikasi SageMaker Canvas, pilih Kelola baris.
Pilih Jatuhkan baris dengan nilai outlier.
-
Pilih Kolom yang ingin Anda periksa untuk outlier.
-
Atur Operator ke Deviasi standar, Rentang numerik kustom, atau Rentang kuantil kustom.
-
Jika Anda memilih Standar deviasi, tentukan Nilai standar deviasi (standar deviasi) dari 1-3. Jika Anda memilih Rentang numerik khusus atau Rentang kuantil khusus, tentukan nilai Min dan Maks (angka untuk rentang numerik, atau persentil antara 0— 100% untuk rentang kuantil).
-
Pilih Tambah untuk menambahkan transformasi ke resep Model.
Opsi standar deviasi mendeteksi dan menghapus outlier dalam kolom numerik menggunakan mean dan standar deviasi. Anda menentukan jumlah standar deviasi suatu nilai harus bervariasi dari rata-rata untuk dianggap sebagai outlier. Misalnya, jika Anda menentukan 3
untuk Standar deviasi, nilai harus jatuh lebih dari 3 standar deviasi dari rata-rata untuk dianggap sebagai outlier.
Rentang numerik kustom dan pilihan rentang kuantil kustom mendeteksi dan menghapus outlier dalam kolom numerik menggunakan nilai minimum dan maksimum. Gunakan metode ini jika Anda mengetahui nilai ambang batas yang membatasi outlier. Jika Anda memilih rentang numerik, nilai Min dan Max harus menjadi nilai numerik minimum dan maksimum yang ingin Anda izinkan dalam data. Jika Anda memilih rentang kuantil, nilai Min dan Maks harus menjadi minimum dan maksimum rentang persentil (0-100) yang ingin Anda izinkan.
Setelah menghapus baris dari dataset, SageMaker Canvas menambahkan transformasi di bagian resep Model. Jika Anda menghapus transformasi dari bagian Resep model, baris kembali ke kumpulan data Anda.
Hapus baris dengan nilai kustom
Anda dapat menghapus baris dengan nilai yang memenuhi kondisi khusus. Misalnya, Anda mungkin ingin mengecualikan semua baris dengan nilai harga lebih dari 100 saat membuat model Anda. Dengan transformasi ini, Anda dapat membuat aturan yang menghapus semua baris yang melebihi ambang batas yang Anda tetapkan.
Untuk menggunakan transformasi hapus kustom, lakukan hal berikut.
-
Di tab Build aplikasi SageMaker Canvas, pilih Kelola baris.
Pilih Jatuhkan baris dengan rumus.
-
Pilih Kolom yang ingin Anda periksa.
-
Pilih jenis Operasi yang ingin Anda gunakan, lalu tentukan nilai untuk kondisi yang dipilih.
-
Pilih Tambah untuk menambahkan transformasi ke resep Model.
Untuk Operasi, Anda dapat memilih salah satu opsi berikut. Perhatikan bahwa operasi yang tersedia bergantung pada tipe data kolom yang Anda pilih. Misalnya, Anda tidak dapat membuat is greater than
operasi untuk kolom yang berisi nilai teks.
Operasi | Tipe data yang didukung | Jenis fitur yang didukung | Fungsi |
---|---|---|---|
Sama dengan |
Numerik, Teks |
Biner, Kategoris |
Menghapus baris di mana nilai di Kolom sama dengan nilai yang Anda tentukan. |
Tidak sama dengan |
Numerik, Teks |
Biner, Kategoris |
Menghapus baris di mana nilai di Kolom tidak sama dengan nilai yang Anda tentukan. |
Kurang dari |
Numerik |
N/A |
Menghapus baris di mana nilai di Kolom kurang dari nilai yang Anda tentukan. |
Kurang dari atau sama dengan |
Numerik |
N/A |
Menghapus baris di mana nilai di Kolom kurang dari atau sama dengan nilai yang Anda tentukan. |
Lebih besar dari |
Numerik |
N/A |
Menghapus baris di mana nilai di Kolom lebih besar dari nilai yang Anda tentukan. |
Lebih besar dari atau sama dengan |
Numerik |
N/A |
Menghapus baris di mana nilai di Kolom lebih besar dari atau sama dengan nilai yang Anda tentukan. |
Adalah antara |
Numerik |
N/A |
Menghapus baris di mana nilai di Kolom berada di antara atau sama dengan dua nilai yang Anda tentukan. |
Contains |
Teks |
Kategoris |
Menghapus baris di mana nilai di Kolom berisi nilai yang Anda tentukan. |
Starts with |
Teks |
Kategoris |
Menghapus baris di mana nilai di Kolom dimulai dengan nilai yang Anda tentukan. |
Ends with |
Teks |
Kategoris |
Menghapus baris di mana nilai di Kolom berakhir dengan nilai yang Anda tentukan. |
Setelah menghapus baris dari dataset, SageMaker Canvas menambahkan transformasi di bagian resep Model. Jika Anda menghapus transformasi dari bagian Resep model, baris kembali ke kumpulan data Anda.
Ubah Nama kolom
Dengan transformasi kolom ganti nama, Anda dapat mengganti nama kolom dalam data Anda. Saat Anda mengganti nama kolom, SageMaker Canvas mengubah nama kolom di input model.
Anda dapat mengganti nama kolom dalam kumpulan data Anda dengan mengklik dua kali pada nama kolom di tab Build aplikasi SageMaker Canvas dan memasukkan nama baru. Menekan tombol Enter mengirimkan perubahan, dan mengklik di mana saja di luar input membatalkan perubahan. Anda juga dapat mengganti nama kolom dengan mengklik ikon Opsi lainnya ( ), terletak di akhir baris dalam tampilan daftar atau di akhir sel header dalam tampilan kisi, dan memilih Ganti nama.
Nama kolom Anda tidak boleh lebih dari 32 karakter atau memiliki garis bawah ganda (__), dan Anda tidak dapat mengganti nama kolom menjadi nama yang sama dengan kolom lain. Anda juga tidak dapat mengganti nama kolom yang dijatuhkan.
Tangkapan layar berikut menunjukkan cara mengganti nama kolom dengan mengklik dua kali nama kolom.
Saat Anda mengganti nama kolom, SageMaker Canvas menambahkan transformasi di bagian Resep Model. Jika Anda menghapus transformasi dari bagian Resep Model, kolom kembali ke nama aslinya.
Kelola kolom
Dengan transformasi berikut, Anda dapat mengubah tipe data kolom dan mengganti nilai atau outlier yang hilang untuk kolom tertentu. SageMaker Canvas menggunakan tipe atau nilai data yang diperbarui saat membuat model Anda tetapi tidak mengubah kumpulan data asli Anda. Perhatikan bahwa jika Anda menjatuhkan kolom dari kumpulan data menggunakan Jatuhkan kolom transformasi, Anda tidak dapat mengganti nilai di kolom itu.
Ganti nilai yang hilang
Nilai yang hilang adalah kejadian umum dalam kumpulan data pembelajaran mesin dan dapat memengaruhi akurasi model. Anda dapat memilih untuk menjatuhkan baris yang memiliki nilai yang hilang, tetapi model Anda lebih akurat jika Anda memilih untuk mengganti nilai yang hilang. Dengan transformasi ini, Anda dapat mengganti nilai yang hilang di kolom numerik dengan rata-rata atau median data dalam kolom, atau Anda juga dapat menentukan nilai khusus untuk mengganti nilai yang hilang. Untuk kolom non-numerik, Anda dapat mengganti nilai yang hilang dengan mode (nilai paling umum) kolom atau nilai khusus.
Gunakan transformasi ini jika Anda ingin mengganti nilai nol atau kosong di kolom tertentu. Untuk mengganti nilai yang hilang di kolom tertentu, lakukan hal berikut.
-
Di tab Build aplikasi SageMaker Canvas, pilih Kelola kolom.
Pilih Ganti nilai yang hilang.
-
Pilih Kolom di mana Anda ingin mengganti nilai yang hilang.
-
Atur Mode ke Manual untuk mengganti nilai yang hilang dengan nilai yang Anda tentukan. Dengan pengaturan Otomatis (default), SageMaker Canvas menggantikan nilai yang hilang dengan nilai imputasi yang paling sesuai dengan data Anda. Metode imputasi ini dilakukan secara otomatis untuk setiap model build, kecuali Anda menentukan mode Manual.
-
Mengatur Ganti dengan nilai:
-
Jika kolom Anda numerik, pilih Mean, Median, atau Custom. Mean menggantikan nilai yang hilang dengan mean untuk kolom, dan Median menggantikan nilai yang hilang dengan median untuk kolom. Jika Anda memilih Kustom, maka Anda harus menentukan nilai kustom yang ingin Anda gunakan untuk mengganti nilai yang hilang.
-
Jika kolom Anda non-numerik, pilih Mode atau Kustom. Mode menggantikan nilai yang hilang dengan mode, atau nilai yang paling umum, untuk kolom. Untuk Kustom, tentukan nilai kustom. yang ingin Anda gunakan untuk mengganti nilai yang hilang.
-
-
Pilih Tambah untuk menambahkan transformasi ke resep Model.
Setelah mengganti nilai yang hilang dalam kumpulan data, SageMaker Canvas menambahkan transformasi di bagian resep Model. Jika Anda menghapus transformasi dari bagian Resep model, nilai yang hilang kembali ke kumpulan data.
Ganti outlier
Outlier, atau nilai langka dalam distribusi dan jangkauan data Anda, dapat berdampak negatif pada akurasi model dan menyebabkan waktu pembuatan yang lebih lama. SageMaker Canvas memungkinkan Anda mendeteksi outlier di kolom numerik dan mengganti outlier dengan nilai yang berada dalam rentang yang diterima dalam data Anda. Anda dapat memilih untuk menentukan outlier dengan standar deviasi atau rentang kustom, dan Anda dapat mengganti outlier dengan nilai minimum dan maksimum dalam rentang yang diterima.
Untuk mengganti outlier dalam data Anda, lakukan hal berikut.
-
Di tab Build aplikasi SageMaker Canvas, pilih Kelola kolom.
Pilih Ganti nilai outlier.
-
Pilih Kolom di mana Anda ingin mengganti outlier.
-
Untuk Tentukan pencilan, pilih Deviasi standar, Rentang numerik khusus, atau Rentang kuantil khusus.
-
Jika Anda memilih Standar deviasi, tentukan Nilai standar deviasi (standar deviasi) dari 1-3. Jika Anda memilih Rentang numerik khusus atau Rentang kuantil khusus, tentukan nilai Min dan Maks (angka untuk rentang numerik, atau persentil antara 0— 100% untuk rentang kuantil).
-
Untuk Ganti dengan, pilih rentang Min/maks.
-
Pilih Tambah untuk menambahkan transformasi ke resep Model.
Opsi standar deviasi mendeteksi outlier dalam kolom numerik menggunakan mean dan standar deviasi. Anda menentukan jumlah standar deviasi suatu nilai harus bervariasi dari rata-rata untuk dianggap sebagai outlier. Misalnya, jika Anda menentukan 3 untuk Standar deviasi, nilai harus jatuh lebih dari 3 standar deviasi dari rata-rata untuk dianggap sebagai outlier. SageMaker Canvas menggantikan outlier dengan nilai minimum atau nilai maksimum dalam kisaran yang diterima. Misalnya, jika Anda mengonfigurasi standar deviasi untuk hanya menyertakan nilai dari 200-300, maka SageMaker Canvas mengubah nilai 198 menjadi 200 (minimum).
Rentang numerik kustom dan pilihan rentang kuantil kustom mendeteksi outlier dalam kolom numerik menggunakan nilai minimum dan maksimum. Gunakan metode ini jika Anda mengetahui nilai ambang batas yang membatasi outlier. Jika Anda memilih rentang numerik, nilai Min dan Max harus menjadi nilai numerik minimum dan maksimum yang ingin Anda izinkan. SageMaker Canvas menggantikan nilai apa pun yang berada di luar nilai minimum dan maksimum ke nilai minimum dan maksimum. Misalnya, jika rentang Anda hanya mengizinkan nilai dari 1-100, maka SageMaker Canvas mengubah nilai 102 menjadi 100 (maksimum). Jika Anda memilih rentang kuantil, nilai Min dan Maks harus menjadi minimum dan maksimum rentang persentil (0-100) yang ingin Anda izinkan.
Setelah mengganti nilai dalam kumpulan data, SageMaker Canvas menambahkan transformasi di bagian resep Model. Jika Anda menghapus transformasi dari bagian Resep model, nilai asli kembali ke kumpulan data.
Ubah tipe data
SageMaker Canvas memberi Anda kemampuan untuk mengubah tipe data kolom Anda antara numerik, teks, dan datetime, sementara juga menampilkan tipe fitur terkait untuk tipe data tersebut. Tipe data mengacu pada format data dan cara penyimpanannya, sedangkan tipe fitur mengacu pada karakteristik data yang digunakan dalam algoritma pembelajaran mesin, seperti biner atau kategoris. Ini memberi Anda fleksibilitas untuk secara manual mengubah jenis data di kolom Anda berdasarkan fitur. Kemampuan untuk memilih tipe data yang tepat memastikan integritas dan akurasi data sebelum membangun model. Tipe data ini digunakan saat membuat model.
catatan
Saat ini, mengubah jenis fitur (misalnya, dari biner ke kategoris) tidak didukung.
Tabel berikut mencantumkan semua tipe data yang didukung di Canvas.
Tipe data | Deskripsi | Contoh |
---|---|---|
Numerik |
Data numerik mewakili nilai numerik |
1, 2, 3 1.1, 1.2. 1.3 |
Teks |
Data teks mewakili urutan karakter, seperti nama atau deskripsi |
A, B, C, D apel, pisang, jeruk 1A! , 2A! , 3A! |
Datetime |
Data datetime mewakili tanggal dan waktu dalam format stempel waktu |
2019-07-01 01:00:00, 2019-07-01 02:00:00, 2019-07-01 03:00:00 |
Tabel berikut mencantumkan semua jenis fitur yang didukung di Canvas.
Jenis fitur | Deskripsi | Contoh |
---|---|---|
Biner |
Fitur biner mewakili dua nilai yang mungkin |
0, 1, 0, 1, 0 (2 nilai berbeda) benar, salah, benar (2 nilai berbeda) |
Kategoris |
Fitur kategoris mewakili kategori atau kelompok yang berbeda |
apel, pisang, jeruk, apel (3 nilai berbeda) A, B, C, D, E, A, D, C (5 nilai berbeda) |
Untuk memodifikasi tipe data kolom dalam kumpulan data, lakukan hal berikut.
-
Di tab Build aplikasi SageMaker Canvas, buka tampilan Kolom atau tampilan Grid dan pilih dropdown tipe Data untuk kolom tertentu.
-
Dalam tarik-turun tipe Data, pilih tipe data yang akan dikonversi. Screenshot berikut menunjukkan menu dropdown.
-
Untuk Kolom, pilih atau verifikasi kolom yang ingin Anda ubah tipe datanya.
-
Untuk tipe data baru, pilih atau verifikasi tipe data baru yang ingin Anda konversi.
-
Jika tipe data baru adalah
Datetime
atauNumeric
, pilih salah satu opsi berikut di bawah Menangani nilai yang tidak valid:Ganti dengan nilai kosong - Nilai tidak valid diganti dengan nilai kosong
Hapus baris - Baris dengan nilai tidak valid dihapus dari kumpulan data
Ganti dengan nilai kustom - Nilai tidak valid diganti dengan Nilai Kustom yang Anda tentukan.
-
Pilih Tambah untuk menambahkan transformasi ke resep Model.
Tipe data untuk kolom Anda sekarang harus diperbarui.
Siapkan data deret waktu
Gunakan fungsionalitas berikut untuk menyiapkan data deret waktu Anda untuk membangun model peramalan deret waktu.
Sampel ulang data deret waktu
Dengan mengambil sampel ulang data deret waktu, Anda dapat menetapkan interval reguler untuk pengamatan dalam kumpulan data deret waktu Anda. Ini sangat berguna ketika bekerja dengan data deret waktu yang berisi pengamatan dengan jarak yang tidak beraturan. Misalnya, Anda dapat menggunakan resampling untuk mengubah kumpulan data dengan pengamatan yang direkam setiap interval satu jam, dua jam dan tiga jam menjadi interval satu jam reguler di antara pengamatan. Algoritma peramalan membutuhkan pengamatan yang harus dilakukan secara berkala.
Untuk mengambil sampel ulang data deret waktu, lakukan hal berikut.
-
Di tab Build aplikasi SageMaker Canvas, pilih Time series.
-
Pilih Sampel Ulang.
-
Untuk kolom Timestamp, pilih kolom yang ingin Anda terapkan transformasi. Anda hanya dapat memilih kolom dari jenis Datetime.
-
Di bagian Pengaturan frekuensi, pilih Frekuensi dan Tingkat. Frekuensi adalah satuan frekuensi dan Rate adalah interval dari satuan frekuensi yang akan diterapkan pada kolom. Misalnya, memilih
Calendar Day
untuk nilai Frekuensi dan1
untuk Nilai menetapkan interval untuk meningkat setiap 1 hari kalender, seperti2023-03-26 00:00:00
,2023-03-27 00:00:00
,2023-03-28 00:00:00
. Lihat tabel setelah prosedur ini untuk daftar lengkap nilai Frekuensi. -
Pilih Tambah untuk menambahkan transformasi ke resep Model.
Tabel berikut mencantumkan semua jenis Frekuensi yang dapat Anda pilih saat pengambilan sampel ulang data deret waktu.
Frekuensi | Deskripsi | Contoh nilai (dengan asumsi Rate adalah 1) |
---|---|---|
Hari Kerja |
Sampel ulang pengamatan di kolom datetime menjadi 5 hari kerja dalam seminggu (Senin, Selasa, Rabu, Kamis, Jumat) |
2023-03-24 00:00:00 2023-03-27 00:00:00 2023-03-28 00:00:00 2023-03-29 00:00:00 2023-03-30 00:00:00 2023-03-31 00:00:00 2023-04-03 00:00:00 |
Hari Kalender |
Sampel ulang pengamatan di kolom datetime ke semua 7 hari dalam seminggu (Senin, Selasa, Rabu, Kamis, Jumat, Sabtu, Minggu) |
2023-03-26 00:00:00 2023-03-27 00:00:00 2023-03-28 00:00:00 2023-03-29 00:00:00 2023-03-30 00:00:00 2023-03-31 00:00:00 2023-04-01 00:00:00 |
Minggu |
Sampel ulang pengamatan di kolom datetime ke hari pertama setiap minggu |
2023-03-13 00:00:00 2023-03-20 00:00:00 2023-03-27 00:00:00 2023-04-03 00:00:00 |
Bulan |
Sampel ulang pengamatan di kolom datetime ke hari pertama setiap bulan |
2023-03-01 00:00:00 2023-04-01 00:00:00 2023-05-01 00:00:00 2023-06-01 00:00:00 |
Kuartal Tahunan |
Sampel ulang pengamatan di kolom datetime ke hari terakhir setiap kuartal |
2023-03-31 00:00:00 2023-06-30 00:00:00 2023-09-30 00:00:00 2023-12-31 00:00:00 |
Tahun |
Sampel ulang pengamatan di kolom datetime ke hari terakhir setiap tahun |
2022-12-31 0:00:00 2023-12-31 00:00:00 2024-12-31 00:00:00 |
Jam |
Sampel ulang pengamatan di kolom datetime ke setiap jam setiap hari |
2023-03-24 00:00:00 2023-03-24 01:00:00 2023-03-24 02:00:00 2023-03-24 03:00:00 |
Menit |
Sampel ulang pengamatan di kolom datetime ke setiap menit setiap jam |
2023-03-24 00:00:00 2023-03-24 00:01:00 2023-03-24 00:02:00 2023-03-24 00:03:00 |
Detik |
Sampel ulang pengamatan di kolom datetime ke setiap detik setiap menit |
2023-03-24 00:00:00 2023-03-24 00:00:01 2023-03-24 00:00:02 2023-03-24 00:00:03 |
Saat menerapkan transformasi resampling, Anda dapat menggunakan opsi Lanjutan untuk menentukan bagaimana nilai yang dihasilkan dari kolom lainnya (selain kolom stempel waktu) di kumpulan data Anda dimodifikasi. Ini dapat dicapai dengan menentukan metodologi resampling, yang dapat berupa downsampling atau upsampling untuk kolom numerik dan non-numerik.
Downsampling meningkatkan interval antara pengamatan dalam dataset. Misalnya, jika Anda menurunkan sampel pengamatan yang diambil setiap jam atau setiap dua jam, setiap pengamatan dalam kumpulan data Anda dilakukan setiap dua jam. Nilai kolom lain dari pengamatan per jam digabungkan menjadi satu nilai menggunakan metode kombinasi. Tabel berikut menunjukkan contoh data deret waktu downsampling dengan menggunakan mean sebagai metode kombinasi. Data di-downsample dari setiap dua jam menjadi setiap jam.
Tabel berikut menunjukkan pembacaan suhu per jam selama sehari sebelum downsampling.
Stempel Waktu | Suhu (Celcius) |
---|---|
12:00pm |
30 |
1:00 pagi |
32 |
2:00 pagi |
35 |
3:00 pagi |
32 |
4:00 pagi |
30 |
Tabel berikut menunjukkan pembacaan suhu setelah downsampling untuk setiap dua jam.
Stempel Waktu | Suhu (Celcius) |
---|---|
12:00pm |
30 |
2:00 pagi |
33.5 |
2:00 pagi |
35 |
4:00 pagi |
32.5 |
Untuk menurunkan sampel data deret waktu, lakukan hal berikut:
-
Perluas bagian Advanced di bawah Transformasi Resample.
-
Pilih kombinasi non-numerik untuk menentukan metode kombinasi untuk kolom non-numerik. Lihat tabel di bawah ini untuk daftar lengkap metode kombinasi.
-
Pilih kombinasi numerik untuk menentukan metode kombinasi untuk kolom numerik. Lihat tabel di bawah ini untuk daftar lengkap metode kombinasi.
Jika Anda tidak menentukan metode kombinasi, nilai default adalah Most Common
untuk kombinasi Non-numerik dan Mean
untuk kombinasi Numerik. Tabel berikut mencantumkan metode untuk kombinasi numerik dan non-numerik.
Metodologi downsampling | Metode kombinasi | Deskripsi |
---|---|---|
Kombinasi non-numerik |
Paling Umum |
Nilai agregat di kolom non-numerik dengan nilai yang paling umum terjadi |
Kombinasi non-numerik |
Terakhir |
Nilai agregat di kolom non-numerik dengan nilai terakhir di kolom |
Kombinasi non-numerik |
Pertama |
Nilai agregat di kolom non-numerik dengan nilai pertama di kolom |
Kombinasi numerik |
Berarti |
Nilai agregat di kolom numerik dengan mengambil rata-rata semua nilai di kolom |
Kombinasi numerik |
Median |
Nilai agregat di kolom numerik dengan mengambil median semua nilai di kolom |
Kombinasi numerik |
Min |
Nilai agregat di kolom numerik dengan mengambil minimum semua nilai di kolom |
Kombinasi numerik |
Maks |
Nilai agregat di kolom numerik dengan mengambil maksimum semua nilai di kolom |
Kombinasi numerik |
Jumlah |
Nilai agregat di kolom numerik dengan menambahkan semua nilai di kolom |
Kombinasi numerik |
Kuantil |
Nilai agregat di kolom numerik dengan mengambil kuantil semua nilai di kolom |
Upsampling mengurangi interval antara pengamatan dalam dataset. Misalnya, jika Anda mengambil sampel pengamatan yang diambil setiap dua jam ke dalam pengamatan per jam, nilai kolom lain dari pengamatan per jam diinterpolasi dari yang telah diambil setiap dua jam.
Untuk meningkatkan data deret waktu, lakukan hal berikut:
-
Perluas bagian Advanced di bawah Transformasi Resample.
-
Pilih estimasi non-numerik untuk menentukan metode estimasi untuk kolom non-numerik. Lihat tabel setelah prosedur ini untuk daftar lengkap metode.
-
Pilih Estimasi numerik untuk menentukan metode estimasi untuk kolom numerik. Lihat tabel di bawah ini untuk daftar lengkap metode.
-
(Opsional) Pilih Kolom ID untuk menentukan kolom IDs yang memiliki pengamatan deret waktu. Tentukan opsi ini jika kumpulan data Anda memiliki dua deret waktu. Jika Anda memiliki kolom yang hanya mewakili satu deret waktu, jangan tentukan nilai untuk bidang ini. Misalnya, Anda dapat memiliki kumpulan data yang memiliki kolom
id
danpurchase
.id
Kolom memiliki nilai-nilai berikut:[1, 2, 2, 1]
.purchase
Kolom memiliki nilai-nilai berikut[$2, $3, $4, $1]
. Oleh karena itu, kumpulan data memiliki dua deret waktu—satu deret waktu adalah:1: [$2, $1]
, dan deret waktu lainnya adalah.2: [$3, $4]
Jika Anda tidak menentukan metode estimasi, nilai default adalah Forward Fill
untuk estimasi non-numerik dan Linear
untuk estimasi Numerik. Tabel berikut mencantumkan metode untuk estimasi.
Metodologi upsampling | Metode estimasi | Deskripsi |
---|---|---|
Estimasi non-numerik |
Isi Maju |
Interpolasi nilai di kolom non-numerik dengan mengambil nilai berurutan setelah semua nilai di kolom |
Estimasi non-numerik |
Isi Mundur |
Interpolasi nilai di kolom non-numerik dengan mengambil nilai berurutan sebelum semua nilai di kolom |
Estimasi non-numerik |
Tetap Hilang |
Interpolasi nilai di kolom non-numerik dengan menunjukkan nilai kosong |
Estimasi numerik |
Linear, Waktu, Indeks, Nol, S-Linear, Terdekat, Kuadrat, Kubik, Barycentric, Polinomial, Krogh, Polinomial Sepotong, Spline, P-chip, Akima, Cubic Spline, Dari Derivatif |
Interpolasi nilai dalam kolom numerik dengan menggunakan interpolator specfied. Untuk informasi tentang metode interpolasi, lihat panda. DataFrame.interpolate dalam dokumentasi panda |
Tangkapan layar berikut menunjukkan Pengaturan lanjutan dengan bidang untuk downsampling dan upsampling diisi.
Gunakan ekstraksi datetime
Dengan transformasi ekstraksi datetime, Anda dapat mengekstrak nilai dari kolom datetime ke kolom terpisah. Misalnya, jika Anda memiliki kolom yang berisi tanggal pembelian, Anda dapat mengekstrak nilai bulan ke kolom terpisah dan menggunakan kolom baru saat membuat model Anda. Anda juga dapat mengekstrak beberapa nilai untuk memisahkan kolom dengan satu transformasi.
Kolom datetime Anda harus menggunakan format stempel waktu yang didukung. Untuk daftar format yang didukung SageMaker Canvas, lihatPrakiraan Deret Waktu di Amazon SageMaker Canvas. Jika kumpulan data Anda tidak menggunakan salah satu format yang didukung, perbarui kumpulan data Anda untuk menggunakan format stempel waktu yang didukung dan impor ulang ke SageMaker Amazon Canvas sebelum membuat model Anda.
Untuk melakukan ekstraksi datetime, lakukan hal berikut.
-
Di tab Build aplikasi SageMaker Canvas, pada bilah transformasi, pilih Lihat semua.
Pilih fitur Ekstrak.
-
Pilih kolom Timestamp dari mana Anda ingin mengekstrak nilai.
-
Untuk Nilai, pilih satu atau beberapa nilai untuk diekstrak dari kolom. Nilai yang dapat Anda ekstrak dari kolom stempel waktu adalah Tahun, Bulan, Hari, Jam, Minggu tahun, Hari tahun, dan Kuartal.
(Opsional) Pilih Pratinjau untuk melihat pratinjau hasil transformasi.
-
Pilih Tambah untuk menambahkan transformasi ke resep Model.
SageMaker Canvas membuat kolom baru dalam kumpulan data untuk setiap nilai yang Anda ekstrak. Kecuali untuk nilai Tahun, SageMaker Canvas menggunakan pengkodean berbasis 0 untuk nilai yang diekstraksi. Misalnya, jika Anda mengekstrak nilai Bulan, Januari diekstraksi sebagai 0, dan Februari diekstraksi sebagai 1.
Anda dapat melihat transformasi yang tercantum di bagian Resep model. Jika Anda menghapus transformasi dari bagian Resep model, kolom baru akan dihapus dari kumpulan data.