Siapkan data untuk pembuatan model - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Siapkan data untuk pembuatan model

catatan

Anda sekarang dapat melakukan persiapan data lanjutan di SageMaker Canvas dengan Data Wrangler, yang memberi Anda antarmuka bahasa alami dan lebih dari 300 transformasi bawaan. Untuk informasi selengkapnya, lihat Persiapan data.

Dataset pembelajaran mesin Anda mungkin memerlukan persiapan data sebelum Anda membuat model Anda. Anda mungkin ingin membersihkan data Anda karena berbagai masalah, yang mungkin termasuk nilai atau outlier yang hilang, dan melakukan rekayasa fitur untuk meningkatkan akurasi model Anda. Amazon SageMaker Canvas menyediakan transformasi data ML yang dapat digunakan untuk membersihkan, mengubah, dan menyiapkan data untuk pembuatan model. Anda dapat menggunakan transformasi ini pada kumpulan data Anda tanpa kode apa pun. SageMaker Canvas menambahkan transformasi yang Anda gunakan ke resep Model, yang merupakan catatan persiapan data yang dilakukan pada data Anda sebelum membuat model. Transformasi data apa pun yang Anda gunakan hanya memodifikasi data input untuk pembuatan model dan tidak memodifikasi sumber data asli Anda.

Pratinjau kumpulan data Anda menunjukkan 100 baris pertama dari kumpulan data. Jika kumpulan data Anda memiliki lebih dari 20.000 baris, Canvas mengambil sampel acak 20.000 baris dan mempratinjau 100 baris pertama dari sampel tersebut. Anda hanya dapat mencari dan menentukan nilai dari baris yang dipratinjau, dan fungsionalitas filter hanya menyaring baris yang dipratinjau dan bukan seluruh kumpulan data.

Transformasi berikut tersedia di SageMaker Canvas bagi Anda untuk mempersiapkan data Anda untuk membangun.

catatan

Anda hanya dapat menggunakan transformasi lanjutan untuk model yang dibangun di atas kumpulan data tabel. Model prediksi teks multi-kategori juga dikecualikan.

Jatuhkan kolom

Anda dapat mengecualikan kolom dari build model Anda dengan menjatuhkannya di tab Build aplikasi SageMaker Canvas. Hapus pilihan kolom yang ingin Anda jatuhkan, dan tidak disertakan saat membuat model.

catatan

Jika Anda menjatuhkan kolom dan kemudian membuat prediksi batch dengan model Anda, SageMaker Canvas menambahkan kolom yang dijatuhkan kembali ke kumpulan data ouput yang tersedia untuk Anda unduh. Namun, SageMaker Canvas tidak menambahkan kolom yang dijatuhkan kembali untuk model deret waktu.

Filter baris

Fungsionalitas filter menyaring baris yang dipratinjau (100 baris pertama dari kumpulan data Anda) sesuai dengan kondisi yang Anda tentukan. Baris pemfilteran membuat pratinjau sementara data dan tidak memengaruhi pembuatan model. Anda dapat memfilter untuk melihat pratinjau baris yang memiliki nilai yang hilang, berisi outlier, atau memenuhi kondisi khusus di kolom yang Anda pilih.

Filter baris dengan nilai yang hilang

Nilai yang hilang adalah kejadian umum dalam kumpulan data pembelajaran mesin. Jika Anda memiliki baris dengan nilai nol atau kosong di kolom tertentu, Anda mungkin ingin memfilter dan melihat pratinjau baris tersebut.

Untuk memfilter nilai yang hilang dari data pratinjau Anda, lakukan hal berikut.

  1. Di tab Build aplikasi SageMaker Canvas, pilih Filter by rows ( Filter icon in the SageMaker Canvas application. ).

  2. Pilih Kolom yang ingin Anda periksa untuk nilai yang hilang.

  3. Untuk Operasi, pilih Tidak ada.

SageMaker Filter kanvas untuk baris yang berisi nilai yang hilang di Kolom yang Anda pilih dan memberikan pratinjau baris yang difilter.

Tangkapan layar filter dengan operasi nilai yang hilang dalam aplikasi SageMaker Canvas.

Filter baris dengan outlier

Outlier, atau nilai langka dalam distribusi dan jangkauan data Anda, dapat berdampak negatif pada akurasi model dan menyebabkan waktu pembuatan yang lebih lama. SageMaker Canvas memungkinkan Anda mendeteksi dan memfilter baris yang berisi outlier di kolom numerik. Anda dapat memilih untuk menentukan outlier dengan standar deviasi atau rentang kustom.

Untuk memfilter outlier dalam data Anda, lakukan hal berikut.

  1. Di tab Build aplikasi SageMaker Canvas, pilih Filter by rows ( Filter icon in the SageMaker Canvas application. ).

  2. Pilih Kolom yang ingin Anda periksa untuk outlier.

  3. Untuk Operasi, pilih Is outlier.

  4. Atur rentang Outlier ke Deviasi standar atau rentang Kustom.

  5. Jika Anda memilih Standar deviasi, tentukan nilai SD (standar deviasi) dari 1-3. Jika Anda memilih Rentang kustom, pilih Persentil atau Angka, lalu tentukan nilai Min dan Maks.

Opsi standar deviasi mendeteksi dan menyaring outlier di kolom numerik menggunakan mean dan standar deviasi. Anda menentukan jumlah standar deviasi suatu nilai harus bervariasi dari rata-rata untuk dianggap sebagai outlier. Misalnya, jika Anda menentukan 3 untuk SD, nilai harus jatuh lebih dari 3 standar deviasi dari mean untuk dianggap sebagai outlier.

Opsi rentang Kustom mendeteksi dan memfilter outlier di kolom numerik menggunakan nilai minimum dan maksimum. Gunakan metode ini jika Anda mengetahui nilai ambang batas yang membatasi outlier. Anda dapat mengatur Jenis rentang ke Persentil atau Angka. Jika Anda memilih Persentil, nilai Min dan Maks harus menjadi minimum dan maksimum rentang persentil (0-100) yang ingin Anda izinkan. Jika Anda memilih Angka, nilai Min dan Maks harus menjadi nilai numerik minimum dan maksimum yang ingin Anda filter dalam data.

Tangkapan layar filter dengan operasi outlier di aplikasi SageMaker Canvas.

Filter baris berdasarkan nilai kustom

Anda dapat memfilter baris dengan nilai yang memenuhi kondisi khusus. Misalnya, Anda mungkin ingin melihat pratinjau baris yang memiliki nilai harga lebih besar dari 100 sebelum menghapusnya. Dengan fungsi ini, Anda dapat memfilter baris yang melebihi ambang batas yang Anda tetapkan dan melihat pratinjau data yang difilter.

Untuk menggunakan fungsionalitas filter khusus, lakukan hal berikut.

  1. Di tab Build aplikasi SageMaker Canvas, pilih Filter by rows ( Filter icon in the SageMaker Canvas application. ).

  2. Pilih Kolom yang ingin Anda periksa.

  3. Pilih jenis Operasi yang ingin Anda gunakan, lalu tentukan nilai untuk kondisi yang dipilih.

Untuk Operasi, Anda dapat memilih salah satu opsi berikut. Perhatikan bahwa operasi yang tersedia bergantung pada tipe data kolom yang Anda pilih. Misalnya, Anda tidak dapat membuat is greater than operasi untuk kolom yang berisi nilai teks.

Operasi Tipe data yang didukung Jenis fitur yang didukung Fungsi

Sama dengan

Numerik, Teks

Biner, Kategoris

Filter baris di mana nilai di Kolom sama dengan nilai yang Anda tentukan.

Tidak sama dengan

Numerik, Teks

Biner, Kategoris

Memfilter baris di mana nilai di Kolom tidak sama dengan nilai yang Anda tentukan.

Kurang dari

Numerik

N/A

Filter baris di mana nilai di Kolom kurang dari nilai yang Anda tentukan.

Kurang dari atau sama dengan

Numerik

N/A

Memfilter baris di mana nilai di Kolom kurang dari atau sama dengan nilai yang Anda tentukan.

Lebih besar dari

Numerik

N/A

Filter baris di mana nilai di Kolom lebih besar dari nilai yang Anda tentukan.

Lebih besar dari atau sama dengan

Numerik

N/A

Filter baris di mana nilai di Kolom lebih besar dari atau sama dengan nilai yang Anda tentukan.

Adalah antara

Numerik

N/A

Memfilter baris di mana nilai di Kolom berada di antara atau sama dengan dua nilai yang Anda tentukan.

Contains

Teks

Kategoris

Filter baris di mana nilai di Kolom berisi nilai yang Anda tentukan.

Starts with

Teks

Kategoris

Filter baris di mana nilai di Kolom dimulai dengan nilai yang Anda tentukan.

Ends with

Kategoris

Kategoris

Filter baris di mana nilai di Kolom berakhir dengan nilai yang Anda tentukan.

Setelah Anda mengatur operasi filter, SageMaker Canvas memperbarui pratinjau kumpulan data untuk menunjukkan kepada Anda data yang difilter.

Screenshot dari filter dengan operasi nilai kustom dalam aplikasi SageMaker Canvas.

Fungsi dan operator

Anda dapat menggunakan fungsi matematika dan operator untuk mengeksplorasi dan mendistribusikan data Anda. Anda dapat menggunakan fungsi yang didukung SageMaker Canvas atau membuat rumus Anda sendiri dengan data yang ada dan membuat kolom baru dengan hasil rumus. Misalnya, Anda dapat menambahkan nilai yang sesuai dari dua kolom dan menyimpan hasilnya ke kolom baru.

Anda dapat membuat pernyataan sarang untuk membuat fungsi yang lebih kompleks. Berikut ini adalah beberapa contoh fungsi bersarang yang mungkin Anda gunakan.

  • Untuk menghitungBMI, Anda bisa menggunakan fungsiweight / (height ^ 2).

  • Untuk mengklasifikasikan usia, Anda dapat menggunakan fungsi Case(age < 18, 'child', age < 65, 'adult', 'senior') ini.

Anda dapat menentukan fungsi dalam tahap persiapan data sebelum Anda membangun model Anda. Untuk menggunakan fungsi, lakukan hal berikut.

  • Di tab Build aplikasi SageMaker Canvas, pilih Lihat semua dan kemudian pilih Rumus khusus untuk membuka panel rumus Kustom.

  • Di panel Formula khusus, Anda dapat memilih Formula untuk ditambahkan ke Resep Model Anda. Setiap rumus diterapkan ke semua nilai di kolom yang Anda tentukan. Untuk rumus yang menerima dua atau lebih kolom sebagai argumen, gunakan kolom dengan tipe data yang cocok; jika tidak, Anda mendapatkan kesalahan atau null nilai di kolom baru.

  • Setelah Anda menentukan Formula, tambahkan nama kolom di bidang Nama Kolom Baru. SageMaker Canvas menggunakan nama ini untuk kolom baru yang dibuat.

  • (Opsional) Pilih Pratinjau untuk melihat pratinjau transformasi Anda.

  • Untuk menambahkan fungsi ke Resep Model Anda, pilih Tambah.

SageMaker Canvas menyimpan hasil fungsi Anda ke kolom baru menggunakan nama yang Anda tentukan di Nama Kolom Baru. Anda dapat melihat atau menghapus fungsi dari panel Resep Model.

SageMaker Canvas mendukung operator berikut untuk fungsi. Anda dapat menggunakan format teks atau format in-line untuk menentukan fungsi Anda.

Operator Deskripsi Jenis data yang didukung Format teks Format in-line

Tambahkan

Mengembalikan jumlah nilai

Numerik

Tambahkan (penjualan1, penjualan2)

penjualan1 + penjualan2

Kurangi

Mengembalikan perbedaan antara nilai-nilai

Numerik

Kurangi (penjualan1, penjualan2)

penjualan1 - penjualan2

Lipat gandakan

Mengembalikan produk dari nilai-nilai

Numerik

Kalikan (penjualan1, penjualan2)

penjualan1 * penjualan2

Membagi

Mengembalikan hasil bagi nilai

Numerik

Membagi (penjualan1, penjualan2)

penjualan1/penjualan2

Mod

Mengembalikan hasil dari operator modulo (sisanya setelah membagi dua nilai)

Numerik

Mod (penjualan1, penjualan2)

penjualan1% penjualan2

Abs

Mengembalikan nilai absolut dari nilai

Numerik

Abs (penjualan1)

N/A

Menegasikan

Mengembalikan nilai negatif

Numerik

Menegasikan (c1)

-c1

Exp

Mengembalikan e (nomor Euler) dinaikkan ke kekuatan nilai

Numerik

Exp (penjualan1)

N/A

Log

Mengembalikan logaritma (basis 10) dari nilai

Numerik

Log (penjualan1)

N/A

PjM

Mengembalikan logaritma natural (basis e) dari nilai

Numerik

Ln (penjualan1)

N/A

Pow

Mengembalikan nilai yang dinaikkan ke daya

Numerik

Pow (penjualan1, 2)

penjualan1 ^ 2

Jika

Mengembalikan label benar atau salah berdasarkan kondisi yang Anda tentukan

Boolean, Numerik, Teks

Jika (penjualan1> 7000, 'truelabel, 'falselabel')

N/A

Atau

Mengembalikan nilai Boolean apakah salah satu nilai tertentu atau kondisi adalah benar atau tidak

Boolean

Atau (fullprice, discount)

fullprice || discount

Dan

Mengembalikan nilai Boolean apakah dua nilai atau kondisi yang ditentukan benar atau tidak

Boolean

Dan (penjualan1, penjualan2)

penjualan1 && penjualan2

Bukan

Mengembalikan nilai Boolean yang merupakan kebalikan dari nilai tertentu atau kondisi

Boolean

Tidak (penjualan1)

! penjualan1

Kasus

Mengembalikan nilai Boolean berdasarkan pernyataan bersyarat (mengembalikan c1 jika cond1 adalah true, mengembalikan c2 jika cond2 adalah true, else mengembalikan c3)

Boolean, Numerik, Teks

Kasus (cond1, c1, cond2, c2, c3)

N/A

Sama

Mengembalikan nilai Boolean apakah dua nilai sama

Boolean, Numerik, Teks

N/A

c1 = c2

c1 == c2

Tidak sama

Mengembalikan nilai Boolean apakah dua nilai tidak sama

Boolean, Numerik, Teks

N/A

c1! = c2

Kurang dari

Mengembalikan nilai Boolean apakah c1 kurang dari c2

Boolean, Numerik, Teks

N/A

c1 < c2

Lebih besar dari

Mengembalikan nilai Boolean apakah c1 lebih besar dari c2

Boolean, Numerik, Teks

N/A

c1 > c2

Kurang dari atau sama

Mengembalikan nilai Boolean apakah c1 kurang dari atau sama dengan c2

Boolean, Numerik, Teks

N/A

c1 <= c2

Lebih besar dari atau sama

Mengembalikan nilai Boolean apakah c1 lebih besar dari atau sama dengan c2

Boolean, Numerik, Teks

N/A

c1 >= c2

SageMaker Canvas juga mendukung operator agregat, yang dapat melakukan operasi seperti menghitung jumlah semua nilai atau menemukan nilai minimum dalam kolom. Anda dapat menggunakan operator agregat dalam kombinasi dengan operator standar dalam fungsi Anda. Misalnya, untuk menghitung selisih nilai dari mean, Anda bisa menggunakan fungsi tersebutAbs(height – avg(height)). SageMaker Canvas mendukung operator agregat berikut.

Operator agregat Deskripsi format Contoh

sum

Mengembalikan jumlah semua nilai dalam kolom

sum

jumlah (c1)

minimum

Mengembalikan nilai minimum kolom

min

min (c2)

maksimum

Mengembalikan nilai maksimum kolom

max

maks (c3)

rata-rata

Mengembalikan nilai rata-rata kolom

rata-rata

rata-rata (c4)

std

Mengembalikan standar deviasi sampel kolom

std

std (c1)

stddev

Mengembalikan standar deviasi dari nilai-nilai dalam kolom

stddev

stddev (c1)

perbedaan

Mengembalikan varians nilai yang tidak bias dalam kolom

perbedaan

varians (c1)

kira-kira_count_distinct

Mengembalikan perkiraan jumlah item yang berbeda dalam kolom

kira-kira_count_distinct

kira-kira_count_distinct (c1)

count

Mengembalikan jumlah item dalam kolom

count

menghitung (c1)

first

Mengembalikan nilai pertama dari kolom

first

pertama (c1)

last

Mengembalikan nilai terakhir dari kolom

last

terakhir (c1)

stddev_pop

Mengembalikan standar deviasi populasi kolom

stddev_pop

stddev_pop (c1)

variance_pop

Mengembalikan varians populasi dari nilai-nilai dalam kolom

variance_pop

variance_pop (c1)

Kelola baris

Dengan transformasi Kelola baris, Anda dapat melakukan pengurutan, acak acak, dan menghapus baris data dari kumpulan data.

Urutkan baris

Untuk mengurutkan baris dalam kumpulan data dengan kolom tertentu, lakukan hal berikut.

  1. Di tab Build aplikasi SageMaker Canvas, pilih Kelola baris dan kemudian pilih Urutkan baris.

  2. Untuk Urutkan Kolom, pilih kolom yang ingin Anda urutkan berdasarkan.

  3. Untuk Urutan Urutan, pilih Ascending atau Descending.

  4. Pilih Tambah untuk menambahkan transformasi ke resep Model.

Kocokkan baris

Untuk mengacak baris dalam kumpulan data secara acak, lakukan hal berikut.

  1. Di tab Build aplikasi SageMaker Canvas, pilih Manage rows dan kemudian pilih Shuffle rows.

  2. Pilih Tambah untuk menambahkan transformasi ke resep Model.

Jatuhkan baris duplikat

Untuk menghapus baris duplikat dalam kumpulan data, lakukan hal berikut.

  1. Di tab Build aplikasi SageMaker Canvas, pilih Kelola baris dan kemudian pilih Jatuhkan baris duplikat.

  2. Pilih Tambah untuk menambahkan transformasi ke resep Model.

Hapus baris dengan nilai yang hilang

Nilai yang hilang adalah kejadian umum dalam kumpulan data pembelajaran mesin dan dapat memengaruhi akurasi model. Gunakan transformasi ini jika Anda ingin menjatuhkan baris dengan nilai nol atau kosong di kolom tertentu.

Untuk menghapus baris yang berisi nilai yang hilang di kolom tertentu, lakukan hal berikut.

  1. Di tab Build aplikasi SageMaker Canvas, pilih Kelola baris.

  2. Pilih Jatuhkan baris dengan nilai yang hilang.

  3. Pilih Tambah untuk menambahkan transformasi ke resep Model.

SageMaker Kanvas menjatuhkan baris yang berisi nilai yang hilang di Kolom yang Anda pilih. Setelah menghapus baris dari dataset, SageMaker Canvas menambahkan transformasi di bagian resep Model. Jika Anda menghapus transformasi dari bagian Resep model, baris kembali ke kumpulan data Anda.

Tangkapan layar dari baris hapus dengan operasi nilai yang hilang dalam aplikasi SageMaker Canvas.

Hapus baris dengan outlier

Outlier, atau nilai langka dalam distribusi dan jangkauan data Anda, dapat berdampak negatif pada akurasi model dan menyebabkan waktu pembuatan yang lebih lama. Dengan SageMaker Canvas, Anda dapat mendeteksi dan menghapus baris yang berisi outlier di kolom numerik. Anda dapat memilih untuk menentukan outlier dengan standar deviasi atau rentang kustom.

Untuk menghapus outlier dari data Anda, lakukan hal berikut.

  1. Di tab Build aplikasi SageMaker Canvas, pilih Kelola baris.

  2. Pilih Jatuhkan baris dengan nilai outlier.

  3. Pilih Kolom yang ingin Anda periksa untuk outlier.

  4. Atur Operator ke Deviasi standar, Rentang numerik kustom, atau Rentang kuantil kustom.

  5. Jika Anda memilih Standar deviasi, tentukan Nilai standar deviasi (standar deviasi) dari 1-3. Jika Anda memilih Rentang numerik khusus atau Rentang kuantil khusus, tentukan nilai Min dan Maks (angka untuk rentang numerik, atau persentil antara 0— 100% untuk rentang kuantil).

  6. Pilih Tambah untuk menambahkan transformasi ke resep Model.

Opsi standar deviasi mendeteksi dan menghapus outlier dalam kolom numerik menggunakan mean dan standar deviasi. Anda menentukan jumlah standar deviasi suatu nilai harus bervariasi dari rata-rata untuk dianggap sebagai outlier. Misalnya, jika Anda menentukan 3 untuk Standar deviasi, nilai harus jatuh lebih dari 3 standar deviasi dari rata-rata untuk dianggap sebagai outlier.

Rentang numerik kustom dan pilihan rentang kuantil kustom mendeteksi dan menghapus outlier dalam kolom numerik menggunakan nilai minimum dan maksimum. Gunakan metode ini jika Anda mengetahui nilai ambang batas yang membatasi outlier. Jika Anda memilih rentang numerik, nilai Min dan Max harus menjadi nilai numerik minimum dan maksimum yang ingin Anda izinkan dalam data. Jika Anda memilih rentang kuantil, nilai Min dan Maks harus menjadi minimum dan maksimum rentang persentil (0-100) yang ingin Anda izinkan.

Setelah menghapus baris dari dataset, SageMaker Canvas menambahkan transformasi di bagian resep Model. Jika Anda menghapus transformasi dari bagian Resep model, baris kembali ke kumpulan data Anda.

Tangkapan layar dari baris hapus dengan operasi outlier di aplikasi SageMaker Canvas.

Hapus baris dengan nilai kustom

Anda dapat menghapus baris dengan nilai yang memenuhi kondisi khusus. Misalnya, Anda mungkin ingin mengecualikan semua baris dengan nilai harga lebih dari 100 saat membuat model Anda. Dengan transformasi ini, Anda dapat membuat aturan yang menghapus semua baris yang melebihi ambang batas yang Anda tetapkan.

Untuk menggunakan transformasi hapus kustom, lakukan hal berikut.

  1. Di tab Build aplikasi SageMaker Canvas, pilih Kelola baris.

  2. Pilih Jatuhkan baris dengan rumus.

  3. Pilih Kolom yang ingin Anda periksa.

  4. Pilih jenis Operasi yang ingin Anda gunakan, lalu tentukan nilai untuk kondisi yang dipilih.

  5. Pilih Tambah untuk menambahkan transformasi ke resep Model.

Untuk Operasi, Anda dapat memilih salah satu opsi berikut. Perhatikan bahwa operasi yang tersedia bergantung pada tipe data kolom yang Anda pilih. Misalnya, Anda tidak dapat membuat is greater than operasi untuk kolom yang berisi nilai teks.

Operasi Tipe data yang didukung Jenis fitur yang didukung Fungsi

Sama dengan

Numerik, Teks

Biner, Kategoris

Menghapus baris di mana nilai di Kolom sama dengan nilai yang Anda tentukan.

Tidak sama dengan

Numerik, Teks

Biner, Kategoris

Menghapus baris di mana nilai di Kolom tidak sama dengan nilai yang Anda tentukan.

Kurang dari

Numerik

N/A

Menghapus baris di mana nilai di Kolom kurang dari nilai yang Anda tentukan.

Kurang dari atau sama dengan

Numerik

N/A

Menghapus baris di mana nilai di Kolom kurang dari atau sama dengan nilai yang Anda tentukan.

Lebih besar dari

Numerik

N/A

Menghapus baris di mana nilai di Kolom lebih besar dari nilai yang Anda tentukan.

Lebih besar dari atau sama dengan

Numerik

N/A

Menghapus baris di mana nilai di Kolom lebih besar dari atau sama dengan nilai yang Anda tentukan.

Adalah antara

Numerik

N/A

Menghapus baris di mana nilai di Kolom berada di antara atau sama dengan dua nilai yang Anda tentukan.

Contains

Teks

Kategoris

Menghapus baris di mana nilai di Kolom berisi nilai yang Anda tentukan.

Starts with

Teks

Kategoris

Menghapus baris di mana nilai di Kolom dimulai dengan nilai yang Anda tentukan.

Ends with

Teks

Kategoris

Menghapus baris di mana nilai di Kolom berakhir dengan nilai yang Anda tentukan.

Setelah menghapus baris dari dataset, SageMaker Canvas menambahkan transformasi di bagian resep Model. Jika Anda menghapus transformasi dari bagian Resep model, baris kembali ke kumpulan data Anda.

Screenshot dari baris hapus dengan operasi nilai kustom di aplikasi SageMaker Canvas.

Ubah Nama kolom

Dengan transformasi kolom ganti nama, Anda dapat mengganti nama kolom dalam data Anda. Saat Anda mengganti nama kolom, SageMaker Canvas mengubah nama kolom di input model.

Anda dapat mengganti nama kolom dalam kumpulan data Anda dengan mengklik dua kali pada nama kolom di tab Build aplikasi SageMaker Canvas dan memasukkan nama baru. Menekan tombol Enter mengirimkan perubahan, dan mengklik di mana saja di luar input membatalkan perubahan. Anda juga dapat mengganti nama kolom dengan mengklik ikon Opsi lainnya ( Vertical ellipsis icon representing a menu or more options. ), terletak di akhir baris dalam tampilan daftar atau di akhir sel header dalam tampilan kisi, dan memilih Ganti nama.

Nama kolom Anda tidak boleh lebih dari 32 karakter atau memiliki garis bawah ganda (__), dan Anda tidak dapat mengganti nama kolom menjadi nama yang sama dengan kolom lain. Anda juga tidak dapat mengganti nama kolom yang dijatuhkan.

Tangkapan layar berikut menunjukkan cara mengganti nama kolom dengan mengklik dua kali nama kolom.

Tangkapan layar mengganti nama kolom dengan metode klik dua kali di aplikasi SageMaker Canvas.

Saat Anda mengganti nama kolom, SageMaker Canvas menambahkan transformasi di bagian Resep Model. Jika Anda menghapus transformasi dari bagian Resep Model, kolom kembali ke nama aslinya.

Kelola kolom

Dengan transformasi berikut, Anda dapat mengubah tipe data kolom dan mengganti nilai atau outlier yang hilang untuk kolom tertentu. SageMaker Canvas menggunakan tipe atau nilai data yang diperbarui saat membuat model Anda tetapi tidak mengubah kumpulan data asli Anda. Perhatikan bahwa jika Anda menjatuhkan kolom dari kumpulan data menggunakan Jatuhkan kolom transformasi, Anda tidak dapat mengganti nilai di kolom itu.

Ganti nilai yang hilang

Nilai yang hilang adalah kejadian umum dalam kumpulan data pembelajaran mesin dan dapat memengaruhi akurasi model. Anda dapat memilih untuk menjatuhkan baris yang memiliki nilai yang hilang, tetapi model Anda lebih akurat jika Anda memilih untuk mengganti nilai yang hilang. Dengan transformasi ini, Anda dapat mengganti nilai yang hilang di kolom numerik dengan rata-rata atau median data dalam kolom, atau Anda juga dapat menentukan nilai khusus untuk mengganti nilai yang hilang. Untuk kolom non-numerik, Anda dapat mengganti nilai yang hilang dengan mode (nilai paling umum) kolom atau nilai khusus.

Gunakan transformasi ini jika Anda ingin mengganti nilai nol atau kosong di kolom tertentu. Untuk mengganti nilai yang hilang di kolom tertentu, lakukan hal berikut.

  1. Di tab Build aplikasi SageMaker Canvas, pilih Kelola kolom.

  2. Pilih Ganti nilai yang hilang.

  3. Pilih Kolom di mana Anda ingin mengganti nilai yang hilang.

  4. Atur Mode ke Manual untuk mengganti nilai yang hilang dengan nilai yang Anda tentukan. Dengan pengaturan Otomatis (default), SageMaker Canvas menggantikan nilai yang hilang dengan nilai imputasi yang paling sesuai dengan data Anda. Metode imputasi ini dilakukan secara otomatis untuk setiap model build, kecuali Anda menentukan mode Manual.

  5. Mengatur Ganti dengan nilai:

    • Jika kolom Anda numerik, pilih Mean, Median, atau Custom. Mean menggantikan nilai yang hilang dengan mean untuk kolom, dan Median menggantikan nilai yang hilang dengan median untuk kolom. Jika Anda memilih Kustom, maka Anda harus menentukan nilai kustom yang ingin Anda gunakan untuk mengganti nilai yang hilang.

    • Jika kolom Anda non-numerik, pilih Mode atau Kustom. Mode menggantikan nilai yang hilang dengan mode, atau nilai yang paling umum, untuk kolom. Untuk Kustom, tentukan nilai kustom. yang ingin Anda gunakan untuk mengganti nilai yang hilang.

  6. Pilih Tambah untuk menambahkan transformasi ke resep Model.

Setelah mengganti nilai yang hilang dalam kumpulan data, SageMaker Canvas menambahkan transformasi di bagian resep Model. Jika Anda menghapus transformasi dari bagian Resep model, nilai yang hilang kembali ke kumpulan data.

Screenshot dari operasi ganti nilai yang hilang di aplikasi SageMaker Canvas.

Ganti outlier

Outlier, atau nilai langka dalam distribusi dan jangkauan data Anda, dapat berdampak negatif pada akurasi model dan menyebabkan waktu pembuatan yang lebih lama. SageMaker Canvas memungkinkan Anda mendeteksi outlier di kolom numerik dan mengganti outlier dengan nilai yang berada dalam rentang yang diterima dalam data Anda. Anda dapat memilih untuk menentukan outlier dengan standar deviasi atau rentang kustom, dan Anda dapat mengganti outlier dengan nilai minimum dan maksimum dalam rentang yang diterima.

Untuk mengganti outlier dalam data Anda, lakukan hal berikut.

  1. Di tab Build aplikasi SageMaker Canvas, pilih Kelola kolom.

  2. Pilih Ganti nilai outlier.

  3. Pilih Kolom di mana Anda ingin mengganti outlier.

  4. Untuk Tentukan pencilan, pilih Deviasi standar, Rentang numerik khusus, atau Rentang kuantil khusus.

  5. Jika Anda memilih Standar deviasi, tentukan Nilai standar deviasi (standar deviasi) dari 1-3. Jika Anda memilih Rentang numerik khusus atau Rentang kuantil khusus, tentukan nilai Min dan Maks (angka untuk rentang numerik, atau persentil antara 0— 100% untuk rentang kuantil).

  6. Untuk Ganti dengan, pilih rentang Min/maks.

  7. Pilih Tambah untuk menambahkan transformasi ke resep Model.

Opsi standar deviasi mendeteksi outlier dalam kolom numerik menggunakan mean dan standar deviasi. Anda menentukan jumlah standar deviasi suatu nilai harus bervariasi dari rata-rata untuk dianggap sebagai outlier. Misalnya, jika Anda menentukan 3 untuk Standar deviasi, nilai harus jatuh lebih dari 3 standar deviasi dari rata-rata untuk dianggap sebagai outlier. SageMaker Canvas menggantikan outlier dengan nilai minimum atau nilai maksimum dalam kisaran yang diterima. Misalnya, jika Anda mengonfigurasi standar deviasi untuk hanya menyertakan nilai dari 200-300, maka SageMaker Canvas mengubah nilai 198 menjadi 200 (minimum).

Rentang numerik kustom dan pilihan rentang kuantil kustom mendeteksi outlier dalam kolom numerik menggunakan nilai minimum dan maksimum. Gunakan metode ini jika Anda mengetahui nilai ambang batas yang membatasi outlier. Jika Anda memilih rentang numerik, nilai Min dan Max harus menjadi nilai numerik minimum dan maksimum yang ingin Anda izinkan. SageMaker Canvas menggantikan nilai apa pun yang berada di luar nilai minimum dan maksimum ke nilai minimum dan maksimum. Misalnya, jika rentang Anda hanya mengizinkan nilai dari 1-100, maka SageMaker Canvas mengubah nilai 102 menjadi 100 (maksimum). Jika Anda memilih rentang kuantil, nilai Min dan Maks harus menjadi minimum dan maksimum rentang persentil (0-100) yang ingin Anda izinkan.

Setelah mengganti nilai dalam kumpulan data, SageMaker Canvas menambahkan transformasi di bagian resep Model. Jika Anda menghapus transformasi dari bagian Resep model, nilai asli kembali ke kumpulan data.

Tangkapan layar operasi ganti outlier di aplikasi SageMaker Canvas.

Ubah tipe data

SageMaker Canvas memberi Anda kemampuan untuk mengubah tipe data kolom Anda antara numerik, teks, dan datetime, sementara juga menampilkan tipe fitur terkait untuk tipe data tersebut. Tipe data mengacu pada format data dan cara penyimpanannya, sedangkan tipe fitur mengacu pada karakteristik data yang digunakan dalam algoritma pembelajaran mesin, seperti biner atau kategoris. Ini memberi Anda fleksibilitas untuk secara manual mengubah jenis data di kolom Anda berdasarkan fitur. Kemampuan untuk memilih tipe data yang tepat memastikan integritas dan akurasi data sebelum membangun model. Tipe data ini digunakan saat membuat model.

catatan

Saat ini, mengubah jenis fitur (misalnya, dari biner ke kategoris) tidak didukung.

Tabel berikut mencantumkan semua tipe data yang didukung di Canvas.

Tipe data Deskripsi Contoh

Numerik

Data numerik mewakili nilai numerik

1, 2, 3

1.1, 1.2. 1.3

Teks

Data teks mewakili urutan karakter, seperti nama atau deskripsi

A, B, C, D

apel, pisang, jeruk

1A! , 2A! , 3A!

Datetime

Data datetime mewakili tanggal dan waktu dalam format stempel waktu

2019-07-01 01:00:00, 2019-07-01 02:00:00, 2019-07-01 03:00:00

Tabel berikut mencantumkan semua jenis fitur yang didukung di Canvas.

Jenis fitur Deskripsi Contoh

Biner

Fitur biner mewakili dua nilai yang mungkin

0, 1, 0, 1, 0 (2 nilai berbeda)

benar, salah, benar (2 nilai berbeda)

Kategoris

Fitur kategoris mewakili kategori atau kelompok yang berbeda

apel, pisang, jeruk, apel (3 nilai berbeda)

A, B, C, D, E, A, D, C (5 nilai berbeda)

Untuk memodifikasi tipe data kolom dalam kumpulan data, lakukan hal berikut.

  1. Di tab Build aplikasi SageMaker Canvas, buka tampilan Kolom atau tampilan Grid dan pilih dropdown tipe Data untuk kolom tertentu.

  2. Dalam tarik-turun tipe Data, pilih tipe data yang akan dikonversi. Screenshot berikut menunjukkan menu dropdown.

    Menu tarik-turun konversi tipe data untuk kolom, ditampilkan di tab Build.
  3. Untuk Kolom, pilih atau verifikasi kolom yang ingin Anda ubah tipe datanya.

  4. Untuk tipe data baru, pilih atau verifikasi tipe data baru yang ingin Anda konversi.

  5. Jika tipe data baru adalah Datetime atauNumeric, pilih salah satu opsi berikut di bawah Menangani nilai yang tidak valid:

    1. Ganti dengan nilai kosong - Nilai tidak valid diganti dengan nilai kosong

    2. Hapus baris - Baris dengan nilai tidak valid dihapus dari kumpulan data

    3. Ganti dengan nilai kustom - Nilai tidak valid diganti dengan Nilai Kustom yang Anda tentukan.

  6. Pilih Tambah untuk menambahkan transformasi ke resep Model.

Tipe data untuk kolom Anda sekarang harus diperbarui.

Siapkan data deret waktu

Gunakan fungsionalitas berikut untuk menyiapkan data deret waktu Anda untuk membangun model peramalan deret waktu.

Sampel ulang data deret waktu

Dengan mengambil sampel ulang data deret waktu, Anda dapat menetapkan interval reguler untuk pengamatan dalam kumpulan data deret waktu Anda. Ini sangat berguna ketika bekerja dengan data deret waktu yang berisi pengamatan dengan jarak yang tidak beraturan. Misalnya, Anda dapat menggunakan resampling untuk mengubah kumpulan data dengan pengamatan yang direkam setiap interval satu jam, dua jam dan tiga jam menjadi interval satu jam reguler di antara pengamatan. Algoritma peramalan membutuhkan pengamatan yang harus dilakukan secara berkala.

Untuk mengambil sampel ulang data deret waktu, lakukan hal berikut.

  1. Di tab Build aplikasi SageMaker Canvas, pilih Time series.

  2. Pilih Sampel Ulang.

  3. Untuk kolom Timestamp, pilih kolom yang ingin Anda terapkan transformasi. Anda hanya dapat memilih kolom dari jenis Datetime.

  4. Di bagian Pengaturan frekuensi, pilih Frekuensi dan Tingkat. Frekuensi adalah satuan frekuensi dan Rate adalah interval dari satuan frekuensi yang akan diterapkan pada kolom. Misalnya, memilih Calendar Day untuk nilai Frekuensi dan 1 untuk Nilai menetapkan interval untuk meningkat setiap 1 hari kalender, seperti2023-03-26 00:00:00,2023-03-27 00:00:00,2023-03-28 00:00:00. Lihat tabel setelah prosedur ini untuk daftar lengkap nilai Frekuensi.

  5. Pilih Tambah untuk menambahkan transformasi ke resep Model.

Tabel berikut mencantumkan semua jenis Frekuensi yang dapat Anda pilih saat pengambilan sampel ulang data deret waktu.

Frekuensi Deskripsi Contoh nilai (dengan asumsi Rate adalah 1)

Hari Kerja

Sampel ulang pengamatan di kolom datetime menjadi 5 hari kerja dalam seminggu (Senin, Selasa, Rabu, Kamis, Jumat)

2023-03-24 00:00:00

2023-03-27 00:00:00

2023-03-28 00:00:00

2023-03-29 00:00:00

2023-03-30 00:00:00

2023-03-31 00:00:00

2023-04-03 00:00:00

Hari Kalender

Sampel ulang pengamatan di kolom datetime ke semua 7 hari dalam seminggu (Senin, Selasa, Rabu, Kamis, Jumat, Sabtu, Minggu)

2023-03-26 00:00:00

2023-03-27 00:00:00

2023-03-28 00:00:00

2023-03-29 00:00:00

2023-03-30 00:00:00

2023-03-31 00:00:00

2023-04-01 00:00:00

Minggu

Sampel ulang pengamatan di kolom datetime ke hari pertama setiap minggu

2023-03-13 00:00:00

2023-03-20 00:00:00

2023-03-27 00:00:00

2023-04-03 00:00:00

Bulan

Sampel ulang pengamatan di kolom datetime ke hari pertama setiap bulan

2023-03-01 00:00:00

2023-04-01 00:00:00

2023-05-01 00:00:00

2023-06-01 00:00:00

Kuartal Tahunan

Sampel ulang pengamatan di kolom datetime ke hari terakhir setiap kuartal

2023-03-31 00:00:00

2023-06-30 00:00:00

2023-09-30 00:00:00

2023-12-31 00:00:00

Tahun

Sampel ulang pengamatan di kolom datetime ke hari terakhir setiap tahun

2022-12-31 0:00:00

2023-12-31 00:00:00

2024-12-31 00:00:00

Jam

Sampel ulang pengamatan di kolom datetime ke setiap jam setiap hari

2023-03-24 00:00:00

2023-03-24 01:00:00

2023-03-24 02:00:00

2023-03-24 03:00:00

Menit

Sampel ulang pengamatan di kolom datetime ke setiap menit setiap jam

2023-03-24 00:00:00

2023-03-24 00:01:00

2023-03-24 00:02:00

2023-03-24 00:03:00

Detik

Sampel ulang pengamatan di kolom datetime ke setiap detik setiap menit

2023-03-24 00:00:00

2023-03-24 00:00:01

2023-03-24 00:00:02

2023-03-24 00:00:03

Saat menerapkan transformasi resampling, Anda dapat menggunakan opsi Lanjutan untuk menentukan bagaimana nilai yang dihasilkan dari kolom lainnya (selain kolom stempel waktu) di kumpulan data Anda dimodifikasi. Ini dapat dicapai dengan menentukan metodologi resampling, yang dapat berupa downsampling atau upsampling untuk kolom numerik dan non-numerik.

Downsampling meningkatkan interval antara pengamatan dalam dataset. Misalnya, jika Anda menurunkan sampel pengamatan yang diambil setiap jam atau setiap dua jam, setiap pengamatan dalam kumpulan data Anda dilakukan setiap dua jam. Nilai kolom lain dari pengamatan per jam digabungkan menjadi satu nilai menggunakan metode kombinasi. Tabel berikut menunjukkan contoh data deret waktu downsampling dengan menggunakan mean sebagai metode kombinasi. Data di-downsample dari setiap dua jam menjadi setiap jam.

Tabel berikut menunjukkan pembacaan suhu per jam selama sehari sebelum downsampling.

Stempel Waktu Suhu (Celcius)

12:00pm

30

1:00 pagi

32

2:00 pagi

35

3:00 pagi

32

4:00 pagi

30

Tabel berikut menunjukkan pembacaan suhu setelah downsampling untuk setiap dua jam.

Stempel Waktu Suhu (Celcius)

12:00pm

30

2:00 pagi

33.5

2:00 pagi

35

4:00 pagi

32.5

Untuk menurunkan sampel data deret waktu, lakukan hal berikut:

  1. Perluas bagian Advanced di bawah Transformasi Resample.

  2. Pilih kombinasi non-numerik untuk menentukan metode kombinasi untuk kolom non-numerik. Lihat tabel di bawah ini untuk daftar lengkap metode kombinasi.

  3. Pilih kombinasi numerik untuk menentukan metode kombinasi untuk kolom numerik. Lihat tabel di bawah ini untuk daftar lengkap metode kombinasi.

Jika Anda tidak menentukan metode kombinasi, nilai default adalah Most Common untuk kombinasi Non-numerik dan Mean untuk kombinasi Numerik. Tabel berikut mencantumkan metode untuk kombinasi numerik dan non-numerik.

Metodologi downsampling Metode kombinasi Deskripsi

Kombinasi non-numerik

Paling Umum

Nilai agregat di kolom non-numerik dengan nilai yang paling umum terjadi

Kombinasi non-numerik

Terakhir

Nilai agregat di kolom non-numerik dengan nilai terakhir di kolom

Kombinasi non-numerik

Pertama

Nilai agregat di kolom non-numerik dengan nilai pertama di kolom

Kombinasi numerik

Berarti

Nilai agregat di kolom numerik dengan mengambil rata-rata semua nilai di kolom

Kombinasi numerik

Median

Nilai agregat di kolom numerik dengan mengambil median semua nilai di kolom

Kombinasi numerik

Min

Nilai agregat di kolom numerik dengan mengambil minimum semua nilai di kolom

Kombinasi numerik

Maks

Nilai agregat di kolom numerik dengan mengambil maksimum semua nilai di kolom

Kombinasi numerik

Jumlah

Nilai agregat di kolom numerik dengan menambahkan semua nilai di kolom

Kombinasi numerik

Kuantil

Nilai agregat di kolom numerik dengan mengambil kuantil semua nilai di kolom

Upsampling mengurangi interval antara pengamatan dalam dataset. Misalnya, jika Anda mengambil sampel pengamatan yang diambil setiap dua jam ke dalam pengamatan per jam, nilai kolom lain dari pengamatan per jam diinterpolasi dari yang telah diambil setiap dua jam.

Untuk meningkatkan data deret waktu, lakukan hal berikut:

  1. Perluas bagian Advanced di bawah Transformasi Resample.

  2. Pilih estimasi non-numerik untuk menentukan metode estimasi untuk kolom non-numerik. Lihat tabel setelah prosedur ini untuk daftar lengkap metode.

  3. Pilih Estimasi numerik untuk menentukan metode estimasi untuk kolom numerik. Lihat tabel di bawah ini untuk daftar lengkap metode.

  4. (Opsional) Pilih Kolom ID untuk menentukan kolom IDs yang memiliki pengamatan deret waktu. Tentukan opsi ini jika kumpulan data Anda memiliki dua deret waktu. Jika Anda memiliki kolom yang hanya mewakili satu deret waktu, jangan tentukan nilai untuk bidang ini. Misalnya, Anda dapat memiliki kumpulan data yang memiliki kolom id danpurchase. idKolom memiliki nilai-nilai berikut:[1, 2, 2, 1]. purchaseKolom memiliki nilai-nilai berikut[$2, $3, $4, $1]. Oleh karena itu, kumpulan data memiliki dua deret waktu—satu deret waktu adalah:1: [$2, $1], dan deret waktu lainnya adalah. 2: [$3, $4]

Jika Anda tidak menentukan metode estimasi, nilai default adalah Forward Fill untuk estimasi non-numerik dan Linear untuk estimasi Numerik. Tabel berikut mencantumkan metode untuk estimasi.

Metodologi upsampling Metode estimasi Deskripsi

Estimasi non-numerik

Isi Maju

Interpolasi nilai di kolom non-numerik dengan mengambil nilai berurutan setelah semua nilai di kolom

Estimasi non-numerik

Isi Mundur

Interpolasi nilai di kolom non-numerik dengan mengambil nilai berurutan sebelum semua nilai di kolom

Estimasi non-numerik

Tetap Hilang

Interpolasi nilai di kolom non-numerik dengan menunjukkan nilai kosong

Estimasi numerik

Linear, Waktu, Indeks, Nol, S-Linear, Terdekat, Kuadrat, Kubik, Barycentric, Polinomial, Krogh, Polinomial Sepotong, Spline, P-chip, Akima, Cubic Spline, Dari Derivatif

Interpolasi nilai dalam kolom numerik dengan menggunakan interpolator specfied. Untuk informasi tentang metode interpolasi, lihat panda. DataFrame.interpolate dalam dokumentasi panda.

Tangkapan layar berikut menunjukkan Pengaturan lanjutan dengan bidang untuk downsampling dan upsampling diisi.

Aplikasi Canvas, dengan panel samping resampling deret waktu yang menunjukkan opsi lanjutan.

Gunakan ekstraksi datetime

Dengan transformasi ekstraksi datetime, Anda dapat mengekstrak nilai dari kolom datetime ke kolom terpisah. Misalnya, jika Anda memiliki kolom yang berisi tanggal pembelian, Anda dapat mengekstrak nilai bulan ke kolom terpisah dan menggunakan kolom baru saat membuat model Anda. Anda juga dapat mengekstrak beberapa nilai untuk memisahkan kolom dengan satu transformasi.

Kolom datetime Anda harus menggunakan format stempel waktu yang didukung. Untuk daftar format yang didukung SageMaker Canvas, lihatPrakiraan Deret Waktu di Amazon SageMaker Canvas. Jika kumpulan data Anda tidak menggunakan salah satu format yang didukung, perbarui kumpulan data Anda untuk menggunakan format stempel waktu yang didukung dan impor ulang ke SageMaker Amazon Canvas sebelum membuat model Anda.

Untuk melakukan ekstraksi datetime, lakukan hal berikut.

  1. Di tab Build aplikasi SageMaker Canvas, pada bilah transformasi, pilih Lihat semua.

  2. Pilih fitur Ekstrak.

  3. Pilih kolom Timestamp dari mana Anda ingin mengekstrak nilai.

  4. Untuk Nilai, pilih satu atau beberapa nilai untuk diekstrak dari kolom. Nilai yang dapat Anda ekstrak dari kolom stempel waktu adalah Tahun, Bulan, Hari, Jam, Minggu tahun, Hari tahun, dan Kuartal.

  5. (Opsional) Pilih Pratinjau untuk melihat pratinjau hasil transformasi.

  6. Pilih Tambah untuk menambahkan transformasi ke resep Model.

SageMaker Canvas membuat kolom baru dalam kumpulan data untuk setiap nilai yang Anda ekstrak. Kecuali untuk nilai Tahun, SageMaker Canvas menggunakan pengkodean berbasis 0 untuk nilai yang diekstraksi. Misalnya, jika Anda mengekstrak nilai Bulan, Januari diekstraksi sebagai 0, dan Februari diekstraksi sebagai 1.

Tangkapan layar kotak ekstraksi datetime di aplikasi SageMaker Canvas.

Anda dapat melihat transformasi yang tercantum di bagian Resep model. Jika Anda menghapus transformasi dari bagian Resep model, kolom baru akan dihapus dari kumpulan data.