Jelajahi data Anda menggunakan analitik - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Jelajahi data Anda menggunakan analitik

catatan

Anda hanya dapat menggunakan analisis SageMaker Canvas untuk model yang dibangun di atas kumpulan data tabular. Model prediksi teks multi-kategori juga dikecualikan.

Dengan analitik di Amazon SageMaker Canvas, Anda dapat menjelajahi kumpulan data dan mendapatkan wawasan tentang semua variabel sebelum membuat model. Anda dapat menentukan hubungan antar fitur dalam kumpulan data Anda menggunakan matriks korelasi. Anda dapat menggunakan teknik ini untuk meringkas kumpulan data Anda ke dalam matriks yang menunjukkan korelasi antara dua atau lebih nilai. Ini membantu Anda mengidentifikasi dan memvisualisasikan pola dalam kumpulan data tertentu untuk analisis data lanjutan.

Matriks menunjukkan korelasi antara setiap fitur sebagai positif, negatif, atau netral. Anda mungkin ingin menyertakan fitur yang memiliki korelasi tinggi satu sama lain saat membangun model Anda. Fitur yang memiliki sedikit atau tanpa korelasi mungkin tidak relevan dengan model Anda, dan Anda dapat menghapus fitur tersebut saat membuat model Anda.

Untuk memulai dengan matriks korelasi di SageMaker Canvas, lihat bagian berikut.

Buat matriks korelasi

Anda dapat membuat matriks korelasi saat Anda bersiap untuk membangun model di tab Build aplikasi SageMaker Canvas.

Untuk petunjuk tentang cara mulai membuat model, lihatMembangun model.

Setelah Anda mulai menyiapkan model dalam aplikasi SageMaker Canvas, lakukan hal berikut:

  1. Di tab Build, pilih Visualizer data.

  2. Pilih Analytics.

  3. Pilih matriks korelasi.

Anda akan melihat visualisasi yang mirip dengan tangkapan layar berikut, yang menampilkan hingga 15 kolom kumpulan data yang disusun ke dalam matriks korelasi.

Screenshot dari matriks korelasi dalam aplikasi Canvas.

Setelah Anda membuat matriks korelasi, Anda dapat menyesuaikannya dengan melakukan hal berikut:

1. Pilih kolom Anda

Untuk Kolom, Anda dapat memilih kolom yang ingin Anda sertakan dalam matriks. Anda dapat membandingkan hingga 15 kolom dari kumpulan data Anda.

catatan

Anda dapat menggunakan tipe kolom numerik, kategoris, atau biner untuk matriks korelasi. Matriks korelasi tidak mendukung datetime atau tipe kolom data teks.

Untuk menambah atau menghapus kolom dari matriks korelasi, pilih dan batal pilihan kolom dari panel Kolom. Anda juga dapat menarik dan melepas kolom dari panel langsung ke matriks. Jika kumpulan data Anda memiliki banyak kolom, Anda dapat mencari kolom yang Anda inginkan di bilah kolom Pencarian.

Untuk memfilter kolom berdasarkan tipe data, pilih daftar dropdown dan pilih Semua, Numerik, atau Kategori. Memilih Semua menampilkan semua kolom dari kumpulan data Anda, sedangkan filter Numerik dan Kategoris hanya menampilkan kolom numerik atau kategoris dalam kumpulan data Anda. Perhatikan bahwa jenis kolom biner disertakan dalam filter numerik atau kategoris.

Untuk wawasan data terbaik, sertakan kolom target Anda dalam matriks korelasi. Saat Anda memasukkan kolom target Anda dalam matriks korelasi, itu muncul sebagai fitur terakhir pada matriks dengan simbol target.

2. Pilih jenis korelasi Anda

SageMaker Canvas mendukung berbagai jenis korelasi, atau metode untuk menghitung korelasi antara kolom Anda.

Untuk mengubah jenis korelasi, gunakan filter Kolom yang disebutkan di bagian sebelumnya untuk memfilter jenis kolom dan kolom yang Anda inginkan. Anda akan melihat tipe Korelasi di panel samping. Untuk perbandingan numerik, Anda memiliki opsi untuk memilih Pearson atau Spearman. Untuk perbandingan kategoris, tipe korelasi ditetapkan sebagai MI. Untuk perbandingan kategoris dan campuran, tipe korelasi ditetapkan sebagai Spearman & MI.

Untuk matriks yang hanya membandingkan kolom numerik, jenis korelasinya adalah Pearson atau Spearman. Ukuran Pearson mengevaluasi hubungan linier antara dua variabel kontinu. Ukuran Spearman mengevaluasi hubungan monotonik antara dua variabel. Untuk Pearson dan Spearman, skala korelasi berkisar antara -1 hingga 1, dengan kedua ujung skala menunjukkan korelasi sempurna (hubungan langsung 1:1) dan 0 menunjukkan tidak ada korelasi. Anda mungkin ingin memilih Pearson jika data Anda memiliki hubungan yang lebih linier (seperti yang diungkapkan oleh visualisasi plot pencar). Jika data Anda tidak linier, atau berisi campuran hubungan linier dan monotonik, maka Anda mungkin ingin memilih Spearman.

Untuk matriks yang hanya membandingkan kolom kategoris, jenis korelasi diatur ke Klasifikasi Informasi Mutual (MI). Nilai MI adalah ukuran ketergantungan timbal balik antara dua variabel acak. Ukuran MI berada pada skala 0 hingga 1, dengan 0 menunjukkan tidak ada korelasi dan 1 menunjukkan korelasi sempurna.

Untuk matriks yang membandingkan campuran kolom numerik dan kategoris, tipe korelasi Spearman & MI adalah kombinasi dari jenis korelasi Spearman dan MI. Untuk korelasi antara dua kolom numerik, matriks menunjukkan nilai Spearman. Untuk korelasi antara kolom numerik dan kategoris atau dua kolom kategoris, matriks menunjukkan nilai MI.

Terakhir, ingatlah bahwa korelasi tidak selalu menunjukkan sebab-akibat. Nilai korelasi yang kuat hanya menunjukkan bahwa ada hubungan antara dua variabel, tetapi variabel tersebut mungkin tidak memiliki hubungan sebab akibat. Tinjau kolom yang Anda minati dengan cermat untuk menghindari bias saat membangun model Anda.

3. Filter korelasi Anda

Di panel samping, Anda dapat menggunakan Filter korelasi fitur untuk memfilter rentang nilai korelasi yang ingin Anda sertakan dalam matriks. Misalnya, jika Anda ingin memfilter fitur yang hanya memiliki korelasi positif atau netral, Anda dapat mengatur Min ke 0 dan Maks ke 1 (nilai yang valid adalah -1 hingga 1).

Untuk perbandingan Spearman dan Pearson, Anda dapat mengatur rentang korelasi Filter di mana saja dari -1 hingga 1, dengan 0 yang berarti tidak ada korelasi. -1 dan 1 berarti bahwa variabel memiliki korelasi negatif atau positif yang kuat, masing-masing.

Untuk perbandingan MI, rentang korelasi hanya berkisar dari 0 ke 1, dengan 0 berarti tidak ada korelasi dan 1 berarti bahwa variabel memiliki korelasi yang kuat, baik positif maupun negatif.

Setiap fitur memiliki korelasi sempurna (1) dengan dirinya sendiri. Oleh karena itu, Anda mungkin memperhatikan bahwa baris atas matriks korelasi selalu 1. Jika Anda ingin mengecualikan nilai-nilai ini, Anda dapat menggunakan filter untuk mengatur Max kurang dari 1.

Perlu diingat bahwa jika matriks Anda membandingkan campuran kolom numerik dan kategoris dan menggunakan jenis korelasi Spearman & MI, maka korelasi kategoris x numerik dan kategoris x kategoris (yang menggunakan ukuran MI) berada pada skala 0 hingga 1, sedangkan korelasi numerik x numerik (yang menggunakan ukuran Spearman) berada pada skala -1 hingga 1. Tinjau korelasi minat Anda dengan cermat untuk memastikan bahwa Anda mengetahui jenis korelasi yang digunakan untuk menghitung setiap nilai.

4. Pilih metode visualisasi

Di panel samping, Anda dapat menggunakan Visualize by untuk mengubah metode visualisasi matriks. Pilih metode visualisasi Numerik untuk menunjukkan nilai korelasi (Pearson, Spearman, atau MI), atau pilih metode visualisasi Ukuran untuk memvisualisasikan korelasi dengan titik-titik berukuran dan berwarna yang berbeda. Jika Anda memilih Ukuran, Anda dapat mengarahkan kursor ke titik tertentu pada matriks untuk melihat nilai korelasi yang sebenarnya.

5. Pilih palet warna

Di panel samping, Anda dapat menggunakan Pemilihan warna untuk mengubah palet warna yang digunakan untuk skala korelasi negatif ke positif dalam matriks. Pilih salah satu palet warna alternatif untuk mengubah warna yang digunakan dalam matriks.