Menggunakan Widget Persiapan Data Interaktif di Notebook Amazon SageMaker Studio Classic untuk Mendapatkan Wawasan Data - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan Widget Persiapan Data Interaktif di Notebook Amazon SageMaker Studio Classic untuk Mendapatkan Wawasan Data

Gunakan widget persiapan data Wrangler Data untuk berinteraksi dengan data Anda, mendapatkan visualisasi, menjelajahi wawasan yang dapat ditindaklanjuti, dan memperbaiki masalah kualitas data.

Anda dapat mengakses widget persiapan data dari notebook Amazon SageMaker Studio Classic. Untuk setiap kolom, widget membuat visualisasi yang membantu Anda lebih memahami distribusinya. Jika kolom memiliki masalah kualitas data, peringatan muncul di tajuknya.

Untuk melihat masalah kualitas data, pilih header kolom yang menunjukkan peringatan. Anda dapat menggunakan informasi yang Anda dapatkan dari wawasan dan visualisasi untuk menerapkan transformasi bawaan widget untuk membantu Anda memperbaiki masalah.

Misalnya, widget mungkin mendeteksi bahwa Anda memiliki kolom yang hanya memiliki satu nilai unik dan menunjukkan peringatan kepada Anda. Peringatan memberikan opsi untuk menjatuhkan kolom dari kumpulan data.

Memulai dengan menjalankan widget

Gunakan informasi berikut untuk membantu Anda memulai menjalankan buku catatan.

Buka buku catatan di Amazon SageMaker Studio Classic. Untuk informasi tentang membuka buku catatan, lihatMembuat atau Membuka Notebook Amazon SageMaker Studio Classic.

penting

Untuk menjalankan widget, notebook harus menggunakan salah satu gambar berikut:

  • Python 3 (Ilmu Data) dengan Python 3.7

  • Python 3 (Ilmu Data 2.0) dengan Python 3.8

  • Python 3 (Ilmu Data 3.0) dengan Python 3.10

  • SparkAnalytics 1.0

  • SparkAnalytics 2.0

Untuk informasi selengkapnya tentang gambar, lihat SageMaker Gambar Amazon tersedia untuk digunakan dengan Studio Classic.

Gunakan kode berikut untuk mengimpor widget persiapan data dan panda. Widget menggunakan kerangka data panda untuk menganalisis data Anda.

import pandas as pd import sagemaker_datawrangler

Contoh kode berikut memuat file ke dalam kerangka data yang disebut. df

df = pd.read_csv("example-dataset.csv")

Anda dapat menggunakan kumpulan data dalam format apa pun yang dapat Anda muat sebagai objek kerangka data panda. Untuk informasi selengkapnya tentang format panda, lihat alat IO (teks,CSV,HDF5,...).

Sel berikut menjalankan df variabel untuk memulai widget.

df

Bagian atas kerangka data memiliki opsi berikut:

  • Lihat tabel Pandas - Beralih antara visualisasi interaktif dan tabel panda.

  • Gunakan semua baris dalam kumpulan data Anda untuk menghitung wawasan. Menggunakan seluruh kumpulan data dapat meningkatkan waktu yang diperlukan untuk menghasilkan wawasan. — Jika Anda tidak memilih opsi, Data Wrangler menghitung wawasan untuk 10.000 baris pertama kumpulan data.

Rangka data menunjukkan 1000 baris pertama dari kumpulan data. Setiap header kolom memiliki bagan batang bertumpuk yang menunjukkan karakteristik kolom. Ini menunjukkan proporsi nilai yang valid, nilai yang tidak valid, dan nilai yang hilang. Anda dapat mengarahkan kursor ke berbagai bagian bagan batang bertumpuk untuk mendapatkan persentase yang dihitung.

Setiap kolom memiliki visualisasi di header. Berikut ini menunjukkan jenis visualisasi yang dapat dimiliki kolom:

  • Kategoris - Bagan batang

  • Numerik - Histogram

  • Datetime - Bagan batang

  • Teks - Bagan batang

Untuk setiap visualisasi, widget persiapan data menyoroti outlier berwarna oranye.

Ketika Anda memilih kolom, itu membuka panel samping. Panel samping menunjukkan tab Wawasan. Panel menyediakan hitungan untuk jenis nilai berikut:

  • Nilai tidak valid - Nilai yang tipenya tidak cocok dengan tipe kolom.

  • Nilai yang hilang — Nilai yang hilang, seperti NaN atauNone.

  • Nilai yang valid - Nilai yang tidak hilang atau tidak valid.

Untuk kolom numerik, tab Wawasan menampilkan statistik ringkasan berikut:

  • Minimum — Nilai terkecil.

  • Maksimum — Nilai terbesar.

  • Mean — Mean dari nilai-nilai.

  • Mode — Nilai yang paling sering muncul.

  • Standar deviasi — Standar deviasi dari nilai-nilai.

Untuk kolom kategoris, tab Wawasan menampilkan statistik ringkasan berikut:

  • Nilai unik — Jumlah nilai unik di kolom.

  • Top — Nilai yang paling sering muncul.

Kolom yang memiliki ikon peringatan di header mereka memiliki masalah kualitas data. Memilih kolom membuka tab Kualitas data yang dapat Anda gunakan untuk menemukan transformasi untuk membantu Anda memperbaiki masalah. Peringatan memiliki salah satu tingkat keparahan berikut:

  • Rendah — Masalah yang mungkin tidak memengaruhi analisis Anda, tetapi dapat berguna untuk diperbaiki.

  • Medium — Masalah yang mungkin memengaruhi analisis Anda, tetapi kemungkinan tidak penting untuk diperbaiki.

  • Tinggi - Masalah berat yang sangat kami sarankan untuk diperbaiki.

catatan

Widget mengurutkan kolom untuk menunjukkan nilai yang memiliki masalah kualitas data di bagian atas kerangka data. Ini juga menyoroti nilai-nilai yang menyebabkan masalah. Warna penyorotan sesuai dengan tingkat keparahan.

Di bawah SUGGESTEDTRANSFORMS, Anda dapat memilih transformasi untuk memperbaiki masalah kualitas data. Widget dapat menawarkan beberapa transformasi yang dapat memperbaiki masalah. Ini dapat menawarkan rekomendasi untuk transformasi yang paling cocok untuk masalah. Anda dapat memindahkan kursor ke atas transformasi untuk mendapatkan informasi lebih lanjut tentangnya.

Untuk menerapkan transformasi ke kumpulan data, pilih Terapkan dan ekspor kode. Transformasi memodifikasi kumpulan data dan memperbarui visualisasi dengan nilai yang dimodifikasi. Kode untuk transformasi muncul di sel notebook berikut. Jika Anda menerapkan transformasi tambahan ke kumpulan data, widget menambahkan transformasi ke sel. Anda dapat menggunakan kode yang dihasilkan widget untuk melakukan hal berikut:

  • Sesuaikan agar lebih sesuai dengan kebutuhan Anda.

  • Gunakan dalam alur kerja Anda sendiri.

Anda dapat mereproduksi semua transformasi yang telah Anda buat dengan menjalankan ulang semua sel di buku catatan.

Widget dapat memberikan wawasan dan peringatan untuk kolom target. Kolom target adalah kolom yang Anda coba prediksi. Gunakan prosedur berikut untuk mendapatkan wawasan kolom target.

Untuk mendapatkan wawasan kolom target, lakukan hal berikut.

  1. Pilih kolom yang Anda gunakan sebagai kolom target.

  2. Pilih Pilih sebagai kolom target.

  3. Pilih jenis masalah. Wawasan dan peringatan widget disesuaikan dengan jenis masalah. Berikut ini adalah jenis masalahnya:

    • Klasifikasi — Kolom target memiliki data kategoris.

    • Regresi — Kolom target memiliki data numerik.

  4. Pilih Jalankan.

  5. (Opsional) Di bawah Wawasan Kolom Target, pilih salah satu transformasi yang disarankan.

Referensi untuk wawasan dan transformasi di widget

Untuk kolom fitur (kolom yang bukan kolom target), Anda bisa mendapatkan wawasan berikut untuk memperingatkan Anda tentang masalah dengan kumpulan data Anda.

  • Nilai hilang - Kolom memiliki nilai yang hilang sepertiNone, NaN (bukan angka), atau NaT (bukan stempel waktu). Banyak algoritma pembelajaran mesin tidak mendukung nilai yang hilang dalam data input. Oleh karena itu, mengisi atau menjatuhkan baris dengan data yang hilang merupakan langkah persiapan data yang penting. Jika Anda melihat peringatan nilai yang hilang, Anda dapat menggunakan salah satu transformasi berikut untuk memperbaiki masalah.

    • Jatuhkan hilang - Menjatuhkan baris dengan nilai yang hilang. Sebaiknya jatuhkan baris saat persentase baris dengan data yang hilang kecil dan memasukkan nilai yang hilang tidak sesuai.

    • Ganti dengan nilai baru - Mengganti nilai tekstual yang hilang dengan. Other Anda dapat mengubah Other ke nilai yang berbeda dalam kode output. Mengganti nilai numerik yang hilang dengan 0.

    • Ganti dengan mean - Mengganti nilai yang hilang dengan rata-rata kolom.

    • Ganti dengan median - Mengganti nilai yang hilang dengan median kolom.

    • Jatuhkan kolom - Jatuhkan kolom dengan nilai yang hilang dari kumpulan data. Sebaiknya jatuhkan seluruh kolom ketika ada persentase baris yang tinggi dengan data yang hilang.

  • Nilai hilang yang disamarkan - Kolom telah menyamarkan nilai yang hilang. Nilai hilang yang disamarkan adalah nilai yang tidak secara eksplisit dikodekan sebagai nilai yang hilang. Misalnya, alih-alih menggunakan a NaN untuk menunjukkan nilai yang hilang, nilainya bisa jadiPlaceholder. Anda dapat menggunakan salah satu transformasi berikut untuk menangani nilai yang hilang:

    • Jatuhkan hilang - Menjatuhkan baris dengan nilai yang hilang

    • Ganti dengan nilai baru - Mengganti nilai tekstual yang hilang dengan. Other Anda dapat mengubah Other ke nilai yang berbeda dalam kode output. Mengganti nilai numerik yang hilang dengan 0.

  • Kolom konstan - Kolom hanya memiliki satu nilai. Oleh karena itu tidak memiliki kekuatan prediksi. Kami sangat menyarankan menggunakan transformasi kolom Drop untuk menjatuhkan kolom dari kumpulan data.

  • Kolom ID - Kolom tidak memiliki nilai berulang. Semua nilai dalam kolom adalah unik. Mereka mungkin salah satu IDs atau kunci database. Tanpa informasi tambahan, kolom tidak memiliki kekuatan prediksi. Kami sangat menyarankan menggunakan transformasi kolom Drop untuk menjatuhkan kolom dari kumpulan data.

  • Kardinalitas tinggi - Kolom memiliki persentase nilai unik yang tinggi. Kardinalitas tinggi membatasi kekuatan prediksi kolom kategoris. Periksa pentingnya kolom dalam analisis Anda dan pertimbangkan untuk menggunakan transformasi kolom Drop untuk menjatuhkannya.

Untuk kolom target, Anda bisa mendapatkan wawasan berikut untuk memperingatkan Anda tentang masalah dengan kumpulan data Anda. Anda dapat menggunakan transformasi yang disarankan yang disertakan dengan peringatan untuk memperbaiki masalah.

  • Tipe data campuran dalam target (Regresi) - Ada beberapa nilai non-numerik di kolom target. Mungkin ada kesalahan entri data. Sebaiknya hapus baris yang memiliki nilai yang tidak dapat dikonversi.

  • Label sering — Nilai tertentu di kolom target muncul lebih sering daripada yang normal dalam konteks regresi. Mungkin ada kesalahan dalam pengumpulan atau pemrosesan data. Kategori yang sering muncul mungkin menunjukkan bahwa nilai tersebut digunakan sebagai nilai default atau bahwa itu adalah placeholder untuk nilai yang hilang. Sebaiknya gunakan Ganti dengan transformasi nilai baru untuk mengganti nilai yang hilang denganOther.

  • Terlalu sedikit contoh per kelas - Kolom target memiliki kategori yang jarang muncul. Beberapa kategori tidak memiliki cukup baris agar kolom target berguna. Anda dapat menggunakan salah satu transformasi berikut:

    • Jatuhkan target langka — Menjatuhkan nilai unik dengan kurang dari sepuluh pengamatan. Misalnya, turunkan nilainya cat jika muncul sembilan kali di kolom.

    • Ganti target langka — Mengganti kategori yang jarang muncul di kumpulan data dengan nilainya. Other

  • Kelas terlalu tidak seimbang (klasifikasi multi-kelas) — Ada kategori dalam kumpulan data yang muncul jauh lebih sering daripada kategori lainnya. Ketidakseimbangan kelas dapat mempengaruhi akurasi prediksi. Untuk prediksi yang paling akurat, kami sarankan memperbarui kumpulan data dengan baris yang memiliki kategori yang saat ini lebih jarang muncul.

  • Sejumlah besar kelas/terlalu banyak kelas — Ada sejumlah besar kelas di kolom target. Memiliki banyak kelas dapat menghasilkan waktu pelatihan yang lebih lama atau kualitas prediksi yang buruk. Kami merekomendasikan melakukan salah satu dari yang berikut:

    • Mengelompokkan beberapa kategori ke dalam kategori mereka sendiri. Misalnya, jika enam kategori terkait erat, kami sarankan menggunakan satu kategori untuk mereka.

    • Menggunakan algoritma ML yang tahan terhadap beberapa kategori.