Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Membuat dan Menggunakan Data Wrangler Flow
Gunakan alur Amazon SageMaker Data Wrangler, atau aliran data, untuk membuat dan memodifikasi pipeline persiapan data. Aliran data menghubungkan kumpulan data, transformasi, dan analisis, atau langkah, yang Anda buat dan dapat digunakan untuk menentukan pipeline Anda.
Instans
Saat Anda membuat alur Data Wrangler di Amazon SageMaker Studio Classic, Data Wrangler menggunakan EC2 instans Amazon untuk menjalankan analisis dan transformasi dalam alur Anda. Secara default, Data Wrangler menggunakan instance m5.4xlarge. instance m5 adalah instance tujuan umum yang memberikan keseimbangan antara komputasi dan memori. Anda dapat menggunakan instans m5 untuk berbagai beban kerja komputasi.
Data Wrangler juga memberi Anda opsi untuk menggunakan instans r5. Instans r5 dirancang untuk memberikan kinerja cepat yang memproses kumpulan data besar dalam memori.
Kami menyarankan Anda memilih instance yang paling baik dioptimalkan di sekitar beban kerja Anda. Misalnya, r5.8xlarge mungkin memiliki harga yang lebih tinggi daripada m5.4xlarge, tetapi r5.8xlarge mungkin lebih baik dioptimalkan untuk beban kerja Anda. Dengan instans yang dioptimalkan dengan lebih baik, Anda dapat menjalankan aliran data dalam waktu yang lebih singkat dengan biaya lebih rendah.
Tabel berikut menunjukkan contoh yang dapat Anda gunakan untuk menjalankan aliran Data Wrangler Anda.
Instans Standar | v CPU | Memori |
---|---|---|
ml.m5.4xlarge | 16 | 64 GiB |
ml.m5.8xlarge | 32 | 128 GiB |
ml.m5.16xlarge | 64 |
256 GiB |
ml.m5.24xlarge | 96 | 384 GiB |
r5.4xlarge | 16 | 128 GiB |
r5.8xlarge | 32 | 256 GiB |
r5.24xlarge | 96 | 768 GiB |
Untuk informasi selengkapnya tentang instans r5, lihat Instans Amazon EC2 R5
Setiap aliran Data Wrangler memiliki EC2 instans Amazon yang terkait dengannya. Anda mungkin memiliki beberapa aliran yang terkait dengan satu instance.
Untuk setiap file aliran, Anda dapat mengganti jenis instans dengan mulus. Jika Anda mengganti jenis instance, instance yang Anda gunakan untuk menjalankan flow akan terus berjalan.
Untuk mengganti jenis instans aliran Anda, lakukan hal berikut.
-
Pilih ikon Running Terminal dan Kernels ( ).
-
Arahkan ke instance yang Anda gunakan dan pilih.
-
Pilih jenis instance yang ingin Anda gunakan.
-
Pilih Simpan.
Anda dikenakan biaya untuk semua instans yang sedang berjalan. Untuk menghindari biaya tambahan, matikan instance yang tidak Anda gunakan secara manual. Untuk mematikan instance yang sedang berjalan, gunakan prosedur berikut.
Untuk mematikan instance yang sedang berjalan.
-
Pilih ikon instance. Gambar berikut menunjukkan tempat untuk memilih RUNNINGINSTANCESikon.
-
Pilih Shut down di sebelah instance yang ingin Anda matikan.
Jika Anda mematikan instance yang digunakan untuk menjalankan aliran, Anda tidak dapat mengakses aliran untuk sementara. Jika Anda mendapatkan kesalahan saat mencoba membuka alur yang menjalankan instance yang sebelumnya Anda matikan, tunggu selama 5 menit dan coba buka lagi.
Saat Anda mengekspor aliran data ke lokasi seperti Amazon Simple Storage Service atau Amazon SageMaker Feature Store, Data Wrangler menjalankan pekerjaan SageMaker pemrosesan Amazon. Anda dapat menggunakan salah satu contoh berikut untuk pekerjaan pemrosesan. Untuk informasi selengkapnya tentang mengekspor data Anda, lihatEkspor.
Instans Standar | v CPU | Memori |
---|---|---|
ml.m5.4xlarge | 16 | 64 GiB |
ml.m5.12xlarge | 48 |
192 GiB |
ml.m5.24xlarge | 96 | 384 GiB |
Untuk informasi selengkapnya tentang biaya per jam untuk menggunakan jenis instans yang tersedia, lihat SageMaker Harga
UI Aliran Data
Saat Anda mengimpor kumpulan data, kumpulan data asli muncul di aliran data dan diberi nama Sumber. Jika Anda mengaktifkan pengambilan sampel saat mengimpor data, kumpulan data ini diberi nama Sumber - sampel. Data Wrangler secara otomatis menyimpulkan jenis setiap kolom dalam kumpulan data Anda dan membuat kerangka data baru bernama Tipe data. Anda dapat memilih bingkai ini untuk memperbarui tipe data yang disimpulkan. Anda melihat hasil yang mirip dengan yang ditunjukkan pada gambar berikut setelah Anda mengunggah satu kumpulan data:
Setiap kali Anda menambahkan langkah transformasi, Anda membuat kerangka data baru. Ketika beberapa langkah transformasi (selain Join atau Concatenate) ditambahkan ke kumpulan data yang sama, mereka ditumpuk.
Bergabunglah dan Gabungkan buat langkah mandiri yang berisi kumpulan data baru yang digabungkan atau digabungkan.
Diagram berikut menunjukkan aliran data dengan gabungan antara dua kumpulan data, serta dua tumpukan langkah. Tumpukan pertama (Langkah (2)) menambahkan dua transformasi ke jenis yang disimpulkan dalam kumpulan data tipe Data. Tumpukan hilir, atau tumpukan di sebelah kanan, menambahkan transformasi ke kumpulan data yang dihasilkan dari gabungan bernama demo-join.
Kotak kecil berwarna abu-abu di sudut kanan bawah aliran data memberikan gambaran umum tentang jumlah tumpukan dan langkah dalam aliran dan tata letak aliran. Kotak yang lebih terang di dalam kotak abu-abu menunjukkan langkah-langkah yang ada dalam tampilan UI. Anda dapat menggunakan kotak ini untuk melihat bagian aliran data yang berada di luar tampilan UI. Gunakan ikon layar fit ( ) agar sesuai dengan semua langkah dan kumpulan data ke dalam tampilan UI Anda.
Bilah navigasi kiri bawah menyertakan ikon yang dapat Anda gunakan untuk memperbesar ( ) dan memperkecil ( ) aliran data Anda dan mengubah ukuran aliran data agar sesuai dengan layar ( ). Gunakan ikon kunci ( ) untuk mengunci dan membuka kunci lokasi setiap langkah di layar.
Tambahkan Langkah ke Alur Data Anda
Pilih + di sebelah kumpulan data apa pun atau langkah yang ditambahkan sebelumnya, lalu pilih salah satu opsi berikut:
-
Mengedit tipe data (Hanya untuk langkah tipe data): Jika Anda belum menambahkan transformasi apa pun ke langkah Jenis data, Anda dapat memilih Edit tipe data untuk memperbarui tipe data yang disimpulkan oleh Wrangler Data saat mengimpor kumpulan data Anda.
-
Tambahkan transformasi: Menambahkan langkah transformasi baru. Lihat Transformasi Data untuk mempelajari lebih lanjut tentang transformasi data yang dapat Anda tambahkan.
-
Tambahkan analisis: Menambahkan analisis. Anda dapat menggunakan opsi ini untuk menganalisis data Anda kapan saja dalam aliran data. Ketika Anda menambahkan satu atau lebih analisis ke langkah, ikon analisis ( ) muncul pada langkah itu. Lihat Analisis dan Visualisasikan untuk mempelajari lebih lanjut tentang analisis yang dapat Anda tambahkan.
-
Gabung: Bergabung dengan dua kumpulan data dan menambahkan kumpulan data yang dihasilkan ke aliran data. Untuk mempelajari selengkapnya, lihat Bergabunglah dengan Datasets.
-
Menggabungkan: Menggabungkan dua kumpulan data dan menambahkan kumpulan data yang dihasilkan ke aliran data. Untuk mempelajari selengkapnya, lihat Kumpulan Data Gabungan.
Hapus Langkah dari Alur Data Anda
Untuk menghapus langkah, pilih langkah dan pilih Hapus. Jika node adalah node yang memiliki input tunggal, Anda hanya menghapus langkah yang Anda pilih. Menghapus langkah yang memiliki satu input tidak menghapus langkah-langkah yang mengikutinya. Jika Anda menghapus langkah untuk sumber, bergabung, atau menggabungkan node, semua langkah yang mengikutinya juga dihapus.
Untuk menghapus langkah dari tumpukan langkah, pilih tumpukan dan kemudian pilih langkah yang ingin Anda hapus.
Anda dapat menggunakan salah satu prosedur berikut untuk menghapus langkah tanpa menghapus langkah hilir.
Mengedit Langkah dalam Alur Wrangler Data Anda
Anda dapat mengedit setiap langkah yang telah Anda tambahkan dalam alur Data Wrangler Anda. Dengan mengedit langkah-langkah, Anda dapat mengubah transformasi atau tipe data kolom. Anda dapat mengedit langkah-langkah untuk membuat perubahan yang dengannya Anda dapat melakukan analisis yang lebih baik.
Ada banyak cara Anda dapat mengedit langkah. Beberapa contoh termasuk mengubah metode imputasi atau mengubah ambang batas untuk mempertimbangkan nilai sebagai outlier.
Gunakan prosedur berikut untuk mengedit langkah.
Untuk mengedit langkah, lakukan hal berikut.
-
Pilih langkah dalam alur Data Wrangler untuk membuka tampilan tabel.
-
Pilih langkah dalam aliran data.
-
Edit langkahnya.
Gambar berikut menunjukkan contoh pengeditan langkah.
catatan
Anda dapat menggunakan spasi bersama dalam SageMaker domain Amazon untuk bekerja secara kolaboratif pada alur Data Wrangler Anda. Dalam ruang bersama, Anda dan kolaborator dapat mengedit file aliran secara real-time. Namun, baik Anda maupun kolaborator Anda tidak dapat melihat perubahan secara real-time. Ketika seseorang membuat perubahan pada aliran Data Wrangler, mereka harus segera menyimpannya. Ketika seseorang menyimpan file, kolaborator tidak akan dapat melihatnya kecuali jika menutup file dan membukanya kembali. Setiap perubahan yang tidak disimpan oleh satu orang akan ditimpa oleh orang yang menyimpan perubahan mereka.