Membuat dan Menggunakan Data Wrangler Flow - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Membuat dan Menggunakan Data Wrangler Flow

Gunakan alur Amazon SageMaker Data Wrangler, atau aliran data, untuk membuat dan memodifikasi pipeline persiapan data. Aliran data menghubungkan kumpulan data, transformasi, dan analisis, atau langkah, yang Anda buat dan dapat digunakan untuk menentukan pipeline Anda.

Instans

Saat Anda membuat alur Data Wrangler di Amazon SageMaker Studio Classic, Data Wrangler menggunakan EC2 instans Amazon untuk menjalankan analisis dan transformasi dalam alur Anda. Secara default, Data Wrangler menggunakan instance m5.4xlarge. instance m5 adalah instance tujuan umum yang memberikan keseimbangan antara komputasi dan memori. Anda dapat menggunakan instans m5 untuk berbagai beban kerja komputasi.

Data Wrangler juga memberi Anda opsi untuk menggunakan instans r5. Instans r5 dirancang untuk memberikan kinerja cepat yang memproses kumpulan data besar dalam memori.

Kami menyarankan Anda memilih instance yang paling baik dioptimalkan di sekitar beban kerja Anda. Misalnya, r5.8xlarge mungkin memiliki harga yang lebih tinggi daripada m5.4xlarge, tetapi r5.8xlarge mungkin lebih baik dioptimalkan untuk beban kerja Anda. Dengan instans yang dioptimalkan dengan lebih baik, Anda dapat menjalankan aliran data dalam waktu yang lebih singkat dengan biaya lebih rendah.

Tabel berikut menunjukkan contoh yang dapat Anda gunakan untuk menjalankan aliran Data Wrangler Anda.

Instans Standar v CPU Memori
ml.m5.4xlarge 16 64 GiB
ml.m5.8xlarge 32 128 GiB
ml.m5.16xlarge 64

256 GiB

ml.m5.24xlarge 96 384 GiB
r5.4xlarge 16 128 GiB
r5.8xlarge 32 256 GiB
r5.24xlarge 96 768 GiB

Untuk informasi selengkapnya tentang instans r5, lihat Instans Amazon EC2 R5. Untuk informasi selengkapnya tentang instans m5, lihat Instans Amazon EC2 M5.

Setiap aliran Data Wrangler memiliki EC2 instans Amazon yang terkait dengannya. Anda mungkin memiliki beberapa aliran yang terkait dengan satu instance.

Untuk setiap file aliran, Anda dapat mengganti jenis instans dengan mulus. Jika Anda mengganti jenis instance, instance yang Anda gunakan untuk menjalankan flow akan terus berjalan.

Untuk mengganti jenis instans aliran Anda, lakukan hal berikut.

  1. Pilih ikon Running Terminal dan Kernels ( Black square icon representing a placeholder or empty image. ).

  2. Arahkan ke instance yang Anda gunakan dan pilih.

  3. Pilih jenis instance yang ingin Anda gunakan.

    Contoh yang menunjukkan cara memilih instance di halaman aliran data konsol Data Wrangler.
  4. Pilih Simpan.

Anda dikenakan biaya untuk semua instans yang sedang berjalan. Untuk menghindari biaya tambahan, matikan instance yang tidak Anda gunakan secara manual. Untuk mematikan instance yang sedang berjalan, gunakan prosedur berikut.

Untuk mematikan instance yang sedang berjalan.

  1. Pilih ikon instance. Gambar berikut menunjukkan tempat untuk memilih RUNNINGINSTANCESikon.

    RUNNINGINSTANCESTab di konsol Studio Classic.
  2. Pilih Shut down di sebelah instance yang ingin Anda matikan.

Jika Anda mematikan instance yang digunakan untuk menjalankan aliran, Anda tidak dapat mengakses aliran untuk sementara. Jika Anda mendapatkan kesalahan saat mencoba membuka alur yang menjalankan instance yang sebelumnya Anda matikan, tunggu selama 5 menit dan coba buka lagi.

Saat Anda mengekspor aliran data ke lokasi seperti Amazon Simple Storage Service atau Amazon SageMaker Feature Store, Data Wrangler menjalankan pekerjaan SageMaker pemrosesan Amazon. Anda dapat menggunakan salah satu contoh berikut untuk pekerjaan pemrosesan. Untuk informasi selengkapnya tentang mengekspor data Anda, lihatEkspor.

Instans Standar v CPU Memori
ml.m5.4xlarge 16 64 GiB
ml.m5.12xlarge 48

192 GiB

ml.m5.24xlarge 96 384 GiB

Untuk informasi selengkapnya tentang biaya per jam untuk menggunakan jenis instans yang tersedia, lihat SageMaker Harga.

UI Aliran Data

Saat Anda mengimpor kumpulan data, kumpulan data asli muncul di aliran data dan diberi nama Sumber. Jika Anda mengaktifkan pengambilan sampel saat mengimpor data, kumpulan data ini diberi nama Sumber - sampel. Data Wrangler secara otomatis menyimpulkan jenis setiap kolom dalam kumpulan data Anda dan membuat kerangka data baru bernama Tipe data. Anda dapat memilih bingkai ini untuk memperbarui tipe data yang disimpulkan. Anda melihat hasil yang mirip dengan yang ditunjukkan pada gambar berikut setelah Anda mengunggah satu kumpulan data:

Contoh yang menunjukkan Sumber - sampel dan tipe Data di konsol Data Wrangler.

Setiap kali Anda menambahkan langkah transformasi, Anda membuat kerangka data baru. Ketika beberapa langkah transformasi (selain Join atau Concatenate) ditambahkan ke kumpulan data yang sama, mereka ditumpuk.

Bergabunglah dan Gabungkan buat langkah mandiri yang berisi kumpulan data baru yang digabungkan atau digabungkan.

Diagram berikut menunjukkan aliran data dengan gabungan antara dua kumpulan data, serta dua tumpukan langkah. Tumpukan pertama (Langkah (2)) menambahkan dua transformasi ke jenis yang disimpulkan dalam kumpulan data tipe Data. Tumpukan hilir, atau tumpukan di sebelah kanan, menambahkan transformasi ke kumpulan data yang dihasilkan dari gabungan bernama demo-join.

Contoh yang menunjukkan langkah-langkah di halaman aliran data konsol Data Wrangler.

Kotak kecil berwarna abu-abu di sudut kanan bawah aliran data memberikan gambaran umum tentang jumlah tumpukan dan langkah dalam aliran dan tata letak aliran. Kotak yang lebih terang di dalam kotak abu-abu menunjukkan langkah-langkah yang ada dalam tampilan UI. Anda dapat menggunakan kotak ini untuk melihat bagian aliran data yang berada di luar tampilan UI. Gunakan ikon layar fit ( Dotted square outline icon representing a placeholder or empty state. ) agar sesuai dengan semua langkah dan kumpulan data ke dalam tampilan UI Anda.

Bilah navigasi kiri bawah menyertakan ikon yang dapat Anda gunakan untuk memperbesar ( Plus symbol icon representing an addition or new item action. ) dan memperkecil ( Horizontal line or divider, typically used to separate content sections. ) aliran data Anda dan mengubah ukuran aliran data agar sesuai dengan layar ( Dotted square outline icon representing a placeholder or empty state. ). Gunakan ikon kunci ( Trash can icon representing deletion or removal functionality. ) untuk mengunci dan membuka kunci lokasi setiap langkah di layar.

Tambahkan Langkah ke Alur Data Anda

Pilih + di sebelah kumpulan data apa pun atau langkah yang ditambahkan sebelumnya, lalu pilih salah satu opsi berikut:

  • Mengedit tipe data (Hanya untuk langkah tipe data): Jika Anda belum menambahkan transformasi apa pun ke langkah Jenis data, Anda dapat memilih Edit tipe data untuk memperbarui tipe data yang disimpulkan oleh Wrangler Data saat mengimpor kumpulan data Anda.

  • Tambahkan transformasi: Menambahkan langkah transformasi baru. Lihat Transformasi Data untuk mempelajari lebih lanjut tentang transformasi data yang dapat Anda tambahkan.

  • Tambahkan analisis: Menambahkan analisis. Anda dapat menggunakan opsi ini untuk menganalisis data Anda kapan saja dalam aliran data. Ketika Anda menambahkan satu atau lebih analisis ke langkah, ikon analisis ( Bar chart icon representing data visualization or analytics functionality. ) muncul pada langkah itu. Lihat Analisis dan Visualisasikan untuk mempelajari lebih lanjut tentang analisis yang dapat Anda tambahkan.

  • Gabung: Bergabung dengan dua kumpulan data dan menambahkan kumpulan data yang dihasilkan ke aliran data. Untuk mempelajari selengkapnya, lihat Bergabunglah dengan Datasets.

  • Menggabungkan: Menggabungkan dua kumpulan data dan menambahkan kumpulan data yang dihasilkan ke aliran data. Untuk mempelajari selengkapnya, lihat Kumpulan Data Gabungan.

Hapus Langkah dari Alur Data Anda

Untuk menghapus langkah, pilih langkah dan pilih Hapus. Jika node adalah node yang memiliki input tunggal, Anda hanya menghapus langkah yang Anda pilih. Menghapus langkah yang memiliki satu input tidak menghapus langkah-langkah yang mengikutinya. Jika Anda menghapus langkah untuk sumber, bergabung, atau menggabungkan node, semua langkah yang mengikutinya juga dihapus.

Untuk menghapus langkah dari tumpukan langkah, pilih tumpukan dan kemudian pilih langkah yang ingin Anda hapus.

Anda dapat menggunakan salah satu prosedur berikut untuk menghapus langkah tanpa menghapus langkah hilir.

Delete a step in the Data Wrangler flow

Anda dapat menghapus langkah individual untuk node dalam aliran data Anda yang memiliki satu input. Anda tidak dapat menghapus langkah individual untuk sumber, bergabung, dan menggabungkan node.

Gunakan prosedur berikut untuk menghapus langkah dalam aliran Data Wrangler.

  1. Pilih kelompok langkah yang memiliki langkah yang Anda hapus.

  2. Pilih ikon di sebelah langkah.

  3. Pilih Hapus langkah.

    Contoh yang menunjukkan cara menghapus langkah di halaman aliran data konsol Data Wrangler.
Delete a step in the table view

Gunakan prosedur berikut untuk menghapus langkah dalam tampilan tabel.

Anda dapat menghapus langkah individual untuk node dalam aliran data Anda yang memiliki satu input. Anda tidak dapat menghapus langkah individual untuk sumber, bergabung, dan menggabungkan node.

  1. Pilih langkah dan buka tampilan tabel untuk langkah tersebut.

  2. Gerakkan kursor Anda ke atas langkah sehingga ikon elipsis muncul.

  3. Pilih ikon di sebelah langkah.

  4. Pilih Hapus.

    Contoh yang menunjukkan cara menghapus langkah dalam tampilan tabel konsol Data Wrangler.

Mengedit Langkah dalam Alur Wrangler Data Anda

Anda dapat mengedit setiap langkah yang telah Anda tambahkan dalam alur Data Wrangler Anda. Dengan mengedit langkah-langkah, Anda dapat mengubah transformasi atau tipe data kolom. Anda dapat mengedit langkah-langkah untuk membuat perubahan yang dengannya Anda dapat melakukan analisis yang lebih baik.

Ada banyak cara Anda dapat mengedit langkah. Beberapa contoh termasuk mengubah metode imputasi atau mengubah ambang batas untuk mempertimbangkan nilai sebagai outlier.

Gunakan prosedur berikut untuk mengedit langkah.

Untuk mengedit langkah, lakukan hal berikut.

  1. Pilih langkah dalam alur Data Wrangler untuk membuka tampilan tabel.

    Contoh langkah di halaman aliran data konsol Data Wrangler.
  2. Pilih langkah dalam aliran data.

  3. Edit langkahnya.

Gambar berikut menunjukkan contoh pengeditan langkah.

Contoh yang menunjukkan cara mengedit langkah-langkah di halaman aliran data konsol Data Wrangler.
catatan

Anda dapat menggunakan spasi bersama dalam SageMaker domain Amazon untuk bekerja secara kolaboratif pada alur Data Wrangler Anda. Dalam ruang bersama, Anda dan kolaborator dapat mengedit file aliran secara real-time. Namun, baik Anda maupun kolaborator Anda tidak dapat melihat perubahan secara real-time. Ketika seseorang membuat perubahan pada aliran Data Wrangler, mereka harus segera menyimpannya. Ketika seseorang menyimpan file, kolaborator tidak akan dapat melihatnya kecuali jika menutup file dan membukanya kembali. Setiap perubahan yang tidak disimpan oleh satu orang akan ditimpa oleh orang yang menyimpan perubahan mereka.