Buat aliran data - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Buat aliran data

Gunakan aliran Data Wrangler di SageMaker Canvas, atau aliran data, untuk membuat dan memodifikasi pipeline persiapan data. Kami menyarankan Anda menggunakan Data Wrangler untuk kumpulan data yang lebih besar dari 5 GB.

Untuk memulai, gunakan prosedur berikut untuk mengimpor data Anda ke dalam aliran data.

  1. Buka SageMaker kanvas.

  2. Di navigasi sebelah kiri, pilih Data Wrangler.

  3. Pilih Impor dan siapkan.

  4. Dari menu tarik-turun, pilih Tabular atau Gambar.

  5. Untuk Pilih sumber data, pilih sumber data Anda dan pilih data yang ingin Anda impor. Anda memiliki opsi untuk memilih hingga 30 file atau satu folder. Jika Anda memiliki kumpulan data yang sudah diimpor ke Canvas, pilih dataset Canvas sebagai sumber Anda. Jika tidak, sambungkan ke sumber data seperti Amazon S3 atau Snowflake dan telusuri data Anda. Untuk informasi tentang menghubungkan ke sumber data atau mengimpor data, lihat halaman berikut:

  6. Setelah memilih data yang ingin Anda impor, pilih Berikutnya.

  7. (Opsional) Untuk Pengaturan impor bagian saat mengimpor kumpulan data tabel, perluas menu tarik-turun Lanjutan. Anda dapat menentukan pengaturan lanjutan berikut untuk impor aliran data:

    • Metode pengambilan sampel - Pilih metode pengambilan sampel dan ukuran sampel yang ingin Anda gunakan. Untuk informasi selengkapnya tentang cara mengubah sampel Anda, lihat bagianEdit konfigurasi pengambilan sampel aliran data.

    • File encoding (CSV) - Pilih encoding file dataset Anda. UTF-8adalah default.

    • Lewati baris pertama — Masukkan jumlah baris yang ingin Anda lewati saat mengimpor jika Anda memiliki baris berlebihan di awal kumpulan data Anda.

    • Pembatas — Pilih pembatas yang memisahkan setiap item dalam data Anda. Anda juga dapat menentukan pembatas khusus.

    • Deteksi multi-baris - Pilih opsi ini jika Anda ingin Canvas mengurai seluruh kumpulan data Anda secara manual untuk sel multi-baris. Canvas menentukan apakah akan menggunakan dukungan multi-baris atau tidak dengan mengambil sampel data Anda, tetapi Canvas mungkin tidak mendeteksi sel multi-baris dalam sampel. Dalam hal ini, kami menyarankan Anda memilih opsi Deteksi multi-baris untuk memaksa Canvas memeriksa seluruh kumpulan data Anda untuk sel multi-baris.

  8. Pilih Impor.

Anda sekarang harus memiliki aliran data baru, dan Anda dapat mulai menambahkan langkah transformasi dan analisis.