Cara kerja pemrosesan data di Data Wrangler - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Cara kerja pemrosesan data di Data Wrangler

Saat bekerja dengan data secara interaktif dalam aliran SageMaker data Amazon Data Wrangler, Amazon SageMaker Canvas hanya menerapkan transformasi ke kumpulan data sampel untuk Anda pratinjau. Setelah menyelesaikan aliran data Anda di SageMaker Canvas, Anda dapat memproses semua data Anda dan menyimpannya di lokasi yang sesuai dengan alur kerja pembelajaran mesin Anda.

Ada beberapa opsi untuk melanjutkan setelah Anda selesai mengubah data Anda di Data Wrangler:

  • Buat model. Anda dapat membuat model Canvas, di mana Anda langsung mulai membuat model dengan data yang Anda siapkan. Anda dapat membuat model baik setelah memproses seluruh kumpulan data Anda, atau dengan mengekspor hanya data sampel yang Anda kerjakan di Data Wrangler. Canvas menyimpan data yang diproses (baik seluruh dataset atau data sampel) sebagai dataset Canvas.

    Kami menyarankan Anda menggunakan data sampel untuk iterasi cepat, tetapi Anda menggunakan seluruh data saat ingin melatih model akhir Anda. Saat membuat model tabular, kumpulan data yang lebih besar dari 5 GB secara otomatis diturunkan sampelnya menjadi 5 GB, dan untuk model peramalan deret waktu, kumpulan data yang lebih besar dari 30 GB diturunkan sampelnya menjadi 30 GB.

    Untuk mempelajari lebih lanjut tentang membuat model, lihatCara kerja model khusus.

  • Ekspor data. Anda dapat mengekspor data Anda untuk digunakan dalam alur kerja pembelajaran mesin. Ketika Anda memilih untuk mengekspor data Anda, Anda memiliki beberapa opsi:

    • Anda dapat menyimpan data Anda di aplikasi Canvas sebagai dataset. Untuk informasi selengkapnya tentang jenis file yang didukung untuk kumpulan data Canvas dan persyaratan tambahan saat mengimpor data ke Canvas, lihat. Buat kumpulan data

    • Anda dapat menyimpan data Anda ke Amazon S3. Bergantung pada ketersediaan memori Canvas, data Anda diproses dalam aplikasi dan kemudian diekspor ke Amazon S3. Jika ukuran kumpulan data Anda melebihi apa yang dapat diproses Canvas, maka secara default, Canvas menggunakan pekerjaan EMR Tanpa Server untuk menskalakan ke beberapa instans komputasi, memproses kumpulan data lengkap Anda, dan mengekspornya ke Amazon S3. Anda juga dapat mengonfigurasi pekerjaan SageMaker Pemrosesan secara manual agar memiliki kontrol yang lebih terperinci atas sumber daya komputasi yang digunakan untuk memproses data Anda.

  • Ekspor aliran data. Anda mungkin ingin menyimpan kode untuk aliran data Anda sehingga Anda dapat memodifikasi atau menjalankan transformasi Anda di luar Canvas. Canvas memberi Anda opsi untuk menyimpan transformasi aliran data Anda sebagai kode Python di buku catatan Jupyter, yang kemudian dapat Anda ekspor ke Amazon S3 untuk digunakan di tempat lain dalam alur kerja pembelajaran mesin Anda.

Saat Anda mengekspor data dari aliran data dan menyimpannya sebagai kumpulan data Canvas atau ke Amazon S3, Canvas membuat node tujuan baru dalam aliran data Anda, yang merupakan simpul terakhir yang menunjukkan tempat penyimpanan data yang diproses. Anda dapat menambahkan node tujuan tambahan ke alur jika Anda ingin melakukan beberapa operasi ekspor. Misalnya, Anda dapat mengekspor data dari berbagai titik dalam aliran data Anda untuk hanya menerapkan beberapa transformasi, atau Anda dapat mengekspor data yang diubah ke lokasi Amazon S3 yang berbeda. Untuk informasi selengkapnya tentang cara menambahkan atau mengedit node tujuan, lihat Tambahkan node tujuan danMengedit simpul tujuan.

Untuk informasi selengkapnya tentang menyiapkan jadwal dengan Amazon EventBridge untuk memproses dan mengekspor data Anda secara otomatis sesuai jadwal, lihatBuat jadwal untuk memproses data baru secara otomatis.