Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Ekspor data
Ekspor data untuk menerapkan transformasi dari aliran data Anda ke dataset impor penuh. Anda dapat mengekspor node apa pun dalam aliran data Anda ke lokasi berikut:
-
SageMaker Dataset kanvas
-
Amazon S3
Jika Anda ingin melatih model di Canvas, Anda dapat mengekspor dataset lengkap yang diubah sebagai dataset Canvas. Jika Anda ingin menggunakan data yang diubah dalam alur kerja pembelajaran mesin di luar SageMaker Canvas, Anda dapat mengekspor kumpulan data Anda ke Amazon S3.
Ekspor ke dataset Canvas
Gunakan prosedur berikut untuk mengekspor dataset SageMaker Canvas dari node dalam aliran data Anda.
Untuk mengekspor node dalam alur Anda sebagai dataset SageMaker Canvas
-
Arahkan ke aliran data Anda.
-
Pilih ikon elipsis di sebelah simpul yang Anda ekspor.
-
Di menu konteks, arahkan kursor ke Ekspor, lalu pilih Ekspor data ke kumpulan data Canvas.
-
Di panel samping Export to Canvas dataset, masukkan nama Dataset untuk dataset baru.
-
Biarkan opsi Proses seluruh kumpulan data dipilih jika Anda ingin SageMaker Canvas memproses dan menyimpan kumpulan data lengkap Anda. Matikan opsi ini untuk hanya menerapkan transformasi ke data sampel yang Anda kerjakan dalam aliran data Anda.
-
Pilih Ekspor.
Anda sekarang harus dapat pergi ke halaman Datasets dari aplikasi Canvas dan melihat dataset baru Anda.
Ekspor ke Amazon S3
Saat mengekspor data ke Amazon S3, Anda dapat menskalakan untuk mengubah dan memproses data dalam berbagai ukuran. Canvas secara otomatis memproses data Anda secara lokal jika memori aplikasi dapat menangani ukuran kumpulan data Anda. Jika ukuran kumpulan data Anda melebihi kapasitas memori lokal sebesar 5 GB, Canvas memulai pekerjaan jarak jauh atas nama Anda untuk menyediakan sumber daya komputasi tambahan dan memproses data dengan lebih cepat. Secara default, Canvas menggunakan Amazon EMR Tanpa Server untuk menjalankan pekerjaan jarak jauh ini. Namun, Anda dapat mengonfigurasi Canvas secara manual untuk menggunakan pekerjaan EMR Tanpa Server atau SageMaker Pemrosesan dengan pengaturan Anda sendiri.
catatan
Saat menjalankan pekerjaan EMR Tanpa Server, secara default pekerjaan mewarisi IAM peran, pengaturan KMS kunci, dan tag aplikasi Canvas Anda.
Berikut ini merangkum opsi untuk pekerjaan jarak jauh di Canvas:
-
EMRServerless: Ini adalah opsi default yang digunakan Canvas untuk pekerjaan jarak jauh. EMRTanpa server secara otomatis menyediakan dan menskalakan sumber daya komputasi untuk memproses data Anda sehingga Anda tidak perlu khawatir tentang memilih sumber daya komputasi yang tepat untuk beban kerja Anda. Untuk informasi selengkapnya tentang EMR Tanpa Server, lihat Panduan Pengguna Tanpa EMRServer.
-
SageMaker Pemrosesan: Pekerjaan SageMaker pemrosesan menawarkan opsi yang lebih canggih dan kontrol terperinci atas sumber daya komputasi yang digunakan untuk memproses data Anda. Misalnya, Anda dapat menentukan jenis dan jumlah instans komputasi, mengonfigurasi pekerjaan di akses jaringan Anda sendiri VPC dan mengontrol, mengotomatiskan pekerjaan pemrosesan, dan banyak lagi. Untuk informasi selengkapnya tentang mengotomatisasi pekerjaan pemrosesan, lihatBuat jadwal untuk memproses data baru secara otomatis. Untuk informasi lebih umum tentang pekerjaan SageMaker pemrosesan, lihatBeban kerja transformasi data dengan SageMaker Processing.
Jenis file berikut didukung saat mengekspor ke Amazon S3:
-
CSV
-
Parquet
Untuk memulai, tinjau prasyarat berikut.
Prasyarat untuk pekerjaan Tanpa Server EMR
Untuk membuat pekerjaan jarak jauh yang menggunakan sumber daya EMR Tanpa Server, Anda harus memiliki izin yang diperlukan. Anda dapat memberikan izin baik melalui pengaturan SageMaker domain Amazon atau profil pengguna, atau Anda dapat mengonfigurasi AWS IAM peran pengguna secara manual. Untuk petunjuk tentang cara memberikan izin kepada pengguna untuk melakukan pemrosesan data besar, lihatBerikan Izin Pengguna untuk Menggunakan Data Besar di seluruh Siklus Hidup ML.
Jika Anda tidak ingin mengonfigurasi kebijakan ini tetapi masih perlu memproses kumpulan data besar melalui Data Wrangler, Anda dapat menggunakan pekerjaan Pemrosesan. SageMaker
Gunakan prosedur berikut untuk mengekspor data Anda ke Amazon S3. Untuk mengonfigurasi pekerjaan jarak jauh, ikuti langkah-langkah lanjutan opsional.
Untuk mengekspor node dalam alur Anda ke Amazon S3
-
Arahkan ke aliran data Anda.
-
Pilih ikon elipsis di sebelah simpul yang Anda ekspor.
-
Di menu konteks, arahkan kursor ke Ekspor, lalu pilih Ekspor data ke Amazon S3.
-
Di panel samping Ekspor ke Amazon S3, Anda dapat mengubah nama Dataset untuk kumpulan data baru.
-
Untuk lokasi S3, masukkan lokasi Amazon S3 yang ingin Anda ekspor dataset. Anda dapat memasukkan S3URI, alias, atau ARN lokasi S3 atau titik akses S3. Untuk informasi selengkapnya, lihat Mengelola akses data dengan jalur akses Amazon S3 di Panduan Pengguna Amazon S3.
-
(Opsional) Untuk Pengaturan lanjutan, tentukan nilai untuk bidang berikut:
-
Jenis file - Format file dari data yang Anda ekspor.
-
Delimiter — Pembatas yang digunakan untuk memisahkan nilai dalam file.
-
Kompresi — Metode kompresi yang digunakan untuk mengurangi ukuran file.
-
Jumlah partisi — Jumlah file dataset yang ditulis Canvas sebagai output dari pekerjaan.
-
Pilih kolom - Anda dapat memilih subset kolom dari data yang akan disertakan dalam partisi.
-
-
Biarkan opsi Proses seluruh kumpulan data dipilih jika Anda ingin Canvas menerapkan transformasi aliran data Anda ke seluruh kumpulan data Anda dan mengekspor hasilnya. Jika Anda membatalkan pilihan ini, Canvas hanya menerapkan transformasi ke sampel kumpulan data Anda yang digunakan dalam aliran data Wrangler Data interaktif.
catatan
Jika Anda hanya mengekspor sampel data Anda, Canvas memproses data Anda dalam aplikasi dan tidak membuat pekerjaan jarak jauh untuk Anda.
-
Biarkan opsi konfigurasi pekerjaan Otomatis dipilih jika Anda ingin Canvas secara otomatis menentukan apakah akan menjalankan pekerjaan menggunakan memori aplikasi Canvas atau pekerjaan EMR Tanpa Server. Jika Anda membatalkan pilihan opsi ini dan mengonfigurasi pekerjaan Anda secara manual, maka Anda dapat memilih untuk menggunakan pekerjaan EMR Tanpa Server atau Pemrosesan. SageMaker Untuk petunjuk tentang cara mengonfigurasi pekerjaan EMR Tanpa Server atau SageMaker Pemrosesan, lihat bagian setelah prosedur ini sebelum Anda mengekspor data Anda.
-
Pilih Ekspor.
Prosedur berikut menunjukkan cara mengonfigurasi pengaturan pekerjaan jarak jauh secara manual untuk EMR Tanpa Server atau SageMaker Pemrosesan saat mengekspor kumpulan data lengkap Anda ke Amazon S3.
Setelah mengekspor data, Anda akan menemukan kumpulan data yang diproses sepenuhnya di lokasi Amazon S3 yang ditentukan.