Ekspor ke dataset Canvas Ekspor ke Amazon S3

Data ekspor

Ekspor data untuk menerapkan transformasi dari aliran data Anda ke dataset impor penuh. Anda dapat mengekspor node apa pun dalam aliran data Anda ke lokasi berikut:

SageMaker Dataset kanvas
Amazon S3

Jika Anda ingin melatih model di Canvas, Anda dapat mengekspor dataset lengkap yang diubah sebagai dataset Canvas. Jika Anda ingin menggunakan data yang diubah dalam alur kerja pembelajaran mesin di luar SageMaker Canvas, Anda dapat mengekspor kumpulan data ke Amazon S3.

Ekspor ke dataset Canvas

Gunakan prosedur berikut untuk mengekspor dataset SageMaker Canvas dari node dalam aliran data Anda.

Untuk mengekspor node dalam alur Anda sebagai dataset SageMaker Canvas

Arahkan ke aliran data Anda.
Pilih ikon elipsis di sebelah simpul yang Anda ekspor.
Di menu konteks, arahkan kursor ke Ekspor, lalu pilih Ekspor data ke kumpulan data Canvas.
Di panel samping Export to Canvas dataset, masukkan nama Dataset untuk dataset baru.
Biarkan opsi Proses seluruh kumpulan data dipilih jika Anda ingin SageMaker Canvas memproses dan menyimpan kumpulan data lengkap Anda. Matikan opsi ini untuk hanya menerapkan transformasi ke data sampel yang Anda kerjakan dalam aliran data Anda.
Pilih Ekspor.

Anda sekarang harus dapat pergi ke halaman Datasets dari aplikasi Canvas dan melihat dataset baru Anda.

Ekspor ke Amazon S3

Saat mengekspor data ke Amazon S3, Anda dapat menskalakan untuk mengubah dan memproses data dalam berbagai ukuran. Canvas secara otomatis memproses data Anda secara lokal jika memori aplikasi dapat menangani ukuran kumpulan data Anda. Jika ukuran kumpulan data Anda melebihi kapasitas memori lokal sebesar 5 GB, Canvas memulai pekerjaan jarak jauh atas nama Anda untuk menyediakan sumber daya komputasi tambahan dan memproses data dengan lebih cepat. Secara default, Canvas menggunakan Amazon EMR Tanpa Server untuk menjalankan pekerjaan jarak jauh ini. Namun, Anda dapat mengonfigurasi Canvas secara manual untuk menggunakan EMR Tanpa Server atau pekerjaan SageMaker Pemrosesan dengan pengaturan Anda sendiri.

catatan

Saat menjalankan pekerjaan EMR Tanpa Server, secara default pekerjaan mewarisi peran IAM, pengaturan kunci KMS, dan tag aplikasi Canvas Anda.

Berikut ini merangkum opsi untuk pekerjaan jarak jauh di Canvas:

EMR Tanpa Server: Ini adalah opsi default yang digunakan Canvas untuk pekerjaan jarak jauh. EMR Tanpa Server secara otomatis menyediakan dan menskalakan sumber daya komputasi untuk memproses data Anda sehingga Anda tidak perlu khawatir tentang memilih sumber daya komputasi yang tepat untuk beban kerja Anda. Untuk informasi selengkapnya tentang EMR Tanpa Server, lihat Panduan Pengguna EMR Tanpa Server.
SageMaker Pemrosesan: Pekerjaan SageMaker pemrosesan menawarkan opsi yang lebih canggih dan kontrol terperinci atas sumber daya komputasi yang digunakan untuk memproses data Anda. Misalnya, Anda dapat menentukan jenis dan jumlah instans komputasi, mengonfigurasi pekerjaan di VPC Anda sendiri dan mengontrol akses jaringan, mengotomatiskan pekerjaan pemrosesan, dan banyak lagi. Untuk informasi selengkapnya tentang mengotomatisasi pekerjaan pemrosesan, lihatBuat jadwal untuk memproses data baru secara otomatis. Untuk informasi lebih umum tentang SageMaker Memproses pekerjaan, lihatBeban kerja transformasi data dengan SageMaker Processing.

Jenis file berikut didukung saat mengekspor ke Amazon S3:

CSV
Parquet

Untuk memulai, tinjau prasyarat berikut.

Prasyarat untuk pekerjaan EMR Tanpa Server

Untuk membuat pekerjaan jarak jauh yang menggunakan sumber daya EMR Tanpa Server, Anda harus memiliki izin yang diperlukan. Anda dapat memberikan izin baik melalui domain Amazon SageMaker AI atau pengaturan profil pengguna, atau Anda dapat mengonfigurasi peran AWS IAM pengguna secara manual. Untuk petunjuk tentang cara memberikan izin kepada pengguna untuk melakukan pemrosesan data besar, lihatBerikan Izin Pengguna untuk Menggunakan Data Besar di seluruh Siklus Hidup ML.

Jika Anda tidak ingin mengonfigurasi kebijakan ini tetapi masih perlu memproses kumpulan data besar melalui Data Wrangler, Anda dapat menggunakan pekerjaan Pemrosesan. SageMaker

Gunakan prosedur berikut untuk mengekspor data Anda ke Amazon S3. Untuk mengonfigurasi pekerjaan jarak jauh, ikuti langkah-langkah lanjutan opsional.

Untuk mengekspor node dalam alur Anda ke Amazon S3

Arahkan ke aliran data Anda.
Pilih ikon elipsis di sebelah simpul yang Anda ekspor.
Di menu konteks, arahkan kursor ke Ekspor, lalu pilih Ekspor data ke Amazon S3.
Di panel samping Ekspor ke Amazon S3, Anda dapat mengubah nama Dataset untuk kumpulan data baru.
Untuk lokasi S3, masukkan lokasi Amazon S3 yang ingin Anda ekspor dataset. Anda dapat memasukkan URI S3, alias, atau ARN dari lokasi S3 atau titik akses S3. Untuk informasi selengkapnya, lihat Mengelola akses data dengan jalur akses Amazon S3 di Panduan Pengguna Amazon S3.
(Opsional) Untuk Pengaturan lanjutan, tentukan nilai untuk bidang berikut:
1. Jenis file - Format file dari data yang Anda ekspor.
2. Delimiter — Pembatas yang digunakan untuk memisahkan nilai dalam file.
3. Kompresi — Metode kompresi yang digunakan untuk mengurangi ukuran file.
4. Jumlah partisi — Jumlah file dataset yang ditulis Canvas sebagai output dari pekerjaan.
5. Pilih kolom - Anda dapat memilih subset kolom dari data untuk disertakan dalam partisi.
Biarkan opsi Proses seluruh kumpulan data dipilih jika Anda ingin Canvas menerapkan transformasi aliran data Anda ke seluruh kumpulan data Anda dan mengekspor hasilnya. Jika Anda membatalkan pilihan ini, Canvas hanya menerapkan transformasi ke sampel kumpulan data Anda yang digunakan dalam aliran data Wrangler Data interaktif.

catatan
Jika Anda hanya mengekspor sampel data Anda, Canvas memproses data Anda dalam aplikasi dan tidak membuat pekerjaan jarak jauh untuk Anda.
Biarkan opsi konfigurasi pekerjaan Otomatis dipilih jika Anda ingin Canvas menentukan secara otomatis apakah akan menjalankan pekerjaan menggunakan memori aplikasi Canvas atau pekerjaan EMR Tanpa Server. Jika Anda tidak memilih opsi ini dan mengonfigurasi pekerjaan Anda secara manual, maka Anda dapat memilih untuk menggunakan EMR Tanpa Server atau pekerjaan Pemrosesan. SageMaker Untuk petunjuk tentang cara mengonfigurasi EMR Tanpa Server atau pekerjaan SageMaker Pemrosesan, lihat bagian setelah prosedur ini sebelum Anda mengekspor data Anda.
Pilih Ekspor.

Prosedur berikut menunjukkan cara mengonfigurasi pengaturan pekerjaan jarak jauh secara manual untuk EMR Tanpa Server atau SageMaker Pemrosesan saat mengekspor kumpulan data lengkap Anda ke Amazon S3.

EMR Serverless

Untuk mengonfigurasi pekerjaan EMR Tanpa Server saat mengekspor ke Amazon S3, lakukan hal berikut:

Di panel samping Ekspor ke Amazon S3, matikan opsi Konfigurasi pekerjaan otomatis.
Pilih EMR Tanpa Server.
Untuk nama Job, masukkan nama untuk pekerjaan EMR Tanpa Server Anda. Nama dapat berisi huruf, angka, tanda hubung, dan garis bawah.
Untuk peran IAM, masukkan peran eksekusi IAM pengguna. Peran ini harus memiliki izin yang diperlukan untuk menjalankan aplikasi EMR Tanpa Server. Untuk informasi selengkapnya, lihat Berikan Izin Pengguna untuk Menggunakan Data Besar di seluruh Siklus Hidup ML.
(Opsional) Untuk kunci KMS, tentukan ID kunci atau ARN untuk mengenkripsi log pekerjaan. AWS KMS key Jika Anda tidak memasukkan kunci, Canvas menggunakan kunci default untuk EMR Tanpa Server.
(Opsional) Untuk konfigurasi Monitoring, masukkan nama grup CloudWatch log Amazon Logs yang ingin Anda publikasikan log Anda.
(Opsional) Untuk Tag, tambahkan tag metadata ke pekerjaan EMR Tanpa Server yang terdiri dari pasangan nilai kunci. Tag ini dapat digunakan untuk mengkategorikan dan mencari pekerjaan.
Pilih Ekspor untuk memulai tugas.

SageMaker Processing

Untuk mengonfigurasi pekerjaan SageMaker Pemrosesan saat mengekspor ke Amazon S3, lakukan hal berikut:

Di panel samping Ekspor ke Amazon S3, matikan opsi Konfigurasi pekerjaan otomatis.
Pilih SageMaker Pemrosesan.
Untuk nama Job, masukkan nama untuk pekerjaan SageMaker AI Processing Anda.
Untuk tipe Instance, pilih jenis instance komputasi untuk menjalankan pekerjaan pemrosesan.
Untuk hitungan Instance, tentukan jumlah instance komputasi yang akan diluncurkan.
Untuk peran IAM, masukkan peran eksekusi IAM pengguna. Peran ini harus memiliki izin yang diperlukan bagi SageMaker AI untuk membuat dan menjalankan pekerjaan pemrosesan atas nama Anda. Izin ini diberikan jika Anda memiliki AmazonSageMakerFullAccesskebijakan yang melekat pada peran IAM Anda.
Untuk ukuran Volume, masukkan ukuran penyimpanan dalam GB untuk volume penyimpanan ML yang dilampirkan ke setiap instance pemrosesan. Pilih ukuran berdasarkan ukuran data input dan output yang Anda harapkan.
(Opsional) Untuk tombol Volume KMS, tentukan kunci KMS untuk mengenkripsi volume penyimpanan. Jika Anda tidak menentukan kunci, kunci enkripsi Amazon EBS default akan digunakan.
(Opsional) Untuk kunci KMS, tentukan kunci KMS untuk mengenkripsi input dan output sumber data Amazon S3 yang digunakan oleh pekerjaan pemrosesan.
(Opsional) Untuk konfigurasi memori Spark, lakukan hal berikut:
1. Masukkan memori Driver dalam MB untuk node driver Spark yang menangani koordinasi dan penjadwalan pekerjaan.
2. Masukkan memori Executor dalam MB untuk node pelaksana Spark yang menjalankan tugas individual dalam pekerjaan.
(Opsional) Untuk konfigurasi Jaringan, lakukan hal berikut:
1. Untuk konfigurasi Subnet, masukkan IDs subnet VPC untuk instance pemrosesan yang akan diluncurkan. Secara default, pekerjaan menggunakan pengaturan VPC default Anda.
2. Untuk konfigurasi grup Keamanan, masukkan IDs grup keamanan untuk mengontrol aturan konektivitas masuk dan keluar.
3. Aktifkan opsi Aktifkan enkripsi lalu lintas antar kontainer untuk mengenkripsi komunikasi jaringan antara wadah pemrosesan selama pekerjaan.
(Opsional) Untuk jadwal Associate, Anda dapat memilih buat EventBridge jadwal Amazon agar pekerjaan pemrosesan berjalan pada interval berulang. Pilih Buat jadwal baru dan isi kotak dialog. Untuk informasi selengkapnya tentang mengisi bagian ini dan menjalankan pekerjaan pemrosesan sesuai jadwal, lihatBuat jadwal untuk memproses data baru secara otomatis.
(Opsional) Tambahkan Tag sebagai pasangan nilai kunci sehingga Anda dapat mengkategorikan dan mencari pekerjaan pemrosesan.
Pilih Ekspor untuk memulai pekerjaan pemrosesan.

Setelah mengekspor data, Anda akan menemukan kumpulan data yang diproses sepenuhnya di lokasi Amazon S3 yang ditentukan.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Ekspor untuk membuat model

Ekspor aliran data