Ekspor data - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Ekspor data

Ekspor data untuk menerapkan transformasi dari aliran data Anda ke dataset impor penuh. Anda dapat mengekspor node apa pun dalam aliran data Anda ke lokasi berikut:

  • SageMaker Dataset kanvas

  • Amazon S3

Jika Anda ingin melatih model di Canvas, Anda dapat mengekspor dataset lengkap yang diubah sebagai dataset Canvas. Jika Anda ingin menggunakan data yang diubah dalam alur kerja pembelajaran mesin di luar SageMaker Canvas, Anda dapat mengekspor kumpulan data Anda ke Amazon S3.

Ekspor ke dataset Canvas

Gunakan prosedur berikut untuk mengekspor dataset SageMaker Canvas dari node dalam aliran data Anda.

Untuk mengekspor node dalam alur Anda sebagai dataset SageMaker Canvas
  1. Arahkan ke aliran data Anda.

  2. Pilih ikon elipsis di sebelah simpul yang Anda ekspor.

  3. Di menu konteks, arahkan kursor ke Ekspor, lalu pilih Ekspor data ke kumpulan data Canvas.

  4. Di panel samping Export to Canvas dataset, masukkan nama Dataset untuk dataset baru.

  5. Biarkan opsi Proses seluruh kumpulan data dipilih jika Anda ingin SageMaker Canvas memproses dan menyimpan kumpulan data lengkap Anda. Matikan opsi ini untuk hanya menerapkan transformasi ke data sampel yang Anda kerjakan dalam aliran data Anda.

  6. Pilih Ekspor.

Anda sekarang harus dapat pergi ke halaman Datasets dari aplikasi Canvas dan melihat dataset baru Anda.

Ekspor ke Amazon S3

Saat mengekspor data ke Amazon S3, Anda dapat menskalakan untuk mengubah dan memproses data dalam berbagai ukuran. Canvas secara otomatis memproses data Anda secara lokal jika memori aplikasi dapat menangani ukuran kumpulan data Anda. Jika ukuran kumpulan data Anda melebihi kapasitas memori lokal sebesar 5 GB, Canvas memulai pekerjaan jarak jauh atas nama Anda untuk menyediakan sumber daya komputasi tambahan dan memproses data dengan lebih cepat. Secara default, Canvas menggunakan Amazon EMR Tanpa Server untuk menjalankan pekerjaan jarak jauh ini. Namun, Anda dapat mengonfigurasi Canvas secara manual untuk menggunakan pekerjaan EMR Tanpa Server atau SageMaker Pemrosesan dengan pengaturan Anda sendiri.

catatan

Saat menjalankan pekerjaan EMR Tanpa Server, secara default pekerjaan mewarisi IAM peran, pengaturan KMS kunci, dan tag aplikasi Canvas Anda.

Berikut ini merangkum opsi untuk pekerjaan jarak jauh di Canvas:

  • EMRServerless: Ini adalah opsi default yang digunakan Canvas untuk pekerjaan jarak jauh. EMRTanpa server secara otomatis menyediakan dan menskalakan sumber daya komputasi untuk memproses data Anda sehingga Anda tidak perlu khawatir tentang memilih sumber daya komputasi yang tepat untuk beban kerja Anda. Untuk informasi selengkapnya tentang EMR Tanpa Server, lihat Panduan Pengguna Tanpa EMRServer.

  • SageMaker Pemrosesan: Pekerjaan SageMaker pemrosesan menawarkan opsi yang lebih canggih dan kontrol terperinci atas sumber daya komputasi yang digunakan untuk memproses data Anda. Misalnya, Anda dapat menentukan jenis dan jumlah instans komputasi, mengonfigurasi pekerjaan di akses jaringan Anda sendiri VPC dan mengontrol, mengotomatiskan pekerjaan pemrosesan, dan banyak lagi. Untuk informasi selengkapnya tentang mengotomatisasi pekerjaan pemrosesan, lihatBuat jadwal untuk memproses data baru secara otomatis. Untuk informasi lebih umum tentang pekerjaan SageMaker pemrosesan, lihatBeban kerja transformasi data dengan SageMaker Processing.

Jenis file berikut didukung saat mengekspor ke Amazon S3:

  • CSV

  • Parquet

Untuk memulai, tinjau prasyarat berikut.

Prasyarat untuk pekerjaan Tanpa Server EMR

Untuk membuat pekerjaan jarak jauh yang menggunakan sumber daya EMR Tanpa Server, Anda harus memiliki izin yang diperlukan. Anda dapat memberikan izin baik melalui pengaturan SageMaker domain Amazon atau profil pengguna, atau Anda dapat mengonfigurasi AWS IAM peran pengguna secara manual. Untuk petunjuk tentang cara memberikan izin kepada pengguna untuk melakukan pemrosesan data besar, lihatBerikan Izin Pengguna untuk Menggunakan Data Besar di seluruh Siklus Hidup ML.

Jika Anda tidak ingin mengonfigurasi kebijakan ini tetapi masih perlu memproses kumpulan data besar melalui Data Wrangler, Anda dapat menggunakan pekerjaan Pemrosesan. SageMaker

Gunakan prosedur berikut untuk mengekspor data Anda ke Amazon S3. Untuk mengonfigurasi pekerjaan jarak jauh, ikuti langkah-langkah lanjutan opsional.

Untuk mengekspor node dalam alur Anda ke Amazon S3
  1. Arahkan ke aliran data Anda.

  2. Pilih ikon elipsis di sebelah simpul yang Anda ekspor.

  3. Di menu konteks, arahkan kursor ke Ekspor, lalu pilih Ekspor data ke Amazon S3.

  4. Di panel samping Ekspor ke Amazon S3, Anda dapat mengubah nama Dataset untuk kumpulan data baru.

  5. Untuk lokasi S3, masukkan lokasi Amazon S3 yang ingin Anda ekspor dataset. Anda dapat memasukkan S3URI, alias, atau ARN lokasi S3 atau titik akses S3. Untuk informasi selengkapnya, lihat Mengelola akses data dengan jalur akses Amazon S3 di Panduan Pengguna Amazon S3.

  6. (Opsional) Untuk Pengaturan lanjutan, tentukan nilai untuk bidang berikut:

    1. Jenis file - Format file dari data yang Anda ekspor.

    2. Delimiter — Pembatas yang digunakan untuk memisahkan nilai dalam file.

    3. Kompresi — Metode kompresi yang digunakan untuk mengurangi ukuran file.

    4. Jumlah partisi — Jumlah file dataset yang ditulis Canvas sebagai output dari pekerjaan.

    5. Pilih kolom - Anda dapat memilih subset kolom dari data yang akan disertakan dalam partisi.

  7. Biarkan opsi Proses seluruh kumpulan data dipilih jika Anda ingin Canvas menerapkan transformasi aliran data Anda ke seluruh kumpulan data Anda dan mengekspor hasilnya. Jika Anda membatalkan pilihan ini, Canvas hanya menerapkan transformasi ke sampel kumpulan data Anda yang digunakan dalam aliran data Wrangler Data interaktif.

    catatan

    Jika Anda hanya mengekspor sampel data Anda, Canvas memproses data Anda dalam aplikasi dan tidak membuat pekerjaan jarak jauh untuk Anda.

  8. Biarkan opsi konfigurasi pekerjaan Otomatis dipilih jika Anda ingin Canvas secara otomatis menentukan apakah akan menjalankan pekerjaan menggunakan memori aplikasi Canvas atau pekerjaan EMR Tanpa Server. Jika Anda membatalkan pilihan opsi ini dan mengonfigurasi pekerjaan Anda secara manual, maka Anda dapat memilih untuk menggunakan pekerjaan EMR Tanpa Server atau Pemrosesan. SageMaker Untuk petunjuk tentang cara mengonfigurasi pekerjaan EMR Tanpa Server atau SageMaker Pemrosesan, lihat bagian setelah prosedur ini sebelum Anda mengekspor data Anda.

  9. Pilih Ekspor.

Prosedur berikut menunjukkan cara mengonfigurasi pengaturan pekerjaan jarak jauh secara manual untuk EMR Tanpa Server atau SageMaker Pemrosesan saat mengekspor kumpulan data lengkap Anda ke Amazon S3.

EMR Serverless

Untuk mengonfigurasi pekerjaan EMR Tanpa Server saat mengekspor ke Amazon S3, lakukan hal berikut:

  1. Di panel samping Ekspor ke Amazon S3, matikan opsi Konfigurasi pekerjaan otomatis.

  2. Pilih EMRTanpa Server.

  3. Untuk nama Job, masukkan nama untuk pekerjaan EMR Tanpa Server Anda. Nama dapat berisi huruf, angka, tanda hubung, dan garis bawah.

  4. Untuk IAMperan, masukkan peran IAM eksekusi pengguna. Peran ini harus memiliki izin yang diperlukan untuk menjalankan aplikasi Tanpa EMR Server. Untuk informasi selengkapnya, lihat Berikan Izin Pengguna untuk Menggunakan Data Besar di seluruh Siklus Hidup ML.

  5. (Opsional) Untuk KMSkunci, tentukan ID kunci atau ARN AWS KMS key untuk mengenkripsi log pekerjaan. Jika Anda tidak memasukkan kunci, Canvas menggunakan kunci default untuk Tanpa EMR Server.

  6. (Opsional) Untuk konfigurasi Monitoring, masukkan nama grup CloudWatch log Amazon Logs yang ingin Anda publikasikan log Anda.

  7. (Opsional) Untuk Tag, tambahkan tag metadata ke pekerjaan EMR Tanpa Server yang terdiri dari pasangan nilai kunci. Tag ini dapat digunakan untuk mengkategorikan dan mencari pekerjaan.

  8. Pilih Ekspor untuk memulai tugas.

SageMaker Processing

Untuk mengonfigurasi pekerjaan SageMaker Pemrosesan saat mengekspor ke Amazon S3, lakukan hal berikut:

  1. Di panel samping Ekspor ke Amazon S3, matikan opsi Konfigurasi pekerjaan otomatis.

  2. Pilih SageMaker Pemrosesan.

  3. Untuk nama Job, masukkan nama untuk pekerjaan SageMaker Processing Anda.

  4. Untuk tipe Instance, pilih jenis instance komputasi untuk menjalankan pekerjaan pemrosesan.

  5. Untuk hitungan Instance, tentukan jumlah instance komputasi yang akan diluncurkan.

  6. Untuk IAMperan, masukkan peran IAM eksekusi pengguna. Peran ini harus memiliki izin yang diperlukan SageMaker untuk membuat dan menjalankan pekerjaan pemrosesan atas nama Anda. Izin ini diberikan jika Anda memiliki AmazonSageMakerFullAccesskebijakan yang melekat pada IAM peran Anda.

  7. Untuk ukuran Volume, masukkan ukuran penyimpanan dalam GB untuk volume penyimpanan ML yang dilampirkan ke setiap instance pemrosesan. Pilih ukuran berdasarkan ukuran data input dan output yang Anda harapkan.

  8. (Opsional) Untuk KMStombol Volume, tentukan KMS kunci untuk mengenkripsi volume penyimpanan. Jika Anda tidak menentukan kunci, kunci EBS enkripsi Amazon default digunakan.

  9. (Opsional) Untuk KMSkunci, tentukan KMS kunci untuk mengenkripsi input dan output sumber data Amazon S3 yang digunakan oleh pekerjaan pemrosesan.

  10. (Opsional) Untuk konfigurasi memori Spark, lakukan hal berikut:

    1. Masukkan memori Driver dalam MB untuk node driver Spark yang menangani koordinasi dan penjadwalan pekerjaan.

    2. Masukkan memori Executor dalam MB untuk node pelaksana Spark yang menjalankan tugas individual dalam pekerjaan.

  11. (Opsional) Untuk konfigurasi Jaringan, lakukan hal berikut:

    1. Untuk konfigurasi Subnet, masukkan IDs VPC subnet untuk instance pemrosesan yang akan diluncurkan. Secara default, pekerjaan menggunakan pengaturan default AndaVPC.

    2. Untuk konfigurasi grup Keamanan, masukkan IDs grup keamanan untuk mengontrol aturan konektivitas masuk dan keluar.

    3. Aktifkan opsi Aktifkan enkripsi lalu lintas antar kontainer untuk mengenkripsi komunikasi jaringan antara wadah pemrosesan selama pekerjaan.

  12. (Opsional) Untuk jadwal Associate, Anda dapat memilih buat EventBridge jadwal Amazon agar pekerjaan pemrosesan berjalan pada interval berulang. Pilih Buat jadwal baru dan isi kotak dialog. Untuk informasi selengkapnya tentang mengisi bagian ini dan menjalankan pekerjaan pemrosesan sesuai jadwal, lihatBuat jadwal untuk memproses data baru secara otomatis.

  13. (Opsional) Tambahkan Tag sebagai pasangan nilai kunci sehingga Anda dapat mengkategorikan dan mencari pekerjaan pemrosesan.

  14. Pilih Ekspor untuk memulai pekerjaan pemrosesan.

Setelah mengekspor data, Anda akan menemukan kumpulan data yang diproses sepenuhnya di lokasi Amazon S3 yang ditentukan.