Siapkan data menggunakan EMR Serverless - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Siapkan data menggunakan EMR Serverless

Dimulai dengan versi gambar SageMaker distribusi1.10, Amazon SageMaker Studio terintegrasi dengan Tanpa EMR Server. Dalam JupyterLab notebook di SageMaker Studio, ilmuwan data dan insinyur data dapat menemukan dan terhubung ke aplikasi EMR Tanpa Server, kemudian secara interaktif mengeksplorasi, memvisualisasikan, dan menyiapkan beban kerja Apache Spark atau Apache Hive skala besar. Integrasi ini memungkinkan untuk melakukan prapemrosesan data interaktif dalam skala besar dalam persiapan untuk pelatihan dan penerapan model ML.

Secara khusus, versi terbaru dari versi gambar sagemaker-studio-analytics-extensiondalam SageMakerdistribusi 1.10 memanfaatkan integrasi antara Apache Livy dan EMR Serverless, memungkinkan koneksi ke titik akhir Apache Livy melalui notebook. JupyterLab Bagian ini mengasumsikan pengetahuan sebelumnya tentang aplikasi EMRinteraktif Tanpa Server.

penting

Saat menggunakan Studio, Anda hanya dapat menemukan dan terhubung ke aplikasi EMR Tanpa Server untuk JupyterLab aplikasi yang diluncurkan dari ruang pribadi. Pastikan bahwa aplikasi EMR Tanpa Server berada di AWS wilayah yang sama dengan lingkungan Studio Anda.

Prasyarat

Sebelum Anda mulai menjalankan beban kerja interaktif dengan EMR Tanpa Server dari JupyterLab notebook Anda, pastikan Anda memenuhi prasyarat berikut:

  1. JupyterLab Ruang Anda harus menggunakan versi gambar SageMaker Distribusi 1.10 atau lebih tinggi.

  2. Buat aplikasi interaktif EMR Tanpa Server dengan EMR versi Amazon 6.14.0 atau lebih tinggi. Anda dapat membuat aplikasi EMR Tanpa Server dari antarmuka pengguna Studio dengan mengikuti langkah-langkahnya. Buat aplikasi EMR Tanpa Server dari Studio

    catatan

    Untuk pengaturan yang paling sederhana, Anda dapat membuat aplikasi EMR Tanpa Server di UI Studio tanpa mengubah pengaturan default apa pun untuk opsi Virtual private cloud (VPC). Ini memungkinkan aplikasi dibuat dalam domain Anda VPC tanpa memerlukan konfigurasi jaringan apa pun. Dalam hal ini, Anda dapat melewati langkah pengaturan jaringan berikut.

  3. Tinjau persyaratan jaringan dan keamanan diKonfigurasikan akses jaringan untuk EMR klaster Amazon Anda. Secara khusus, pastikan bahwa Anda:

    • Buat koneksi VPC peering antara akun Studio dan akun Tanpa EMR Server Anda.

    • Tambahkan rute ke tabel rute subnet pribadi di kedua akun.

    • Siapkan grup keamanan yang dilampirkan ke domain Studio Anda untuk mengizinkan lalu lintas keluar, dan konfigurasikan grup keamanan VPC tempat Anda berencana menjalankan aplikasi EMR Tanpa Server untuk mengizinkan TCP lalu lintas masuk dari grup keamanan instans Studio.

  4. Untuk mengakses aplikasi interaktif di EMR Tanpa Server dan menjalankan beban kerja yang dikirimkan dari JupyterLab buku catatan di SageMaker Studio, Anda harus menetapkan izin dan peran tertentu. Lihat Siapkan izin untuk mengaktifkan daftar dan meluncurkan EMR aplikasi Amazon dari Studio SageMaker bagian untuk detail tentang peran dan izin yang diperlukan.