Jalankan beban kerja interaktif dengan Tanpa EMR Server melalui Studio EMR - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Jalankan beban kerja interaktif dengan Tanpa EMR Server melalui Studio EMR

Gambaran Umum

Aplikasi interaktif adalah aplikasi EMR Tanpa Server yang memiliki kemampuan interaktif diaktifkan. Dengan aplikasi interaktif Amazon EMR Serverless, Anda dapat menjalankan beban kerja interaktif dengan notebook Jupyter yang dikelola di Amazon Studio. EMR Ini membantu insinyur data, ilmuwan data, dan analis data menggunakan EMR Studio untuk menjalankan analitik interaktif dengan kumpulan data di penyimpanan data seperti Amazon S3 dan Amazon DynamoDB.

Kasus penggunaan untuk aplikasi interaktif di EMR Tanpa Server meliputi yang berikut:

  • Insinyur data menggunakan IDE pengalaman di EMR Studio untuk membuat ETL skrip. Skrip menyerap data dari lokal, mengubah data untuk analisis, dan menyimpan data di Amazon S3.

  • Ilmuwan data menggunakan notebook untuk mengeksplorasi kumpulan data dan melatih model pembelajaran mesin (ML) untuk mendeteksi anomali dalam kumpulan data.

  • Analis data mengeksplorasi kumpulan data dan membuat skrip yang menghasilkan laporan harian untuk memperbarui aplikasi seperti dasbor bisnis.

Prasyarat

Untuk menggunakan beban kerja interaktif dengan EMR Tanpa Server, Anda harus memenuhi persyaratan berikut:

  • EMRAplikasi interaktif tanpa server didukung dengan Amazon EMR 6.14.0 dan yang lebih tinggi.

  • Untuk mengakses aplikasi interaktif Anda, jalankan beban kerja yang Anda kirimkan, dan jalankan buku catatan interaktif dari EMR Studio, Anda memerlukan izin dan peran tertentu. Untuk informasi selengkapnya, lihat Izin yang diperlukan untuk beban kerja interaktif.

Izin yang diperlukan untuk beban kerja interaktif

Selain izin dasar yang diperlukan untuk mengakses EMR Tanpa Server, Anda harus mengonfigurasi izin tambahan untuk identitas atau peran AndaIAM:

Untuk mengakses aplikasi interaktif Anda

Siapkan izin pengguna dan Ruang Kerja untuk EMR Studio. Untuk informasi selengkapnya, lihat Mengonfigurasi izin pengguna EMR Studio di Panduan EMR Manajemen Amazon.

Untuk menjalankan beban kerja yang Anda kirimkan dengan Tanpa Server EMR

Siapkan peran runtime pekerjaan. Untuk informasi selengkapnya, lihat Buat peran runtime pekerjaan.

Untuk menjalankan notebook interaktif dari Studio EMR

Tambahkan izin tambahan berikut ke IAM kebijakan untuk pengguna Studio:

  • emr-serverless:AccessInteractiveEndpoints- Memberikan izin untuk mengakses dan terhubung ke aplikasi interaktif yang Anda tentukan sebagaiResource. Izin ini diperlukan untuk melampirkan ke aplikasi EMR Tanpa Server dari Ruang Kerja EMR Studio.

  • iam:PassRole- Memberikan izin untuk mengakses peran IAM eksekusi yang Anda rencanakan untuk digunakan saat Anda melampirkan ke aplikasi. PassRoleIzin yang sesuai diperlukan untuk melampirkan ke aplikasi EMR Tanpa Server dari Ruang Kerja EMR Studio.

{ "Version": "2012-10-17", "Statement": [ { "Sid": "EMRServerlessInteractiveAccess", "Effect": "Allow", "Action": "emr-serverless:AccessInteractiveEndpoints", "Resource": "arn:aws:emr-serverless:Region:account:/applications/*" }, { "Sid": "EMRServerlessRuntimeRoleAccess", "Effect": "Allow", "Action": "iam:PassRole", "Resource": "interactive-execution-role-ARN", "Condition": { "StringLike": { "iam:PassedToService": "emr-serverless.amazonaws.com" } } } ] }

Mengkonfigurasi aplikasi interaktif

Gunakan langkah-langkah tingkat tinggi berikut untuk membuat aplikasi EMR Tanpa Server dengan kemampuan interaktif dari Amazon Studio di EMR AWS Management Console.

  1. Ikuti langkah-langkah Memulai dengan Amazon Tanpa EMR Server untuk membuat aplikasi.

  2. Kemudian, luncurkan ruang kerja dari EMR Studio dan lampirkan ke aplikasi EMR Tanpa Server sebagai opsi komputasi. Untuk informasi selengkapnya, lihat tab Beban kerja interaktif di Langkah 2 dari dokumentasi Memulai EMR Tanpa Server.

Saat Anda melampirkan aplikasi ke Studio Workspace, aplikasi mulai terpicu secara otomatis jika aplikasi tersebut belum berjalan. Anda juga dapat memulai aplikasi terlebih dahulu dan menyiapkannya sebelum Anda melampirkannya ke Workspace.

Pertimbangan dengan aplikasi interaktif

  • EMRAplikasi interaktif tanpa server didukung dengan Amazon EMR 6.14.0 dan yang lebih tinggi.

  • EMRStudio adalah satu-satunya klien yang terintegrasi dengan aplikasi interaktif EMR Tanpa Server. Kemampuan EMR Studio berikut tidak didukung dengan aplikasi interaktif EMR Tanpa Server: Kolaborasi ruang kerja, SQL Explorer, dan eksekusi terprogram notebook.

  • Aplikasi interaktif hanya didukung untuk mesin Spark.

  • Aplikasi interaktif mendukung kernel Python 3, PySpark dan Spark Scala.

  • Anda dapat menjalankan hingga 25 notebook bersamaan pada satu aplikasi interaktif.

  • Tidak ada titik akhir atau API antarmuka yang mendukung notebook Jupyter yang dihosting sendiri dengan aplikasi interaktif.

  • Untuk pengalaman startup yang dioptimalkan, kami menyarankan Anda mengonfigurasi kapasitas pra-inisialisasi untuk driver dan pelaksana, dan Anda memulai aplikasi terlebih dahulu. Ketika Anda memulai aplikasi terlebih dahulu, Anda memastikan bahwa itu siap ketika Anda ingin melampirkannya ke Workspace Anda.

    aws emr-serverless start-application \ --application-id your-application-id
  • Secara default, autoStopConfig diaktifkan untuk aplikasi. Ini mematikan aplikasi setelah 30 menit waktu idle. Anda dapat mengubah konfigurasi ini sebagai bagian dari update-application permintaan create-application atau permintaan Anda.

  • Saat menggunakan aplikasi interaktif, kami menyarankan Anda mengonfigurasi kapasitas kernel, driver, dan pelaksana pra-intialisasi untuk menjalankan notebook Anda. Setiap sesi interaktif Spark memerlukan satu kernel dan satu driver, sehingga EMR Tanpa Server mempertahankan pekerja kernel yang telah diinisialisasi sebelumnya untuk setiap driver yang telah diinisialisasi sebelumnya. Secara default, EMR Tanpa Server mempertahankan kapasitas pra-inisialisasi dari satu pekerja kernel di seluruh aplikasi bahkan jika Anda tidak menentukan kapasitas pra-inisialisasi untuk driver. Setiap pekerja kernel menggunakan memori 4 v CPU dan 16 GB. Untuk informasi harga saat ini, lihat halaman EMRHarga Amazon.

  • Anda harus memiliki kuota CPU layanan v yang memadai di Akun AWS untuk menjalankan beban kerja interaktif. Jika Anda tidak menjalankan beban kerja yang mendukung Lake Formation, kami sarankan setidaknya 24 v. CPU Jika Anda melakukannya, kami sarankan setidaknya 28 vCPU.

  • EMRTanpa server secara otomatis menghentikan kernel dari notebook jika mereka telah menganggur selama lebih dari 60 menit. EMRTanpa server menghitung waktu idle kernel dari aktivitas terakhir yang diselesaikan selama sesi notebook. Saat ini Anda tidak dapat mengubah pengaturan batas waktu idle kernel.

  • Untuk mengaktifkan Lake Formation dengan beban kerja interaktif, atur konfigurasi spark.emr-serverless.lakeformation.enabled ke true bawah spark-defaults klasifikasi dalam runtime-configuration objek saat Anda membuat aplikasi Tanpa EMR Server. Untuk mempelajari lebih lanjut tentang mengaktifkan Lake Formation di EMR Tanpa Server, lihat Mengaktifkan Lake Formation di Amazon. EMR