EMRFitur, persyaratan, dan batasan studio - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

EMRFitur, persyaratan, dan batasan studio

Topik ini mencakup Item yang perlu dipertimbangkan saat bekerja dengan Amazon EMR Studio, termasuk pertimbangan tentang wilayah dan alat, persyaratan klaster, dan batasan teknis.

Pertimbangan

Pertimbangkan hal berikut ketika Anda bekerja dengan EMR Studio:

  • EMRStudio tersedia sebagai berikut Wilayah AWS:

    • AS Timur (Ohio) (us-east-2)

    • AS Timur (Virginia Utara) (us-east-1)

    • AS Barat (California Utara) (us-west-1)

    • AS Barat (Oregon) (us-west-2)

    • Africa (Cape Town) (af-south-1)

    • Asia Pacific (Hong Kong) (ap-east-1)

    • Asia Pasifik (Jakarta) (ap-southeast-3) *

    • Asia Pasifik (Melbourne) (ap-southeast-4) *

    • Asia Pasifik (Mumbai) (ap-south-1)

    • Asia Pasifik (Osaka) (ap-northeast-3) *

    • Asia Pasifik (Seoul) (ap-northeast-2)

    • Asia Pasifik (Singapura) (ap-southeast-1)

    • Asia Pacific (Sydney) (ap-southeast-2)

    • Asia Pacific (Tokyo) (ap-northeast-1)

    • Kanada (Pusat) (ca-central-1)

    • Eropa (Frankfurt) (eu-central-1)

    • Eropa (Irlandia) (eu-west-1)

    • Eropa (London) (eu-west-2)

    • Europe (Milan) (eu-south-1)

    • Eropa (Paris) (eu-west-3)

    • Eropa (Spanyol) (eu-south-2)

    • Eropa (Stockholm) (eu-north-1)

    • Eropa (Zurich) (eu-central-2) *

    • Israel (Tel Aviv) (il-central-1) *

    • Timur Tengah (UAE) (me-central-1) *

    • Amerika Selatan (Sao Paulo) (sa-east-1)

    • AWS GovCloud (AS-Timur) (gov-us-east-1)

    • AWS GovCloud (AS-Barat) (gov-us-west-1)

    * UI Spark langsung tidak didukung di Wilayah ini.

  • Agar pengguna dapat menyediakan EMR kluster baru yang berjalan di Amazon EC2 untuk Workspace, Anda dapat mengaitkan EMR Studio dengan sekumpulan templat klaster. Administrator dapat menentukan template cluster dengan Service Catalog dan dapat memilih apakah pengguna atau grup dapat mengakses template cluster, atau tidak ada template cluster, dalam Studio.

  • Saat Anda menentukan izin akses ke file notebook yang disimpan di Amazon S3 atau membaca rahasia, AWS Secrets Manager gunakan peran layanan EMR Amazon. Kebijakan sesi tidak didukung dengan izin ini.

  • Anda dapat membuat beberapa EMR Studio untuk mengontrol akses ke EMR cluster yang berbedaVPCs.

  • Gunakan AWS CLI untuk mengatur Amazon EMR di EKS cluster. Anda kemudian dapat menggunakan antarmuka Studio untuk melampirkan cluster ke Workspaces dengan endpoint terkelola untuk menjalankan pekerjaan notebook.

  • Ada pertimbangan tambahan ketika Anda menggunakan propagasi identitas tepercaya dengan Amazon EMR yang juga berlaku untuk EMR Studio. Untuk informasi selengkapnya, lihat Pertimbangan dan batasan untuk Amazon EMR dengan integrasi Pusat Identitas.

  • EMRStudio tidak mendukung perintah ajaib Python berikut:

    • %alias

    • %alias_magic

    • %automagic

    • %macro

    • %%js

    • %%javascript

    • Memodifikasi proxy_user menggunakan %configure

    • Memodifikasi KERNEL_USERNAME menggunakan %env atau %set_env

  • Amazon EMR di EKS cluster tidak mendukung SparkMagic perintah untuk EMR Studio.

  • Untuk menulis pernyataan Scala multi-baris di sel notebook, pastikan bahwa semua kecuali baris terakhir berakhir dengan titik. Contoh berikut menggunakan sintaks yang benar untuk pernyataan Scala multi-baris.

    val df = spark.sql("SELECT * from table_name). filter("col1=='value'"). limit(50)
  • Untuk meningkatkan keamanan aplikasi off-console yang mungkin Anda gunakan dengan AmazonEMR, domain hosting aplikasi terdaftar di Daftar Akhiran Publik (). PSL Contoh domain hosting ini meliputi:emrstudio-prod.us-east-1.amazonaws.com,emrnotebooks-prod.us-east-1.amazonaws.com,emrappui-prod.us-east-1.amazonaws.com. Untuk keamanan lebih lanjut, jika Anda perlu mengatur cookie sensitif di nama domain default, kami sarankan Anda menggunakan cookie dengan __Host- awalan. Ini membantu mempertahankan domain Anda dari upaya pemalsuan permintaan lintas situs (). CSRF Untuk informasi lebih lanjut, lihat Set-Cookiehalaman di Jaringan Pengembang Mozilla.

  • Amazon EMR Studio Workspaces dan endpoint Persistent UI menggunakan FIPS 140-2 modul kriptografi tervalidasi untuk encryption-in-transit, yang memungkinkan adopsi layanan yang lebih mudah untuk beban kerja yang diatur. Untuk konteks tambahan pada titik akhir UI Persisten, lihat Melihat antarmuka pengguna aplikasi persisten di Amazon. EMR Untuk konteks tambahan mengenai buku catatan, lihat ikhtisar EMRNotebook Amazon.

Masalah yang diketahui

  • EMRStudio yang menggunakan Pusat IAM Identitas dengan propagasi identitas tepercaya diaktifkan hanya dapat dikaitkan dengan EMR cluster yang juga menggunakan propagasi identitas tepercaya.

  • Pastikan Anda menonaktifkan alat manajemen proxy seperti FoxyProxy atau SwitchyOmega di browser sebelum Anda membuat Studio. Proksi aktif dapat menyebabkan kesalahan saat Anda memilih Buat Studio, dan menghasilkan pesan galat Kegagalan Jaringan.

  • Kernel yang berjalan di Amazon EMR di EKS cluster dapat gagal dimulai karena masalah batas waktu. Jika Anda mengalami kesalahan atau masalah saat memulai kernel, tutup file notebook, matikan kernel, lalu buka kembali file notebook.

  • Operasi kernel Restart tidak berfungsi seperti yang diharapkan saat Anda menggunakan Amazon EMR di EKS cluster. Setelah Anda memilih Restart kernel, segarkan Workspace agar restart diterapkan.

  • Jika Workspace tidak dilampirkan ke klaster, pesan kesalahan akan muncul saat pengguna Studio membuka file notebook dan mencoba memilih kernel. Anda dapat mengabaikan pesan kesalahan ini dengan memilih Oke, tetapi Anda harus melampirkan Workspace ke klaster dan memilih kernel agar Anda dapat menjalankan kode notebook.

  • Saat Anda menggunakan Amazon EMR 6.2.0 dengan konfigurasi keamanan untuk mengatur keamanan klaster, antarmuka Workspace tampak kosong dan tidak berfungsi seperti yang diharapkan. Kami menyarankan Anda menggunakan versi Amazon yang didukung berbeda EMR jika Anda ingin mengonfigurasi enkripsi data atau otorisasi Amazon S3 EMRFS untuk klaster. EMR Studio bekerja dengan Amazon EMR versi 5.32.0 (Amazon EMR 5.x series) dan 6.2.0 (EMRAmazon 6.x series) dan lebih tinggi.

  • Saat Anda Debug Amazon EMR berjalan di pekerjaan Amazon EC2, tautan ke Spark UI pada klaster mungkin tidak bekerja atau gagal untuk muncul. Untuk meregenerasi tautan, buat sel notebook baru dan jalankan perintah %%info.

  • Jupyter Enterprise Gateway tidak membersihkan kernel idle pada node utama cluster dalam versi EMR rilis Amazon berikut: 5.32.0, 5.33.0, 6.2.0, dan 6.3.0. Kernel idle mengkonsumsi sumber daya komputasi dan dapat menyebabkan cluster yang berjalan lama gagal. Anda dapat mengonfigurasi pembersihan kernel idle untuk Jupyter Enterprise Gateway menggunakan contoh skrip berikut. Anda dapat Connect ke node utama EMR klaster Amazon menggunakan SSH, atau mengirimkan skrip sebagai langkah. Untuk informasi selengkapnya, lihat Menjalankan perintah dan skrip di EMR klaster Amazon.

    #!/bin/bash sudo tee -a /emr/notebook-env/conf/jupyter_enterprise_gateway_config.py << EOF c.MappingKernelManager.cull_connected = True c.MappingKernelManager.cull_idle_timeout = 10800 c.MappingKernelManager.cull_interval = 300 EOF sudo systemctl daemon-reload sudo systemctl restart jupyter_enterprise_gateway
  • Saat Anda menggunakan kebijakan penghentian otomatis dengan Amazon EMR versi 5.32.0, 5.33.0, 6.2.0, atau 6.3.0, Amazon EMR menandai klaster sebagai idle dan dapat secara otomatis menghentikan klaster meskipun Anda memiliki kernel Python3 yang aktif. Ini karena menjalankan kernel Python3 tidak mengirimkan pekerjaan Spark di cluster. Untuk menggunakan penghentian otomatis dengan kernel Python3, sebaiknya gunakan Amazon EMR versi 6.4.0 atau yang lebih baru. Untuk informasi selengkapnya tentang penghentian otomatis, lihatMenggunakan kebijakan penghentian otomatis untuk pembersihan EMR klaster Amazon.

  • Saat Anda menggunakan %%display untuk menampilkan Spark DataFrame dalam tabel, tabel yang sangat lebar mungkin terpotong. Anda dapat mengklik kanan output dan memilih Buat Tampilan Baru untuk Output untuk mendapatkan tampilan output yang dapat digulir.

  • Memulai kernel berbasis Spark, seperti, Spark PySpark, atau SparkR, memulai sesi Spark, dan menjalankan sel di notebook mengantri pekerjaan Spark di sesi itu. Saat Anda mengganggu sel yang sedang berjalan, pekerjaan Spark terus berjalan. Untuk menghentikan pekerjaan Spark, Anda harus menggunakan UI Spark on-cluster. Untuk petunjuk tentang cara menyambung ke UI Spark, lihatDebug aplikasi dan pekerjaan dengan Studio EMR.

  • Menggunakan Amazon EMR Studio Workspaces sebagai pengguna root Akun AWS menyebabkan 403: Forbidden kesalahan. Ini karena konfigurasi Jupyter Enterprise Gateway di Amazon EMR tidak mengizinkan akses ke pengguna root. Kami menyarankan Anda untuk tidak menggunakan pengguna root untuk tugas sehari-hari Anda. Untuk opsi otentikasi lainnya, lihat AWS Identity and Access Management Amazon EMR.

Batasan fitur

Amazon EMR Studio tidak mendukung EMR fitur Amazon berikut:

  • Melampirkan dan menjalankan pekerjaan pada EMR cluster dengan konfigurasi keamanan yang menentukan otentikasi Kerberos

  • Cluster dengan beberapa node primer

  • Cluster yang menggunakan EC2 instans Amazon berdasarkan AWS Graviton2 untuk EMR Amazon 6.x rilis lebih rendah dari 6.9.0, dan rilis 5.x lebih rendah dari 5.36.1

Fitur berikut tidak didukung dari Studio yang menggunakan propagasi identitas tepercaya:

  • Membuat EMR cluster tanpa template.

  • Menggunakan EMR aplikasi Tanpa Server.

  • Meluncurkan Amazon EMR di EKS cluster.

  • Menggunakan peran runtime.

  • Mengaktifkan kolaborasi SQL Explorer atau Workspace.

Batas layanan untuk EMR Studio

Tabel berikut menampilkan batas layanan untuk EMR Studio.

Item Kuota
EMRStudio Maksimal 100 per AWS akun
Subnet Maksimal 5 yang terkait dengan masing-masing EMR Studio
IAMGrup Pusat Identitas Maksimal 5 ditugaskan untuk setiap EMR Studio
IAMPengguna Pusat Identitas Maksimal 100 ditugaskan untuk setiap EMR Studio