Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Lihat antarmuka pengguna aplikasi persisten di Amazon EMR
Dimulai dengan Amazon EMR versi 5.25.0, Anda dapat terhubung ke detail aplikasi Spark History Server persisten yang dihosting di luar cluster menggunakan halaman Ringkasan cluster atau tab antarmuka pengguna Aplikasi di konsol. UI Tez dan antarmuka aplikasi persisten server YARN timeline tersedia dimulai dengan Amazon EMR versi 5.30.1. Akses tautan satu klik ke riwayat aplikasi persisten memberikan manfaat berikut:
-
Anda dapat dengan cepat menganalisis dan memecahkan masalah pekerjaan aktif dan riwayat pekerjaan tanpa menyiapkan proxy web melalui koneksiSSH.
-
Anda dapat mengakses riwayat aplikasi dan berkas log yang relevan untuk klaster yang aktif dan diakhiri. Log tersedia selama 30 hari setelah aplikasi berakhir.
Arahkan ke detail klaster Anda di konsol, dan pilih tab Aplikasi. Pilih UI aplikasi yang Anda inginkan setelah cluster Anda diluncurkan. UI aplikasi terbuka di tab browser baru. Untuk informasi selengkapnya, lihat Pemantauan dan instrumentasi
Anda dapat melihat log YARN kontainer melalui tautan di server riwayat Spark, server YARN timeline, dan UI Tez.
catatan
Untuk mengakses log YARN kontainer dari server riwayat Spark, server YARN timeline, dan UI Tez, Anda harus mengaktifkan logging ke Amazon S3 untuk klaster Anda. Jika Anda tidak mengaktifkan logging, tautan ke log YARN kontainer tidak akan berfungsi.
Pengumpulan log
Untuk mengaktifkan akses sekali klik ke antarmuka pengguna aplikasi persisten, Amazon EMR mengumpulkan dua jenis log:
-
Log peristiwa aplikasi dikumpulkan ke dalam bucket EMR sistem. Log peristiwa dienkripsi saat istirahat menggunakan Enkripsi Sisi Server dengan Kunci Terkelola Amazon S3 (-S3). SSE Jika Anda menggunakan subnet pribadi untuk klaster Anda, pastikan untuk menyertakan bucket sistem yang benar ARNs dalam daftar sumber daya kebijakan Amazon S3 untuk subnet pribadi. Untuk informasi selengkapnya, lihat Kebijakan Amazon S3 minimum untuk subnet privat.
-
YARNlog kontainer dikumpulkan ke dalam ember Amazon S3 yang Anda miliki. Anda harus mengaktifkan logging untuk cluster Anda untuk mengakses log YARN kontainer. Untuk informasi selengkapnya, lihat Mengkonfigurasi logging dan debug klaster.
Jika Anda perlu untuk menonaktifkan fitur ini untuk alasan privasi, Anda dapat menghentikan daemon dengan menggunakan skrip bootstrap ketika Anda membuat sebuah klaster, seperti yang ditunjukkan contoh berikut.
aws emr create-cluster --name "Stop Application UI Support" --release-label emr-7.3.0 \ --applications Name=Hadoop Name=Spark --ec2-attributes KeyName=
<myEMRKeyPairName>
\ --instance-groups InstanceGroupType=MASTER,InstanceCount=1,InstanceType=m3.xlarge InstanceGroupType=CORE,InstanceCount=1,InstanceType=m3.xlarge InstanceGroupType=TASK,InstanceCount=1,InstanceType=m3.xlarge \ --use-default-roles --bootstrap-actions Path=s3://region
.elasticmapreduce/bootstrap-actions/run-if,Args=["instance.isMaster=true","echo Stop Application UI | sudo tee /etc/apppusher/run-apppusher; sudo systemctl stop apppusher || exit 0"]
Setelah Anda menjalankan skrip bootstrap ini, Amazon tidak EMR akan mengumpulkan Spark History Server atau log peristiwa server YARN timeline ke dalam bucket EMR sistem. Tidak ada informasi riwayat aplikasi yang akan tersedia di tab Antarmuka pengguna aplikasi, dan Anda akan kehilangan akses ke semua antarmuka pengguna aplikasi dari konsol tersebut.
File log peristiwa Spark besar
Dalam beberapa kasus, pekerjaan Spark yang berjalan lama, seperti streaming Spark, dan pekerjaan besar, seperti SQL kueri Spark, dapat menghasilkan log peristiwa besar. Dengan log peristiwa besar, Anda dapat dengan cepat menggunakan ruang disk pada instance komputasi dan mengalami OutOfMemory
kesalahan saat memuat Persistent. UIs Untuk menghindari masalah ini, kami sarankan Anda mengaktifkan fitur penggulungan dan pemadatan log peristiwa Spark. Fitur ini tersedia di Amazon EMR versi emr-6.1.0 dan yang lebih baru. Untuk detail selengkapnya tentang rolling dan compaction, lihat Menerapkan pemadatan pada file log peristiwa bergulir
Untuk mengaktifkan fitur penggulungan dan pemadatan log peristiwa Spark, aktifkan pengaturan konfigurasi Spark berikut.
-
spark.eventLog.rolling.enabled
— Menghidupkan log acara bergulir berdasarkan ukuran. Pengaturan ini dinonaktifkan secara default. -
spark.eventLog.rolling.maxFileSize
— Saat penggulungan diaktifkan, tentukan ukuran maksimum file log peristiwa sebelum berguling. Defaultnya adalah 128 MB. -
spark.history.fs.eventLog.rolling.maxFilesToRetain
- Menentukan jumlah maksimum file log peristiwa non-dipadatkan untuk mempertahankan. Secara default, semua file log peristiwa dipertahankan. Setel ke angka yang lebih rendah untuk memadatkan log peristiwa lama. Nilai terendah adalah 1.
Perhatikan bahwa pemadatan mencoba untuk mengecualikan peristiwa dengan file log peristiwa yang sudah ketinggalan zaman, seperti berikut ini. Jika tidak membuang peristiwa, Anda tidak lagi melihatnya di UI Server Riwayat Spark.
-
Acara untuk pekerjaan jadi dan acara panggung atau tugas terkait.
-
Acara untuk pelaksana yang dihentikan.
-
Acara untuk SQL pertanyaan yang diselesaikan, dan acara pekerjaan, panggung, dan tugas terkait.
Untuk meluncurkan cluster dengan penggulungan dan pemadatan diaktifkan
-
Buat
spark-configuration.json
file dengan konfigurasi berikut.[ { "Classification": "spark-defaults", "Properties": { "spark.eventLog.rolling.enabled": true, "spark.history.fs.eventLog.rolling.maxFilesToRetain": 1 } } ]
-
Buat cluster Anda dengan konfigurasi pemadatan bergulir Spark sebagai berikut.
aws emr create-cluster \ --release-label emr-6.6.0 \ --instance-type m4.large \ --instance-count 2 \ --use-default-roles \ --configurations file://spark-configuration.json
Pertimbangan dan batasan
Akses sekali klik ke antarmuka pengguna aplikasi persisten saat ini memiliki batasan berikut.
-
Akan ada setidaknya dua menit penundaan ketika detail aplikasi muncul pada UI Server Riwayat Spark.
-
Fitur ini hanya berfungsi ketika direktori log peristiwa untuk aplikasi masukHDFS. Secara default, Amazon EMR menyimpan log peristiwa di direktoriHDFS. Jika Anda mengubah direktori default ke sistem file yang berbeda, seperti Amazon S3, fitur ini tidak akan bekerja.
-
Fitur ini saat ini tidak tersedia untuk EMR cluster dengan beberapa node master atau untuk EMR cluster yang terintegrasi dengannya. AWS Lake Formation
-
Untuk mengaktifkan akses satu klik ke antarmuka pengguna aplikasi persisten, Anda harus memiliki izin untuk
DescribeCluster
tindakan untuk Amazon. EMR Jika Anda menolak izin IAM kepala sekolah untuk tindakan ini, dibutuhkan sekitar lima menit agar perubahan izin menyebar. -
Jika Anda mengkonfigurasi ulang aplikasi dalam sebuah klaster berjalan, riwayat aplikasi akan tidak tersedia melalui UI aplikasi.
-
Untuk masing-masing Akun AWS, batas default untuk aplikasi aktif UIs adalah 200.
-
Berikut ini Wilayah AWS, Anda dapat mengakses aplikasi UIs dari konsol dengan Amazon EMR 6.14.0 dan yang lebih tinggi:
-
Asia Pasifik (Jakarta) (ap-southeast-3)
-
Eropa (Spanyol) (eu-south-2)
-
Asia Pasifik (Melbourne) (ap-southeast-4)
-
Israel (Tel Aviv) (il-central-1)
-
Timur Tengah (UAE) (me-central-1)
-
-
Berikut ini Wilayah AWS, Anda dapat mengakses aplikasi UIs dari konsol dengan Amazon EMR 5.25.0 dan yang lebih tinggi:
US East (N. Virginia) (us-east-1)
US West (Oregon) (us-west-2)
Asia Pacific (Mumbai) (ap-south-1)
Asia Pacific (Seoul) (ap-northeast-2)
Asia Pasifik (Singapura) (ap-southeast-1)
Asia Pacific (Sydney) (ap-southeast-2)
Asia Pacific (Tokyo) (ap-northeast-1)
Kanada (Pusat) (ca-central-1)
Amerika Selatan (Sao Paulo) (sa-east-1)
Eropa (Frankfurt) (eu-central-1)
Eropa (Irlandia) (eu-west-1)
Eropa (London) (eu-west-2)
Eropa (Paris) (eu-west-3)
Eropa (Stockholm) (eu-north-1)
Tiongkok (Beijing) (cn-utara-1)
Tiongkok (Ningxia) (cn-barat laut-1)