Mengaktifkan UI web Apache Spark untuk pekerjaan AWS Glue - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengaktifkan UI web Apache Spark untuk pekerjaan AWS Glue

Anda dapat menggunakan Apache Spark Web UI untuk memantau dan melakukan debug tugas ETL AWS Glue yang berjalan pada sistem tugas AWS Glue. Anda dapat mengkonfigurasi Spark UI dengan menggunakan konsol AWS Glue atau AWS Command Line Interface (AWS CLI).

Setiap 30 detik, AWS Glue buat cadangan log peristiwa Spark ke jalur Amazon S3 yang Anda tentukan.

Mengkonfigurasi UI Spark (konsol)

Ikuti langkah-langkah ini untuk mengonfigurasi UI Spark dengan menggunakan. AWS Management Console Saat membuat AWS Glue pekerjaan, Spark UI diaktifkan secara default.

Untuk mengaktifkan UI Spark saat Anda membuat atau mengedit pekerjaan
  1. Masuk ke AWS Management Console dan buka AWS Glue konsol di https://console.aws.amazon.com/glue/.

  2. Di panel navigasi, pilih Tugas.

  3. Pilih Tambah pekerjaan, atau pilih yang sudah ada.

  4. Di detail Job, buka properti Advanced.

  5. Di bawah tab Spark UI, pilih Tulis log UI Spark ke Amazon S3.

  6. Tentukan path Amazon S3 untuk menyimpan log peristiwa Spark untuk tugas itu. Perhatikan bahwa jika Anda menggunakan konfigurasi keamanan dalam pekerjaan, enkripsi juga berlaku untuk file log UI Spark. Untuk informasi selengkapnya, lihat Mengenkripsi data yang ditulis oleh AWS Glue.

  7. Di bawah konfigurasi logging dan pemantauan Spark UI:

    • Pilih Standar jika Anda membuat log untuk dilihat di AWS Glue konsol.

    • Pilih Legacy jika Anda membuat log untuk dilihat di server riwayat Spark.

    • Anda juga dapat memilih untuk menghasilkan keduanya.

Mengkonfigurasi Spark UI (AWS CLI)

Untuk menghasilkan log untuk dilihat dengan Spark UI, di AWS Glue konsol, gunakan AWS CLI untuk meneruskan parameter pekerjaan berikut ke AWS Glue pekerjaan. Untuk informasi selengkapnya, lihat Menggunakan parameter pekerjaan dalam pekerjaan AWS Glue.

'--enable-spark-ui': 'true', '--spark-event-logs-path': 's3://s3-event-log-path'

Untuk mendistribusikan log ke lokasi lawasannya, setel --enable-spark-ui-legacy-path parameter ke"true". Jika Anda tidak ingin menghasilkan log di kedua format, hapus --enable-spark-ui parameternya.

Mengonfigurasi UI Spark untuk sesi menggunakan Notebook

Awas

AWS Glue sesi interaktif saat ini tidak mendukung Spark UI di konsol. Konfigurasikan server riwayat Spark.

Jika Anda menggunakan AWS Glue buku catatan, siapkan konfigurasi SparkUI sebelum memulai sesi. Untuk melakukan ini, gunakan sihir %%configure sel:

%%configure { “--enable-spark-ui”: “true”, “--spark-event-logs-path”: “s3://path” }

Aktifkan log bergulir

Mengaktifkan SparkUI dan bergulir file peristiwa log untuk AWS Glue pekerjaan memberikan beberapa manfaat:

  • File Acara Log Bergulir - Dengan file peristiwa log bergulir diaktifkan, AWS Glue menghasilkan file log terpisah untuk setiap langkah pelaksanaan pekerjaan, sehingga lebih mudah untuk mengidentifikasi dan memecahkan masalah khusus untuk tahap atau transformasi tertentu.

  • Manajemen Log yang Lebih Baik - File acara log bergulir membantu mengelola file log dengan lebih efisien. Alih-alih memiliki satu file log yang berpotensi besar, log dibagi menjadi file yang lebih kecil dan lebih mudah dikelola berdasarkan tahap eksekusi pekerjaan. Ini dapat menyederhanakan pengarsipan log, analisis, dan pemecahan masalah.

  • Peningkatan Toleransi Kesalahan - Jika AWS Glue pekerjaan gagal atau terganggu, file acara log bergulir dapat memberikan informasi berharga tentang tahap sukses terakhir, sehingga lebih mudah untuk melanjutkan pekerjaan dari titik itu daripada memulai dari awal.

  • Optimalisasi Biaya - Dengan mengaktifkan file peristiwa log bergulir, Anda dapat menghemat biaya penyimpanan yang terkait dengan file log. Alih-alih menyimpan satu file log yang berpotensi besar, Anda menyimpan file log yang lebih kecil dan lebih mudah dikelola, yang bisa lebih hemat biaya, terutama untuk pekerjaan yang berjalan lama atau kompleks.

Di lingkungan baru, pengguna dapat secara eksplisit mengaktifkan log bergulir melalui:

'—conf': 'spark.eventLog.rolling.enabled=true'

atau

'—conf': 'spark.eventLog.rolling.enabled=true —conf spark.eventLog.rolling.maxFileSize=128m'

Saat log bergulir diaktifkan, spark.eventLog.rolling.maxFileSize tentukan ukuran maksimum file log peristiwa sebelum berguling. Nilai default parameter opsional ini jika tidak ditentukan adalah 128 MB. Minimal adalah 10 MB.

Jumlah maksimum dari semua file peristiwa log gulung yang dihasilkan adalah 2 GB. Untuk AWS Glue pekerjaan tanpa dukungan log bergulir, ukuran file peristiwa log maksimum yang didukung untuk SparkUI adalah 0,5 GB.

Anda dapat mematikan log bergulir untuk pekerjaan streaming dengan meneruskan konfigurasi tambahan. Perhatikan bahwa file log yang sangat besar mungkin mahal untuk dipelihara.

Untuk mematikan log bergulir, berikan konfigurasi berikut:

'--spark-ui-event-logs-path': 'true', '--conf': 'spark.eventLog.rolling.enabled=false'