Debug aplikasi dan pekerjaan dengan Studio EMR - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Debug aplikasi dan pekerjaan dengan Studio EMR

Dengan Amazon EMR Studio, Anda dapat meluncurkan antarmuka aplikasi data untuk menganalisis aplikasi dan pekerjaan yang berjalan di browser.

Anda juga dapat meluncurkan antarmuka pengguna off-cluster yang persisten untuk Amazon yang EMR berjalan di EC2 cluster dari konsol Amazon. EMR Untuk informasi selengkapnya, lihat Lihat antarmuka pengguna aplikasi persisten di Amazon EMR.

catatan

Bergantung pada setelan peramban, Anda mungkin perlu mengaktifkan pop-up agar UI aplikasi terbuka.

Untuk informasi tentang mengonfigurasi dan menggunakan antarmuka aplikasi, lihat Tinjauan YARNTimeline Server, Monitoring dan instrumentasi, atau Tez UI.

Debug Amazon EMR berjalan di pekerjaan Amazon EC2

Workspace UI
Luncurkan UI pada klaster dari file notebook

Saat menggunakan Amazon versi EMR rilis 5.33.0 dan yang lebih baru, Anda dapat meluncurkan antarmuka pengguna web Spark (UI Spark atau Server Riwayat Spark) dari buku catatan di Workspace.

On-cluster UIs bekerja dengan kernel PySpark, Spark, atau SparkR. Ukuran maksimum file dapat dilihat untuk log peristiwa atau log kontainer Spark adalah 10 MB. Jika file log melebihi 10 MB, sebaiknya Anda menggunakan Spark History Server yang persisten, bukannya Spark UI pada klaster untuk men-debug pekerjaan.

penting

Agar EMR Studio dapat meluncurkan antarmuka pengguna aplikasi on-cluster dari Workspace, klaster harus dapat berkomunikasi dengan Amazon Gateway. API Anda harus mengonfigurasi EMR klaster untuk mengizinkan lalu lintas jaringan keluar ke Amazon API Gateway, dan memastikan bahwa Amazon API Gateway dapat dijangkau dari cluster.

Spark UI mengakses log kontainer dengan menyelesaikan nama host. Jika Anda menggunakan nama domain khusus, Anda harus memastikan bahwa nama host node cluster Anda dapat diselesaikan oleh Amazon DNS atau oleh DNS server yang Anda tentukan. Untuk melakukannya, setel opsi Dynamic Host Configuration Protocol (DHCP) untuk Amazon Virtual Private Cloud (VPC) yang terkait dengan cluster Anda. Untuk informasi selengkapnya tentang DHCP opsi, lihat set DHCP opsi di Panduan Pengguna Amazon Virtual Private Cloud.

  1. Di EMR Studio Anda, buka Workspace yang ingin Anda gunakan dan pastikan bahwa itu dilampirkan ke EMR klaster Amazon yang sedang EC2 berjalan. Untuk petunjuk, silakan lihat Melampirkan komputasi ke Ruang Kerja EMR Studio.

  2. Buka file notebook dan gunakan kernel PySpark, Spark, atau SparkR. Untuk memilih kernel, pilih nama kernel dari kanan atas bilah alat notebook untuk membuka kotak dialog Pilih Kernel. Nama muncul sebagai Tidak ada Kernel! jika tidak ada kernel yang dipilih.

  3. Jalankan kode notebook Anda. Berikut ini muncul sebagai output di notebook ketika Anda memulai konteks Spark. Mungkin diperlukan waktu beberapa detik untuk muncul. Jika Anda telah memulai konteks Spark, Anda dapat menjalankan %%info perintah untuk mengakses tautan ke UI Spark kapan saja.

    catatan

    Jika tautan Spark UI tidak berfungsi atau tidak muncul setelah beberapa detik, buat sel notebook baru dan jalankan perintah %%info untuk meregenerasi tautan.

    Screenshot dari informasi master aplikasi Spark, dengan tautan ke UI Spark. Tautan muncul di buku catatan saat Anda menjalankan aplikasi Spark.
  4. Untuk meluncurkan Spark UI, pilih Tautan di bawah Spark UI. Jika aplikasi Spark Anda sedang berjalan, Spark UI terbuka di tab baru. Jika aplikasi telah selesai, Spark History Server akan membuka.

    Setelah Anda meluncurkan UI Spark, Anda dapat memodifikasi URL di browser untuk membuka YARN ResourceManager atau Yarn Timeline Server. Tambahkan salah satu jalur berikut setelah amazonaws.com.

    Web UI Jalur Contoh dimodifikasi URL
    YARN ResourceManager /rm https://j-examplebby5ij.emrappui-prod. eu-west-1.amazonaws.com /rm
    Yarn Timeline Server /yts https://j-examplebby5ij.emrappui-prod. eu-west-1.amazonaws.com /yts
    Spark History Server /shs https://j-examplebby5ij.emrappui-prod. eu-west-1.amazonaws.com /shs
Studio UI
Luncurkan Server YARN Timeline persisten, Spark History Server, atau Tez UI dari UI Studio EMR
  1. Di EMR Studio Anda, pilih Amazon EMR EC2 di sisi kiri halaman untuk membuka daftar Amazon EMR di EC2 klaster.

  2. Filter daftar klaster menurut nama, status, atau ID dengan memasukkan nilai di kotak pencarian. Anda juga dapat mencari berdasarkan rentang waktu pembuatan.

  3. Pilih cluster dan kemudian pilih Luncurkan aplikasi UIs untuk memilih antarmuka pengguna aplikasi. UI Aplikasi terbuka di tab peramban baru dan mungkin memerlukan beberapa waktu untuk memuat.

Debug EMR Studio berjalan di Tanpa Server EMR

Mirip dengan Amazon yang EMR berjalan di AmazonEC2, Anda dapat menggunakan antarmuka pengguna Workspace untuk menganalisis aplikasi Tanpa EMR Server Anda. Dari UI Workspace, saat Anda menggunakan Amazon EMR merilis 6.14.0 dan yang lebih tinggi, Anda dapat meluncurkan antarmuka pengguna web Spark (UI Spark atau Server Riwayat Spark) dari notebook di Workspace. Untuk kenyamanan Anda, kami juga menyediakan tautan ke log driver untuk akses cepat log driver Spark.

Debug Amazon EMR pada EKS pekerjaan berjalan dengan Spark History Server

Saat mengirimkan pekerjaan yang dijalankan ke Amazon EMR di EKS klaster, Anda dapat mengakses log untuk pekerjaan yang dijalankan menggunakan Server Riwayat Spark. Spark History Server menyediakan alat untuk memantau aplikasi Spark, seperti daftar tahapan dan tugas penjadwal, ringkasan RDD ukuran dan penggunaan memori, dan informasi lingkungan. Anda dapat meluncurkan Spark History Server untuk EMR Amazon saat menjalankan EKS pekerjaan dengan cara berikut:

  • Saat mengirimkan pekerjaan yang dijalankan menggunakan EMR Studio dengan Amazon EMR di endpoint EKS terkelola, Anda dapat meluncurkan Server Riwayat Spark dari file notebook di Workspace.

  • Saat mengirimkan pekerjaan yang dijalankan menggunakan AWS CLI atau AWS SDK untuk EMR Amazon aktifEKS, Anda dapat meluncurkan Server Riwayat Spark dari UI EMR Studio.

Untuk informasi tentang cara menggunakan Spark History Server, lihat Pemantauan dan Instrumentasi dalam dokumentasi Apache Spark. Untuk informasi selengkapnya tentang menjalankan pekerjaan, lihat Konsep dan komponen di Amazon EMR on EKS Development Guide.

Untuk meluncurkan Spark History Server dari file notebook di EMR Studio Workspace
  1. Buka Workspace yang terhubung ke Amazon EMR di EKS cluster.

  2. Pilih dan buka file notebook Anda di Workspace.

  3. Pilih Spark UI di bagian atas file notebook untuk membuka Server Riwayat Spark persisten di tab baru.

Untuk meluncurkan Spark History Server dari UI EMR Studio
catatan

Daftar Pekerjaan di UI EMR Studio hanya menampilkan pekerjaan yang Anda kirimkan menggunakan AWS CLI atau AWS SDK untuk Amazon EMR diEKS.

  1. Di EMR Studio Anda, pilih Amazon EMR EKS di sisi kiri halaman.

  2. Cari Amazon EMR di klaster EKS virtual yang Anda gunakan untuk mengirimkan pekerjaan Anda. Anda dapat memfilter daftar cluster berdasarkan status atau ID dengan memasukkan nilai di kotak pencarian.

  3. Pilih cluster untuk membuka halaman detailnya. Halaman detail menampilkan informasi tentang cluster, seperti ID, namespace, dan status. Halaman ini juga menampilkan daftar semua pekerjaan yang dikirimkan ke klaster itu.

  4. Dari halaman detail klaster, pilih pekerjaan berjalan untuk di-debug.

  5. Di kanan atas daftar Pekerjaan, pilih Luncurkan Spark History Server untuk membuka antarmuka aplikasi di tab peramban baru.