AWS Gluestatus job run di konsol - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

AWS Gluestatus job run di konsol

Anda dapat melihat status pekerjaan AWS Glue ekstrak, transformasi, dan load (ETL) saat sedang berjalan atau setelah berhenti. Anda dapat melihat status menggunakan AWS Glue konsol. Untuk informasi selengkapnya tentang status menjalankan pekerjaan, lihatAWS Gluestatus job run.

Mengakses dasbor pemantauan tugas

Anda mengakses dasbor pemantauan pekerjaan dengan memilih tautan pemantauan Job run di panel AWS Glue navigasi di bawah ETLpekerjaan.

Gambaran umum tentang dasbor pemantauan tugas

Dasbor pemantauan tugas menyediakan ringkasan keseluruhan dari eksekusi tugas, dengan total untuk tugas dengan status Berjalan, Dibatalkan, Berhasil, atau Gagal. Ubin tambahan memberikan tingkat keberhasilan menjalankan pekerjaan secara keseluruhan, perkiraan DPU penggunaan untuk pekerjaan, rincian jumlah status pekerjaan berdasarkan jenis pekerjaan, jenis pekerja, dan hari.

Grafik di ubin bersifat interaktif. Anda dapat memilih blok apa pun dalam grafik untuk menjalankan filter yang hanya menampilkan tugas tersebut di tabel Eksekusi tugas di bagian bawah halaman.

Anda dapat mengubah rentang tanggal untuk informasi yang ditampilkan di halaman ini dengan menggunakan pemilih Rentang tanggal. Bila Anda mengubah rentang tanggal, ubin informasi akan menyesuaikan untuk menampilkan nilai untuk jumlah hari yang ditentukan sebelum tanggal saat ini. Anda juga dapat menggunakan rentang tanggal tertentu jika Anda memilih Kustom dari pemilih rentang tanggal.

Tampilan eksekusi tugas

catatan

Riwayat Job run dapat diakses selama 90 hari untuk alur kerja dan pekerjaan Anda.

Daftar sumber daya Eksekusi tugas menunjukkan tugas untuk rentang tanggal yang ditentukan dan filter.

Anda dapat mem-filter tugas berdasarkan pada kriteria tambahan, seperti status, jenis pekerja, jenis tugas, dan nama tugas. Di kotak filter di bagian atas tabel, Anda dapat memasukkan teks untuk digunakan sebagai filter. Hasil tabel diperbarui dengan baris yang berisi teks yang cocok dengan saat Anda memasukkan teks.

Anda dapat melihat sebuah subset dari tugas dengan memilih elemen dari grafik pada dasbor pemantauan tugas. Misalnya, jika Anda memilih jumlah tugas yang sedang berjalan di ubin Ringkasan eksekusi tugas, maka Eksekusi tugas akan menampilkan hanya tugas yang saat ini memiliki status Running saja. Jika Anda memilih salah satu batang di bagan batang Perincian jenis pekerja, maka hanya tugas yang berjalan dengan jenis pekerja dan status yang cocok saja yang ditampilkan dalam daftar Eksekusi tugas.

Daftar sumber daya Eksekusi tugas menampilkan detail untuk eksekusi tugas. Anda dapat mengurutkan baris dalam tabel dengan memilih judul kolom. Tabel berisi informasi berikut:

Properti Deskripsi
Nama tugas Nama pekerjaan.
Tipe

Jenis lingkungan tugas:

  • Glue ETL: Berjalan di lingkungan Apache Spark yang dikelola oleh. AWS Glue

  • Glue Streaming: Berjalan di lingkungan Apache Spark dan berkinerja ETL pada aliran data.

  • Python shell: Menjalankan skrip Python sebagai shell.

Waktu mulai

Tanggal dan waktu saat eksekusi tugas ini dimulai.

Waktu akhir

Tanggal dan waktu saat eksekusi tugas ini selesai.

Status eksekusi

Status eksekusi tugas saat ini. Nilai dapat berupa:

  • STARTING

  • RUNNING

  • STOPPING

  • STOPPED

  • SUCCEEDED

  • FAILED

  • TIMEOUT

Waktu aktif Jumlah waktu eksekusi tugas menggunakan sumber daya.
Kapasitas

Jumlah unit pemrosesan AWS Glue data (DPUs) yang dialokasikan untuk pekerjaan ini dijalankan. Untuk informasi selengkapnya tentang perencanaan kapasitas, lihat Monitoring for DPU Capacity Planning di Panduan AWS Glue Pengembang.

Jenis pekerja

Jenis pekerja yang telah ditetapkan sebelumnya yang dialokasikan ketika tugas dieksekusi. Nilai bisaG.1X,G.2X, G.4X atauG.8X.

  • G.1X — Ketika Anda memilih jenis ini, maka Anda juga memberikan nilai untuk Jumlah pekerja. Setiap pekerja memetakan ke 1 DPU (4vCPUs, 16 GB memori) dengan disk 84GB (sekitar 34GB gratis). Kami merekomendasikan jenis pekerja ini untuk tugas yang membutuhkan banyak memori. Ini adalah tipe Pekerja default untuk AWS Glue versi 2.0 atau pekerjaan yang lebih baru.

  • G.2X — Ketika Anda memilih jenis ini, maka Anda juga memberikan nilai untuk Jumlah pekerja. Setiap pekerja memetakan ke 2 DPU (8vCPUs, 32 GB memori) dengan disk 128GB (sekitar 77GB gratis). Kami merekomendasikan jenis pekerja ini untuk pekerjaan intensif memori dan pekerjaan yang menjalankan transformasi pembelajaran mesin.

  • G.4X — Ketika Anda memilih jenis ini, maka Anda juga memberikan nilai untuk Jumlah pekerja. Setiap pekerja memetakan ke 4 DPU (memori vCPUs 16.64 GB) dengan disk 256GB (sekitar 235GB gratis). Kami merekomendasikan jenis pekerja ini untuk pekerjaan yang beban kerjanya berisi transformasi, agregasi, gabungan, dan kueri Anda yang paling menuntut. Jenis pekerja ini hanya tersedia untuk ETL pekerjaan Spark AWS Glue versi 3.0 atau yang lebih baru di AWS Wilayah berikut: AS Timur (Ohio), AS Timur (Virginia N.), AS Barat (Oregon), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Tokyo), Kanada (Tengah), Eropa (Frankfurt), Eropa (Irlandia), dan Eropa (Stockholm).

  • G.8X — Ketika Anda memilih jenis ini, maka Anda juga memberikan nilai untuk Jumlah pekerja. Setiap pekerja memetakan ke 8 DPU (vCPUs32.128 GB memori) dengan disk 512GB (sekitar 487GB gratis). Kami merekomendasikan jenis pekerja ini untuk pekerjaan yang beban kerjanya berisi transformasi, agregasi, gabungan, dan kueri Anda yang paling menuntut. Jenis pekerja ini hanya tersedia untuk ETL pekerjaan Spark AWS Glue versi 3.0 atau yang lebih baru, di AWS Wilayah yang sama seperti yang didukung untuk jenis G.4X pekerja.

DPUjam

Perkiraan jumlah yang DPUs digunakan untuk menjalankan pekerjaan. A DPU adalah ukuran relatif dari kekuatan pemrosesan. DPUsdigunakan untuk menentukan biaya menjalankan pekerjaan Anda. Untuk informasi lebih lanjut, lihat halaman harga AWS Glue.

Anda dapat memilih eksekusi tugas dalam daftar dan melihat informasi tambahan. Pilih eksekusi tugas, dan lakukan salah satu hal berikut ini:

  • Pilih menu Tindakan dan opsi Lihat tugas untuk melihat tugas di editor visual.

  • Pilih menu Tindakan dan opsi Hentikan eksekusi untuk menghentikan eksekusi tugas saat ini.

  • Pilih tombol Lihat CloudWatch log untuk melihat log jalankan pekerjaan untuk pekerjaan itu.

  • Pilih Lihat detail untuk melihat halaman detail pekerjaan yang dijalankan.

Melihat log eksekusi tugas

Anda dapat melihat log tugas dengan berbagai cara:

  • Pada halaman Monitoring, di tabel Job running, pilih job run, lalu pilih View CloudWatch logs.

  • Dalam editor tugas visual, pada tab Eksekusi untuk sebuah tugas, pilih hyperlink untuk melihat log:

    • Log — Tautan ke log tugas Apache Spark yang ditulis ketika pencatatan log terus menerus diaktifkan untuk sebuah eksekusi tugas. Saat Anda memilih tautan ini, Anda akan dibawa ke Amazon CloudWatch log di grup /aws-glue/jobs/logs-v2 log. Secara default, log mengecualikan YARN detak jantung Apache Hadoop yang tidak berguna dan driver Apache Spark atau pesan log pelaksana. Untuk informasi selengkapnya tentang pencatatan log berkelanjutan, lihat Pencatatan Log Berkelanjutan untuk Tugas AWS Glue di Panduan Developer AWS Glue.

    • Log kesalahan — Tautan ke log yang ditulis ke stderr untuk eksekusi tugas ini. Bila Anda memilih tautan ini, tautan ini akan membawa Anda ke log Amazon CloudWatch di grup log /aws-glue/jobs/error. Anda dapat menggunakan log ini untuk melihat detail tentang kesalahan yang ditemui selama eksekusi tugas.

    • Log output — Tautan ke log yang ditulis ke stdout untuk eksekusi tugas ini. Bila Anda memilih tautan ini, tautan ini akan membawa Anda ke log Amazon CloudWatch di grup log /aws-glue/jobs/output. Anda dapat menggunakan log ini untuk melihat semua detail tentang tabel yang dibuat di AWS Glue Data Catalog dan kesalahan apa pun yang ditemui.

Melihat detail sebuah eksekusi tugas

Anda dapat memilih tugas di daftar Eksekusi tugas di halaman Pemantauan, dan kemudian memilih Lihat detail eksekusi untuk melihat informasi detail untuk eksekusi tugas tersebut.

Informasi yang ditampilkan pada halaman detail eksekusi tugas meliputi:

Properti Deskripsi
Nama tugas Nama pekerjaan.
Status Eksekusi

Status eksekusi tugas saat ini. Nilai dapat berupa:

  • STARTING

  • RUNNING

  • STOPPING

  • STOPPED

  • SUCCEEDED

  • FAILED

  • TIMEOUT

Versi Glue AWS GlueVersi yang digunakan oleh job run.
Upaya terbaru Jumlah percobaan ulang otomatis untuk pekerjaan ini dijalankan.
Waktu mulai

Tanggal dan waktu saat eksekusi tugas ini dimulai.

Waktu akhir

Tanggal dan waktu saat eksekusi tugas ini selesai.

Waktu pemulaian

Jumlah waktu yang dihabiskan untuk mempersiapkan diri untuk menjalankan pekerjaan.

Waktu eksekusi

Jumlah waktu yang dihabiskan untuk menjalankan skrip pekerjaan.

Nama pemicu

Nama pemicu yang terkait dengan pekerjaan.

Terakhir diubah pada

Tanggal ketika pekerjaan terakhir diubah.

Konfigurasi keamanan

Konfigurasi keamanan untuk pekerjaan tersebut, yang mencakup enkripsi Amazon S3, enkripsi, dan pengaturan CloudWatch enkripsi bookmark pekerjaan.

Waktu habis Nilai ambang batas waktu kerja berjalan.
Kapasitas yang dialokasikan

Jumlah unit pemrosesan AWS Glue data (DPUs) yang dialokasikan untuk pekerjaan ini dijalankan. Untuk informasi selengkapnya tentang perencanaan kapasitas, lihat Monitoring for DPU Capacity Planning di Panduan AWS Glue Pengembang.

Kapasitas maksimum

Kapasitas maksimum yang tersedia untuk eksekusi tugas.

Jumlah pekerja Jumlah pekerja yang digunakan untuk menjalankan pekerjaan.
Jenis pekerja

Jenis pekerja yang telah ditetapkan sebelumnya yang diperuntukkan untuk eksekusi tugas. Nilai bisa G.1X atauG.2X.

  • G.1X — Ketika Anda memilih jenis ini, maka Anda juga memberikan nilai untuk Jumlah pekerja. Setiap pekerja memetakan ke 1 DPU (4vCPUs, 16 GB memori, 64 GB disk), dan menyediakan 1 eksekutor per pekerja. Kami merekomendasikan jenis pekerja ini untuk tugas yang membutuhkan banyak memori. Ini adalah tipe Pekerja default untuk AWS Glue versi 2.0 atau pekerjaan yang lebih baru.

  • G.2X — Ketika Anda memilih jenis ini, maka Anda juga memberikan nilai untuk Jumlah pekerja. Setiap pekerja memetakan ke 2 DPUs (8vCPUs, 32 GB memori, 128 GB disk), dan menyediakan 1 eksekutor per pekerja. Kami merekomendasikan jenis pekerja ini untuk pekerjaan intensif memori dan pekerjaan yang menjalankan transformasi pembelajaran mesin.

Log Sebuah link ke log pekerjaan untuk logging berkelanjutan (/aws-glue/jobs/logs-v2).
Log Output Sebuah link ke file log output pekerjaan (/aws-glue/jobs/output).
Log kesalahan Sebuah link ke file log kesalahan pekerjaan (/aws-glue/jobs/error).

Anda juga dapat melihat item tambahan berikut, yang tersedia saat Anda melihat informasi untuk menjalankan pekerjaan terbaru. Untuk informasi selengkapnya, lihat Melihat informasi untuk eksekusi tugas terbaru.

Melihat Amazon CloudWatch metrik untuk menjalankan pekerjaan Spark

Pada halaman detail untuk menjalankan pekerjaan, di bawah bagian Run details, Anda dapat melihat metrik pekerjaan. AWS Glue Studiomengirimkan metrik pekerjaan Amazon CloudWatch untuk setiap pekerjaan yang dijalankan.

AWS Glue melaporkan metrik ke Amazon CloudWatch setiap 30 detik. Metrik AWS Glue merupakan nilai delta dari nilai yang dilaporkan sebelumnya. Jika sesuai, dasbor metrik meng-agregat (jumlah) nilai 30 detik untuk mendapatkan nilai untuk seluruh menit terakhir. Namun, metrik Apache Spark yang AWS Glue diteruskan ke umumnya Amazon CloudWatch merupakan nilai absolut yang mewakili keadaan saat ini pada saat dilaporkan.

catatan

Anda harus mengonfigurasi akun Anda untuk mengakses Amazon CloudWatch,.

Metrik ini memberikan informasi tentang eksekusi tugas Anda, seperti:

  • ETLPergerakan Data — Jumlah byte yang dibaca dari atau ditulis ke Amazon S3.

  • Profil Memori: Heap used — Jumlah byte memori yang digunakan oleh heap mesin virtual Java (JVM).

  • Profil Memori: penggunaan heap — Fraksi memori (skala: 0-1), ditampilkan sebagai persentase, digunakan oleh heap. JVM

  • CPUBeban — Fraksi beban CPU sistem yang digunakan (skala: 0-1), ditampilkan sebagai persentase.

Melihat Amazon CloudWatch metrik untuk menjalankan pekerjaan Ray

Pada halaman detail untuk menjalankan pekerjaan, di bawah bagian Run details, Anda dapat melihat metrik pekerjaan. AWS Glue Studiomengirimkan metrik pekerjaan Amazon CloudWatch untuk setiap pekerjaan yang dijalankan.

AWS Glue melaporkan metrik ke Amazon CloudWatch setiap 30 detik. Metrik AWS Glue merupakan nilai delta dari nilai yang dilaporkan sebelumnya. Jika sesuai, dasbor metrik meng-agregat (jumlah) nilai 30 detik untuk mendapatkan nilai untuk seluruh menit terakhir. Namun, metrik Apache Spark yang AWS Glue diteruskan ke umumnya Amazon CloudWatch merupakan nilai absolut yang mewakili keadaan saat ini pada saat dilaporkan.

catatan

Anda harus mengonfigurasi akun Anda untuk mengakses Amazon CloudWatch, seperti yang dijelaskan dalam.

Dalam pekerjaan Ray, Anda dapat melihat grafik metrik agregat berikut. Dengan ini, Anda dapat membangun profil cluster dan tugas Anda, dan dapat mengakses informasi terperinci tentang setiap node. Data deret waktu yang mendukung grafik ini tersedia CloudWatch untuk analisis lebih lanjut.

Profil Tugas: Status Tugas

Menunjukkan jumlah tugas Ray dalam sistem. Setiap siklus hidup tugas diberikan deret waktunya sendiri.

Profil Tugas: Nama Tugas

Menunjukkan jumlah tugas Ray dalam sistem. Hanya tugas yang tertunda dan aktif yang ditampilkan. Setiap jenis tugas (dengan nama) diberikan deret waktunya sendiri.

Profil Cluster: CPUs digunakan

Menunjukkan jumlah CPU core yang digunakan. Setiap node diberikan deret waktunya sendiri. Node diidentifikasi oleh alamat IP, yang bersifat sementara dan hanya digunakan untuk identifikasi.

Profil Cluster: Penggunaan memori penyimpanan objek

Menunjukkan penggunaan memori oleh cache objek Ray. Setiap lokasi memori (memori fisik, cache pada disk, dan tumpah di Amazon S3) diberikan deret waktunya sendiri. Toko objek mengelola penyimpanan data di semua node di cluster. Untuk informasi selengkapnya, lihat Objek dalam dokumentasi Ray.

Profil Cluster: Jumlah simpul

Menunjukkan jumlah node yang disediakan untuk cluster.

Detail Node: CPU gunakan

Menunjukkan CPU pemanfaatan pada setiap node sebagai persentase. Setiap seri menunjukkan persentase agregat CPU penggunaan di semua core pada node.

Detail Node: Penggunaan memori

Menunjukkan penggunaan memori pada setiap node dalam GB. Setiap seri menunjukkan memori yang dikumpulkan antara semua proses pada node, termasuk tugas Ray dan proses penyimpanan Plasma. Ini tidak akan mencerminkan objek yang disimpan ke disk atau tumpah ke Amazon S3.

Detail Node: Penggunaan disk

Menunjukkan penggunaan disk pada setiap node dalam GB.

Detail Node: Kecepatan I/O Disk

Menampilkan disk I/O pada setiap node dalam KB/s.

Detail Node: Throughput I/O Jaringan

Menunjukkan jaringan I/O pada setiap node dalam KB/s.

Detail Node: CPU digunakan oleh komponen Ray

Menunjukkan CPU penggunaan dalam pecahan inti. Setiap komponen sinar pada setiap node diberikan deret waktunya sendiri.

Detail Node: Penggunaan memori oleh komponen Ray

Menunjukkan penggunaan memori di GiB. Setiap komponen sinar pada setiap node diberikan deret waktunya sendiri.