Mengelola ETL pekerjaan dengan AWS Glue Studio - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengelola ETL pekerjaan dengan AWS Glue Studio

Anda dapat menggunakan antarmuka grafis sederhana di AWS Glue Studio untuk mengelola ETL pekerjaan Anda. Dengan menggunakan menu navigasi, pilih Tugas untuk melihat halaman Tugas. Pada halaman ini, Anda dapat melihat semua tugas yang telah Anda buat AWS Glue Studio atau AWS Glue konsol. Anda dapat melihat, mengelola, dan menjalankan tugas Anda di halaman ini.

Memulai eksekusi tugas

Masuk AWS Glue Studio, Anda dapat menjalankan tugas Anda sesuai permintaan. Sebuah tugas dapat berjalan beberapa kali, dan setiap kali Anda menjalankan tugas, AWS Glue mengumpulkan informasi tentang kegiatan dan kinerja pekerjaan. Informasi ini disebut sebagai eksekusi tugas dan diidentifikasi oleh ID eksekusi tugas.

Anda dapat memulai sebuah eksekusi tugas dengan cara berikut di AWS Glue Studio:

  • Pada halaman Tugas, pilih tugas yang ingin Anda mulai, kemudian pilih tombol Jalankan tugas.

  • Jika Anda melihat sebuah tugas di editor visual dan tugas tersebut telah disimpan, maka Anda dapat memilih opsi Jalankan untuk memulai eksekusi tugas.

Untuk informasi selengkapnya tentang eksekusi tugas, lihat Bekerja dengan Tugas di AWS Glue Konsol di Panduan AWS Glue Pengembang.

Jadwalkan eksekusi tugas

Masuk AWS Glue Studio, Anda dapat membuat sebuah jadwal agar tugas Anda berjalan pada waktu tertentu. Anda dapat menentukan batasan-batasan, seperti berapa kali tugas berjalan, pada hari apa tugas tersebut berjalan, dan jam berapa berjalan. Batasan-batasan ini didasarkan pada cron dan memiliki keterbatasan yang sama seperti cron. Sebagai contoh, jika Anda memilih untuk menjalankan tugas Anda pada hari ke 31 setiap bulan, ingatlah bahwa ada bulan yang tidak terdiri dari 31 hari. Untuk informasi selengkapnya tentang cron, lihat Ekspresi Cron dalam Panduan Developer AWS Glue .

Untuk menjalankan tugas sesuai jadwal
  1. Buat sebuah jadwal tugas menggunakan salah satu metode berikut:

    • Pada halaman Tugas, pilih tugas yang ingin Anda buatkan jadwal, pilih Tindakan, lalu pilih Jadwalkan tugas.

    • Jika Anda melihat sebuah tugas di editor visual dan tugas tersebut telah disimpan, pilih tab Jadwal. Kemudian pilih Buat Jadwal.

  2. Di halaman Jadwalkan eksekusi tugas, masukkan informasi berikut:

    • Nama: Masukkan nama jadwal tugas Anda.

    • Frekuensi: Masukkan frekuensi untuk jadwal tugas. Anda dapat memilih yang berikut ini:

      • Jaman: Tugas akan berjalan setiap jam, dimulai pada menit tertentu. Anda dapat menentukan Menit dari jam di mana tugas tersebut harus berjalan. Secara default, ketika Anda memilih per jam, tugas berjalan pada awal jam (menit 0).

      • Harian: Tugas akan berjalan setiap hari, dimulai pada suatu waktu. Anda dapat menentukan Menit dari jam di mana tugas tersebut harus berjalan dan Jam mulai untuk tugas. Jam ditentukan dengan menggunakan jam 23-jam, di mana Anda menggunakan angka 13 sampai 23 untuk jam sore hari. Nilai default untuk menit dan jam adalah 0, yang berarti bahwa jika Anda memilih Per Hari, maka tugas secara default akan berjalan pada tengah malam.

      • Mingguan: Tugas akan berjalan setiap minggu pada satu atau beberapa hari. Selain pengaturan yang sama sebagaimana yang dijelaskan sebelumnya untuk Per Hari, Anda dapat memilih hari dalam seminggu di mana tugas akan berjalan. Anda dapat memilih satu hari atau beberapa hari.

      • Bulanan: Tugas akan berjalan setiap bulan pada hari tertentu. Selain pengaturan yang sama yang dijelaskan sebelumnya untuk Harian, Anda dapat memilih hari bulan di mana tugas akan berjalan. Tentukan hari dengan nilai numerik dari 1 sampai 31. Jika Anda memilih hari yang tidak ada dalam satu bulan, misalnya tanggal 30 Februari, maka tugas tidak akan berjalan di bulan itu.

      • Kustom: Masukkan ekspresi untuk jadwal tugas Anda menggunakan sintaksis cron. Ekspresi cron memungkinkan Anda membuat jadwal yang lebih rumit, seperti hari terakhir setiap bulan (bukan hari tertentu dalam sebulan) atau setiap bulan ketiga pada tanggal 7 dan 21 dalam sebulan.

        Lihat Ekspresi Cron di Panduan Developer AWS Glue

    • Deskripsi: Anda dapat secara opsional memasukkan deskripsi untuk jadwal tugas Anda. Jika Anda berencana untuk menggunakan jadwal yang sama untuk beberapa tugas, dengan memiliki deskripsi akan membuatnya menjadi lebih mudah untuk menentukan jadwal tugas.

  3. Pilih Membuat jadwal untuk menyimpan jadwal tugas.

  4. Setelah Anda membuat jadwal, pesan sukses akan muncul di bagian atas halaman konsol tersebut. Anda dapat memilih Detail tugas pada banner ini untuk melihat detail tugas. Ini akan membuka halaman editor tugas visual, dengan tab Jadwal yang dipilih.

Mengelola jadwal tugas

Setelah Anda membuat jadwal untuk sebuah tugas, Anda dapat membuka tugas tersebut di editor visual dan memilih tab Jadwal untuk mengelola jadwalnya.

Pada tab Jadwal editor visual, Anda dapat melakukan tugas-tugas berikut:

  • Membuat sebuah jadwal baru.

    Pilih Membuat jadwal kerja, lalu masukkan informasi untuk jadwal Anda seperti yang dijelaskan di Jadwalkan eksekusi tugas.

  • Edit jadwal yang ada.

    Pilih jadwal yang ingin diedit, lalu pilih Tindakan diikuti dengan Edit jadwal. Ketika Anda memilih untuk mengedit jadwal yang ada, Frekuensi menunjukkan sebagai Kustom, dan jadwal ditampilkan sebagai ekspresi cron. Anda dapat mengubah ekspresi cron tersebut, atau menentukan sebuah jadwal baru menggunakan tombol Frekuensi. Setelah Anda selesai melakukan perubahan, pilih Perbarui jadwal.

  • Menjeda jadwal aktif.

    Pilih sebuah jadwal yang aktif, lalu pilih Tindakan diikuti dengan Jeda jadwal. Jadwal akan langsung dinonaktifkan. Pilih tombol refresh (reload) untuk melihat status jadwal tugas yang sudah diperbarui.

  • Lanjutkan jadwal yang dijeda.

    Pilih sebuah jadwal yang dinonaktifkan, lalu pilih Tindakan diikuti dengan Lanjutkan jadwal. Jadwal akan langsung diaktifkan. Pilih tombol refresh (reload) untuk melihat status jadwal tugas yang sudah diperbarui.

  • Menghapus sebuah jadwal.

    Pilih sebuah jadwal yang ingin Anda hapus, kemudian pilih Tindakan diikuti dengan Hapus jadwal. Jadwal akan langsung dihapus. Pilih tombol refresh (reload) untuk melihat daftar jadwal tugas yang sudah diperbarui. Jadwal akan menunjukkan status Menghapus sehingga jadwal benar-benar telah dihapus.

Menghentikan eksekusi tugas

Anda dapat menghentikan sebuah tugas sebelum eksekusi tugas selesai. Anda dapat memilih opsi ini jika Anda tahu bahwa tugas tidak dikonfigurasi dengan benar, atau jika tugas membutuhkan waktu terlalu lama untuk diselesaikan.

Pada halaman Pemantauan, di daftar Eksekusi tugas, pilih tugas yang ingin Anda hentikan, pilih Tindakan, lalu pilih Hentikan eksekusi.

Melihat tugas Anda

Anda dapat melihat semua tugas Anda di halaman Tugas. Anda dapat mengakses halaman ini dengan memilih Tugas di panel navigasi.

Pada halaman Tugas, Anda dapat melihat semua tugas yang dibuat di akun Anda. Daftar Tugas Anda menampilkan nama tugas, jenisnya, status eksekusi terakhir dari tugas tersebut, dan tanggal di mana tugas dibuat dan terakhir diubah. Anda dapat memilih nama tugas untuk melihat informasi detail untuk tugas tersebut.

Anda juga dapat menggunakan dasbor Pemantauan untuk melihat semua tugas Anda. Anda dapat mengakses dasbor tersebut dengan memilih Pemantauan di panel navigasi.

Menyesuaikan tampilan tugas

Anda dapat menyesuaikan bagaimana tugas ditampilkan dalam bagian Tugas Anda dari halaman Tugas. Selain itu, Anda dapat memasukkan teks di bidang teks pencarian untuk hanya menampilkan tugas dengan nama yang berisi teks tersebut.

Jika Anda memilih ikon pengaturan A gear symbol di bagian Pekerjaan Anda, Anda dapat menyesuaikan caranya AWS Glue Studio menampilkan informasi dalam tabel. Anda dapat memilih untuk mengurung baris teks di layar, mengubah jumlah tugas yang ditampilkan pada halaman, dan menentukan kolom mana yang akan ditampilkan.

Melihat informasi untuk eksekusi tugas terbaru

Tugas dapat berjalan beberapa kali karena ada data baru yang ditambahkan di lokasi sumber. Setiap kali tugas berjalan, ID unik ditetapkan pada eksekusi tugas, dan informasi tentang eksekusi tugas dikumpulkan. Anda dapat melihat informasi ini dengan menggunakan cara berikut:

  • Pilih tab Eksekusi pada editor visual untuk melihat informasi eksekusi tugas untuk tugas yang saat ini ditampilkan.

    Pada tab Eksekusi (halaman Eksekusi tugas terbaru), ada kartu sebuah untuk setiap eksekusi tugas. Informasi yang ditampilkan pada tab Eksekusi termasuk:

    • ID eksekusi tugas

    • Jumlah percobaan untuk menjalankan tugas ini

    • Status dari eksekusi tugas

    • Waktu mulai dan akhir eksekusi tugas

    • Waktu aktif eksekusi tugas

    • Tautan ke file berkas log tugas

    • Tautan ke file berkas log kesalahan tugas

    • Kesalahan yang dikembalikan untuk tugas yang gagal

  • Anda dapat memilih pekerjaan yang dijalankan untuk melihat informasi tambahan tentang pekerjaan tersebut, termasuk yang berikut ini:

Anda dapat memilih Tampilkan detail untuk melihat informasi serupa di halaman detail eksekusi tugas. Atau, Anda dapat menavigasi ke halaman rincian pekerjaan dijalankan melalui halaman Monitoring. Di panel navigasi, pilih Pemantauan. Gulir ke bawah ke bagian daftar Eksekusi tugas. Pilih tugas dan kemudian pilih Tampilkan detail eksekusi. Kandungan dijelaskan dalam Melihat detail sebuah eksekusi tugas.

Untuk informasi selengkapnya tentang log tugas, lihat Melihat log eksekusi tugas.

Lihat skrip tugas

Setelah Anda memberikan informasi untuk semua node dalam pekerjaan, AWS Glue Studio menghasilkan sebuah skrip yang digunakan oleh tugas untuk membaca data dari sumber, mengubah data, dan menulis data di lokasi target. Jika Anda menyimpan tugas tersebut, maka Anda dapat melihat skrip ini kapan saja.

Untuk melihat skrip yang dihasilkan untuk tugas Anda
  1. Pilih Tugas di panel navigasi.

  2. Pada halaman Tugas, di daftar Tugas Anda, pilih nama tugas yang ingin Anda tinjau. Atau, Anda dapat memilih sebuah tugas dalam daftar tersebut, pilih menu Tindakan, dan kemudian pilih Edit tugas.

  3. Pada halaman editor visual, pilih tab Skrip di bagian atas untuk melihat skrip tugas.

    Jika Anda ingin mengedit skrip tugas, lihat AWS Glue panduan pemrograman.

Mengubah properti tugas

Simpul dalam diagram tugas menentukan tindakan yang dilakukan oleh tugas, tetapi ada beberapa properti yang juga dapat Anda konfigurasi untuk tugas tersebut. Properti ini menentukan lingkungan di mana tugas itu berjalan, sumber daya yang digunakan, pengaturan ambang batas, pengaturan keamanan, dan banyak lagi.

Untuk menyesuaikan lingkungan eksekusi tugas
  1. Pilih Tugas di panel navigasi.

  2. Pada halaman Tugas, di daftar Tugas Anda, pilih nama tugas yang ingin Anda tinjau.

  3. Pada halaman editor visual, pilih tab Detail Tugas di bagian atas panel pengeditan tugas.

  4. Ubah properti tugas, sesuai kebutuhan.

    Untuk informasi selengkapnya tentang properti tugas, lihat Mendefinisikan Properti Tugas di Panduan Developer AWS Glue .

  5. Perluas bagian Properti lanjutan jika Anda perlu menentukan properti tugas tambahan ini:

    • Nama berkas skrip — Nama file yang menyimpan skrip tugas di Amazon S3.

    • Path skrip — Lokasi Amazon S3 di mana skrip tugas disimpan.

    • Metrik tugas — (Tidak tersedia untuk tugas shell Python) Menyalakan pembuatan Amazon CloudWatch metrik saat tugas ini berjalan.

    • Pencatatan log berkelanjutan — (Tidak tersedia untuk tugas shell Python) Menyalakan pencatatan log berkelanjutan CloudWatch, sehingga log dapat dilihat sebelum tugas selesai.

    • Spark UI dan Path log Spark UI — (Tidak tersedia untuk tugas shell Python) Menyalakan penggunaan Spark UI untuk memantau tugas ini dan menentukan lokasi untuk log Spark UI.

    • Konkurensi maksimum — Mengatur jumlah maksimum eksekusi bersamaan yang diperbolehkan untuk tugas ini.

    • Path sementara — Lokasi direktori kerja di Amazon S3 di mana hasil antara sementara ditulis saat AWS Glue menjalankan skrip tugas.

    • Ambang batas notifikasi penundaan (menit) — Menentukan ambang batas penundaan untuk tugas. Jika tugas berjalan untuk waktu yang lebih lama dari yang ditentukan oleh ambang batas, maka AWS Glue mengirimkan pemberitahuan penundaan untuk pekerjaan itu CloudWatch.

    • Konfigurasi keamanan dan Enkripsi sisi server — Gunakan bidang ini untuk memilih opsi enkripsi untuk tugas tersebut.

    • Gunakan Katalog Data Glue sebagai metastore Hive — Pilih opsi ini jika Anda ingin menggunakan AWS Glue Data Catalog sebagai alternatif untuk Apache Hive Metastore.

    • Koneksi jaringan tambahan — Untuk sumber data diVPC, Anda dapat menentukan koneksi tipe Network untuk memastikan bahwa tugas Anda mengakses data Anda melalui. VPC

    • Path pustaka Python, Path jar dependen (Tidak tersedia untuk tugas shell Python), atau Path file yang direferensikan — Gunakan bidang ini untuk menentukan lokasi file tambahan yang digunakan oleh tugas saat menjalankan skrip.

    • Parameter Tugas — Anda dapat menambahkan satu set pasangan nilai-kunci yang diberikan sebagai parameter bernama untuk skrip tugas. Dalam panggilan Python ke AWS Glue API s, cara terbaik adalah memberikan parameter secara eksplisit berdasarkan nama. Untuk informasi selengkapnya tentang cara menggunakan parameter dalam skrip tugas, lihat Memberikan dan Mengakses Parameter Python di AWS Glue di Panduan Developer AWS Glue .

    • Tag — Anda dapat menambahkan tanda ke tugas tersebut untuk membantu Anda mengorganisasi dan mengidentifikasinya.

  6. Setelah Anda selesai memodifikasi properti tugas, simpan tugas tersebut.

Simpan file shuffle Spark di Amazon S3

Beberapa ETL pekerjaan memerlukan membaca dan menggabungkan informasi dari beberapa partisi, misalnya, saat menggunakan transformasi gabungan. Operasi ini disebut sebagai shuffling. Selama shuffle, data ditulis ke disk dan ditransfer ke seluruh jaringan. Dengan AWS Glue versi 3.0, Anda dapat mengkonfigurasi Amazon S3 sebagai lokasi penyimpanan untuk file-file ini. AWS Glue menyediakan pengelola acak yang menulis dan membaca file acak ke dan dari Amazon S3. Menulis dan membaca file shuffle dari Amazon S3 lebih lambat (sebesar 5% -20%) dibandingkan dengan disk lokal (atau Amazon yang sangat dioptimalkan untuk EBS Amazon). EC2 Namun, Amazon S3 menyediakan kapasitas penyimpanan tak terbatas, jadi Anda tidak perlu khawatir tentang kesalahan "No space left on device" saat menjalankan pekerjaan Anda.

Untuk mengonfigurasi pekerjaan Anda untuk menggunakan Amazon S3 untuk file acak
  1. Pada halaman Tugas, di daftar Tugas Anda, pilih nama tugas yang ingin Anda ubah.

  2. Pada halaman editor visual, pilih tab Detail Tugas di bagian atas panel pengeditan tugas.

    Scroll ke bawah hingga bagian Parameter Tugas.

  3. Tentukan pasangan nilai kunci berikut.

    • --write-shuffle-files-to-s3true

      Ini adalah parameter utama yang mengkonfigurasi manajer shuffle di AWS Glue untuk menggunakan bucket Amazon S3 untuk menulis dan membaca data shuffle. Secara default, parameter ini memiliki nilaifalse.

    • (Opsional) --write-shuffle-spills-to-s3 - true

      Parameter ini memungkinkan Anda untuk membongkar file tumpahan ke bucket Amazon S3, yang memberikan ketahanan tambahan untuk pekerjaan Spark Anda di AWS Glue. Ini hanya diperlukan untuk beban kerja besar yang menumpahkan banyak data ke disk. Secara default, parameter ini memiliki nilaifalse.

    • (Opsional) --conf spark.shuffle.glue.s3ShuffleBucket - S3://<shuffle-bucket>

      Parameter ini menentukan bucket Amazon S3 yang akan digunakan saat menulis file acak. Jika Anda tidak mengatur parameter ini, lokasi adalah shuffle-data folder di lokasi yang ditentukan untuk Temporary path (--TempDir).

      catatan

      Pastikan lokasi bucket shuffle sama dengan Wilayah AWS tempat pekerjaan berjalan.

      Selain itu, layanan shuffle tidak membersihkan file setelah pekerjaan selesai berjalan, jadi Anda harus mengonfigurasi kebijakan siklus hidup penyimpanan Amazon S3 di lokasi bucket acak. Untuk informasi selengkapnya, lihat Mengelola siklus hidup penyimpanan di Panduan Pengguna Amazon S3.

Simpan tugas

Sebuah callout Tugas belum disimpan berwarna merah ditampilkan di sebelah kiri tombol Simpan sampai Anda menyimpan tugas.

Sebuah oval merah dengan label "Tugas belum disimpan" di sebelah kiri tombol Simpan.
Untuk menyimpan tugas Anda
  1. Berikan semua informasi yang diperlukan dalam tab Visual dan Detail Tugas.

  2. Pilih tombol Simpan.

    Setelah Anda menyimpan tugas, callout 'tidak disimpan' akan berubah untuk menampilkan waktu dan tanggal tugas terakhir disimpan.

Jika Anda keluar AWS Glue Studio sebelum menyimpan tugas Anda, saat Anda masuk ke AWS Glue Studio, pemberitahuan muncul. Notifikasi tersebut menunjukkan bahwa ada tugas yang belum disimpan, dan menanyakan apakah Anda ingin memulihkannya. Jika Anda memilih untuk memulihkan tugas tersebut, Anda dapat melanjutkan untuk mengeditnya.

Memecahkan masalah kesalahan saat menyimpan tugas

Jika Anda memilih tombol Simpan, tetapi tugas Anda tidak memiliki beberapa informasi yang diperlukan, dan kemudian muncul keterangan merah pada tab di mana informasi tersebut hilang. Nomor dalam callout menunjukkan berapa banyak bidang hilang yang terdeteksi.

Sebuah tangkapan layar yang menampilkan tab untuk panel editor visual untuk Tugas bernama "Tugas tanpa judul" dengan callout berlabel 2 pada tab Visual dan callout berlabel 1 pada tab Detail Tugas.
  • Jika sebuah simpul di editor visual tidak dikonfigurasi dengan benar, maka tab Visual akan menunjukkan callout warna merah, dan simpul dengan kesalahan akan menampilkan simbol peringatan A red triangle with an exclamation point in the center .

    1. Pilih simpul. Di panel detail simpul, callout warna merah muncul di tab di mana ada informasi yang hilang atau salah.

    2. Pilih tab di panel detail simpul yang menunjukkan callout warna merah, dan kemudian cari bidang yang bermasalah, yang disorot. Pesan kesalahan di bawah bidang memberikan informasi tambahan tentang masalah yang terjadi.

      Sebuah tangkapan layar menunjukkan tab Visual di editor tugas, yang ditandai dengan callout dengan label 2. Simpul sumber data, yang ditandai dengan label peringatan, dipilih. Dalam panel detail simpul, tab properti Sumber data memiliki callout dengan label 2, dan dipilih. Dua bidang, yaitu Basis data dan Tabel diuraikan dengan warna merah dan memiliki pesan di bawahnya yang menunjukkan nilai yang diperlukan dalam bidang-bidang tersebut.
  • Jika ada masalah pada properti tugas, tab Detail tugas akan menunjukkan callout warna merah. Pilih tab itu dan cari bidang yang bermasalah, yang disorot. Pesan kesalahan di bawah bidang tersebut memberikan informasi tambahan tentang masalah yang terjadi.

    Sebuah tangkapan layar menampilkan tab detail Tugas di editor tugas, yang ditandai dengan callout dengan label 1. IAMKolom "Role” diuraikan dengan warna merah dan memiliki pesan di bawahnya yang menunjukkan nilai yang diperlukan.

Mengkloning tugas

Anda dapat menggunakan tindakan Klon tugas untuk menyalin tugas yang sudah ada ke sebuah tugas baru.

Untuk membuat sebuah tugas baru dengan menyalin tugas yang sudah ada
  1. Pada halaman Tugas, di daftar Tugas Anda, pilih tugas yang ingin Anda duplikasi.

  2. Dari menu Tindakan, pilih Klon tugas.

  3. Masukkan nama untuk tugas baru tersebut. Anda kemudian dapat menyimpan atau mengedit tugas tersebut.

Menghapus tugas

Anda dapat menghapus tugas yang tidak lagi diperlukan. Anda dapat menghapus satu atau beberapa tugas dalam satu operasi.

Untuk menghapus tugas dari AWS Glue Studio
  1. Pada halaman Tugas, di daftar Tugas Anda, pilih tugas yang ingin Anda hapus.

  2. Dari menu Tindakan, pilih Hapus tugas.

  3. Verifikasi bahwa Anda ingin menghapus tugas tersebut dengan memasukkan delete.

Anda juga dapat menghapus tugas yang tersimpan saat melihat tab Detail tugas untuk tugas tersebut di editor visual.