Partisi beban kerja dengan eksekusi terbatas

Mode fokus

Partisi beban kerja dengan eksekusi terbatas - AWS Glue

Mengaktifkan partisi beban kerja Menyiapkan sebuah AWS Glue memicu untuk menjalankan pekerjaan secara otomatis

Kesalahan dalam aplikasi Spark biasanya timbul dari skrip Spark yang tidak efisien, yang didistribusikan dalam memori eksekusi transformasi skala besar, dan kelainan set data. Ada banyak alasan yang dapat menyebabkan masalah kekurangan memori pada driver atau eksekutor, misalnya data skew, mencantumkan terlalu banyak objek, atau data shuffle besar. Masalah ini sering muncul bila Anda memproses sejumlah besar data backlog dengan Spark.

AWS Glue memungkinkan Anda untuk memecahkan masalah OOM dan membuat pemrosesan ETL Anda lebih mudah dengan partisi beban kerja. Dengan mengaktifkan pemartisian beban kerja, setiap eksekusi tugas ETL hanya mengambil data yang belum diproses, dengan batas atas pada ukuran set data atau jumlah file yang akan diproses dengan eksekusi tugas ini. Eksekusi tugas di masa depan akan memproses data yang tersisa. Misalnya, jika ada 1000 file yang harus diproses, Anda dapat mengatur jumlah file menjadi 500 dan memisahkan mereka menjadi dua eksekusi tugas.

Pemartisian beban kerja hanya didukung untuk sumber data Amazon S3.

Mengaktifkan partisi beban kerja

Anda dapat mengaktifkan eksekusi terbatas dengan secara manual menetapkan opsi dalam skrip Anda atau dengan menambahkan properti tabel katalog.

Untuk mengaktifkan pemartisian beban kerja dengan eksekusi terbatas dalam skrip Anda:

Untuk menghindari pemrosesan ulang data, aktifkan bookmark tugas di tugas baru atau tugas yang sudah ada. Untuk informasi selengkapnya, lihat Melacak Data yang Diproses Menggunakan Bookmark Tugas.

Ubah skrip Anda dan atur batas terbatas dalam opsi tambahan di AWS Glue getSourceAPI. Anda juga harus mengatur konteks transformasi untuk bookmark tugas untuk menyimpan elemen state. Sebagai contoh:

Python


glueContext.create_dynamic_frame.from_catalog(
    database = "database",
    table_name = "table_name",
    redshift_tmp_dir = "",
    transformation_ctx = "datasource0",
    additional_options = {
        "boundedFiles" : "500", # need to be string
      # "boundedSize" : "1000000000" unit is byte
    }
)

Skala


val datasource0 = glueContext.getCatalogSource(
    database = "database", tableName = "table_name", redshiftTmpDir = "", 
    transformationContext = "datasource0",
    additionalOptions = JsonOptions(
        Map("boundedFiles" -> "500") // need to be string
      //"boundedSize" -> "1000000000" unit is byte
    ) 
).getDynamicFrame()


val connectionOptions = JsonOptions(
    Map("paths" -> List(baseLocation), "boundedFiles" -> "30")
)
val source = glueContext.getSource("s3", connectionOptions, "datasource0", "")

Untuk mengaktifkan pemartisian beban kerja dengan eksekusi terbatas dalam tabel Katalog Data Anda:

Atur pasangan nilai kunci dalam kolom parameters struktur tabel Anda dalam Katalog Data. Untuk informasi selengkapnya, lihat Melihat dan Mengedit Detail Tabel.
Atur batas atas untuk ukuran set data atau jumlah file yang diproses:
- Atur boundedSize dengan ukuran target set data dalam byte. Eksekusi tugas akan berhenti setelah mencapai ukuran target dari tabel.
- Atut boundedFiles dengan jumlah file target. Eksekusi tugas akan berhenti setelah memproses jumlah file target.
catatan
Anda hanya harus menetapkan salah satunya, boundedSize atau boundedFiles, karena hanya satu batas yang didukung.

Menyiapkan sebuah AWS Glue memicu untuk menjalankan pekerjaan secara otomatis

Setelah Anda mengaktifkan eksekusi terbatas, Anda dapat mengatur AWS Glue memicu untuk menjalankan pekerjaan secara otomatis dan memuat data secara bertahap dalam proses berurutan. Pergi ke AWS Glue Konsol dan buat pemicu, atur waktu jadwal, dan lampirkan ke pekerjaan Anda. Maka ia akan secara otomatis memicu eksekusi tugas berikutnya dan memproses batch data yang baru.

Anda juga dapat menggunakan AWS Glue alur kerja untuk mengatur beberapa pekerjaan untuk memproses data dari partisi yang berbeda secara paralel. Untuk informasi selengkapnya, silakan lihat AWS Glue Pemicu dan AWS Glue Alur kerja.

Untuk informasi lebih lanjut tentang kasus penggunaan dan opsi, silakan merujuk ke blog Mengoptimalkan aplikasi Spark dengan partisi beban kerja di AWS Glue.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Menggunakan penskalaan otomatis untuk AWS Glue

Masalah yang diketahui

Di halaman ini

Pilih preferensi cookie Anda

Sesuaikan preferensi cookie

Penting

Kinerja

Fungsional

Iklan

Tidak dapat menyimpan preferensi cookie

Partisi beban kerja dengan eksekusi terbatas

Mengaktifkan partisi beban kerja

Untuk mengaktifkan pemartisian beban kerja dengan eksekusi terbatas dalam skrip Anda:

Untuk mengaktifkan pemartisian beban kerja dengan eksekusi terbatas dalam tabel Katalog Data Anda:

catatan

Menyiapkan sebuah AWS Glue memicu untuk menjalankan pekerjaan secara otomatis

Di halaman ini

Related resources

Apakah halaman ini membantu Anda?

Related resources

Topik berikutnya:

Topik sebelumnya:

Perlu bantuan?