Pilih preferensi cookie Anda

Kami menggunakan cookie penting serta alat serupa yang diperlukan untuk menyediakan situs dan layanan. Kami menggunakan cookie performa untuk mengumpulkan statistik anonim sehingga kami dapat memahami cara pelanggan menggunakan situs dan melakukan perbaikan. Cookie penting tidak dapat dinonaktifkan, tetapi Anda dapat mengklik “Kustom” atau “Tolak” untuk menolak cookie performa.

Jika Anda setuju, AWS dan pihak ketiga yang disetujui juga akan menggunakan cookie untuk menyediakan fitur situs yang berguna, mengingat preferensi Anda, dan menampilkan konten yang relevan, termasuk iklan yang relevan. Untuk menerima atau menolak semua cookie yang tidak penting, klik “Terima” atau “Tolak”. Untuk membuat pilihan yang lebih detail, klik “Kustomisasi”.

Partisi beban kerja dengan eksekusi terbatas

Mode fokus
Partisi beban kerja dengan eksekusi terbatas - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Kesalahan dalam aplikasi Spark biasanya timbul dari skrip Spark yang tidak efisien, yang didistribusikan dalam memori eksekusi transformasi skala besar, dan kelainan set data. Ada banyak alasan yang dapat menyebabkan masalah kekurangan memori pada driver atau eksekutor, misalnya data skew, mencantumkan terlalu banyak objek, atau data shuffle besar. Masalah ini sering muncul bila Anda memproses sejumlah besar data backlog dengan Spark.

AWS Glue memungkinkan Anda untuk memecahkan masalah OOM dan membuat pemrosesan ETL Anda lebih mudah dengan partisi beban kerja. Dengan mengaktifkan pemartisian beban kerja, setiap eksekusi tugas ETL hanya mengambil data yang belum diproses, dengan batas atas pada ukuran set data atau jumlah file yang akan diproses dengan eksekusi tugas ini. Eksekusi tugas di masa depan akan memproses data yang tersisa. Misalnya, jika ada 1000 file yang harus diproses, Anda dapat mengatur jumlah file menjadi 500 dan memisahkan mereka menjadi dua eksekusi tugas.

Pemartisian beban kerja hanya didukung untuk sumber data Amazon S3.

Mengaktifkan partisi beban kerja

Anda dapat mengaktifkan eksekusi terbatas dengan secara manual menetapkan opsi dalam skrip Anda atau dengan menambahkan properti tabel katalog.

Untuk mengaktifkan pemartisian beban kerja dengan eksekusi terbatas dalam skrip Anda:
  1. Untuk menghindari pemrosesan ulang data, aktifkan bookmark tugas di tugas baru atau tugas yang sudah ada. Untuk informasi selengkapnya, lihat Melacak Data yang Diproses Menggunakan Bookmark Tugas.

  2. Ubah skrip Anda dan atur batas terbatas dalam opsi tambahan di AWS Glue getSourceAPI. Anda juga harus mengatur konteks transformasi untuk bookmark tugas untuk menyimpan elemen state. Sebagai contoh:

    Python

    glueContext.create_dynamic_frame.from_catalog( database = "database", table_name = "table_name", redshift_tmp_dir = "", transformation_ctx = "datasource0", additional_options = { "boundedFiles" : "500", # need to be string # "boundedSize" : "1000000000" unit is byte } )

    Skala

    val datasource0 = glueContext.getCatalogSource( database = "database", tableName = "table_name", redshiftTmpDir = "", transformationContext = "datasource0", additionalOptions = JsonOptions( Map("boundedFiles" -> "500") // need to be string //"boundedSize" -> "1000000000" unit is byte ) ).getDynamicFrame()
    val connectionOptions = JsonOptions( Map("paths" -> List(baseLocation), "boundedFiles" -> "30") ) val source = glueContext.getSource("s3", connectionOptions, "datasource0", "")
Untuk mengaktifkan pemartisian beban kerja dengan eksekusi terbatas dalam tabel Katalog Data Anda:
  1. Atur pasangan nilai kunci dalam kolom parameters struktur tabel Anda dalam Katalog Data. Untuk informasi selengkapnya, lihat Melihat dan Mengedit Detail Tabel.

  2. Atur batas atas untuk ukuran set data atau jumlah file yang diproses:

    • Atur boundedSize dengan ukuran target set data dalam byte. Eksekusi tugas akan berhenti setelah mencapai ukuran target dari tabel.

    • Atut boundedFiles dengan jumlah file target. Eksekusi tugas akan berhenti setelah memproses jumlah file target.

    catatan

    Anda hanya harus menetapkan salah satunya, boundedSize atau boundedFiles, karena hanya satu batas yang didukung.

Menyiapkan sebuah AWS Glue memicu untuk menjalankan pekerjaan secara otomatis

Setelah Anda mengaktifkan eksekusi terbatas, Anda dapat mengatur AWS Glue memicu untuk menjalankan pekerjaan secara otomatis dan memuat data secara bertahap dalam proses berurutan. Pergi ke AWS Glue Konsol dan buat pemicu, atur waktu jadwal, dan lampirkan ke pekerjaan Anda. Maka ia akan secara otomatis memicu eksekusi tugas berikutnya dan memproses batch data yang baru.

Anda juga dapat menggunakan AWS Glue alur kerja untuk mengatur beberapa pekerjaan untuk memproses data dari partisi yang berbeda secara paralel. Untuk informasi selengkapnya, silakan lihat AWS Glue Pemicu dan AWS Glue Alur kerja.

Untuk informasi lebih lanjut tentang kasus penggunaan dan opsi, silakan merujuk ke blog Mengoptimalkan aplikasi Spark dengan partisi beban kerja di AWS Glue.

PrivasiSyarat situsPreferensi cookie
© 2025, Amazon Web Services, Inc. atau afiliasinya. Semua hak dilindungi undang-undang.