Pilih preferensi cookie Anda

Kami menggunakan cookie penting serta alat serupa yang diperlukan untuk menyediakan situs dan layanan. Kami menggunakan cookie performa untuk mengumpulkan statistik anonim sehingga kami dapat memahami cara pelanggan menggunakan situs dan melakukan perbaikan. Cookie penting tidak dapat dinonaktifkan, tetapi Anda dapat mengklik “Kustom” atau “Tolak” untuk menolak cookie performa.

Jika Anda setuju, AWS dan pihak ketiga yang disetujui juga akan menggunakan cookie untuk menyediakan fitur situs yang berguna, mengingat preferensi Anda, dan menampilkan konten yang relevan, termasuk iklan yang relevan. Untuk menerima atau menolak semua cookie yang tidak penting, klik “Terima” atau “Tolak”. Untuk membuat pilihan yang lebih detail, klik “Kustomisasi”.

Membaca file input dalam kelompok yang lebih besar

Mode fokus
Membaca file input dalam kelompok yang lebih besar - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Anda dapat mengatur properti tabel Anda untuk mengaktifkan AWS Glue ETL berfungsi untuk mengelompokkan file saat dibaca dari penyimpanan data Amazon S3. Properti ini memungkinkan setiap tugas ETL untuk membaca sekelompok file input ke dalam partisi di memori tunggal, ini sangat berguna ketika ada sejumlah besar file kecil di Penyimpanan data Amazon S3 Anda. Ketika Anda menetapkan properti tertentu, Anda menginstruksikan AWS Glue untuk mengelompokkan file dalam partisi data Amazon S3 dan mengatur ukuran grup yang akan dibaca. Anda juga dapat mengatur pilihan ini ketika membaca dari penyimpanan data Amazon S3 dengan metode create_dynamic_frame.from_options.

Untuk mengaktifkan pengelompokan file untuk sebuah tabel, Anda mengatur pasangan nilai-kunci di bidang parameter struktur tabel Anda. Gunakan notasi JSON untuk menetapkan nilai untuk bidang parameter tabel Anda. Untuk informasi lebih lanjut tentang mengedit properti tabel, lihat Melihat dan mengelola detail tabel.

Anda dapat menggunakan metode ini untuk mengaktifkan pengelompokan untuk tabel di Katalog Data dengan menyimpan data Amazon S3.

groupFiles

Setel GroupFiles inPartition untuk mengaktifkan pengelompokan file dalam partisi data Amazon S3. AWS Glue secara otomatis memungkinkan pengelompokan jika ada lebih dari 50.000 file input, seperti pada contoh berikut.

'groupFiles': 'inPartition'
groupSize

Atur groupSize untuk ukuran target grup dalam byte. Properti GroupSize adalah opsional, jika tidak disediakan, AWS Glue menghitung ukuran untuk menggunakan semua inti CPU di cluster sambil tetap mengurangi jumlah keseluruhan tugas ETL dan partisi dalam memori.

Sebagai contoh, berikut ini menetapkan ukuran grup ke 1 MB.

'groupSize': '1048576'

Perhatikan bahwa groupsize harus diatur dengan hasil perhitungan. Sebagai contoh 1024 * 1024 = 1048576.

rekursi

Atur rekursi ke True untuk secara rekursif membaca file di semua subdirektori saat menentukan paths sebagai array path. Anda tidak perlu mengatur recurse if paths adalah array kunci objek di Amazon S3, atau jika format input parquet/orc, seperti pada contoh berikut.

'recurse':True

Jika Anda membaca dari Amazon S3 secara langsung menggunakan metode create_dynamic_frame.from_options, tambahkan opsi koneksi ini. Sebagai contoh, upaya berikut untuk mengelompokkan file ke dalam grup 1 MB.

df = glueContext.create_dynamic_frame.from_options("s3", {'paths': ["s3://s3path/"], 'recurse':True, 'groupFiles': 'inPartition', 'groupSize': '1048576'}, format="json")
catatan

groupFilesdidukung untuk DynamicFrames dibuat dari format data berikut: csv, ion, GrokLog, json, dan xl. Opsi ini tidak didukung untuk avro, parket, dan orc.

PrivasiSyarat situsPreferensi cookie
© 2025, Amazon Web Services, Inc. atau afiliasinya. Semua hak dilindungi undang-undang.