Optimalisasi pemadatan - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Optimalisasi pemadatan

Danau data Amazon S3 menggunakan format tabel terbuka seperti Apache Iceberg menyimpan data sebagai objek S3. Memiliki ribuan objek Amazon S3 kecil dalam tabel data lake meningkatkan overhead metadata dan memengaruhi kinerja baca. AWS Glue Data Catalog menyediakan pemadatan terkelola untuk tabel Iceberg, memadatkan objek kecil menjadi yang lebih besar untuk kinerja baca yang lebih baik AWS layanan analitik seperti Amazon Athena dan AmazonEMR, dan AWS Glue ETLpekerjaan. Katalog Data melakukan pemadatan tanpa mengganggu kueri bersamaan dan mendukung pemadatan hanya untuk tabel format Parket.

Pengoptimal tabel terus memantau partisi tabel dan memulai proses pemadatan ketika ambang batas terlampaui untuk jumlah file dan ukuran file.

Dalam Katalog Data, proses pemadatan dimulai dan akan berlanjut jika tabel atau salah satu partisi dalam tabel memiliki lebih dari lima file, masing-masing lebih kecil dari 75% dari ukuran file target (saat ini diatur ke 64MB).

Untuk tipe data yang didukung, format kompresi, dan batasan, lihatFormat dan batasan yang didukung untuk pemadatan data terkelola .