优化压缩 - AWS Glue

优化压缩

使用 Apache Iceberg 等开放表格式的 Amazon S3 数据湖会将数据存储为 S3 对象。如果数据湖表中包含成千上万个 Amazon S3 小对象,则会增加元数据开销并影响读取性能。AWS Glue Data Catalog 为 Iceberg 表提供了托管式压缩功能,可将小对象压缩成较大的对象,以便提高 Amazon Athena 和 Amazon EMR 等 AWS 分析服务以及 AWS Glue ETL 作业的读取性能。Data Catalog 会在不干扰并发查询的情况下执行压缩,并且仅支持 Parquet 格式表的压缩。

表优化器会持续监控表分区,并在超过文件数量和文件大小阈值时启动压缩进程。

在 Data Catalog 中,当表或其中的任何分区包含超过 100 个文件时,压缩进程就会启动。每个文件必须小于目标文件大小的 75%。目标文件大小由 write.target-file-size-bytes 表属性定义,如果未显式设置,则默认为 512 MB。

有关限制,请参阅托管式数据压缩的支持的格式和限制