优化压缩
使用 Apache Iceberg 等开放表格式的 Amazon S3 数据湖会将数据存储为 S3 对象。如果数据湖表中包含成千上万个 Amazon S3 小对象,则会增加元数据开销并影响读取性能。AWS Glue Data Catalog 为 Iceberg 表提供了托管式压缩功能,可将小对象压缩成较大的对象,以便提高 Amazon Athena 和 Amazon EMR 等 AWS 分析服务以及 AWS Glue ETL 作业的读取性能。Data Catalog 会在不干扰并发查询的情况下执行压缩,并且仅支持 Parquet 格式表的压缩。
表优化器会持续监控表分区,并在超过文件数量和文件大小阈值时启动压缩进程。
在 Data Catalog 中,当表或表内任何分区的文件数超过五个且每个文件的大小都小于目标文件大小的 75%(当前设置为 64 MB)时,压缩过程将启动并持续进行。
有关支持的数据类型、压缩格式和限制,请参阅托管式数据压缩的支持的格式和限制 。