优化 Iceberg 表 - AWS Glue

优化 Iceberg 表

AWS Glue 支持多种表优化选项,以增强 AWS 分析引擎和 ETL 作业使用的 Apache Iceberg 表的管理和性能。这些优化器可提高存储空间利用效率、提升查询性能,并实现有效的数据管理。AWS Glue 中提供了三种表优化器:

  • 压缩 – 数据压缩功能可压缩小数据文件,以减少存储空间使用量并提升读取性能。此功能会合并和重写数据文件以移除过时数据,并将碎片数据合并到更大、更高效的文件中。可以根据需要配置为自动运行或手动触发压缩。

  • 快照保留 – 快照是带有时间戳的 Iceberg 表版本。借助快照保留配置,客户可以强制规定快照保留期限和要保留的快照数量。配置快照保留优化器可以移除不必要的旧快照及其相关底层文件,从而帮助管理存储开销。

  • 孤立文件删除 – 孤立文件是指不再被 Iceberg 表元数据引用的文件。这些文件可能会逐渐堆积,尤其是在表删除或 ETL 任务失败等操作之后。启用孤立文件删除功能后,AWS Glue 会定期识别并移除这些不必要的文件,从而释放存储空间。

您可以使用 AWS Glue 控制台、AWS CLI 或 AWS Glue API 操作,在 Data Catalog 中为单个 Iceberg 表启用或禁用压缩、快照保留和孤立文件删除优化器。