优化 Iceberg 表 - AWS Glue

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

优化 Iceberg 表

AWS Glue 支持多个表优化选项,以增强 AWS 分析引擎和作业使用的 Apache Iceberg 表的管理和性能。ETL这些优化器可提高存储空间利用效率、提升查询性能,并实现有效的数据管理。有三种类型的表优化器可供选择: AWS Glue

  • 压缩 – 数据压缩功能可压缩小数据文件,以减少存储空间使用量并提升读取性能。此功能会合并和重写数据文件以移除过时数据,并将碎片数据合并到更大、更高效的文件中。可以根据需要配置为自动运行或手动触发压缩。

  • 快照保留 – 快照是带有时间戳的 Iceberg 表版本。借助快照保留配置,客户可以强制规定快照保留期限和要保留的快照数量。配置快照保留优化器可以移除不必要的旧快照及其相关底层文件,从而帮助管理存储开销。

  • 孤立文件删除 – 孤立文件是指不再被 Iceberg 表元数据引用的文件。这些文件可能会随着时间的推移而累积,尤其是在表删除或ETL任务失败等操作之后。启用孤立文件删除功能可以 AWS Glue 定期识别和删除这些不必要的文件,从而释放存储空间。

您可以使用 AWS Glue 控制台、或操作为数据目录中的单个 Iceberg 表启用或禁用压缩、 AWS CLI快照保留和孤立文件删除优化器。 AWS Glue API

以下视频演示了如何在中为 Iceberg 表配置优化器。 AWS Glue 爬网程序