注意事项和限制
本节包括在 AWS Glue Data Catalog 中使用表优化器时需要考虑的事项。
托管式数据压缩的支持的格式和限制
数据压缩支持多种用于读取和写入数据的压缩格式,例如从加密表中读取数据。
数据压缩支持:
加密 – 数据压缩仅支持默认的 Amazon S3 加密(SSE-S3)和服务器端 KMS 加密(SSE-KMS)。
资源装箱压缩
-
当存储基础数据的 Amazon S3 存储桶位于另一个账户中时,您可以从数据目录所在的账户运行压缩。要实现此目的,压缩角色需要具有访问 Amazon S3 存储桶的权限。
数据压缩目前不支持:
常规排序或 Z-Order 排序
-
对跨账户表进行压缩 – 您无法对跨账户表进行压缩。
-
对跨区域表进行压缩 – 您无法对跨区域表进行压缩。
针对资源链接启用压缩
-
Amazon S3 Express One Zone 存储类中的表:您无法对 S3 Express One Zone Iceberg 表进行压缩。
关于快照保留和孤立文件删除优化器的注意事项
对于快照保留和孤立文件删除优化器,应注意以下几点。
快照保留和孤立文件删除进程的上限为每次运行删除 1,000,000 个文件。删除已过期的快照时,如果符合删除条件的文件数量超过 1,000,000 个,则超过该阈值的所有剩余文件将继续作为孤立文件存在于表存储中。
-
只有在满足以下两个条件时,快照保留优化器才会保留快照:要保留的最小快照数量和指定的保留期。
-
快照保留优化器会从 Apache Iceberg 中删除过期的快照元数据,从而防止对过期快照进行时空旅行查询,并选择性删除关联的数据文件。
-
孤立文件删除优化器会删除 Iceberg 元数据不再引用的孤立数据和元数据文件,前提是它们的创建时间早于优化器运行时设定的孤立文件删除保留期。
-
Apache Iceberg 通过分支和标签促进版本控制,这些分支和标签是指向特定快照状态的指定指针。每个分支和标签都遵循自己独立的生命周期,受其各自级别定义的保留策略的约束。AWS Glue Data Catalog 优化器会考虑这些生命周期策略,确保遵守指定的保留规则。分支和标签级别的保留策略优先于优化器配置。
有关更多信息,请参阅 Apache Iceberg 文档中的分支和标签
部分。 -
快照保留和孤立文件删除优化器将根据配置的参数删除符合清理条件的文件。通过在相应的存储桶上实施 S3 版本控制和生命周期策略,增强对文件删除的控制。
有关设置版本控制和创建生命周期规则的详细说明,请参阅 https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html。