您可以在 Data Catalog 中使用 AWS Glue 控制台、AWS CLI 或 AWS API 为 Apache Iceberg 表启用孤立文件删除功能。对于新表,您可以在创建表时选择 Apache Iceberg 表格式并启用孤立文件删除优化器。新表会默认禁用快照保留功能。
启用孤立文件删除功能
-
打开 AWS Glue 控制台(https://console.aws.amazon.com/glue/
),然后以数据湖管理员、表创建者或已被授予表的 glue:UpdateTable
和lakeformation:GetDataAccess
权限的用户身份登录。 -
在导航窗格的数据目录下,请选择表。
在表页面上,选择要启用孤立文件删除功能的 Iceberg 表。
选择该页面下半部分的表优化选项卡,然后选择启用,并从操作中选择孤立文件删除。
您还可以从该页面右上角的操作菜单中,选择优化下的启用。
-
在启用优化页面的优化选项下,选择孤立文件删除。
-
如果您选择使用默认设置,则所有孤立文件将在 3 天后删除。如果要将孤立文件保留特定的天数,请选择自定义设置。
-
然后选择具有删除孤立文件所需权限的 IAM 角色。
-
如果您有安全策略配置,其中 Iceberg 表优化器需要从特定的虚拟私有云(VPC)访问 Amazon S3 存储桶,则请创建 AWS Glue 网络连接或使用现有网络连接。
如果您尚未设置 AWS Glue VPC 连接,则请使用 AWS Glue 控制台或 AWS CLI/SDK 按照为连接器创建连接部分中的步骤创建一个新连接。
-
如果您选择自定义设置,请在孤立文件删除配置下,输入文件删除之前要保留的天数。
-
选择启用优化。