启用目录级别自动统计数据生成
您可以为 Data Catalog 中所有新的 Apache Iceberg 表和非 OTF 表(Parquet、JSON、CSV、XML、ORC、ION)格式的表启用自动列统计数据生成。创建表后,您还可以手动显式更新列统计数据设置。
要更新 Data Catalog 设置以启用目录级别,使用的 IAM 角色必须对根目录具有 glue:UpdateCatalog
权限或 AWS Lake Formation ALTER CATALOG
权限。您可以使用 GetCatalog
API 来验证目录属性。
- AWS Management Console
-
在账户级别启用自动列统计数据生成
通过 https://console.aws.amazon.com/lakeformation/
打开 Lake Formation 控制台。 在左侧导航栏上,选择目录。
在目录摘要页面上,选择优化配置下的编辑。
-
在表优化配置页面上,选择启用自动为目录表生成统计数据选项。
-
选择一个现有 IAM 角色或创建一个具有运行列统计数据任务所需权限的新角色。
-
选择提交。
- AWS CLI
-
您也可以通过 AWS CLI 启用目录级别统计数据收集。要使用 AWS CLI 配置表级统计数据收集,请运行下面的命令:
aws glue update-catalog --cli-input-json '{ "name":
"123456789012"
, "catalogInput": { "description": "Updating root catalog with role arn", "catalogProperties": { "customProperties": { "ColumnStatistics.RoleArn": "arn:aws:iam::"123456789012"
:role/service-role/AWSGlueServiceRole", "ColumnStatistics.Enabled": "true" } } } }'上面的命令调用 AWS Glue 的
UpdateCatalog
操作,它采用具有以下键值对的CatalogProperties
结构生成目录级别统计数据:-
ColumnStatistics.RoleArn:用于为生成目录级别统计数据而触发的所有任务的 IAM 角色 ARN
-
ColumnStatistics.Enabled:表示目录级别设置是启用还是禁用的布尔值
-
自动列统计数据生成
查看自动表级设置