自动生成列统计数据让您能够安排并自动计算 AWS Glue Data Catalog中新表的统计数据。启用自动统计数据生成后,Data Catalog 会发现具有特定数据格式(如 Parquet、JSON、CSV、XML、ORC、ION 和 Apache Iceberg)的新表及其各自的存储桶路径。通过一次性目录配置,Data Catalog 会为这些表生成统计数据。
数据湖管理员可以通过在 Lake Formation 控制台中选择默认目录并使用Optimization configuration
选项启用表统计数据来配置统计数据生成。当您在 Data Catalog 中创建新表或更新现有表时,Data Catalog 会每周收集 Apache Iceberg 表的不同值 (NDV) 数量以及其他统计数据(例如,其他受支持文件格式的空值数、最大值、最小值和平均长度)。
如果您已经在表级别配置了统计数据生成,或者您之前删除了表的统计数据生成设置,则这些特定于表的设置优先于自动列统计数据生成的默认目录设置。
自动统计数据生成任务会分析表中 20% 的记录来计算统计数据。自动生成列统计数据可确保 Data Catalog 具有最新的统计数据,Amazon Athena 和 Amazon Redshift Spectrum 等查询引擎可以使用这些统计数据来提高查询性能并可能节省成本。它允许使用 AWS Glue API 或控制台安排统计数据生成,从而提供无需人工干预的自动化流程。