自动列统计数据生成

PDF

RSS

聚焦模式

Related resources

AWS Glue DataBrew 开发人员指南

AWS Glue 的 AWS CLI 命令

SDK 和工具

此页内容对您是否有帮助？

提供反馈

自动列统计数据生成 - AWS Glue

自动生成列统计数据让您能够安排并自动计算 AWS Glue Data Catalog中新表的统计数据。启用自动统计数据生成后，Data Catalog 会发现具有特定数据格式（如 Parquet、JSON、CSV、XML、ORC、ION 和 Apache Iceberg）的新表及其各自的存储桶路径。通过一次性目录配置，Data Catalog 会为这些表生成统计数据。

数据湖管理员可以通过在 Lake Formation 控制台中选择默认目录并使用Optimization configuration选项启用表统计数据来配置统计数据生成。当您在 Data Catalog 中创建新表或更新现有表时，Data Catalog 会每周收集 Apache Iceberg 表的不同值 (NDV) 数量以及其他统计数据（例如，其他受支持文件格式的空值数、最大值、最小值和平均长度）。

如果您已经在表级别配置了统计数据生成，或者您之前删除了表的统计数据生成设置，则这些特定于表的设置优先于自动列统计数据生成的默认目录设置。

自动统计数据生成任务会分析表中 20% 的记录来计算统计数据。自动生成列统计数据可确保 Data Catalog 具有最新的统计数据，Amazon Athena 和 Amazon Redshift Spectrum 等查询引擎可以使用这些统计数据来提高查询性能并可能节省成本。它允许使用 AWS Glue API 或控制台安排统计数据生成，从而提供无需人工干预的自动化流程。

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

先决条件

启用目录级别自动统计数据生成

选择您的 Cookie 首选项

自定义 Cookie 首选项

关键

性能

功能

广告

无法保存 Cookie 首选项

自动列统计数据生成

Related resources

此页内容对您是否有帮助？

主题

下一主题：

上一主题：

需要帮助吗？