选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

自动列统计数据生成

聚焦模式
自动列统计数据生成 - AWS Glue

自动生成列统计数据让您能够安排并自动计算 AWS Glue Data Catalog中新表的统计数据。启用自动统计数据生成后,Data Catalog 会发现具有特定数据格式(如 Parquet、JSON、CSV、XML、ORC、ION 和 Apache Iceberg)的新表及其各自的存储桶路径。通过一次性目录配置,Data Catalog 会为这些表生成统计数据。

数据湖管理员可以通过在 Lake Formation 控制台中选择默认目录并使用Optimization configuration选项启用表统计数据来配置统计数据生成。当您在 Data Catalog 中创建新表或更新现有表时,Data Catalog 会每周收集 Apache Iceberg 表的不同值 (NDV) 数量以及其他统计数据(例如,其他受支持文件格式的空值数、最大值、最小值和平均长度)。

如果您已经在表级别配置了统计数据生成,或者您之前删除了表的统计数据生成设置,则这些特定于表的设置优先于自动列统计数据生成的默认目录设置。

自动统计数据生成任务会分析表中 20% 的记录来计算统计数据。自动生成列统计数据可确保 Data Catalog 具有最新的统计数据,Amazon Athena 和 Amazon Redshift Spectrum 等查询引擎可以使用这些统计数据来提高查询性能并可能节省成本。它允许使用 AWS Glue API 或控制台安排统计数据生成,从而提供无需人工干预的自动化流程。

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。