为 Iceberg 表生成列统计数据 - AWS Glue

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

为 Iceberg 表生成列统计数据

按照以下步骤配置计划,使用 AWS Glue 控制台或 AWS CLI 或运行StartColumnStatisticsTaskRun操作在数据目录中生成统计信息。

生成列统计数据
  1. 登录 AWS Glue 控制台,网址为https://console.aws.amazon.com/glue/

  2. 选择 Data Catalog 下的

  3. 从列表中选择一个 Iceberg 表。

  4. 操作菜单下依次选择列统计数据按需生成

    您也可以选择页面下半部分的列统计数据选项卡,然后选择生成统计数据按钮。

  5. 生成统计数据页面上,提供统计数据生成详细信息。按照一按计划生成列统计信息节中的步骤 6-11 配置 Iceberg 表统计数据生成时间表。

    您也可以选择按需生成列统计信息,方法是按照中的说明进行操作 按需生成列统计数据

    注意

    Iceberg 表不支持采样选项。

    AWS Glue 计算提交到您的 Amazon S3 位置中指定快照 ID 的新 Puffin 文件的 Iceberg 表中每列的不同值的数量。