选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

按计划生成列统计信息

聚焦模式
按计划生成列统计信息 - AWS Glue

按照以下步骤 AWS Glue Data Catalog 使用 AWS Glue 控制台 AWS CLI、或CreateColumnStatisticsTaskSettings操作配置生成列统计信息的计划。

Console
使用控制台生成列统计数据
  1. 登录 AWS Glue 控制台,网址为https://console.aws.amazon.com/glue/

  2. 选择 Data Catalog 表。

  3. 从列表中选择一个表。

  4. 在 “” 页的下半部分选择 “列统计信息” 选项卡。

  5. 您也可以从 “操作” 的 “列统计信息” 下选择 “按计划生成”。

  6. 在 “按计划生成统计信息” 页上,通过选择频率和开始时间,配置运行列统计任务的定期计划。您可以将频率选择为每小时、每天、每周,也可以定义一个 cron 表达式来指定计划。

    cron 表达式是一个表示计划模式的字符串,由 6 个以空格分隔的字段组成:* * * * <minute><hour><day of month><month><day of week><year>例如,要在每天午夜运行任务,cron 表达式将是:0 0 * *? *

    有关更多信息,请参阅 Cron 表达式

    此屏幕截图显示了可用于生成列统计数据的选项。
  7. 接下来,选择列选项以生成统计数据。

    • 所有列 – 选择此选项可生成表中所有列的统计信息。

    • 选定列 – 选择此选项可生成特定列的统计数据。您可以从下拉列表中选择列。

  8. 选择一个IAM角色或创建一个有权生成统计数据的现有角色。 AWS Glue 担任此角色来生成列统计信息。

    一种更快的方法是让 AWS Glue 控制台为您创建角色。它创建的角色专门用于生成列统计信息,包括AWSGlueServiceRole AWS 托管策略以及指定数据源所需的内联策略。

    如果您指定用于生成列统计信息的现有角色,请确保该角色包括AWSGlueServiceRole策略或等效策略(或此策略的范围缩小版本)以及所需的内联策略。

  9. (可选)然后选择一种安全配置来启用日志静态加密。

  10. (可选)您可以通过仅指定表格中特定百分比的行来选择样本大小,以生成统计数据。默认值为所有行。使用向上和向下箭头可增加或减少百分比值。

    我们建议选择表中的所有行,以计算出准确的统计数据。仅在可接受近似值时,才使用样本行来生成列统计数据。

  11. 选择 “生成统计数据” 以运行列统计数据生成任务。

AWS CLI

您可以使用以下 AWS CLI 示例来创建列统计信息生成计划。数据库名称、表名和角色是必填参数,可选参数是计划、catalog-id column-name-list、样本大小和安全配置。

aws glue create-column-statistics-task-settings \ --database-name 'database_name' \ --table-name table_name \ --role 'arn:aws:iam::123456789012:role/stats-role' \ --schedule 'cron(0 0-5 14 * * ?)' \ --column-name-list 'col-1' \ --catalog-id '123456789012' \ --sample-size '10.0 ' \ --security-configuration 'test-security'

您也可以通过调用StartColumnStatisticsTaskRun操作来生成列统计信息。

使用控制台生成列统计数据
  1. 登录 AWS Glue 控制台,网址为https://console.aws.amazon.com/glue/

  2. 选择 Data Catalog 表。

  3. 从列表中选择一个表。

  4. 在 “” 页的下半部分选择 “列统计信息” 选项卡。

  5. 您也可以从 “操作” 的 “列统计信息” 下选择 “按计划生成”。

  6. 在 “按计划生成统计信息” 页上,通过选择频率和开始时间,配置运行列统计任务的定期计划。您可以将频率选择为每小时、每天、每周,也可以定义一个 cron 表达式来指定计划。

    cron 表达式是一个表示计划模式的字符串,由 6 个以空格分隔的字段组成:* * * * <minute><hour><day of month><month><day of week><year>例如,要在每天午夜运行任务,cron 表达式将是:0 0 * *? *

    有关更多信息,请参阅 Cron 表达式

    此屏幕截图显示了可用于生成列统计数据的选项。
  7. 接下来,选择列选项以生成统计数据。

    • 所有列 – 选择此选项可生成表中所有列的统计信息。

    • 选定列 – 选择此选项可生成特定列的统计数据。您可以从下拉列表中选择列。

  8. 选择一个IAM角色或创建一个有权生成统计数据的现有角色。 AWS Glue 担任此角色来生成列统计信息。

    一种更快的方法是让 AWS Glue 控制台为您创建角色。它创建的角色专门用于生成列统计信息,包括AWSGlueServiceRole AWS 托管策略以及指定数据源所需的内联策略。

    如果您指定用于生成列统计信息的现有角色,请确保该角色包括AWSGlueServiceRole策略或等效策略(或此策略的范围缩小版本)以及所需的内联策略。

  9. (可选)然后选择一种安全配置来启用日志静态加密。

  10. (可选)您可以通过仅指定表格中特定百分比的行来选择样本大小,以生成统计数据。默认值为所有行。使用向上和向下箭头可增加或减少百分比值。

    我们建议选择表中的所有行,以计算出准确的统计数据。仅在可接受近似值时,才使用样本行来生成列统计数据。

  11. 选择 “生成统计数据” 以运行列统计数据生成任务。

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。