生成分区索引 - AWS Glue

生成分区索引

Data Catalog 支持创建分区索引,以提供对特定分区的有效查找。有关更多信息,请参阅 Creating partition indexes。默认情况下,AWS Glue 爬网程序会为 Amazon S3 和 Delta Lake 目标创建分区索引。

AWS Management Console
  1. 登录 AWS Management Console,然后打开 AWS Glue 控制台,网址为:https://console.aws.amazon.com/glue/

  2. 数据目录下选择爬网程序

  3. 定义爬网程序时,在设置输出和调度页面中的高级选项下,自动创建分区索引选项默认处于启用状态。

    要禁用此选项,可以在控制台中取消选择自动创建分区索引复选框。

  4. 完成爬网程序配置并选择创建爬网程序

AWS CLI

您也可以使用 AWS CLI 禁用此选项,在 configuration 参数中设置 CreatePartitionIndex 。默认值为 true。

aws glue update-crawler \ --name myCrawler \ --configuration '{"Version": 1.0, "CreatePartitionIndex": false }'

分区索引的使用说明

  • 默认情况下,由爬网程序创建的表没有变量 partition_filtering.enabled。有关更多信息,请参阅 AWS Glue partition indexing and filtering

  • 不支持为加密分区创建分区索引。