计划用于添加新分区的增量爬取 - AWS Glue

计划用于添加新分区的增量爬取

您可以配置 AWS Glue 爬网程序运行增量爬取,以仅向表架构添加新分区。爬网程序首次运行时,它会执行完全爬取来处理整个数据来源,以记录 AWS Glue Data Catalog 中完整的架构和所有现有分区。

初始完全爬取之后的后续爬取将是增量式的,其中爬网程序仅识别并添加自上次爬取以来引入的新分区。这种方法可以缩短爬取时间,因为爬网程序不再需要每次运行时处理整个数据来源,而是只关注新分区。

注意

增量爬取不会检测对现有分区的修改或删除。此配置最适合具有稳定架构的数据来源。如果发生一次性的重大架构变更,建议暂时将爬网程序设置为执行完全爬取以准确捕获新架构,然后再切换回增量爬取模式。

下图显示,启用增量爬取设置后,爬网程序仅检测新添加的文件夹 month=March 并将其添加到目录中。

下图显示已添加三月份的文件。

请按照以下步骤更新爬网程序以执行增量爬取:

AWS Management Console
  1. 登录 AWS Management Console,然后打开 AWS Glue 控制台,网址为:https://console.aws.amazon.com/glue/

  2. 数据目录下选择爬网程序

  3. 选择要设置为增量爬取的爬网程序。

  4. 选择编辑

  5. 选择步骤 2。选择数据来源和分类器

  6. 选择要增量爬取的数据来源。

  7. 选择编辑

  8. 后续爬网程序运行下选择仅爬取新子文件夹

  9. 选择更新

要为爬网程序创建计划,请参阅计划爬网程序

AWS CLI
aws glue update-crawler \ --name myCrawler \ --recrawl-policy RecrawlBehavior=CRAWL_NEW_FOLDERS_ONLY \ --schema-change-policy UpdateBehavior=LOG,DeleteBehavior=LOG
注释和限制

启用此选项后,您无法在编辑爬网程序时更改 Amazon S3 目标数据存储。此选项会影响某些爬网程序配置设置。启用后,它会将爬网程序的更新行为和删除行为强制为 LOG。这意味着:

  • 如果发现架构不兼容的对象,爬网程序将不会在 Data Catalog 中添加这些对象,而是将此详细信息作为日志添加到 CloudWatch Logs 中。

  • 它不会更新 Data Catalog 中的已删除对象。