安排增量爬网以添加新分区 - AWS Glue

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

安排增量爬网以添加新分区

爬网程序提供了添加新分区的选项,从而使具有稳定表架构的增量数据集可以更快地爬取。典型用例是针对计划的爬网程序,在每次爬取期间都会添加新的分区。

启用此选项后,它将先对目标数据集运行一次完整的爬取,以使爬网程序能够记录初始架构和分区结构。在重新爬取期间,只有当架构兼容时,新分区才会添加到现有表中。第一次爬取运行后,不会对架构进行任何更改,也不会向数据目录添加任何新表。

设置 Amazon S3 数据来源时,可以使用此选项。您只能在控制台RecrawlPolicy步骤 2:选择数据源和分类器部分Crawl_New_Folders中将 with 设置RecrawlBehavior为 Crawl 新子文件夹,CreateCrawlerAPI或者后续爬网程序运行为 Crawl 新子文件夹

要为 Crawler 创建时间表,请参阅计划爬网程序

继续 爬网程序如何确定何时创建分区? 中的示例,下图显示已添加三月份的文件。

下图显示已添加三月份的文件。

如果您将 RecrawlBehavior 设置为“Crawl_New_Folders”选项,则爬取 month=Mar

注释和限制

启用此选项后,您无法在编辑爬网程序时更改 Amazon S3 目标数据存储。此选项会影响某些爬网程序配置设置。启用后,它会将爬网程序的更新行为和删除行为强制为 LOG。这意味着:

  • 如果它发现架构不兼容的对象,Crawler 将不会在数据目录中添加这些对象,而是将此详细信息作为日志添加到 Logs 中。 CloudWatch

  • 它不会更新 Data Catalog 中的已删除对象。