爬网程序计划程序 API - AWS Glue

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

爬网程序计划程序 API

爬网程序调度器 API 介绍 AWS Glue 爬网程序数据类型,以及用于创建、删除、更新和列出爬网程序的 API。

数据类型

Schedule 结构

一个使用 cron 语句计划事件的计划对象。

字段
  • ScheduleExpression – UTF-8 字符串。

    用于指定计划的 cron 表达式 (请参阅用于作业和爬网程序的基于时间的计划)。例如,要每天 12:15 UTC 运行某些任务,您应该指定:cron(15 12 * * ? *)

  • State – UTF-8 字符串(有效值:SCHEDULED | NOT_SCHEDULED | TRANSITIONING)。

    计划的状态。

操作

UpdateCrawlerSchedule 操作(Python:update_crawler_schedule)

使用 cron 表达式更新爬网程序的计划。

请求
  • CrawlerName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    要更新其计划的爬网程序的名称。

  • Schedule – UTF-8 字符串。

    用于指定计划的更新的 cron 表达式(请参阅用于作业和爬网程序的基于时间的计划)。例如,要每天 12:15 UTC 运行某些任务,您应该指定:cron(15 12 * * ? *)

响应
  • 无响应参数。

错误
  • EntityNotFoundException

  • InvalidInputException

  • VersionMismatchException

  • SchedulerTransitioningException

  • OperationTimeoutException

StartCrawlerSchedule 操作(Python:start_crawler_schedule)

将指定爬网程序的计划状态更改为 SCHEDULED,除非爬网程序已在运行或者计划状态已为 SCHEDULED

请求
  • CrawlerName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    要计划的爬网程序的名称。

响应
  • 无响应参数。

错误
  • EntityNotFoundException

  • SchedulerRunningException

  • SchedulerTransitioningException

  • NoScheduleException

  • OperationTimeoutException

StopCrawlerSchedule 操作(Python:stop_crawler_schedule)

将指定爬网程序的计划状态设置为 NOT_SCHEDULED,但不停止爬网程序 (如果已在运行)。

请求
  • CrawlerName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    要设置其计划状态的爬网程序的名称。

响应
  • 无响应参数。

错误
  • EntityNotFoundException

  • SchedulerNotRunningException

  • SchedulerTransitioningException

  • OperationTimeoutException