本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
爬蟲程式排程器 API
爬蟲程式排程器 API 說明 AWS Glue 爬蟲程式資料類型,以及用於建立、刪除、更新和列出爬蟲程式的 API。
資料類型
Schedule 結構
排程物件,使用 cron
陳述式來將事件排程。
欄位
-
ScheduleExpression
– UTF-8 字串。用來指定排程的
cron
表達式 (請參閱適用於任務與爬蟲程式的依時排程。例如,如果要每天在 12:15 UTC 執行某項動作,您可以指定:cron(15 12 * * ? *)
。 -
State
– UTF-8 字串 (有效值:SCHEDULED
|NOT_SCHEDULED
|TRANSITIONING
)。排程的狀態。
操作
UpdateCrawlerSchedule 動作 (Python: update_crawler_schedule)
使用 cron
表達式來更新爬蟲程式排程。
請求
-
CrawlerName
– 必要:UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,且需符合Single-line string pattern。要更新排程之爬蟲程式的名稱。
-
Schedule
– UTF-8 字串。更新的
cron
表達式,用來指定排程 (請參閱適用於任務與爬蟲程式的依時排程。例如,如果要每天在 12:15 UTC 執行某項動作,您可以指定:cron(15 12 * * ? *)
。
回應
無回應參數。
錯誤
EntityNotFoundException
InvalidInputException
VersionMismatchException
SchedulerTransitioningException
OperationTimeoutException
StartCrawlerSchedule 動作 (Python: start_crawler_schedule)
將指定爬蟲程式的排程狀態變更為 SCHEDULED
(除非爬蟲程式已在執行中,或排程狀態已經是 SCHEDULED
。)
請求
-
CrawlerName
– 必要:UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,且需符合Single-line string pattern。要排程的爬蟲程式的名稱。
回應
無回應參數。
錯誤
EntityNotFoundException
SchedulerRunningException
SchedulerTransitioningException
NoScheduleException
OperationTimeoutException
StopCrawlerSchedule 動作 (Python: stop_crawler_schedule)
將指定爬蟲程式的排程狀態設定為 NOT_SCHEDULED
,但如果爬蟲程式已在執行中,此動作不會停止爬蟲程式。
請求
-
CrawlerName
– 必要:UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,且需符合Single-line string pattern。要更新其排程狀態的爬蟲程式的名稱。
回應
無回應參數。
錯誤
EntityNotFoundException
SchedulerNotRunningException
SchedulerTransitioningException
OperationTimeoutException