本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建立爬蟲程式排程
您可以使用 AWS Glue 主控台或 為爬蟲程式建立排程 AWS CLI。
- AWS Management Console
-
-
登入 AWS Management Console,然後開啟 AWS Glue 主控台https://console.aws.amazon.com/glue/
。 -
在導覽窗格中選擇 Crawlers (爬蟲程式)。
請遵循 設定爬蟲程式區段中的步驟 1-3。
在 中步驟 4:設定輸出和排程,選擇 Crawler 排程以設定執行的頻率。您可以選擇爬蟲程式以每小時、每天、每週、每月執行,或使用 Cron 表達式定義自訂排程。
cron 表達式是代表排程模式的字串,由 6 個以空格分隔的欄位組成:* * * * <minute> <hour> <day of month> <month> <day of week> <year>
例如,若要每天在午夜執行任務,cron 表達式為:0 0 * * ? *
如需詳細資訊,請參閱 Cron 表達式 。
檢閱您設定的爬蟲程式設定,並建立要排程執行的爬蟲程式。
-
- AWS CLI
-
aws glue create-crawler --name
myCrawler
\ --roleAWSGlueServiceRole-myCrawler
\ --targets '{"S3Targets":[{Path="s3://amzn-s3-demo-bucket/"
}]}' \ --schedulecron(15 12 * * ? *)
如需有關使用 Cron 排程工作和爬蟲程式的詳細資訊,請參閱 任務和爬蟲程式以時間為基礎的排程。
排程爬蟲程式
為現有的爬蟲程式建立排程