建立爬蟲程式排程 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建立爬蟲程式排程

您可以使用 AWS Glue 主控台或 為爬蟲程式建立排程 AWS CLI。

AWS Management Console
  1. 登入 AWS Management Console,然後開啟 AWS Glue 主控台https://console.aws.amazon.com/glue/

  2. 在導覽窗格中選擇 Crawlers (爬蟲程式)

  3. 請遵循 設定爬蟲程式區段中的步驟 1-3。

  4. 在 中步驟 4:設定輸出和排程,選擇 Crawler 排程以設定執行的頻率。您可以選擇爬蟲程式以每小時、每天、每週、每月執行,或使用 Cron 表達式定義自訂排程。

    cron 表達式是代表排程模式的字串,由 6 個以空格分隔的欄位組成:* * * * <minute> <hour> <day of month> <month> <day of week> <year>

    例如,若要每天在午夜執行任務,cron 表達式為:0 0 * * ? *

    如需詳細資訊,請參閱 Cron 表達式

  5. 檢閱您設定的爬蟲程式設定,並建立要排程執行的爬蟲程式。

AWS CLI
aws glue create-crawler --name myCrawler \ --role AWSGlueServiceRole-myCrawler \ --targets '{"S3Targets":[{Path="s3://amzn-s3-demo-bucket/"}]}' \ --schedule cron(15 12 * * ? *)

如需有關使用 Cron 排程工作和爬蟲程式的詳細資訊,請參閱 任務和爬蟲程式以時間為基礎的排程