在 AWS Glue 中手動建立和建構工作流程 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 AWS Glue 中手動建立和建構工作流程

您可以使用 AWS Glue 主控台,手動一次一個節點地建立和建置工作流程。

工作流程包含任務、爬蟲程式和觸發。手動建立工作流程前,請先建立工作流程要包含的任務和爬蟲程式。最好指定工作流程的隨需執行爬蟲程式。您可在建立工作流程時建立新的觸發,或者將現有的觸發「複製」到工作流程。當您複製觸發時,所有與觸發相關聯的目錄物件 (觸發它的任務或爬蟲程式以及啟動的任務或爬蟲程式) 都會新增至工作流程。

重要

將工作流程中的任務、爬蟲程式和觸發程序總數限制在 100 或更少。如果包含超過 100 個,則嘗試繼續或停止工作流程執行時可能會出現錯誤。

您可以將觸發新增到工作流程圖,並定義每項觸發的監看事件和動作,藉以建構您的工作流程。您從「啟動觸發」開始,它可以是隨需觸發或排程觸發,然後透過新增事件 (條件式) 觸發完成圖形。

步驟 1:建立工作流程

  1. 登入 AWS Management Console,並開啟位於 https://console.aws.amazon.com/glue/ 的 AWS Glue 主控台。

  2. 在導覽窗格的 ETL 下,選擇 Workflows (工作流程)

  3. 選擇 Add workflow (新增工作流程),然後完成 Add a new ETL workflow (新增新的 ETL 工作流程) 表單。

    您新增的任何選用預設回合屬性,都會以引數形式提供給工作流程中的所有任務使用。如需更多詳細資訊,請參閱 在 AWS Glue 中取得及設定工作流程執行屬性

  4. 選擇 Add workflow (新增工作流程)

    新的工作流程會出現在 Workflows (工作流程) 頁面的清單中。

步驟 2:新增啟動觸發

  1. Workflows (工作流程) 頁面中,選擇您的新工作流程。然後,在該頁面底部,確定選取 Graph (圖形) 索引標籤。

  2. 選擇 Add trigger (新增觸發),然後在 Add trigger (新增觸發) 對話方塊中執行以下其中一項操作:

    • 選擇 Clone existing (複製現有的項目),然後選擇要複製的觸發。接著選擇 Add (新增)

      此觸發會和它監看的任務及爬蟲程式以及它啟動的任務及爬蟲程式一起出現在圖形中。

      如果不小心選了錯誤的觸發,請選取圖形中的觸發,然後選擇 Remove (移除)

    • 選擇 Add new (新增),然後完成 Add trigger (新增觸發) 表單。

      1. 對於 Trigger type (觸發類型),選取 Schedule (排程)On demand (隨需)EventBridge

        對於觸發類型 Schedule (排程),選擇其中一個 Frequency (頻率) 選項。選擇 Custom (自訂) 輸入 cron 表達式。

        對於觸發類型 EventBridge event (EventBridge 事件),輸入 Number of events (事件數) (批次大小),並選擇性地輸入 Time delay (時間延遲) (批次時段)。如果您省略 Time delay (時間延遲),批次時段預設為 15 分鐘。如需更多詳細資訊,請參閱 AWS Glue 中的工作流程概觀

      2. 選擇 Add (新增)。

      此觸發會和預留位置節點 (標記為 Add node (新增節點)) 一起出現在圖形中。在下列範例中,啟動觸發是名為 Month-close1 的排程觸發。

      此時,尚未儲存觸發。

      圖形有兩個矩形節點:一項觸發和一個預留位置節點。箭頭會從觸發節點指向預留位置節點。
  3. 如已新增新的觸發,請完成以下步驟:

    1. 執行下列任意一項:

      • 選擇預留位置節點 (Add node (新增節點))。

      • 確認選取啟動觸發,然後在圖形上方的 Action (動作) 選單中,選擇 Add jobs/crawlers to trigger (新增要觸發的任務/爬蟲程式)

    2. Add jobs(s) and crawler(s) to trigger (新增要觸發的任務/爬蟲程式) 對話方塊中,選取一或多項任務或爬蟲程式,然後選擇 Add (新增)

      觸發已儲存,選取的任務或爬蟲程式會出現在圖形中,有來自觸發的連接器。

      如果您不小心新增了錯誤的任務或爬蟲程式,您可以選取觸發或連接器,然後選擇 Remove (移除)

步驟 3:新增更多觸發

新增更多類型為 Event (事件) 的觸發以繼續建構您的工作流程。若要縮放或放大圖形畫布,請使用圖形右側的圖示。針對每項要新增的觸發,請完成以下步驟:

注意

沒有任何動作可儲存工作流程。新增最後一個觸發並將動作指派給觸發後,工作流程即完成並儲存。您可以隨時返回並新增更多節點。

  1. 執行下列任意一項:

    • 若要複製現有的觸發,請確保未選取圖形中的任何節點,然後在 Action (動作) 選單中選擇 Add trigger (新增觸發)

    • 若要新增可監看圖形中特定任務或爬蟲程式的新觸發,請選取任務或爬蟲程式節點,然後選擇 Add trigger (新增觸發) 預留位置節點。

      您可以新增更多任務或爬蟲程式,以在後續步驟中監看此觸發。

  2. Add trigger (新增觸發) 對話方塊中,執行下列其中一項操作:

    • 選擇 Add new (新增),然後完成 Add trigger (新增觸發) 表單。接著選擇 Add (新增)

      此觸發會出現在圖形中。您會在後續步驟中完成此觸發。

    • 選擇 Clone existing (複製現有的項目),然後選擇要複製的觸發。接著選擇 Add (新增)

      此觸發會和它監看的任務及爬蟲程式以及它啟動的任務及爬蟲程式一起出現在圖形中。

      如果您不小心選擇了錯誤的觸發,請在圖形中選取該觸發,然後選擇 Remove (移除)

  3. 如已新增新的觸發,請完成以下步驟:

    1. 選取新的觸發。

      當以下圖形出現時,會選取觸發 De-dupe/fix succeeded,且預留位置節點顯示為要監看的 (1) 事件和 (2) 動作。

      圖形有許多節點,其中兩個是預留位置節點,稱為 1 號和 2 號。
    2. (如果觸發已監看某個事件,而您想要新增更多監看的任務或爬蟲程式,則為選用。) 選擇要監看事件的預留位置節點,然後在 Add job(s) and crawler(s) to watch (新增要監看的任務和爬蟲程式) 對話方塊中,選取一或多項任務或爬蟲程式。選擇要監看的事件 (SUCCEEDED、FAILED 等等),然後選擇 Add (新增)

    3. 確認已選取觸發,然後選擇動作預留位置節點。

    4. Add job(s) and crawler(s) to watch (新增要監看的任務和爬蟲程式) 對話方塊中,選取一或多項任務或爬蟲程式,然後選擇 Add (新增)

      已選取的任務和爬蟲程式會出現在圖形中,有來自觸發的連接器。

如需工作流程和藍圖的詳細資訊,請參閱下列主題。