Lake Formation 中的藍圖和工作流程 - AWS Lake Formation

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Lake Formation 中的藍圖和工作流程

工作流程封裝複雜的多工作業擷取、轉換和載入 (ETL) 活動。工作流程會產生 AWS Glue 爬蟲程式、任務和觸發程序,以協調資料的載入和更新。Lake Formation 會以單一實體的方式執行和追蹤工作流程。您可以設定工作流程以隨需或排程執行。

您在 Lake Formation 中建立的工作流程可見於 AWS Glue 主控台作為定向非循環圖形 (DAG)。每個DAG節點都是任務、爬蟲程式或觸發程序。若要監控進度和疑難排解,您可以追蹤工作流程中每個節點的狀態。

當 Lake Formation 工作流程完成時,執行工作流程的使用者會在工作流程建立的資料目錄資料表上獲得 Lake Formation SELECT許可。

您也可以在 中建立工作流程 AWS Glue。 但是,由於 Lake Formation 可讓您從藍圖建立工作流程,因此在 Lake Formation 中建立工作流程會更簡單且自動化。Lake Formation 提供下列類型的藍圖:

  • 資料庫快照 – 從JDBC來源將資料從所有資料表載入或重新載入至資料湖。您可以根據排除模式從來源排除某些資料。

  • 增量資料庫 – 根據先前設定的書籤,僅從JDBC來源將新資料載入資料湖。您可以在JDBC來源資料庫中指定要包含的個別資料表。針對每個資料表,您可以選擇書籤欄和書籤排序順序,以追蹤先前載入的資料。第一次針對一組資料表執行增量資料庫藍圖時,工作流程會從資料表載入所有資料,並為下一個增量資料庫藍圖執行設定書籤。因此,您可以使用增量資料庫藍圖,而不是資料庫快照藍圖來載入所有資料,但前提是您將資料來源中的每個資料表指定為 參數。

  • 日誌檔案 – 從日誌檔案來源大量載入資料,包括 AWS CloudTrail、Elastic Load Balancing 日誌和 Application Load Balancer 日誌。

使用下表來協助決定要使用資料庫快照或增量資料庫藍圖。

使用資料庫快照時... 在下列情況下使用增量資料庫...
  • 結構描述演進具有彈性。(資料欄會重新命名、先前的資料欄會刪除,而且新的資料欄會加入其位置。)

  • 來源和目的地之間需要完全一致性。

  • 結構描述演變是增量的。(只有連續新增的資料欄。)

  • 只有新增的資料列;先前的資料列不會更新。

注意

使用者無法編輯 Lake Formation 建立的藍色列印和工作流程。