本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Lake Formation 中的藍圖和工作流程
工作流程封裝複雜的多工作業擷取、轉換和載入 (ETL) 活動。工作流程會產生 AWS Glue 爬蟲程式、任務和觸發程序,以協調資料的載入和更新。Lake Formation 會以單一實體的方式執行和追蹤工作流程。您可以設定工作流程以隨需或排程執行。
您在 Lake Formation 中建立的工作流程可見於 AWS Glue 主控台作為定向非循環圖形 (DAG)。每個DAG節點都是任務、爬蟲程式或觸發程序。若要監控進度和疑難排解,您可以追蹤工作流程中每個節點的狀態。
當 Lake Formation 工作流程完成時,執行工作流程的使用者會在工作流程建立的資料目錄資料表上獲得 Lake Formation SELECT
許可。
您也可以在 中建立工作流程 AWS Glue。 但是,由於 Lake Formation 可讓您從藍圖建立工作流程,因此在 Lake Formation 中建立工作流程會更簡單且自動化。Lake Formation 提供下列類型的藍圖:
-
資料庫快照 – 從JDBC來源將資料從所有資料表載入或重新載入至資料湖。您可以根據排除模式從來源排除某些資料。
-
增量資料庫 – 根據先前設定的書籤,僅從JDBC來源將新資料載入資料湖。您可以在JDBC來源資料庫中指定要包含的個別資料表。針對每個資料表,您可以選擇書籤欄和書籤排序順序,以追蹤先前載入的資料。第一次針對一組資料表執行增量資料庫藍圖時,工作流程會從資料表載入所有資料,並為下一個增量資料庫藍圖執行設定書籤。因此,您可以使用增量資料庫藍圖,而不是資料庫快照藍圖來載入所有資料,但前提是您將資料來源中的每個資料表指定為 參數。
-
日誌檔案 – 從日誌檔案來源大量載入資料,包括 AWS CloudTrail、Elastic Load Balancing 日誌和 Application Load Balancer 日誌。
使用下表來協助決定要使用資料庫快照或增量資料庫藍圖。
使用資料庫快照時... | 在下列情況下使用增量資料庫... |
---|---|
|
|
注意
使用者無法編輯 Lake Formation 建立的藍色列印和工作流程。