本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建立工作流程
開始之前,請確定您已將必要的資料權限和資料位置權限授與角色LakeFormationWorkflowRole
。這樣,工作流程就可以在資料目錄中建立中繼資料表,並將資料寫入 Amazon S3 中的目標位置。如需詳細資訊,請參閱 (選擇性) 為工作流程建立 IAM 角色 及 Lake Formation 許可權概述 。
注意
Lake Formation 使用GetTemplateInstance
GetTemplateInstances
、和InstantiateTemplate
作業從藍圖建立工作流程。這些操作不可公開使用,並且僅在內部用於代表您創建資源。您會收到建立工作流程的 CloudTrail 事件。
若要從藍圖建立工作流程
-
開啟主 AWS Lake Formation 控台,網址為 https://console.aws.amazon.com/lakeformation/
。以資料湖管理員或具有資料工程師權限的使用者身分登入。如需詳細資訊,請參閱 Lake Formation 角色和 IAM 許可參考。 -
在導覽窗格中,選擇 [藍圖],然後選擇 [使用藍圖]。
-
在 [使用藍圖] 頁面上,選擇動態磚以選取藍圖類型。
-
在「匯入來源」下,指定資料來源。
如果您是從 JDBC 來源匯入,請指定下列項目:
-
資料庫連線 — 從清單中選擇連線。使用AWS Glue主控台建立其他連線。連線中的 JDBC 使用者名稱和密碼可決定工作流程可存取的資料庫物件。
-
來源資料路徑 — <database><schema><table><database><table>根據資料庫產品
,輸入
//或/。Oracle 資料庫和 MySQL 不支援路徑中的結構描述。您可以用百分比 (%) 字元取代
<schema>
或<table>
。例如,對於具有系統 ID (SID) 的 Oracle 資料庫orcl
,請輸入orcl/%
以匯入連線中指名的使用者可存取的所有表格。重要
此欄位區分大小寫。如果有任何元件的大小寫不相符,工作流程將會失敗。
如果您指定了一個 MySQL 數據庫, AWS Glue ETL 默認情況下使用 Mysql5 JDBC 驅動程序,因此本地不支持 MySQL8。您可以編輯 ETL 工作命令檔,使用
customJdbcDriverS3Path
參數,如AWS Glue 開發人員指南中的 JDBC connectionType 值中所述,以使用支援 MySQL8 的不同 JDBC 驅動程式。
如果您要從記錄檔匯入,請確定您為工作流程指定的角色 (「工作流程角色」) 具有存取資料來源所需的 IAM 許可。例如,若要匯入 AWS CloudTrail 日誌,使用者必須具有
cloudtrail:DescribeTrails
和cloudtrail:LookupEvents
許可,才能在建立工作流程時查看 CloudTrail 日誌清單,而且工作流程角色必須具有 Amazon S3 中該 CloudTrail 位置的許可。 -
-
執行以下任意一項:
-
對於資料庫快照藍圖類型,選擇性地指定一或多個排除模式來識別要匯入的資料子集。這些排除模式是 Unix 風格
glob
的模式。它們會儲存為工作流程所建立之表格的屬性。如需可用排除模式的詳細資訊,請參閱AWS Glue 開發人員指南中的包含和排除模式。
-
對於增量資料庫藍圖類型,指定下列欄位。為要匯入的每個表格新增一列。
- 資料表名稱
-
要匯入的表格。必須全部為小寫。
- 書籤鍵
-
以逗號分隔的定義書籤索引鍵的欄名稱清單。如果為空白,則使用主鍵來確定新的數據。每個欄的大小寫必須符合資料來源中定義的大小寫。
注意
只有在順序增加或減少(沒有間隙)時,主鍵才有資格作為默認書籤鍵。如果您想要使用主索引鍵作為書籤索引鍵,且它有間隙,您必須將主索引鍵資料行命名為書籤索引鍵。
- 書籤順序
-
當您選擇「升序」時,值大於書籤值的列會被識別為新列。當您選擇「遞減」時,值小於書籤值的列會識別為新列。
- 分割結構
-
(選擇性) 以斜線 (/) 分隔的分割索引鍵資料欄清單。例如:
year/month/day
.
如需詳細資訊,請參閱AWS Glue 開發人員指南中的使用 Job 書籤追蹤已處理的資料。
-
-
在「匯入目標」下,指定目標資料庫、目標 Amazon S3 位置和資料格式。
確保工作流程角色在資料庫和 Amazon S3 目標位置具有必要的 Lake Formation 許可。
注意
目前,藍圖不支援在目標處加密資料。
-
選擇匯入頻率。
您可以使用「自訂」選項指定
cron
表示式。 -
在匯入選項之下:
-
輸入工作流程名稱。
-
對於角色,請選擇您在中建立的角
LakeFormationWorkflowRole
色(選擇性) 為工作流程建立 IAM 角色。 -
(可選) 指定資料表字首。字首會附加在工作流程建立的「資料目錄」表格名稱之前。
-
-
選擇 [建立],然後等待主控台回報工作流程已成功建立。
提示
您是否收到下列錯誤訊息?
User: arn:aws:iam::
<account-id>
:user/<username>
is not authorized to perform: iam:PassRole on resource:arn:aws:iam::<account-id>
:role/<rolename>
...如果是這樣,請檢查您是否已<account-id>在所有策略中
使用有效的 AWS 帳號替換。