本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建立並執行 的 Amazon DataZone 資料來源 AWS Glue Data Catalog
在 Amazon DataZone 中,您可以建立 AWS Glue Data Catalog 資料來源,以便從中匯入資料庫資料表的技術中繼資料 AWS Glue。若要新增 的資料來源 AWS Glue Data Catalog,來源資料庫必須已存在於 中 AWS Glue。
當您建立和執行 AWS Glue 資料來源時,您可以將來源 AWS Glue 資料庫中的資產新增至 Amazon DataZone 專案的庫存。您可以依設定的排程或隨需執行 AWS Glue 資料來源,以建立或更新資產的技術中繼資料。在資料來源執行期間,您可以選擇將資產發佈至 Amazon DataZone 目錄,讓所有網域使用者都能探索它們。您也可以在編輯專案清查資產的業務中繼資料之後,發佈專案清查資產。網域使用者可以搜尋和探索已發佈的資產,並請求訂閱這些資產。
新增 AWS Glue 資料來源
-
導覽至 Amazon DataZone 資料入口網站 URL,並使用單一登入 (SSO) 或您的登入 AWS 資料登入。如果您是 Amazon DataZone 管理員,您可以前往 https://https://console.aws.amazon.com/datazone
的 Amazon DataZone 主控台,並使用建立網域 AWS 帳戶 的 登入,然後選擇開啟資料入口網站。 -
從頂端導覽窗格中選擇選取專案,然後選取您要新增資料來源的專案。
-
導覽至專案的資料索引標籤。
-
從左側導覽窗格中選擇資料來源,然後選擇建立資料來源。
-
設定下列欄位:
-
名稱 – 資料來源名稱。
-
描述 – 資料來源描述。
-
-
在資料來源類型下,選擇 AWS Glue。
-
在選取環境下,指定要在其中發佈 AWS Glue 資料表的環境。
-
在資料選擇下,提供 AWS Glue 資料庫並輸入您的資料表選擇條件。例如,如果您選擇包含並輸入
*corporate
,則資料庫將包含以字詞 結尾的所有來源資料表corporate
。您可以選擇 AWS Glue 資料庫表單下拉式清單或輸入資料庫名稱。下拉式清單包含兩個資料庫:發佈資料庫和環境的訂閱資料庫。如果您想要將資產從非由環境建立的資料庫中提取,則必須輸入資料庫的名稱,而不是從下拉式清單中選取資料庫名稱。
您可以為單一資料庫中的資料表新增多個包含和排除規則。您也可以使用新增另一個資料庫按鈕來新增多個資料庫。
-
在資料品質下,您可以選擇為此資料來源啟用資料品質。如果您這樣做,Amazon DataZone 會將現有的 AWS Glue 資料品質輸出匯入您的 Amazon DataZone 目錄。根據預設,Amazon DataZone 會從 Glue AWS 匯入最新的現有 100 份品質報告,而沒有過期日期。
Amazon DataZone 中的資料品質指標可協助您了解資料來源的完整性和準確性。Amazon DataZone 會從 AWS Glue 提取這些資料品質指標,以便在某個時間點提供內容,例如在商業資料目錄搜尋期間。資料使用者可查看其訂閱資產的資料品質指標如何隨時間變化。資料生產者可以按排程擷取 AWS Glue 資料品質分數。Amazon DataZone 商業資料目錄也可以透過資料品質 APIs 顯示第三方系統的資料品質指標。如需詳細資訊,請參閱 Amazon DataZone 中的資料品質
-
選擇 Next (下一步)。
-
針對發佈設定,選擇資產是否可以立即在業務資料目錄中探索。如果您只將它們新增至清查,您可以在稍後選擇訂閱條款,並將其發佈到商業資料目錄。
-
對於自動產生商業名稱,選擇是否要在從來源匯入資產時自動產生中繼資料。
-
(選用) 對於中繼資料表單,新增表單以定義在將資產匯入 Amazon DataZone 時收集和儲存的中繼資料。如需詳細資訊,請參閱在 Amazon DataZone 中建立中繼資料表單。
-
針對執行偏好設定,選擇何時執行資料來源。
-
依排程執行 – 指定執行資料來源的日期和時間。
-
隨需執行 – 您可以手動啟動資料來源執行。
-
-
選擇 Next (下一步)。
-
檢閱資料來源組態,然後選擇建立。
注意
建立 AWS Glue 資料來源時,Amazon DataZone 會為環境的 IAM 角色建立 Lake Formation 「唯讀」許可,用於建立資料來源,以存取資料來源中使用的 AWS Glue 資料庫中的所有資料表。您可以在環境詳細資訊頁面上的資料來源下監控這些授與的狀態。授予發佈環境 IAM 角色的存取權時, AWS Amazon DataZone 會將下列 AWS 標籤新增至 Glue 資料庫: DataZoneDiscoverable_${domainId}: true
對於目前發行 Amazon DataZone 之前建立的環境,專案成員將無法在 Amazon Athena 中看到授予的資料表。