本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
管理使用外部中繼存放區之資料集的許可
使用 AWS Glue Data Catalog 中繼資料聯合 (Data Catalog 聯合),您可以將 Data Catalog 連接至外部中繼存放 Amazon S3 資料的中繼資料,並使用 安全地管理資料存取許可 AWS Lake Formation。您不需要將中繼資料從外部中繼存放區遷移到 Data Catalog。
Data Catalog 提供集中式中繼資料儲存庫,讓跨不同系統管理和探索資料變得更輕鬆。當您的組織管理 Data Catalog 中的資料時,您可以使用 AWS Lake Formation 來控制對 Amazon S3 中資料集的存取。
注意
目前,我們僅支援 Apache Hive (第 3 版及更高版本) 中繼存放區聯合。
若要設定 Data Catalog 聯合,我們在 中提供名為 GlueDataCatalogFederation的HiveMetastore
在 上提供參考實作, GitHub 作為AWS Glue Data Catalog 聯合 - Hive Metastore
AWS SAM 應用程式會建立並部署下列必要資源,以將 Data Catalog 連線至 Hive 中繼存放區:
AWS Lambda 函數 – 託管聯合服務的實作,該服務的通訊會在 Data Catalog 與 Hive metastore 之間進行通訊。 AWS Glue 會叫用此 Lambda 函數,從 Hive 中繼存放區擷取中繼資料物件。
Amazon API Gateway – Hive 中繼存放區的連線端點,作為代理,將所有調用路由至 Lambda 函數。
IAM 角色 – 具有必要許可的角色,可在 Data Catalog 和 Hive 中繼存放區之間建立連線。
AWS Glue 連線 – 存放 Amazon API Gateway 端點和IAM角色以叫用端點的 AWS Glue 連線 Amazon API Gateway 類型。
當您查詢資料表時, AWS Glue 服務會呼叫 Hive 中繼存放區並擷取中繼資料。Lambda 函數充當 Hive 中繼存放區和資料目錄之間的譯者。
建立連線後,若要將 Hive 中繼存放區中的中繼資料與 Data Catalog 同步,您需要使用 Hive 中繼存放區連線詳細資訊在 Data Catalog 中建立聯合資料庫,並將此資料庫映射至 Hive 資料庫。當資料庫指向資料目錄外部的實體時,即稱為聯合資料庫。
您可以使用標籤型存取控制和聯合資料庫上的具名資源方法套用 Lake Formation 許可,並將其共用到多個 AWS 帳戶、 AWS Organizations和組織單位 (OUs)。您也可以直接與來自另一個帳戶的IAM主體共用聯合資料庫。
您可以使用外部 Hive 資料表上的 Lake Formation 資料篩選條件,在資料欄層級、資料列層級和儲存格層級定義精細許可。您可以使用 Amazon Athena 、Amazon Redshift 或 Amazon EMR來查詢 Lake Formation 受管外部 Hive 資料表。
如需跨帳戶資料共用和資料篩選的詳細資訊,請參閱:
Data Catalog 中繼資料聯合高階步驟
-
您可以建立具有適當許可IAM的使用者和角色,以部署 AWS SAM 應用程式和建立聯合資料庫。
-
您可以選擇使用外部 Hive 中繼存放區之資料集
Enable Data Catalog federation
的選項,向 Lake Formation 註冊 Amazon S3 資料位置。 您可以設定 AWS SAM 應用程式設定 (AWS Glue 連線名稱、URLHive 中繼存放區和 Lambda 函數參數) 並部署 AWS SAM 應用程式。
-
AWS SAM 應用程式會部署將外部 Hive 中繼存放區與 Data Catalog 連線所需的資源。
-
若要在 Hive 資料庫和資料表上套用 Lake Formation 許可,您可以使用 Hive 中繼存放區連線詳細資訊在 Data Catalog 中建立資料庫,並將此資料庫映射至 Hive 資料庫。
將聯合資料庫的許可授予您帳戶中的主體或其他帳戶中的主體。
注意
您可以將 Data Catalog 連線到外部 Hive mestastore、建立聯合資料庫,以及在 Hive 資料庫和資料表上執行查詢和ETL指令碼,而無需套用 Lake Formation 許可。對於未向 Lake Formation 註冊的 Amazon S3 中的來源資料,存取權取決於 Amazon S3 和 AWS Glue 動作的IAM許可政策。
如需限制的詳細資訊,請參閱Hive 中繼資料存放區資料共用的考量和限制。
工作流程
下圖顯示將 AWS Glue Data Catalog 連接至外部 Hive 中繼存放區的工作流程。

-
委託人使用整合服務提交查詢,例如 Athena 或 Redshift Spectrum。
整合服務會呼叫中繼資料的資料目錄,進而呼叫 後方可用的 Hive 中繼存放區端點 Amazon API Gateway,並接收中繼資料請求的回應。
-
整合服務會將請求傳送至 Lake Formation,以驗證資料表資訊和憑證來存取資料表。
-
Lake Formation 會授權請求,並將臨時憑證轉譯至整合式應用程式,以允許資料存取。
使用從 Lake Formation 收到的臨時憑證,整合服務會從 Amazon S3 讀取資料,並將結果分享給委託人。