本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
您可以在 AWS Glue Data Catalog (資料目錄) 中管理 Amazon Redshift 資料倉儲中的分析資料,並統一 Amazon S3 資料湖和 Amazon Redshift 資料倉儲。Amazon Redshift 是 AWS 雲端中全受管的 PB 級資料倉儲服務。Amazon Redshift 資料倉儲是稱為節點的運算資源的集合,組織成稱為叢集的群組。每個叢集皆執行 Amazon Redshift 引擎並包含一或多個資料庫。
在 Amazon Redshift 中,您可以建立 Amazon Redshift 佈建叢集和無伺服器命名空間,並將其註冊至 Data Catalog。如此一來,您就可以統一 Amazon Redshift 受管儲存體 (RMS) 和 Amazon S3 儲存貯體中的資料,並從 Apache Iceberg 相容分析引擎存取資料。
透過註冊命名空間和叢集,您可以提供對資料的存取,而不需要複製或移動資料。如需在 Amazon Redshift 中註冊叢集和命名空間的詳細資訊,請參閱將 Amazon Redshift 叢集和命名空間註冊至 AWS Glue Data Catalog。
在 Amazon Redshift 中,您可以透過資料共用或向 Data Catalog 註冊命名空間和叢集來執行資料共用。使用在個別資料庫物件層級運作的資料共用,您必須為每個資料表或檢視啟用共用。相反地,命名空間會在叢集或命名空間層級發佈函數。當您向 Data Catalog 註冊叢集或命名空間時,其中的所有資料庫和資料表都會自動共用,而不必設定個別物件的共用。
在 Data Catalog 中,您可以為每個命名空間或叢集建立聯合目錄。當目錄指向 Data Catalog 外部的實體時,即稱為聯合目錄。Amazon Redshift 命名空間中的資料表和檢視會列為 Data Catalog 中的個別資料表。您可以在聯合型目錄中與相同帳戶內或另一個 Lake Formation 帳戶中的選定 IAM 主體和 SAML 使用者共用資料庫和資料表。您也可以包含資料列和資料欄篩選條件表達式,以限制對特定資料的存取。如需詳細資訊,請參閱Lake Formation 中的資料篩選和儲存格層級安全性。
Data Catalog 支援包含目錄、資料庫和資料表 (和檢視) 的三層中繼資料階層。當您向 Data Catalog 註冊命名空間時,Amazon Redshift 資料階層會對應至 Data Catalog 的 3 層階層,如下所示:
-
Amazon Redshift 命名空間會成為 Data Catalog 中的多層級目錄。
相關聯的 Amazon Redshift 資料庫會在 Data Catalog 中註冊為目錄。
-
Amazon Redshift 結構描述會成為 Data Catalog 中的資料庫。
-
Amazon Redshift 資料表會成為 Data Catalog 中的資料表。

透過此三層中繼資料階層,您可以使用 Data Catalog 中的 3 部分表示法 - "catalog1/catalog2.database.table" 來存取 Amazon Redshift 資料表。此外,資料團隊可以維護 Amazon Redshift 用來組織 Data Catalog 帳戶中資料表的相同組織。
在 Lake Formation 中,您可以使用 Data Catalog 資源的精細存取控制,安全地管理來自 Amazon Redshift 的資料。透過此整合,您可以使用常見的存取控制機制,管理、保護和查詢來自單一目錄的分析資料。
如需限制的詳細資訊,請參閱將 Amazon Redshift 資料倉儲資料帶入 的限制 AWS Glue Data Catalog。
主題
主要優點
使用 註冊 Amazon Redshift 叢集和命名空間, AWS Glue Data Catalog 並在 Amazon S3 資料湖和 Amazon Redshift 資料倉儲中統一資料,可提供下列優點:
統一的查詢體驗 – 使用與 Apache Iceberg 相容的任何查詢引擎來查詢 Amazon Redshift 受管資料和 Amazon S3 儲存貯體中的資料,例如 Amazon EMR Serverless 和 Amazon Athena,而無需移動或複製資料。
-
跨服務一致的資料存取 – 從不同的 AWS 分析服務存取相同的聯合資料來源時,您不需要更新資料管道中的資料庫和資料表名稱,因為資料來源已在 Data Catalog 中註冊。
精細存取控制 – 您可以使用精細存取控制許可,套用 Lake Formation 許可來管理對聯合資料來源的存取。
角色和責任
Role | 責任 |
Amazon Redshift 生產者叢集管理員 |
向 Data Catalog 註冊叢集或命名空間。 |
Lake Formation 資料湖管理員 |
接受叢集或命名空間邀請、建立聯合型目錄,並將聯合型目錄的存取權授予其他主體。 |
Lake Formation 唯讀管理員 | 探索聯合型目錄,查詢聯合型目錄中的 Amazon Redshift 資料表。 |
資料傳輸角色 |
Amazon Redshift 會代表您在 Amazon S3 儲存貯體之間傳輸資料。 |
以下是提供使用者存取 Amazon Redshift 命名空間的高階步驟:
-
在 Amazon Redshift 中,生產者叢集管理員向 Data Catalog 註冊叢集或命名空間。
-
資料湖管理員接受來自 Amazon Redshift 生產者叢集管理員的命名空間邀請,並在 Data Catalog 中建立聯合目錄。
完成此步驟後,您可以在 Data Catalog 中管理 Amazon Redshift 命名空間目錄。
-
將許可授予目錄、資料庫和資料表上的使用者。您可以與相同帳戶或其他帳戶中的使用者共用整個命名空間目錄或資料表子集。