本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
中的資料探索和目錄編製 AWS Glue
AWS Glue Data Catalog 是集中式儲存庫,可存放組織資料集的相關中繼資料。它可做為資料來源的位置、結構描述和執行時間指標的索引。中繼資料存放在中繼資料資料表中,其中每個資料表代表單一資料存放區。
您可以使用爬蟲程式填入 Data Catalog,該爬蟲程式會自動掃描資料來源並擷取中繼資料。爬蟲程式可以連線到內部 (AWS型) 和外部的資料來源 AWS。
如需支援資料來源的詳細資訊,請參閱 用於爬取的支援資料來源
您也可以根據特定需求定義資料表結構、結構描述和分割結構,在 Data Catalog 中手動建立資料表。
如需手動建立中繼資料資料表的詳細資訊,請參閱手動定義中繼資料。
您可以使用 Data Catalog 中的資訊來建立和監控 ETL 任務。Data Catalog 與其他 AWS 分析服務整合,提供資料來源的統一檢視,讓您更輕鬆地管理和分析資料。
-
Amazon Athena – 使用 SQL 將資料表中繼資料儲存在 Amazon S3 資料的 Data Catalog 中。
-
AWS Lake Formation – 集中定義和管理精細的資料存取政策和稽核資料存取。
-
Amazon EMR – 存取 Data Catalog 中定義的資料來源,以進行大數據處理。
-
Amazon SageMaker AI – 快速且自信地建置、訓練和部署機器學習模型。
Data Catalog 的主要功能
以下是 Data Catalog 的關鍵層面。
- 中繼資料儲存庫
-
Data Catalog 可做為中央中繼資料儲存庫,存放資料來源的位置、結構描述和屬性的相關資訊。此中繼資料會組織成資料庫和資料表,類似於傳統的關聯式資料庫目錄。
- 自動資料探索能力
-
AWS Glue 編目程式可以自動探索和編目新的或更新的資料來源,減少手動中繼資料管理的負荷,並確保 Data Catalog up-to-date狀態。透過為您的資料來源編製目錄,Data Catalog 可讓使用者和應用程式更輕鬆地探索和了解組織中可用的資料資產,進而促進資料重複使用和協作。
Data Catalog 支援各種資料來源,包括 Amazon S3、Amazon RDS、Amazon Redshift、Apache Hive 等。它可以使用 AWS Glue 編目程式自動推斷和存放來自這些來源的中繼資料。
如需詳細資訊,請參閱 使用爬蟲程式填入 Data Catalog 。
- 結構描述管理
-
Data Catalog 會自動擷取和管理資料來源的結構描述,包括結構描述推論、演變和版本控制。您可以使用 AWS Glue ETL 任務在 Data Catalog 中更新結構描述和分割區。
- 資料表最佳化
-
為了讓 Amazon Athena 和 Amazon EMR 等 AWS 分析服務以及 AWS Glue ETL 任務有更好的讀取效能,Data Catalog 為 Data Catalog 中的 Iceberg 資料表提供受管壓縮 (將小型 Amazon S3 物件壓縮為較大物件的程序)。您可以使用 AWS Glue 主控台、 AWS Lake Formation 主控台或 AWS API AWS CLI來啟用或停用 Data Catalog 中個別 Iceberg 資料表的壓縮。
如需詳細資訊,請參閱最佳化處理 Iceberg 資料表。
- 資料欄統計資料
-
您可以計算資料目錄資料表的資料欄層級統計資料,其格式包括 Parquet、ORC、JSON、ION、CSV 和 XML,而無需設定其他資料管道。資料欄統計資料可協助您透過深入了解資料欄內的值,了解資料設定檔。Data Catalog 支援產生資料欄值的統計資料,例如最小值、最大值、 null 值總計、相異值總計、值平均長度和真值總計出現次數。
如需詳細資訊,請參閱使用資料欄統計資料最佳化查詢效能。
- 資料譜系
-
Data Catalog 會維護對資料執行的轉換和操作記錄,並提供資料譜系資訊。此譜系資訊對於稽核、合規和了解資料的來源非常有用。
- 與其他 AWS 服務的整合
-
Data Catalog 與其他 AWS 服務無縫整合 AWS Lake Formation,例如 Amazon Athena、Amazon Redshift Spectrum 和 Amazon EMR。此整合可讓您使用單一、一致的中繼資料層查詢和分析各種資料存放區的資料。
- 安全性和存取控制
-
AWS Glue 與 整合 AWS Lake Formation 以支援 Data Catalog 資源的精細存取控制,可讓您根據組織的政策和需求管理許可和安全存取資料資產。 與 AWS Key Management Service (AWS KMS) AWS Glue 整合,以加密存放在 Data Catalog 中的中繼資料。