AWS Glue Data Catalog - AWS 規定指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS Glue Data Catalog

AWS Glue Data Catalog這是一個集中的中繼資料儲存庫,適用於跨各種資料來源的所有資料資產。它提供了一個統一的界面來存儲和查詢有關數據格式,模式和源的信息。執行 AWS Glue ETL 工作時,它會使用此目錄來瞭解資料的相關資訊,並確保資料已正確轉換。

AWS Glue Data Catalog由下列元件組成:

  • 資料庫和資料表

  • 爬蟲程式和分類器

  • 連線

  • 結構描述登錄檔

AWS Glue 資料庫和資料表

會組織AWS Glue Data Catalog資料庫和資料表,以提供儲存和管理中繼資料的邏輯結構。此結構透過使用 AWS Identity and Access Management (IAM) 政策,在資料表或資料庫層級支援精確的資料存取控制。

一個 AWS Glue 數據庫可以包含許多表,並且每個表必須與單個數據庫相關聯。這些表包含對實際數據,其可以存儲在任何 AWS Glue 支持的各種數據源的引用。 AWS Glue 資料表也會儲存必要的中繼資料,例如資料行名稱、資料類型和分割區索引鍵。

在中建立資料表有幾種不同的方法 AWS Glue:

  • AWS Glue 爬行者

  • AWS Glue 教育工作

  • AWS Glue 控制台

  • CreateTableAWS Glue API 中的作業

  • AWS CloudFormation 範本

  • AWS Cloud Development Kit (AWS CDK)

  • 一個遷移的阿帕奇蜂巢元存儲

AWS Glue 爬蟲和分類器

AWS Glue 爬蟲程式會自動從資料存放區中探索和擷取中繼資料,然後相應地更新中繼資料。 AWS Glue Data Catalog 爬行者程式會連線至資料倉庫,以推斷資料的結構描述。然後,它會使用發現的資料架構資訊在「資料目錄」中建立或更新表格。爬蟲程式可以抓取以資料為基礎和以表格為基礎的資料存放區。若要深入瞭解支援的資料存放區,請參閱我可以編目哪些資料存放區?

爬行者程式會使用分類器來準確辨識資料的格式,並決定應如何處理資料。根據預設,爬行者程式會使用一組由提供的一般內建分類器 AWS Glue,但您也可以撰寫自訂分類器來處理特定的使用案例。

AWS Glue 連接

您可以使用 AWS Glue 連線來定義連線參數,以 AWS Glue 便連線到各種資料來源。新增連線可集中並簡化連線至這些來源所需的組態。

定義連線時,您可以指定連線類型、連線端點以及任何必要的認證。定義連線之後,多個 AWS Glue 工作和爬行者程式就可以重複使用該連線。使用連線 AWS Glue 可減少重複輸入相同連線資訊的需求,例如登入認證或虛擬私人雲端 (VPC) ID。

AWS Glue 模式登錄

AWS Glue 構描述登錄提供管理和強制執行資料串流結構描述的集中位置。它使不同的系統(例如數據生產者和消費者)能夠共享序列化和反序列化的結構描述。共用結構描述可協助這些系統有效通訊,並避免在轉換期間發生錯誤。

結構描述登錄可確保下游資料取用者可以處理上游所做的變更,因為他們知道預期的結構描述。它支援結構描述演進,因此結構描述可以隨時間變更,同時保持與舊版結構描述的相容性。

結構描述登錄檔與許多 AWS 服務整合,包括 Amazon Kinesis Data Streams、Firehose 和適用於 Apache Kafka 的 Amazon 受管串流。如需使用案例和整合的範例,請參閱與 AWS Glue 結構描述登錄整合