AWS Glue 資料庫和資料表 AWS Glue 爬蟲和分類器 AWS Glue 連接 AWS Glue 模式登錄

AWS Glue Data Catalog

AWS Glue Data Catalog這是一個集中的中繼資料儲存庫，適用於跨各種資料來源的所有資料資產。它提供了一個統一的界面來存儲和查詢有關數據格式，模式和源的信息。執行 AWS Glue ETL 工作時，它會使用此目錄來瞭解資料的相關資訊，並確保資料已正確轉換。

AWS Glue Data Catalog由下列元件組成：

資料庫和資料表
爬蟲程式和分類器
連線
結構描述登錄檔

AWS Glue 資料庫和資料表

會組織AWS Glue Data Catalog成資料庫和資料表，以提供儲存和管理中繼資料的邏輯結構。此結構透過使用 AWS Identity and Access Management (IAM) 政策，在資料表或資料庫層級支援精確的資料存取控制。

一個 AWS Glue 數據庫可以包含許多表，並且每個表必須與單個數據庫相關聯。這些表包含對實際數據，其可以存儲在任何 AWS Glue 支持的各種數據源的引用。 AWS Glue 資料表也會儲存必要的中繼資料，例如資料行名稱、資料類型和分割區索引鍵。

在中建立資料表有幾種不同的方法 AWS Glue：

AWS Glue 爬行者
AWS Glue 教育工作
AWS Glue 控制台
CreateTableAWS Glue API 中的作業
AWS CloudFormation 範本
AWS Cloud Development Kit (AWS CDK)
一個遷移的阿帕奇蜂巢元存儲

AWS Glue 爬蟲和分類器

AWS Glue 爬蟲程式會自動從資料存放區中探索和擷取中繼資料，然後相應地更新中繼資料。 AWS Glue Data Catalog 爬行者程式會連線至資料倉庫，以推斷資料的結構描述。然後，它會使用發現的資料架構資訊在「資料目錄」中建立或更新表格。爬蟲程式可以抓取以資料為基礎和以表格為基礎的資料存放區。若要深入瞭解支援的資料存放區，請參閱我可以編目哪些資料存放區？

爬行者程式會使用分類器來準確辨識資料的格式，並決定應如何處理資料。根據預設，爬行者程式會使用一組由提供的一般內建分類器 AWS Glue，但您也可以撰寫自訂分類器來處理特定的使用案例。

AWS Glue 連接

您可以使用 AWS Glue 連線來定義連線參數，以 AWS Glue 便連線到各種資料來源。新增連線可集中並簡化連線至這些來源所需的組態。

定義連線時，您可以指定連線類型、連線端點以及任何必要的認證。定義連線之後，多個 AWS Glue 工作和爬行者程式就可以重複使用該連線。使用連線 AWS Glue 可減少重複輸入相同連線資訊的需求，例如登入認證或虛擬私人雲端 (VPC) ID。

AWS Glue 模式登錄

結AWS Glue 構描述登錄提供管理和強制執行資料串流結構描述的集中位置。它使不同的系統（例如數據生產者和消費者）能夠共享序列化和反序列化的結構描述。共用結構描述可協助這些系統有效通訊，並避免在轉換期間發生錯誤。

結構描述登錄可確保下游資料取用者可以處理上游所做的變更，因為他們知道預期的結構描述。它支援結構描述演進，因此結構描述可以隨時間變更，同時保持與舊版結構描述的相容性。

結構描述登錄檔與許多 AWS 服務整合，包括 Amazon Kinesis Data Streams、Firehose 和適用於 Apache Kafka 的 Amazon 受管串流。如需使用案例和整合的範例，請參閱與 AWS Glue 結構描述登錄整合。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

AWS Glue ETL

功能和概念