与其他 AWS 服务集成 - AWS Glue

与其他 AWS 服务集成

虽然您可以使用 AWS Glue 爬网程序 来填充 AWS Glue Data Catalog,但有几种 AWS 服务可以自动与目录集成并为您填充目录。以下各节提供了有关可填充 Data Catalog 的特定用例(由 AWS 服务提供支持)的更多信息。

AWS Lake Formation

AWS Lake Formation 是一项服务,让用户能够在 AWS 中更轻松地设置安全数据湖。Lake Formation 建立在 AWS Glue 之上,而 Lake Formation 与 AWS Glue 共享相同的 AWS Glue Data Catalog。您可以在 Lake Formation 中注册您的 Amazon S3 数据位置,然后使用 Lake Formation 控制台在 AWS Glue Data Catalog 中创建数据库和表、定义数据访问策略,并从一个中央位置审核数据湖中的数据访问。您可以使用 Lake Formation 细粒度访问控制来管理现有的数据目录资源和 Amazon S3 数据位置。

凭借在 Lake Formation 中注册的数据,您可以在 IAM 主体、AWS 账户、AWS 组织和组织单位之间安全地共享 Data Catalog 资源。

有关使用 Lake Formation 创建 Data Catalog 资源的更多信息,请参阅《AWS Lake Formation Developer Guide》中的 Creating Data Catalog tables and databases

Amazon Athena

Amazon Athena 使用 Data Catalog 在 AWS 账户中存储和检索 Amazon S3 数据的表元数据。通过表元数据,Athena 查询引擎可以了解如何查找、读取和处理您要查询的数据。

您可以直接使用 Athena CREATE TABLE 语句填充 AWS Glue Data Catalog。无需运行爬网程序即可在 Data Catalog 中手动定义和填充架构和分区元数据。

  1. 在 Athena 控制台中创建一个数据库,将表元数据存储在 Data Catalog 中。

  2. 使用 CREATE EXTERNAL TABLE 语句定义数据来源的架构。

  3. 使用 PARTITIONED BY 子句定义任何分区键(前提是您的数据已分区)。

  4. 使用 LOCATION 子句指定存储实际数据文件的 Amazon S3 路径。

  5. 运行 CREATE TABLE 语句。

    此查询根据您定义的架构和分区在 Data Catalog 中创建表元数据,而无需实际爬取数据。

您可以在 Athena 中查询表,该表将使用 Data Catalog 中的元数据来访问和查询 Amazon S3 中的数据文件。

有关更多信息,请参阅《Amazon Athena 用户指南》中的创建数据库和表