使用 AWS Glue Data Catalog 连接数据
Athena 使用 AWS Glue Data Catalog 存储元数据,如存储在 Amazon S3 中的数据的表名和列名。此元数据信息将成为您在 Athena 查询编辑器中看到的数据库、表和视图。
在将 Athena 与 AWS Glue Data Catalog 配合使用时,可使用 AWS Glue 创建要在 Athena 中查询的数据库和表(架构),也可以使用 Athena 创建架构,然后将其用于 AWS Glue 和相关服务。
要为 AWS Glue 定义架构信息,可以使用 Athena 控制台中的表单、使用 Athena 中的查询编辑器或在 AWS Glue 控制台中创建 AWS Glue 爬网程序。AWS Glue 爬网程序会自动从 Amazon S3 中的数据推断数据库和表架构。使用表单可提供更多自定义。编写自己的 CREATE TABLE
语句需要更多努力,但提供了最大控制权。有关更多信息,请参阅 CREATE TABLE。
其他资源
-
有关 AWS Glue Data Catalog 的更多信息,请参阅《AWS Glue 开发人员指南》中的 AWS Glue 中的数据目录和爬网程序。
-
有关展示如何使用 AWS Glue 和 Athena 处理 XML 数据的说明性文章,请参阅 AWS 大数据博客中的 Process and analyze highly nested and large XML files using AWS Glue and Amazon Athena
。 -
需单独支付 AWS Glue 的费用。有关更多信息,请参阅AWS Glue 定价
。