使用爬网程序添加表 - Amazon Athena

使用爬网程序添加表

AWS Glue 爬网程序可帮助发现数据集的架构,并在 AWS Glue Data Catalog 中将其注册为表。爬网程序会遍历您的数据并确定架构。此外,爬网程序还可以检测并注册分区。有关更多信息,请参阅《AWS Glue 开发人员指南》中的定义爬网程序。可以从 Athena 查询成功抓取的数据中的表。

注意

Athena 不承认您为 AWS Glue 爬网程序指定的排除模式。例如,如果您有一个 Amazon S3 存储桶,其中包含 .csv.json 文件,并且您从爬网程序中排除了 .json 文件时,Athena 会查询两组文件。要避免这种情况,请将要排除的文件放置在其他位置。

创建 AWS Glue 爬网程序

您可以通过在 Athena 控制台中启动,然后以集成方式使用 AWS Glue 控制台来创建爬网程序。创建爬网程序时,您可以在 Amazon S3 中指定要爬取的数据位置。

在 AWS Glue 中从 Athena 控制台开始创建爬网程序
  1. https://console.aws.amazon.com/athena/ 打开 Athena 控制台。

  2. 在查询编辑器中,选择 Tables and views(表和视图)旁的 Create(创建),然后选择 AWS Glue crawler(爬网程序)。

  3. AWS Glue 控制台的 Add crawler (添加爬网程序) 页面上,按照步骤创建爬网程序。有关更多信息,请参阅本指南中的使用 AWS Glue 爬网程序和《AWS Glue 开发人员指南》中的填充 AWS Glue Data Catalog

注意

Athena 不承认您为 AWS Glue 爬网程序指定的排除模式。例如,如果您有一个 Amazon S3 存储桶,其中包含 .csv.json 文件,并且您从爬网程序中排除了 .json 文件时,Athena 会查询两组文件。要避免这种情况,请将要排除的文件放置在其他位置。

在爬取之后,AWS Glue 爬网程序会自动分配某些表元数据,以帮助它与其他外部技术(如 Apache Hive、Presto 和 Spark)兼容。有时,爬网程序可能会错误地分配元数据属性。在使用 Athena 查询表之前,手动更正 AWS Glue 中的属性。有关更多信息,请参阅《AWS Glue 开发人员指南》中的查看和编辑表详细信息

当 CSV 文件将每个数据字段都用引号引起来,使 serializationLib 属性错误时,AWS Glue 可能会错误分配元数据。有关更多信息,请参阅 处理引号中包含的 CSV 数据