使用爬网程序添加表

聚焦模式

使用爬网程序添加表 - Amazon Athena

AWS Glue 爬网程序可帮助发现数据集的架构，并在 AWS Glue Data Catalog 中将其注册为表。爬网程序会遍历您的数据并确定架构。此外，爬网程序还可以检测并注册分区。有关更多信息，请参阅《AWS Glue 开发人员指南》中的定义爬网程序。可以从 Athena 查询成功抓取的数据中的表。

注意

Athena 不承认您为 AWS Glue 爬网程序指定的排除模式。例如，如果您有一个 Amazon S3 存储桶，其中包含 .csv 和 .json 文件，并且您从爬网程序中排除了 .json 文件时，Athena 会查询两组文件。要避免这种情况，请将要排除的文件放置在其他位置。

创建 AWS Glue 爬网程序

您可以通过在 Athena 控制台中启动，然后以集成方式使用 AWS Glue 控制台来创建爬网程序。创建爬网程序时，您可以在 Amazon S3 中指定要爬取的数据位置。

在 AWS Glue 中从 Athena 控制台开始创建爬网程序

从 https://console.aws.amazon.com/athena/ 打开 Athena 控制台。
在查询编辑器中，选择 Tables and views（表和视图）旁的 Create（创建），然后选择 AWS Glue crawler（爬网程序）。
在 AWS Glue 控制台的 Add crawler (添加爬网程序) 页面上，按照步骤创建爬网程序。有关更多信息，请参阅本指南中的使用 AWS Glue 爬网程序和《AWS Glue 开发人员指南》中的填充 AWS Glue Data Catalog。

注意

在爬取之后，AWS Glue 爬网程序会自动分配某些表元数据，以帮助它与其他外部技术（如 Apache Hive、Presto 和 Spark）兼容。有时，爬网程序可能会错误地分配元数据属性。在使用 Athena 查询表之前，手动更正 AWS Glue 中的属性。有关更多信息，请参阅《AWS Glue 开发人员指南》中的查看和编辑表详细信息。

当 CSV 文件将每个数据字段都用引号引起来，使 serializationLib 属性错误时，AWS Glue 可能会错误分配元数据。有关更多信息，请参阅处理引号中包含的 CSV 数据。