选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

使用爬网程序添加表

聚焦模式
使用爬网程序添加表 - Amazon Athena

AWS Glue 爬网程序可帮助发现数据集的架构,并在 AWS Glue Data Catalog 中将其注册为表。爬网程序会遍历您的数据并确定架构。此外,爬网程序还可以检测并注册分区。有关更多信息,请参阅《AWS Glue 开发人员指南》中的定义爬网程序。可以从 Athena 查询成功抓取的数据中的表。

注意

Athena 不承认您为 AWS Glue 爬网程序指定的排除模式。例如,如果您有一个 Amazon S3 存储桶,其中包含 .csv.json 文件,并且您从爬网程序中排除了 .json 文件时,Athena 会查询两组文件。要避免这种情况,请将要排除的文件放置在其他位置。

创建 AWS Glue 爬网程序

您可以通过在 Athena 控制台中启动,然后以集成方式使用 AWS Glue 控制台来创建爬网程序。创建爬网程序时,您可以在 Amazon S3 中指定要爬取的数据位置。

在 AWS Glue 中从 Athena 控制台开始创建爬网程序
  1. https://console.aws.amazon.com/athena/ 打开 Athena 控制台。

  2. 在查询编辑器中,选择 Tables and views(表和视图)旁的 Create(创建),然后选择 AWS Glue crawler(爬网程序)。

  3. AWS Glue 控制台的 Add crawler (添加爬网程序) 页面上,按照步骤创建爬网程序。有关更多信息,请参阅本指南中的使用 AWS Glue 爬网程序和《AWS Glue 开发人员指南》中的填充 AWS Glue Data Catalog

注意

Athena 不承认您为 AWS Glue 爬网程序指定的排除模式。例如,如果您有一个 Amazon S3 存储桶,其中包含 .csv.json 文件,并且您从爬网程序中排除了 .json 文件时,Athena 会查询两组文件。要避免这种情况,请将要排除的文件放置在其他位置。

在爬取之后,AWS Glue 爬网程序会自动分配某些表元数据,以帮助它与其他外部技术(如 Apache Hive、Presto 和 Spark)兼容。有时,爬网程序可能会错误地分配元数据属性。在使用 Athena 查询表之前,手动更正 AWS Glue 中的属性。有关更多信息,请参阅《AWS Glue 开发人员指南》中的查看和编辑表详细信息

当 CSV 文件将每个数据字段都用引号引起来,使 serializationLib 属性错误时,AWS Glue 可能会错误分配元数据。有关更多信息,请参阅 处理引号中包含的 CSV 数据

本页内容

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。