指定表的位置和分区级别 - AWS Glue

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

指定表的位置和分区级别

默认情况下,当爬网程序为存储在 Amazon S3 中的数据定义表时,爬网程序会尝试将架构合并到一起并创建顶级表 ()。year=2019在某些情况下,您可能希望爬网程序为文件夹 month=Jan 创建一个表,但由于同级文件夹(month=Mar)已合并到同一个表中,因此爬网程序会创建一个分区。

通过表级别爬网程序选项,您可以灵活地告诉爬网程序表的位置,以及您希望如何创建分区。当您指定 Table level (表级别) 时,则会从 Amazon S3 存储桶中以该绝对级别创建表。

将表级别指定为级别 2 的爬网程序分组。

当在控制台上配置爬网程序时,您可以为 Table level (表级别) 爬网程序选项指定一个值。该值必须是指示表位置(数据集中的绝对级别)的正整数。顶级文件夹的级别为 1。例如,对于路径 mydataset/year/month/day/hour,如果级别设置为 3,则在位置 mydataset/year/month 处创建表。

Console
在爬网程序配置中指定表级别。
API

使用配置爬网程序时API,请使用以下JSON对象的字符串表示形式设置该Configuration字段;例如:

configuration = jsonencode( { "Version": 1.0, "Grouping": { TableLevelConfiguration = 2 } })
CloudFormation

在此示例中,您在 CloudFormation 模板中设置了控制台中可用的 “表格级别” 选项:

"Configuration": "{ \"Version\":1.0, \"Grouping\":{\"TableLevelConfiguration\":2} }"