本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
指定表的位置和分区级别
默认情况下,当爬网程序为存储在 Amazon S3 中的数据定义表时,爬网程序会尝试将架构合并到一起并创建顶级表 ()。year=2019
在某些情况下,您可能希望爬网程序为文件夹 month=Jan
创建一个表,但由于同级文件夹(month=Mar
)已合并到同一个表中,因此爬网程序会创建一个分区。
通过表级别爬网程序选项,您可以灵活地告诉爬网程序表的位置,以及您希望如何创建分区。当您指定 Table level (表级别) 时,则会从 Amazon S3 存储桶中以该绝对级别创建表。
当在控制台上配置爬网程序时,您可以为 Table level (表级别) 爬网程序选项指定一个值。该值必须是指示表位置(数据集中的绝对级别)的正整数。顶级文件夹的级别为 1。例如,对于路径 mydataset/year/month/day/hour
,如果级别设置为 3,则在位置 mydataset/year/month
处创建表。