指定表格位置和分割層次 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

指定表格位置和分割層次

依預設,當爬蟲為 Amazon S3 中存放的資料定義表格時,爬蟲會嘗試將結構描述合併在一起,並建立頂層資料表 () year=2019。在某些情況下,您可能會預期爬蟲程式為資料夾 month=Jan 建立資料表,然而由於同級資料夾 (month=Mar) 已合併到相同的資料表中,因此爬蟲程式是建立分割區。

資料表層級爬蟲程式選項讓您可以靈活地告訴爬蟲程式資料表的位置,以及建立分割區的方式。當您指定 Table level (資料表層級),資料表會從 Amazon S3 儲存貯體在該絕對層級建立。

資料表層級指定為層級 2 的爬蟲程式群組。

在主控台設定爬蟲程式時,您可指定 Table level (資料表層級) 爬蟲程式選項的值。值必須是正整數,表示資料表位置 (資料集中的絕對層級)。頂層資料夾的層級為 1。例如,對於路徑 mydataset/year/month/day/hour,如果層級設定為 3,則資料表會在位置 mydataset/year/month

Console
在爬蟲程式組態中指定資料表層級。
API

使用設定爬行者程式時API,請使用下列JSON物件的字串表示來設定Configuration欄位;例如:

configuration = jsonencode( { "Version": 1.0, "Grouping": { TableLevelConfiguration = 2 } })
CloudFormation

在此範例中,您可以在範 CloudFormation 本中設定主控台中可用的 [資料表層級] 選項:

"Configuration": "{ \"Version\":1.0, \"Grouping\":{\"TableLevelConfiguration\":2} }"