選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

指定資料表位置和分割層級

焦點模式
指定資料表位置和分割層級 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

根據預設,當爬蟲程式定義存放在 Amazon S3 中的資料表時,爬蟲程式會嘗試將結構描述合併在一起,並建立最上層資料表 (year=2019)。在某些情況下,您可能會預期爬蟲程式為資料夾 month=Jan 建立資料表,然而由於同級資料夾 (month=Mar) 已合併到相同的資料表中,因此爬蟲程式是建立分割區。

資料表層級爬蟲程式選項讓您可以靈活地告訴爬蟲程式資料表的位置,以及建立分割區的方式。當您指定 Table level (資料表層級),資料表會從 Amazon S3 儲存貯體在該絕對層級建立。

資料表層級指定為層級 2 的爬蟲程式群組。

在主控台設定爬蟲程式時,您可指定 Table level (資料表層級) 爬蟲程式選項的值。值必須是正整數,表示資料表位置 (資料集中的絕對層級)。頂層資料夾的層級為 1。例如,對於路徑 mydataset/year/month/day/hour,如果層級設定為 3,則資料表會在位置 mydataset/year/month

AWS Management Console
  1. 登入 AWS Management Console ,並在 https://https://console.aws.amazon.com/glue/ 開啟 AWS Glue 主控台。

  2. Data Catalog 下選擇爬蟲程式

  3. 當您設定爬蟲程式時,請在輸出和排程下選擇進階選項下的資料表層級

在爬蟲程式組態中指定資料表層級。
AWS CLI

當您使用 設定爬蟲程式時 AWS CLI,請設定 configuration 參數,如範例程式碼所示:

aws glue update-crawler \ --name myCrawler \ --configuration '{"Version": 1.0, "Grouping": { "TableLevelConfiguration": 2 }}'
API

使用 API 設定爬蟲程式時,以呈現以下 JSON 物件的字串設定 Configuration 欄位;例如:

configuration = jsonencode( { "Version": 1.0, "Grouping": { TableLevelConfiguration = 2 } })
CloudFormation

在此範例中,您在 CloudFormation 範本內的主控台中設定 Table level (資料表層級)選項:

"Configuration": "{ \"Version\":1.0, \"Grouping\":{\"TableLevelConfiguration\":2} }"
  1. 登入 AWS Management Console ,並在 https://https://console.aws.amazon.com/glue/ 開啟 AWS Glue 主控台。

  2. Data Catalog 下選擇爬蟲程式

  3. 當您設定爬蟲程式時,請在輸出和排程下選擇進階選項下的資料表層級

在爬蟲程式組態中指定資料表層級。
隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。