選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

防止爬蟲程式變更現有的結構描述

焦點模式
防止爬蟲程式變更現有的結構描述 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

您可以防止 AWS Glue 編目程式在 Data Catalog 執行時對 Data Catalog 進行任何結構描述變更。根據預設,爬蟲程式會更新 Data Catalog 中的結構描述,以符合要爬蟲的資料來源。不過,在某些情況下,您可能想要防止爬蟲程式修改現有的結構描述,特別是如果您已轉換或清除資料,且不希望原始結構描述覆寫變更。

請依照下列步驟設定爬蟲程式,不要覆寫資料表定義中的現有結構描述。

AWS Management Console
  1. 登入 AWS Management Console ,並在 https://https://console.aws.amazon.com/glue/ 開啟 AWS Glue 主控台。

  2. 選擇 Data Catalog 下的爬蟲程式

  3. 從清單中選擇爬蟲程式,然後選擇編輯

  4. 選擇步驟 4,設定輸出和排程

  5. 進階選項下,選擇僅新增資料欄忽略變更,並且不要更新 Data Catalog 中的資料表

  6. 您也可以設定組態選項,使用資料表中的中繼資料更新所有新的和現有的分割區。這會將分割區結構描述設定為從資料表繼承。

  7. 選擇更新

AWS CLI

下列範例示範如何設定爬蟲程式不變更現有的結構描述,只新增新的資料欄:

aws glue update-crawler \ --name myCrawler \ --configuration '{"Version": 1.0, "CrawlerOutput": {"Tables": {"AddOrUpdateBehavior": "MergeNewColumns"}}}'

下列範例示範如何設定爬蟲程式,使其不會變更現有的結構描述,也不會新增資料欄:

aws glue update-crawler \ --name myCrawler \ --schema-change-policy UpdateBehavior=LOG \ --configuration '{"Version": 1.0, "CrawlerOutput": {"Partitions": { "AddOrUpdateBehavior": "InheritFromTable" }}}'
API

如果您不希望爬蟲程式執行時變更資料表結構描述,可將結構描述變更政策設為 LOG

當您使用 API 設定爬蟲程式時,請設定下列參數:

  • SchemaChangePolicy 結構中的 UpdateBehavior 欄位設為 LOG

  • 在爬蟲程式 API 中,以呈現以下 JSON 物件的字串設定 Configuration 欄位,例如:

    { "Version": 1.0, "CrawlerOutput": { "Partitions": { "AddOrUpdateBehavior": "InheritFromTable" } } }
  1. 登入 AWS Management Console ,並在 https://https://console.aws.amazon.com/glue/ 開啟 AWS Glue 主控台。

  2. 選擇 Data Catalog 下的爬蟲程式

  3. 從清單中選擇爬蟲程式,然後選擇編輯

  4. 選擇步驟 4,設定輸出和排程

  5. 進階選項下,選擇僅新增資料欄忽略變更,並且不要更新 Data Catalog 中的資料表

  6. 您也可以設定組態選項,使用資料表中的中繼資料更新所有新的和現有的分割區。這會將分割區結構描述設定為從資料表繼承。

  7. 選擇更新

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。