選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

自訂爬蟲程式行為

焦點模式
自訂爬蟲程式行為 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

設定 時 AWS Glue 編目程式,您有幾個選項可定義爬蟲程式的行為。

  • 增量爬蟲程式 – 您可以設定爬蟲程式執行增量爬蟲程式,以僅將新的分割區新增至資料表結構描述。

  • 分割區索引 – 根據預設,爬蟲程式會建立 Amazon S3 和 Delta Lake 目標的分割區索引,以提供特定分割區的高效查詢。

  • 使用 Amazon S3 事件來加速爬蟲時間 – 您可以設定爬蟲程式使用 Amazon S3 事件,透過列出觸發事件的子資料夾中的所有檔案,而不是列出完整的 Amazon S3 或 Data Catalog 目標,來識別兩個爬蟲之間的變更。

  • 處理結構描述變更 – 您可以防止爬蟲程式對現有的結構描述進行任何結構描述變更。您可以使用 AWS Management Console 或 AWS Glue API 來設定爬蟲程式如何處理特定類型的變更。

  • 多個 Amazon S3 路徑的單一結構描述 – 如果資料相容,您可以設定爬蟲程式為每個 S3 路徑建立單一結構描述。

  • 資料表位置和分割層級 – 資料表層級爬蟲程式選項可讓您靈活地告訴爬蟲程式資料表的位置,以及您希望如何建立分割區。

  • 資料表閾值 – 您可以指定資料表閾值,以指定爬蟲程式可建立的資料表數量上限。

  • AWS Lake Formation 登入資料 – 您可以設定爬蟲程式使用 Lake Formation 登入資料來存取 Amazon S3 資料存放區,或具有相同 AWS 帳戶 或另一個 Amazon S3 中基礎位置的資料目錄資料表 AWS 帳戶。

如需使用 AWS Glue 主控台新增爬蟲程式的詳細資訊,請參閱設定爬蟲程式

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。