本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
設定 時 AWS Glue 編目程式,您有幾個選項可定義爬蟲程式的行為。
-
增量爬蟲程式 – 您可以設定爬蟲程式執行增量爬蟲程式,以僅將新的分割區新增至資料表結構描述。
-
分割區索引 – 根據預設,爬蟲程式會建立 Amazon S3 和 Delta Lake 目標的分割區索引,以提供特定分割區的高效查詢。
-
使用 Amazon S3 事件來加速爬蟲時間 – 您可以設定爬蟲程式使用 Amazon S3 事件,透過列出觸發事件的子資料夾中的所有檔案,而不是列出完整的 Amazon S3 或 Data Catalog 目標,來識別兩個爬蟲之間的變更。
處理結構描述變更 – 您可以防止爬蟲程式對現有的結構描述進行任何結構描述變更。您可以使用 AWS Management Console 或 AWS Glue API 來設定爬蟲程式如何處理特定類型的變更。
-
多個 Amazon S3 路徑的單一結構描述 – 如果資料相容,您可以設定爬蟲程式為每個 S3 路徑建立單一結構描述。
資料表位置和分割層級 – 資料表層級爬蟲程式選項可讓您靈活地告訴爬蟲程式資料表的位置,以及您希望如何建立分割區。
資料表閾值 – 您可以指定資料表閾值,以指定爬蟲程式可建立的資料表數量上限。
AWS Lake Formation 登入資料 – 您可以設定爬蟲程式使用 Lake Formation 登入資料來存取 Amazon S3 資料存放區,或具有相同 AWS 帳戶 或另一個 Amazon S3 中基礎位置的資料目錄資料表 AWS 帳戶。
如需使用 AWS Glue 主控台新增爬蟲程式的詳細資訊,請參閱設定爬蟲程式。