選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

設定資料目標節點

焦點模式
設定資料目標節點 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

資料目標是任務寫入轉換後資料的位置。

資料目標選項概觀

您的資料目標 (也稱為資料接收) 可以是:

  • S3 — 任務會以您選擇的 Amazon S3 位置和您指定的格式將資料寫入檔案中。

    如果您為資料目標設定分割區欄,則任務會根據分割區索引鍵將資料集寫入 Amazon S3 的目錄中。

  • AWS Glue Data Catalog - 任務會使用與 Data Catalog 中資料表相關聯的資訊,將輸出資料寫入目標位置。

    您可以手動建立資料表,或使用爬蟲程式建立資料表。您也可以使用 AWS CloudFormation 範本,在 Data Catalog 中建立資料表。

  • 連接器 - 連接器是一段程式碼,可促進資料存放區和 AWS Glue 之間的通訊。任務會使用連接器和關聯的連線,將輸出資料寫入目標位置。您可以訂閱 AWS Marketplace 提供的連接器,也可以自行建立自訂連接器。如需詳細資訊,請參閱 新增連接器至 AWS Glue Studio

您可以選擇在任務寫入 Amazon S3 資料目標時更新 Data Catalog 。在結構描述或分割區變更時,無須爬蟲程式更新 Data Catalog ,此選項可讓您輕鬆保持資料表在最新狀態。此選項可簡化讓資料可供分析的程序,方法是選擇性地將新資料表新增至 Data Catalog 、更新資料表分割區,以及直接從任務更新資料表結構描述。

編輯資料目標節點

資料目標是任務寫入轉換後資料的位置。

在任務圖表中新增或設定資料目標節點
  1. (選用) 如果您需要新增目標節點,請選擇視覺化編輯器頂端工具列中的 Target (目標),然後選擇 S3Glue Data Catalog (Glue 資料目錄)。

    • 如果選擇 S3,則任務會將資料集寫入您指定的 Amazon S3 位置中的一個或多個檔案。

    • 如果選擇 AWS Glue Data Catalog,則任務會寫入至由從 Data Catalog 選取的資料表所描述的位置。

  2. 選擇任務圖表中的資料目標節點。當您選擇節點時,節點詳細資訊面板會出現在頁面右側。

  3. 選擇 Node properties (節點屬性) 索引標籤,然後輸入下列資訊:

    • Name (名稱):輸入要與任務圖表中節點產生關聯的名稱。

    • Node type (節點類型):應該已經選取值,但您可以視需要變更它。

    • Node parents (節點父項):父節點是任務圖表中的節點,提供您要寫入目標位置的輸出資料。對於預先填入的任務圖表,目標節點應該已經選取父節點。如果沒有顯示父節點,請從清單中選擇父節點。

      目標節點有單一的父節點。

  4. 設定 Data target properties (資料目標屬性) 資訊。如需詳細資訊,請參閱下列章節:

  5. (選用) 設定資料目標節點屬性之後,您可以在節點詳細資訊面板中選擇 Output schema (輸出結構描述) 索引標籤來檢視資料的輸出結構描述。當您第一次針對任務中的任何節點選擇此索引標籤時,系統會提示您提供 IAM 角色以存取資料。如果您尚未在 Job details (任務詳細資訊) 索引標籤上指定 IAM 角色,系統會提示您在此輸入 IAM 角色。

將 Amazon S3 用於資料目標

對於除 Amazon S3 和連接器以外的所有資料來源,資料表必須存在於 AWS Glue Data Catalog,以取得您選擇的來源類型。AWS Glue Studio 不會建立 Data Catalog 資料表。

設定寫入 Amazon S3 的資料目標節點
  1. 前往新任務或已儲存任務的視覺化編輯器。

  2. 在任務圖表中選擇資料來源節點。

  3. 選擇 Data source properties (資料來源屬性) 索引標籤,然後輸入下列資訊:

    • Format (格式):從清單中選擇格式。資料結果的可用格式類型為:

      • JSON:JavaScript 物件標記法。

      • CSV:逗號分隔值。

      • Avro:Apache Avro JSON 二進位。

      • Parquet:Apache Parquet 單欄式儲存。

      • Glue Parquet:已針對 DynamicFrames 做為資料格式而最佳化的自訂 Phquet 寫入器類型。它不需要預先計算的資料結構描述,而是動態地運算並修改結構描述。

      • ORC:Apache 最佳化資料列單欄式 (ORC) 格式。

      若要進一步了解這些格式選項,請參閱 AWS Glue 開發人員指南中的在 AWS Glue 中的 ​ETL 輸入與輸出格式選項

    • Compression Type (壓縮類型):您可以選擇使用 gzipbzip2 格式壓縮資料。預設為沒有壓縮,或 None (無)

    • S3 Target Location (S3 目標位置):資料輸出的 Amazon S3 儲存貯體和位置。您可以選擇 Browse S3 (瀏覽 S3) 按鈕以查看您有權存取的 Amazon S3 儲存貯體,並選擇其中一個作為目標目的地。

    • Data Catalog 更新選項

      • Do not update the Data Catalog (不更新 Data Catalog ):(預設值) 如果您不希望任務更新 Data Catalog (即使結構描述變更或新增分割區),請選擇此選項。

      • Create a table in the Data Catalog and on subsequent runs, update the schema and add new partitions (在 Data Catalog 中建立資料表,並在後續執行時,更新結構描述並新增分割區):如果選擇此選項,任務會在第一次執行任務時,在 Data Catalog 中建立資料表。在後續任務執行中,如果結構描述變更或新增分割區,任務會更新 Data Catalog 資料表。

        您還必須從 Data Catalog 中選取資料庫,然後輸入資料表名稱。

      • Create a table in the Data Catalog and on subsequent runs, keep existing schema and add new partitions (在 Data Catalog 和後續執行中建立資料表,保留現有的結構描述並新增分割區):如果選擇此選項,任務會在第一次執行任務時,在 Data Catalog 中建立資料表。在後續的任務執行中,任務只會更新 Data Catalog 資料表以新增新的分割區。

        您還必須從 Data Catalog 中選取資料庫,然後輸入資料表名稱。

      • Partition keys (分割區索引鍵):選擇要在輸出中用作分割索引鍵的欄。若要新增更多分割區索引鍵,請選擇 Add a partition key (新增分割區索引鍵)

使用 Data Catalog 資料表做為資料目標

對於除 Amazon S3 和連接器以外的所有資料來源,資料表必須存在於 AWS Glue Data Catalog,以取得您選擇的目標類型。AWS Glue Studio 不會建立 Data Catalog 資料表。

為使用 Data Catalog 資料表的目標設定資料屬性
  1. 前往新任務或已儲存任務的視覺化編輯器。

  2. 選擇任務圖表中的資料目標節點。

  3. 選擇 Data target properties (資料目標屬性) 索引標籤,然後輸入下列資訊:

    • Database (資料庫):從清單中選擇包含要用作目標之資料表的資料庫。此資料庫必須存在於 Data Catalog 中。

    • Table (資料表):從清單中選擇定義輸出資料之結構描述的資料表。此資料表必須已存在於 Data Catalog 中。

      Data Catalog 中的資料表包含欄名稱、資料類型定義、分割區資訊,以及目標資料集的其他中繼資料。您的任務會寫入至此 Data Catalog 中所述的位置。

      如需在 Data Catalog 中建立資料表的詳細資訊,請參閱 AWS Glue 開發人員指南中的在 Data Catalog 中定義資料表

    • Data Catalog 更新選項

      • Do not change table definition (不變更資料表定義):(預設值) 如果您不希望任務更新 Data Catalog (即使結構描述變更或新增分割區),請選擇此選項。

      • Update schema and add new partitions (更新結構描述並新增分割區):如果您選擇此選項,則如果結構描述變更或新增了新的分割區,任務就會更新 Data Catalog 資料表。

      • Keep existing schema and add new partitions (保留現有的結構描述並新增分割區):如果您選擇此選項,任務只會更新 Data Catalog 資料表以新增新的分割區。

      • Partition keys (分割區索引鍵):選擇要在輸出中用作分割索引鍵的欄。若要新增更多分割區索引鍵,請選擇 Add a partition key (新增分割區索引鍵)

將連接器用於資料目標

如果您選取 Node type (節點類型) 的連接器,請遵循使用自訂連接器編寫任務中的說明以完成設定資料目標屬性。

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。