本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
資料目標是任務寫入轉換後資料的位置。
資料目標選項概觀
您的資料目標 (也稱為資料接收) 可以是:
-
S3 — 任務會以您選擇的 Amazon S3 位置和您指定的格式將資料寫入檔案中。
如果您為資料目標設定分割區欄,則任務會根據分割區索引鍵將資料集寫入 Amazon S3 的目錄中。
-
AWS Glue Data Catalog - 任務會使用與 Data Catalog 中資料表相關聯的資訊,將輸出資料寫入目標位置。
您可以手動建立資料表,或使用爬蟲程式建立資料表。您也可以使用 AWS CloudFormation 範本,在 Data Catalog 中建立資料表。
-
連接器 - 連接器是一段程式碼,可促進資料存放區和 AWS Glue 之間的通訊。任務會使用連接器和關聯的連線,將輸出資料寫入目標位置。您可以訂閱 AWS Marketplace 提供的連接器,也可以自行建立自訂連接器。如需詳細資訊,請參閱 新增連接器至 AWS Glue Studio
您可以選擇在任務寫入 Amazon S3 資料目標時更新 Data Catalog 。在結構描述或分割區變更時,無須爬蟲程式更新 Data Catalog ,此選項可讓您輕鬆保持資料表在最新狀態。此選項可簡化讓資料可供分析的程序,方法是選擇性地將新資料表新增至 Data Catalog 、更新資料表分割區,以及直接從任務更新資料表結構描述。
編輯資料目標節點
資料目標是任務寫入轉換後資料的位置。
在任務圖表中新增或設定資料目標節點
-
(選用) 如果您需要新增目標節點,請選擇視覺化編輯器頂端工具列中的 Target (目標),然後選擇 S3 或 Glue Data Catalog (Glue 資料目錄)。
-
如果選擇 S3,則任務會將資料集寫入您指定的 Amazon S3 位置中的一個或多個檔案。
-
如果選擇 AWS Glue Data Catalog,則任務會寫入至由從 Data Catalog 選取的資料表所描述的位置。
-
-
選擇任務圖表中的資料目標節點。當您選擇節點時,節點詳細資訊面板會出現在頁面右側。
-
選擇 Node properties (節點屬性) 索引標籤,然後輸入下列資訊:
-
Name (名稱):輸入要與任務圖表中節點產生關聯的名稱。
-
Node type (節點類型):應該已經選取值,但您可以視需要變更它。
-
Node parents (節點父項):父節點是任務圖表中的節點,提供您要寫入目標位置的輸出資料。對於預先填入的任務圖表,目標節點應該已經選取父節點。如果沒有顯示父節點,請從清單中選擇父節點。
目標節點有單一的父節點。
-
-
設定 Data target properties (資料目標屬性) 資訊。如需詳細資訊,請參閱下列章節:
(選用) 設定資料目標節點屬性之後,您可以在節點詳細資訊面板中選擇 Output schema (輸出結構描述) 索引標籤來檢視資料的輸出結構描述。當您第一次針對任務中的任何節點選擇此索引標籤時,系統會提示您提供 IAM 角色以存取資料。如果您尚未在 Job details (任務詳細資訊) 索引標籤上指定 IAM 角色,系統會提示您在此輸入 IAM 角色。
將 Amazon S3 用於資料目標
對於除 Amazon S3 和連接器以外的所有資料來源,資料表必須存在於 AWS Glue Data Catalog,以取得您選擇的來源類型。AWS Glue Studio 不會建立 Data Catalog 資料表。
設定寫入 Amazon S3 的資料目標節點
-
前往新任務或已儲存任務的視覺化編輯器。
-
在任務圖表中選擇資料來源節點。
-
選擇 Data source properties (資料來源屬性) 索引標籤,然後輸入下列資訊:
-
Format (格式):從清單中選擇格式。資料結果的可用格式類型為:
-
JSON:JavaScript 物件標記法。
-
CSV:逗號分隔值。
-
Avro:Apache Avro JSON 二進位。
-
Parquet:Apache Parquet 單欄式儲存。
-
Glue Parquet:已針對
DynamicFrames
做為資料格式而最佳化的自訂 Phquet 寫入器類型。它不需要預先計算的資料結構描述,而是動態地運算並修改結構描述。 -
ORC:Apache 最佳化資料列單欄式 (ORC) 格式。
若要進一步了解這些格式選項,請參閱 AWS Glue 開發人員指南中的在 AWS Glue 中的 ETL 輸入與輸出格式選項。
-
-
Compression Type (壓縮類型):您可以選擇使用
gzip
或bzip2
格式壓縮資料。預設為沒有壓縮,或 None (無)。 -
S3 Target Location (S3 目標位置):資料輸出的 Amazon S3 儲存貯體和位置。您可以選擇 Browse S3 (瀏覽 S3) 按鈕以查看您有權存取的 Amazon S3 儲存貯體,並選擇其中一個作為目標目的地。
-
Data Catalog 更新選項
-
Do not update the Data Catalog (不更新 Data Catalog ):(預設值) 如果您不希望任務更新 Data Catalog (即使結構描述變更或新增分割區),請選擇此選項。
-
Create a table in the Data Catalog and on subsequent runs, update the schema and add new partitions (在 Data Catalog 中建立資料表,並在後續執行時,更新結構描述並新增分割區):如果選擇此選項,任務會在第一次執行任務時,在 Data Catalog 中建立資料表。在後續任務執行中,如果結構描述變更或新增分割區,任務會更新 Data Catalog 資料表。
您還必須從 Data Catalog 中選取資料庫,然後輸入資料表名稱。
-
Create a table in the Data Catalog and on subsequent runs, keep existing schema and add new partitions (在 Data Catalog 和後續執行中建立資料表,保留現有的結構描述並新增分割區):如果選擇此選項,任務會在第一次執行任務時,在 Data Catalog 中建立資料表。在後續的任務執行中,任務只會更新 Data Catalog 資料表以新增新的分割區。
您還必須從 Data Catalog 中選取資料庫,然後輸入資料表名稱。
-
Partition keys (分割區索引鍵):選擇要在輸出中用作分割索引鍵的欄。若要新增更多分割區索引鍵,請選擇 Add a partition key (新增分割區索引鍵)。
-
-
使用 Data Catalog 資料表做為資料目標
對於除 Amazon S3 和連接器以外的所有資料來源,資料表必須存在於 AWS Glue Data Catalog,以取得您選擇的目標類型。AWS Glue Studio 不會建立 Data Catalog 資料表。
為使用 Data Catalog 資料表的目標設定資料屬性
-
前往新任務或已儲存任務的視覺化編輯器。
-
選擇任務圖表中的資料目標節點。
-
選擇 Data target properties (資料目標屬性) 索引標籤,然後輸入下列資訊:
-
Database (資料庫):從清單中選擇包含要用作目標之資料表的資料庫。此資料庫必須存在於 Data Catalog 中。
-
Table (資料表):從清單中選擇定義輸出資料之結構描述的資料表。此資料表必須已存在於 Data Catalog 中。
Data Catalog 中的資料表包含欄名稱、資料類型定義、分割區資訊,以及目標資料集的其他中繼資料。您的任務會寫入至此 Data Catalog 中所述的位置。
如需在 Data Catalog 中建立資料表的詳細資訊,請參閱 AWS Glue 開發人員指南中的在 Data Catalog 中定義資料表。
-
Data Catalog 更新選項
-
Do not change table definition (不變更資料表定義):(預設值) 如果您不希望任務更新 Data Catalog (即使結構描述變更或新增分割區),請選擇此選項。
-
Update schema and add new partitions (更新結構描述並新增分割區):如果您選擇此選項,則如果結構描述變更或新增了新的分割區,任務就會更新 Data Catalog 資料表。
-
Keep existing schema and add new partitions (保留現有的結構描述並新增分割區):如果您選擇此選項,任務只會更新 Data Catalog 資料表以新增新的分割區。
-
Partition keys (分割區索引鍵):選擇要在輸出中用作分割索引鍵的欄。若要新增更多分割區索引鍵,請選擇 Add a partition key (新增分割區索引鍵)。
-
-
將連接器用於資料目標
如果您選取 Node type (節點類型) 的連接器,請遵循使用自訂連接器編寫任務中的說明以完成設定資料目標屬性。