任務 (舊版) - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

任務 (舊版)

指令碼包含執行擷取、轉換和 load (ETL) 工作的程式碼。您可以提供自己的指令碼,或者 AWS Glue 可依照您的指引產生指令碼。如需編寫自己專用指令碼的詳細資訊,請參閱提供您的自訂指令碼

您可以在 AWS Glue 主控台編輯指令碼。編輯指令碼時,您可以新增來源、目標和轉換。

編輯指令碼
  1. 登入 AWS Management Console 並開啟AWS Glue主控台,位於https://console.aws.amazon.com/glue/。接著選擇 Jobs (任務) 索引標籤。

  2. 在清單中選擇任務,然後選擇 Action, Edit script (動作,編輯指令碼) 以開啟指令碼編輯器。

    您也可以從任務詳細資訊頁面存取指令碼編輯器。選擇 Script (指令碼) 索引標籤,接著選擇 Edit script (編輯指令碼)

指令碼編輯器

AWS Glue 指令碼編輯器可讓您插入、修改、刪除指令碼中的來源、目標和轉換。指令碼編輯器會顯示指令碼以及圖表,協助您將資料流程視覺化。

要建立指令碼的圖表,請選擇 Generate diagram (產生圖表)。AWS Glue 在指令碼中使用以 ## 開頭的註釋行來呈現圖表。要在圖表中正確展示指令碼,您必須讓註釋中的參數和 Apache Spark 程式碼中的參數保持同步。

無論您的游標置於指令碼中何處,指令碼編輯器都能讓您新增程式碼範本。在編輯器最上方,從下列選項中選擇:

  • 若要新增來源資料表到指令碼,請選擇 Source (來源)。

  • 若要新增目標到指令碼,請選擇 Target (目標)。

  • 若要新增目標位置到指令碼,請選擇 Target location (目標位置)。

  • 若要新增轉換到指令碼,請選擇 Transform (轉換)。如需在指令碼中呼叫函數的詳細資訊,請參閱 程式 AWS Glue ETL 指令碼 PySpark

  • 若要新增 Spigot 轉換到指令碼,請選擇 Spigot

在插入的程式碼中,修改註釋和 Apache Spark 程式碼中的 parameters。例如您新增了 Spigot 轉換,請確認 path@args 註釋和 output 程式碼中都已被取代。

Logs (日誌) 索引標籤會顯示任務執行時與其關聯的日誌。顯示範圍為最近的 1,000 行。

Schema (結構描述) 索引標籤會顯示在 Data Catalog 中所選來源和目標的結構描述。