本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS Glue 任務封裝了一個指令碼,會連線至您的來源資料、處理資料,然後將它寫出至您的資料目標。一般而言,任務會執行擷取、轉換和載入 (ETL) 指令碼。任務可以執行專為 Apache Spark 和 Ray 執行期環境設計的指令碼。任務也可以執行一般用途的 Python 指令碼 (Python Shell 任務)。AWS Glue 觸發程序可以根據排程或事件,或隨需啟動任務。您可以監控任務執行以了解執行時間指標,例如完成狀態、持續時間和開始時間。
您可以使用 AWS Glue 產生的指令碼,也可以提供自己的指令碼。藉助來源結構描述以及目標位置或結構描述,AWS Glue Studio 程式碼產生器可自動建立 Apache Spark API (PySpark) 指令碼。您可以將此指令碼做為起點,編輯其內容以符合您的目標。
AWS Glue 可以寫入多種資料格式的輸出檔案。每種任務類型可支援不同的輸出格式。某些資料格式也可寫入常見的壓縮格式。
登入 AWS Glue 主控台
中的任務 AWS Glue 包含執行擷取、轉換和載入 (ETL) 工作的商業邏輯。您可以在 AWS Glue 主控台的 ETL 區塊中建立工作。
若要檢視現有任務,請登入 AWS Management Console ,並在 https://https://console.aws.amazon.com/glue/
建立新任務時,或儲存任務後,您可以使用 AWS Glue Studio 修改您的 ETL 任務。您可以在視覺化編輯器中編輯節點,或在開發人員模式中編輯任務指令碼來執行此動作。您也可以在視覺化編輯器中新增和移除節點,以建立更複雜的 ETL 任務。
在 AWS Glue Studio 中建立任務的後續步驟
您可以使用視覺化任務編輯器來設定任務的節點。每個節點代表一個動作,例如從源位置讀取資料或應用轉換到資料。您新增至任務的每個節點都具有提供資料位置或轉換相關資訊的屬性。
建立和管理任務的後續步驟如下: