本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 建置視覺化 ETL 任務 AWS Glue Studio
同時 AWS Glue 任務會封裝連線至來源資料的指令碼、處理指令碼,然後將其寫入資料目標。一般而言,任務會執行擷取、轉換和載入 (ETL) 指令碼。任務可以執行專為 Apache Spark 和 Ray 執行期環境設計的指令碼。任務也可以執行一般用途 Python 指令碼 (Python shell 任務)。AWS Glue 觸發程序可以根據排程或事件或隨需啟動任務。您可以監控任務執行以了解執行時間指標,例如完成狀態、持續時間和開始時間。
您可以使用 AWS Glue 會產生 或您可以提供自己的 。透過來源結構描述和目標位置或結構描述,AWS Glue Studio 程式碼產生器可以自動建立 Apache Spark API (PySpark) 指令碼。您可以將此指令碼做為起點,編輯其內容以符合您的目標。
AWS Glue 可以寫入多種資料格式的輸出檔案。每種任務類型可支援不同的輸出格式。某些資料格式也可寫入常見的壓縮格式。
登入 AWS Glue 主控台
中的任務 AWS Glue 包含執行擷取、轉換和載入 (ETL) 工作的業務邏輯。您可以在 的 ETL 區段中建立任務 AWS Glue 主控台。
若要檢視現有任務,請登入 AWS Management Console 並開啟 AWS Glue 主控台https://console.aws.amazon.com/glue/
建立新任務時,或儲存任務後,您可以使用 AWS Glue Studio 修改您的 ETL 任務。您可以在視覺化編輯器中編輯節點,或在開發人員模式中編輯任務指令碼來執行此動作。您也可以在視覺化編輯器中新增和移除節點,以建立更複雜的 ETL 任務。
在 中建立任務的後續步驟 AWS Glue Studio
您可以使用視覺化任務編輯器來設定任務的節點。每個節點代表一個動作,例如從源位置讀取資料或應用轉換到資料。您新增至任務的每個節點都具有提供資料位置或轉換相關資訊的屬性。
建立和管理任務的後續步驟如下: