開始視覺ETL工作 AWS Glue Studio - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

開始視覺ETL工作 AWS Glue Studio

您可以使用中的簡單視覺化介面AWS Glue Studio來建立ETL工作。您使用 Jobs (任務) 頁面以建立新任務。您也可以使用指令碼編輯器或筆記本,直接處理工AWS Glue StudioETL作指令碼中的程式碼。

Jobs (任務) 頁面上,您可以查看您使用 AWS Glue Studio 或 AWS Glue 建立的所有任務。您可以在此頁面上檢視、管理和執行您的任務。

另請參閱博客教程 關於如何創建ETL作業的另一個例子AWS Glue Studio。

在 AWS Glue Studio 中啟動任務

AWS Glue 可讓您透過視覺化介面、互動式程式碼筆記本或指令碼編輯器來建立任務。您可以按一下任何選項來啟動任務,或根據範例任務建立新任務。

範例任務會使用您選擇的工具建立任務。例如,範例工作可讓您建立可將CSV檔案連結至 catatlog 表格的視覺ETL工作、使AWS Glue用 Ray 或 Spark 在互動式程式碼筆記本中建立工作,或AWS Glue在具有 Spark 的互動式程式碼筆記本中建立工作。SQL

AWS Glue Studio從頭開始建立工作

  1. 登入 AWS Management Console 並開啟AWS Glue Studio主控台,位於https://console.aws.amazon.com/gluestudio/

  2. 從導覽窗格中選擇ETL工作

  3. 建立任務區段中,選取任務的組態選項。

    螢幕擷取畫面顯示 AWS Glue Studio 的任務頁面。在「建立任務」區段中,會顯示建立任務選項。在「範例任務」區段中,選擇一個選項,然後選擇「建立範例任務」以啟動範例任務。

    用於從頭開始建立任務的選項:

    • 視覺化 ETL — 專注於資料流的視覺化介面中的作者

    • 使用互動式程式碼筆記本進行撰寫:在以 Jupyter 筆記本為基礎的筆記本介面中以互動方式撰寫任務

      選取此選項時,您必須在建立筆記本撰寫工作階段之前提供其他資訊。如需如何指定此資訊的詳細資訊,請參閱 AWS Glue Studio 中的筆記本入門

    • 使用指令碼編輯器撰寫程式碼 — 對於熟悉程式設計和撰寫ETL指令碼的使用者,請選擇此選項來建立新的 Spark ETL 工作。選擇引擎 (Python shell、Ray、Spark (Python) 或 Spark (Scala))。然後,選擇重新開始上傳指令碼,從本機檔案上傳現有的指令碼。如果您選擇使用指令碼編輯器,則無法使用視覺化任務編輯器設計或編輯任務。

      Spark 任務在由 AWS Glue 管理的 Apache Spark 環境中執行。預設情況下,新指令碼以 Python 編碼。若要編寫新的 Scala 指令碼,請參閱在 AWS Glue Studio 中建立和編輯 Scala 指令碼

從範例工AWS Glue Studio作建立工作

您可以選擇從範例任務建立任務。在範例任務區段中,選擇範例任務,然後選擇建立範例任務。從其中一個選項建立範例任務會提供您可以使用的快速範本。

  1. 登入 AWS Management Console 並開啟AWS Glue Studio主控台,位於https://console.aws.amazon.com/gluestudio/

  2. 從導覽窗格中選擇ETL工作

  3. 選取用於從範例任務建立任務的選項:

    • 加入多個來源的視覺化ETL任務 — 讀取三個CSV檔案、合併資料、變更資料類型,然後將資料寫入 Amazon S3 並編目以供日後查詢。

    • 使用 Pandas 的 Spark 筆記本:使用與 Spark 相結合的流行 Pandas 架構,探索和視覺化資料。

    • 使用火花筆記本 SQL — 用SQL於快速開始使用 Apache Spark。透過 AWS Glue Data Catalog 存取資料,並使用熟悉的命令轉換資料。

  4. 選擇建立範例任務