本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
開始視覺ETL工作 AWS Glue Studio
您可以使用中的簡單視覺化介面AWS Glue Studio來建立ETL工作。您使用 Jobs (任務) 頁面以建立新任務。您也可以使用指令碼編輯器或筆記本,直接處理工AWS Glue StudioETL作指令碼中的程式碼。
在 Jobs (任務) 頁面上,您可以查看您使用 AWS Glue Studio 或 AWS Glue 建立的所有任務。您可以在此頁面上檢視、管理和執行您的任務。
另請參閱博客教程
在 AWS Glue Studio 中啟動任務
AWS Glue 可讓您透過視覺化介面、互動式程式碼筆記本或指令碼編輯器來建立任務。您可以按一下任何選項來啟動任務,或根據範例任務建立新任務。
範例任務會使用您選擇的工具建立任務。例如,範例工作可讓您建立可將CSV檔案連結至 catatlog 表格的視覺ETL工作、使AWS Glue用 Ray 或 Spark 在互動式程式碼筆記本中建立工作,或AWS Glue在具有 Spark 的互動式程式碼筆記本中建立工作。SQL
AWS Glue Studio從頭開始建立工作
登入 AWS Management Console 並開啟AWS Glue Studio主控台,位於https://console.aws.amazon.com/gluestudio/
。 -
從導覽窗格中選擇ETL工作。
-
在建立任務區段中,選取任務的組態選項。
用於從頭開始建立任務的選項:
-
視覺化 ETL — 專注於資料流的視覺化介面中的作者
-
使用互動式程式碼筆記本進行撰寫:在以 Jupyter 筆記本為基礎的筆記本介面中以互動方式撰寫任務
選取此選項時,您必須在建立筆記本撰寫工作階段之前提供其他資訊。如需如何指定此資訊的詳細資訊,請參閱 AWS Glue Studio 中的筆記本入門。
-
使用指令碼編輯器撰寫程式碼 — 對於熟悉程式設計和撰寫ETL指令碼的使用者,請選擇此選項來建立新的 Spark ETL 工作。選擇引擎 (Python shell、Ray、Spark (Python) 或 Spark (Scala))。然後,選擇重新開始或上傳指令碼,從本機檔案上傳現有的指令碼。如果您選擇使用指令碼編輯器,則無法使用視覺化任務編輯器設計或編輯任務。
Spark 任務在由 AWS Glue 管理的 Apache Spark 環境中執行。預設情況下,新指令碼以 Python 編碼。若要編寫新的 Scala 指令碼,請參閱在 AWS Glue Studio 中建立和編輯 Scala 指令碼。
-
從範例工AWS Glue Studio作建立工作
您可以選擇從範例任務建立任務。在範例任務區段中,選擇範例任務,然後選擇建立範例任務。從其中一個選項建立範例任務會提供您可以使用的快速範本。
登入 AWS Management Console 並開啟AWS Glue Studio主控台,位於https://console.aws.amazon.com/gluestudio/
。 -
從導覽窗格中選擇ETL工作。
-
選取用於從範例任務建立任務的選項:
-
加入多個來源的視覺化ETL任務 — 讀取三個CSV檔案、合併資料、變更資料類型,然後將資料寫入 Amazon S3 並編目以供日後查詢。
-
使用 Pandas 的 Spark 筆記本:使用與 Spark 相結合的流行 Pandas 架構,探索和視覺化資料。
-
使用火花筆記本 SQL — 用SQL於快速開始使用 Apache Spark。透過 AWS Glue Data Catalog 存取資料,並使用熟悉的命令轉換資料。
-
-
選擇建立範例任務。