選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

在 AWS Glue中使用任務

焦點模式
在 AWS Glue中使用任務 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS Glue 任務會封裝連線至來源資料的指令碼、處理該指令碼,然後將其寫入資料目標。一般而言,任務會執行擷取、轉換和載入 (ETL) 指令碼。任務也可以執行一般用途的 Python 指令碼 (Python Shell 任務)。 AWS Glue 觸發程序可以根據排程或事件,或隨需啟動任務。您可以監控任務執行以了解執行時間指標,例如完成狀態、持續時間和開始時間。

您可以使用 AWS Glue 產生的指令碼,也可以提供自己的指令碼。透過來源結構描述和目標位置或結構描述, AWS Glue 程式碼產生器可以自動建立 Apache Spark API(PySpark) 指令碼。您可以將此指令碼做為起點,編輯其內容以符合您的目標。

AWS Glue 可以寫入多種資料格式的輸出檔案,包括 JSON、CSV、 ORC(最佳化資料列欄)、Apache Parquet 和 Apache Avro。某些資料格式也可寫入常見的壓縮格式。

AWS Glue 支援下列類型的任務:

  • Spark 任務是在由 管理的 Apache Spark 環境中執行 AWS Glue。它會分批次處理資料。

  • 串流ETL任務類似於 Spark 任務,但它ETL在資料串流上執行。它使用 Apache Spark 結構化串流框架。有些 Spark 任務功能不適用於串流ETL任務。

  • Python shell 任務會以 shell 形式執行 Python 指令碼,並支援取決於您正在使用之版本的 Python AWS Glue 版本。您可以使用這些任務來排程及執行不需要 Apache Spark 環境的任務。

  • Ray 是開放原始碼分散式運算架構,您可以用來擴展工作負載,並專注於 Python。 AWS Glue Ray 任務和互動式工作階段可讓您在其中使用 Ray AWS Glue。

下列各節提供 ETL和 Ray 任務的相關資訊 AWS Glue。

下一個主題:

AWS Glue 版本

上一個主題:

管理任務
隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。