選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

AWS Glue 版本

焦點模式
AWS Glue 版本 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

您可以在新增或更新任務時設定 AWS Glue 版本參數。 AWS Glue 版本會決定 AWS Glue 支援的 Apache Spark 和 Python 版本。Python 版本指示針對 Spark 類型任務支援的版本。下表列出可用的 AWS Glue 版本、對應的 Spark 和 Python 版本,以及其他功能變更。

AWS Glue 版本

AWS Glue 版本 支援的執行期環境版本 支援的 Java 版本 功能變更
AWS Glue 5.0
  • Spark 3.5.2

  • Python 3.11

  • Scala 2.12.18

Java 17

除了架構更新之外,此 AWS Glue 版本還內建最佳化和升級,例如:

  • Amazon SageMaker Unified Studio 支援

  • Amazon SageMaker Lakehouse 支援

  • 開放資料表格式 (OTF) 已更新為 Hudi 0.15.0、Iceberg 1.6.1 和 Delta Lake 3.2.1

  • 使用 Lake Formation 的 Spark 原生精細存取控制。

  • Amazon S3 Access Grants 支援

  • requirements.txt 支援安裝其他 Python 程式庫

  • Amazon DataZone 中的資料譜系支援

限制

以下是 5.0 的限制 AWS Glue :

  • Glue 5.0 不支援具有 Glue 4.0 或以前支援 AWS Lake Formation 許可的 Glue 動態影格 / GlueContext型資料表層級存取控制。在 Glue 5.0 中使用新的 Spark 原生精細存取控制 (FGAC)

如需遷移至 AWS Glue 5.0 版的詳細資訊,請參閱 。 AWS Glue 將 Spark 任務遷移至 5.0 AWS Glue 版

AWS Glue 4.0 Spark 環境版本
  • Spark 3.3.0

  • Python 3.10

Java 8

AWS Glue 4.0 在此 AWS Glue 版本中具有許多內建的最佳化和升級,例如:

  • 許多 Spark 功能從 Spark 3.1 升級至 Spark 3.3:

    • 與 pandas 配對時的數個功能改進。如需詳細資訊,請參閱 Spark 3.3 中的新功能

    • 在 Amazon EMR 上開發的其他最佳化功能。

    • 升級至 EMR 檔案系統 (EMRFS) 2.53。

  • 從 Log4j 1.x 遷移至 Log4j 2

  • 從 AWS Glue 3.0 開始更新了數個 Python 模組,例如 Boto 的升級版本。

  • 升級數個連接器,包括預設的 Amazon Redshift 連接器。請參閱 附錄 C:連接器升級

  • 升級數個 JDBC 驅動程式。請參閱 附錄 B:JDBC 驅動程式升級

  • 以新的 Amazon Redshift 連接器和 JDBC 驅動程式進行更新。

  • 原生支援開放式資料湖架構,包括 Apache Hudi、Delta Lake 和 Apache Iceberg。

  • 原生支援以 Amazon S3 為基礎的雲端隨機排序儲存外掛程式 (Apache Spark 外掛程式),以使用 Amazon S3 進行隨機排序和彈性儲存容量。

限制

以下為 AWS Glue 4.0 的限制:

  • AWS Glue 機器學習和個人身分識別資訊 (PII) 轉換尚未在 AWS Glue 4.0 中提供。

如需遷移到 AWS Glue 4.0 版的詳細資訊,請參閱AWS Glue 將 Spark 任務遷移至 4.0 AWS Glue 版

Ray 環境版本
  • Ray 2.4.0

    Python 3.9

N/A

使用 AWS Glue for Ray 建置和執行分散式 Python 應用程式。

  • 透過 Python 3.9 支援 Ray-2.4.0 資料分發 (ray[data])。如需有關此 Ray 發行版本的詳細資訊,請參閱 Ray GitHub 儲存庫中的 Ray-2.4.0

  • 支援將額外的 Python 程式庫安裝至 Ray2.4 執行期環境。如需詳細資訊,請參閱Ray 任務的其他 Python 模組

  • 將 Ray 任務的日誌和指標與 Amazon CloudWatch 整合。如需詳細資訊,請參閱 對日誌 AWS Glue 中的 Ray 錯誤進行故障診斷使用指標監控 Ray 任務

  • 彙總和視覺化 AWS Glue Studio每個任務執行頁面上 Ray 任務的指標。

  • 支援將檔案分發至叢集中的每個工作目錄、將物件從 Ray 物件存放區溢出至 Amazon S3,以及控制分配給 Ray 任務的工作節點數量下限。如需詳細資訊,請參閱在 Ray 任務中使用任務參數

AWS Glue 4.0 中 Ray 任務的限制

  • AWS Glue Ray 的互動式工作階段會保留在此版本的預覽中。

  • AWS Glue for Ray 與 Amazon VPC 整合目前無法使用。如果沒有公有路由, AWS 將無法存取 中 VPC 中的資源。如需 AWS Glue 搭配 Amazon VPC 使用 的詳細資訊,請參閱 設定 (AWS PrivateLink) 的介面 VPC 端點 AWS Glue(AWS PrivateLink)

  • AWS Glue for Ray 適用於美國東部 (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (奧勒岡)、亞太區域 (東京) 和歐洲 (愛爾蘭)。

AWS Glue 3.0
  • Spark 3.1.1

  • Python 3.7

Java 8

除了 Spark 引擎升級到 3.0 之外,這個 AWS Glue 版本還內建了一些最佳化和升級,例如:

  • 針對 Spark 3.0 建置 AWS Glue ETL 程式庫,這是 Spark 的主要版本。

  • AWS Glue 3.0 支援串流任務。

  • 包括效能和可靠性的新 AWS Glue Spark 執行期最佳化:

    • 基於 Apache Arrow 讀取 CSV 資料的更快的記憶體直欄式處理。

    • 使用 CSV 資料進行向量化讀取的 SIMD 基礎執行。

    • Spark 升級還包括在 Amazon EMR 上開發的其他最佳化。

    • 將 EMRFS 從 2.38 升級至 2.46,為 Amazon S3 存取提供新功能和錯誤修正。

  • 升級了新 Spark 版本所需的幾個相依性。

  • 針對我們原生支援的資料來源升級 JDBC 驅動程式。

限制

以下為 AWS Glue 3.0 的限制:

  • AWS Glue 機器學習轉換尚未在 AWS Glue 3.0 中提供。

  • 某些自訂 Spark 連接器無法用於 AWS Glue 3.0,如果它們依賴於 Spark 2.4,並且與 Spark 3.1 沒有相容性。

AWS Glue 2.0 (已棄用、終止支援)
  • Spark 2.4.3

  • Python 3.7

N/A

除了 1.0 版所提供的 AWS Glue 功能之外,2.0 AWS Glue 版還提供:

  • 在 中執行 Apache Spark ETL 任務的升級基礎設施 AWS Glue ,其啟動時間縮短。

  • 預設日誌記錄現在是即時的記錄,為驅動程式和執行程序以及輸出和錯誤提供單獨的串流。

  • 支援在任務層級指定其他 Python 模組或不同版本。

注意

AWS Glue 由於基礎架構變更,部分相依性和版本 2.0 AWS Glue 版與 1.0 版不同。請先驗證您的 AWS Glue 任務,然後再跨主要 AWS Glue 版本發行遷移。

AWS Glue 1.0 (已棄用、終止支援)
  • Spark 2.4.3

  • Python 2.7

  • Python 3.6

N/A

您可以在 AWS Glue ETL 任務 (使用 AWS Glue 1.0 版) 中維護 Parquet 和 ORC 格式的任務書籤。先前,您只能將常見 Amazon S3 來源格式加入書籤,例如 JSON、CSV、Apache Avro 和 XML 等 AWS Glue ETL 任務。

設定 ETL 輸入和輸出的格式選項時,您可以指定 使用 Apache Avro 讀取器/寫入器格式 1.8,以支援 Avro 邏輯類型讀取和寫入 (使用 1.0 AWS Glue 版)。先前僅支援 1.7 版的 Avro Reader/Writer 格式。

DynamoDB 連線類型支援寫入器選項 (使用 AWS Glue 1.0 版)。

限制

以下為 AWS Glue 1.0 的限制:

  • AWS Glue 0.9 版和 1.0 版不適用於亞太區域 (雅加達) ()ap-southeast-3、中東 (阿拉伯聯合大公國) (me-central-1) 或其他未來新區域。

AWS Glue 0.9 (已棄用、支援結束)
  • Spark 2.2.1

  • Python 2.7

N/A

在未指定版本預設值為 AWS Glue 0.9 AWS Glue 的情況下建立的任務。

限制

以下為 AWS Glue 0.9 的限制:

  • AWS Glue 0.9 版和 1.0 版不適用於亞太區域 (雅加達) ()ap-southeast-3、中東 (阿拉伯聯合大公國) (me-central-1) 或其他未來新區域。

注意

下列 Glue 版本支援這些版本的 PythonShell:

  • Glue 1.0 版支援 PythonShell 3.6 版。

  • Glue 3.0 版支援 PythonShell 3.9 版。

此外,開發端點僅支援 Glue 1.0 版和 0.9 版。

在本頁面

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。