AWS Glue 版本 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS Glue 版本

您可以在新增或更新任務時設定 AWS Glue 版本參數。 AWS Glue 版本會決定 AWS Glue 支援的 Apache Spark 和 Python 版本。Python 版本指示針對 Spark 類型任務支援的版本。下表列出可用的 AWS Glue 版本、對應的 Spark 和 Python 版本,以及其他功能變更。

AWS Glue 版本

AWS Glue 版本 支援的執行期環境版本 支援的 Java 版本 功能變更
AWS Glue 5.0
  • Spark 3.5.2

  • Python 3.11

  • Scala 2.12.18

Java 17

除了架構更新之外,此 AWS Glue 版本還內建最佳化和升級,例如:

  • Amazon SageMaker Unified Studio 支援

  • Amazon SageMaker Lakehouse 支援

  • 開放資料表格式 (OTF) 已更新為 Hudi 0.15.0、Iceberg 1.6.1 和 Delta Lake 3.2.1

  • 使用 Lake Formation 的 Spark 原生精細存取控制。

  • Amazon S3 Access Grants 支援

  • requirements.txt 支援安裝其他 Python 程式庫

  • Amazon 中的資料譜系支援 DataZone

限制

以下是 5.0 的限制 AWS Glue :

  • GlueContext 使用 Lake Formation 的 Spark 原生精細存取控制 (FGAC) 不支援 和 動態影格。

如需遷移至 AWS Glue 5.0 版的詳細資訊,請參閱 。 AWS Glue 將 Spark 任務遷移至 5.0 AWS Glue 版

AWS Glue 4.0 Spark 環境版本
  • Spark 3.3.0

  • Python 3.10

Java 8

AWS Glue 4.0 在此 AWS Glue 版本中具有許多內建的最佳化和升級,例如:

  • 許多 Spark 功能從 Spark 3.1 升級至 Spark 3.3:

    • 與 pandas 配對時的數個功能改進。如需詳細資訊,請參閱 Spark 3.3 中的新功能

    • Amazon 上開發的其他最佳化EMR。

    • 升級至EMR檔案系統 (EMRFS) 2.53。

  • 從 Log4j 1.x 遷移至 Log4j 2

  • 從 AWS Glue 3.0 開始更新了數個 Python 模組,例如 Boto 的升級版本。

  • 升級數個連接器,包括預設的 Amazon Redshift 連接器。請參閱 附錄 C:連接器升級

  • 升級數個JDBC驅動程式。請參閱 附錄 B:JDBC驅動程式升級

  • 以新的 Amazon Redshift 連接器和JDBC驅動程式更新。

  • 原生支援開放式資料湖架構,包括 Apache Hudi、Delta Lake 和 Apache Iceberg。

  • 原生支援以 Amazon S3 為基礎的雲端隨機排序儲存外掛程式 (Apache Spark 外掛程式),以使用 Amazon S3 進行隨機排序和彈性儲存容量。

限制

以下為 AWS Glue 4.0 的限制:

  • AWS Glue 機器學習和個人身分識別資訊 (PII) 轉換尚未在 AWS Glue 4.0 中提供。

如需遷移到 AWS Glue 4.0 版的詳細資訊,請參閱AWS Glue 將 Spark 任務遷移至 4.0 AWS Glue 版

Ray 環境版本
  • Ray 2.4.0

    Python 3.9

N/A

使用 AWS Glue for Ray 建置和執行分散式 Python 應用程式。

AWS Glue 4.0 中 Ray 任務的限制

  • AWS Glue Ray 的互動式工作階段會保留在此版本的預覽中。

  • AWS Glue for Ray 與 VPC Amazon 整合目前無法使用。如果沒有公有路由, AWS 將無法存取 VPC 中的資源。如需 AWS Glue 搭配 Amazon 使用 的詳細資訊VPC,請參閱 設定 (AWS PrivateLink) 的介面VPC端點 AWS Glue (AWS PrivateLink)

  • AWS Glue for Ray 適用於美國東部 (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (奧勒岡)、亞太區域 (東京) 和歐洲 (愛爾蘭)。

AWS Glue 3.0
  • Spark 3.1.1

  • Python 3.7

Java 8

除了 Spark 引擎升級到 3.0 之外,這個 AWS Glue 版本還內建了一些最佳化和升級,例如:

  • 針對 Spark 3.0 建置 AWS Glue ETL程式庫,這是 Spark 的主要版本。

  • AWS Glue 3.0 支援串流任務。

  • 包括效能和可靠性的新 AWS Glue Spark 執行期最佳化:

    • 根據 Apache Arrow 讀取CSV資料的記憶體內單欄式處理速度更快。

    • SIMD以 為基礎的執行,以使用 CSV 資料進行引導式讀取。

    • Spark 升級也包括在 Amazon 上開發的其他最佳化EMR。

    • EMRFS 從 2.38 升級到 2.46,以啟用 Amazon S3 存取的新功能和錯誤修正。

  • 升級了新 Spark 版本所需的幾個相依性。

  • 原生支援資料來源的升級JDBC驅動程式。

限制

以下為 AWS Glue 3.0 的限制:

  • AWS Glue 機器學習轉換尚未在 AWS Glue 3.0 中提供。

  • 某些自訂 Spark 連接器無法用於 AWS Glue 3.0,如果它們依賴於 Spark 2.4,並且與 Spark 3.1 沒有相容性。

AWS Glue 2.0 (已棄用、支援結束)
  • Spark 2.4.3

  • Python 3.7

N/A

除了 1.0 版所提供的 AWS Glue 功能之外,2.0 AWS Glue 版還提供:

  • 在 中執行 Apache Spark ETL任務的升級基礎設施 AWS Glue ,可縮短啟動時間。

  • 預設日誌記錄現在是即時的記錄,為驅動程式和執行程序以及輸出和錯誤提供單獨的串流。

  • 支援在任務層級指定其他 Python 模組或不同版本。

注意

AWS Glue 2.0 版與 1.0 AWS Glue 版不同,因為基礎架構變更,所以某些相依性和版本會有所不同。請先驗證您的 AWS Glue 任務,然後再跨主要 AWS Glue 版本發行遷移。

AWS Glue 1.0 (已棄用、支援結束)
  • Spark 2.4.3

  • Python 2.7

  • Python 3.6

N/A

您可以在任務中維護 Parquet 和ORC格式 AWS Glue ETL的任務書籤 (使用 AWS Glue 1.0 版)。先前,您只能將常見的 Amazon S3 來源格式加入書籤CSV,例如 JSON、、Apache Avro 和 任務XML。 AWS Glue ETL

設定ETL輸入和輸出的格式選項時,您可以指定 使用 Apache Avro 讀取器/寫入器格式 1.8,以支援 Avro 邏輯類型讀取和寫入 (使用 1.0 AWS Glue 版)。先前僅支援 1.7 版的 Avro Reader/Writer 格式。

DynamoDB 連線類型支援寫入器選項 (使用 AWS Glue 1.0 版)。

限制

以下為 AWS Glue 1.0 的限制:

  • AWS Glue 0.9 和 1.0 版不適用於亞太區域 (雅加達) ()ap-southeast-3、中東 (UAE) (me-central-1) 或其他未來新區域。

AWS Glue 0.9 (已棄用、支援結束)
  • Spark 2.2.1

  • Python 2.7

N/A

在未指定版本預設為 AWS Glue 0.9 AWS Glue 的情況下建立的任務。

限制

以下為 AWS Glue 0.9 的限制:

  • AWS Glue 0.9 和 1.0 版不適用於亞太區域 (雅加達) ()ap-southeast-3、中東 (UAE) (me-central-1) 或其他未來新區域。

注意

下列 Glue 版本支援這些 版本 PythonShell:

  • PythonShell Glue 1.0 版支援 v3.6。

  • PythonShell Glue 3.0 版支援 v3.9。

此外,開發端點僅支援 Glue 1.0 版和 0.9 版。