AWS Glue バージョン - AWS Glue

AWS Glue バージョン

AWS Glue バージョンパラメータは、ジョブを追加または更新するときに設定できます。AWS Glueバージョンにより、AWS Glueがサポートする Apache Spark と Python のバージョンが決定されます。Python バージョンは、Spark タイプのジョブでサポートされるバージョンを示します。次の表に、使用可能な AWS Glue のバージョン、対応する Spark と Python のバージョン、および機能上のその他の変更点を示します。

AWS Glue バージョン

AWS Glue バージョン サポートされているランタイム環境バージョン サポートされている Java バージョン 機能の変更
AWS Glue 5.0
  • Spark 3.5.2

  • Python 3.11

  • Scala 2.12.18

Java 17

フレームワークへのアップグレードに加えて、この AWS Glue リリースでは、以下の最適化とアップグレードが組み込まれています。

  • Amazon SageMaker Unified Studio のサポート

  • Amazon SageMaker Lakehouse のサポート

  • オープンテーブルフォーマット (OTF) が Hudi 0.15.0、Iceberg 1.6.1、Delta Lake 3.2.1 に更新

  • Lake Formation を使用した Spark ネイティブのきめ細かなアクセスコントロール

  • Amazon S3 Access Grants のサポート

  • 追加の Python ライブラリをインストールするための requirements.txt をサポート

  • Amazon DataZone のデータリネージュのサポート

制限

AWS Glue 5.0 での制限事項は以下のとおりです。

  • GlueContext および動的フレームは、Lake Formation を使用した Spark ネイティブのきめ細かなアクセスコントロール (FGAC) ではサポートされていません。

AWS Glue バージョン 5.0 への移行に関する詳細については、「Spark ジョブの AWS Glue の AWS Glue バージョン 5.0 への移行」を参照してください。

AWS Glue 4.0 Spark 環境バージョン
  • Spark 3.3.0

  • Python 3.10

Java 8

AWS Glue 4.0 では、AWS Glue リリースで次のような多くの最適化とアップグレードが組み込まれています。

  • Spark 3.1 から Spark 3.3 になり、Spark の機能の多くがアップグレードされています。

    • Pandas と組み合わせたときに改善されるいくつかの機能。詳細については、「What's New in Spark 3.3」(Spark 3.3 の新機能) を参照してください。

    • Amazon EMR で開発されたその他の最適化。

    • EMR ファイルシステム (EMRFS) 2.53 へのアップグレード。

  • Log4j 1.x から Log4j 2 への移行

  • Boto のアップグレード版など、いくつかの Python モジュールの AWS Glue 3.0 からの更新。

  • デフォルトの Amazon Redshift コネクタを含むいくつかのコネクタのアップグレード。「付録 C: コネクタのアップグレード」を参照してください。

  • いくつかの JDBC ドライバーのアップグレード。「付録 B: JDBC ドライバーのアップグレード」を参照してください。

  • 新しい Amazon Redshift コネクタと JDBC ドライバーで更新されました。

  • Apache Hudi、Delta Lake、および Apache Iceberg によるオープンデータレイクフレームワークのネイティブサポート。

  • Amazon S3 ベースのクラウドシャッフルストレージプラグイン (Apache Spark プラグイン) のネイティブサポート。これにより、Amazon S3 によるシャッフルと伸縮自在なストレージ容量が使用できるようになります。

制限

AWS Glue 4.0 での制限事項を次に示します。

  • AWS Glue 機械学習変換と個人を特定できる情報 (PII) 変換は AWS Glue 4.0 ではまだ使用できません。

AWS Glue バージョン 4.0 への移行に関する詳細については、「Spark ジョブの AWS Glue の AWS Glue バージョン 4.0 への移行」を参照してください。

Ray 環境バージョン
  • Ray 2.4.0

    Python 3.9

該当なし

AWS Glue for Ray を使用して分散型 Python アプリケーションをビルドして実行します。

AWS Glue 4.0 での Ray ジョブの制限事項

  • Ray の AWS Glue インタラクティブセッションは、このリリースでもまだプレビュー段階です。

  • AWS Glue for Ray の Amazon VPC との統合は、現在ご利用いただけません。AWS にある VPC 内のリソースには、パブリックルートがないとアクセスできません。Amazon VPC での AWS Glue の使用に関する詳細は、「AWS Glue (AWS PrivateLink) のインターフェイス VPC エンドポイントの設定 (AWS PrivateLink)」を参照してください。

  • AWS Glue for Ray は、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、アジアパシフィック (東京)、欧州 (アイルランド) でご利用いただけます。

AWS Glue 3.0
  • Spark 3.1.1

  • 「Python 3.7」

Java 8

Spark エンジン 3.0 へのアップグレードに加えて、この AWS Glue リリースでは、以下の最適化とアップグレードが行われています。

  • Spark のメジャーリリースである Spark 3.0 に対するAWS Glue ETL ライブラリの構築。

  • AWS Glue 3.0 によるストリーミングジョブのサポート

  • パフォーマンスと信頼性のための、以下の新しい AWS Glue Spark ランタイム最適化。

    • CSV データ読み取りのための、より高速化された Apache Arrow ベースのインメモリ列指向処理。

    • CSV データに関するベクトル化された読み取りのための SIMD ベースの実行。

    • Spark のアップグレードには、Amazon EMR で開発された他の最適化も含まれます。

    • EMRFS 2.38 から 2.46 へのアップグレードにともなう、Amazon S3 アクセスのための新機能追加とバグ修正。

  • 新しい Spark バージョンに必要ないくつかの依存関係のアップグレード。

  • ネイティブにサポートされているデータソース用の、JDBC ドライバのアップグレード。

制限

以下に、AWS Glue 3.0での制限事項を示します。

  • 現在、AWS Glue の 機械学習変換は AWS Glue 3.0 で使用できません。

  • Spark 2.4 に依存しており、Spark 3.1との互換性がない一部のカスタム Spark コネクタは、AWS Glue 3.0 では動作しません。

AWS Glue 2.0 (非推奨、サポート終了)
  • Spark 2.4.3

  • 「Python 3.7」

該当なし

AWS Glue バージョン 2.0 では、AWS Glue バージョン 1.0 で提供される機能に加えて次の機能も提供されます。

  • AWS Glue で Apache Spark ETLジョブを実行するための、アップグレードされたインフラストラクチャにより、起動時間が大幅に短縮されています。

  • デフォルトのログ記録機能はリアルタイムになり、ストリームがドライバー用とエグゼキュター用、出力用とエラー用の間でそれぞれ分離されています。

  • ジョブレベルで追加の Python モジュールまたは異なるバージョンを指定するためのサポート。

注記

基礎となるアーキテクチャの変更に伴い、AWS Glue バージョン 2.0 での一部の依存関係とバージョンが、AWS Glue バージョン 1.0 から変更されています。AWS Glue のメジャーバージョンリリース間での移行の前に、AWS Glue ジョブの検証を行ってください。

AWS Glue 1.0 (非推奨、サポート終了)
  • Spark 2.4.3

  • Python 2.7

  • Python 3.6

該当なし

AWS Glue ETL ジョブ (AWS Glue バージョン 1.0 を使用) には、Parquet 形式と ORC 形式のジョブのブックマークを維持できます。これまで AWS Glue ETL ジョブでは、JSON、CSV、Apache Avro、XML などの一般的な Amazon S3 ソース形式のみのブックマークが可能でした。

ETL 入力および出力の形式オプションを設定する際に、Apache Avro のリーダー/ライター形式 1.8 を使用して Avro 論理型の読み取りと書き込みをサポートするように指定できます (AWS Glue バージョン 1.0 を使用)。以前は、バージョン 1.7 Avro リーダー/ライター形式のみがサポートされていました。

DynamoDB 接続タイプは、(AWS Glue バージョン 1.0 を使用する) ライターオプションをサポートします。

制限

AWS Glue 1.0 での制限事項を次に示します。

  • AWS Glue バージョン 0.9 と 1.0 は、今後、アジアパシフィック (ジャカルタ) (ap-southeast-3)、中東 (UAE) (me-central-1)、その他の新しい地域ではご利用いただけなくなります。

AWS Glue 0.9 (非推奨、サポート終了)
  • Spark 2.2.1

  • Python 2.7

該当なし

AWS Glue バージョンを指定せずに作成されたジョブは、デフォルトで AWS Glue 0.9 に設定されます。

制限

AWS Glue 0.9 での制限事項を次に示します。

  • AWS Glue バージョン 0.9 と 1.0 は、今後、アジアパシフィック (ジャカルタ) (ap-southeast-3)、中東 (UAE) (me-central-1)、その他の新しい地域ではご利用いただけなくなります。

注記

次の Glue バージョンは、PythonShell のこれらのバージョンをサポートしています。

  • PythonShell v3.6 は Glue バージョン 1.0 でサポートされています。

  • PythonShell v3.9 は Glue バージョン 3.0 でサポートされています。

さらに、開発エンドポイントは Glue バージョン 1.0 および 0.9 でのみサポートされています。