Amazon EMR on EKS 6.10.0 リリース - Amazon EMR

Amazon EMR on EKS 6.10.0 リリース

Amazon EMR on EKS では、次の Amazon EMR 6.10.0 リリースが利用可能です。特定の emr-6.10.0-XXXX リリースを選択すると、関連するコンテナイメージタグなどの詳細が表示されます。

Amazon EMR 6.10.0 のリリースノート

  • サポートされているアプリケーション - AWS SDK for Java 1.12.397、Spark 3.3.1-amzn-0、Hudi 0.12.2-amzn-0、Iceberg 1.1.0-amzn-0、Delta 2.2.0

  • サポートされているコンポーネント - aws-sagemaker-spark-sdkemr-ddbemr-goodiesemr-s3-selectemrfshadoop-clienthudihudi-sparkicebergspark-kubernetes

  • サポートされている設定分類 :

    StartJobRun API と CreateManagedEndpoint API で使用する場合:

    分類 説明

    core-site

    Hadoop の core-site.xml ファイル内の値を変更します。

    emrfs-site

    EMRFS の設定を変更します。

    spark-metrics

    Spark の metrics.properties ファイル内の値を変更します

    spark-defaults

    Spark の spark-defaults.conf ファイル内の値を変更します

    spark-env

    Spark 環境の値を変更します。

    spark-hive-site

    Spark の hive-site.xml ファイル内の値を変更します

    spark-log4j

    Spark の log4j.properties ファイル内の値を変更します

    特に CreateManagedEndpoint API で使用する場合:

    分類 説明

    jeg-config

    Jupyter Enterprise Gateway jupyter_enterprise_gateway_config.py ファイルの値を変更します。

    jupyter-kernel-overrides

    Jupyter カーネル仕様ファイル内のカーネルイメージの値を変更します。

    設定分類を使用すると、アプリケーションをカスタマイズできます。これらは多くの場合、spark-hive-site.xml などのアプリケーションの構成 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

注目すべき機能

  • Spark オペレータ - Amazon EMR on EKS 6.10.0 以降では、Apache Spark の Kubernetes オペレータ (Spark オペレータ) を使用して、Spark アプリケーションを Amazon EMR リリースランタイムと共に独自の Amazon EKS クラスターにデプロイして管理できます。詳細については、「Spark 演算子を使用して Spark ジョブを実行する」を参照してください。

  • Java 11 - Amazon EMR on EKS 6.10 以降では、Spark を Java 11 ランタイムと共に起動できます。このためには、emr-6.10.0-java11-latest をリリースラベルとして渡します。本番稼働用ワークロードを Java 8 イメージから Java 11 イメージに移行する前に、パフォーマンステストを検証して実行することをお勧めします。

  • Amazon Redshift integration for Apache Spark の場合、Amazon EMR on EKS 6.10.0 は minimal-json.jar への依存をなくし、Spark に必要な spark-redshift 関連の jar (spark-redshift.jarspark-avro.jarRedshiftJDBC.jar) をエグゼキュタークラスパスに自動的に追加します。

変更

  • EMRFS S3 に最適化されたコミッターを parquet、ORC、テキストベースの形式 (CSV や JSON など) でデフォルトで使用できるようになりました。