Amazon EMR on EKS 6.9.0 リリース - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon EMR on EKS 6.9.0 リリース

Amazon EMR on では、次の Amazon 6.9.0 EMR リリースが利用可能ですEKS。特定の emr-6.9.0-XXXX リリースを選択すると、関連するコンテナイメージタグなどの詳細が表示されます。

  • emr-6.9.0-latest

  • emr-6.9.0-20230905

  • emr-6.9.0-20230624

  • emr-6.9.0-20221108

  • emr-6.9.0-spark-rapids-latest

  • emr-6.9.0-spark-rapids-20230624

  • emr-6.9.0-spark-rapids-20221108

  • notebook-spark/emr-6.9.0-latest

  • notebook-spark/emr-6.9.0-20230624

  • notebook-spark/emr-6.9.0-20221108

  • notebook-python/emr-6.9.0-latest

  • notebook-python/emr-6.9.0-20230624

  • notebook-python/emr-6.9.0-20221108

Amazon 6.9.0 EMR のリリースノート

  • サポートされているアプリケーション ‐ AWS SDK for Java 1.12.331、Spark 3.3.0-amzn-1、Hudi 0.12.1-amzn-0、Iceberg 0.14.1-amzn-0、Delta 2.1.0。

  • サポートされているコンポーネント - aws-sagemaker-spark-sdkemr-ddbemr-goodiesemr-s3-selectemrfshadoop-clienthudihudi-sparkicebergspark-kubernetes

  • サポートされている設定分類 :

    StartJobRun および CreateManagedEndpoint で使用する場合APIs:

    分類 説明

    core-site

    Hadoop の core-site.xml ファイルの値を変更します。

    emrfs-site

    EMRFS 設定を変更します。

    spark-metrics

    Spark の metrics.properties ファイルの値を変更します。

    spark-defaults

    Spark の spark-defaults.conf ファイルの値を変更します。

    spark-env

    Spark 環境の値を変更します。

    spark-hive-site

    Spark の hive-site.xml ファイルの値を変更します

    spark-log4j

    Spark の log4j.properties ファイルの値を変更します。

    特に CreateManagedEndpoint で使用する場合APIs:

    分類 説明

    jeg-config

    Jupyter Enterprise Gateway jupyter_enterprise_gateway_config.py ファイルの値を変更します。

    jupyter-kernel-overrides

    Jupyter カーネル仕様ファイル内のカーネルイメージの値を変更します。

    設定分類を使用すると、アプリケーションをカスタマイズできます。これらは、多くの場合、 などのアプリケーションの設定XMLファイルに対応しますspark-hive-site.xml。詳細については、「アプリケーションの設定」を参照してください。

注目すべき機能

  • Nvidia RAPIDS Accelerator for Apache Spark - EC2 グラフィック処理ユニット (GPU) インスタンスタイプを使用して Spark を高速化EKSするための Amazon EMR on。RAPIDS Accelerator で Spark イメージを使用するには、リリースラベルを emr-6.9.0- として指定しますspark-rapids-latest。詳細については、ドキュメントページを参照してください。

  • Spark-Redshift コネクタ - Apache Spark 用の Amazon Redshift 統合は、Amazon EMRリリース 6.9.0 以降に含まれています。以前はオープンソースツールであったこのネイティブインテグレーションは Spark コネクタと呼ばれるもので、これを使用して Apache Spark アプリケーションを構築することで、Amazon Redshift と Amazon Redshift Serverless 内のデータを読み書きできます。詳細については、「Amazon EMR on EKS での Amazon Redshift integration for Apache Spark の使用」を参照してください。

  • Delta LakeDelta Lake は、オープンソースのストレージ形式であり、一貫性のあるトランザクション、一貫性のあるデータセット定義、スキーマ進化の変更、データミューテーションのサポートを備えたデータレイクを構築できます。詳細については、「Using Delta Lake」を参照してください。

  • PySpark パラメータの変更 - Studio EMR Jupyter Notebook の PySpark セッションに関連付けられた Spark パラメータの変更がインタラクティブエンドポイントでサポートされるようになりました。詳細については、 PySpark 「セッションパラメータの変更」を参照してください。

解決された問題

  • Amazon EMRバージョン 6.6.0、6.7.0、および 6.8.0 で Spark で DynamoDB コネクタを使用すると、入力分割が空でないデータを参照している場合でも、テーブルからのすべての読み取りは空の結果を返します。Amazon EMRリリース 6.9.0 では、この問題が修正されています。

  • Amazon EMR on EKS 6.8.0 では、Apache Spark を使用して生成された Parquet ファイルメタデータにビルドハッシュが誤って入力されます。この問題により、Amazon on 6.8.0 で生成された Parquet ファイルからメタデータバージョン文字列EKSを解析するツールEMRが失敗する可能性があります。

既知の問題

  • Amazon Redshift integration for Apache Spark を使用している場合に、time、timetz、timestamp、timestamptz のいずれかにマイクロ秒の精度を Parquet 形式で設定していると、コネクタがその時間値を最も近いミリ秒値に四捨五入します。回避策として、テキストアンロード形式 unload_s3_format パラメータを使用してください。