翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon EMR on EKS 6.9.0 リリース
Amazon EMR on では、次の Amazon 6.9.0 EMR リリースが利用可能ですEKS。特定の emr-6.9.0-XXXX リリースを選択すると、関連するコンテナイメージタグなどの詳細が表示されます。
-
emr-6.9.0-spark-rapids-latest
-
emr-6.9.0-spark-rapids-20230624
-
emr-6.9.0-spark-rapids-20221108
-
notebook-spark/emr-6.9.0-latest
-
notebook-spark/emr-6.9.0-20230624
-
notebook-spark/emr-6.9.0-20221108
-
notebook-python/emr-6.9.0-latest
-
notebook-python/emr-6.9.0-20230624
-
notebook-python/emr-6.9.0-20221108
Amazon 6.9.0 EMR のリリースノート
-
サポートされているアプリケーション ‐ AWS SDK for Java 1.12.331、Spark 3.3.0-amzn-1、Hudi 0.12.1-amzn-0、Iceberg 0.14.1-amzn-0、Delta 2.1.0。
-
サポートされているコンポーネント -
aws-sagemaker-spark-sdk
、emr-ddb
、emr-goodies
、emr-s3-select
、emrfs
、hadoop-client
、hudi
、hudi-spark
、iceberg
、spark-kubernetes
。 -
サポートされている設定分類 :
StartJobRun および CreateManagedEndpoint で使用する場合APIs:
分類 説明 core-site
Hadoop の core-site.xml ファイルの値を変更します。
emrfs-site
EMRFS 設定を変更します。
spark-metrics
Spark の metrics.properties ファイルの値を変更します。
spark-defaults
Spark の spark-defaults.conf ファイルの値を変更します。
spark-env
Spark 環境の値を変更します。
spark-hive-site
Spark の hive-site.xml ファイルの値を変更します
spark-log4j
Spark の log4j.properties ファイルの値を変更します。
特に CreateManagedEndpoint で使用する場合APIs:
分類 説明 jeg-config
Jupyter Enterprise Gateway
jupyter_enterprise_gateway_config.py
ファイルの値を変更します。jupyter-kernel-overrides
Jupyter カーネル仕様ファイル内のカーネルイメージの値を変更します。
設定分類を使用すると、アプリケーションをカスタマイズできます。これらは、多くの場合、 などのアプリケーションの設定XMLファイルに対応します
spark-hive-site.xml
。詳細については、「アプリケーションの設定」を参照してください。
注目すべき機能
-
Nvidia RAPIDS Accelerator for Apache Spark - EC2 グラフィック処理ユニット (GPU) インスタンスタイプを使用して Spark を高速化EKSするための Amazon EMR on。RAPIDS Accelerator で Spark イメージを使用するには、リリースラベルを emr-6.9.0- として指定しますspark-rapids-latest。詳細については、ドキュメントページを参照してください。
-
Spark-Redshift コネクタ - Apache Spark 用の Amazon Redshift 統合は、Amazon EMRリリース 6.9.0 以降に含まれています。以前はオープンソースツールであったこのネイティブインテグレーションは Spark コネクタと呼ばれるもので、これを使用して Apache Spark アプリケーションを構築することで、Amazon Redshift と Amazon Redshift Serverless 内のデータを読み書きできます。詳細については、「Amazon EMR on EKS での Amazon Redshift integration for Apache Spark の使用」を参照してください。
-
Delta Lake ‐ Delta Lake
は、オープンソースのストレージ形式であり、一貫性のあるトランザクション、一貫性のあるデータセット定義、スキーマ進化の変更、データミューテーションのサポートを備えたデータレイクを構築できます。詳細については、「Using Delta Lake」を参照してください。 -
PySpark パラメータの変更 - Studio EMR Jupyter Notebook の PySpark セッションに関連付けられた Spark パラメータの変更がインタラクティブエンドポイントでサポートされるようになりました。詳細については、 PySpark 「セッションパラメータの変更」を参照してください。
解決された問題
-
Amazon EMRバージョン 6.6.0、6.7.0、および 6.8.0 で Spark で DynamoDB コネクタを使用すると、入力分割が空でないデータを参照している場合でも、テーブルからのすべての読み取りは空の結果を返します。Amazon EMRリリース 6.9.0 では、この問題が修正されています。
-
Amazon EMR on EKS 6.8.0 では、Apache Spark
を使用して生成された Parquet ファイルメタデータにビルドハッシュが誤って入力されます。この問題により、Amazon on 6.8.0 で生成された Parquet ファイルからメタデータバージョン文字列EKSを解析するツールEMRが失敗する可能性があります。
既知の問題
-
Amazon Redshift integration for Apache Spark を使用している場合に、time、timetz、timestamp、timestamptz のいずれかにマイクロ秒の精度を Parquet 形式で設定していると、コネクタがその時間値を最も近いミリ秒値に四捨五入します。回避策として、テキストアンロード形式
unload_s3_format
パラメータを使用してください。