翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon EMR on EKS 6.8.0 リリース
Amazon EMR on EKS では、次の Amazon EMR 6.8.0 リリースが利用可能です。特定の emr-6.8.0-XXXX リリースを選択すると、関連するコンテナイメージタグなどの詳細が表示されます。
Amazon EMR 6.8.0 のリリースノート
-
サポートされているアプリケーション ‐ AWS SDK for Java 1.12.170、Spark 3.3.0-amzn-0、Hudi 0.11.1-amzn-0、Iceberg 0.14.0-amzn-0。
-
サポートされているコンポーネント -
aws-sagemaker-spark-sdk
、emr-ddb
、emr-goodies
、emr-s3-select
、emrfs
、hadoop-client
、hudi
、hudi-spark
、iceberg
、spark-kubernetes
。 -
サポートされている設定分類 :
分類 説明 core-site
Hadoop の core-site.xml ファイルの値を変更します。
emrfs-site
EMRFS の設定を変更します。
spark-metrics
Spark の metrics.properties ファイルの値を変更します。
spark-defaults
Spark の spark-defaults.conf ファイルの値を変更します。
spark-env
Spark 環境の値を変更します。
spark-hive-site
Spark の hive-site.xml ファイルの値を変更します
spark-log4j
Spark の log4j.properties ファイルの値を変更します。
設定分類を使用すると、アプリケーションをカスタマイズできます。これらは多くの場合、
spark-hive-site.xml
などのアプリケーションの構成 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。
注目すべき機能
-
Spark3.3.0 ‐ Amazon EMR on EKS 6.8 には、Spark 3.3.0 が含まれています。これにより、Spark ドライバーエグゼキュターポッドに個別のノードセレクターラベルを使用できるようになりました。こうした新しいラベルを使用すると、ポッドテンプレートを使用しなくても StartJobRun API でドライバーポッドとエグゼキュターポッドのノードタイプを個別に定義できます。
-
ドライバーノードセレクタープロパティ: spark.kubernetes.driver.node.selector.[ラベルキー]
-
エグゼキュターノードセレクタープロパティ: spark.kubernetes.executor.node.selector.[ラベルキー]
-
-
ジョブ失敗メッセージの充実 - このリリースでは、設定
spark.stage.extraDetailsOnFetchFailures.enabled
とspark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude
が導入され、ユーザーコードによるタスク失敗を追跡できるようになりました。こうした設定の詳しい情報を使用すると、シャッフルフェッチの失敗によってステージが中止されたときにドライバーログに表示される失敗メッセージを充実させることができます。プロパティ名 デフォルト値 意味 バージョン以降 spark.stage.extraDetailsOnFetchFailures.enabled
false
true
に設定すると、このプロパティを使用して、シャッフルフェッチの失敗によってステージが中止されたときにドライバーログに表示されるジョブ失敗メッセージを充実させることができます。デフォルトでは、ユーザーコードによるタスク失敗のうち直近 5 件が追跡され、失敗エラーメッセージがドライバーログに追加されます。ユーザー例外で追跡できるタスク失敗の数を増やすには、設定
spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude
を参照してください。emr-6.8
spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude
5
ステージおよび試行ごとに追跡できるタスク失敗の数。このプロパティを使用すると、シャッフルフェッチの失敗によってステージが中止されたときにドライバーログに表示されるジョブ失敗メッセージをユーザー例外で充実させることができます。
このプロパティは、設定 spark.stage.extraDetailsOnFetchFailures.enabled が true に設定されている場合にのみ機能します。
emr-6.8
詳細については、「Apache Spark の設定ドキュメント
既知の問題
-
Amazon EMR on EKS 6.8.0 では、Apache Spark
を使用して生成された Parquet ファイルのメタデータにビルドハッシュが誤って入力されます。この問題のため、Amazon EMR on EKS 6.8.0 が生成した Parquet ファイルのメタデータバージョン文字列をツールで解析しようとすると、ツールが失敗する場合があります。Parquet メタデータからバージョン文字列を解析し、ビルドハッシュに依存するお客様は、別の Amazon EMR バージョンに切り替えて、Parquet ファイルを書き換える必要があります。
解決された問題
-
pySpark カーネルのカーネル割り込み機能 - ノートブックでセルを実行することでトリガーされるインタラクティブワークロードが進行中の場合、
Interrupt Kernel
機能を使用して停止できます。pySpark カーネルに対してこの機能が動作するように修正が施されました。これは、「PySpark Kubernetes カーネルの割り込み処理に関する変更 #1115」でオープンソースでも使用可能です。