Amazon EMR on EKS 6.8.0 リリース - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon EMR on EKS 6.8.0 リリース

Amazon EMR on EKS では、次の Amazon EMR 6.8.0 リリースが利用可能です。特定の emr-6.8.0-XXXX リリースを選択すると、関連するコンテナイメージタグなどの詳細が表示されます。

Amazon EMR 6.8.0 のリリースノート

  • サポートされているアプリケーション ‐ AWS SDK for Java 1.12.170、Spark 3.3.0-amzn-0、Hudi 0.11.1-amzn-0、Iceberg 0.14.0-amzn-0。

  • サポートされているコンポーネント - aws-sagemaker-spark-sdkemr-ddbemr-goodiesemr-s3-selectemrfshadoop-clienthudihudi-sparkicebergspark-kubernetes

  • サポートされている設定分類 :

    分類 説明

    core-site

    Hadoop の core-site.xml ファイルの値を変更します。

    emrfs-site

    EMRFS の設定を変更します。

    spark-metrics

    Spark の metrics.properties ファイルの値を変更します。

    spark-defaults

    Spark の spark-defaults.conf ファイルの値を変更します。

    spark-env

    Spark 環境の値を変更します。

    spark-hive-site

    Spark の hive-site.xml ファイルの値を変更します

    spark-log4j

    Spark の log4j.properties ファイルの値を変更します。

    設定分類を使用すると、アプリケーションをカスタマイズできます。これらは多くの場合、spark-hive-site.xml などのアプリケーションの構成 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

注目すべき機能

  • Spark3.3.0 ‐ Amazon EMR on EKS 6.8 には、Spark 3.3.0 が含まれています。これにより、Spark ドライバーエグゼキュターポッドに個別のノードセレクターラベルを使用できるようになりました。こうした新しいラベルを使用すると、ポッドテンプレートを使用しなくても StartJobRun API でドライバーポッドとエグゼキュターポッドのノードタイプを個別に定義できます。

    • ドライバーノードセレクタープロパティ: spark.kubernetes.driver.node.selector.[ラベルキー]

    • エグゼキュターノードセレクタープロパティ: spark.kubernetes.executor.node.selector.[ラベルキー]

  • ジョブ失敗メッセージの充実 - このリリースでは、設定 spark.stage.extraDetailsOnFetchFailures.enabledspark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude が導入され、ユーザーコードによるタスク失敗を追跡できるようになりました。こうした設定の詳しい情報を使用すると、シャッフルフェッチの失敗によってステージが中止されたときにドライバーログに表示される失敗メッセージを充実させることができます。

    プロパティ名 デフォルト値 意味 バージョン以降

    spark.stage.extraDetailsOnFetchFailures.enabled

    false

    true に設定すると、このプロパティを使用して、シャッフルフェッチの失敗によってステージが中止されたときにドライバーログに表示されるジョブ失敗メッセージを充実させることができます。デフォルトでは、ユーザーコードによるタスク失敗のうち直近 5 件が追跡され、失敗エラーメッセージがドライバーログに追加されます。

    ユーザー例外で追跡できるタスク失敗の数を増やすには、設定 spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude を参照してください。

    emr-6.8

    spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude

    5

    ステージおよび試行ごとに追跡できるタスク失敗の数。このプロパティを使用すると、シャッフルフェッチの失敗によってステージが中止されたときにドライバーログに表示されるジョブ失敗メッセージをユーザー例外で充実させることができます。

    このプロパティは、設定 spark.stage.extraDetailsOnFetchFailures.enabled が true に設定されている場合にのみ機能します。

    emr-6.8

詳細については、「Apache Spark の設定ドキュメント」を参照してください。

既知の問題

  • Amazon EMR on EKS 6.8.0 では、Apache Spark を使用して生成された Parquet ファイルのメタデータにビルドハッシュが誤って入力されます。この問題のため、Amazon EMR on EKS 6.8.0 が生成した Parquet ファイルのメタデータバージョン文字列をツールで解析しようとすると、ツールが失敗する場合があります。Parquet メタデータからバージョン文字列を解析し、ビルドハッシュに依存するお客様は、別の Amazon EMR バージョンに切り替えて、Parquet ファイルを書き換える必要があります。

解決された問題

  • pySpark カーネルのカーネル割り込み機能 - ノートブックでセルを実行することでトリガーされるインタラクティブワークロードが進行中の場合、Interrupt Kernel 機能を使用して停止できます。pySpark カーネルに対してこの機能が動作するように修正が施されました。これは、「PySpark Kubernetes カーネルの割り込み処理に関する変更 #1115」でオープンソースでも使用可能です。