Amazon EMR pada rilis EKS 6.8.0 - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Amazon EMR pada rilis EKS 6.8.0

Rilis Amazon EMR 6.8.0 berikut tersedia untuk Amazon EMR di. EKS Pilih emr-6.8.0- XXXX rilis tertentu untuk melihat detail lebih lanjut seperti tag gambar kontainer terkait.

Catatan rilis untuk Amazon EMR 6.8.0

  • Aplikasi yang didukung - AWS SDK for Java 1.12.170, Spark 3.3.0-amzn-0, Hudi 0.11.1-amzn-0, Iceberg 0.14.0-amzn-0.

  • Komponen yang didukung - aws-sagemaker-spark-sdkemr-ddb,emr-goodies,,emr-s3-select,emrfs,hadoop-client,hudi,hudi-spark,iceberg,spark-kubernetes.

  • Klasifikasi konfigurasi yang didukung:

    Klasifikasi Deskripsi

    core-site

    Ubah nilai dalam file core-site.xml Hadoop.

    emrfs-site

    Ubah EMRFS pengaturan.

    spark-metrics

    Ubah nilai dalam file metrics.properties Spark.

    spark-defaults

    Ubah nilai dalam file spark-defaults.conf Spark.

    spark-env

    Ubah nilai di lingkungan Spark.

    spark-hive-site

    Ubah nilai dalam file hive-site.xml Spark.

    spark-log4j

    Ubah nilai dalam file log4j.properties Spark.

    Klasifikasi konfigurasi memungkinkan Anda menyesuaikan aplikasi. Ini sering sesuai dengan XML file konfigurasi untuk aplikasi, sepertispark-hive-site.xml. Untuk informasi selengkapnya, lihat Mengkonfigurasi Aplikasi.

Fitur penting

  • Spark3.3.0 - Amazon EMR di EKS 6.8 menyertakan Spark 3.3.0, yang mendukung penggunaan label pemilih node terpisah untuk pod pelaksana driver Spark. Label baru ini memungkinkan Anda untuk menentukan tipe node untuk driver dan pod eksekutor secara terpisah di StartJobRun API, tanpa menggunakan templat pod.

    • Properti pemilih node driver: spark.kubernetes.driver.node.selector. [labelKey]

    • Properti pemilih node pelaksana: spark.kubernetes.executor.node.selector. [labelKey]

  • Pesan kegagalan pekerjaan yang disempurnakan - Rilis ini memperkenalkan konfigurasi spark.stage.extraDetailsOnFetchFailures.enabled dan spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude melacak kegagalan tugas karena kode pengguna. Detail ini akan digunakan untuk meningkatkan pesan kegagalan yang ditampilkan di log driver ketika tahap dibatalkan karena kegagalan pengambilan acak.

    Nama properti Nilai default Arti Sejak versi

    spark.stage.extraDetailsOnFetchFailures.enabled

    false

    Jika disetel ketrue, properti ini digunakan untuk menyempurnakan pesan kegagalan pekerjaan yang ditampilkan di log driver saat tahap dibatalkan karena Kegagalan Pengambilan Aduk. Secara default, 5 kegagalan tugas terakhir yang disebabkan oleh kode pengguna dilacak, dan pesan kesalahan kegagalan ditambahkan di Log Driver.

    Untuk meningkatkan jumlah kegagalan tugas dengan pengecualian pengguna untuk dilacak, lihat konfigurasispark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude.

    emr-6.8

    spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude

    5

    Jumlah kegagalan tugas untuk melacak per tahap dan upaya. Properti ini digunakan untuk menyempurnakan pesan kegagalan pekerjaan dengan pengecualian pengguna yang ditampilkan di log driver saat tahap dibatalkan karena Kegagalan Pengambilan Aduk.

    Properti ini hanya berfungsi jika Config spark.stage. extraDetailsOnFetchFailures.enabled disetel ke true.

    emr-6.8

Untuk informasi selengkapnya, lihat dokumentasi konfigurasi Apache Spark.

Masalah yang diketahui

Masalah terselesaikan

  • Kemampuan Kernel interupsi untuk pySpark kernel - Dalam proses beban kerja interaktif yang dipicu oleh mengeksekusi sel di notebook dapat dihentikan dengan menggunakan kemampuan tersebut. Interrupt Kernel Perbaikan telah diperkenalkan sehingga fungsi ini berfungsi untuk pySpark kernel. Ini juga tersedia di open source di Changes untuk menangani interupsi untuk PySpark Kubernetes Kernel #1115.