Amazon EMR pada rilis EKS 6.9.0 - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Amazon EMR pada rilis EKS 6.9.0

Rilis Amazon EMR 6.9.0 berikut tersedia untuk Amazon EMR di. EKS Pilih emr-6.9.0- XXXX rilis tertentu untuk melihat detail lebih lanjut seperti tag gambar kontainer terkait.

  • emr-6.9.0-terbaru

  • emr-6.9.0-20230905

  • emr-6.9.0-20230624

  • emr-6.9.0-20221108

  • emr-6.9.0- spark-rapids-latest

  • emr-6.9.0-spark-cepat-20230624

  • emr-6.9.0-spark-cepat-20221108

  • notebook-spark/emr-6.9.0-terbaru

  • notebook-spark/emr-6.9.0-20230624

  • notebook-spark/emr-6.9.0-20221108

  • notebook-python/emr-6.9.0-terbaru

  • notebook-python/emr-6.9.0-20230624

  • notebook-python/emr-6.9.0-20221108

Catatan rilis untuk Amazon EMR 6.9.0

  • Aplikasi yang didukung - AWS SDK for Java 1.12.331, Spark 3.3.0-amzn-1, Hudi 0.12.1-amzn-0, Iceberg 0.14.1-amzn-0, Delta 2.1.0.

  • Komponen yang didukung - aws-sagemaker-spark-sdkemr-ddb,emr-goodies,,emr-s3-select,emrfs,hadoop-client,hudi,hudi-spark,iceberg,spark-kubernetes.

  • Klasifikasi konfigurasi yang didukung:

    Untuk digunakan dengan StartJobRundan CreateManagedEndpointAPIs:

    Klasifikasi Deskripsi

    core-site

    Ubah nilai dalam file core-site.xml Hadoop.

    emrfs-site

    Ubah EMRFS pengaturan.

    spark-metrics

    Ubah nilai dalam file metrics.properties Spark.

    spark-defaults

    Ubah nilai dalam file spark-defaults.conf Spark.

    spark-env

    Ubah nilai di lingkungan Spark.

    spark-hive-site

    Ubah nilai dalam file hive-site.xml Spark.

    spark-log4j

    Ubah nilai dalam file log4j.properties Spark.

    Untuk digunakan secara khusus dengan CreateManagedEndpointAPIs:

    Klasifikasi Deskripsi

    jeg-config

    Ubah nilai dalam file Jupyter Enterprise Gatewayjupyter_enterprise_gateway_config.py.

    jupyter-kernel-overrides

    Ubah nilai untuk Gambar Kernel di file Spesifikasi Kernel Jupyter.

    Klasifikasi konfigurasi memungkinkan Anda menyesuaikan aplikasi. Ini sering sesuai dengan XML file konfigurasi untuk aplikasi, sepertispark-hive-site.xml. Untuk informasi selengkapnya, lihat Mengkonfigurasi Aplikasi.

Fitur penting

  • RAPIDSAkselerator Nvidia untuk Apache Spark - EMR Amazon EKS akan mempercepat Spark menggunakan tipe instans unit pemrosesan EC2 grafis ()GPU. Untuk menggunakan gambar Spark dengan RAPIDS Accelerator, tentukan label rilis sebagai emr-6.9.0-. spark-rapids-latest Kunjungi halaman dokumentasi untuk mempelajari lebih lanjut.

  • Konektor Spark-Redshift - Integrasi Amazon Redshift untuk Apache Spark disertakan dalam rilis Amazon 6.9.0 dan yang lebih baru. EMR Sebelumnya alat open-source, integrasi asli adalah konektor Spark yang dapat Anda gunakan untuk membangun aplikasi Apache Spark yang membaca dan menulis ke data di Amazon Redshift dan Amazon Redshift Serverless. Untuk informasi selengkapnya, lihat Menggunakan integrasi Amazon Redshift untuk Apache Spark di Amazon EMR EKS.

  • Delta Lake - Delta Lake adalah format penyimpanan sumber terbuka yang memungkinkan pembangunan danau data dengan konsistensi transaksional, definisi kumpulan data yang konsisten, perubahan evolusi skema, dan dukungan mutasi data. Kunjungi Menggunakan Danau Delta untuk mempelajari lebih lanjut.

  • Ubah PySpark parameter - Titik akhir interaktif sekarang mendukung modifikasi parameter Spark yang terkait dengan PySpark sesi di EMR Studio Jupyter Notebook. Kunjungi Memodifikasi parameter PySpark sesi untuk mempelajari lebih lanjut.

Masalah terselesaikan

Masalah yang diketahui

  • Jika Anda menggunakan integrasi Amazon Redshift untuk Apache Spark dan memiliki waktu, jadwal, stempel waktu, atau timestamptz dengan presisi mikrodetik dalam format Parket, konektor membulatkan nilai waktu ke nilai milidetik terdekat. Sebagai solusinya, gunakan parameter format bongkar teks. unload_s3_format