Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Amazon EMR pada rilis EKS 6.9.0
Rilis Amazon EMR 6.9.0 berikut tersedia untuk Amazon EMR di. EKS Pilih emr-6.9.0- XXXX rilis tertentu untuk melihat detail lebih lanjut seperti tag gambar kontainer terkait.
-
emr-6.9.0- spark-rapids-latest
-
emr-6.9.0-spark-cepat-20230624
-
emr-6.9.0-spark-cepat-20221108
-
notebook-spark/emr-6.9.0-terbaru
-
notebook-spark/emr-6.9.0-20230624
-
notebook-spark/emr-6.9.0-20221108
-
notebook-python/emr-6.9.0-terbaru
-
notebook-python/emr-6.9.0-20230624
-
notebook-python/emr-6.9.0-20221108
Catatan rilis untuk Amazon EMR 6.9.0
-
Aplikasi yang didukung - AWS SDK for Java 1.12.331, Spark 3.3.0-amzn-1, Hudi 0.12.1-amzn-0, Iceberg 0.14.1-amzn-0, Delta 2.1.0.
-
Komponen yang didukung -
aws-sagemaker-spark-sdk
emr-ddb
,emr-goodies
,,emr-s3-select
,emrfs
,hadoop-client
,hudi
,hudi-spark
,iceberg
,spark-kubernetes
. -
Klasifikasi konfigurasi yang didukung:
Untuk digunakan dengan StartJobRundan CreateManagedEndpointAPIs:
Klasifikasi Deskripsi core-site
Ubah nilai dalam file core-site.xml Hadoop.
emrfs-site
Ubah EMRFS pengaturan.
spark-metrics
Ubah nilai dalam file metrics.properties Spark.
spark-defaults
Ubah nilai dalam file spark-defaults.conf Spark.
spark-env
Ubah nilai di lingkungan Spark.
spark-hive-site
Ubah nilai dalam file hive-site.xml Spark.
spark-log4j
Ubah nilai dalam file log4j.properties Spark.
Untuk digunakan secara khusus dengan CreateManagedEndpointAPIs:
Klasifikasi Deskripsi jeg-config
Ubah nilai dalam file Jupyter Enterprise Gateway
jupyter_enterprise_gateway_config.py
.jupyter-kernel-overrides
Ubah nilai untuk Gambar Kernel di file Spesifikasi Kernel Jupyter.
Klasifikasi konfigurasi memungkinkan Anda menyesuaikan aplikasi. Ini sering sesuai dengan XML file konfigurasi untuk aplikasi, seperti
spark-hive-site.xml
. Untuk informasi selengkapnya, lihat Mengkonfigurasi Aplikasi.
Fitur penting
-
RAPIDSAkselerator Nvidia untuk Apache Spark - EMR Amazon EKS akan mempercepat Spark menggunakan tipe instans unit pemrosesan EC2 grafis ()GPU. Untuk menggunakan gambar Spark dengan RAPIDS Accelerator, tentukan label rilis sebagai emr-6.9.0-. spark-rapids-latest Kunjungi halaman dokumentasi untuk mempelajari lebih lanjut.
-
Konektor Spark-Redshift - Integrasi Amazon Redshift untuk Apache Spark disertakan dalam rilis Amazon 6.9.0 dan yang lebih baru. EMR Sebelumnya alat open-source, integrasi asli adalah konektor Spark yang dapat Anda gunakan untuk membangun aplikasi Apache Spark yang membaca dan menulis ke data di Amazon Redshift dan Amazon Redshift Serverless. Untuk informasi selengkapnya, lihat Menggunakan integrasi Amazon Redshift untuk Apache Spark di Amazon EMR EKS.
-
Delta Lake - Delta Lake
adalah format penyimpanan sumber terbuka yang memungkinkan pembangunan danau data dengan konsistensi transaksional, definisi kumpulan data yang konsisten, perubahan evolusi skema, dan dukungan mutasi data. Kunjungi Menggunakan Danau Delta untuk mempelajari lebih lanjut. -
Ubah PySpark parameter - Titik akhir interaktif sekarang mendukung modifikasi parameter Spark yang terkait dengan PySpark sesi di EMR Studio Jupyter Notebook. Kunjungi Memodifikasi parameter PySpark sesi untuk mempelajari lebih lanjut.
Masalah terselesaikan
-
Saat Anda menggunakan konektor DynamoDB dengan Spark di EMR Amazon versi 6.6.0, 6.7.0, dan 6.8.0, semua pembacaan dari tabel Anda mengembalikan hasil kosong, meskipun pemisahan input mereferensikan data yang tidak kosong. Amazon EMR rilis 6.9.0 memperbaiki masalah ini.
-
Amazon EMR di EKS 6.8.0 salah mengisi hash build di metadata file Parquet yang dihasilkan menggunakan Apache Spark.
Masalah ini dapat menyebabkan alat yang mengurai string versi metadata dari file Parket yang dihasilkan oleh Amazon EMR di EKS 6.8.0 gagal.
Masalah yang diketahui
-
Jika Anda menggunakan integrasi Amazon Redshift untuk Apache Spark dan memiliki waktu, jadwal, stempel waktu, atau timestamptz dengan presisi mikrodetik dalam format Parket, konektor membulatkan nilai waktu ke nilai milidetik terdekat. Sebagai solusinya, gunakan parameter format bongkar teks.
unload_s3_format