Menggunakan Apache Hudi dengan EMR Serverless

Bagian ini menjelaskan penggunaan Apache Hudi dengan aplikasi EMR Serverless. Hudi adalah kerangka kerja manajemen data yang membuat pemrosesan data lebih sederhana.

Untuk menggunakan Apache Hudi dengan aplikasi EMR Serverless

Setel properti Spark yang diperlukan dalam menjalankan pekerjaan Spark yang sesuai.


spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar
spark.serializer=org.apache.spark.serializer.KryoSerializer

Untuk menyinkronkan tabel Hudi ke katalog yang dikonfigurasi, tentukan Katalog Data AWS Glue sebagai metastore Anda, atau konfigurasikan metastore eksternal. EMR Serverless mendukung hms sebagai mode sinkronisasi untuk tabel Hive untuk beban kerja Hudi. EMR Tanpa Server mengaktifkan properti ini sebagai default. Untuk mempelajari lebih lanjut tentang cara mengatur metastore Anda, lihat. Konfigurasi metastore untuk EMR Tanpa Server

penting
EMR Tanpa Server tidak mendukung HIVEQL atau JDBC sebagai opsi mode sinkronisasi untuk tabel Hive untuk menangani beban kerja Hudi. Untuk mempelajari selengkapnya, lihat Mode sinkronisasi.

Saat Anda menggunakan AWS Glue Data Catalog sebagai metastore Anda, Anda dapat menentukan properti konfigurasi berikut untuk pekerjaan Hudi Anda.
```
--conf spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar,
--conf spark.serializer=org.apache.spark.serializer.KryoSerializer,
--conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory
```

Untuk mempelajari lebih lanjut tentang rilis Apache Hudi dari Amazon EMR, lihat Riwayat rilis Hudi.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Menggunakan Java 17

Menggunakan Iceberg

Menggunakan Apache Hudi dengan EMR Serverless

Untuk menggunakan Apache Hudi dengan aplikasi EMR Serverless

penting