Menggunakan Apache Hudi dengan EMR Serverless - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan Apache Hudi dengan EMR Serverless

Bagian ini menjelaskan penggunaan Apache Hudi dengan aplikasi EMR Serverless. Hudi adalah kerangka kerja manajemen data yang membuat pemrosesan data lebih sederhana.

Untuk menggunakan Apache Hudi dengan aplikasi EMR Serverless
  1. Setel properti Spark yang diperlukan dalam menjalankan pekerjaan Spark yang sesuai.

    spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar spark.serializer=org.apache.spark.serializer.KryoSerializer
  2. Untuk menyinkronkan tabel Hudi ke katalog yang dikonfigurasi, tentukan Katalog Data AWS Glue sebagai metastore Anda, atau konfigurasikan metastore eksternal. EMR Serverless mendukung hms sebagai mode sinkronisasi untuk tabel Hive untuk beban kerja Hudi. EMR Tanpa Server mengaktifkan properti ini sebagai default. Untuk mempelajari lebih lanjut tentang cara mengatur metastore Anda, lihat. Konfigurasi metastore untuk EMR Tanpa Server

    penting

    EMR Tanpa Server tidak mendukung HIVEQL atau JDBC sebagai opsi mode sinkronisasi untuk tabel Hive untuk menangani beban kerja Hudi. Untuk mempelajari selengkapnya, lihat Mode sinkronisasi.

    Saat Anda menggunakan AWS Glue Data Catalog sebagai metastore Anda, Anda dapat menentukan properti konfigurasi berikut untuk pekerjaan Hudi Anda.

    --conf spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar, --conf spark.serializer=org.apache.spark.serializer.KryoSerializer, --conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory

Untuk mempelajari lebih lanjut tentang rilis Apache Hudi dari Amazon EMR, lihat Riwayat rilis Hudi.