Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menggunakan Apache Hudi dengan EMR Serverless
Bagian ini menjelaskan penggunaan Apache Hudi dengan aplikasi EMR Serverless. Hudi adalah kerangka kerja manajemen data yang membuat pemrosesan data lebih sederhana.
Untuk menggunakan Apache Hudi dengan aplikasi EMR Serverless
-
Setel properti Spark yang diperlukan dalam menjalankan pekerjaan Spark yang sesuai.
spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar spark.serializer=org.apache.spark.serializer.KryoSerializer
-
Untuk menyinkronkan tabel Hudi ke katalog yang dikonfigurasi, tentukan Katalog Data AWS Glue sebagai metastore Anda, atau konfigurasikan metastore eksternal. EMR Serverless mendukung
hms
sebagai mode sinkronisasi untuk tabel Hive untuk beban kerja Hudi. EMR Tanpa Server mengaktifkan properti ini sebagai default. Untuk mempelajari lebih lanjut tentang cara mengatur metastore Anda, lihat. Konfigurasi metastore untuk EMR Tanpa Serverpenting
EMR Tanpa Server tidak mendukung
HIVEQL
atauJDBC
sebagai opsi mode sinkronisasi untuk tabel Hive untuk menangani beban kerja Hudi. Untuk mempelajari selengkapnya, lihat Mode sinkronisasi. Saat Anda menggunakan AWS Glue Data Catalog sebagai metastore Anda, Anda dapat menentukan properti konfigurasi berikut untuk pekerjaan Hudi Anda.
--conf spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar, --conf spark.serializer=org.apache.spark.serializer.KryoSerializer, --conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory
Untuk mempelajari lebih lanjut tentang rilis Apache Hudi dari Amazon EMR, lihat Riwayat rilis Hudi.