将 Apache Hudi 与 EMR Serverless 结合使用
本节介绍了如何将 Apache Hudi 与 EMR Serverless 应用程序结合使用。Hudi 是一个数据管理框架,使数据处理更加简单。
将 Apache Hudi 与 EMR Serverless 应用程序结合使用
-
在相应的 Spark 作业运行中设置所需的 Spark 属性。
spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar spark.serializer=org.apache.spark.serializer.KryoSerializer
-
要将 Hudi 表同步到配置的目录,请将 AWS Glue Data Catalog 指定为元存储,或配置外部元存储。EMR Serverless 支持
hms
作为 Hudi 工作负载 Hive 表的同步模式。EMR Serverless 默认激活此属性。要进一步了解如何设置元存储,请参阅 EMR Serverless 的元存储配置。重要
EMR Serverless 不支持
HIVEQL
或JDBC
作为 Hive 表的同步模式选项来处理 Hudi 工作负载。要了解更多信息,请参阅同步模式。 使用 AWS Glue Data Catalog 作为元存储时,可以为 Hudi 作业指定以下配置属性。
--conf spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar, --conf spark.serializer=org.apache.spark.serializer.KryoSerializer, --conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory
要了解有关 Amazon EMR 的 Apache Hudi 版本的更多信息,请参阅 Hudi 版本历史记录。