将 Apache Hudi 与 EMR Serverless 结合使用 - Amazon EMR

将 Apache Hudi 与 EMR Serverless 结合使用

本节介绍了如何将 Apache Hudi 与 EMR Serverless 应用程序结合使用。Hudi 是一个数据管理框架，使数据处理更加简单。

将 Apache Hudi 与 EMR Serverless 应用程序结合使用

在相应的 Spark 作业运行中设置所需的 Spark 属性。


spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar
spark.serializer=org.apache.spark.serializer.KryoSerializer

要将 Hudi 表同步到配置的目录，请将 AWS Glue Data Catalog 指定为元存储，或配置外部元存储。EMR Serverless 支持 hms 作为 Hudi 工作负载 Hive 表的同步模式。EMR Serverless 默认激活此属性。要进一步了解如何设置元存储，请参阅 EMR Serverless 的元存储配置。

重要
EMR Serverless 不支持 HIVEQL 或 JDBC 作为 Hive 表的同步模式选项来处理 Hudi 工作负载。要了解更多信息，请参阅同步模式。

使用 AWS Glue Data Catalog 作为元存储时，可以为 Hudi 作业指定以下配置属性。
```
--conf spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar,
--conf spark.serializer=org.apache.spark.serializer.KryoSerializer,
--conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory
```

要了解有关 Amazon EMR 的 Apache Hudi 版本的更多信息，请参阅 Hudi 版本历史记录。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

使用 Java 17

使用 Iceberg