搭配 EMR Serverless 使用 Apache Hudi - Amazon EMR

搭配 EMR Serverless 使用 Apache Hudi

本節說明將 Apache Hudi 與 EMR Serverless 應用程式搭配使用。Hudi 是一種資料管理架構，可讓資料處理變得更簡單。

將 Apache Hudi 與 EMR Serverless 應用程式搭配使用

在對應的 Spark 任務執行中設定所需的 Spark 屬性。


spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar
spark.serializer=org.apache.spark.serializer.KryoSerializer

若要將 Hudi 資料表同步至設定的目錄，請指定 AWS Glue Data Catalog 做為您的中繼存放區，或設定外部中繼存放區。EMR Serverless 支援hms作為 Hudi 工作負載的 Hive 資料表同步模式。EMR Serverless 會將此屬性啟用為預設值。若要進一步了解如何設定中繼存放區，請參閱EMR Serverless 的中繼存放區組態。

重要
EMR Serverless 不支援HIVEQL或以同步模式選項JDBC的形式讓 Hive 資料表處理 Hudi 工作負載。若要進一步了解，請參閱同步模式。

當您使用 AWS Glue Data Catalog 做為中繼存放區時，您可以為 Hudi 任務指定下列組態屬性。
```
--conf spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar,
--conf spark.serializer=org.apache.spark.serializer.KryoSerializer,
--conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory
```

若要進一步了解 Amazon EMR 的 Apache Hudi 版本，請參閱 Hudi 版本歷史記錄。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

使用 Java 17

使用 Iceberg