搭配 EMR Serverless 使用 Apache Hudi - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

搭配 EMR Serverless 使用 Apache Hudi

本節說明將 Apache Hudi 與 EMR Serverless 應用程式搭配使用。Hudi 是一種資料管理架構,可讓資料處理變得更簡單。

將 Apache Hudi 與 EMR Serverless 應用程式搭配使用
  1. 在對應的 Spark 任務執行中設定所需的 Spark 屬性。

    spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar spark.serializer=org.apache.spark.serializer.KryoSerializer
  2. 若要將 Hudi 資料表同步至設定的目錄,請指定 AWS Glue Data Catalog 做為您的中繼存放區,或設定外部中繼存放區。EMR Serverless 支援hms作為 Hudi 工作負載的 Hive 資料表同步模式。EMR Serverless 會將此屬性啟用為預設值。若要進一步了解如何設定中繼存放區,請參閱EMR Serverless 的中繼存放區組態

    重要

    EMR Serverless 不支援 HIVEQLJDBC作為 Hive 資料表處理 Hudi 工作負載的同步模式選項。若要進一步了解,請參閱同步模式

    當您使用 AWS Glue Data Catalog 做為中繼存放區時,您可以為 Hudi 任務指定下列組態屬性。

    --conf spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar, --conf spark.serializer=org.apache.spark.serializer.KryoSerializer, --conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory

若要進一步了解 Amazon EMR 的 Apache Hudi 版本,請參閱 Hudi 版本歷史記錄