Serverless での Apache Hudi EMR の使用 - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Serverless での Apache Hudi EMR の使用

このセクションでは、EMRサーバーレスアプリケーションでの Apache Hudi の使用について説明します。Hudi は、データ処理をよりシンプルにするデータ管理フレームワークです。

EMR サーバーレスアプリケーションで Apache Hudi を使用するには
  1. 対応する Spark ジョブ実行で必要な Spark プロパティを設定します。

    spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar spark.serializer=org.apache.spark.serializer.KryoSerializer
  2. Hudi テーブルを設定済みカタログに同期するには、 Glue データカタログ AWS をメタストアとして指定するか、外部メタストアを設定します。 EMRサーバーレスは、Hudi ワークロードの Hive テーブルの同期モードhmsとして をサポートします。 EMRServerless は、このプロパティをデフォルトとしてアクティブ化します。メタストアの設定方法の詳細については、「EMR Serverless のメタストア設定」を参照してください。

    重要

    EMR サーバーレスは、Hudi ワークロードを処理する Hive テーブルの同期モードオプションJDBCとして HIVEQLまたは をサポートしていません。詳細については、「Sync modes」を参照してください。

    AWS Glue データカタログをメタストアとして使用する場合は、Hudi ジョブに次の設定プロパティを指定できます。

    --conf spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar, --conf spark.serializer=org.apache.spark.serializer.KryoSerializer, --conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory

Amazon の Apache Hudi リリースの詳細についてはEMR、「Hudi リリース履歴」を参照してください。