翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Serverless での Apache Hudi EMR の使用
このセクションでは、EMRサーバーレスアプリケーションでの Apache Hudi の使用について説明します。Hudi は、データ処理をよりシンプルにするデータ管理フレームワークです。
EMR サーバーレスアプリケーションで Apache Hudi を使用するには
-
対応する Spark ジョブ実行で必要な Spark プロパティを設定します。
spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar spark.serializer=org.apache.spark.serializer.KryoSerializer
-
Hudi テーブルを設定済みカタログに同期するには、 Glue データカタログ AWS をメタストアとして指定するか、外部メタストアを設定します。 EMRサーバーレスは、Hudi ワークロードの Hive テーブルの同期モード
hms
として をサポートします。 EMRServerless は、このプロパティをデフォルトとしてアクティブ化します。メタストアの設定方法の詳細については、「EMR Serverless のメタストア設定」を参照してください。重要
EMR サーバーレスは、Hudi ワークロードを処理する Hive テーブルの同期モードオプション
JDBC
としてHIVEQL
または をサポートしていません。詳細については、「Sync modes」を参照してください。 AWS Glue データカタログをメタストアとして使用する場合は、Hudi ジョブに次の設定プロパティを指定できます。
--conf spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar, --conf spark.serializer=org.apache.spark.serializer.KryoSerializer, --conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory
Amazon の Apache Hudi リリースの詳細についてはEMR、「Hudi リリース履歴」を参照してください。