Serverless での Apache Hudi EMR の使用 - Amazon EMR

Serverless での Apache Hudi EMR の使用

このセクションでは、EMRサーバーレスアプリケーションでの Apache Hudi の使用について説明します。Hudi は、データ処理をよりシンプルにするデータ管理フレームワークです。

EMR サーバーレスアプリケーションで Apache Hudi を使用するには

対応する Spark ジョブ実行で必要な Spark プロパティを設定します。


spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar
spark.serializer=org.apache.spark.serializer.KryoSerializer

Hudi テーブルを設定済みカタログに同期するには、 Glue データカタログ AWS をメタストアとして指定するか、外部メタストアを設定します。 EMRサーバーレスは、Hudi ワークロードの Hive テーブルの同期モードhmsとしてをサポートします。 EMRServerless は、このプロパティをデフォルトとしてアクティブ化します。メタストアの設定方法の詳細については、「EMR Serverless のメタストア設定」を参照してください。

重要
EMR サーバーレスは、Hudi ワークロードを処理する Hive テーブルの同期モードオプションJDBCとして HIVEQLまたはをサポートしていません。詳細については、「Sync modes」を参照してください。

AWS Glue データカタログをメタストアとして使用する場合は、Hudi ジョブに次の設定プロパティを指定できます。
```
--conf spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar,
--conf spark.serializer=org.apache.spark.serializer.KryoSerializer,
--conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory
```

Amazon の Apache Hudi リリースの詳細についてはEMR、「Hudi リリース履歴」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Java 17 の使用

Iceberg の使用