Apache Hudi mit EMR Serverless verwenden

In diesem Abschnitt wird die Verwendung von Apache Hudi mit EMR serverlosen Anwendungen beschrieben. Hudi ist ein Datenmanagement-Framework, das die Datenverarbeitung vereinfacht.

Um Apache Hudi mit serverlosen Anwendungen zu verwenden EMR

Stellen Sie die erforderlichen Spark-Eigenschaften in der entsprechenden Spark-Jobausführung ein.


spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar
spark.serializer=org.apache.spark.serializer.KryoSerializer

Um eine Hudi-Tabelle mit dem konfigurierten Katalog zu synchronisieren, bestimmen Sie entweder den AWS Glue-Datenkatalog als Ihren Metastore oder konfigurieren Sie einen externen Metastore. EMR Serverlose Unterstützung hms als Synchronisierungsmodus für Hive-Tabellen für Hudi-Workloads. EMR Serverless aktiviert diese Eigenschaft standardmäßig. Weitere Informationen zum Einrichten Ihres Metastores finden Sie unter. Metastore-Konfiguration für Serverless EMR

Wichtig
EMRServerless unterstützt HIVEQL keine Optionen für den Synchronisierungsmodus für Hive-Tabellen zur Verarbeitung von Hudi-Workloads. JDBC Weitere Informationen finden Sie unter Synchronisierungsmodi.

Wenn Sie den AWS Glue-Datenkatalog als Metastore verwenden, können Sie die folgenden Konfigurationseigenschaften für Ihren Hudi-Job angeben.
```
--conf spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar,
--conf spark.serializer=org.apache.spark.serializer.KryoSerializer,
--conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory
```

Weitere Informationen zu den Apache Hudi-Versionen von Amazon EMR finden Sie in der Hudi-Versionshistorie.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Verwenden von Java 17

Verwenden von Iceberg

Apache Hudi mit EMR Serverless verwenden

Um Apache Hudi mit serverlosen Anwendungen zu verwenden EMR

Wichtig