Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Apache Hudi mit EMR Serverless verwenden
In diesem Abschnitt wird die Verwendung von Apache Hudi mit EMR serverlosen Anwendungen beschrieben. Hudi ist ein Datenmanagement-Framework, das die Datenverarbeitung vereinfacht.
Um Apache Hudi mit serverlosen Anwendungen zu verwenden EMR
-
Stellen Sie die erforderlichen Spark-Eigenschaften in der entsprechenden Spark-Jobausführung ein.
spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar spark.serializer=org.apache.spark.serializer.KryoSerializer
-
Um eine Hudi-Tabelle mit dem konfigurierten Katalog zu synchronisieren, bestimmen Sie entweder den AWS Glue-Datenkatalog als Ihren Metastore oder konfigurieren Sie einen externen Metastore. EMR Serverlose Unterstützung
hms
als Synchronisierungsmodus für Hive-Tabellen für Hudi-Workloads. EMR Serverless aktiviert diese Eigenschaft standardmäßig. Weitere Informationen zum Einrichten Ihres Metastores finden Sie unter. Metastore-Konfiguration für Serverless EMRWichtig
EMRServerless unterstützt
HIVEQL
keine Optionen für den Synchronisierungsmodus für Hive-Tabellen zur Verarbeitung von Hudi-Workloads.JDBC
Weitere Informationen finden Sie unter Synchronisierungsmodi.Wenn Sie den AWS Glue-Datenkatalog als Metastore verwenden, können Sie die folgenden Konfigurationseigenschaften für Ihren Hudi-Job angeben.
--conf spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar, --conf spark.serializer=org.apache.spark.serializer.KryoSerializer, --conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory
Weitere Informationen zu den Apache Hudi-Versionen von Amazon EMR finden Sie in der Hudi-Versionshistorie.