Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Utilisation d'Apache Hudi avec Serverless EMR
Pour utiliser Apache Hudi avec des applications EMR sans serveur
-
Définissez les propriétés Spark requises lors de l'exécution de la tâche Spark correspondante.
spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar spark.serializer=org.apache.spark.serializer.KryoSerializer
-
Pour synchroniser une table Hudi avec le catalogue configuré, désignez soit le AWS Glue Data Catalog comme métastore ou configurez un métastore externe. EMRLe mode de synchronisation sans serveur est pris
hms
en charge pour les tables Hive pour les charges de travail Hudi. EMRServerless active cette propriété par défaut. Pour en savoir plus sur la configuration de votre métastore, consultez. Configuration du métastoreImportant
EMRServerless ne prend pas en charge
HIVEQL
les tables Hive et ne les utilise pas enJDBC
tant qu'options de mode de synchronisation pour gérer les charges de travail Hudi. Pour en savoir plus, consultez la section Modes de synchronisation. Lorsque vous utilisez le AWS Glue Data Catalog en tant que métastore, vous pouvez spécifier les propriétés de configuration suivantes pour votre tâche Hudi.
--conf spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar, --conf spark.serializer=org.apache.spark.serializer.KryoSerializer, --conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory
Pour en savoir plus sur les versions d'Apache Hudi d'AmazonEMR, consultez l'historique des versions de Hudi.