Utilisation d'Apache Hudi avec Serverless EMR - Amazon EMR

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation d'Apache Hudi avec Serverless EMR

Pour utiliser Apache Hudi avec des applications EMR sans serveur
  1. Définissez les propriétés Spark requises lors de l'exécution de la tâche Spark correspondante.

    spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar spark.serializer=org.apache.spark.serializer.KryoSerializer
  2. Pour synchroniser une table Hudi avec le catalogue configuré, désignez soit le AWS Glue Data Catalog comme métastore ou configurez un métastore externe. EMRLe mode de synchronisation sans serveur est pris hms en charge pour les tables Hive pour les charges de travail Hudi. EMRServerless active cette propriété par défaut. Pour en savoir plus sur la configuration de votre métastore, consultez. Configuration du métastore

    Important

    EMRServerless ne prend pas en charge HIVEQL les tables Hive et ne les utilise pas en JDBC tant qu'options de mode de synchronisation pour gérer les charges de travail Hudi. Pour en savoir plus, consultez la section Modes de synchronisation.

    Lorsque vous utilisez le AWS Glue Data Catalog en tant que métastore, vous pouvez spécifier les propriétés de configuration suivantes pour votre tâche Hudi.

    --conf spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar, --conf spark.serializer=org.apache.spark.serializer.KryoSerializer, --conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory

Pour en savoir plus sur les versions d'Apache Hudi d'AmazonEMR, consultez l'historique des versions de Hudi.