Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Uso de Apache Hudi con EMR sin servidor
En esta sección se describe el uso de Apache Hudi con aplicaciones EMR sin servidor. Hudi es un marco de administración de datos que simplifica el procesamiento de datos.
Para usar Apache Hudi con aplicaciones EMR sin servidor
-
Establezca las propiedades de Spark requeridas en la ejecución de la tarea de Spark correspondiente.
spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar spark.serializer=org.apache.spark.serializer.KryoSerializer
-
Para sincronizar una tabla de Hudi con el catálogo configurado, designa el catálogo de datos de AWS Glue como metaalmacén o configura un metaalmacén externo. EMR sin servidor admite
hms
como modo de sincronización de las tablas Hive para las cargas de trabajo de Hudi. EMR sin servidor activa esta propiedad de forma predeterminada. Para obtener más información acerca de cómo configurar su metaalmacén, consulte Configuración de metaalmacenes para EMR sin servidor.importante
EMR sin servidor no admite
HIVEQL
niJDBC
como opciones de modo de sincronización para que las tablas Hive gestionen las cargas de trabajo de Hudi. Para obtener más información, consulte Modos de sincronización. Cuando utilizas el catálogo de datos de AWS Glue como metaalmacén, puedes especificar las siguientes propiedades de configuración para tu trabajo de Hudi.
--conf spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar, --conf spark.serializer=org.apache.spark.serializer.KryoSerializer, --conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory
Para obtener más información sobre las versiones de Apache Hudi de Amazon EMR, consulte Historial de versiones de Hudi.