Uso de Apache Hudi con EMR sin servidor

En esta sección se describe el uso de Apache Hudi con aplicaciones EMR sin servidor. Hudi es un marco de administración de datos que simplifica el procesamiento de datos.

Para usar Apache Hudi con aplicaciones EMR sin servidor

Establezca las propiedades de Spark requeridas en la ejecución de la tarea de Spark correspondiente.


spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar
spark.serializer=org.apache.spark.serializer.KryoSerializer

Para sincronizar una tabla de Hudi con el catálogo configurado, designa el catálogo de datos de AWS Glue como metaalmacén o configura un metaalmacén externo. EMR sin servidor admite hms como modo de sincronización de las tablas Hive para las cargas de trabajo de Hudi. EMR sin servidor activa esta propiedad de forma predeterminada. Para obtener más información acerca de cómo configurar su metaalmacén, consulte Configuración de metaalmacenes para EMR sin servidor.

importante
EMR sin servidor no admite HIVEQL ni JDBC como opciones de modo de sincronización para que las tablas Hive gestionen las cargas de trabajo de Hudi. Para obtener más información, consulte Modos de sincronización.

Cuando utilizas el catálogo de datos de AWS Glue como metaalmacén, puedes especificar las siguientes propiedades de configuración para tu trabajo de Hudi.
```
--conf spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar,
--conf spark.serializer=org.apache.spark.serializer.KryoSerializer,
--conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory
```

Para obtener más información sobre las versiones de Apache Hudi de Amazon EMR, consulte Historial de versiones de Hudi.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Uso de Java 17

Uso de Iceberg

Uso de Apache Hudi con EMR sin servidor

Para usar Apache Hudi con aplicaciones EMR sin servidor

importante