Hudi - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Hudi

Apache Hudi es un marco de administración de datos de código abierto que se utiliza para simplificar el procesamiento incremental de los datos y el desarrollo de canalizaciones de datos, porque proporciona, en el nivel de registro, prestaciones de inserción, actualización, upsert y eliminación. Upsert se refiere a la capacidad de insertar registros en un dataset si aún no existen o de actualizarlos en caso de que ya estén presentes. Al administrar de manera eficiente la forma en que se establecen los datos en Amazon S3, Hudi permite que los datos se inserten y actualicen prácticamente en tiempo real. Hudi mantiene cuidadosamente los metadatos de las acciones realizadas en el conjunto de datos para ayudar a garantizar que las acciones sean atómicas y coherentes.

Hudi está integrado con Apache Spark, Apache Hive y Presto. En las EMR versiones 6.1.0 y posteriores de Amazon, Hudi también está integrado con Trino (Presto). SQL

Con la EMR versión 5.28.0 y posteriores de Amazon, EMR instala los componentes de Hudi de forma predeterminada cuando se instalan Spark, Hive, Presto o Flink. Puedes usar Spark o la utilidad Hudi para crear o actualizar conjuntos de datos de Hudi DeltaStreamer . Puede utilizar Hive, Spark, Presto o Flink para consultar un conjunto de datos de Hudi de forma interactiva o crear canalizaciones de procesamiento de datos mediante la extracción incremental. La extracción incremental se refiere a la capacidad de extraer únicamente los datos que han cambiado entre dos acciones.

Estas características hacen que Hudi sea adecuado para los siguientes casos de uso:

  • Trabajo con datos de transmisión desde sensores y otros dispositivos del Internet de las cosas (IoT) que requieren eventos específicos de inserción y actualización de datos.

  • Cumplimiento de la normativa de privacidad de datos en aplicaciones cuyos usuarios pueden ejercer su derecho al olvido o modificar su consentimiento para el uso de sus datos.

  • Implementar un sistema de captura de datos de cambios (CDC) que te permita aplicar cambios a un conjunto de datos a lo largo del tiempo.

La siguiente tabla muestra la versión de Hudi incluida en la última versión de la serie Amazon EMR 7.x, junto con los componentes que Amazon EMR instala con Hudi.

Para ver la versión de los componentes instalados con Hudi en esta versión, consulte Versiones de componentes de la versión 7.3.0.

Información sobre la versión de Hudi para emr-7.3.0
Etiqueta de EMR lanzamiento de Amazon Versión de Hudi Componentes instalados con Hudi

emr-7.3.0

Hudi 0.15.0-amzn-0

Not available.

La siguiente tabla muestra la versión de Hudi incluida en la última versión de la serie Amazon EMR 6.x, junto con los componentes que Amazon EMR instala con Hudi.

Para ver la versión de los componentes instalados con Hudi en esta versión, consulte Versiones de los componentes de la versión 6.15.0.

Información de la versión de Hudi para emr-6.15.0
Etiqueta de EMR lanzamiento de Amazon Versión de Hudi Componentes instalados con Hudi

emr-6.15.0

Hudi 0.14.0-amzn-0

Not available.

nota

La EMR versión 6.8.0 de Amazon incluye Apache Hudi 0.11.1; sin embargo, los clústeres de Amazon EMR 6.8.0 también son compatibles con el código abierto de Hudi 0.12.0. hudi-spark3.3-bundle_2.12

La siguiente tabla muestra la versión de Hudi incluida en la última versión de la serie Amazon EMR 5.x, junto con los componentes que Amazon EMR instala con Hudi.

Para ver la versión de los componentes instalados con Hudi en esta versión, consulte Versiones de componentes de la versión 5.36.2.

Información sobre la versión de Hudi para emr-5.36.2
Etiqueta de EMR lanzamiento de Amazon Versión de Hudi Componentes instalados con Hudi

emr-5.36.2

Hudi 0.10.1-amzn-1

Not available.