Cuando crea o edita un trabajo, AWS Glue Studio agrega automáticamente las bibliotecas de Hudi correspondientes en su nombre según la versión de AWS Glue que utilice. Para obtener más información, consulte Uso del marco de Hudi en AWS Glue.
Uso del marco de Apache Hudi en los orígenes de datos del Catálogo de datos
Para agregar un formato de origen de datos de Hudi a un trabajo, haga lo siguiente:
-
En el menú Origen, seleccione Catálogo de datos de AWS Glue Studio.
-
En la pestaña Propiedades del origen de datos, elija una base de datos y una tabla.
-
AWS Glue Studio muestra el tipo de formato como Apache Hudi y la dirección URL de Amazon S3.
Uso del marco de Hudi en orígenes de datos de Amazon S3
-
En el menú Origen, elija Amazon S3.
-
Si elige la tabla del Catálogo de datos como el tipo de origen de Amazon S3, elija una base de datos y una tabla.
-
AWS Glue Studio muestra el formato como Apache Hudi y la dirección URL de Amazon S3.
-
Si elige la ubicación de Amazon S3 como el Tipo de origen de Amazon S3, elija la dirección URL de Amazon S3 haciendo clic en Examinar Amazon S3.
-
En Formato de datos, seleccione Apache Hudi.
nota
Si AWS Glue Studio no puede deducir el esquema de la carpeta o el archivo de Amazon S3 que ha seleccionado, elija Opciones adicionales para seleccionar una nueva carpeta o archivo.
En Opciones adicionales, elija una de las siguientes opciones en Inferencia del esquema:
-
Permitir que AWS Glue Studio elija automáticamente un archivo de muestra: AWS Glue Studio elegirá un archivo de muestra en la ubicación de Amazon S3 para poder deducir el esquema. En el campo Archivo de muestra seleccionado de manera automática, puede ver el archivo que se seleccionó automáticamente.
-
Elegir un archivo de muestra de Amazon S3: elija el archivo de Amazon S3 que va a utilizar haciendo clic en Examinar Amazon S3.
-
-
Haga clic en Deducir esquema. A continuación, puede ver el esquema de salida haciendo clic en la pestaña Esquema de salida.
-
Elija Opciones adicionales para introducir un par clave-valor.
Uso del marco de Apache Hudi en los destinos de datos
Uso del marco de Apache Hudi en los destinos de datos del Catálogo de datos
-
En el menú Destino, seleccione Catálogo de datos de AWS Glue Studio.
-
En la pestaña Propiedades del origen de datos, elija una base de datos y una tabla.
-
AWS Glue Studio muestra el tipo de formato como Apache Hudi y la dirección URL de Amazon S3.
Uso del marco de Apache Hudi en los destinos de datos de Amazon S3
Introduzca valores o seleccione una de las opciones disponibles para configurar el formato Apache Hudi. Para obtener más información sobre Apache Hudi, consulte la Documentación de Apache Hudi

-
Nombre de la tabla de Hudi: este es el nombre de su tabla de Hudi.
-
Tipo de almacenamiento de Hudi: elija entre dos opciones.
-
Copiar durante la escritura: se recomienda esta opción para optimizar el rendimiento de lectura. Este es el tipo de almacenamiento predeterminado de Hudi. Cada actualización crea una versión nueva de los archivos durante la escritura.
-
Combinar durante la lectura: se recomienda esta opción para minimizar la latencia de escritura. Las actualizaciones se registran en archivos delta basados en filas y se compactan según sea necesario para crear nuevas versiones de los archivos en columnas.
-
-
Operación de escritura de Hudi: elija entre las siguientes opciones.
-
Upsert: esta es la operación predeterminada en la que los registros de entrada se etiquetan primero como inserciones o actualizaciones al consultar el índice. Se recomienda para la actualización de los datos existentes.
-
Insert: esta operación inserta registros, pero no comprueba si hay registros existentes, lo que puede generar duplicados.
-
Bulk Insert: esta operación inserta registros y se recomienda para grandes cantidades de datos.
-
-
Campos de clave de registro de Hudi: utilice la barra de búsqueda para ubicar y elegir las claves de registro principales. Los registros en Hudi se identifican mediante una clave principal, que representa la combinación de una clave de registro y una ruta de partición a la que pertenece el registro.
-
Campo de combinación previa de Hudi: este es el campo que se utiliza en la combinación previa antes de escribir realmente. Cuando dos registros tienen el mismo valor para la clave, AWS Glue Studio selecciona el que tiene el valor más alto para el campo de combinación previa. Establezca un campo con un valor incremental (por ejemplo, updated_at).
-
Tipo de compresión: elija una de las opciones de tipo de compresión; sin comprimir, GZIP, LZO o Snappy.
-
Ubicación de destino de Amazon S3: para elegir la ubicación de destino de Amazon S3, haga clic en Examinar S3.
-
Opciones de actualización del Catálogo de datos: elija entre siguientes opciones.
-
Do not update the Data Catalog (No actualizar el Catálogo de datos): (predeterminado) seleccione esta opción si no desea que el trabajo actualice el Catálogo de datos, incluso si el esquema cambia o se agregan nuevas particiones.
-
Crear una tabla en el Catálogo de datos y en las ejecuciones posteriores, actualizar el esquema y agregar nuevas particiones: si elige esta opción, el trabajo crea la tabla en el Catálogo de datos durante la primera ejecución del trabajo. En las ejecuciones de trabajos posteriores, el trabajo actualiza la tabla del Catálogo de datos si cambia el esquema o se agregan nuevas particiones.
También debe seleccionar una base de datos en el Catálogo de datos e introducir un nombre de tabla.
-
Create a table in the Data Catalog and on subsequent runs, keep existing schema and add new partitions (Crear una tabla en el Catálogo de datos y en ejecuciones posteriores, mantener el esquema existente y agregar nuevas particiones): si elige esta opción, el trabajo crea la tabla en el Catálogo de datos durante la primera ejecución del trabajo. En las ejecuciones de trabajos posteriores, el trabajo actualiza la tabla del Catálogo de datos solo para agregar nuevas particiones.
También debe seleccionar una base de datos en el Catálogo de datos e introducir un nombre de tabla.
-
-
Partition keys (Claves de partición): elija qué columnas utilizar como claves de partición en la salida. Para agregar más claves de partición, elija Add a partition key (Agregar una clave de partición).
-
Opciones adicionales: introduzca un par clave-valor según sea necesario.
Generación de código a través de AWS Glue Studio
Cuando se guarda el trabajo, los siguientes parámetros se agregan al trabajo si se detecta un origen o un destino de Hudi:
-
--datalake-formats
: una lista independiente de los formatos de lagos de datos detectados en el trabajo visual (ya sea eligiendo un “Formato” directamente o seleccionando una tabla del catálogo que cuenta con el respaldo de un lago de datos indirectamente). -
--conf
: se genera en función del valor de--datalake-formats
. Por ejemplo, si el valor de--datalake-formats
es “hudi”, AWS Glue genera un valor despark.serializer=org.apache.spark.serializer.KryoSerializer —conf spark.sql.hive.convertMetastoreParquet=false
para este parámetro.
Anulación de bibliotecas proporcionadas por AWS Glue
Para usar una versión de Hudi no compatible con AWS Glue, puede especificar sus propios archivos JAR de la biblioteca de Hudi. Para usar su propio archivo JAR, haga lo siguiente:
-
Utilice el parámetro de trabajo
--extra-jars
. Por ejemplo,'--extra-jars': 's3pathtojarfile.jar'
. Para obtener más información, consulte Parámetros de los trabajos de AWS Glue. -
No incluya
hudi
como valor para el parámetro de trabajo--datalake-formats
. Al introducir una cadena en blanco como valor, se asegura de que AWS Glue no le proporcione automáticamente ninguna biblioteca de lagos de datos. Para obtener más información, consulte Uso del marco de Hudi en AWS Glue.