Opciones de formato de datos para las entradas y las salidas en AWS Glue para Spark - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Opciones de formato de datos para las entradas y las salidas en AWS Glue para Spark

Estas páginas ofrecen información sobre la compatibilidad de características y los parámetros de configuración para los formatos de datos compatibles con Glue AWS de Spark.. Consulte a continuación una descripción del uso y la aplicabilidad de esta información.

Compatibilidad de características en todos los formatos de datos en AWS Glue

Cada formato de datos puede admitir diferentes características de AWS Glue. Las siguientes características comunes pueden o no ser compatibles en función del tipo de formato. Consulte la documentación del formato de datos para comprender cómo aprovechar nuestras características para cumplir sus requisitos.

Leer AWS Glue puede reconocer e interpretar este formato de datos sin recursos adicionales, como conectores.
Escritura AWS Glue puede escribir datos en este formato sin recursos adicionales. Puede incluir bibliotecas de terceros en su trabajo y utilizar funciones estándares de Apache Spark para escribir datos, como lo haría en otros entornos de Spark. Para obtener más información sobre estas bibliotecas, consulte Uso de bibliotecas de Python con AWS Glue.
Lectura de streaming AWS Glue puede reconocer e interpretar este formato de datos a partir de una transmisión de mensajes de Apache Kafka, Amazon Managed Streaming para Apache Kafka o Amazon Kinesis. Esperamos que las transmisiones presenten los datos en un formato coherente, de manera que se lean en DataFrames.
Grupo de archivos pequeños AWS Glue puede agrupar archivos para enviar trabajos en lotes a cada nodo cuando se realizan transformaciones de AWS Glue. Esto puede mejorar de forma significativa el rendimiento de las cargas de trabajo que implican grandes cantidades de archivos pequeños. Para obtener más información, consulte Lectura de archivos de entrada en grupos más grandes.
Marcadores de trabajo AWS Glue puede realizar un seguimiento del progreso de las transformaciones que realizan el mismo trabajo en el mismo conjunto de datos en las ejecuciones de trabajos con marcadores de trabajo. Esto puede mejorar el rendimiento de las cargas de trabajo que involucran conjuntos de datos en los que solo es necesario trabajar en los datos nuevos desde la última ejecución del trabajo. Para obtener más información, consulte Seguimiento de los datos procesados mediante marcadores de trabajo.

Parámetros utilizados para interactuar con formatos de datos en AWS Glue

Ciertos tipos de conexión de AWS Glue admiten varios tipos de format, por lo que se requiere que especifique información sobre el formato de datos con un objeto format_options cuando utiliza métodos como GlueContext.write_dynamic_frame.from_options.

Algunos tipos de conexión no requieren format_options. Por ejemplo, en uso normal, una conexión de JDBC a una base de datos relacional recupera datos en un formato de datos tabular y consistente. Por lo tanto, la lectura desde una conexión de JDBC no requeriría format_options.

Algunos métodos para leer y escribir datos en Glue no requieren format_options. Por ejemplo, el uso de GlueContext.create_dynamic_frame.from_catalog con rastreadores de AWS Glue. Los rastreadores determinan la forma de los datos. Cuando se utilicen rastreadores, el clasificador de AWS Glue examinará los datos para tomar decisiones inteligentes sobre cómo representar el formato de datos. Luego, almacenará una representación de los datos en Data Catalog de AWS Glue, que se puede utilizar dentro de un script de ETL de AWS Glue para recuperar los datos con el método GlueContext.create_dynamic_frame.from_catalog. Los rastreadores eliminan la necesidad de especificar de forma manual la información sobre el formato de los datos.

Para trabajos que acceden a tablas que se rigen por AWS Lake Formation, AWS Glue admite la lectura y escritura de todos los formatos admitidos por las tablas que rige Lake Formation. Para obtener la lista actualizada de los formatos admitidos para tablas que se rigen por AWS Lake Formation, consulte Notas y restricciones para las tablas regidas en la Guía para desarrolladores de AWS Lake Formation.

nota

Para escribir Apache Parquet, ETL de AWS Glue solo admite la escritura en una tabla regida al especificar una opción para un tipo de escritor de Parquet personalizado optimizado para marcos dinámicos. Al escribir en una tabla regida con el formato de parquet, debe agregar la clave useGlueParquetWriter con un valor de true en los parámetros de la tabla.

Referencia de configuración compartida

Puede utilizar los siguientes format_options valores con cualquier tipo de formato.

  • attachFilename — Una cadena en el formato adecuado para utilizarla como nombre de columna. Si proporciona esta opción, el nombre del archivo de origen para el registro se adjuntará a él. El valor del parámetro se utilizará como nombre de la columna.

  • attachTimestamp — Una cadena en el formato adecuado para utilizarla como nombre de columna. Si proporciona esta opción, la hora de modificación del archivo de origen para el registro se adjuntará a él. El valor del parámetro se utilizará como nombre de la columna.