Opciones de formato de datos para las entradas y las salidas en AWS Glue para Spark
Estas páginas ofrecen información sobre la compatibilidad de características y los parámetros de configuración para los formatos de datos compatibles con Glue AWS de Spark.. Consulte a continuación una descripción del uso y la aplicabilidad de esta información.
Compatibilidad de características en todos los formatos de datos en AWS Glue
Cada formato de datos puede admitir diferentes características de AWS Glue. Las siguientes características comunes pueden o no ser compatibles en función del tipo de formato. Consulte la documentación del formato de datos para comprender cómo aprovechar nuestras características para cumplir sus requisitos.
Leer | AWS Glue puede reconocer e interpretar este formato de datos sin recursos adicionales, como conectores. |
Escritura | AWS Glue puede escribir datos en este formato sin recursos adicionales. Puede incluir bibliotecas de terceros en su trabajo y utilizar funciones estándares de Apache Spark para escribir datos, como lo haría en otros entornos de Spark. Para obtener más información sobre estas bibliotecas, consulte Uso de bibliotecas de Python con AWS Glue. |
Lectura de streaming | AWS Glue puede reconocer e interpretar este formato de datos a partir de una transmisión de mensajes de Apache Kafka, Amazon Managed Streaming para Apache Kafka o Amazon Kinesis. Esperamos que las transmisiones presenten los datos en un formato coherente, de manera que se lean en DataFrames . |
Grupo de archivos pequeños | AWS Glue puede agrupar archivos para enviar trabajos en lotes a cada nodo cuando se realizan transformaciones de AWS Glue. Esto puede mejorar de forma significativa el rendimiento de las cargas de trabajo que implican grandes cantidades de archivos pequeños. Para obtener más información, consulte Lectura de archivos de entrada en grupos más grandes. |
Marcadores de trabajo | AWS Glue puede realizar un seguimiento del progreso de las transformaciones que realizan el mismo trabajo en el mismo conjunto de datos en las ejecuciones de trabajos con marcadores de trabajo. Esto puede mejorar el rendimiento de las cargas de trabajo que involucran conjuntos de datos en los que solo es necesario trabajar en los datos nuevos desde la última ejecución del trabajo. Para obtener más información, consulte Seguimiento de los datos procesados mediante marcadores de trabajo. |
Parámetros utilizados para interactuar con formatos de datos en AWS Glue
Ciertos tipos de conexión de AWS Glue admiten varios tipos de format
, por lo que se requiere que especifique información sobre el formato de datos con un objeto format_options
cuando utiliza métodos como GlueContext.write_dynamic_frame.from_options
.
-
s3
: para obtener más información, consulte Tipos y opciones de conexión para ETL en AWS Glue: Parámetros de conexión S3. También puede ver la documentación de los métodos que facilitan este tipo de conexión: create_dynamic_frame_from_options y write_dynamic_frame_from_options en Python y los métodos de Scala def getSourceWithFormat y def getSinkWithFormat correspondientes. -
kinesis
: para obtener más información, consulte Tipos y opciones de conexión para ETL en AWS Glue: Parámetros de conexión de Kinesis. También puede ver la documentación del método que facilita este tipo de conexión: create_data_frame_from_options y el método de Scala def createDataFrameFromOptions correspondiente. -
kafka
: para obtener más información, consulte Tipos y opciones de conexión para ETL en AWS Glue: Parámetros de conexión de Kafka. También puede ver la documentación del método que facilita este tipo de conexión: create_data_frame_from_options y el método de Scala def createDataFrameFromOptions correspondiente.
Algunos tipos de conexión no requieren format_options
. Por ejemplo, en uso normal, una conexión de JDBC a una base de datos relacional recupera datos en un formato de datos tabular y consistente. Por lo tanto, la lectura desde una conexión de JDBC no requeriría format_options
.
Algunos métodos para leer y escribir datos en Glue no requieren format_options
. Por ejemplo, el uso de GlueContext.create_dynamic_frame.from_catalog
con rastreadores de AWS Glue. Los rastreadores determinan la forma de los datos. Cuando se utilicen rastreadores, el clasificador de AWS Glue examinará los datos para tomar decisiones inteligentes sobre cómo representar el formato de datos. Luego, almacenará una representación de los datos en Data Catalog de AWS Glue, que se puede utilizar dentro de un script de ETL de AWS Glue para recuperar los datos con el método GlueContext.create_dynamic_frame.from_catalog
. Los rastreadores eliminan la necesidad de especificar de forma manual la información sobre el formato de los datos.
Para trabajos que acceden a tablas que se rigen por AWS Lake Formation, AWS Glue admite la lectura y escritura de todos los formatos admitidos por las tablas que rige Lake Formation. Para obtener la lista actualizada de los formatos admitidos para tablas que se rigen por AWS Lake Formation, consulte Notas y restricciones para las tablas regidas en la Guía para desarrolladores de AWS Lake Formation.
nota
Para escribir Apache Parquet, ETL de AWS Glue solo admite la escritura en una tabla regida al especificar una opción para un tipo de escritor de Parquet personalizado optimizado para marcos dinámicos. Al escribir en una tabla regida con el formato de parquet
, debe agregar la clave useGlueParquetWriter
con un valor de true
en los parámetros de la tabla.
Temas
- Uso del formato CSV en AWS Glue
- Uso del formato Parquet en AWS Glue
- Uso del formato XML en AWS Glue
- Uso del formato Avro en AWS Glue
- Uso del formato grokLog en AWS Glue
- Uso del formato Ion en AWS Glue
- Uso del formato JSON en AWS Glue
- Uso del formato ORC en AWS Glue
- Uso de marcos de lagos de datos con trabajos de ETL de AWS Glue
- Referencia de configuración compartida
Referencia de configuración compartida
Puede utilizar los siguientes format_options
valores con cualquier tipo de formato.
-
attachFilename
— Una cadena en el formato adecuado para utilizarla como nombre de columna. Si proporciona esta opción, el nombre del archivo de origen para el registro se adjuntará a él. El valor del parámetro se utilizará como nombre de la columna. -
attachTimestamp
— Una cadena en el formato adecuado para utilizarla como nombre de columna. Si proporciona esta opción, la hora de modificación del archivo de origen para el registro se adjuntará a él. El valor del parámetro se utilizará como nombre de la columna.