Elección de un valor de SerDe para los datos - Amazon Athena

Elección de un valor de SerDe para los datos

En la tabla siguiente se enumeran los formatos de datos compatibles con Athena y sus bibliotecas de SerDe correspondientes.

Formatos de datos compatibles y SerDes
Formato de los datos Descripción Tipos de SerDe admitidos en Athena
Amazon Ion Amazon Ion es un formato de datos altamente codificado y autodescriptivo que constituye un superconjunto de JSON, de código abierto y desarrollado por Amazon. Utilice SerDe de Amazon Ion Hive.

Apache Avro

Formato de almacenamiento de datos en Hadoop que utiliza esquemas basados en JSON para registrar valores.

Utilice El SerDe de Avro.

Apache Parquet

Formato para almacenamiento de datos en columnas en Hadoop.

Utilice la compresión El SerDe de Parquet y SNAPPY.

Registros de Apache WebServer

Formato para almacenar registros de Apache WebServer.

Use El SerDe de Grok o SerDe de Regex.

Registros de CloudTrail

Formato para almacenar registros de CloudTrail.

CSV (valores separados por comas)

En los datos con formato CSV, cada línea representa un registro de datos y cada registro se compone de uno o varios campos separados por comas.

Delimitación personalizada

En los datos con este formato, cada línea representa un registro de datos y los registros están separados por un delimitadores de caracteres únicos personalizado.

Utilice Lazy Simple SerDe para CSV, TSV y archivos con delimitación personalizada y especifique un delimitador personalizado de un solo carácter.

JSON (JavaScript Object Notation)

En los datos JSON, cada línea representa un registro de datos y cada registro se compone de pares y matrices atributo-valor separados por comas.

Registros de Logstash

Formato para almacenar registros de Logstash.

Utilice El SerDe de Grok.

ORC (Almacenamiento de filas en columnas optimizado)

Formato para almacenamiento en columnas optimizado de datos de Hive.

Utilice la compresión El SerDe de ORC y ZLIB.

TSV (valores separados por tabulaciones)

En los datos con formato TSV, cada línea representa un registro de datos y cada registro se compone de uno o varios campos separados por tabuladores.

Utilice Lazy Simple SerDe para CSV, TSV y archivos con delimitación personalizada y especifique el carácter separador como FIELDS TERMINATED BY '\t'.