Escolha de um SerDe para seus dados - Amazon Athena

Escolha de um SerDe para seus dados

A tabela a seguir lista os formatos de dados compatíveis com o Athena e as bibliotecas SerDe correspondentes.

Formatos de dados e SerDes compatíveis
Formato de dados Descrição Tipos de SerDe compatíveis com o Athena
Amazon Ion O Amazon Ion é um formato de dados autodescritivo e com tipagem rica que é um superconjunto de JSON. Esse formato de código aberto foi desenvolvido pela Amazon. Use a Amazon Ion Hive SerDe.

Apache Avro

Um formato para armazenar dados no Hadoop que usa esquemas baseados em JSON para valores de registro.

Use o Avro SerDe.

Apache Parquet

Um formato para armazenamento colunar de dados no Hadoop.

Use o Parquet SerDe e a compactação SNAPPY.

Logs do Apache WebServer

Um formato para armazenar logs no Apache WebServer.

Use o Grok SerDe ou Regex SerDe.

Logs do CloudTrail

Um formato para armazenar logs no CloudTrail.

Comma-Separated Values (CSV – Valores separados por vírgula)

Em dados em formato CSV, cada linha representa um registro de dados, e cada registro consiste em um ou mais campos, separados por vírgulas.

Delimitação personalizada

Em dados nesse formato, cada linha representa um registro de dados, e os registros são separados por um delimitador de caractere único personalizado.

Use o Lazy Simple SerDe para arquivos CSV, TSV e com delimitação personalizada e especifique um delimitador de caractere único personalizado.

JSON (JavaScript Object Notation)

Em dados JSON, cada linha representa um registro de dados, e cada registro consiste em pares de atributo-valor e matrizes, separados por vírgulas.

Logs do Logstash

Um formato para armazenar logs no Logstash.

Use o Grok SerDe.

Optimized Row Columnar (ORC – Colunar de linha otimizada)

Um formato para armazenamento colunar otimizado de dados do Hive.

Use o ORC SerDe e a compactação ZLIB.

Tab-Separated Values (TSB – Valores separados por tabulação)

Em dados em formato TSV, cada linha representa um registro de dados, e cada registro consiste em um ou mais campos, separados por tabulações.

Use o Lazy Simple SerDe para arquivos CSV, TSV e com delimitação personalizada e especifique o caractere separador como FIELDS TERMINATED BY '\t'.