Choisissez un SerDe pour vos données - Amazon Athena

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Choisissez un SerDe pour vos données

Le tableau suivant répertorie les formats de données pris en charge par Athena et les bibliothèques correspondantes SerDe .

Formats de données pris en charge et SerDes
Format de données Description SerDe types pris en charge dans Athena
Amazon Ion Amazon Ion est un format de données autodescriptif richement typé qui est un sur-ensemble d'AmazonJSON, développé et open source. Utilisez Amazon Ion Hive SerDe.

Apache Avro

Format de stockage de données dans Hadoop qui utilise des schémas JSON basés pour les valeurs d'enregistrement.

Utilisez Avro SerDe.

Apache Parquet

Format pour le stockage en colonnes des données dans Hadoop.

Utilisez la SNAPPY compression Parquet SerDe et.

WebServer Journaux Apache

Format de stockage des journaux dans Apache WebServer.

Utilisez le type Grok SerDe ou Régex SerDe.

CloudTrail journaux

Format de stockage des connexions CloudTrail.

CSV(Valeurs séparées par des virgules)

Pour les données en CSV entrée, chaque ligne représente un enregistrement de données, et chaque enregistrement comprend un ou plusieurs champs séparés par des virgules.

Séparateur personnalisé

Pour les données qui se trouvent dans ce format, chaque ligne représente un enregistrement de données. Les enregistrements sont séparés par des délimiteurs personnalisés.

Utilisez le type Lazy Simple SerDe pour CSVTSV, et fichiers délimités de façon personnalisée et spécifiez un séparateur à caractère unique personnalisé.

JSON(Notation JavaScript d'objets)

Pour les JSON données, chaque ligne représente un enregistrement de données, et chaque enregistrement est constitué de paires attribut-valeur et de tableaux, séparés par des virgules.

Journaux Logstash

Format pour le stockage des fichiers journaux dans Logstash.

Utilisez Grok SerDe.

ORC(Colonne de lignes optimisée)

Format pour le stockage en colonnes optimisé des données Hive.

Utilisez la ZLIB compression ORC SerDe et.

TSV(Valeurs séparées par des tabulations)

Pour les données TSV entrées, chaque ligne représente un enregistrement de données, et chaque enregistrement comprend un ou plusieurs champs séparés par des onglets.

Utilisez le type Lazy Simple SerDe pour CSVTSV, et fichiers délimités de façon personnalisée et spécifiez le caractère séparateur sous la forme FIELDS TERMINATED BY '\t'.