为您的数据选择 SerDE - Amazon Athena

为您的数据选择 SerDE

下表列出了 Athena 中支持的数据格式及其对应的 SerDe 库。

支持的数据格式和 SerDes
Data format(数据格式) 描述 Athena 中支持的 SerDe 类型
Amazon Ion Amazon Ion 是一种类型丰富、自描述的数据格式,是 JSON 的超集,由 Amazon 开发和开源。 使用 Amazon Ion Hive SerDe

Apache Avro

用于在 Hadoop 中存储数据的一种格式,它对记录值使用基于 JSON 的架构。

使用 Avro SerDe

Apache Parquet

一种用于在 Hadoop 中列式存储数据的格式。

使用 Parquet SerDe 和 SNAPPY 压缩。

Apache WebServer 日志

一种用于在 Apache WebServer 中存储日志的格式。

使用 Grok SerDeRegex SerDe

CloudTrail 日志

一种用于在 CloudTrail 中存储日志的格式。

CSV(逗号分隔的值)

对于 CSV 格式的数据,每个行均表示一个数据记录,每个记录包含一个或多个字段,以逗号分隔。

自定义分隔的

对于采用此格式的数据,每一行表示一个数据记录,记录由自定义的单字符分隔符分隔。

使用 用于 CSV、TSV 和自定义分隔文件的 Lazy Simple SerDe 并指定自定义单字符分隔符。

JSON(JavaScript 对象表示法)

对于 JSON 数据,每个行均表示一个数据记录,每个记录包含属性-值对和数组,以逗号分隔。

Logstash 日志

一种用于在 Logstash 中存储日志的格式。

使用 Grok SerDe

ORC(优化的行列式)

一种用于优化 Hive 数据列式存储的格式。

使用 ORC SerDe 和 ZLIB 压缩。

TSV(制表符分隔的值)

对于 TSV 格式的数据,每个行均表示一个数据记录,每个记录包含一个或多个字段,以制表符分隔。

使用 用于 CSV、TSV 和自定义分隔文件的 Lazy Simple SerDe 并将分隔符指定为 FIELDS TERMINATED BY '\t'