为您的数据选择 SerDE
下表列出了 Athena 中支持的数据格式及其对应的 SerDe 库。
Data format(数据格式) | 描述 | Athena 中支持的 SerDe 类型 |
---|---|---|
Amazon Ion | Amazon Ion 是一种类型丰富、自描述的数据格式,是 JSON 的超集,由 Amazon 开发和开源。 | 使用 Amazon Ion Hive SerDe。 |
Apache Avro |
用于在 Hadoop 中存储数据的一种格式,它对记录值使用基于 JSON 的架构。 |
使用 Avro SerDe。 |
Apache Parquet |
一种用于在 Hadoop 中列式存储数据的格式。 |
使用 Parquet SerDe 和 SNAPPY 压缩。 |
Apache WebServer 日志 |
一种用于在 Apache WebServer 中存储日志的格式。 |
使用 Grok SerDe 或 Regex SerDe。 |
CloudTrail 日志 |
一种用于在 CloudTrail 中存储日志的格式。 |
|
CSV(逗号分隔的值) |
对于 CSV 格式的数据,每个行均表示一个数据记录,每个记录包含一个或多个字段,以逗号分隔。 |
|
自定义分隔的 |
对于采用此格式的数据,每一行表示一个数据记录,记录由自定义的单字符分隔符分隔。 |
使用 用于 CSV、TSV 和自定义分隔文件的 Lazy Simple SerDe 并指定自定义单字符分隔符。 |
JSON(JavaScript 对象表示法) |
对于 JSON 数据,每个行均表示一个数据记录,每个记录包含属性-值对和数组,以逗号分隔。 |
|
Logstash 日志 |
一种用于在 Logstash 中存储日志的格式。 |
使用 Grok SerDe。 |
ORC(优化的行列式) |
一种用于优化 Hive 数据列式存储的格式。 |
使用 ORC SerDe 和 ZLIB 压缩。 |
TSV(制表符分隔的值) |
对于 TSV 格式的数据,每个行均表示一个数据记录,每个记录包含一个或多个字段,以制表符分隔。 |
使用 用于 CSV、TSV 和自定义分隔文件的 Lazy Simple SerDe 并将分隔符指定为 |