本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
下表列出 Athena 及其對應的 SerDe 程式庫中支援的資料格式。
資料格式 | 描述 | Athena 中支援的 SerDe 類型 |
---|---|---|
Amazon Ion | Amazon Ion 是由 Amazon 開發及開放原始碼的豐富類型、自行描述的資料格式,是 JSON 的超集。 | 使用 Amazon Ion Hive SerDe。 |
Apache Avro |
Hadoop 中用於存放資料的格式,使用以 JSON 為基礎的結構描述來存放記錄值。 |
使用 Avro SerDe。 |
Apache Parquet |
Hadoop 中的資料的單欄式儲存格式。 |
使用 Parquet SerDe 和 SNAPPY 壓縮。 |
Apache WebServer 日誌 |
Apache WebServer 中存放日誌的格式。 |
使用 Grok SerDe 或 Regex SerDe。 |
CloudTrail 日誌 |
CloudTrail 中存放日誌的格式。 |
|
CSV (逗號分隔值) |
對於 CSV 的資料,每一行代表一筆資料記錄,而每一筆記錄由一或多個欄位組成 (以逗號分隔)。 |
|
自訂分隔 |
對於此格式的資料,每一行代表一筆資料記錄,而記錄以自訂單一字元分隔符號隔開。 |
使用 CSV、TSV 和自訂分隔檔案的 Lazy Simple SerDe ,並指定自訂單一字元分隔符號。 |
JSON (JavaScript 物件標記法) |
對於 JSON 資料,每一行代表一筆資料記錄,而每一筆記錄由屬性/值對組成 (以逗號分隔)。 |
|
Logstash 日誌 |
Logstash 中存放日誌的格式。 |
使用 Grok SerDe。 |
ORC (Optimized Row Columnar,最佳化列單欄式) |
Hive 資料的最佳化單欄式儲存格式。 |
使用 ORC SerDe 和 ZLIB 壓縮。 |
TSV (定位字元分隔值) |
對於 TSV 的資料,每一行代表一筆資料記錄,而每一筆記錄由一或多個欄位組成 (以定位字元分隔)。 |
使用 CSV、TSV 和自訂分隔檔案的 Lazy Simple SerDe ,並將分隔符號字元指定為 |