데이터에 적합한 SerDe 선택
다음 표에는 Athena 및 해당 SerDe 라이브러리에 지원되는 데이터 형식이 나열되어 있습니다.
데이터 형식 | 설명 | Athena에서 지원되는 SerDe 유형 |
---|---|---|
Amazon Ion | Amazon Ion은 JSON의 상위 집합인 서식 있는 자기 기술형 데이터 형식이며, Amazon에서 개발한 오픈 소스입니다. | Amazon Ion Hive SerDe을(를) 사용합니다. |
Apache Avro |
레코드 값에 대해 JSON 기반 스키마를 사용하는 Hadoop에서 데이터를 저장하는 형식입니다. |
Avro SerDe를 사용합니다. |
Apache Parquet |
Hadoop에서 데이터의 컬럼 방식 스토리지를 위한 형식입니다. |
Parquet SerDe 및 SNAPPY 압축을 사용합니다. |
Apache WebServer 로그 |
Apache WebServer에서 로그를 저장하는 형식입니다. |
Grok SerDe 또는 Regex SerDe를 사용합니다. |
CloudTrail 로그 |
CloudTrail에서 로그를 저장하는 형식입니다. |
|
CSV(쉼표로 분리된 값) |
CSV 형식의 데이터에서 각 행은 데이터 레코드를 나타내며 각 레코드는 쉼표로 구분된 하나 이상의 필드로 구성됩니다. |
|
사용자 지정 구분 기호로 구분 |
이 형식의 데이터에서 각 행은 데이터 레코드를 나타내며 레코드는 사용자 지정 단일 문자 구분 기호로 구분됩니다. |
CSV, TSV, 사용자 지정 구분 기호로 구분된 파일에 대한 Lazy Simple SerDe를 사용하고 사용자 지정 단일 문자 구분 기호를 지정합니다. |
[JSON](JavaScript Object Notation) |
JSON 데이터에서 각 행은 데이터 레코드를 나타내며 각 레코드는 쉼표로 구분된 속성-값 쌍과 배열로 구성됩니다. |
|
Logstash 로그 |
Logstash에서 로그를 저장하는 형식입니다. |
Grok SerDe를 사용합니다. |
ORC(Optimized Row Columnar) |
Hive 데이터의 최적화된 컬럼 방식 스토리지를 위한 형식입니다. |
ORC SerDe 및 ZLIB 압축을 사용합니다. |
TSV(탭으로 구분된 값) |
TSV 형식의 데이터에서 각 행은 데이터 레코드를 나타내며 각 레코드는 탭으로 구분된 하나 이상의 필드로 구성됩니다. |
CSV, TSV, 사용자 지정 구분 기호로 구분된 파일에 대한 Lazy Simple SerDe를 사용하고 구분자 문자를 |