데이터에 적합한 SerDe 선택 - Amazon Athena

데이터에 적합한 SerDe 선택

다음 표에는 Athena 및 해당 SerDe 라이브러리에 지원되는 데이터 형식이 나열되어 있습니다.

지원되는 데이터 형식 및 SerDes
데이터 형식 설명 Athena에서 지원되는 SerDe 유형
Amazon Ion Amazon Ion은 JSON의 상위 집합인 서식 있는 자기 기술형 데이터 형식이며, Amazon에서 개발한 오픈 소스입니다. Amazon Ion Hive SerDe을(를) 사용합니다.

Apache Avro

레코드 값에 대해 JSON 기반 스키마를 사용하는 Hadoop에서 데이터를 저장하는 형식입니다.

Avro SerDe를 사용합니다.

Apache Parquet

Hadoop에서 데이터의 컬럼 방식 스토리지를 위한 형식입니다.

Parquet SerDe 및 SNAPPY 압축을 사용합니다.

Apache WebServer 로그

Apache WebServer에서 로그를 저장하는 형식입니다.

Grok SerDe 또는 Regex SerDe를 사용합니다.

CloudTrail 로그

CloudTrail에서 로그를 저장하는 형식입니다.

CSV(쉼표로 분리된 값)

CSV 형식의 데이터에서 각 행은 데이터 레코드를 나타내며 각 레코드는 쉼표로 구분된 하나 이상의 필드로 구성됩니다.

사용자 지정 구분 기호로 구분

이 형식의 데이터에서 각 행은 데이터 레코드를 나타내며 레코드는 사용자 지정 단일 문자 구분 기호로 구분됩니다.

CSV, TSV, 사용자 지정 구분 기호로 구분된 파일에 대한 Lazy Simple SerDe를 사용하고 사용자 지정 단일 문자 구분 기호를 지정합니다.

[JSON](JavaScript Object Notation)

JSON 데이터에서 각 행은 데이터 레코드를 나타내며 각 레코드는 쉼표로 구분된 속성-값 쌍과 배열로 구성됩니다.

Logstash 로그

Logstash에서 로그를 저장하는 형식입니다.

Grok SerDe를 사용합니다.

ORC(Optimized Row Columnar)

Hive 데이터의 최적화된 컬럼 방식 스토리지를 위한 형식입니다.

ORC SerDe 및 ZLIB 압축을 사용합니다.

TSV(탭으로 구분된 값)

TSV 형식의 데이터에서 각 행은 데이터 레코드를 나타내며 각 레코드는 탭으로 구분된 하나 이상의 필드로 구성됩니다.

CSV, TSV, 사용자 지정 구분 기호로 구분된 파일에 대한 Lazy Simple SerDe를 사용하고 구분자 문자를 FIELDS TERMINATED BY '\t'로 지정합니다.