열 통계를 사용한 쿼리 성능 최적화

포커스 모드

열 통계를 사용한 쿼리 성능 최적화 - AWS Glue

추가 데이터 파이프라인을 설정하지 않고도 Parquet, ORC, JSON, ION, CSV 및 XML과 같은 데이터 형식의 AWS Glue Data Catalog 테이블에 대한 열 수준 통계를 계산할 수 있습니다. 열 통계는 열 내 값에 대한 통찰력을 얻어 데이터 프로필을 이해하는 데 도움이 됩니다.

Data Catalog는 최소값, 최대값, 총 null 값, 총 고유 값, 값의 평균 길이, 실제 값의 총 발생 횟수 등과 같은 열 값에 대한 통계 생성을 지원합니다. Amazon Redshift 및 Amazon Athena와 같은 AWS 분석 서비스에서는 이러한 열 통계를 사용하여 쿼리 실행 계획을 생성하고 쿼리 성능을 향상시키는 최적의 계획을 선택할 수 있습니다.

다음은 열 통계 생성에 대한 세 가지 시나리오입니다.

자동

AWS Glue는 카탈로그 수준에서 자동 열 통계 생성을 지원하므로 AWS Glue Data Catalog의 새 테이블에 대한 통계를 자동으로 생성할 수 있습니다.

예약됨

AWS Glue는 열 통계 생성 예약을 지원하며, 반복 일정에 따라 자동으로 실행할 수 있습니다.

예약된 통계 계산을 통해 열 통계 작업은 최소, 최대, 평균과 같은 전체 테이블 수준 통계를 새 통계로 업데이트하고 쿼리 엔진에 쿼리 실행을 최적화하기 위한 정확한 최신 통계를 제공합니다.

온디맨드

필요할 때마다 온디맨드 방식으로 열 통계를 생성하려면 이 옵션을 사용합니다. 이 옵션은 임시 분석이나 통계를 즉시 계산해야 하는 경우에 유용합니다.

AWS Glue 콘솔, AWS CLI 및 AWS Glue API 작업을 사용하여 열 통계 생성 작업을 실행하도록 구성할 수 있습니다. 프로세스를 시작하면 백그라운드에서 AWS Glue가 Spark 작업을 시작하고 데이터 카탈로그의 AWS Glue 테이블 메타데이터를 업데이트합니다. AWS Glue 콘솔 또는 AWS CLI를 사용하거나 GetColumnStatisticsForTable API 작업을 직접적으로 호출하여 열 통계를 볼 수 있습니다.

참고

Lake Formation 권한을 사용하여 테이블에 대한 액세스를 제어하는 경우 열 통계 작업에서 맡은 역할을 수행하려면 통계를 생성하기 위한 전체 테이블 액세스 권한이 필요합니다.

다음 비디오에서는 열 통계를 사용하여 쿼리 성능을 향상시키는 방법을 설명합니다.

주제

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

MongoDB와 통합

사전 조건

다음 주제:

사전 조건

이전 주제:

MongoDB와 통합

도움이 필요하십니까?

쿠키 기본 설정 선택

쿠키 기본 설정 사용자 지정

필수

성능

기능

광고

쿠키 기본 설정을 저장할 수 없음

열 통계를 사용한 쿼리 성능 최적화

참고

주제

다음 주제:

이전 주제:

도움이 필요하십니까?

Related resources

페이지 내용이 도움이 되었습니까?

Related resources