열 통계 자동 생성을 사용하면 AWS Glue Data Catalog의 새 테이블에 대한 통계 생성을 예약하고 자동으로 계산할 수 있습니다. 자동 통계 생성을 활성화하면 Data Catalog는 개별 버킷 경로와 함께 Parquet, JSON, CSV, XML, ORC, ION, Apache Iceberg 등 특정 데이터 형식의 새 테이블을 검색합니다. 일회성 카탈로그 구성을 사용하면 Data Catalog가 이러한 테이블에 대한 통계를 생성합니다.
데이터 레이크 관리자는 Lake Formation 콘솔에서 기본 카탈로그를 선택하고 Optimization configuration
옵션을 사용하여 테이블 통계를 활성화하여 통계 생성을 구성할 수 있습니다. Data Catalog에서 새 테이블을 생성하거나 기존 테이블을 업데이트하면 Data Catalog는 Apache Iceberg 테이블의 고유 값(NDV) 수와 지원되는 다른 파일 형식의 null 수, 최댓값, 최솟값 및 평균 길이와 같은 추가 통계를 매주 수집합니다.
테이블 수준에서 통계 생성을 구성했거나 이전에 테이블에 대한 통계 생성 설정을 삭제한 경우 이러한 테이블별 설정이 자동 열 통계 생성에 대한 기본 카탈로그 설정보다 우선합니다.
자동 통계 생성 작업은 테이블의 레코드 중 20%를 분석하여 통계를 계산합니다. 자동 열 통계 생성을 통해, Amazon Athena 및 Amazon Redshift Spectrum과 같은 쿼리 엔진에서 쿼리 성능을 높이고 잠재적 비용을 절감하는 데 사용할 수 있는 최신 통계가 Data Catalog에서 제공됩니다. AWS Glue API 또는 콘솔을 사용하여 수작업 없이 자동화된 프로세스를 통한 통계 생성을 예약할 수 있습니다.