압축 최적화
Apache Iceberg와 같은 오픈 테이블 형식을 사용하는 Amazon S3 데이터 레이크는 데이터를 S3 객체로 저장합니다. 데이터 레이크 테이블에 수천 개의 작은 Amazon S3 객체가 있으면 메타데이터 오버헤드가 증가하고 읽기 성능에 영향을 미칩니다. AWS Glue Data Catalog에서는 Iceberg 테이블의 관리형 압축을 제공하고, Amazon Athena 및 Amazon EMR, AWS Glue ETL 작업과 같은 AWS 분석 서비스를 통해 작은 객체를 큰 객체로 압축하여 읽기 성능을 높입니다. 데이터 카탈로그는 동시 쿼리를 방해하지 않으면서 압축을 수행하고 Parquet 형식 테이블에 대해서만 압축을 지원합니다.
테이블 옵티마이저는 테이블 파티션을 지속적으로 모니터링하여 파일 수 및 파일 크기가 임곗값을 초과할 경우 압축 프로세스를 시작합니다.
Data Catalog에서 압축 프로세스가 시작되고 테이블 또는 테이블 내 파티션에 5개가 넘는 파일이 있으며 파일 각각 대상 파일 크기(현재 64MB로 설정됨)의 75% 미만인 경우 계속됩니다.
지원되는 데이터 유형, 압축 형식 및 제한은 관리형 데이터 압축에 지원되는 형식 및 제한 사항 섹션을 참조하십시오.