

# Iceberg 테이블 최적화
<a name="table-optimizers"></a>

AWS Glue에서는 AWS 분석 엔진 및 ETL 작업에서 사용되는 Apache Iceberg 테이블의 관리 및 성능을 개선하는 여러 테이블 최적화 옵션을 지원합니다. 이러한 최적화 프로그램은 효율적인 스토리지 활용, 향상된 쿼리 성능 및 효과적인 데이터 관리를 제공합니다. AWS Glue에서 사용할 수 있는 기본 옵티마이저에는 다음 세 가지 유형이 있습니다.
+ **압축** - 데이터 압축은 작은 데이터 파일을 압축하여 스토리지 사용량을 줄이고 읽기 성능을 향상시킵니다. 데이터 파일이 병합 및 재작성되어 불필요한 데이터를 제거하고 조각난 데이터를 더 크고 효율적인 파일로 통합합니다. 자동으로 실행되도록 압축을 구성할 수 있습니다.

  Binpack은 Apache Iceberg의 기본 압축 전략입니다. 최적의 성능을 위해 더 작은 데이터 파일을 더 큰 데이터 파일로 결합합니다. 압축은 유사한 데이터를 함께 클러스터링하는 Sort 및 Z-order 전략도 지원합니다. Sort는 지정된 열을 기반으로 데이터를 구성하여 필터링된 작업에 대한 쿼리 성능을 개선합니다. Z-order는 여러 열이 동시에 쿼리될 때 쿼리 성능을 향상시키는 정렬된 데이터 세트를 생성합니다. Binpack, Sort, Z-order의 세 가지 압축 전략은 모두 쿼리 엔진에서 스캔하는 데이터의 양을 줄여 쿼리 처리 비용을 줄입니다.
+ **스냅샷 보존** - 스냅샷은 Iceberg 테이블의 타임스탬프가 표시된 버전입니다. 스냅샷 보존 구성을 통해 고객은 스냅샷을 보존하는 기간과 보존할 스냅샷 수를 적용할 수 있습니다. 스냅샷 보존 최적화 프로그램을 구성하면 오래되고 불필요한 스냅샷과 연결된 파일을 제거하여 스토리지 오버헤드를 관리하는 데 도움이 될 수 있습니다.
+ **분리된 파일 삭제** - 분리된 파일은 Iceberg 테이블 메타데이터에서 더 이상 참조되지 않는 파일입니다. 이러한 파일은 시간이 지남에 따라 누적될 수 있으며, 특히 테이블 삭제 같은 작업이나 ETL 작업 실패 이후에 누적될 수 있습니다. 분리된 파일 삭제를 활성화하면 AWS Glue에서 이러한 불필요한 파일을 주기적으로 식별 및 제거하여 스토리지를 확보할 수 있습니다.

카탈로그 수준 최적화 구성은 Lake Formation 콘솔에서 AWS Glue `UpdateCatalog` API 작업을 통해 사용할 수 있습니다. AWS Glue 콘솔, AWS CLI 또는 AWS Glue API 작업을 사용하여 Data Catalog의 개별 Iceberg 테이블에 대한 압축, 스냅샷 보존 및 분리된 파일 삭제 최적화 프로그램을 활성화하거나 비활성화할 수 있습니다.

 다음 비디오는 데이터 카탈로그에서 Iceberg 테이블용 옵티마이저를 구성하는 방법을 보여줍니다.

[![AWS Videos](http://img.youtube.com/vi/xOXE7AS-pNA?si=lKvt_TSlPkoc6OXn/0.jpg)](http://www.youtube.com/watch?v=xOXE7AS-pNA?si=lKvt_TSlPkoc6OXn)


**Topics**
+ [테이블 최적화 필수 조건](optimization-prerequisites.md)
+ [카탈로그 수준 테이블 옵티마이저](catalog-level-optimizers.md)
+ [압축 최적화](compaction-management.md)
+ [스냅샷 보존 최적화](snapshot-retention-management.md)
+ [분리된 파일 삭제](orphan-file-deletion.md)
+ [최적화 세부 정보 보기](view-optimization-status.md)
+ [Amazon CloudWatch 지표 보기](view-optimization-metrics.md)
+ [옵티마이저 삭제](delete-optimizer.md)
+ [고려 사항 및 제한 사항](optimizer-notes.md)
+ [테이블 옵티마이저 지원 리전](regions-optimizers.md)